https://frosthead.com

Ваши твиты могут предсказать, когда вы заболеете гриппом

В 1854 году, в ответ на разрушительную эпидемию холеры, которая охватила Лондон, британский доктор Джон Сноу представил идею, которая произвела бы революцию в области общественного здравоохранения: эпидемиологическая карта. Записав случаи холеры в разных районах города и нанеся их на карту, основанную на местонахождении пациентов, он обнаружил, что один загрязненный водяной насос является причиной многих инфекций.

Карта убедила его - и, в конечном счете, государственные органы - в том, что теория болезни миазмов (которая утверждала, что болезни распространяются через вредные газы) была ложной, и что теория микробов (которая правильно утверждала, что виноваты микроорганизмы) была верной. Они установили замок на ручке насоса, ответственного за вспышку, сигнализируя о смене парадигмы, которая навсегда изменила наше отношение к инфекционным заболеваниям и, следовательно, к санитарии.

Технология картирования совершенно иная, как и болезнь, но есть определенное сходство между картой Сноу и новым проектом, проведенным группой исследователей во главе с Генри Каутцем из Университета Рочестера. Создавая алгоритмы, которые могут выявлять тенденции гриппа и делать прогнозы на основе ключевых слов в общедоступных твитах с геотегами, они применяют новый подход к изучению передачи болезней - тот, который может изменить способ нашего изучения и отслеживания движения болезней в обществе.,

«Мы можем думать о людях как о сенсорах, которые смотрят на окружающий их мир и затем сообщают о том, что они видят и испытывают в социальных сетях», - объясняет Каутц. «Это позволяет нам проводить подробные измерения в масштабе всего населения и не требует активного участия пользователей».

Другими словами, когда мы пишем в Твиттере, что нас только что унизили болезненный кашель и лихорадка, мы невольно предоставляем богатые данные для огромного эксперимента в области общественного здравоохранения, информацию, которую исследователи могут использовать для отслеживания распространения таких заболеваний, как грипп. в высоком разрешении и в реальном времени.

Проект Kautz, названный SocialHealth, использовал твиты и другие виды социальных сетей для отслеживания целого ряда проблем общественного здравоохранения - недавно они начали использовать твиты для мониторинга случаев пищевого отравления в ресторанах Нью-Йорка, регистрируя всех, кто разместил геотегом твиты из ресторана, затем следуют за их твитами в течение следующих 72 часов, проверяя наличие упоминаний о рвоте, диарее, боли в животе, лихорадке или ознобе. При этом они обнаружили 480 вероятных случаев пищевого отравления.

Но по мере того, как меняется сезон, именно их работа по отслеживанию вируса гриппа становится самой открытой. Google Flu Trends также пытался использовать поисковики Google для отслеживания распространения гриппа, но модель сильно переоценила вспышку прошлого года, возможно, потому, что освещение гриппа в СМИ побудило людей начать делать запросы, связанные с гриппом. Анализ Twitter представляет новый набор данных с несколькими качествами - более высоким географическим разрешением и способностью фиксировать движение пользователя с течением времени - который может дать лучшие прогнозы.

Чтобы начать свой проект по отслеживанию гриппа, исследователи SocialHealth специально изучали Нью-Йорк, собирая около 16 миллионов публичных твитов с геотегами в месяц от 600 000 пользователей в течение трех месяцев. Ниже приведен промежуток времени одного нью-йоркского дня в Твиттере, где разные цвета представляют разные частоты твитов в этом месте (синий и зеленый означают меньше твитов, оранжевый и красный означают больше):

Чтобы использовать все эти данные, его команда разработала алгоритм, который определяет, представляет ли каждый твит сообщение о симптомах гриппа. Ранее другие исследователи просто делали это путем поиска ключевых слов в твитах (например, «больной»), но его команда обнаружила, что этот подход приводит к ложным срабатываниям: гораздо больше пользователей пишут в Твиттере, что им надоело домашнее задание, чем они. чувствую себя больным

Чтобы учесть это, алгоритм его команды ищет три слова подряд (вместо одного) и учитывает, как часто конкретная последовательность указывает на болезнь, основываясь на наборе твитов, которые они помечали вручную. Например, фраза «больной гриппом» сильно коррелирует с болезнью, в то время как «больной и усталый» - меньше. Некоторые конкретные слова - головная боль, лихорадка, кашель - тесно связаны с болезнью, независимо от того, из какой последовательности из трех слов они состоят.

После того, как эти миллионы твитов были закодированы, исследователи могли сделать с ними несколько интригующих вещей. Для начала, они посмотрели на изменения в твитах, связанных с гриппом, с течением времени, и сравнили их с уровнями гриппа, о которых сообщал CDC, подтверждая, что твиты точно отражали общую тенденцию в показателях гриппа. Однако, в отличие от данных CDC, они доступны практически в режиме реального времени, а не через неделю или две после факта.

Но они также углубились, рассматривая взаимодействия между разными пользователями - представленные двумя пользователями, которые пишут в Твиттере из одного места (разрешение GPS составляет около половины городского квартала) в течение одного часа - чтобы смоделировать вероятность того, что здоровый человек заболел бы после контакта с кем-то с гриппом. Очевидно, что два человека, пишущих в Твиттере из одного и того же блока на расстоянии 40 минут, не обязательно встречались лично, но вероятность того, что они встретились, немного выше, чем у двух случайных пользователей.

В результате, когда вы смотрите на достаточно большой набор данных взаимодействий, появляется картина передачи. Они обнаружили, что если здоровый пользователь встречает 40 других пользователей, которые сообщают о себе как о больных с симптомами гриппа, его или ее шансы получить симптомы гриппа на следующий день увеличиваются с менее чем одного процента до 20 процентов. При 60 взаимодействиях это число возрастает до 50 процентов.

Команда также рассмотрела взаимодействие в самом Твиттере, изолировав пары пользователей, которые следуют друг за другом, и назвав их «дружескими отношениями». Несмотря на то, что многие отношения в Твиттере существуют только в Интернете, некоторые соответствуют реальным взаимодействиям, и они обнаружили, что пользователь у которого есть десять друзей, которые сообщают о себе как о больных, на 28 процентов чаще болеют на следующий день. В целом, используя оба этих типа взаимодействий, их алгоритм смог предсказать, может ли здоровый человек заболеть (и сообщить об этом в Твиттере) с точностью до 90 процентов.

Мы все еще находимся на ранних стадиях этого исследования, и существует множество ограничений: большинство людей все еще не используют Twitter (да, действительно), и даже если они это сделают, они могут не писать в Твиттере о том, как заболеть.

Но если такую ​​систему можно развивать и дальше, легко представить все виды приложений. Например, ваш смартфон может автоматически предупредить вас, если вы слишком много времени проводите в местах, где люди болеют гриппом, и попросить вас пойти домой, чтобы прекратить путь заражения. Жителей всего города можно было бы даже предупредить, если бы он был на грани вспышки.

Несмотря на то, что 150 лет мы удалены от прорыва в картировании болезней Джона Сноу, ясно, что есть еще аспекты информации о болезнях, которые мы не до конца понимаем. Теперь, как и тогда, отображение данных может помочь получить ответы.

Ваши твиты могут предсказать, когда вы заболеете гриппом