https://frosthead.com

Почему Google Flu Trends не может отследить грипп (пока)

В 2008 году Google анонсировал новый интригующий сервис под названием Google Flu Trends. Инженеры компании заметили, что некоторые поисковые запросы (например, те, которые включают в себя слова «лихорадка» или «кашель»), похоже, всплывали каждый сезон гриппа. Их идея заключалась в том, чтобы использовать частоту этих поисков для расчета общенациональных показателей заболеваемости гриппом быстрее, чем могло бы сделано с обычными данными (которые обычно собирают и анализируют несколько недель), давая людям понять, когда следует принять дополнительные меры предосторожности, чтобы избежать заражения вирусом.

Связанный контент

  • Как погодные модели и Google могут помочь в прогнозировании сезона гриппа
  • Большие данные или слишком много информации?

СМИ (включая этого репортера) поспешили поздравить Google с таким проницательным, инновационным и разрушительным использованием больших данных. Единственная проблема? Google Flu Trends работает не очень хорошо.

Служба постоянно завышала показатели заболеваемости гриппом по сравнению с традиционными данными, собранными впоследствии CDC, оценивая заболеваемость гриппом выше, чем она была на самом деле в течение 100 из 108 недель в период с августа 2011 г. по сентябрь 2013 г. В январе 2013 г., когда национальный показатели заболеваемости гриппом достигли своего пика, но оценки Google Flu Trends были в два раза выше реальных данных, и его неточность, наконец, начала привлекать внимание прессы

Наиболее распространенным объяснением несоответствия было то, что Google не принял во внимание рост числа запросов, связанных с гриппом, которые возникают в результате медийной истерии, которая происходит каждую зиму. Но на этой неделе в Science группа социальных ученых во главе с Дэвидом Лазером предлагает альтернативное объяснение: виноваты собственные настройки Google в алгоритме поиска.

По общему признанию посторонним трудно анализировать тенденции Google Flu, потому что компания не публикует конкретные поисковые термины, которые она использует в качестве необработанных данных, или конкретный алгоритм, который она использует для преобразования частоты этих терминов в оценки гриппа. Но исследователи сделали все возможное, чтобы вывести термины, используя Google Correlate, сервис, который позволяет вам наблюдать за показателями конкретных поисковых запросов с течением времени.

Когда за последние несколько лет исследователи сделали это для различных запросов, связанных с гриппом, они обнаружили, что несколько ключевых поисков (те, которые относятся к лечению гриппа, и те, кто спрашивает, как отличить грипп от простуды), отслеживались более тесно с Google Flu Оценки тенденций, чем с фактическими показателями заболеваемости гриппом, особенно когда Google переоценил распространенность заболевания. Эти конкретные поиски, по-видимому, могут быть огромной частью проблемы неточности.

Есть еще одна веская причина подозревать, что это может быть так. В 2011 году, как часть одной из своих регулярных настроек алгоритма поиска, Google начал рекомендовать связанные поисковые запросы по многим запросам (в том числе перечислять поиск для лечения гриппа после того, как кто-то погуглил многие связанные с гриппом термины), а в 2012 году компания начала предоставлять потенциальные диагнозы. в ответ на симптомы при поиске (в том числе перечисление «гриппа» и «простуды» после поиска, включающего, например, фразу «боль в горле», возможно, побуждающего пользователя искать, как провести различие между ними). Исследователи утверждают, что эти изменения, вероятно, искусственно привели к увеличению числа поисковых запросов, которые они определили как переоценку Google.

Конечно, если бы эта гипотеза была верна, это не означало бы, что Google Flu Trends неизбежно обречен на неточность, просто это нужно обновить, чтобы учесть постоянные изменения поисковой системы. Но Лазер и другие исследователи утверждают, что отслеживание гриппа из больших данных является особенно сложной проблемой.

Оказывается, что огромная доля поисковых терминов, которые соотносятся с данными CDC о показателях заболеваемости гриппом, вызвана не людьми, заболевающими гриппом, а третьим фактором, который влияет как на шаблоны поиска, так и на передачу вируса: зимой. Фактически, разработчики Google Flu Trends сообщили, что сталкивались с конкретными терминами - например, относящимися к баскетболу в старших классах школы - которые коррелировали с показателями заболеваемости гриппом с течением времени, но явно не имели ничего общего с вирусом.

Со временем инженеры Google вручную удалили многие термины, которые коррелируют с поиском по гриппу, но не имеют ничего общего с гриппом, но их модель явно все еще слишком зависела от сезонных тенденций поиска без гриппа - одна из причин, по которым Google Flu Trends не отражала Эпидемия гриппа H1N1 2009 года, которая произошла летом. Авторы научной статьи пишут, что в своих ранних версиях Google Flu Trends был «детектором гриппа, детектором зимы».

Но все это может стать уроком для использования больших данных в таких проектах, как Google Flu Trends, а не общим обвинением в этом, считают исследователи. Если его правильно обновить, чтобы учесть изменения в собственном алгоритме Google и тщательно проанализировать для устранения чисто сезонных факторов, это может быть полезно при документировании общенациональных показателей заболеваемости гриппом, особенно в сочетании с обычными данными.

В качестве теста исследователи создали модель, которая объединила данные Google Flu Trends (которые в основном представлены в режиме реального времени, но потенциально неточны) с двухнедельными данными CDC (которые датированы, потому что для их сбора требуется время, но они все еще могут быть несколько показателен текущий уровень заболеваемости гриппом). Их гибрид соответствовал фактическим и текущим данным о гриппе гораздо более точно, чем один только Google Flu Trends, и предоставил способ получить эту информацию намного быстрее, чем ожидание двух недель для обычных данных.

«Наш анализ Google Flu демонстрирует, что наилучшие результаты получаются при объединении информации и методов из обоих источников», - заявил Райан Кеннеди, профессор и соавтор политологии Университета Хьюстона. «Вместо того чтобы говорить о« революции больших данных », мы должны обсуждать« революцию всех данных ».

Почему Google Flu Trends не может отследить грипп (пока)