https://frosthead.com

Большие данные становятся больше, поскольку Уотсон из IBM встречает энциклопедию жизни

Через 2000 лет окончательная жизненная энциклопедия находится на пороге новой управляемой данными эры. Грант Национального научного фонда был присужден Энциклопедии Жизни (EOL), IBM и Технологическому институту Джорджии. Грант позволит обрабатывать огромные объемы данных и осуществлять перекрестную индексацию таким образом, чтобы это позволило сделать новаторскую науку.

Связанный контент

  • Предлагаемая новая морская резервная система предлагает радужные перспективы как для омаров, так и для рыбаков-омаров

В 77 году нашей эры Плиний Старший начал писать первую в мире энциклопедию « Естествознание». Это включало в себя все: от астрономии до ботаники, от зоологии до антропологии и многое другое. Плиний попытался объединить все, что мог лично собрать о мире природы, в одно письменное произведение. В течение последних 2000 лет многие ученые, вдохновленные Плинием, преследовали одно и то же видение.

Плиний включил 20 000 тем в 36 томов, но столкнулся с ограничениями того, что один человек может обнаружить, записать и обработать в течение жизни человека. Он умер во время извержения горы Везувий, прежде чем он смог закончить окончательное редактирование своего опус магнум. Даже в его собственную эпоху один человек не мог прочитать все книги, выучить все и объяснить всему миру.

Как обнаружили более поздние ученые, редакторы и библиотекари в мире, который с каждым годом добавляет все больше письменных знаний, даже если вы можете хранить все книги и исследования в мире в одном здании, задача сделать всю необходимую информацию доступной для исследователи во время ограничения их коротких человеческих жизней.

EOL может изменить это, применяя современные вычислительные возможности для разрозненных коллекций биологических данных. Проект представляет собой бесплатную и открытую цифровую коллекцию фактов, статей и мультимедиа о биоразнообразии, одну из крупнейших в мире. EOL со штаб-квартирой в Смитсоновском институте и ее 357 партнерами и поставщиками контента, включая Гарвардский университет и Новую Александрийскую библиотеку в Египте, выросла с 30 000 страниц в 2008 году до более 2 миллионов с 1, 3 миллионами страниц текста и карт., видео, аудио и фотографии, а также поддерживает 20 языков.

«Я пришел в Smithsonian в 2010 году из индустрии программного обеспечения», - говорит директор EOL Боб Корриган. «Одно из открытий, которое я сделал, придя сюда, заключается в том, что, хотя ИТ повсюду, оно не проникло в мир музеев так же, как оно проникло в коммерческий мир. Особенно в биологии самые важные данные были закопаны в учебниках и таблицах ».

Как биологические данные в различных формах могут быть объединены и добыты для нового понимания жизни на Земле? Что если данные о, скажем, биоразнообразии бабочек в Африке за десятилетие были объединены с данными о методах ведения сельского хозяйства и количестве осадков? Можно ли узнать что-то новое? Для этого требуется нечто большее, чем человеческий мозг. Что-то вроде суперкомпьютера IBM Watson.

«IBM делает все возможное и обеспечивает доступ к версии [Watson], которая не является общедоступной», - говорит Дженнифер Хэммок, программный директор EOL. «У них также будут люди, работающие над этим. IBM делает это как вклад в натуральной форме ».

Watson - это суперкомпьютер, который не просто обрабатывает цифры в больших объемах. Он использует искусственный интеллект, чтобы пользователи могли задавать вопросы на понятном языке.

«Я бы сказал, с точки зрения пользователя, это означает, что к базе данных можно подойти и задать вопрос, как если бы вы были человеком», - говорит Гамак. «Например, вы можете сказать мне, если эта фиолетовая бабочка встречается в Африке?»

«Ответ на простой вопрос на любом языке предполагает наличие большого количества скрытых знаний», - говорит Корриган. «Даже [слово] фиолетовый, это предполагает, что мы знаем, что такое фиолетовый. Или бабочка, [компьютер] должен понимать разницу между бабочкой и мотыльком. Вдобавок к этому сами наборы данных по-разному относятся к этим различным терминам. Все эти данные было трудно добыть без Розеттского термина. И это часть волшебства того, что делает EOL ».

Один научный вопрос, который партнерство EOL, IBM и Georgia Tech надеется решить, - это парадокс планктона.

По словам Гамака, ученые, работающие с компьютерным моделированием, «пытаются смоделировать то, что происходит в океане, говоря, что солнце светит и водоросли растут., , это грубое приближение, но они не могут [сделать компьютерную модель экосистемы] стабильной. Они идут на некоторое время, а затем они терпят крах. Потому что они слишком простые. Они надеются, что если они смогут показать немного больше разнообразия в своей моделируемой биосфере, они станут более стабильными., , Парадокс: как существует океанская биосфера? Почему он не падает?

«Люди сидят на данных», - говорит Корриган. «Есть невероятные резервуары измерений биоразнообразия по всей планете. Я получаю много телефонных звонков от людей, которые сидят на этих данных и хотят помочь в их переводе в более широкий контекст. Это важно, потому что мы находимся в гонке, чтобы изучить эту планету и узнать, как наше развитие напрягает наши очень ограниченные ресурсы., , Смитсоновский институт может сыграть роль в увеличении знаний из всех этих источников и стать реальной силой для их распространения ».

Четверть гранта в размере 1 млн. Долл. США будет присуждена компании Smithsonian за ее долю работы, но EOL включает в себя множество других игроков. Некоторые разработчики находятся в Египте; образовательная команда базируется из Гарварда; и отделение испанского языка находится в Мехико.

Все данные EOL будут по-прежнему находиться в открытом доступе или лицензироваться Creative Commons. Исследование и данные предназначены для публичного доступа и не спрятаны за платным доступом.

«Это очень старая мечта», - говорит Гамак. «Один человек, вероятно, не может выучить все это. Трудно поместить все в одно место, где это можно сознательно проверить против самого себя. Но теперь у нас есть компьютеры ».

Плиний был бы либо очень доволен, либо очень ревнивым.

Большие данные становятся больше, поскольку Уотсон из IBM встречает энциклопедию жизни