https://frosthead.com

Как искусственный интеллект может революционизировать исследования архивного музея

Когда вы думаете об искусственном интеллекте, область ботаники, вероятно, не является вашей главной задачей. Когда вы рисуете настройки для передовых вычислительных исследований, столетние музеи могут не возглавлять список. И все же, только что опубликованная статья в Журнале биоразнообразия показывает, что некоторые из самых захватывающих и значительных инноваций в машинном обучении происходят не иначе как в Национальном гербарии Национального музея естественной истории в Вашингтоне, округ Колумбия.

В документе, демонстрирующем, что цифровые нейронные сети способны различать два одинаковых семейства растений с показателями точности, превышающими 90 процентов, подразумеваются всевозможные аппетитные возможности для ученых и ученых в будущем. Исследование опирается на программное обеспечение, основанное на алгоритмах «глубокого обучения», которые позволяют компьютерным программам накапливать опыт практически так же, как это делают специалисты-люди, повышая свою игру при каждом запуске. Вскоре эта технология может позволить провести сравнительный анализ миллионов различных образцов со всех уголков земного шара - предложение, которое ранее требовало бы невыносимого количества человеческого труда.

«Это направление исследований показывает многообещающие результаты», - говорит профессор Стэнфордского университета Марк Алджи-Хьюитт, известный специалист по цифровому гуманитарному движению и помощник директора факультета в Центре пространственного и текстового анализа университета. «Эти методы способны дать нам огромное количество информации о том, что содержат коллекции, - говорит он, - и при этом они делают эти данные доступными».

Эти новые выводы основаны на многолетней работе, проведенной в Смитсоновском институте по систематической оцифровке его коллекций для академического и публичного доступа в Интернете, и представляют собой замечательное междисциплинарное собрание умов: ботаники, эксперты по оцифровке и ученые, занимающиеся данными, должны были сыграть свою роль в обеспечении этих результаты на свет.

История начинается в октябре 2015 года, когда установка устройства камеры и конвейерной ленты под Музеем естественной истории значительно упростила усилия по оцифровке ботанической коллекции Смитсоновского института. Вместо того, чтобы вручную сканировать каждый нажатый цветок и пучок травы в своем хранилище, рабочие теперь могли ставить в очередь целые массивы образцов, позволять поясу творить свою магию, а также извлекать и повторно каталогизировать их в хвостовой части. Экипаж из трех человек наблюдал за поясом с момента его дебюта, и каждый год он проходит около 750 000 образцов. Вскоре гербарий Смитсоновского института, насчитывающий пять миллионов экземпляров, будет полностью онлайн.

Каждый образец помечен полной идентификационной карточкой, которая предоставляет информацию о его происхождении, а также важные статистические данные. Содержимое этих карточек было переписано и загружено вместе с цифровыми изображениями, предоставляя исчерпывающий обзор каждого предмета в коллекции для тех, кто склонен к поиску.

В оцифрованном ботаническом архиве Смитсоновского института изображения образцов с высоким разрешением соединены с прикрепленными к ним расшифровками удобных идентификационных меток. В оцифрованном ботаническом архиве Смитсоновского института изображения образцов с высоким разрешением соединены с прикрепленными к ним расшифровками удобных идентификационных меток. (Национальный музей естествознания)

«Это делает нашу коллекцию доступной для всех, у кого есть компьютер и подключение к интернету, - говорит заведующий кафедрой ботаники музея Лоуренс Дорр, - что отлично подходит для ответов на некоторые вопросы». Несмотря на это, Дорр обнаружил, что не может избавиться от ощущения неиспользованного потенциала, Конечно, огромное количество данных об образцах теперь было доступно онлайн-сообществу, но анализ их в целом оставался фантастическим. Поиск отдельных образцов и небольших категорий образцов был достаточно легким, но Дорр задумался, существует ли способ использовать данные, чтобы сделать выводы о тысячах образцов. «Что вы можете сделать с этими данными?» - вспоминает он с удивлением. Человек по имени Адам Металло вскоре дал убедительный ответ.

Металло, сотрудник отдела программ оцифровки Смитсоновского института, присутствовал на конференции, на которой технологический гигант NVIDIA - дорогой геймер ПК во всем мире - демонстрировал графические процессоры следующего поколения или графические процессоры. Металло искал способы улучшить возможности трехмерного цифрового рендеринга Смитсоновского института, но это был в значительной степени несвязанный самородок информации, который привлек его внимание и застрял с ним. По его словам, помимо создания динамичных 3D-изображений высокой четкости графические процессоры NVIDIA хорошо подходят для анализа больших данных. В частности, усиленные графические процессоры были как раз тем, что требовалось для интенсивного распознавания цифровых изображений; Многие алгоритмы машинного обучения были оптимизированы для платформы NVIDIA.

Металло был сразу заинтригован. Эта технология «глубокого обучения», уже внедренная в нишевых секторах, таких как самостоятельная разработка автомобилей и медицинская радиология, обладала огромным потенциалом для мира музеев, который, как подчеркивает Металло, представляет собой «самый большой и самый старый набор данных, к которому у нас теперь есть доступ». к «.

«Что это значит для больших наборов данных, которые мы создаем в Смитсоновском институте путем оцифровки?» - хотел знать Металло. Его вопрос отлично отражал вопрос Лоуренса Дорра, и как только они соединились, искры начали летать. «Коллекция ботаники была одной из самых больших коллекций, над которой мы работали совсем недавно», - вспоминает Металло. Сотрудничество предложило себя.

В то время как многие формы машинного обучения требуют, чтобы исследователи отмечали ключевые математические маркеры на анализируемых изображениях - кропотливый процесс, который сводится к удержанию руки компьютера, - современные алгоритмы глубокого обучения могут сами научиться, какие маркеры искать в работе, экономя время и открытие двери для более масштабных запросов. Тем не менее, написание Смитсоновской программы глубокого обучения и калибровка ее для отдельных вопросов ботанических исследований было непростым делом - Дорру и Металло требовалась помощь ученых-данных, чтобы воплотить свое видение в реальность.

Специалисты по данным собирают обучающие образцы для нейронной сети, во время которых Пол Фрэндсен вспоминает, как Специалисты по данным собирают обучающие образцы для нейронной сети, которые Пол Фрэндсен вспоминает как «холодный январский день». (Национальный музей естествознания)

Одним из специалистов, которых они привели на борт, был ученый из Смитсоновского института исследований Пол Фрэндсен, который сразу же осознал потенциал создания нейронной сети на базе графического процессора NVIDIA для использования в коллекции ботаники. Для Франдсена этот проект символизировал первый шаг по прекрасному и неизведанному пути. Вскоре, говорит он, «мы начнем искать морфологические паттерны в глобальном масштабе, и мы сможем ответить на эти действительно большие вопросы, которые традиционно занимали бы тысячи или миллионы человеческих часов, просматривая литературу и классификация вещей. Мы собираемся использовать алгоритмы, чтобы помочь нам найти эти шаблоны и узнать больше о мире ».

Только что опубликованные результаты являются ярким подтверждением концепции. Исследование, созданное группой из девяти человек во главе с ботаником-исследователем Эриком Шюттпельцем и специалистами по данным Полом Франдсеном и Ребеккой Диков, ставит своей целью ответить на два масштабных вопроса о машинном обучении и гербарии. Во-первых, насколько эффективна обученная нейронная сеть для сортировки окрашенных ртутью образцов от незапятнанных. Во-вторых, основной момент статьи - насколько эффективна такая сеть для дифференциации представителей двух поверхностно сходных семейств растений, а именно семейств папоротников Lycopodiaceae и Selaginellaceae .

Первое испытание требовало, чтобы команда заранее провела тысячи образцов, точно указав, какие из них были явно загрязнены ртутью (пережиток устаревших методов сохранения растений). Они хотели быть уверены, что они знали со 100-процентной уверенностью, что были запятнаны, а какие - нет, иначе оценка точности программы была бы невозможна. Команда собрала почти 8 000 изображений чистых образцов и еще 8 000 окрашенных образцов для тренировки и тестирования компьютера. К тому времени, как они закончили настройку параметров нейронной сети и отозвали всю помощь человека, алгоритм классифицировал образцы, которые он никогда не видел прежде, с точностью до 90 процентов. Если отбрасывать самые неоднозначные образцы, например те, у которых окрашивание было минимальным и / или очень слабым, эта цифра возрастала до 94 процентов.

Этот результат подразумевает, что программное обеспечение для глубокого обучения может вскоре помочь ботаникам и другим ученым избежать потери времени на утомительные задачи сортировки. «Проблема не в том, что человек не может определить, окрашен ли образец ртутью, - поясняет Металло, а скорее -« трудно вручную разобраться и выяснить, где существует загрязнение », и он не имеет смысла сделать это с точки зрения управления временем. К счастью, машинное обучение может превратить основное время в самое большее в несколько дней быстрого автоматизированного анализа.

Одновременное порождение образцов требует много энергии и затрудняет получение крупномасштабных выводов. Теперь аналитика больших данных предоставляет музеям новые способы доступа к их коллекциям. Одновременное порождение образцов требует много энергии и затрудняет получение крупномасштабных выводов. Теперь аналитика больших данных предоставляет музеям новые способы доступа к их коллекциям. (Арнольд Дендрарий)

Часть исследования о дискриминации видов еще более захватывающая. Исследователи обучили и протестировали нейронную сеть с примерно 9 300 пробками клубного мха и 9100 пробами колючего мха. Как и в эксперименте с окрашиванием, около 70 процентов этих образцов были использованы для начальной калибровки, 20 процентов были использованы для уточнения, а последние 10 процентов были использованы для формальной оценки точности. Как только код был оптимизирован, показатель успеха компьютера в различении двух семейств составил 96 процентов - и почти идеальные 99 процентов, если самые сложные образцы были опущены.

Однажды, размышляет Фрэндсен, подобные программы могут обрабатывать предварительную категоризацию образцов в музеях по всему миру. «Я ни в коем случае не думаю, что эти алгоритмы сделают что-либо для замены кураторов, - быстро замечает он, - но вместо этого я думаю, что они могут помочь кураторам и людям, занимающимся систематикой, быть более продуктивными, поэтому они могут много выполнять свою работу. быстрее."

Успех нейронной сети в этом исследовании также прокладывает путь для быстрого тестирования научных гипотез в огромных коллекциях. В выводах команды Дорр видит возможность проведения обширных морфологических сравнений оцифрованных образцов - сравнений, которые могут привести к значительным научным достижениям.

Это не означает, что глубокое обучение будет серебряной пулей в исследованиях по всем направлениям. Марк Алджи-Хьюитт из Стэнфорда отмечает, что «почти невозможно восстановить, почему и как нейронная сеть принимает свои решения» после того, как это было обусловлено; Определения, оставленные компьютерным программам, всегда должны быть простыми и проверяемыми по своему характеру, если они заслуживают доверия.

«Очевидно, - говорит Дорр, автономная компьютерная программа, « не собирающаяся проверять генетические отношения и тому подобное »- по крайней мере, в ближайшее время. «Но мы можем начать узнавать о распределении характеристик по географическим регионам или по таксономическим единицам. И это будет действительно мощно ».

Более всего, это исследование является отправной точкой. Теперь ясно, что технология глубокого обучения дает большие надежды ученым и другим ученым во всем мире, а также любопытной публике, для которой они производят знания. То, что остается, является строгой последующей работой.

«Это маленький шаг, - говорит Франдсен, - но это шаг, который действительно говорит нам, что эти методы могут работать на оцифрованных музейных экспонатах. Мы с нетерпением ждем возможности запустить еще несколько проектов в ближайшие несколько месяцев, чтобы попытаться еще больше проверить его границы ».

Как искусственный интеллект может революционизировать исследования архивного музея