НОВЫЙ АЙ ОТ GOOGLE - МАСТЕР ИГР, НО КАК ОН СООТНОСИТСЯ С ЧЕЛОВЕЧЕСКИМ РАЗУМОМ? | ИННОВАЦИИ | СМИТСОНОВСКИЙ - СТАТЬИ, ИННОВАЦИИ, ТЕХНОЛОГИИ, НАУКА

Для людей шахматы могут занять всю жизнь, чтобы освоить. Но новая программа искусственного интеллекта Google DeepMind, AlphaZero, может научить себя покорять доску за считанные часы.

Опираясь на свой прошлый успех с набором AlphaGo - серией компьютерных программ, предназначенных для игры в китайскую настольную игру Go, - Google гордится тем, что его новый AlphaZero достигает уровня «сверхчеловеческой производительности» не только в одной настольной игре, но и в трех: Go, шахматы и сёги (по сути, японские шахматы). Команда компьютерных ученых и инженеров, возглавляемая Дэвидом Сильвером из Google, недавно сообщила о своих выводах в журнале Science .

«До этого, с помощью машинного обучения, вы могли заставить машину делать именно то, что вы хотите - но только эту вещь», - говорит Аянна Ховард, эксперт по интерактивным вычислениям и искусственному интеллекту в Технологическом институте Джорджии, которая не участвовала в исследование. «Но AlphaZero показывает, что у вас может быть алгоритм, который не настолько специфичен, и он может учиться по определенным параметрам».

Умное программирование AlphaZero, безусловно, повышает ставку на игровой процесс как для людей, так и для машин, но Google уже давно нацелился на нечто большее: инженерный интеллект.

Исследователи стараются не утверждать, что AlphaZero находится на грани мирового господства (другие стали немного быстрее прыгать). Тем не менее, Сильвер и остальная часть команды DeepMind уже надеются, что когда-нибудь они увидят подобную систему, применяемую для разработки лекарств или материаловедения.

Так что же делает AlphaZero таким впечатляющим?

Игровой процесс уже давно почитается как золотой стандарт в исследованиях искусственного интеллекта. Структурированные интерактивные игры - это упрощение сценариев реального мира: необходимо принимать сложные решения; выигрыши и поражения повышают ставки; и прогнозирование, критическое мышление и стратегия являются ключевыми.

Кодировать этот вид навыка сложно. Старые игровые ИИ, в том числе первые прототипы оригинального AlphaGo, традиционно полны кодов и данных, имитирующих опыт, который обычно получается за годы естественного, человеческого игрового процесса (по сути, пассивного дампа знаний, полученных программистами). С AlphaGo Zero (самая последняя версия AlphaGo), а теперь и с AlphaZero, исследователи дали программе только один вход: правила рассматриваемой игры. Затем система села на корточки и активно изучала хитрости самой торговли.

AlphaZero основан на AlphaGo Zero, части пакета AlphaGo, предназначенного для игры в китайскую настольную игру Go, изображенную выше. На ранних итерациях исходной программы использовались данные игр «человек против человека»; более поздние версии занимались самообучением, когда программное обеспечение играло в игры против себя, чтобы изучить свою собственную стратегию. (Чад Миллер / Flickr / CC BY-SA 2.0)

Эта стратегия, называемая самообучающим обучением для подкрепления, в точности соответствует звучанию: чтобы тренироваться в высшей лиге, AlphaZero играла себя в итерации за итерацией, оттачивая свои навыки методом проб и ошибок. И подход грубой силы окупился. В отличие от AlphaGo Zero, AlphaZero не просто играет в Го: он также может побить лучших ИИ в бизнесе в шахматах и сёги. Процесс обучения также впечатляюще эффективен и требует только двух, четырех или 30 часов самообучения, чтобы превзойти программы, специально предназначенные для овладения сёги, шахматами и го, соответственно. Примечательно, что авторы исследования не сообщали ни о каких случаях AlphaZero, встречающихся лицом к лицу с реальным человеком, говорит Говард. (Исследователи, возможно, предположили, что, учитывая, что эти программы постоянно ударяют своих человеческих коллег, такое совпадение было бы бессмысленным.)

AlphaZero также смогла побороть Stockfish (ныне не находящегося в поле зрения мастера ИИ по шахматам) и Элмо (бывшего эксперта по сёги ИИ), несмотря на то, что во время игры они оценивали меньшее количество возможных последующих ходов на каждом ходу. Но поскольку рассматриваемые алгоритмы по своей сути различны и могут потреблять разное количество энергии, сложно напрямую сравнить AlphaZero с другими, более старыми программами, отмечает Джоанна Брайсон, которая изучает искусственный интеллект в Университете Бата в Соединенном Королевстве и занималась этим. не вносить вклад в AlphaZero.

Google хранит молчание о большом количестве мелкого шрифта в своем программном обеспечении, и AlphaZero не является исключением. Хотя мы не знаем все о энергопотреблении программы, все ясно: AlphaZero должен быть упакован в некоторые серьезные вычислительные боеприпасы. В те скудные часы тренировок, программа была очень занята, проводя десятки или сотни тысяч тренировочных раундов, чтобы довести свою стратегию настольных игр до нуля - гораздо больше, чем нужно человеку (или, в большинстве случаев, может даже выполнить) в погоне за мастерством.

В этом интенсивном режиме также использовалось 5000 запатентованных процессоров машинного обучения Google, или TPU, которые, по некоторым оценкам, потребляют около 200 Вт на чип. Независимо от того, как вы нарежете, AlphaZero требует гораздо больше энергии, чем человеческий мозг, который работает на 20 ваттах.

Абсолютное потребление энергии AlphaZero должно быть принято во внимание, добавляет Бин Ю, который работает на стыке статистики, машинного обучения и искусственного интеллекта в Университете Калифорнии, Беркли. AlphaZero является мощным, но, возможно, не очень удачным решением, особенно при добавлении человеко-часов, затраченных на его создание и выполнение.

Энергетически дорогой или нет, AlphaZero делает сенсацию: большинство ИИ гиперспециализированы на одной задаче, что делает эту новую программу - с ее тройной угрозой игрового процесса - удивительно гибкой. «Впечатляет, что AlphaZero смогла использовать одну и ту же архитектуру для трех разных игр», - говорит Юй.

Так да. Новый искусственный интеллект Google устанавливает новую марку несколькими способами. Это быстро. Это мощно. Но делает ли это это умным?

Это где определения начинают становиться мутными. «AlphaZero удалось научиться, начиная с нуля, без каких-либо человеческих знаний, играть в каждую из этих игр до сверхчеловеческого уровня», - говорится в заявлении Silver для DeepMind Silver.

Даже если опыт настольной игры требует умственной остроты, все прокси для реального мира имеют свои пределы. В своей нынешней итерации AlphaZero добивается максимальных результатов, выигрывая игры, созданные человеком, что, возможно, не оправдывает потенциально тревожный ярлык «сверхчеловека». Кроме того, в случае удивления новым набором правил в середине игры AlphaZero может потерпеть фиаско. С другой стороны, настоящий человеческий мозг может хранить в своем репертуаре гораздо больше трех настольных игр.

Более того, по словам Брайсона, сравнение базовой линии AlphaZero с tabula rasa («чистым листом») - как это делают исследователи - является натяжкой. Программисты все еще подпитывают его одним из важнейших кусочков человеческих знаний: правилами игры, в которую он собирается играть. «У него гораздо меньше времени, чем раньше», - добавляет Брайсон, - «но самое главное, ему все еще даны правила». Это явно.

И эти противные правила могут составить существенную опору. «Несмотря на то, что эти программы учатся выполнять, им нужны правила дорожного движения», - говорит Ховард. «Мир полон задач, у которых нет этих правил».

Когда дело доходит до толчка, AlphaZero представляет собой обновление и без того мощной программы - AlphaGo Zero, объясняет Джоанн Пол, которая изучает искусственный интеллект и вычислительные сновидения в Политехническом институте и государственном университете штата Вирджиния и не участвовала в новых исследованиях. AlphaZero использует многие из тех же строительных блоков и алгоритмов, что и AlphaGo Zero, и все еще составляет лишь подмножество истинных умов. «Я думала, что это новое развитие скорее эволюционное, чем революционное», - добавляет она. «Ни один из этих алгоритмов не может создать . Интеллект также о рассказывании историй. Это воображение вещей, которых еще нет. Мы не думаем в этих терминах о компьютерах ».

Отчасти проблема в том, что до сих пор нет единого мнения об истинном определении «интеллекта», говорит Ю - и не только в области технологий. «До сих пор неясно, как мы тренируем критически мыслящих существ или как мы используем бессознательный мозг», - добавляет она.

На данный момент многие исследователи полагают, что, вероятно, существует несколько типов интеллекта. А прикосновение к одному далеко не гарантирует ингредиенты для другого. Например, некоторые из самых умных людей ужасны в шахматах.

С этими ограничениями видение Ю. будущего искусственного интеллекта объединяет людей и машины в своего рода эволюцию. Она объясняет, что машины, безусловно, будут продолжать преуспевать в определенных задачах, но человеческий вклад и контроль всегда могут быть необходимы для компенсации неавтоматизированных.

Конечно, пока неизвестно, как все изменится на арене ИИ. А пока нам есть над чем задуматься. «Эти компьютеры являются мощными и могут делать определенные вещи лучше, чем человек», - говорит Пол. «Но это все еще не соответствует тайне интеллекта».

Эта статья была первоначально опубликована на NOVA.