https://frosthead.com

Могут ли компьютеры расшифровать язык, которому 5000 лет?

Цивилизация Инда, которая процветала на протяжении большей части третьего тысячелетия до нашей эры, была самым обширным обществом своего времени. По своей высоте он занимал площадь более полумиллиона квадратных миль, сосредоточенную на современной границе Индии и Пакистана. Остатки Инда были найдены на севере до Гималаев и на юге до Мумбаи. Это была самая ранняя известная городская культура субконтинента, и она имела два больших города, один в Хараппе и один в Мохенджо-Даро. Тем не менее, несмотря на свои размеры и долговечность, и, несмотря на почти столетние археологические исследования, многое об Инде остается окутанным тайной.

То, что мы мало что знаем, получено из археологических раскопок, которые начались в 1920-х годах и продолжаются сегодня. За десятилетия археологи обнаружили множество артефактов, в том числе печати штампов, амулетов и небольших таблеток. На многих из этих артефактов изображены образцы письменности - выгравированные фигуры, напоминающие, среди прочего, крылатые подковы, колеса со спицами и прямую рыбу. Что именно эти символы могут означать, тем не менее, остается одной из самых известных нерешенных загадок в науке древних цивилизаций.

В истории были и другие сложные коды для взлома. Озадаченный египтологам повезло с открытием знаменитого Розеттского камня в 1799 году, который содержал текст на египетском и греческом языках. Изучение иероглифов майя затихло до тех пор, пока русский лингвист по имени Юрий Кнорозов умело использовал современную разговорную речь майя в 1950-х годах. Но нет никакого Розеттского камня Инда, и ученые не знают, какие языки, если таковые имеются, произошли от того, на котором говорят люди Инда.

Около 22 лет назад в Хайдарабаде, Индия, ученик восьмого класса по имени Раджеш Рао перевернул страницу учебника истории и впервые узнал об этой удивительной цивилизации и ее таинственном сценарии. В последующие годы образование и профессия Рао привели его в ином направлении - он начал заниматься информатикой, которой он преподает сегодня в Университете Вашингтона в Сиэтле, - но он тщательно следил за стипендией Инда, следя за десятками неудавшихся попытки понять смысл сценария. Даже когда он изучал искусственный интеллект и робототехнику, Рао собрал небольшую библиотеку книг и монографий по сценарию Инда, около 30 из них. На соседней книжной полке он также хранил заветный учебник истории восьмого класса, который познакомил его с Индом.

«Было просто удивительно видеть количество разных идей, предложенных людьми», - говорит он. Некоторые ученые утверждали, что письмо было своего рода шумерским письмом; другие расположили его в дравидийской семье; третьи считали, что это связано с языком острова Пасхи. Рао осознал, что это «вероятно, одна из самых сложных проблем с точки зрения древней истории».

Поскольку попытка расшифровки сценария не удалась, некоторые эксперты начали терять надежду на его расшифровку. В 2004 году трое ученых утверждали в спорной статье, что Инд символы не имеют лингвистическое содержание вообще. Вместо этого символы, возможно, были немного больше чем пиктограммы, представляющие политических или религиозных деятелей. Авторы зашли так далеко, что предположили, что Инд вообще не был грамотной цивилизацией. Для некоторых в этой области весь поиск попыток найти язык за этими офортами Инда стал напоминать бесполезное упражнение.

Несколько лет спустя Рао вступил в драку. До этого люди, изучавшие сценарий, были археологами, историками, лингвистами или криптологами. Но Рао решил раскрыть секреты сценария Инда, используя инструмент, который он знал лучше всего - информатику.

Очарованный цивилизацией Инда начиная с восьмого класса, Раджеш Рао использует информатику и концепцию, называемую «условная энтропия», чтобы помочь расшифровать сценарий Инда. (Предоставлено Дэвидом Заксом) За десятилетия археологи обнаружили множество артефактов цивилизации Инда, в том числе печати штампов, амулеты и маленькие таблички. (Роберт Хардинг / Robert Harding World Imagery / Corbis) Рао и его сотрудники опубликовали свои выводы в журнале Science в мае. Они не расшифровали язык, но их выводы обострили его понимание. (Роберт Хардинг / Robert Harding World Imagery / Corbis) Рао и его коллеги теперь смотрят на более длинные строки символов, чем они анализировали в научной статье. Поиск шаблонов, в свою очередь, поможет определить, к каким языковым семействам может принадлежать скрипт. (Предоставлено Дэвидом Заксом)

В летний день в Сиэтле Рао пригласил меня в свой офис, чтобы показать мне, как он и его коллеги подошли к проблеме. Он представил коллекцию реплик оттисков с глиняных тюленей, которые археологи обнаружили на местах Инда. Они маленькие - как маленькие квадратные конфеты - и на большинстве из них изображено животное под серией символов Инда. Большинство образцов сценария Инда представляют собой подобные миниатюры, содержащие только несколько символов; никаких грандиозных монолитов обнаружено не было. Рао сказал мне, что ученые не уверены в функционировании маленьких печатей, но одна из теорий заключается в том, что они могли использоваться для сертификации качества продаваемых товаров. Другой предполагает, что печати могли быть способом обеспечения того, чтобы торговцы платили налоги при въезде в город или выезде из него - многие руины были найдены в руинах надворных домов, которые могли функционировать как древние будки.

Рао и его коллеги не стремились творить чудеса - они знали, что у них не было достаточно информации, чтобы расшифровать древний сценарий, - но они выдвинули гипотезу, что с помощью вычислительных методов они, по крайней мере, могли бы начать выяснять, какого рода написание Инда Сценарий был: это кодировать язык или нет? Они сделали это, используя концепцию под названием «условная энтропия».

Несмотря на внушительное имя, условная энтропия является довольно простым понятием: это мера количества случайности в последовательности. Посмотрите на наш алфавит. Если вы возьмете плитки Scrabble и подбросите их в воздух, вы можете обнаружить, что любое старое письмо появляется после любого другого. Но в реальных английских словах некоторые буквы чаще встречаются после других. За q на английском языке почти всегда следует буква u . За t может следовать r или e, но с меньшей вероятностью последуют n или b .

Рао и его сотрудники - международная группа, включающая компьютерных ученых, астрофизиков и математика, - использовали компьютерную программу для измерения условной энтропии сценария Инда. Затем они измерили условную энтропию других типов систем - естественных языков (шумерский, тамильский, санскрит и английский), искусственного языка (язык программирования Фортран) и нелингвистических систем (последовательности ДНК человека, последовательности бактериального белка и два искусственных набора данных, представляющих верхнюю и нижнюю границы условной энтропии). Когда они сравнили количество случайностей в сценарии Инда с другими системами, они обнаружили, что оно наиболее близко напоминало показатели, встречающиеся в естественных языках. Они опубликовали свои выводы в мае в журнале Science .

Если он похож на язык и действует как язык, то, вероятно, это язык, говорится в их статье. Полученные данные, конечно, не расшифровывают сценарий, но они углубляют наше понимание этого и дают уверенность тем археологам, которые работали в предположении, что сценарий Инда кодирует язык.

После публикации газеты Рао получил сюрприз. Оказывается, вопрос о том, к какой языковой семье принадлежит сценарий, является деликатным: из-за возраста и значения цивилизации Инда многие современные группы в Индии хотели бы заявить о нем как о прямом предке. Например, тамильскоговорящие индийцы юга предпочли бы узнать, что сценарий Инда был своего рода протодравидийским, поскольку тамильский происходит от протодравидийского. Говорящие на севере хинди предпочли бы, чтобы это была старая форма санскрита, предка хинди. В статье Рао не делается вывод о том, к какой языковой семье принадлежит сценарий, хотя в нем отмечается, что условная энтропия похожа на древне-тамильскую, что заставляет некоторых критиков «обвинять нас в том, что мы дравидийские националисты», - говорит Рао. «Свирепость обвинений и нападений была совершенно неожиданной».

Рао иногда с облегчением возвращается в менее свирепо оспариваемый мир нейробиологии и робототехники. Но призыв сценария Инда остается привлекательным, и «то, что раньше было хобби, теперь монополизирует более трети моего времени», говорит он. Рао и его коллеги теперь смотрят на более длинные строки символов, чем они анализировали в научной статье. «Если есть шаблоны, - говорит Рао, - мы могли бы придумать грамматические правила. Это, в свою очередь, дало бы ограничения на то, к каким языковым семействам может относиться сценарий.

Он надеется, что его будущие результаты будут говорить сами за себя, вызывая меньше злобы со стороны противников, болеющих за один регион Индии против другого. Со своей стороны, когда Рао говорит о том, что для него означает сценарий Инда, он склонен говорить в терминах Индии в целом. «Наследие Индии было бы значительно обогащено, если бы мы смогли понять цивилизацию Инда», - говорит он. Рао и его сотрудники работают над этим, по одной строке исходного кода за раз.

Могут ли компьютеры расшифровать язык, которому 5000 лет?