Компьютер расшифровывает древний язык - 4 Июля 2010 - Сайт о научно-технической информации

В книге «Забытые языки» (2002) Эндрю Робинсон, английский популяризатор науки, заявил, что «успешная дешифровка требует синтеза логики и интуиции, которой компьютеры не обладают и, скорее всего, никогда обладать не будут».

Реджина Бардзилэй, адъюнкт-профессор Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, её последипломный студент Бен Снайдер и сотрудник Университета Южной Калифорнии Кевин Найт (все — США) приняли это на свой счёт. Через месяц на ежегодном собрании Ассоциации вычислительной лингвистики в Швеции они представят новую компьютерную систему, которая в течение нескольких часов расшифровала значительную часть угаритского языка (древний представитель семитской семьи). В дальнейшем она может посодействовать не только дешифровке восьми (или около того) мёртвых языков, над которыми сломали голову лингвисты, но и усовершенствованию машинных систем перевода вроде Google Translate.

«Интуицию» исследователи заменили несколькими допущениями. Во-первых, компьютеру предложили известный язык, тесно связанный с угаритским. Им стал иврит. Во-вторых, была составлена карта частотности употребления алфавитных знаков в обоих языках из расчёта, что часто употребляющийся символ одного языка, скорее всего, коррелирует с символом похожего языка, обладающим аналогичной частотностью. Здесь надо заметить, что угаритский и иврит пользовались различными системами письменности, но в данном случае это не имеет значения, важна лишь частотность знаков.

В-третьих, языки должны иметь по крайней мере несколько слов с общими корнями, как «main» и «mano» («рука», «кисть руки»), «homme» и «hombre» («человек», «мужчина») во французском и испанском. Наконец, система предполагает аналогичный состав слов в родственных языках. Например, русское слово «перегрузка» имеет префикс «пере» и суффикс «к». В английском языке ему соответствует слово «overloading» с префиксом «over» и суффиксом «ing», а во французском — «surchargeant» (разбор этого слова по составу — ваше домашнее задание, читатель).

Система взаимодействует с данными уровнями соответствия раздельно. Она может начать, к примеру, с разработки нескольких гипотез на основании частности употребления алфавитных знаков. Затем с помощью вероятностного моделирования (стандартная функция искусственного интеллекта) она постарается определить, какие сочетания символов указывают на набор согласованных суффиксов и префиксов. Это позволит искать соответствия на уровне слов, а после этого ещё раз взяться за алфавит. «Мы производим итерацию сотни и даже тысячи раз, — говорит Бен Снайдер, — и каждый раз наши предположения имеют более высокую вероятность, поскольку выше согласованность между различными уровнями соответствия». Наконец, система достигает точки, когда результаты перестают улучшаться.

Спешим успокоить любителей сенсаций: угаритский уже расшифрован «вручную» (в противном случае исследователи не смогли бы оценить эффективность своей системы). Угаритский алфавит состоит из 31 буквы, и компьютер корректно связал 29 из них со знаками на иврите. Примерно треть угаритских слов имеют родственников на иврите, и система правильно определила 60% из них. «В неверных ответах компьютер ошибся всего одной буквой, и это очень хороший результат», — говорит г-н Снайдер.

Кроме того, по его словам, система пока не умеет работать с контекстной информацией для решения двусмысленности. Например, угаритские слова «дом» и «дочь» пишутся одинаково, и человек может легко понять из контекста, о чём идёт речь, а компьютер — нет.

Эндрю Робинсон, с которого мы начали, настроен скептически. Данный подход, по его словам, опирается на то, что язык располагает алфавитом, который имеет соответствия в уже разгаданном языке. Почти наверняка ни один из недешифрованных языков не обладает такими подсказками. Кроме того, во многих древних надписях не очень ясно, где заканчивается одно слово и начинается другое.

«У каждого языка есть свои проблемы, — соглашается Реджина Бардзилэй. — Скорее всего, для успешной расшифровки придётся подготовить свои методы». Но, отмечает она, на разгадку угаритского языка ушли годы, а новая система справилась за несколько часов. Хотя она и не способна заменить человека, этот мощный инструмент может стать очень хорошим помощником.

Новинка могла бы также расширить универсальность машинного перевода (Google Translate управляется «всего» с 57 языками). Многие онлайн-переводчики тоже пользуются сравнением параллельных текстов на разных языках. Новая система просто делает это намного лучше.

Угаритская табличка с изложением судебного иска (XIII в. до н. э.).