В книге «Забытые языки» (2002) Эндрю Робинсон,
английский популяризатор науки, заявил, что «успешная дешифровка
требует синтеза логики и интуиции, которой компьютеры не обладают и,
скорее всего, никогда обладать не будут».
Реджина Бардзилэй, адъюнкт-профессор Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, её последипломный студент Бен Снайдер и сотрудник Университета Южной Калифорнии Кевин Найт (все — США) приняли это на свой счёт. Через месяц на ежегодном собрании Ассоциации вычислительной лингвистики в Швеции они представят новую компьютерную систему, которая в течение нескольких часов расшифровала значительную часть угаритского языка
(древний представитель семитской семьи). В дальнейшем она может
посодействовать не только дешифровке восьми (или около того) мёртвых
языков, над которыми сломали голову лингвисты, но и усовершенствованию
машинных систем перевода вроде Google Translate.
«Интуицию» исследователи заменили несколькими допущениями.
Во-первых, компьютеру предложили известный язык, тесно связанный с
угаритским. Им стал иврит.
Во-вторых, была составлена карта частотности употребления алфавитных
знаков в обоих языках из расчёта, что часто употребляющийся символ
одного языка, скорее всего, коррелирует с символом похожего языка,
обладающим аналогичной частотностью. Здесь надо заметить, что
угаритский и иврит пользовались различными системами письменности, но в
данном случае это не имеет значения, важна лишь частотность знаков.
В-третьих, языки должны иметь по крайней мере несколько слов с
общими корнями, как «main» и «mano» («рука», «кисть руки»), «homme» и
«hombre» («человек», «мужчина») во французском и испанском. Наконец,
система предполагает аналогичный состав слов в родственных языках.
Например, русское слово «перегрузка» имеет префикс «пере» и суффикс
«к». В английском языке ему соответствует слово «overloading» с
префиксом «over» и суффиксом «ing», а во французском — «surchargeant»
(разбор этого слова по составу — ваше домашнее задание, читатель).
Система взаимодействует с данными уровнями соответствия раздельно.
Она может начать, к примеру, с разработки нескольких гипотез на
основании частности употребления алфавитных знаков. Затем с помощью
вероятностного моделирования (стандартная функция искусственного
интеллекта) она постарается определить, какие сочетания символов
указывают на набор согласованных суффиксов и префиксов. Это позволит
искать соответствия на уровне слов, а после этого ещё раз взяться за
алфавит. «Мы производим итерацию сотни и даже тысячи раз, — говорит Бен
Снайдер, — и каждый раз наши предположения имеют более высокую
вероятность, поскольку выше согласованность между различными уровнями
соответствия». Наконец, система достигает точки, когда результаты
перестают улучшаться.
Спешим успокоить любителей сенсаций: угаритский уже расшифрован
«вручную» (в противном случае исследователи не смогли бы оценить
эффективность своей системы). Угаритский алфавит состоит из 31 буквы, и
компьютер корректно связал 29 из них со знаками на иврите. Примерно
треть угаритских слов имеют родственников на иврите, и система
правильно определила 60% из них. «В неверных ответах компьютер ошибся
всего одной буквой, и это очень хороший результат», — говорит г-н
Снайдер.
Кроме того, по его словам, система пока не умеет работать с
контекстной информацией для решения двусмысленности. Например,
угаритские слова «дом» и «дочь» пишутся одинаково, и человек может
легко понять из контекста, о чём идёт речь, а компьютер — нет.
Эндрю Робинсон, с которого мы начали, настроен скептически. Данный
подход, по его словам, опирается на то, что язык располагает алфавитом,
который имеет соответствия в уже разгаданном языке. Почти наверняка ни
один из недешифрованных языков не обладает такими подсказками. Кроме
того, во многих древних надписях не очень ясно, где заканчивается одно
слово и начинается другое.
«У каждого языка есть свои проблемы, — соглашается Реджина
Бардзилэй. — Скорее всего, для успешной расшифровки придётся
подготовить свои методы». Но, отмечает она, на разгадку угаритского
языка ушли годы, а новая система справилась за несколько часов. Хотя
она и не способна заменить человека, этот мощный инструмент может стать
очень хорошим помощником.
Новинка могла бы также расширить универсальность машинного перевода
(Google Translate управляется «всего» с 57 языками). Многие
онлайн-переводчики тоже пользуются сравнением параллельных текстов на
разных языках. Новая система просто делает это намного лучше.
Угаритская табличка с изложением судебного иска (XIII в. до н. э.).