В Информационном центре ElVisti
создан выровненный на уровне предложений украинско-русский параллельный
текстовый корпус из веб-публикаций. Объем корпуса - более 2,6 млн. пар
уникальных предложений.
Метод построения корпуса базируется на использовании
"опорных слов" в тестовых документах, а также средствах их
автоматического перевода. Опорные слова в рамках данного подхода
выделяются с использованием русского и украинского морфологических
словарей, а также словарей переводов имен существительных для русского и
украинского языков. Кроме того, для вычисления весов терминов в
документах используются некоторые дополнительные эмпирико-статистические
правила. Для выравнивания параллельного корпуса на уровне предложений
использовались преимущественно статистические методы.
Алгоритмы были реализованы в виде программного комплекса,
который интегрирован с системой контент-мониторинга InfoStream,
благодаря чему корпус постоянно пополняется.
Предполагается дальнейшее использование данного
лингвистического ресурса для создания системы автоматического перевода
новостных сообщений.
Для интернет-пользователей обеспечена возможность поиска в этом корпусе в режиме онлайн.
Для скачивания на сайте http://ling.infostream.ua/
доступен заархивированный фрагмент параллельного корпуса размером в 100
тысяч пар уникальных предложений (в ZIP-архиве ~ 9 МБ). Формат
представления данных приближен к XML. Использование этого фрагмента
корпуса в научных и учебных целях - свободное.