Сайт об интересной и научно-технической информации
Четверг, 21.11.2024, 20:04
Меню сайта

Категории раздела
Новости наномира [203]
Новости материаловедения [90]
Влияние водорода на свойства сталей [9]
Водородная энергетика [28]
Новости образования [164]
Новости IT [580]
Сообщения о наиболее важных и интересных событиях [399]
Здоровье [247]
Разное [662]
новости науки и техники [588]
компьютерные игры [33]
программирование [6]
СЕКС SEX [73]
ВОДОРОД [34]
ПСИХОЛОГИЯ [61]
ЮМОР [6]
Это интересно [33]
Путешествия [20]
Сплавы [23]
Стали [0]
Кинокритика [3]
ТРИБОЛОГИЯ [3]
Разрушение материалов [0]
Чугуны [0]
Альтернативная энергетика [6]
Кинокритика [2]
Наука й техніка [1]
на український мові
Wissen [2]
Science and Development [42]
НОВОСТИ УКРАИНЫ [43]
МИРОВЫЕ НОВОСТИ [12]
АВТОМОБИЛЬНЫЕ НОВОСТИ [48]
МОДА [6]
СПОРТ, SPORT [28]
АРХИТЕКТУРА [1]
НЕВЕРОЯТНОЕ [0]
ИСТОРИЯ [1]
ИСТОРИИ ИЗ ЖИЗНИ [0]

Статистика

Онлайн всего: 10
Гостей: 10
Пользователей: 0

Форма входа

Поиск

Календарь

Архив записей

Реклама
  • Сайт Колесникова Валерия Александровича
  • Краснодонский факультет Инженерии и Менеджмента
  • FAQ по системе
  • Английский язык для всех
  • Форум по английскому языку

  • Главная » 2010 » Сентябрь » 1 » Выровненный украинско-русский параллельный текстовый корпус
    20:13
    Выровненный украинско-русский параллельный текстовый корпус

    Выровненный украинско-русский параллельный текстовый корпус

    В Информационном центре ElVisti создан выровненный на уровне предложений украинско-русский параллельный текстовый корпус из веб-публикаций. Объем корпуса - более 2,6 млн. пар уникальных предложений.

    Метод построения корпуса базируется на использовании "опорных слов" в тестовых документах, а также средствах их автоматического перевода. Опорные слова в рамках данного подхода выделяются с использованием русского и украинского морфологических словарей, а также словарей переводов имен существительных для русского и украинского языков. Кроме того, для вычисления весов терминов в документах используются некоторые дополнительные эмпирико-статистические правила. Для выравнивания параллельного корпуса на уровне предложений использовались преимущественно статистические методы.

    Алгоритмы были реализованы в виде программного комплекса, который интегрирован с системой контент-мониторинга InfoStream, благодаря чему корпус постоянно пополняется.

    Предполагается дальнейшее использование данного лингвистического ресурса для создания системы автоматического перевода новостных сообщений.

    Для интернет-пользователей обеспечена возможность поиска в этом корпусе в режиме онлайн.

    Для скачивания на сайте http://ling.infostream.ua/ доступен заархивированный фрагмент параллельного корпуса размером в 100 тысяч пар уникальных предложений (в ZIP-архиве ~ 9 МБ). Формат представления данных приближен к XML. Использование этого фрагмента корпуса в научных и учебных целях - свободное.

    ling.infostream.ua

    http://internetua.com/blog/dmitrii-lande/virovnennii-ukrainsko-russkii-parallelnii-tekstovii-korpus
    Категория: Новости IT | Просмотров: 407 | Добавил: Professor9635 | Рейтинг: 0.0/0
    Всего комментариев: 0
    Имя *:
    Email *:
    Код *:
    Copyright MyCorp © 2024
    Сделать бесплатный сайт с uCoz