Проект OpenNMT развивает систему машинного перевода на основе нейронной сети

14.01.2017 17:54

Доступны первые выпуски OpenNMT (Open Neural Machine Translation), открытой системы машинного перевода, использующей методы машинного обучения. Для построения нейронной сети проект использует возможности библиотеки глубинного машинного обучения Torch. Код развиваемых проектом OpenNMT модулей для Torch написан на языке Lua и распространяется под лицензией MIT. Для упрощения распространения продукта проектом также развивается самодостаточный вариант транслятора на языке C++, который использует предварительно натренированные модели без привязки зависимостями к Torch и Lua.

Разработчики OpenNMT пытаются создать продукт с одной стороны простой в использовании и легко расширяемый, а с другой стороны обеспечивающий высокую эффективность и качество перевода. Крупнейшими участниками проекта являются компания SYSTRAN, специализирующаяся на создании средств машинного перевода, и группа исследователей Harvard, разрабатывающая модели человеческого языка для систем машинного обучения. Для ознакомления с качеством работы OpenNMT введён в строй online-переводчик, в том числе поддерживающий русский язык.

Для упрощения применения OpenNMT подготовлено несколько уже прошедших тренировку общедоступных моделей языков, позволяющих переводить с английского на немецкий и обратно. Также доступна универсальная модель для произвольного перевода текстов на французском, испанском, португальском, итальянском и румынском языках. Для остальных языков предлагается самостоятельно подготовить модель перевода, осуществив обучение нейронной сети на основе эталонного набора переводов (для обучения системе передаётся два файла - один с предложениями на исходном языке, а второй с качественным переводом этих предложений на целевой язык). Для упрощения развёртывания OpenNMT предоставляется преднастроенный контейнер на базе Docker.

Проект OpenNMT развивает систему машинного перевода на основе нейронной сети

Применение Torch позволяет задействовать возможности GPU (c поддержкой CUDA) для ускорения процесса обучения нейронной сети. Интерфейс пользователя максимально упрощён и требует лишь указания входного файла с текстом и файла для сохранения результата перевода. Система расширений позволяет реализовывать на базе OpenNMT дополнительную функциональность, например, автореферирование и генерация субтитров. В том числе на базе OpenNMT развивается система оптического распознавания текста, способная распознавать и переводить в формат LaTeX сложные математические формулы.