Facebook опубликовал модель для машинного перевода, поддерживающую 200 языков

L

0

0

Компания Facebook (запрещена в РФ) опубликовала наработки проекта NLLB (No Language Left Behind), нацеленного на создание универсальной модели машинного обучения для прямого перевода текста с одного языка на другой, минуя промежуточный перевод на английский язык. Предложенная модель охватывает более 200 языков, включая редкие языки африканских и австралийских народов. Конечной целью проекта является предоставление средств для общения любых людей, независимо от языка на котором они говорят.

Модель доступна под лицензией Creative Commons BY-NC 4.0, разрешающей копирование, распространение, задействование в своих проектах и создание производных работ, но при условии указания авторства, сохранения лицензии и использования только для некоммерческих целей. Инструментарий для работы с моделями поставляется под лицензией MIT. Для стимулирования разработок с использованием модели NLLB решено выделить 200 тысяч долларов на предоставления грантов исследователям.

Для упрощения создания проектов, использующих предложенную модель, дополнительно открыт код приложений, использовавшихся для тестирования и оценки качества моделей (FLORES-200, NLLB-MD, Toxicity-200), код для тренировки моделей и кодировщики на базе библиотеки LASER3 (Language-Agnostic SEntence Representation). Финальная модель предложена в двух вариантах - полном и сокращённом. Сокращённый вариант требует меньше ресурсов и подходит для тестирования и использования в исследовательских проектах.

В отличие от других систем перевода на базе систем машинного обучения, решение от Facebook примечательно тем, что для всех 200 языков предложена одна общая модель, охватывающая все языки и не требующая использования отдельных моделей для каждого языка. Перевод осуществляется напрямую из исходного в целевой язык, без промежуточного перевода на английский язык. Для создания универсальных систем перевода дополнительно предложена LID-модель (Language IDentification), позволяющая определить используемый язык. Т.е. система может автоматически распознать на каком языке предоставлена информация и перевести на язык пользователя.

Поддерживается перевод в любом направлении, между любыми из поддерживаемых 200 языков. Для подтверждения качества перевода между любыми языками подготовлен эталонный проверочный набор FLORES-200, который показал, что модель NLLB-200 по уровню качества перевода в среднем на 44% превосходит ранее предлагаемые исследовательские системы на основе машинного обучения при использовании метрик BLEU, сравнивающих машинный перевод с эталонным человеческим переводом. Для редких африканских языков и индийских диалектов превосходство в качестве достигает 70%. Наглядно качество перевода можно оценить на специально подготовленном демонстрационном сайте.

// cc-by opennet.ru
// converted with crypt’s opennet autoreposter

>>> Подробности

Ссылка

Если это та же модель, что пейсбук использует для перевода постов, то она полное говно.

cocucka 08.07.2022 12:03:54 (CET)
★★★★★★★★★★★★★
Linux / Firefox

Ответ на: комментарий от cocucka 08.07.2022 12:03:54 (CET)

просто после того, как они ушли из россии, появились некоторые проблемы с обучением этой модели:)

crypt 08.07.2022 12:05:20 (CET)
★★★☆☆
FreeBSD / Chrome

Вот! Видите? Это эсперанто. Проблема уже технически решена. Уже больше 100 лет как решена. Решение удовлетворительно. Поднимите свои нацистские задинцы и начинайте применять это решение, а не колупайтесь в редких африканских и австралийских диалектах.

На этих сраных лингвистов даже Ктулху побрезгует насрать! Я даже предположить не могу как они оказались сраными. Сами на себя, наверное, насрали. Больше некому.

Usruser 08.07.2022 12:12:28 (CET)
★★★★★
Linux / Firefox