No Language Left Behind (NLLB) — это инновационный проект в области ИИ, который предоставляет открытый доступ к моделям, способным обеспечивать высококачественный перевод на 200 языков, включая низкоресурсные языки (астурийский, луганда, урду и др.). Цель проекта — дать людям возможность получать и распространять веб-контент на родном языке, а также общаться где и с кем угодно независимо от языковых предпочтений.
No Language Left Behind (NLLB) — это инновационный проект в области ИИ, который предоставляет открытый доступ к моделям, способным обеспечивать высококачественный перевод на 200 языков, включая низкоресурсные языки (астурийский, луганда, урду и др.). Цель проекта — дать людям возможность получать и распространять веб-контент на родном языке, а также общаться где и с кем угодно независимо от языковых предпочтений.
Мы хотим помочь людям общаться друг с другом, поэтому используем технологии моделирования и другие разработки в рамках проекта NLLB, чтобы улучшить качество перевода низкоресурсных языков на Facebook и в Instagram. Внедрив эти технологии в системы перевода наших продуктов, мы поможем людям налаживать крепкие и значимые связи на их родном или предпочитаемом языке. В будущем мы планируем использовать технологии NLLB и в других приложениях Meta.
Один из наших приоритетов в процессе создания метавселенной — внедрение текстового перевода AR- и VR-продуктов в реальном времени на сотни языков. Мы стремимся создать новый стандарт инклюзивности, благодаря которому в будущем каждый сможет получить доступ к контенту, устройствам и приложениям виртуального мира, а также общаться в метавселенной с кем угодно на любом языке. Наша конечная цель — сделать возможным общение на глобальном уровне.
Технология модели NLLB-200 теперь доступна в инструменте перевода контента Фонда Викимедиа и помогает редакторам Википедии переводить информацию на родные и предпочитаемые языки. Редакторы Википедии используют эту технологию для эффективного перевода и редактирования статей на редко употребляемых языках, таких как луганда и исландский. Благодаря этому больше читателей по всему миру получат доступ к знаниям в Википедии. Модель NLLB-200, которая находится в открытом доступе, также упрощает работу сообществ исследователей и редакторов Википедии.
Демо-версия Stories Told Through Translation использует последние достижения в области ИИ, полученные в рамках проекта No Language Left Behind. Она позволяет переводить книги с исходного языка, например индонезийского, сомалийского или бирманского, на язык читателя. В ближайшие месяцы станут доступны несколько сотен языков. Благодаря этой инициативе NLLB-200 станет первой моделью искусственного интеллекта, способной переводить литературу в таком масштабе.
Выполняется сбор данных для обучения, которые содержат предложения на исходном и целевом языках.
Собрав и упорядочив данные, мы создаем тысячи направлений обучения и используем их в процессе обучения моделей. Каждая модель включает в себя два элемента: кодировщик, который преобразовывает исходное предложение во внутреннее векторное представление, и декодер, который принимает это представление и генерирует целевое предложение. Обрабатывая миллионы примеров, модели учатся генерировать более точные переводы.
Мы оцениваем модель, то есть сравниваем ее работу с набором предложений, переведенных человеком, чтобы проверить качество машинного перевода. Кроме того, модель выявляет и отфильтровывает нецензурные выражения и другой оскорбительный контент с помощью списков, которые мы создаем для всех поддерживаемых языков. Результат — хорошо обученная модель, которая выполняет прямой перевод на нужный язык.
Выполняется сбор данных для обучения, которые содержат предложения на исходном и целевом языках.
Собрав и упорядочив данные, мы создаем тысячи направлений обучения и используем их в процессе обучения моделей. Каждая модель включает в себя два элемента: кодировщик, который преобразовывает исходное предложение во внутреннее векторное представление, и декодер, который принимает это представление и генерирует целевое предложение. Обрабатывая миллионы примеров, модели учатся генерировать более точные переводы.
Мы оцениваем модель, то есть сравниваем ее работу с набором предложений, переведенных человеком, чтобы проверить качество машинного перевода. Кроме того, модель выявляет и отфильтровывает нецензурные выражения и другой оскорбительный контент с помощью списков, которые мы создаем для всех поддерживаемых языков. Результат — хорошо обученная модель, которая выполняет прямой перевод на нужный язык.
Машинный перевод — это задача обучения с учителем, предполагающая обучение модели на основе данных. Обычно для этого используются наборы данных с примерами перевода из открытых источников. Мы автоматически создаем пары перевода, связывая предложения из разных наборов одноязычных документов.
В процессе создания наборов данных используются модели LASER, которые поддерживают в основном средне- и высокоресурсные языки, поэтому генерировать точные пары перевода для низкоресурсных языков невозможно.
Многоязычные системы машинного перевода более эффективны, чем двуязычные, поскольку способны обеспечить передачу информации от языковых пар с большим объемом данных для обучения в другие языки с меньшим количеством ресурсов.
У одновременного обучения сотен языковых пар есть свои недостатки, поскольку одна модель должна представлять всё больше и больше языков при одинаковом количестве параметров. Эта проблема возникает, если наборы данных отличаются по размеру, что может привести к переобучению.
Чтобы понять, соответствует ли выполненный моделью перевод нашим стандартам качества, мы должны его оценить.
Обычно для оценки моделей машинного обучения переведенные ими предложения сравниваются с человеческим переводом. Однако для многих языков надежные данные по переводу недоступны, поэтому точная оценка невозможна.
Чтобы узнать больше о технологии проекта NLLB, ознакомьтесь с соответствующим документом и публикацией в блоге, а также скачайте модель и помогите нам с дальнейшим развитием проекта.
Этапы развития модели по количеству освоенных языков
Первая успешная попытка создания массовых многоязычных представлений предложений. Мы открыли к ней доступ сообществу специалистов в области NLP. Кодировщик создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 50 языках.
Модели искусственного интеллекта Facebook оказались лучшими на конференции WMT-2019. Мы используем широкомасштабный выборочный обратный перевод, моделирование каналов с добавлением шума и технологии очистки данных, которые помогают создавать эффективные системы.
Стандартный набор данных для машинного перевода между английским и низкоресурсными языками, обеспечивающий точный процесс оценки на 2 языках.
Самая крупная коллекция параллельных предложений на разных языках: 135 миллионов предложений на 1 620 языковых парах, извлеченные компанией Bitext из Википедии, позволяют создавать эффективные модели перевода.
Первая и единственная многоязычная модель машинного перевода, которая обеспечивает прямой перевод в любых парах между 100 языками без использования данных на английском. Она обучена на основе 2 200 языковых направлений, что в 10 раз превышает показатели предыдущих многоязычных моделей.
Самый большой набор данных высококачественных параллельных текстов, извлеченных из Интернета, позволяет создавать эффективные модели перевода для большего количества языков, в частности низкоресурсных. Он содержит 4,5 миллиарда параллельных предложений на 576 языковых парах.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 100 языках.
Впервые одна многоязычная модель превзошла лучшие специально обученные двуязычные модели в 10 из 14 языковых пар. Наша модель победила на конференции WMT-2021, предоставив лучшие переводы как для низко-, так и для высокоресурсных языков.
FLORES-101 — это первый в своем роде набор данных для оценки типа "многие ко многим", который охватывает 101 язык и позволяет исследователям быстро тестировать и улучшать многоязычные модели перевода, такие как M2M-100.
Модель NLLB выполняет перевод с 200 языков.
Расширение набора данных для оценки FLORES, которое охватывает 200 языков.
Доступные тестовые данные для обучения на 200 языках.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 200 языках.
< 50 языков
50–100 языков
100 языков
200 языков
Первая успешная попытка создания массовых многоязычных представлений предложений. Мы открыли к ней доступ сообществу специалистов в области NLP. Кодировщик создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 50 языках.
Модели искусственного интеллекта Facebook оказались лучшими на конференции WMT-2019. Мы используем широкомасштабный выборочный обратный перевод, моделирование каналов с добавлением шума и технологии очистки данных, которые помогают создавать эффективные системы.
Стандартный набор данных для машинного перевода между английским и низкоресурсными языками, обеспечивающий точный процесс оценки на 2 языках.
Самая крупная коллекция параллельных предложений на разных языках: 135 миллионов предложений на 1 620 языковых парах, извлеченные компанией Bitext из Википедии, позволяют создавать эффективные модели перевода.
Первая и единственная многоязычная модель машинного перевода, которая обеспечивает прямой перевод в любых парах между 100 языками без использования данных на английском. Она обучена на основе 2 200 языковых направлений, что в 10 раз превышает показатели предыдущих многоязычных моделей.
Самый большой набор данных высококачественных параллельных текстов, извлеченных из Интернета, позволяет создавать эффективные модели перевода для большего количества языков, в частности низкоресурсных. Он содержит 4,5 миллиарда параллельных предложений на 576 языковых парах.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 100 языках.
Впервые одна многоязычная модель превзошла лучшие специально обученные двуязычные модели в 10 из 14 языковых пар. Наша модель победила на конференции WMT-2021, предоставив лучшие переводы как для низко-, так и для высокоресурсных языков.
FLORES-101 — это первый в своем роде набор данных для оценки типа "многие ко многим", который охватывает 101 язык и позволяет исследователям быстро тестировать и улучшать многоязычные модели перевода, такие как M2M-100.
Модель NLLB выполняет перевод с 200 языков.
Расширение набора данных для оценки FLORES, которое охватывает 200 языков.
Доступные тестовые данные для обучения на 200 языках.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 200 языках.