No Language Left Behind

No Language Left Behind

Повышение инклюзивности с помощью эффективного машинного перевода

Повышение инклюзивности с помощью эффективного машинного перевода

Смотреть видео
Смотреть видео

О проекте No Language

Left Behind

No Language Left Behind (NLLB) — это инновационный проект в области ИИ, который предоставляет открытый доступ к моделям, способным обеспечивать высококачественный перевод на 200 языков, включая низкоресурсные языки (астурийский, луганда, урду и др.). Цель проекта — дать людям возможность получать и распространять веб-контент на родном языке, а также общаться где и с кем угодно независимо от языковых предпочтений.

О проекте No Language Left Behind

No Language Left Behind (NLLB) — это инновационный проект в области ИИ, который предоставляет открытый доступ к моделям, способным обеспечивать высококачественный перевод на 200 языков, включая низкоресурсные языки (астурийский, луганда, урду и др.). Цель проекта — дать людям возможность получать и распространять веб-контент на родном языке, а также общаться где и с кем угодно независимо от языковых предпочтений.

разработка ИИ для применения на практике

Применение технологий ИИ на Facebook и в Instagram для перевода низкоресурсных языков

Мы хотим помочь людям общаться друг с другом, поэтому используем технологии моделирования и другие разработки в рамках проекта NLLB, чтобы улучшить качество перевода низкоресурсных языков на Facebook и в Instagram. Внедрив эти технологии в системы перевода наших продуктов, мы поможем людям налаживать крепкие и значимые связи на их родном или предпочитаемом языке. В будущем мы планируем использовать технологии NLLB и в других приложениях Meta.

ПРИМЕНЕНИЕ НА ПРАКТИКЕ

Создание инклюзивной метавселенной

Перевод метавселенной: общение на глобальном уровне

Один из наших приоритетов в процессе создания метавселенной — внедрение текстового перевода AR- и VR-продуктов в реальном времени на сотни языков. Мы стремимся создать новый стандарт инклюзивности, благодаря которому в будущем каждый сможет получить доступ к контенту, устройствам и приложениям виртуального мира, а также общаться в метавселенной с кем угодно на любом языке. Наша конечная цель — сделать возможным общение на глобальном уровне.

ПРИМЕНЕНИЕ НА ПРАКТИКЕ

Перевод Википедии

Мы помогаем редакторам-волонтерам сделать информацию доступной на разных языках

Технология модели NLLB-200 теперь доступна в инструменте перевода контента Фонда Викимедиа и помогает редакторам Википедии переводить информацию на родные и предпочитаемые языки. Редакторы Википедии используют эту технологию для эффективного перевода и редактирования статей на редко употребляемых языках, таких как луганда и исландский. Благодаря этому больше читателей по всему миру получат доступ к знаниям в Википедии. Модель NLLB-200, которая находится в открытом доступе, также упрощает работу сообществ исследователей и редакторов Википедии.

Технология в действии

Stories Told Through Translation:

книги со всего мира, переведенные на сотни языков

Stories Told Through Translation:

книги со всего мира, переведенные на сотни языков

Демо-версия Stories Told Through Translation использует последние достижения в области ИИ, полученные в рамках проекта No Language Left Behind. Она позволяет переводить книги с исходного языка, например индонезийского, сомалийского или бирманского, на язык читателя. В ближайшие месяцы станут доступны несколько сотен языков. Благодаря этой инициативе NLLB-200 станет первой моделью искусственного интеллекта, способной переводить литературу в таком масштабе.

Технология

Машинный перевод: описание

Как модель NLLB с открытым доступом выполняет прямой перевод на 200 языков?

ЭТАП 1

Автоматическое создание набора данных

Этап 1. Автоматическое создание набора данных

Выполняется сбор данных для обучения, которые содержат предложения на исходном и целевом языках.

Произошла ошибка
Не удается воспроизвести видео.

ЭТАП 2

Обучение

Этап 2. Обучение

Собрав и упорядочив данные, мы создаем тысячи направлений обучения и используем их в процессе обучения моделей. Каждая модель включает в себя два элемента: кодировщик, который преобразовывает исходное предложение во внутреннее векторное представление, и декодер, который принимает это представление и генерирует целевое предложение. Обрабатывая миллионы примеров, модели учатся генерировать более точные переводы.

Произошла ошибка
Не удается воспроизвести видео.

ЭТАП 3

Оценка

Этап 3. Оценка

Мы оцениваем модель, то есть сравниваем ее работу с набором предложений, переведенных человеком, чтобы проверить качество машинного перевода. Кроме того, модель выявляет и отфильтровывает нецензурные выражения и другой оскорбительный контент с помощью списков, которые мы создаем для всех поддерживаемых языков. Результат — хорошо обученная модель, которая выполняет прямой перевод на нужный язык.

Произошла ошибка
Не удается воспроизвести видео.

ЭТАП 1

Автоматическое создание набора данных

ЭТАП 2

Обучение

ЭТАП 3

Оценка

Этап 1. Автоматическое создание набора данных

Выполняется сбор данных для обучения, которые содержат предложения на исходном и целевом языках.

Произошла ошибка
Не удается воспроизвести видео.

Этап 2. Обучение

Собрав и упорядочив данные, мы создаем тысячи направлений обучения и используем их в процессе обучения моделей. Каждая модель включает в себя два элемента: кодировщик, который преобразовывает исходное предложение во внутреннее векторное представление, и декодер, который принимает это представление и генерирует целевое предложение. Обрабатывая миллионы примеров, модели учатся генерировать более точные переводы.

Произошла ошибка
Не удается воспроизвести видео.

Этап 3. Оценка

Мы оцениваем модель, то есть сравниваем ее работу с набором предложений, переведенных человеком, чтобы проверить качество машинного перевода. Кроме того, модель выявляет и отфильтровывает нецензурные выражения и другой оскорбительный контент с помощью списков, которые мы создаем для всех поддерживаемых языков. Результат — хорошо обученная модель, которая выполняет прямой перевод на нужный язык.

Произошла ошибка
Не удается воспроизвести видео.

Инновации

Технология, стоящая за инновациями

Большинство современных моделей машинного перевода работают со средне- и высокоресурсными языками, не задействуя низкоресурсные. Чтобы решить эту проблему, специалисты Meta AI разработали три важных инновации в области искусственного интеллекта.

Автоматическое создание наборов данных для низкоресурсных языков

Контекст

Машинный перевод — это задача обучения с учителем, предполагающая обучение модели на основе данных. Обычно для этого используются наборы данных с примерами перевода из открытых источников. Мы автоматически создаем пары перевода, связывая предложения из разных наборов одноязычных документов.

Задача

В процессе создания наборов данных используются модели LASER, которые поддерживают в основном средне- и высокоресурсные языки, поэтому генерировать точные пары перевода для низкоресурсных языков невозможно.

Инновация

Чтобы решить эту проблему, мы инвестировали в процедуру обучения "учитель-ученик", что позволило: 1) увеличить охват LASER до 200 языков и 2) генерировать огромный объем данных, в том числе для низкоресурсных языков.

Моделирование на основе 200 языков

Контекст

Многоязычные системы машинного перевода более эффективны, чем двуязычные, поскольку способны обеспечить передачу информации от языковых пар с большим объемом данных для обучения в другие языки с меньшим количеством ресурсов.

Задача

У одновременного обучения сотен языковых пар есть свои недостатки, поскольку одна модель должна представлять всё больше и больше языков при одинаковом количестве параметров. Эта проблема возникает, если наборы данных отличаются по размеру, что может привести к переобучению.

Инновация

Мы разработали модель типа Sparse Mixture-of-Experts ("разреженная смесь экспертов") с общей и специализированной емкостями. Низкоресурсные языки с небольшим объемом данных автоматически перенаправлялись в общую емкость. Чтобы избежать переобучения, мы улучшили системы упорядочивания. Кроме того, мы использовали машинное самообучение и широкомасштабное увеличение данных с помощью нескольких типов обратного перевода.

Оценка качества перевода

Контекст

Чтобы понять, соответствует ли выполненный моделью перевод нашим стандартам качества, мы должны его оценить.

Задача

Обычно для оценки моделей машинного обучения переведенные ими предложения сравниваются с человеческим переводом. Однако для многих языков надежные данные по переводу недоступны, поэтому точная оценка невозможна.

Инновация

Мы в 2 раза расширили охват FLORES — базы данных для оценки на основе человеческого перевода. Теперь охват составляет 200 языков. Используя автоматические метрики и оценку человеком, мы можем точно определить качество наших переводов.
Чтобы узнать больше о технологии проекта NLLB, ознакомьтесь с соответствующим документом и публикацией в блоге, а также скачайте модель и помогите нам с дальнейшим развитием проекта.

Чтобы узнать больше о технологии проекта NLLB, ознакомьтесь с соответствующим документом и публикацией в блоге, а также скачайте модель и помогите нам с дальнейшим развитием проекта.

Наша история

Основные этапы разработки
Основные этапы разработки

Организация Meta AI развивает технологию машинного перевода и успешно решает характерные для этой отрасли проблемы, например дефицит данных для низкоресурсных языков, а также обеспечение качества и точности перевода. Мы продолжаем разработки и повышаем инклюзивность благодаря эффективности машинного перевода.

Организация Meta AI развивает технологию машинного перевода и успешно решает характерные для этой отрасли проблемы, например дефицит данных для низкоресурсных языков, а также обеспечение качества и точности перевода. Мы продолжаем разработки и повышаем инклюзивность благодаря эффективности машинного перевода.

Этапы развития модели по количеству освоенных языков

< 50 языков

50–99 языков

100 языков

200 языков

LASER (Language-agnostic sentence representations — "Не зависящие от языка представления предложений")

2018

Первая успешная попытка создания массовых многоязычных представлений предложений. Мы открыли к ней доступ сообществу специалистов в области NLP. Кодировщик создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 50 языках.

Кодировщики данных

WMT-19

2019

Модели искусственного интеллекта Facebook оказались лучшими на конференции WMT-2019. Мы используем широкомасштабный выборочный обратный перевод, моделирование каналов с добавлением шума и технологии очистки данных, которые помогают создавать эффективные системы.

Модель

Flores V1

2019

Стандартный набор данных для машинного перевода между английским и низкоресурсными языками, обеспечивающий точный процесс оценки на 2 языках.

Набор данных для оценки

WikiMatrix

2019

Самая крупная коллекция параллельных предложений на разных языках: 135 миллионов предложений на 1 620 языковых парах, извлеченные компанией Bitext из Википедии, позволяют создавать эффективные модели перевода.

Сбор данных

M2M-100

2020

Первая и единственная многоязычная модель машинного перевода, которая обеспечивает прямой перевод в любых парах между 100 языками без использования данных на английском. Она обучена на основе 2 200 языковых направлений, что в 10 раз превышает показатели предыдущих многоязычных моделей.

Модель

CCMatrix

2020

Самый большой набор данных высококачественных параллельных текстов, извлеченных из Интернета, позволяет создавать эффективные модели перевода для большего количества языков, в частности низкоресурсных. Он содержит 4,5 миллиарда параллельных предложений на 576 языковых парах.

Сбор данных

LASER 2

2020

Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 100 языках.

Кодировщики данных

WMT-21

2021

Впервые одна многоязычная модель превзошла лучшие специально обученные двуязычные модели в 10 из 14 языковых пар. Наша модель победила на конференции WMT-2021, предоставив лучшие переводы как для низко-, так и для высокоресурсных языков.

Модель

FLORES-101

2021

FLORES-101 — это первый в своем роде набор данных для оценки типа "многие ко многим", который охватывает 101 язык и позволяет исследователям быстро тестировать и улучшать многоязычные модели перевода, такие как M2M-100.

Набор данных для оценки

NLLB-200

2022

Модель NLLB выполняет перевод с 200 языков.

Модель

FLORES 200

2021

Расширение набора данных для оценки FLORES, которое охватывает 200 языков.

Набор данных для оценки

NLLB-Data-200

2022

Доступные тестовые данные для обучения на 200 языках.

Набор данных для оценки

LASER 3

2022

Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 200 языках.

Кодировщики данных

< 50 языков

50–100 языков

100 языков

200 языков

LASER (Language-agnostic sentence representations — "Не зависящие от языка представления предложений")

2018

Первая успешная попытка создания массовых многоязычных представлений предложений. Мы открыли к ней доступ сообществу специалистов в области NLP. Кодировщик создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 50 языках.

Кодировщики данных

WMT-19

2019

Модели искусственного интеллекта Facebook оказались лучшими на конференции WMT-2019. Мы используем широкомасштабный выборочный обратный перевод, моделирование каналов с добавлением шума и технологии очистки данных, которые помогают создавать эффективные системы.

Модель

Flores V1

2019

Стандартный набор данных для машинного перевода между английским и низкоресурсными языками, обеспечивающий точный процесс оценки на 2 языках.

Набор данных для оценки

WikiMatrix

2019

Самая крупная коллекция параллельных предложений на разных языках: 135 миллионов предложений на 1 620 языковых парах, извлеченные компанией Bitext из Википедии, позволяют создавать эффективные модели перевода.

Сбор данных

M2M-100

2020

Первая и единственная многоязычная модель машинного перевода, которая обеспечивает прямой перевод в любых парах между 100 языками без использования данных на английском. Она обучена на основе 2 200 языковых направлений, что в 10 раз превышает показатели предыдущих многоязычных моделей.

Модель

CCMatrix

2020

Самый большой набор данных высококачественных параллельных текстов, извлеченных из Интернета, позволяет создавать эффективные модели перевода для большего количества языков, в частности низкоресурсных. Он содержит 4,5 миллиарда параллельных предложений на 576 языковых парах.

Сбор данных

LASER 2

2020

Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 100 языках.

Кодировщики данных

WMT-21

2021

Впервые одна многоязычная модель превзошла лучшие специально обученные двуязычные модели в 10 из 14 языковых пар. Наша модель победила на конференции WMT-2021, предоставив лучшие переводы как для низко-, так и для высокоресурсных языков.

Модель

FLORES-101

2021

FLORES-101 — это первый в своем роде набор данных для оценки типа "многие ко многим", который охватывает 101 язык и позволяет исследователям быстро тестировать и улучшать многоязычные модели перевода, такие как M2M-100.

Набор данных для оценки

NLLB-200

2022

Модель NLLB выполняет перевод с 200 языков.

Модель

FLORES 200

2021

Расширение набора данных для оценки FLORES, которое охватывает 200 языков.

Набор данных для оценки

NLLB-Data-200

2022

Доступные тестовые данные для обучения на 200 языках.

Набор данных для оценки

LASER 3

2022

Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 200 языках.

Кодировщики данных

NLLB-200 выполняет перевод с 200 языков — в 2 раза больше, чем наша предыдущая модель

Оценка качества перевода BLEU у нашей последней модели на 44 % выше, чем у предыдущей

75 языков, которые раньше не поддерживались коммерческими системами перевода

18 миллиардов параллельных предложений — в 2,5 раза больше данных для обучения, чем у предыдущей модели M2M-100

Крупнейшая модель машинного перевода в открытом доступе: 54 миллиарда параметров — в 5 раз больше, чем у предыдущей модели M2M-100

40 000 направлений перевода в одной модели, что более чем в 4 раза превышает возможности предыдущего стандарта

Каждый день передовые технологии NLLB выполняют 25 миллиардов переводов в Ленте новостей Facebook, Instagram и на других платформах

NLLB-200 выполняет перевод с 200 языков — в 2 раза больше, чем наша предыдущая модель

Оценка качества перевода BLEU у нашей последней модели на 44 % выше, чем у предыдущей

75 языков, которые раньше не поддерживались коммерческими системами перевода

18 миллиардов параллельных предложений — в 2,5 раза больше данных для обучения, чем у предыдущей модели M2M-100

Крупнейшая модель машинного перевода в открытом доступе: 54 миллиарда параметров — в 5 раз больше, чем у предыдущей модели M2M-100

40 000 направлений перевода в одной модели, что более чем в 4 раза превышает возможности предыдущего стандарта

Каждый день передовые технологии NLLB выполняют 25 миллиардов переводов в Ленте новостей Facebook, Instagram и на других платформах

Подробнее

Участвуйте в проекте No Language Left Behind

Вы можете узнать о проекте NLLB ещё больше и внести свой вклад в его развитие. Ознакомьтесь с подробной информацией в документе и публикации в блоге, а также скачайте модель и помогите нам с дальнейшим развитием проекта. Мы освоили 200 языков, но это только начало. Присоединяйтесь к проекту и участвуйте в разработках, чтобы улучшать качество перевода и повышать инклюзивность.