No Language Left Behind

No Language Left Behind

Cómo promover la inclusión con la traducción basada en IA

Cómo promover la inclusión con la traducción basada en IA

Ver el video
Ver el video

Información sobre No Language

Left Behind

No Language Left Behind (NLLB) es un proyecto de IA innovador y sin precedentes, que proporciona modelos de código abierto que permiten realizar traducciones evaluadas de alta calidad directamente entre 200 idiomas, incluidos los de pocos recursos, como el asturiano, el luganda y el urdu, entre otros. El objetivo es brindar a las personas la oportunidad de acceder a contenido web en sus lenguas maternas y compartirlo, además de comunicarse con quien quieran, donde sea que estén, independientemente de sus preferencias idiomáticas.

Información sobre No Language Left Behind

No Language Left Behind (NLLB) es un proyecto de IA innovador y sin precedentes, que proporciona modelos de código abierto que permiten realizar traducciones evaluadas de alta calidad directamente entre 200 idiomas, incluidos los de pocos recursos, como el asturiano, el luganda y el urdu, entre otros. El objetivo es brindar a las personas la oportunidad de acceder a contenido web en sus lenguas maternas y compartirlo, además de comunicarse con quien quieran, donde sea que estén, independientemente de sus preferencias idiomáticas.

investigación de IA para aplicaciones reales

Aplicar técnicas de IA a Facebook e Instagram para traducir idiomas con pocos recursos

Tenemos el compromiso de unir a las personas. Por eso, usamos técnicas de modelado y aprendizajes de nuestra investigación de NLLB para mejorar las traducciones de idiomas con pocos recursos en Facebook e Instagram. Al aplicar esas técnicas y aprendizajes a nuestros sistemas de producción de traducciones, las personas podrán entablar conexiones mucho más auténticas y significativas en sus idiomas nativos o de preferencia. En el futuro, esperamos poder aplicar los aprendizajes de NLLB a más apps de Meta.

APLICACIÓN REAL

Construir un metaverso inclusivo

Un metaverso traducido: unir a las personas a una escala global

A medida que desarrollamos los distintos aspectos del metaverso, integrar la traducción de textos de AR/VR en tiempo real en cientos de idiomas es una prioridad. Nuestro objetivo es fijar un nuevo estándar en materia de inclusión, en el que algún día todas las personas puedan tener acceso a los contenidos, dispositivos y experiencias del mundo virtual, y puedan comunicarse con cualquier persona, en cualquier idioma en el metaverso. Con el tiempo, el objetivo es unir a las personas a una escala global.

APLICACIÓN REAL

Traducir Wikipedia para todo el mundo

Ayudar a los editores voluntarios a conseguir que la información esté disponible en más idiomas

La tecnología detrás del modelo NLLB-200, ahora disponible mediante la herramienta de traducción de contenido de Wikimedia Foundation, ayuda a los editores de Wikipedia a traducir la información a sus idiomas nativos y de preferencia. Los editores de Wikipedia utilizan la tecnología para traducir y editar con mayor eficacia artículos redactados en otros idiomas con escasa representación, como el luganda y el islandés. Eso contribuye a que los lectores de Wikipedia de todo el mundo puedan acceder a más conocimientos en más idiomas. El modelo NLLB-200 de código abierto también permitirá que los investigadores y las comunidades de editores de Wikipedia aprovechen nuestro trabajo.

Conoce la tecnología

Historias contadas gracias a la traducción:

libros de todo el mundo traducidos a cientos de idiomas

Historias contadas gracias a la traducción:

libros de todo el mundo traducidos a cientos de idiomas

Conoce todos los beneficios de la traducción con inteligencia artificial por medio de "Historias contadas gracias a la traducción", nuestra demo que usa las últimas tecnologías de inteligencia artificial que surgieron con el proyecto "No Language Left Behind". Esta demo toma libros en su idioma de origen (como indonesio, somalí o birmano) y los traduce a otros idiomas para que otros lectores puedan disfrutarlos. En los próximos meses, estarán disponibles en más idiomas. Con esta iniciativa, NLLB-200 será el primer modelo de inteligencia artificial capaz de traducir literatura a esta escala.

La tecnología

Información sobre la traducción automática

¿Cómo hace el modelo de código abierto de NLLB para traducir directamente 200 idiomas?

ETAPA 1

Generación automática de conjuntos de datos

Etapa 1: Generación automática de conjuntos de datos

Los datos para el entrenamiento se recopilan con oraciones en el idioma de origen y en el idioma de destino.

Se produjo un error
Tenemos problemas para reproducir este video.

ETAPA 2

Entrenamiento

Etapa 2: Entrenamiento

Después de crear datos de entrenamiento alineados para miles de direcciones de entrenamiento, se introducen dichos datos en el proceso de entrenamiento de modelos. Los modelos se componen de dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna; y el decodificador, que toma esa representación vectorial interna y genera la oración de destino con precisión. Al entrenarse con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.

Se produjo un error
Tenemos problemas para reproducir este video.

ETAPA 3

Evaluación

Etapa 3: Evaluación

Por último, para evaluar el modelo, lo comparamos con un conjunto de traducciones realizadas por humanos con el fin de confirmar que estamos conformes con la calidad de la traducción. Eso incluye detectar y filtrar groserías y otro tipo de contenido ofensivo por medio de listas de toxicidad que elaboramos para todos los idiomas admitidos. Como resultado, se obtiene un modelo bien entrenado que puede traducir un idioma directamente.

Se produjo un error
Tenemos problemas para reproducir este video.

ETAPA 1

Generación automática de conjuntos de datos

ETAPA 2

Entrenamiento

ETAPA 3

Evaluación

Etapa 1: Generación automática de conjuntos de datos

Los datos para el entrenamiento se recopilan con oraciones en el idioma de origen y en el idioma de destino.

Se produjo un error
Tenemos problemas para reproducir este video.

Etapa 2: Entrenamiento

Después de crear datos de entrenamiento alineados para miles de direcciones de entrenamiento, se introducen dichos datos en el proceso de entrenamiento de modelos. Los modelos se componen de dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna; y el decodificador, que toma esa representación vectorial interna y genera la oración de destino con precisión. Al entrenarse con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.

Se produjo un error
Tenemos problemas para reproducir este video.

Etapa 3: Evaluación

Por último, para evaluar el modelo, lo comparamos con un conjunto de traducciones realizadas por humanos con el fin de confirmar que estamos conformes con la calidad de la traducción. Eso incluye detectar y filtrar groserías y otro tipo de contenido ofensivo por medio de listas de toxicidad que elaboramos para todos los idiomas admitidos. Como resultado, se obtiene un modelo bien entrenado que puede traducir un idioma directamente.

Se produjo un error
Tenemos problemas para reproducir este video.

Las innovaciones

La ciencia detrás del descubrimiento

La mayoría de los modelos actuales de traducción automática funcionan con idiomas con recursos medios y altos, y dejan relegados a casi todos los idiomas de bajos recursos. Los investigadores de Meta AI están abordando este problema con tres innovaciones importantes en materia de IA.

Generación automática de conjuntos de datos para idiomas con pocos recursos

El contexto

La traducción automática es una tarea de aprendizaje supervisado, lo que significa que el modelo necesita datos de los cuales aprender. A menudo, se utilizan traducciones a modo de ejemplo que provienen de colecciones de datos de código abierto. Nuestra solución consiste en generar automáticamente pares de traducciones emparejando oraciones de diferentes colecciones de documentos monolingües.

El desafío

Los modelos LASER que se utilizan en este proceso de creación de conjuntos de datos son compatibles principalmente con los idiomas con recursos medios y altos. Por ese motivo, resulta inviable producir pares de traducciones precisos para los idiomas con recursos bajos.

La innovación

Para solucionar este problema, invertimos en un procedimiento de capacitación de profesores y estudiantes, lo que permitió: 1) ampliar la cantidad de idiomas de LASER a 200 idiomas y 2) producir una enorme cantidad de datos, incluso para los idiomas con pocos recursos.

Modelado de 200 idiomas

El contexto

Los sistemas de traducción automática multilingües mejoraron en comparación con los sistemas bilingües. Esto se debe a que permiten la "transferencia" de pares de idiomas con muchos datos de entrenamiento a otros idiomas con menos recursos de entrenamiento.

El desafío

El entrenamiento en conjunto de cientos de pares de idiomas tiene sus dificultades, ya que el mismo modelo debe representar un número cada vez mayor de idiomas con el mismo número de parámetros. Esto representa un problema cuando el tamaño de los conjuntos de datos es desequilibrado, ya que puede provocar un ajuste excesivo.

La innovación

Desarrollamos un modelo Sparse Mixture-of-Experts que cuenta con una capacidad compartida y especializada. Por eso, los idiomas con pocos recursos y sin muchos datos pueden enviarse automáticamente a la capacidad compartida. Cuando se combina con mejores sistemas de regularización, se evita el ajuste excesivo. Además, utilizamos el aprendizaje autosupervisado y el aumento de datos a gran escala mediante varios tipos de traducción inversa.

Evaluación de la calidad de la traducción

El contexto

Para determinar si una traducción realizada por nuestro modelo cumple con nuestros estándares de calidad, debemos evaluarla.

El desafío

Los modelos de traducción automática suelen evaluarse comparando las oraciones traducidas automáticamente con traducciones humanas. Sin embargo, para muchos idiomas no hay datos de traducción confiables. Por lo tanto, no se pueden realizar evaluaciones precisas.

La innovación

Duplicamos la cobertura de FLORES, un punto de referencia para la evaluación de traducciones humanas, y ahora cubrimos 200 idiomas. Gracias a las métricas automáticas y al apoyo de la evaluación por parte de personas, somos capaces de cuantificar de manera exhaustiva la calidad de las traducciones.
Obtén más información sobre la ciencia detrás de NLLB en nuestro informe técnico y en el blog,. Además, descarga el modelo para ayudarnos a llevar este proyecto adelante.

Obtén más información sobre la ciencia detrás de NLLB en nuestro informe técnico y en el blog. Además, descarga el modelo para ayudarnos a llevar este proyecto adelante.

El recorrido

Hitos de la investigación
Hitos de la investigación

Meta AI ayuda a lograr avances en el campo de la tecnología de la traducción automática y, a la vez, a superar con éxito varios desafíos del sector relacionados con la falta de disponibilidad de datos para los idiomas con pocos recursos y la calidad y la precisión de la traducción, entre otros. A medida que impulsamos la inclusión a través del poder de la traducción basada en la IA, el recorrido continúa.

Meta AI ayuda a lograr avances en el campo de la tecnología de la traducción automática y, a la vez, a superar con éxito varios desafíos del sector relacionados con la falta de disponibilidad de datos para los idiomas con pocos recursos y la calidad y la precisión de la traducción, entre otros. A medida que impulsamos la inclusión a través del poder de la traducción basada en la IA, el recorrido continúa.

Conoce los hitos del modelo según el número de idiomas publicados

< 50 idiomas

50-99 idiomas

100 idiomas

200 idiomas

LASER (representaciones de oraciones independientes del idioma)

2018

La primera exploración exitosa de representaciones de oraciones multilingües a gran escala que se compartió de manera pública con la comunidad de NLP. El codificador crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 50 idiomas.

Codificadores de datos

WMT-19

2019

Los modelos de IA de Facebook tuvieron el mejor rendimiento de entre todos los demás modelos en la WMT 2019, ya que utilizaron la traducción inversa con muestras a gran escala, modelos de canales ruidosos y técnicas de limpieza de datos para ayudar a crear un sistema eficiente.

Modelo

Flores V1

2019

Un conjunto de datos de referencia para la traducción automática entre el inglés e idiomas con pocos recursos que introduce un proceso de evaluación justo y riguroso para dos idiomas inicialmente.

Datos de evaluación

WikiMatrix

2019

La mayor extracción de oraciones en paralelo en varios idiomas: extracción de un corpus paralelo compuesto por 135 millones de oraciones de Wikipedia en 1.620 pares de idiomas para desarrollar mejores modelos de traducción.

Generación de datos

M2M-100

2020

El primer modelo único de traducción automática multilingüe que traduce directamente cualquier par de 100 idiomas sin depender de los datos en inglés. Está entrenado en 2.200 direcciones de idiomas, 10 veces más que los modelos multilingües anteriores.

Modelo

CCMatrix

2020

El conjunto más grande de datos de corpus paralelos de alta calidad y basado en la web para generar mejores modelos de traducción que funcionen con más idiomas, sobre todo con idiomas con pocos recursos: 4.500 millones de oraciones en paralelo en 576 pares de idiomas.

Generación de datos

LASER 2

2020

Crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 100 idiomas.

Codificadores de datos

WMT-21

2021

Por primera vez, un solo modelo multilingüe superó a los mejores modelos bilingües entrenados especialmente en 10 de los 14 pares de idiomas y ganó la WMT 2021, con las mejores traducciones para los idiomas con pocos y muchos recursos.

Modelo

FLORES-101

2021

FLORES-101 es el primer conjunto de datos de evaluación de varios a varios idiomas que permite a los investigadores evaluar y mejorar rápidamente los modelos de traducción multilingüe como M2M-100.

Datos de evaluación

NLLB-200

2022

El modelo NLLB traduce 200 idiomas.

Modelo

FLORES 200

2021

Ampliación del conjunto de datos de evaluación FLORES, que actualmente incluye 200 idiomas.

Datos de evaluación

NLLB-Data-200

2022

Generación y publicación de datos de entrenamiento para 200 idiomas.

Datos de evaluación

LASER 3

2022

Crea incrustaciones a fin de emparejar automáticamente frases que comparten el mismo significado en 200 idiomas.

Codificadores de datos

< 50 idiomas

50-100 idiomas

100 idiomas

200 idiomas

LASER (representaciones de oraciones independientes del idioma)

2018

La primera exploración exitosa de representaciones de oraciones multilingües a gran escala que se compartió de manera pública con la comunidad de NLP. El codificador crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 50 idiomas.

Codificadores de datos

WMT-19

2019

Los modelos de IA de Facebook superaron a todos los demás modelos en la WMT 2019, ya que utilizaron la traducción inversa con muestras a gran escala, modelos de canales ruidosos y técnicas de limpieza de datos para ayudar a crear un sistema eficiente.

Modelo

Flores V1

2019

Un conjunto de datos de referencia para la traducción automática entre el inglés e idiomas con pocos recursos que introduce un proceso de evaluación justo y riguroso de dos idiomas inicialmente.

Datos de evaluación

WikiMatrix

2019

La mayor extracción de oraciones en paralelo en varios idiomas: extracción de un corpus paralelo compuesto por 135 millones de oraciones de Wikipedia en 1.620 pares de idiomas para desarrollar mejores modelos de traducción.

Generación de datos

M2M-100

2020

El primer modelo único de traducción automática multilingüe que traduce directamente cualquier par de 100 idiomas sin depender de los datos en inglés. Está entrenado en 2.200 direcciones de idiomas, 10 veces más que los modelos multilingües anteriores.

Modelo

CCMatrix

2020

El conjunto más grande basado en la web de datos de corpus paralelos de alta calidad para generar mejores modelos de traducción que funcionen con más idiomas, sobre todo, con idiomas con pocos recursos: 4.500 millones de oraciones en paralelo en 576 pares de idiomas.

Generación de datos

LASER 2

2020

Crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 100 idiomas.

Codificadores de datos

WMT-21

2021

Por primera vez, un solo modelo multilingüe superó a los mejores modelos bilingües entrenados especialmente en 10 de los 14 pares de idiomas y ganó la WMT 2021, con las mejores traducciones para los idiomas con pocos y muchos recursos.

Modelo

FLORES-101

2021

FLORES-101 es el primer conjunto de datos de evaluación de varios a varios idiomas que cubre 101 idiomas y permite a los investigadores evaluar y mejorar rápidamente los modelos de traducción multilingüe como M2M-100.

Datos de evaluación

NLLB-200

2022

El modelo NLLB traduce 200 idiomas.

Modelo

FLORES 200

2021

Ampliación del conjunto de datos de evaluación FLORES, que actualmente incluye 200 idiomas.

Datos de evaluación

NLLB-Data-200

2022

Generación y publicación de datos de entrenamiento para 200 idiomas.

Datos de evaluación

LASER 3

2022

Crea incrustaciones a fin de emparejar automáticamente frases que comparten el mismo significado en 200 idiomas.

Codificadores de datos

200 idiomas traducidos por el modelo NLLB-200, el doble que nuestro modelo anterior

El BLEU del modelo final obtuvo un rendimiento 44% mejor que el innovador modelo anterior

75 idiomas que previamente no admitían los sistemas de traducción comerciales

18.000 millones de oraciones en paralelo, 2,5 veces más datos de entrenamiento que el modelo anterior M2M-100

El modelo de traducción automática de código abierto más grande 54B, con un número de parámetros 5 veces mayor que el modelo anterior M2M-100

40.000 direcciones de traducción admitidas por un solo modelo; más de 4 veces la capacidad del punto de referencia anterior

Los avances en la investigación de NLLB permiten que se proporcionen más de 25.000 millones de traducciones todos los días en la sección de noticias de Facebook, Instagram y el resto de nuestras plataformas

200 idiomas traducidos por el modelo NLLB-200, el doble que nuestro modelo anterior

El BLEU del modelo final obtuvo un rendimiento 44% mejor que el innovador modelo anterior

75 idiomas que previamente no admitían los sistemas de traducción comerciales

18.000 millones de oraciones en paralelo, 2,5 veces más datos de entrenamiento que el modelo anterior M2M-100

El modelo de traducción automática de código abierto más grande 54B, con un número de parámetros 5 veces mayor que el modelo anterior M2M-100

40.000 direcciones de traducción admitidas por un solo modelo; más de 4 veces la capacidad del punto de referencia anterior

Los avances en la investigación de NLLB permiten que se proporcionen más de 25.000 millones de traducciones todos los días en la sección de noticias de Facebook, Instagram y el resto de nuestras plataformas

Más información

Ayúdanos a seguir mejorando el modelo No Language Left Behind

Hay mucho más por aprender sobre NLLB, y aún más por lograr con el proyecto. Lee el informe técnico y el blog, y descarga el modelo para ayudarnos a llevar este proyecto adelante. Haber alcanzado los 200 idiomas es apenas el comienzo. Colabora con nosotros en este proyecto tan importante de traducción y inclusión.