• Meta AI ha creado un modelo único de IA, NLLB-200, el primero capaz de traducir con una calidad sin precedentes a 200 idiomas diferentes, los cuales se han sometido a evaluaciones exhaustivas.

  • Además, también hemos creado un nuevo conjunto de datos de evaluación, FLORES-200, con el que hemos medido el rendimiento de NLLB-200 en cada idioma para confirmar que las traducciones sean de buena calidad. NLLB-200 supera a las tecnologías actuales en un 44 % de media.

  • Actualmente estamos usando aprendizajes y técnicas de modelos extraídos de este proyecto para aplicarlos a las traducciones de Facebook, Instagram y Wikipedia, con el objetivo de mejorar y ampliar el contenido traducido.

  • También estamos publicando en código abierto los modelos NLLB-200, FLORES-200 y el código de entrenamiento del modelo, además de los códigos necesarios para recrear el conjunto de datos de entrenamiento, con el objetivo de ayudar a otros investigadores a mejorar sus herramientas de traducción y aprovechar nuestras tecnologías.

El idioma es nuestra cultura, nuestra identidad y nuestra herramienta para comunicarnos con el mundo. Sin embargo, las herramientas de traducción más avanzadas solo están disponibles para un pequeño conjunto de lenguas, lo que impide a miles de millones de personas acceder al contenido digital o participar en las conversaciones de las comunidades online en su lengua materna o en la que prefieran usar. Esta realidad se hace especialmente patente para cientos de millones de personas de África y Asia, donde conviven una gran variedad de lenguas.

Se ha producido un error
Tenemos problemas para reproducir este vídeo.

Para ayudar a la gente a conectar con más facilidad en el presente y a formar parte del metaverso en el futuro, los investigadores de Meta AI han creado “No Language Left Behind” (“Ningún idioma se queda atrás”, NLLB), una iniciativa para desarrollar funciones de traducción automática avanzadas para la mayoría de los idiomas del mundo. Hoy anunciamos un logro muy importante: un modelo de IA único llamado NLLB-200, que puede traducir a 200 idiomas diferentes con resultados sin precedentes. La mayoría de estos idiomas, como pueden ser el kamba o el lao, no funcionaban correctamente o ni siquiera estaban incluidos entre los idiomas con los que trabajan las mejores herramientas de traducción actuales. Menos de 25 idiomas de África se incluyen en las herramientas de traducción más usadas, en muchos casos con resultados deficientes. No obstante, NLLB-200 incluye 55 idiomas africanos con resultados de calidad. En definitiva, este modelo único puede proporcionar traducciones óptimas para idiomas que hablan miles de millones de personas en todo el mundo. En total, podemos decir que las puntuaciones BLEU de NLLB-200 superan a las existentes en un 44 % de media en 10 000 direcciones del modelo de referencia FLORES-101. Para idiomas de la India y del continente africano, el incremento es incluso superior al 70 % en comparación con los sistemas de traducción actuales.

Ahora, estamos publicando en código abierto el modelo NLLB-200 y un gran número de herramientas de investigación para permitir que otros investigadores puedan ampliar este trabajo a más idiomas y diseñar tecnologías más inclusivas. Meta AI también quiere conceder subvenciones de hasta 200 000 USD a organizaciones sin ánimo de lucro que quieran aplicar esta nueva tecnología en entornos reales.

Los avances en investigación de NLLB podrán proporcionar más de 25 000 millones de traducciones al día en la sección de noticias de Facebook, Instagram y nuestras otras plataformas. Imagina poder visitar un grupo de Facebook que te encante, encontrarte con una publicación en idioma igbo o luganda, y ser capaz convertir esa información a tu propio idioma con solo pulsar un botón. Además, las traducciones precisas en varios idiomas también pueden ayudar a detectar contenido dañino e información errónea, proteger la integridad de las elecciones y frenar los casos de explotación sexual y trata de personas en internet. Las técnicas de modelado y los avances que hemos logrado en nuestra investigación de NLLB también pueden aplicarse a los sistemas de traducción utilizados por los editores de Wikipedia.

La traducción es uno de los ámbitos más apasionantes de la IA, ya que causa un gran impacto en el día a día de la gente. NLLB es una iniciativa que no solo consiste en proporcionar un mejor acceso al contenido web. También facilitará que las personas puedan contribuir y compartir información sin importar el idioma que prefieran usar. Todavía tenemos mucho trabajo por delante, pero nos alegramos mucho del progreso que hemos conseguido últimamente y cómo nos está acercando a cumplir la misión de Meta.

Si quieres, puedes probar una demostración de NLLB-200, que te permite ver cómo este modelo traduce historias de todo el mundo. También puedes consultar el artículo de investigación aquí.

Acceso a herramientas de traducción para miles de millones de personas

Estamos colaborando con la Fundación Wikimedia, la organización sin ánimo de lucro que proporciona el servidor a Wikipedia y otros proyectos de acceso gratuito al conocimiento, para que puedan mejorar sus sistemas de traducción en la enciclopedia. Hay versiones de Wikipedia en más de 300 idiomas, pero la mayoría tienen muchos menos artículos que la versión en inglés, que ya cuenta con más de seis millones. Esta disparidad es especialmente notable para los idiomas que se suelen hablar fuera de Europa y Norteamérica. Por ejemplo, hay disponibles alrededor de 3260 artículos de Wikipedia en lingala, un idioma hablado por 45 millones de personas en la República Democrática del Congo, la República del Congo, la República Centroafricana y la República de Sudán del Sur. Pero, por el contrario, el sueco dispone de más de 2,5 millones de artículos para 10 millones de hablantes en Suecia y Finlandia.

Actualmente, los editores de Wikipedia están usando la tecnología de NLLB-200 a través de la herramienta de traducción de contenidos de la Fundación Wikimedia para traducir artículos a más de 20 idiomas con pocos recursos (es decir, aquellos que no disponen de conjuntos de datos lo suficientemente grandes para entrenar los sistemas de IA). Entre ellos, se incluyen 10 idiomas que no estaban anteriormente disponibles en ninguna herramienta de traducción de la plataforma.

Los desafíos de construir un modelo único para cientos de lenguas

Los sistemas de traducción automática, como los modelos de IA, se entrenan con datos. Para sistemas de traducción de texto, este entrenamiento consiste en millones de oraciones emparejadas cuidadosamente entre combinaciones de lenguas. Sin embargo, hay muchas otras combinaciones para las que no existe un gran volumen de oraciones paralelas, como, por ejemplo, entre el inglés y el fula. Los modelos de traducción actuales intentan suplir estas carencias extrayendo datos de la web. Aun así, los resultados a veces presentan una calidad bastante mejorable, ya que el texto origen es diferente para cada lengua. Además, a veces está lleno de errores gramaticales o incoherencias, y le faltan tildes y otras marcas diacríticas.

Otra gran dificultad que encontramos es optimizar un modelo único para que funcione con cientos de lenguas sin que esto comprometa el rendimiento del modelo o la calidad de la traducción, ya que, tradicionalmente, los mejores resultados se habían conseguido con modelos independientes para cada dirección lingüística. Pero este método no es fácil de aplicar en una herramienta con muchos idiomas, ya que el rendimiento y la calidad de la traducción empeoran cuantos más idiomas se añaden.

Los modelos de traducción también producen errores que no son fáciles de identificar. Estos sistemas están diseñados simulando redes neuronales que se utilizan en la generación de textos, por lo que a veces pueden producir errores como alucinaciones (afirmar algo como cierto aunque no sea así), declaraciones erróneas y contenido no seguro. En general, hay menos puntos de referencia y conjuntos de datos para lenguas con menos recursos y, en consecuencia, es mucho más complejo probar y mejorar los modelos.

Innovación en estructuras, obtención de datos, puntos de referencia y mucho más

En los últimos años, hemos progresado en el objetivo de solucionar las dificultades descritas anteriormente. En 2020, anunciamos nuestro modelo de traducción a 100 idiomas, M2M-100, que aprovechó los nuevos métodos para recabar datos para entrenar estas tecnologías, nuevas arquitecturas para ajustar el tamaño de los modelos sin que esto afectara al rendimiento y nuevas formas de evaluar y mejorar los resultados. Para poder ampliar la tecnología a otros 100 idiomas, hemos dado un paso adelante en estas tres áreas.

Ampliación de los recursos de entrenamiento disponibles

Para recopilar textos paralelos más precisos en otros idiomas, hemos mejorado nuestra herramienta LASER (representaciones de oraciones agnósticas del lenguaje) de transferencia “zero-shot” (sin disponer de ejemplos previos) para el procesamiento de lenguajes naturales. En lugar de LSTM, la nueva versión LASER3 utiliza un modelo Transformer entrenado con supervisión automática, que funciona con un objetivo de modelado de lenguaje enmascarado. Además, hemos mejorado el rendimiento usando un modelo basado en el aprendizaje profesor-alumno y creando codificadores específicos para cada grupo de idiomas, lo que nos permitió ajustar LASER3 a los idiomas actuales y producir pares de oraciones en masa, incluso para idiomas con pocos recursos. Estamos publicando en código abierto el método de incrustación multilingüe de LASER3 para que esté disponible para otros investigadores. Además, estamos publicando miles de millones de oraciones paralelas en distintas combinaciones lingüísticas, que se han extraído y perfeccionado usando las técnicas que hemos descrito previamente.

Como hemos usado una amplia red para conseguir ejemplos de aprendizaje en varios idiomas, era importante asegurarse de que los ejemplos tuvieran una buena calidad. Hemos renovado completamente nuestro canal de limpieza de datos para poder ajustarlo a 200 idiomas. Para ello, hemos añadido importantes pasos de filtrado, como el uso de nuestros modelos LID-200 por primera vez con el objetivo de filtrar los datos y reducir el ruido de forma fiable de un corpus del tamaño de internet. Hemos desarrollado listas de toxicidad para los 200 idiomas, y las hemos usado evaluar y filtrar posible toxicidad por alucinaciones. Todos estos pasos nos permiten disponer de conjuntos de datos con menos errores y toxicidad en los que los idiomas están identificados correctamente. Es algo fundamental para mejorar la calidad de la traducción y reducir el riesgo de lo que se conoce como “toxicidad por alucinaciones”, donde el sistema, de manera errónea, introduce contenido tóxico durante el proceso de traducción.

Ajustar el tamaño del modelo sin renunciar al rendimiento

Los sistemas de traducción multilingües ofrecen, principalmente, dos beneficios. Permiten que idiomas similares (como el asamés y el bengalí, ambos escritos con el alfabeto bengalí) compartan datos durante el entrenamiento del sistema. Esto mejora significativamente la calidad de la traducción para idiomas con pocos recursos, ya que se entrenan junto a idiomas parecidos con más referencias. Además, permite que los investigadores puedan iterar, ajustar el tamaño y experimentar de forma mucho más sencilla con un único modelo multilingüe, en lugar de con cientos o incluso miles de modelos bilingües diferentes.

Sin embargo, todavía quedan grandes retos por delante para ampliar un modelo de 100 a 200 idiomas. El sistema multilingüe, al incluir en los datos de aprendizaje más combinaciones lingüísticas con pocos recursos, comienza a sobreajustarse conforme vamos entrenando los modelos durante periodos más largos. Para solventar estos problemas, hemos innovado en tres aspectos: regularización y aprendizaje curricular, aprendizaje de supervisión automática y diversificación de la retrotraducción (volver a traducir lo previamente traducido al idioma de origen).

Hemos desarrollado redes de mezcla de expertos que cuentan con una capacidad compartida y especializada, para que los idiomas con pocos recursos que no tienen muchos datos se dirijan automáticamente a la capacidad compartida. Cuando se combinan con sistemas de regularización mejor diseñados, se evita el sobreajuste. Además, hemos seguido un enfoque de aprendizaje curricular en dos pasos: primero, entrenamos los idiomas con muchos recursos durante unas cuantas épocas, lo que también contribuía a reducir el sobreajuste. Luego, debido a la escasez de datos en el corpus paralelo de los idiomas con pocos recursos, aprovechamos el aprendizaje de supervisión automática de los datos monolingües tanto de los idiomas con pocos recursos como de idiomas similares con muchos recursos, de forma que mejoramos el rendimiento general del modelo.

Finalmente, analizamos cuál era la mejor manera de generar datos de las retrotraducciones y descubrimos que, si mezclábamos datos de retrotraducciones generadas con modelos de traducción automática estadística bilingüe y con traducción automática neuronal, podíamos mejorar el rendimiento de los idiomas con pocos recursos gracias a la diversificación de los datos sintéticos generados. Para entrenar al modelo NLLB-200, que dispone de 54 000 millones de parámetros, utilizamos nuestro nuevo Research SuperCluster (RSC), que es uno de los superordenadores de IA más rápidos del mundo.

Herramientas de mitigación y evaluación para 200 idiomas

Para mejorar y evaluar NLLB-200, diseñamos FLORES-200, un conjunto de datos de evaluación varios a varios que permite que los investigadores puedan evaluar el rendimiento en más de 40 000 direcciones entre idiomas diferentes. Estamos publicando en código abierto este conjunto de datos para ayudar a otros científicos a que puedan evaluar y mejorar sus modelos de traducción de forma rápida. FLORES-200 puede usarse para evaluar sistemas de traducción que se apliquen en distintos ámbitos, incluyendo folletos informativos de salud, películas, libros y contenido online en países o regiones donde se hablen idiomas con pocos recursos.

Sin embargo, para ajustar este sistema a 200 idiomas, es necesario abordar los riesgos de generar contenido tóxico, que puede ser más complicado de administrar con un sistema de traducción multidireccional. Para ello, diseñamos listas de toxicidad para todos los idiomas. Con ellas, es posible detectar y filtrar lenguaje soez y otro contenido potencialmente ofensivo. Estamos publicando las listas de evaluación de toxicidad y puntos de referencia de estos 200 idiomas para que los investigadores puedan usar estas herramientas y reducir los riesgos en sus modelos.

Además, para asegurarnos de que procedemos de forma adecuada, estamos trabajando con un equipo interdisciplinario que incluye a lingüistas, sociólogos y especialistas en ética para obtener más información de los idiomas que analizamos.

Esta gráfica muestra la puntuación BLEU en las traducciones de FLORES-101 desde y al inglés en 100 idiomas. En la parte izquierda hay dos modelos actuales, M2M y Delta LM, que trabajan con 100 idiomas. Los modelos a la derecha trabajan con 200 idiomas: un modelo Transformer estándar con 3300 millones de parámetros, un modelo estándar con aprendizaje de supervisión automática (SSL), un modelo estándar con retrotraducción (BT) y NLLB-200, un modelo basado en una gran mezcla de expertos que incluye tanto el aprendizaje de supervisión automática como la retrotraducción.

Más traducción y más inclusión

Unas herramientas de traducción de calidad pueden transformar el mundo. La realidad actual es que solo unas cuantas lenguas (que incluyen el inglés, el chino mandarín, el español y el árabe) son las que dominan la web. Los hablantes nativos de estos idiomas pueden no ser conscientes de la importancia de leer algo en la propia lengua materna. Creemos que NLLB puede contribuir a la preservación de las diferentes lenguas, ya que se diseñó para compartirse, en lugar de precisar siempre una lengua intermediaria que puede llevar a una idea errónea o a transmitir un sentimiento que no era el que se pretendía.

Además, también puede ayudar a avanzar en otros ámbitos del procesamiento de lenguajes naturales, no solo de la traducción. Por ejemplo, puede ayudar a diseñar asistentes que funcionen correctamente en idiomas como el javanés o el uzbeko, o a crear sistemas que permitan introducir subtítulos precisos en oromo o suajili en películas de Bollywood. Mientras el metaverso comienza a tomar forma, la capacidad de diseñar tecnologías que funcionen correctamente en cientos o incluso miles de idiomas es un gran paso para democratizar el acceso a nuevas experiencias inmersivas en mundos virtuales.

Hace solamente unos años, la traducción automática avanzada solo estaba disponible para unos pocos idiomas. Con NLLB-200, estamos cada vez más cerca de tener sistemas que permitan a las personas comunicarse con quienes elijan. Tenemos muchas ganas de ver cómo afecta esto al presente y qué podría representar para el futuro mientras seguimos poniendo a prueba los límites actuales de la traducción automática.

Este proyecto ha comenzado con un equipo interdisciplinario en Meta AI, que incluye a Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang y Al Youngblood.