No Language Left Behind

No Language Left Behind

Favorisez l’inclusion grâce au pouvoir de la traduction alimentée par l’IA

Favorisez l’inclusion grâce au pouvoir de la traduction alimentée par l’IA

Regarder la vidéo
Regarder la vidéo

À propos de No Language

Left Behind

No Language Left Behind (« Ne laisser aucune langue de côté ») est un projet d’IA pionnier qui met en libre accès des modèles capables de fournir des traductions évaluées et de haute qualité directement entre 200 langues, y compris des langues à faibles ressources comme l’asturien, le luganda, l’ourdou, etc. Ce projet poursuit l’objectif suivant : permettre à toute personne d’accéder à du contenu web dans sa langue maternelle et de le partager, et de communiquer avec n’importe qui, n’importe où, peu importe les préférences linguistiques de chacun.

À propos de No Language Left Behind

No Language Left Behind (« Ne laisser aucune langue de côté ») est un projet d’IA pionnier qui met en libre accès des modèles capables de fournir des traductions évaluées et de haute qualité directement entre 200 langues, y compris des langues à faibles ressources comme l’asturien, le luganda, l’ourdou, etc. Ce projet poursuit l’objectif suivant : permettre à toute personne d’accéder à du contenu web dans sa langue maternelle et de le partager, et de communiquer avec n’importe qui, n’importe où, peu importe les préférences linguistiques de chacun.

recherche ia pour application concrète

Appliquer les techniques d’IA à Facebook et Instagram pour la traduction de langues à faibles ressources

Nous nous engageons à rassembler tout le monde. C’est pourquoi nous utilisons des apprentissages et techniques de modélisation issus de nos recherches NLLB afin d’améliorer les traductions des langues à faibles ressources sur Facebook et Instagram. Ces techniques et apprentissages, appliqués à nos systèmes de traduction, permettent aux internautes de communiquer de façon plus authentique et plus intéressante, dans la langue de leur choix. À l’avenir, nous espérons étendre les apprentissages issus de NLLB à plus d’applications Meta.

APPLICATION CONCRÈTE

Jeter les bases d’un métavers inclusif

Un métavers traduit : rassembler tout le monde, partout

Dans le cadre de la construction du métavers, la traduction de centaines de langues en temps réel, en AR/VR, est notre priorité. Notre objectif est de définir de nouveaux critères d’inclusion, pour qu’un jour, chacun ait accès au contenu, aux appareils et aux expériences du monde virtuel, tout en ayant la possibilité de communiquer avec n’importe qui, dans n’importe quelle langue au sein du métavers. Cet objectif sert notre vision à long terme, celle de rassembler tout le monde, partout.

APPLICATION CONCRÈTE

Traduire Wikipédia pour tous

Aider les contributeurs bénévoles à rendre l’information disponible dans plus de langues

La technologie sur laquelle repose le modèle NLLB-200, désormais disponible via l’outil de traduction du contenu de la fondation Wikimédia, aide les contributeurs Wikipédia à traduire les informations dans la langue de leur choix. Les contributeurs Wikipédia utilisent cette technologie pour traduire et modifier plus efficacement des articles rédigés à l’origine dans une langue peu répandue, comme le luganda ou l’islandais. Ils participent ainsi à la diffusion du contenu dans un plus grand nombre de langues, auprès des lecteurs Wikipédia du monde entier. Le modèle open-source NLLB-200 aidera également les communautés de chercheurs, ainsi que les communautés Wikipédia intéressées, à s’appuyer sur nos travaux.

Expérimentation de la technologie

Raconter des histoires par la traduction :

des livres du monde entier traduits dans des centaines de langues

Raconter des histoires par la traduction :

des livres du monde entier traduits dans des centaines de langues

Découvrez toute la puissance de la traduction par l’IA grâce à Raconter des histoires par la traduction, notre démo qui utilise les derniers progrès en matière d’IA du projet No Language Left Behind (ne laisser aucune langue de côté). Cette démo traduit des livres de leur langue d’origine comme l’indonésien, le somali et le birman dans d’autres langues pour les lecteurs. Des centaines de langues seront disponibles dans les mois à venir. Grâce à cette initiative, le NLLB-200 deviendra le tout premier modèle d’IA à traduire des livres à cette échelle.

La technologie

Traduction automatique : comment ça marche ?

Comment le modèle open-source NLLB traduit-il directement dans 200 langues différentes ?

ÉTAPE 1

Construction automatique de l’ensemble de données

Étape 1 : construction automatique de l’ensemble de données

Les données d’apprentissage contenant des phrases dans la langue source et la langue cible sont collectées.

Une erreur s’est produite
Nous rencontrons des difficultés pour lire cette vidéo.

ÉTAPE 2

Apprentissage

Étape 2 : apprentissage

Après avoir créé des données d’apprentissage alignées pour des milliers d’usages différents, ces données viennent alimenter notre pipeline d’apprentissage des modèles. Ces modèles se composent de deux éléments : l’encodeur, qui convertit la phrase source en représentation vectorielle interne, et le décodeur, qui utilise cette représentation pour générer la phrase cible. Avec l’entraînement de millions d’exemples de traduction, les modèles apprennent à générer des traductions plus précises.

Une erreur s’est produite
Nous rencontrons des difficultés pour lire cette vidéo.

ÉTAPE 3

Évaluation

Étape 3 : évaluation

Enfin, nous comparons notre modèle à un ensemble de traductions humaines pour confirmer la qualité de la traduction. Cette étape inclut la détection et le filtrage des injures et autres contenus offensants à l’aide de listes de blocage conçues pour toutes les langues prises en charge. Résultat : un modèle parfaitement entraîné capable de traduire directement.

Une erreur s’est produite
Nous rencontrons des difficultés pour lire cette vidéo.

ÉTAPE 1

Construction automatique de l’ensemble de données

ÉTAPE 2

Apprentissage

ÉTAPE 3

Évaluation

Étape 1 : construction automatique de l’ensemble de données

Les données d’apprentissage contenant des phrases dans la langue source et la langue cible sont collectées.

Une erreur s’est produite
Nous rencontrons des difficultés pour lire cette vidéo.

Étape 2 : apprentissage

Après avoir créé des données d’apprentissage alignées pour des milliers d’usages différents, ces données viennent alimenter notre pipeline d’apprentissage des modèles. Ces modèles se composent de deux éléments : l’encodeur, qui convertit la phrase source en représentation vectorielle interne, et le décodeur, qui utilise cette représentation pour générer la phrase cible. Avec l’entraînement de millions d’exemples de traduction, les modèles apprennent à générer des traductions plus précises.

Une erreur s’est produite
Nous rencontrons des difficultés pour lire cette vidéo.

Étape 3 : évaluation

Enfin, nous comparons notre modèle à un ensemble de traductions humaines pour confirmer la qualité de la traduction. Cette étape inclut la détection et le filtrage des injures et autres contenus offensants à l’aide de listes de blocage conçues pour toutes les langues prises en charge. Résultat : un modèle parfaitement entraîné capable de traduire directement.

Une erreur s’est produite
Nous rencontrons des difficultés pour lire cette vidéo.

Les innovations

La science cachée derrière cette découverte

La plupart des modèles de traduction automatique actuels sont conçus pour les langues avec un volume de ressources moyen à élevé, et laissent de côté celles pour lesquelles les ressources sont moins nombreuses. Les chercheurs Meta AI luttent contre ce problème par le biais de trois innovations importantes dans le domaine de l’IA.

Création automatique d’ensembles de données pour les langues à faibles ressources

Le contexte

La traduction automatique est une tâche d’apprentissage supervisée, ce qui signifie que le modèle est entraîné à partir de données. Des exemples de traduction provenant de collections de données en libre accès sont souvent utilisés. Nous proposons de créer automatiquement des paires de traductions en alignant des phrases dans différents ensembles de documents monolingues.

L’objectif

Les modèles LASER, qui servent au processus de création d’ensembles de données, sont principalement adaptés aux langues à ressources moyennes et élevées, ce qui rend impossible la génération de paires de traductions précises pour les langues à faibles ressources.

L’innovation

Nous avons résolu ce problème en investissant dans une procédure d’entraînement de type maître-élève, ce qui a permis d’élargir la couverture linguistique des modèles LASER à 200 langues et de produire une quantité importante de données, même pour les langues à faibles ressources.

Modélisation de 200 langues

Le contexte

Les systèmes de traduction automatique multilingues ont été améliorés par rapport aux systèmes bilingues. En effet, ils permettent de « transférer » des données issues de paires de langues pour lesquelles les ressources d’entraînement sont nombreuses vers des langues avec peu de ressources.

L’objectif

L’entraînement conjoint de centaines de paires de langues comporte des inconvénients, puisque le même modèle doit représenter un nombre croissant de langues avec le même nombre de paramètres. Cela peut être problématique lorsque les tailles des ensembles de données ne sont pas équivalentes, car cela peut entraîner un surajustement.

L’innovation

Nous avons développé un modèle Mixture of Experts rare qui a des capacités partagées et spécialisées, afin que les langues à faibles ressources puissent être automatiquement redirigées vers la capacité partagée. L’utilisation de systèmes de régularisation plus efficaces permet d’éviter le surajustement. De plus, nous avons utilisé l’apprentissage autosupervisé et l’augmentation des données à grande échelle grâce à plusieurs types de rétrotraduction.

Évaluation de la qualité de la traduction

Le contexte

Nous évaluons les traductions de nos modèles afin de vérifier qu’elles respectent nos standards de qualité.

L’objectif

Les modèles de traduction automatique sont généralement évalués en comparant les phrases générées par la traduction automatique avec les biotraductions. Toutefois, pour de nombreuses langues, aucune donnée de traduction fiable n’est disponible. Par conséquent, il n’est pas possible d’effectuer des évaluations précises.

L’innovation

Nous avons doublé la portée de FLORES, une référence d’évaluation manuelle, qui couvre désormais 200 langues. Grâce aux indicateurs automatiques et aux évaluations manuelles, nous sommes capables de déterminer la qualité de nos traductions.
Découvrez-en plus sur les avancées scientifiques sous-tendant NLLB en lisant notre livre blanc et notre blog, et en téléchargeant le modèle pour nous aider à faire avancer ce projet.

Découvrez-en plus sur les avancées scientifiques sous-tendant NLLB en lisant notre livre blanc et notre blog, et en téléchargeant le modèle pour nous aider à faire avancer ce projet.

Le parcours

Moments-clés de la recherche
Moments-clés de la recherche

Meta AI fait progresser les technologies de traduction automatique tout en relevant avec succès de nombreux défis du secteur, de l’indisponibilité des données pour les langues à faibles ressources à la qualité et à la précision des traductions. Nous poursuivons notre parcours tout en développant l’inclusivité grâce à la puissance de l’IA dans le domaine de la traduction.

Meta AI fait progresser les technologies de traduction automatique tout en relevant avec succès de nombreux défis du secteur, de l’indisponibilité des données pour les langues à faibles ressources à la qualité et à la précision des traductions. Nous poursuivons notre parcours tout en développant l’inclusivité grâce à la puissance de l’IA dans le domaine de la traduction.

Voir les moments-clés du modèle selon le nombre de langues publiées

< 50 langues

50 à 99 langues

100 langues

200 langues

LASER (Language-agnostic sentence representations)

2018

La première expérience réussie de représentations de phrases multilingues partagée publiquement avec la communauté TALN. L’encodeur crée des plongements pour aligner automatiquement des phrases partageant le même sens en 50 langues.

Encodeurs de données

WMT-19

2019

Les modèles d’IA Facebook ont surpassé tous les autres modèles lors de la conférence WMT 2019, en utilisant la rétrotraduction échantillonnée à grande échelle, la modélisation des canaux bruités et des techniques de nettoyage des données pour aider à créer un système fiable.

Modèle

Flores V1

2019

Ensemble de données de référence pour la traduction automatique entre l’anglais et des langues à faibles ressources introduisant un processus d’évaluation équitable et rigoureux, en commençant par deux langues.

Ensemble de données d’évaluation

WikiMatrix

2019

La plus grande extraction de phrases parallèles dans plusieurs langues : extraction bitexte de 135 millions de phrases de Wikipédia dans 1 620 paires de langues pour développer de meilleurs modèles de traduction.

Construction des données

M2M-100

2020

Le premier modèle unique de traduction automatique multilingue permettant de traduire directement n’importe quelle paire de langues parmi 100 langues sans se baser sur des données en anglais. Ce modèle est entraîné dans 2 200 sens de traduction, soit dix fois plus que les modèles multilingues précédents.

Modèle

CCMatrix

2020

Le plus grand ensemble de données basé sur le web de bitextes de qualité pour construire de meilleurs modèles de traduction qui fonctionnent avec davantage de langues, en particulier les langues à faibles ressources : 4,5 milliards de phrases parallèles dans 576 paires de langues.

Construction des données

LASER 2

2020

LASER 2 crée des plongements pour aligner automatiquement des phrases partageant le même sens en 100 langues.

Encodeurs de données

WMT-21

2021

Pour la première fois, un modèle multilingue unique a surpassé les meilleurs modèles bilingues spécialement entraînés dans 10 des 14 paires de langues pour remporter la conférence WMT 2021. Ce modèle a produit les meilleures traductions pour les langues à ressources faibles et élevées.

Modèle

FLORES-101

2021

L’ensemble de données d’évaluation n à n FLORES-101, pionnier du genre, couvre 101 langues, et permet aux chercheurs de tester et d’améliorer rapidement les modèles de traduction multilingue comme M2M-100.

Ensemble de données d’évaluation

NLLB-200

2022

Le modèle NLLB traduit du contenu en 200 langues.

Modèle

FLORES 200

2021

Extension de l’ensemble de données d’évaluation FLORES qui couvre désormais 200 langues

Ensemble de données d’évaluation

NLLB-Data-200

2022

Construction et publication de données d’entraînement pour 200 langues

Ensemble de données d’évaluation

LASER 3

2022

LASER 3 crée des plongements pour aligner automatiquement des phrases partageant le même sens en 200 langues.

Encodeurs de données

< 50 langues

50 à 100 langues

100 langues

200 langues

LASER (Language-agnostic sentence representations)

2018

Première expérience réussie de représentations de phrases multilingues partagée publiquement avec la communauté TALN. L’encodeur crée des plongements pour aligner automatiquement des phrases partageant le même sens en 50 langues.

Encodeurs de données

WMT-19

2019

Les modèles d’IA Facebook ont surpassé tous les autres modèles lors de la conférence WMT 2019, en utilisant la retraduction échantillonnée à grande échelle, la modélisation des canaux bruités et des techniques de nettoyage des données pour aider à créer un système fiable.

Modèle

Flores V1

2019

Ensemble de données de référence pour la traduction automatique entre l’anglais et des langues à faibles ressources, introduisant un processus d’évaluation équitable et rigoureux, en commençant par deux langues.

Ensemble de données d’évaluation

WikiMatrix

2019

La plus grande extraction de phrases parallèles dans plusieurs langues : extraction bitextuelle de 135 millions de phrases de Wikipédia dans 1 620 paires de langues pour développer de meilleurs modèles de traduction.

Construction des données

M2M-100

2020

Premier modèle unique de traduction automatique multilingue permettant de traduire directement n’importe quelle paire de langues parmi 100 langues sans se baser sur des données en anglais. Ce modèle est entraîné dans 2 200 sens de traduction, soit dix fois plus que les modèles multilingues précédents.

Modèle

CCMatrix

2020

Le plus grand ensemble de données basé sur le web de bitextes de qualité pour construire de meilleurs modèles de traduction qui fonctionnent avec davantage de langues, en particulier les langues à faibles ressources : 4,5 milliards de phrases parallèles dans 576 paires de langues.

Construction des données

LASER 2

2020

LASER 2 crée des plongements pour aligner automatiquement des phrases ayant la même signification en 100 langues.

Encodeurs de données

WMT-21

2021

Pour la première fois, un modèle multilingue unique a surpassé les meilleurs modèles bilingues spécialement entraînés dans 10 des 14 paires de langues pour remporter la conférence WMT 2021. Ce modèle a produit les meilleures traductions pour les langues à ressources faibles et élevées.

Modèle

FLORES-101

2021

L’ensemble de données d’évaluation plusieurs-à-plusieurs FLORES-101, pionnier du genre, couvre 101 langues, et permet aux chercheurs de tester et d’améliorer rapidement les modèles de traduction multilingue comme M2M-100.

Ensemble de données d’évaluation

NLLB-200

2022

Le modèle NLLB traduit du contenu en 200 langues.

Modèle

FLORES 200

2021

Extension de l’ensemble de données d’évaluation FLORES qui couvre désormais 200 langues.

Ensemble de données d’évaluation

NLLB-Data-200

2022

Construction et publication de données d’entraînement pour 200 langues.

Ensemble de données d’évaluation

LASER 3

2022

LASER 3 crée des plongements pour aligner automatiquement des phrases ayant la même signification en 200 langues.

Encodeurs de données

200 langues traduites par le modèle NLLB-200, soit 2 fois plus que notre modèle précédent

Notre modèle final comporte plus de 44 % d’amélioration des performances BLEU par rapport au modèle de pointe précédent

75 langues précédemment non prises en charge par les systèmes de traduction commercialisés

18 milliards de phrases parallèles, soit 2,5 fois plus de données d’entraînement que le modèle M2M-100 précédent

Le plus grand modèle de traduction automatique en libre accès, avec 54 milliards de paramètres, soit 5 fois plus que le modèle M2M-100 précédent

40 000 sens de traduction pris en charge par un seul modèle, soit plus de 4 fois la capacité du modèle précédent

Les avancées scientifiques réalisées grâce à l’initiative NLLB permettent d’améliorer plus de 25 milliards de traductions effectuées chaque jour sur le fil d’actualité de Facebook, Instagram et nos autres plateformes

200 langues traduites par le modèle NLLB-200, soit 2 fois plus que notre modèle précédent

Notre modèle final comporte plus de 44 % d’amélioration des performances BLEU par rapport au modèle de pointe précédent

75 langues précédemment non prises en charge par les systèmes de traduction commercialisés

18 milliards de phrases parallèles, soit 2,5 fois plus de données d’entraînement que le modèle M2M-100 précédent

Le plus grand modèle de traduction automatique en libre accès, avec 54 milliards de paramètres, soit 5 fois plus que le modèle M2M-100 précédent

40 000 sens de traduction pris en charge par un seul modèle, soit plus de 4 fois la capacité du modèle précédent

Les avancées scientifiques réalisées grâce à l’initiative NLLB permettent d’améliorer plus de 25 milliards de traductions effectuées chaque jour sur le fil d’actualité de Facebook, Instagram et nos autres plateformes

En savoir plus

Ensemble, allons plus loin avec No Language Left Behind.

NLLB nous réserve encore bien des surprises, et bien des réussites. Lisez notre livre blanc et notre blog pour en savoir plus, et téléchargez le modèle pour nous aider à faire avancer ce projet. Nous avons déjà atteint 200 langues, et ce n’est qu’un début. Rejoignez-nous : ensemble, nous poursuivrons cet important voyage de traduction et d’inclusion.