• Meta AI hat mit NLLB-200 ein KI-Einzelmodell entwickelt, das als erstes in 200 verschiedene Sprachen übersetzen kann – und das in exzellenter, umfangreich geprüfter Qualität für jede einzelne dieser Sprachen.

  • Um eine hohe Übersetzungsqualität sicherzustellen, haben wir außerdem einen neuen Evaluierungsdatensatz namens FLORES-200 erstellt und damit die Performance von NLLB-200 für jede Sprache überprüft. NLLB-200 übertrifft den bisherigen Stand der Technik um durchschnittlich 44 Prozent.

  • Die Modellierungstechniken und Erkenntnisse aus dem Projekt nutzen wir nun für die Optimierung und Erweiterung von Übersetzungen auf Facebook, Instagram und Wikipedia.

  • Wir stellen die NLLB-200-Modelle, FLORES-200, den Modell-Trainingscode, und den Code zum Nachbilden des Trainingsdatensatzes unter einer Open-Source-Lizenz zur Verfügung, um so aufbauend auf unserer Arbeit andere Wissenschaftler*innen bei der Optimierung ihrer Übersetzungstools zu unterstützen.

Sprache ist Teil unserer Kultur und Identität und das wesentliche Bindeglied zwischen uns und der Welt. Für Hunderte von Sprachen gibt es jedoch keine qualitativ hochwertigen Übersetzungstools und so haben Milliarden von Menschen heute keinen Zugriff auf digitale Inhalte und können auch nicht uneingeschränkt in ihrer bevorzugten Sprache oder Muttersprache an Online-Unterhaltungen und -Communitys teilnehmen. Das trifft besonders auf Hunderte von Millionen Menschen zu, die eine der vielen Sprachen Afrikas oder Asiens sprechen.

Etwas ist schiefgelaufen
Leider kann dieses Video nicht richtig abgespielt werden.

Um dafür zu sorgen, dass sich die Menschen heute besser vernetzen und morgen Teil des Metaversums werden können, haben Forschende von Meta AI das Projekt No Language Left Behind (NLLB) ins Leben gerufen. Hierbei geht es um die Entwicklung von Funktionen und Ressourcen für die hochwertige maschinelle Übersetzung (MT, „machine translation“) der meisten Sprachen der Welt. Heute können wir einen bedeutenden Durchbruch für NLLB bekanntgeben: Wir haben ein KI-Einzelmodell namens NLLB-200 entwickelt, mit dem sich hervorragende Übersetzungen in und aus 200 verschiedenen Sprachen erstellen lassen. Viele dieser Sprachen – z. B. Kikamba oder Laotisch – wurden zuvor nicht ausreichend oder überhaupt nicht unterstützt, selbst nicht von den besten, aktuell verfügbaren Übersetzungstools. Gängige Übersetzungstools unterstützen heute weniger als 25 afrikanische Sprachen und viele von ihnen liefern nur mangelhafte Qualität. Im Gegensatz dazu unterstützt NLLB-200 55 afrikanische Sprachen mit qualitativ hochwertigen Ergebnissen. Insgesamt liefert dieses Einzelmodell qualitativ hochwertige Übersetzungen für Sprachen, die von Milliarden von Menschen rund um den Globus gesprochen werden. Die BLEU Scores von NLLB-200 insgesamt sind um durchschnittlich 44 Prozent höher als der bisherige Stand der Technik, und das für alle 10.000 Sprachrichtungen des FLORES-101-Benchmarks. Bei einigen afrikanischen und indischen Sprachen konnte der Score gegenüber aktuellen Übersetzungssystemen sogar um 70 Prozent gesteigert werden.

Wir stellen das NLLB-200-Modell jetzt unter einer Open-Source-Lizenz zur Verfügung und sorgen für die Verbreitung einer ganzen Reihe von Forschungstools, mit denen andere Wissenschaftler*innen diese Arbeit auf mehr Sprachen ausweiten und mehr inklusive Technologien entwickeln können. Außerdem stellt Meta AI Non-Profit-Organisationen Fördermittel in Höhe von 200.000 $ für die praktische Anwendung des NLLB-200-Modells zur Verfügung.

Mit den Forschungsfortschritten bei NLLB wird die Auslieferung von mehr als 25 Milliarden Übersetzungen täglich im Facebook News Feed sowie auf Instagram und unseren anderen Plattformen unterstützt. Stell dir vor, du findest in einer deiner Lieblingsgruppen auf Facebook einen Beitrag auf Igbo oder Luganda – und kannst ihn mit nur einem Klick lesen! Durch die Verfügbarkeit von fehlerfreien Übersetzungen in mehr Sprachen könnten auch gefährliche Inhalte und Fehlinformationen leichter erkannt, die Wahlintegrität geschützt und die Verbreitung von sexuellem Missbrauch im Internet und Menschenhandel eingedämmt werden. Die Modellierungstechniken und Erkenntnisse aus unserer NLLB-Forschung finden nun auch in den von Wikipedia-Redakteur*innen genutzten Übersetzungssystemen Anwendung.

Wegen der Rolle, die sie in unserem Alltag spielt, ist die Übersetzung eines der interessantesten Gebiete der KI. Bei NLLB geht es um sehr viel mehr als nur darum, den Menschen besseren Zugang zu Webinhalten zu verschaffen. Menschen werden dadurch leichter sprachübergreifend Informationen beitragen und teilen können. Es gibt noch viel zu tun, aber wir fühlen uns beflügelt durch unsere letzten Fortschritte und die Tatsache, dass wir damit unserem Ziel näher kommen, die Mission von Meta zu erfüllen.

Hier kannst du dir eine Demo von NLLB-200 ansehen, die zeigt, wie das Modell Geschichten aus aller Welt übersetzen kann. Die Forschungsarbeit kannst du hier lesen.

Übersetzungstools für Milliarden mehr Menschen bereitstellen

Um die Übersetzungssysteme auf Wikipedia zu optimieren, arbeiten wir mit der Wikimedia Foundation zusammen, der gemeinnützigen Organisation, die die Wikipedia und andere Projekte für freies Wissen betreibt. Es gibt mehr als 300 Sprachversionen der Wikipedia, aber die meisten von ihnen haben sehr viel weniger Artikel als die über 6 Millionen der englischen Version. Dieses Missverhältnis besteht besonders in Bezug auf Sprachen, die hauptsächlich außerhalb von Europa und Nordamerika gesprochen werden. Beispielsweise gibt es ca. 3.260 Wikipedia-Artikel auf Lingala, einer Sprache, die von 45 Millionen Menschen in der Demokratischen Republik Kongo, der Republik Kongo, der Zentralafrikanischen Republik und im Südsudan gesprochen wird. Im Vergleich dazu gibt es mehr als 2,5 Millionen Artikel auf Schwedisch, das 10 Millionen Menschen in Schweden und Finnland sprechen.

Über das Content-Übersetzungstool der Wikimedia Foundation nutzen die Redakteur*innen von Wikipedia jetzt die Technologie, auf der NLLB-200 basiert. Sie übersetzen damit Artikel in mehr als 20 ressourcenarme Sprachen – Sprachen, für die es keine umfangreichen Datensätze gibt, um KI-Systeme zu trainieren –, darunter auch zehn, die bislang von keinem MT-Tool auf der Plattform unterstützt wurden.

Die Herausforderungen beim Aufbau eines Einzelmodells für Hunderte von Sprachen

Wie alle KI-Modelle werden auch maschinelle Übersetzungssysteme anhand von Daten trainiert. Bei der Textübersetzung bestehen diese Datensätze gewöhnlich aus Millionen von sorgfältig ausgewählten Sätzen mit derselben Bedeutung in verschiedenen Sprachen. Allerdings gibt es einfach keine großen Mengen solcher Parallelkorpora für z. B. Englisch und Fulfulde. Derzeitige Übersetzungsmodelle versuchen dieses Problem durch Data-Mining im Internet zu lösen. Die Ergebnisse haben jedoch oftmals eine minderwertige Textqualität, da jeder Sprache ein anderer Ausgangstext zugrunde liegt. Außerdem wimmeln solche Texte häufig von Rechtschreibfehlern und uneinheitlichen Schreibweisen, es fehlen Akzente und andere diakritische Zeichen.

Eine weitere große Herausforderung ist die Optimierung eines einzelnen Modells für Hunderte von Sprachen, ohne Beeinträchtigung der Leistung oder Übersetzungsqualität. In der Vergangenheit wurde die beste Übersetzungsqualität mit einem eigenen Modell für jede Sprachrichtung erzielt. Dieser Ansatz lässt sich jedoch nur schwer skalieren und sowohl Leistung als auch Übersetzungsqualität leiden, je mehr Sprachen hinzugefügt werden.

Hinzu kommt, dass Übersetzungsmodelle Fehler produzieren können, die nicht immer leicht zu erkennen sind. Solche Systeme basieren auf neuronalen Netzwerken für die Textgenerierung und können daher natürlich Fehler produzieren, beispielsweise „Halluzinationen“ (die überzeugte Behauptung, dass etwas wahr ist, obwohl es das nicht ist), Falschdarstellungen und nicht sichere Inhalte. Generell gibt es für ressourcenarme Sprachen weniger Vergleichswerte und Datensätze, wodurch das Testen und Optimieren von Modellen erheblich erschwert werden.

Innovationen bei Architektur, Datenbeschaffung, Benchmarking und anderen Bereichen

In den letzten Jahren haben wir stetige Fortschritte dabei gemacht, die hier geschilderten Herausforderungen zu meistern. Unser Übersetzungsmodell M2M-100 für 100 Sprachen haben wir 2020 vorgestellt. Es nutzte neue Methoden beim Sammeln von Trainingsdaten, eine neue Architektur für die Skalierung der Modellgröße ohne Performance-Beeinträchtigung und neue Ansätze bei der Evaluierung und Optimierung der Ergebnisse. Um auf weitere 100 Sprachen zu skalieren, haben wir weitere Fortschritte in jedem dieser drei Bereiche gemacht.

Erweiterte Trainingsressourcen

Für das Erfassen fehlerfreier Parallelkorpora in mehr Sprachen haben wir LASER, unser Toolkit für den Zero-Shot-Transfer in der Computerlinguistik, optimiert. Statt LSTM nutzt die neue Version LASER3 ein Transformer-Modell, das selbstüberwacht mit Masked Language Modeling trainiert wurde. Durch Anwendung eines Teacher-Student-Trainingsansatzes sowie Erstellen sprachgruppenspezifischer Encoder haben wir die Leistung weiter verbessert. Wir konnten damit die Sprachabdeckung von LASER3 skalieren und enorme Mengen an Satzpaaren erstellen, auch für ressourcenarme Sprachen. Die mehrsprachige Einbettungsmethode für LASER3 stellen wir nun anderen Wissenschaftler*innen unter einer Open-Source-Lizenz zur Verfügung, sowie auch Milliarden von Parallelkorpora für verschiedene Sprachpaare, die mithilfe der hier beschriebenen Methoden erfasst und bereinigt wurden.

Da wir bei der Beschaffung von Trainingsbeispielen in weiteren Sprachen ein noch größeres Netz auswarfen, war es uns wichtig, die gleichbleibend hohe Qualität dieser Beispiele zu gewährleisten. Wir haben unsere Datenbereinigungspipeline für die Skalierung auf 200 Sprachen komplett überarbeitet und dabei wichtige Filterschritte hinzugefügt. Beispielsweise nutzen wir unsere LID-200-Modelle, um Daten herauszufiltern und das Rauschen aus Korpora im Internetmaßstab zuverlässig zu entfernen. Wir haben Negativlisten für alle 200 Sprachen entwickelt und diese Listen dann dazu verwendet, toxische Inhalte und potenzielle Halluzinationen, die sich bei der Übersetzung einschleichen können, zu evaluieren und herauszufiltern. Mit diesen Schritten konnten wir sicherstellen, dass uns bereinigte Datensätze mit weniger toxischen Inhalten und korrekt erkannten Sprachen zur Verfügung stehen. Das ist wichtig für die Optimierung der Übersetzungsqualität und verringert das Risiko sogenannter Halluzinationen toxischer Inhalte, also das unbeabsichtigte Einbringen von toxischen Inhalten im Übersetzungsprozess.

Skalierung der Modellgröße bei gleichbleibend hoher Performance

Mehrsprachige Übersetzungssysteme bieten zwei große Vorteile. Sie ermöglichen den Datenaustausch zwischen ähnlichen Sprachen – beispielsweise Assamesisch und Bengalisch, die beide die bengalische Schrift verwenden – während des Trainings. So lässt sich die Übersetzungsqualität bei ressourcenarmen Sprachen ganz erheblich verbessern, wenn sie gemeinsam mit ähnlichen, ressourcenreichen Sprachen trainiert werden. Außerdem sind für Wissenschaftler*innen Iterationen, Skalierungen und Experimente bei einem mehrsprachigen Einzelmodell deutlich einfacher als bei Hunderten oder sogar Tausenden von unterschiedlichen zweisprachigen Modellen.

Die Skalierung von 100 auf 200 Sprachen stellt aber dennoch eine erhebliche Herausforderung dar. Da die Trainingsdaten nun mehr ressourcenarme Sprachpaare enthalten, führt dies bei mehrsprachigen Systemen zu Überanpassung, wenn ein Modell über einen längeren Zeitraum trainiert wird. Diesem Problem sind wir mit Innovationen von drei Seiten begegnet: Regularisierung und Curriculum Learning, selbstüberwachtes Lernen, und die Diversifizierung von Rückübersetzungen.

Zunächst haben wir Mixture-of-Experts-Netzwerke mit geteilter und spezialisierter Kapazität entwickelt, sodass ressourcenarme Sprachen, für die wenige Daten verfügbar sind, automatisch zur geteilten Kapazität geleitet werden. In Kombination mit besseren Regularisierungssystemen lässt sich eine Überanpassung vermeiden. Des Weiteren haben wir einen Curriculum-Learning-Ansatz in zwei Schritten verfolgt. Dieser besteht darin, zunächst über mehrere Epochen die ressourcenreichen Sprachen zu trainieren und erst dann ressourcenarme Sprachpaare mit einzubeziehen. Damit verringert sich das Problem der Überanpassung weiter. Wegen der nur geringen vorhandenen Mengen von zweisprachigen Daten für ressourcenarme Sprachen haben wir dann das selbstüberwachte Lernen mit einsprachigen Daten für ressourcenarme und -reiche Sprachen genutzt, um so die Gesamtleistung des Modells zu optimieren.

Schließlich haben wir per Analyse die bestmögliche Methode für die Erstellung von Rückübersetzungsdaten ermittelt. Dabei stellte sich heraus, dass die Kombination von rückübersetzten Daten aus sowohl zweisprachigen statistischen als auch mehrsprachigen neuronalen maschinellen Übersetzungsmodellen die Performance für ressourcenarme Sprachen verbessert. Dies liegt an der größeren Vielfalt der generierten synthetischen Daten. Um das NLLB-200-Modell mit seinen 54 Milliarden Parametern zu trainieren, haben wir unseren neu entwickelten Research SuperCluster (RSC) genutzt – einer der schnellsten KI-Supercomputer der Welt.

Evaluierungs- und Mitigationstools für 200 Sprachen

Für die Evaluierung und Optimierung von NLLB-200 haben wir FLORES-200 entwickelt, einen speziellen Many-to-many-Evaluierungsdatensatz, der es Forschenden ermöglicht, die Performance für 40.000 unterschiedliche Sprachrichtungen zu bewerten. Diesen neuen Datensatz stellen wir unter einer Open-Source-Lizenz anderen Wissenschaftler*innen für das schnelle Testen und Optimieren ihrer Übersetzungsmodelle zur Verfügung. Mit FLORES-200 können Übersetzungssysteme für eine Vielzahl verschiedener Anwendungen evaluiert werden, z. B. Gesundheitsbroschüren, Filme, Bücher und Webinhalte in Ländern und Regionen, wo mehrere ressourcenarme Sprachen gesprochen werden.

Die Skalierung auf 200 Sprachen bedeutet, sich dem Risiko zu stellen, toxische Inhalte zu generieren. Diese können in einem Übersetzungssystem mit mehreren Sprachrichtungen schwer zu kontrollieren sein. Unser Ansatz war das Erstellen von Negativlisten für alle unterstützten Sprachen. Anhand dieser lassen sich vulgäre Ausdrücke und andere potenziell anstößige Inhalte erkennen und herausfiltern. Die Negativlisten für Evaluierung und Benchmarking für alle 200 Sprachen veröffentlichen wir, um so anderen Wissenschaftler*innen Werkzeuge an die Hand zu geben, mit denen sie diese Risiken in ihren Modellen reduzieren können.

Um außerdem zu gewährleisten, dass wir unsere Bemühungen auf verantwortungsvolle Art und Weise vorantreiben, arbeiten wir in einem interdisziplinären Team, dem Linguist*innen, Soziolog*innen und Ethiker*innen angehören. Sie helfen uns, mehr über jede der Sprachen zu lernen, mit denen wir uns beschäftigen.

Auf dieser Abbildung sind die durchschnittlichen BLEU Scores für FLORES-101-Übersetzungen ins Englische bzw. aus dem Englischen in bzw. aus 100 Sprachen zu sehen. Auf der linken Seite sieht man zwei veröffentlichte Modelle auf dem neuesten Stand der Technik, M2M und Delta LM. Beide unterstützen 100 Sprachen. Alle Modelle auf der rechten Seite unterstützen 200 Sprachen: Ein Transformer-Basismodell mit 3,3 Milliarden Parametern, das Basismodell mit selbstüberwachtem Lernen (SSL), das Basismodell mit Rückübersetzung (BT) und NLLB-200, ein großes Mixture-of-Experts-basiertes Modell, das sowohl das selbstüberwachte Lernen als auch die Rückübersetzung nutzt.

Mehr Übersetzungen – mehr Inklusion

Hochwertige Übersetzungstools haben das Zeug dazu, einen Wandel herbeizuführen. Heutzutage ist es so, dass eine Handvoll Sprachen das Internet dominiert. Dazu gehören Englisch, Mandarin, Spanisch und Arabisch. Muttersprachler*innen dieser sehr weit verbreiteten Sprachen vergessen vielleicht manchmal, was es bedeutet, etwas in der eigenen Muttersprache lesen zu können. Wir sind überzeugt, dass NLLB mit dafür sorgen wird, dass Sprache für die Kommunikation erhalten bleibt und nicht immer eine Brückensprache benötigt wird, die Gefühle bzw. Inhalte oft falsch wiedergibt.

Mithilfe von NLLB können auch andere Aufgaben der Computerlinguistik vorangebracht werden, nicht nur die Übersetzung. Beispielsweise das Erstellen von leistungsfähigen Sprachassistenten auf Javanisch oder Usbekisch, oder von Systemen, die Bollywood-Filme mit sprachlich korrekten Untertiteln in Suaheli oder Oromo versehen können. Jetzt, wo das Metaversum langsam Gestalt annimmt, wird die Möglichkeit, zuverlässige Technologien für Hunderte oder sogar Tausende von Sprachen zu entwickeln, wirklich dazu beitragen, den Zugang zu neuen, immersiven Erlebnissen in virtuellen Welten zu demokratisieren.

Vor nur wenigen Jahren funktionierte die maschinelle Übersetzung lediglich für eine Handvoll von Sprachen so richtig gut. NLLB-200 bringt uns näher zu dem Tag, an dem Systeme uns die Kommunikation mit jeder beliebigen Person ermöglichen. Wir sind begeistert, welche Möglichkeiten sich dadurch in der Gegenwart eröffnen und welche Potenziale sich so in der Zukunft erschließen lassen könnten – und arbeiten weiter daran, die Grenzen der maschinellen Übersetzung zu sprengen.

Diese Arbeit wird bei Meta AI von einem multidisziplinären Team durchgeführt, dem u. a. folgende Personen angehören: Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang und Al Youngblood.