No Language Left Behind

No Language Left Behind

Mehr Inklusion durch KI-Übersetzungen

Mehr Inklusion durch KI-Übersetzungen

Video ansehen
Video ansehen

No Language

Left Behind

No Language Left Behind (NLLB, in etwa: keine Sprache bleibt zurück) ist ein völlig neues, bahnbrechendes KI-Projekt. Basierend auf Open-Source-Modellen werden geprüfte, qualitativ hochwertige direkte Übersetzungen für beliebige Sprachkombinationen aus 200 Sprachen erstellt, auch für ressourcenarme Sprachen wie beispielsweise Asturisch, Luganda oder Urdu. Das soll es Menschen ermöglichen, auf Webinhalte in ihrer Muttersprache zuzugreifen und sie zu teilen, sowie mit beliebigen Personen überall auf der Welt und egal in welcher Sprache zu kommunizieren.

No Language Left Behind

No Language Left Behind (NLLB, in etwa: keine Sprache bleibt zurück) ist ein völlig neues, bahnbrechendes KI-Projekt. Basierend auf Open-Source-Modellen werden geprüfte, qualitativ hochwertige direkte Übersetzungen für beliebige Sprachkombinationen aus 200 Sprachen erstellt, auch für ressourcenarme Sprachen wie beispielsweise Asturisch, Luganda oder Urdu. Das soll es Menschen ermöglichen, auf Webinhalte in ihrer Muttersprache zuzugreifen und sie zu teilen, sowie mit beliebigen Personen überall auf der Welt und egal in welcher Sprache zu kommunizieren.

KI-Forschung für die praktische Anwendung

Mit KI-Technologien auf Facebook und Instagram ressourcenarme Sprachen übersetzen

Unser Ziel ist es, Menschen zusammenzubringen. Aus diesem Grund verwenden wir Modellierungsansätze und Erkenntnisse aus unserer NLLB-Forschung, um Übersetzungen von ressourcenarmen Sprachen auf Facebook und Instagram zu verbessern. Wenn wir diese Ansätze und Erkenntnisse in unseren Produktionssystemen für die Übersetzung anwenden, werden Menschen natürlichere und tiefer gehende Kontakte in ihrer bevorzugten Sprache oder Muttersprache knüpfen können. Wir hoffen, dass unsere Erkenntnisse zu NLLB in Zukunft auch in weiteren Meta-Apps zum Einsatz kommen werden.

PRAKTISCHE ANWENDUNG

Aufbau eines inklusiven Metaversums

Übersetzungen im Metaversum bringen Menschen weltweit zusammen

Beim Aufbau des Metaversums ist eine unserer Prioritäten, die Echtzeit-Übersetzung von AR-/VR-Texten in Hunderten von Sprachen zu integrieren. Es ist unser Ziel, neue Standards für die Inklusion zu setzen, damit eines Tages alle Menschen Zugang zu Inhalten, Geräten und Erlebnissen in der virtuellen Welt haben werden. Jede*r soll mit jedem*jeder in jeder Sprache im Metaversum kommunizieren können. Und im Laufe der Zeit werden die Menschen rund um den Globus so näher zusammenrücken.

PRAKTISCHE ANWENDUNG

Wikipedia-Übersetzungen für alle

Wir unterstützen ehrenamtliche Redakteur*innen dabei, Informationen in mehr Sprachen zur Verfügung zu stellen

Die Technologie, auf der das Modell für NLLB-200 basiert und die jetzt über das Content-Übersetzungstool der Wikimedia Foundation zur Verfügung steht, hilft Wikipedia-Redakteur*innen bei der Übersetzung von Informationen in ihre Muttersprache oder bevorzugte Sprache. Wikipedia-Redakteur*innen verwenden diese Technologie für die effizientere Übersetzung und Bearbeitung von Artikeln, die in anderen unterrepräsentierten Sprachen erstellt wurden, beispielsweise Luganda oder Isländisch. Damit steht Wikipedia-Nutzer*innen auf der ganzen Welt mehr Wissen in mehr Sprachen zur Verfügung. Mit dem Open-Source-Modell für NLLB-200 können auch Wissenschaftler*innen und interessierte Communitys von Wikipedia-Redakteur*innen unsere Arbeit für sich nutzen.

Technologie erleben

Übersetzung hilft Geschichten zu erzählen:

Bücher aus aller Welt – übersetzt in Hunderte von Sprachen

Übersetzung hilft Geschichten zu erzählen:

Bücher aus aller Welt – übersetzt in Hunderte von Sprachen

Mit „Übersetzung hilft Geschichten zu erzählen“ kannst du die enorme Leistung von KI-Übersetzungen selbst erleben: Unsere Demo nutzt die neuesten Errungenschaften der KI aus dem Projekt No Language Left Behind (NLLB). In der Demo werden Bücher, die in Sprachen wie z. B. Indonesisch, Somali und Birmanisch geschrieben wurden, in andere Sprachen übersetzt – und in den kommenden Monaten werden Hunderte von Sprachversionen zur Verfügung stehen. Dank dieser Initiative ist NLLB-200 das allererste KI-Modell, das Literaturübersetzungen in einem solchen Maßstab liefern kann.

Die Technologie

So funktioniert die maschinelle Übersetzung

Wie können mit dem Open-Source-Modell NLLB 200 Sprachen direkt übersetzt werden?

1. PHASE

Automatisches Generieren von Datensätzen

1. Phase: Automatisches Generieren von Datensätzen

Es werden Trainingsdaten gesammelt. Diese umfassen Sätze in der Ausgangssprache und der gewünschten Zielsprache.

Etwas ist schiefgelaufen
Leider kann dieses Video nicht richtig abgespielt werden.

2. PHASE

Training

2. Phase: Training

Nachdem zweisprachige Trainingsdatenpaare für Tausende von Sprachrichtungen generiert wurden, werden sie in die Trainingspipeline für unser Modell eingegeben. Ein solches Modell besteht aus zwei Teilen: dem Encoder, der den Eingabesatz in eine interne Vektordarstellung konvertiert, und dem Decoder, der basierend auf dieser internen Vektordarstellung den exakten Ausgabesatz generiert. Durch das Training mit Millionen von Übersetzungsbeispielen lernen die Modelle, genauere Übersetzungen zu erstellen.

Etwas ist schiefgelaufen
Leider kann dieses Video nicht richtig abgespielt werden.

3. PHASE

Evaluierung

3. Phase: Evaluierung

In der letzten Phase erfolgt die Evaluierung unseres Modells. Dazu wird es mit einer Reihe von Sätzen, die manuell übersetzt wurden, verglichen, um herauszufinden, ob wir mit der Übersetzungsqualität zufrieden sind. Hierzu gehört auch das Erkennen und Herausfiltern von vulgären Ausdrücken und anderen anstößigen Inhalten anhand von Negativlisten, die wir für alle unterstützten Sprachen erstellen. Im Ergebnis erhalten wir ein gut trainiertes Modell, das direkt von einer Sprache in eine andere übersetzen kann.

Etwas ist schiefgelaufen
Leider kann dieses Video nicht richtig abgespielt werden.

1. PHASE

Automatisches Generieren von Datensätzen

2. PHASE

Training

3. PHASE

Evaluierung

1. Phase: Automatisches Generieren von Datensätzen

Es werden Trainingsdaten gesammelt. Diese umfassen Sätze in der Ausgangssprache und der gewünschten Zielsprache.

Etwas ist schiefgelaufen
Leider kann dieses Video nicht richtig abgespielt werden.

2. Phase: Training

Nachdem zweisprachige Trainingsdatenpaare für Tausende von Sprachrichtungen generiert wurden, werden sie in die Trainingspipeline für unser Modell eingegeben. Ein solches Modell besteht aus zwei Teilen: dem Encoder, der den Eingabesatz in eine interne Vektordarstellung konvertiert, und dem Decoder, der basierend auf dieser internen Vektordarstellung den exakten Ausgabesatz generiert. Durch das Training mit Millionen von Übersetzungsbeispielen lernen die Modelle, genauere Übersetzungen zu erstellen.

Etwas ist schiefgelaufen
Leider kann dieses Video nicht richtig abgespielt werden.

3. Phase: Evaluierung

In der letzten Phase erfolgt die Evaluierung unseres Modells. Dazu wird es mit einer Reihe von Sätzen, die manuell übersetzt wurden, verglichen, um herauszufinden, ob wir mit der Übersetzungsqualität zufrieden sind. Hierzu gehört auch das Erkennen und Herausfiltern von vulgären Ausdrücken und anderen anstößigen Inhalten anhand von Negativlisten, die wir für alle unterstützten Sprachen erstellen. Im Ergebnis erhalten wir ein gut trainiertes Modell, das direkt von einer Sprache in eine andere übersetzen kann.

Etwas ist schiefgelaufen
Leider kann dieses Video nicht richtig abgespielt werden.

Die Innovationen

Die Wissenschaft hinter dem Erfolg

Die meisten derzeitig genutzten Modelle für maschinelle Übersetzung (MT für „Machine Translation“) sind auf ressourcenreiche und weniger ressourcenreiche Sprachen anwendbar, jedoch nicht auf ressourcenarme Sprachen, für die es nur wenige Übersetzungsbeispiele als Trainingsmaterial gibt. Mit drei bedeutenden KI-Innovationen haben die Wissenschaftler*innen von Meta AI zur Lösung dieses Problems beigetragen.

Automatische Erstellung von Datensätzen für ressourcenarme Sprachen

Der Kontext

MT ist eine Form von überwachtem Lernen. Das bedeutet, dass das Modell Daten als Lern-Input benötigt. Häufig werden hierfür Übersetzungsbeispiele aus Open-Source-Datensammlungen verwendet. Unsere Lösung besteht darin, automatisch Übersetzungspaare zu generieren, indem Sätze in unterschiedlichen Sammlungen einsprachiger Dokumente gekoppelt werden.

Die Herausforderung

Die für die Erstellung dieser Datensätze genutzten LASER-Modelle unterstützen in erster Linie ressourcenreiche und weniger ressourcenreiche Sprachen. Es ist somit unmöglich, genaue Übersetzungspaare für ressourcenarme Sprachen zu generieren.

Die Innovation

Dieses Problem haben wir durch Einsatz einer Trainingsmethode nach dem Teacher-Student-Ansatz gelöst. Das Resultat: 1) LASER kann nun insgesamt 200 Sprachen abdecken. 2) Es können auch für ressourcenarme Sprachen enorme Mengen an Daten für das MT-Training generiert werden.

Modellierung von 200 Sprachen

Der Kontext

Mehrsprachige MT-Systeme sind gegenüber zweisprachigen Systemen verbessert worden. Das liegt daran, dass sie den „Transfer“ von Sprachpaaren mit vielen Trainingsdaten zu anderen Sprachen mit weniger Trainingsressourcen ermöglichen.

Die Herausforderung

Das gleichzeitige Trainieren von Hunderten von Sprachpaaren hat durchaus Nachteile, denn dasselbe Modell muss immer mehr Sprachen mit derselben Anzahl von Parametern abbilden. Das wird dann zum Problem, wenn die Größe der Datensätze unausgewogen ist, und kann zur Überanpassung führen.

Die Innovation

Wir haben Mixture-of-Experts-Modelle mit geteilter und spezialisierter Kapazität entwickelt, sodass ressourcenarme Sprachen, für die wenige Trainingsdatensätze verfügbar sind, automatisch zur geteilten Kapazität geleitet werden. Werden diese Modelle mit besseren Regularisierungssystemen kombiniert, lässt sich eine Überanpassung vermeiden. Zusätzlich haben wir das selbstüberwachte Lernen und eine Daten-Augmentation in großem Umfang über verschiedene Arten der Rückübersetzung genutzt.

Bewertung der Übersetzungsqualität

Der Kontext

Um herauszufinden, ob eine mit unserem Modell generierte Übersetzung unseren Qualitätsstandards entspricht, ist eine Bewertung erforderlich.

Die Herausforderung

Bei einer Bewertung von MT-Modellen werden gewöhnlich die maschinelle und menschliche Übersetzung eines Satzes verglichen. Allerdings gibt es für viele Sprachen keine zuverlässigen Übersetzungsdaten. Das macht eine exakte Bewertung unmöglich.

Die Innovation

Wir haben die Abdeckung von FLORES, einem Evaluierungsmaßstab für menschliche Übersetzung, auf nunmehr 200 Sprachen verdoppelt. Mithilfe automatischer Metriken und Unterstützung durch menschliche Evaluierung können wir die Qualität unserer Übersetzungen umfassend quantifizieren.
Weitere Details über die Wissenschaft hinter NLLB erfährst du in unserem Whitepaper und in unserem Blog,. Du kannst auch das Modell herunterladen und uns dabei unterstützen, dieses Projekt voranzubringen.

Weitere Details über die Wissenschaft hinter NLLB erfährst du in unserem Whitepaper und in unserem Blog. Du kannst auch das Modell herunterladen und uns dabei unterstützen, dieses Projekt voranzubringen.

Der Weg

Meilensteine der Forschung
Meilensteine der Forschung

Meta AI hat die Technologie der maschinellen Übersetzung weiterentwickelt und dabei erfolgreich viele Herausforderungen für die Branche gemeistert – von fehlendem Trainingsmaterial für ressourcenarme Sprachen bis hin zu Übersetzungsqualität und -genauigkeit. Doch unsere Reise geht noch weiter: Durch leistungsstarke KI-Übersetzungen bringen wir die Inklusion voran.

Meta AI hat die Technologie der maschinellen Übersetzung weiterentwickelt und dabei erfolgreich viele Herausforderungen für die Branche gemeistert – von fehlendem Trainingsmaterial für ressourcenarme Sprachen bis hin zu Übersetzungsqualität und -genauigkeit. Doch unsere Reise geht noch weiter: Durch leistungsstarke KI-Übersetzungen bringen wir die Inklusion voran.

Hier siehst du die Meilensteine des Modells nach Anzahl der veröffentlichten Sprachen

< 50 Sprachen

50–99 Sprachen

100 Sprachen

200 Sprachen

LASER (Language-Agnostic SEntence Representations, in etwa: Sprachunabhängige Satzdarstellung)

2018

Die erste erfolgreiche Untersuchung von massiv mehrsprachigen Satzdarstellungen wird öffentlich mit der NLP-Community geteilt. Der Encoder codiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 50 Sprachen.

Datenencoder

WMT19

2019

Bei der WMT 2019 übertreffen Facebooks KI-Modelle die Leistung aller anderer Modelle. Mit Rückübersetzungen im großen Maßstab, Noisy-Channel-Modellierung und Datenbereinigungstechnologie wurde ein leistungsfähiges System aufgebaut.

Modell

Flores V1

2019

Mit diesem Benchmarking-Datensatz für MT zwischen Englisch und ressourcenarmen Sprachen wird ein faires, aber strenges Evaluierungsverfahren eingeführt, zunächst für zwei Sprachen.

Evaluierungsdatensatz

WikiMatrix

2019

Die umfassendste Extraktion von Sätzen mit derselben Bedeutung in mehreren Sprachen: Es werden 135 Mio. zweisprachige Wikipedia-Sätze in 1.620 Sprachpaaren extrahiert, mit dem Ziel, bessere Übersetzungsmodelle aufzubauen.

Datengenerierung

M2M-100

2020

Das erste mehrsprachige Einzelmodell für maschinelle Übersetzung, das die direkte Übersetzung zwischen einem beliebigen Sprachpaar aus 100 Sprachen ermöglicht, ohne auf englische Daten zurückzugreifen. Trainiert mit 2.200 Sprachrichtungen – 10-mal mehr als bisherige mehrsprachige Modelle.

Modell

CCMatrix

2020

Der größte Datensatz von qualitativ hochwertigen webbasierten zweisprachigen Korpora für die Entwicklung verbesserter Übersetzungsmodelle, die mehr Sprachen unterstützen, insbesondere ressourcenarme Sprachen: 4,5 Mrd. Parallelkorpora in 576 Sprachpaaren.

Datengenerierung

LASER 2

2020

Generiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 100 Sprachen.

Datenencoder

WMT21

2021

Ein mehrsprachiges Einzelmodell übertrifft erstmals die besten entsprechend trainierten zweisprachigen Modelle in 10 von 14 Sprachpaaren und gewinnt damit die WMT 2021. Es liefert die besten Übersetzungen für sowohl ressourcenarme als auch ressourcenreiche Sprachen.

Modell

FLORES-101

2021

FLORES-101 ist der erste Many-to-many-Evaluierungsdatensatz seiner Art. Er umfasst 101 Sprachen und ermöglicht es Forschenden, mehrsprachige Übersetzungsmodelle wie M2M-100 schnell zu testen und zu verbessern.

Evaluierungsdatensatz

NLLB-200

2022

Das NLLB-Modell kann 200 Sprachen übersetzen.

Modell

FLORES 200

2021

Der erweiterte FLORES-Evaluierungsdatensatz umfasst nun 200 Sprachen

Evaluierungsdatensatz

NLLB-Data-200

2022

Trainingsdaten für 200 Sprachen generiert und veröffentlicht

Evaluierungsdatensatz

LASER 3

2022

Erzeugt Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 200 Sprachen.

Datenencoder

< 50 Sprachen

50–100 Sprachen

100 Sprachen

200 Sprachen

LASER (Language-Agnostic SEntence Representations, in etwa: Sprachunabhängige Satzdarstellung)

2018

Die erste erfolgreiche Untersuchung von massiv mehrsprachigen Satzdarstellungen wird öffentlich mit der NLP-Community geteilt. Der Encoder codiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 50 Sprachen.

Datenencoder

WMT19

2019

Bei der WMT 2019 übertreffen Facebooks KI-Modelle die Leistung aller anderer Modelle. Mit Rückübersetzungen im großen Maßstab, Noisy-Channel-Modellierung und Datenbereinigungstechnologie wurde ein leistungsfähiges System aufgebaut.

Modell

Flores V1

2019

Mit diesem Benchmarking-Datensatz für MT zwischen Englisch und ressourcenarmen Sprachen wird ein faires, aber strenges Evaluierungsverfahren eingeführt, zunächst für zwei Sprachen.

Evaluierungsdatensatz

WikiMatrix

2019

Die umfassendste Extraktion von Sätzen mit derselben Bedeutung in mehreren Sprachen: Es werden 135 Mio. zweisprachige Wikipedia-Sätze in 1.620 Sprachpaaren extrahiert, mit dem Ziel, bessere Übersetzungsmodelle aufzubauen.

Datengenerierung

M2M-100

2020

Das erste mehrsprachige Einzelmodell für maschinelle Übersetzung, das die direkte Übersetzung zwischen einem beliebigen Sprachpaar aus 100 Sprachen ermöglicht, ohne auf englische Daten zurückzugreifen. Trainiert mit 2.200 Sprachrichtungen – 10-mal mehr als bisherige mehrsprachige Modelle.

Modell

CCMatrix

2020

Der größte Datensatz von qualitativ hochwertigen webbasierten zweisprachigen Korpora für die Entwicklung verbesserter Übersetzungsmodelle, die mehr Sprachen unterstützen, insbesondere ressourcenarme Sprachen: 4,5 Mrd. Parallelkorpora in 576 Sprachpaaren.

Datengenerierung

LASER 2

2020

Generiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 100 Sprachen.

Datenencoder

WMT21

2021

Ein mehrsprachiges Einzelmodell übertrifft erstmals die besten entsprechend trainierten zweisprachigen Modelle in 10 von 14 Sprachpaaren und gewinnt damit die WMT 2021. Es liefert die besten Übersetzungen für sowohl ressourcenarme als auch ressourcenreiche Sprachen.

Modell

FLORES-101

2021

FLORES-101 ist der erste Many-to-many-Evaluierungsdatensatz seiner Art. Er umfasst 101 Sprachen und ermöglicht es Forschenden, mehrsprachige Übersetzungsmodelle wie M2M-100 schnell zu testen und zu verbessern.

Evaluierungsdatensatz

NLLB-200

2022

Das NLLB-Modell kann 200 Sprachen übersetzen.

Modell

FLORES 200

2021

Der erweiterte FLORES-Evaluierungsdatensatz umfasst nun 200 Sprachen.

Evaluierungsdatensatz

NLLB-Data-200

2022

Es werden Trainingsdaten für 200 Sprachen generiert und veröffentlicht.

Evaluierungsdatensatz

LASER 3

2022

Generiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 200 Sprachen.

Datenencoder

Das Modell NLLB-200 kann in und aus 200 Sprachen übersetzen – das sind doppelt so viele als beim Vorgängermodell

Unser finales Modell erzielte im Gegensatz zum modernsten Vorgängermodell eine Leistungsverbesserung von 44 % (BLEU Score)

75 Sprachen, die bislang nicht von kommerziellen Übersetzungssystemen unterstützt wurden

18 Mrd. Parallelkorpora – 2,5-mal mehr Trainingsdatensätze als beim vorigen Modell M2M-100

Das größte Open-Source-Modell für maschinelle Übersetzung mit 54 Mrd. Parametern – 5-mal mehr als beim vorigen Modell M2M-100

Ein einzelnes Modell unterstützt 40.000 Sprachrichtungen – das ist 4-mal leistungsfähiger als der vorige Benchmark

Die Forschungsfortschritte bei NLLB unterstützen die Bereitstellung von mehr als 25 Mrd. Übersetzungen täglich im Facebook News Feed sowie auf Instagram und unseren anderen Plattformen

Das Modell NLLB-200 kann in und aus 200 Sprachen übersetzen – das sind doppelt so viele als beim Vorgängermodell

Unser finales Modell erzielte im Gegensatz zum modernsten Vorgängermodell eine Leistungsverbesserung von 44 % (BLEU Score)

75 Sprachen, die bislang nicht von kommerziellen Übersetzungssystemen unterstützt wurden

18 Mrd. Parallelkorpora – 2,5-mal mehr Trainingsdatensätze als beim vorigen Modell M2M-100

Das größte Open-Source-Modell für maschinelle Übersetzung mit 54 Mrd. Parametern – 5-mal mehr als beim vorigen Modell M2M-100

Ein einzelnes Modell unterstützt 40.000 Sprachrichtungen – das ist 4-mal leistungsfähiger als der vorige Benchmark

Die Forschungsfortschritte bei NLLB unterstützen die Bereitstellung von mehr als 25 Mrd. Übersetzungen täglich im Facebook News Feed sowie auf Instagram und unseren anderen Plattformen

Mehr dazu

Lass uns No Language Left Behind (NLLB) gemeinsam voranbringen.

Über NLLB kannst du eine Menge lernen – und noch mehr damit erreichen. Einzelheiten kannst du in unserem Whitepaper und Blog nachlesen. Du kannst auch das Modell herunterladen und uns so dabei helfen, dieses Projekt voranzubringen. Wir haben zwar schon 200 Sprachen, aber das ist erst der Anfang. Beteilige dich am Aufbau und leiste gemeinsam mit uns einen wichtigen Beitrag für Übersetzung und Inklusion.