19. Oktober 2022
Bisher konzentrierte sich die KI-Übersetzung hauptsächlich auf geschriebene Sprachen. Doch rund die Hälfte der weltweit über 7.000 lebenden Sprachen sind überwiegend mündlich und besitzen keine standardmäßige oder gebräuchliche Schriftform. Dadurch ist es unmöglich, maschinelle Übersetzungstools mit den Standardtechnologien zu entwickeln, da diese große Mengen an geschriebenem Text brauchen, um das KI-Modell zu trainieren. Wir haben uns dieser Herausforderung gestellt und das erste KI-gestützte Übersetzungssystem für die überwiegend mündliche Sprache Hokkien entwickelt. Hokkien ist eine in der chinesischen Diaspora weit verbreitete Sprache, für die es keine Standardschriftform gibt. Unsere Technologie ermöglicht es Menschen, die Hokkien sprechen, sich mit englischsprachigen Personen zu unterhalten.
Das Open-Source-Übersetzungssystem ist Teil von Metas Universal Speech Translator-Projekt (UST). Dieses entwickelt neue KI-Methoden, von denen wir uns erhoffen, dass sie eines Tages die Speech-to-Speech-Übersetzung aller existierenden Sprachen in Echtzeit ermöglichen, selbst von überwiegend gesprochenen Sprachen. Wir glauben, dass die gesprochene Kommunikation Barrieren abbauen und Menschen zusammenbringen kann, ganz gleich, wo sie sich befinden – selbst im Metaversum.
Bei der Entwicklung dieses neuen mündlichen Übersetzungssystems mussten Metas KI-Forschende viele der Herausforderungen meistern, die mit traditionellen maschinellen Übersetzungssystemen verbunden sind, wie etwa Datenerfassung, Modelldesign und Beurteilung. Wir haben noch viel Arbeit vor uns, um UST auf noch mehr Sprachen auszudehnen. Doch die Fähigkeit, mühelos mit Menschen in jeder beliebigen Sprache zu sprechen, ist ein lang gehegter Traum. Umso mehr freuen wir uns, diesem Traum einen Schritt näher zu sein. Wir stellen nicht nur unsere Übersetzungsmodelle für Hokkien unter einer Open-Source-Lizenz zur Verfügung, sondern auch die Beurteilungsdatensätze und Forschungsarbeiten. So können andere unsere Arbeit reproduzieren und darauf aufbauen.

Als wir uns an die Entwicklung eines Übersetzungssystems für Hokkien machten, bestand eine große Hürde darin, genügend Daten zusammenzutragen. Hokkien ist eine ressourcenarme Sprachen. Das heißt, für diese Sprache steht keine große Menge an Trainingsdaten wie z. B. für Spanisch oder Englisch zur Verfügung. Außerdem gibt es relativ wenige menschliche Übersetzer*innen mit dem Sprachenpaar Englisch-Hokkien. Dies macht es schwierig, Daten zum Trainieren des Modells zu erfassen und zu labeln.
Wir nutzten Mandarin als Zwischensprache, um Pseudolabels sowie menschliche Übersetzungen zu erstellen. Dabei übersetzten wir zuerst englisches (oder Hokkien-)Gesprochenes in Mandarin-Text und anschließend in Hokkien (oder ins Englische) und fügten die Texte zu den Trainingsdaten hinzu. Durch die Nutzung von Daten aus einer ähnlichen ressourcenreichen Sprache konnten wir die Modellperformance erheblich verbessern.
Eine weitere Methode zum Generieren von Trainingsdaten ist das sogenannte Speech Mining. Mit einem vortrainierten Sprachcodierer konnten wir Spracheinbettungen in Hokkien in denselben semantischen Raum codieren wie andere Sprachen, ohne dass eine Schriftform für Hokkien erforderlich war. Gesprochenes in Hokkien kann mit Gesprochenem und Texten auf Englisch, deren semantische Einbettungen ähnlich sind, aligniert werden. Anschließend produzierten wir aus den Texten Gesprochenes Englisch und erhielten so Hokkien und Englisch parallel.

Viele Sprachübersetzungssysteme basieren auf Transkriptionen oder übertragen Gesprochenes in Text. Da überwiegend mündliche Sprachen jedoch keine Standardschriftform besitzen, ist es nicht möglich, transkribierten Text als Übersetzungsoutput zu verwenden. Daher konzentrierten wir uns auf die Speech-to-Speech-Übersetzung.
Wir nutzten Speech-to-Unit Translation (S2UT), um einen Sprachinput in eine Sequenz akustischer Einheiten direkt in dem von Meta zuvor entwickelten Pfad zu übersetzen. Anschließend generierten wir aus den Einheiten Funktionen. Darüber hinaus verwendeten wir UnitY als Zwei-Pass-Decodiermechanismus. Dabei generiert der Decoder im ersten Durchlauf Text in einer verwandten Sprache (Mandarin) und erstellt im zweiten Durchlauf Einheiten.

Sprachübersetzungssysteme werden gewöhnlich anhand einer Kennzahl namens ASR-BLEU beurteilt. Dabei wird das übersetzte Gesprochene zunächst mithilfe automatischer Spracherkennung (Automatic Speech Recognition, ASR) in Text umgewandelt. Anschließend werden BLEU-Scores (eine Standardkennzahl für die maschinelle Übersetzung) berechnet, indem der transkribierte Text mit einem von Menschen übersetzten Text verglichen wird. Eine der Schwierigkeiten bei der Beurteilung von Sprachübersetzungen für eine mündliche Sprache wie Hokkien besteht jedoch darin, dass es keine Standardschriftform gibt. Um eine automatische Beurteilung zu ermöglichen, entwickelten wir ein System, das gesprochenes Hokkien in eine standardisierte phonetische Umschrift namens Tâi-lô umwandelt. Dank dieses Verfahrens konnten wir einen BLEU-Score auf Silbenebene berechnen und so spielend die Übersetzungsqualität verschiedener Methoden vergleichen.
Doch wir entwickelten nicht nur eine Methode zur Beurteilung von Sprachübersetzungen für Hokkien-Englisch. Auf der Grundlage eines Hokkien-Sprachkorpus namens Taiwanese Across Taiwan erstellten wir außerdem den ersten Vergleichsdatensatz für die Speech-to-Speech-Übersetzung in beide Richtungen. Dieser Vergleichsdatensatz wird unter einer Open-Source-Lizenz zur Verfügung gestellt, um andere Forschende dazu zu ermutigen, an der Hokkien-Sprachübersetzung zu arbeiten und so gemeinsam weitere Fortschritte auf diesem Gebiet zu erzielen.
Aktuell ermöglicht es unser Ansatz Menschen, die Hokkien sprechen, sich mit englischsprachigen Personen zu unterhalten. Das Modell befindet sich noch in der Entwicklung und kann nur jeweils einen ganzen Satz auf einmal übersetzen. Doch es ist ein Schritt in eine Zukunft, in der die gleichzeitige Übersetzung zwischen Sprachen möglich ist.

Die Verfahren, die wir erstmalig für Hokkien entwickelt haben, lassen sich auf viele andere geschriebene und ungeschriebene Sprachen übertragen. Zu diesem Zweck veröffentlichen wir die Sprachmatrix, einen großen Korpus von Speech-to-Speech-Übersetzungen, die mit Metas innovativer Data-Mining-Methode namens LASER erfasst wurden. Forschende können damit ihre eigenen Speech-to-Speech-Übersetzungssysteme (S2ST) entwickeln und auf unserer Arbeit aufbauen.

Metas jüngste Fortschritte bei der unüberwachten Spracherkennung (wav2vec-U) und unüberwachten maschinellen Übersetzung (mBART) ebnen den Weg für künftige Entwicklungen bei der Übersetzung weiterer gesprochener Sprachen. Unsere Fortschritte auf dem Gebiet des unüberwachten Lernens zeigen, dass es möglich ist, hochwertige Speech-to-Speech-Übersetzungsmodelle ohne Labeling durch Menschen zu erstellen. Das System reduziert die Anforderung, die Abdeckung ressourcenarmer Sprachen auszuweiten, erheblich, da viele von ihnen keinerlei gelabelte Daten haben.
Die KI-Forschung trägt dazu bei, Sprachbarrieren sowohl in der realen Welt als auch im Metaversum abzubauen. Ziel ist es, Verbundenheit zu schaffen und gegenseitiges Verständnis zu fördern. Wir freuen uns darauf, unsere Forschung auszuweiten und diese Technologie künftig noch mehr Menschen zugänglich zu machen.
Diese Arbeit wird bei von einem fachübergreifenden Team durchgeführt, dem u. a. folgende Personen angehören: Al Youngblood, Ana Paula Kirschner Mofarrej, Andy Chung, Angela Fan, Ann Lee, Benjamin Peloquin, Benoît Sagot, Brian Bui, Brian O’Horo, Carleigh Wood, Changhan Wang, Chloe Meyere, Chris Summers, Christopher Johnson, David Wu, Diana Otero, Eric Kaplan, Ethan Ye, Gopika Jhala, Gustavo Gandia Rivera, Hirofumi Inaguma, Holger Schwenk, Hongyu Gong, Ilia Kulikov, Iska Saric, Janice Lam, Jeff Wang, Jingfei Du, Juan Pino, Julia Vargas, Justine Kao, Karla Caraballo-Torres, Kevin Tran, Koklioong Loa, Lachlan Mackenzie, Michael Auli, Natalie Hereth, Ning Dong, Oliver Libaw, Orialis Valentin, Paden Tomasello, Paul-Ambroise Duquenne, Peng-Jen Chen, Pengwei Li, Robert Lee, Safiyyah Saleem, Sascha Brodsky, Semarley Jarrett, Sravya Popuri, TJ Krusinski, Vedanuj Goswami, Wei-Ning Hsu, Xutai Ma, Yilin Yang, und Yun Tang.