• W Meta AI opracowano jeden model oparty na sztucznej inteligencji, NLLB-200, który jako pierwszy generuje tłumaczenia z i na 200 języków przy zachowaniu najwyższej, poddanej gruntownej ocenie jakości.

  • Stworzyliśmy również nowy zestaw danych do oceny FLORES-200 i zmierzyliśmy wydajność NLLB-200 w każdym języku, aby potwierdzić wysoką jakość tłumaczeń. Wyniki uzyskane przez NLLB-200 przewyższają dotychczasowe zaawansowane narzędzia średnio o 44 procent.

  • Aktualnie, posługując się technikami modelowania i wnioskami z projektu, ulepszamy i rozbudowujemy tłumaczenia na Facebooku, Instagramie i Wikipedii.

  • Udostępniamy na zasadzie licencji open-source modele NLLB-200, FLORES-200, kod szkoleniowy modelu oraz kod umożliwiający ponowne utworzenie zestawu danych szkoleniowych, aby pomóc innym badaczom w doskonaleniu narzędzi tłumaczeniowych i umożliwić im korzystanie z naszych osiągnięć.

Język to nasza kultura, tożsamość i rytm życia całego świata. Brak obsługi setek języków w wysokiej jakości narzędziach tłumaczeniowych sprawia, że miliardy ludzi pozbawione są dostępu do treści cyfrowych i nie mogą posługiwać się preferowanymi lub ojczystymi językami, aby w pełni uczestniczyć w rozmowach i życiu społeczności internetowych. Dotyczy to zwłaszcza setek milionów ludzi posługujących się licznymi językami Afryki i Azji.

Wystąpił błąd
Nie można odtworzyć tego filmu.

Aby ludzie już dziś nawiązywali więcej kontaktów, a jutro stali się częścią metawersum, badacze Meta AI opracowali No Language Left Behind (NLLB), inicjatywę na rzecz rozwoju wysokiej jakości tłumaczenia maszynowego obejmującą większość języków świata. Dzisiaj ogłaszamy ważny przełom w NLLB: opracowaliśmy jeden model o nazwie NLLB-200 oparty na sztucznej inteligencji, który tłumaczy 200 różnych języków i uzyskuje najlepsze w swojej klasie wyniki. Wiele z tych języków, np. kamba i laotański, nie było dobrze obsługiwanych w nawet najlepszych dostępnych narzędziach tłumaczeniowych; inne nie były w nich uwzględniane wcale. Liczba języków afrykańskich obsługiwanych obecnie przez powszechnie używane narzędzia tłumaczeniowe nie przekracza 25, a wiele z tych dostępnych ma niską jakość. NLLB-200 obsługuje 55 języków afrykańskich, zapewniając wysokiej jakości wyniki. Ten jeden model może zapewnić wysokiej jakości tłumaczenia języków używanych przez miliardy ludzi na całym świecie. Łącznie oceny BLEU narzędzia NLLB-200 przewyższyły o średnio 44 procent dotychczasowe zaawansowane systemy we wszystkich 10 tys. kierunków z bazy porównawczej FLORES-101. W przypadku niektórych języków afrykańskich i indyjskich przewaga nad najnowszymi systemami tłumaczeniowymi przekracza 70 procent.

Obecnie udostępniamy model NLLB-200 na zasadzie licencji open-source i publikujemy szereg narzędzi badawczych, aby umożliwić innym badaczom objęcie naszym projektem większej liczby języków i tworzenie bardziej otwartych technologii. Meta AI przeznacza również do 200 000 USD dotacji dla organizacji non profit na wykorzystanie NLLB-200 w praktyce.

Postępy badawcze w ramach NLLB pozwolą na obsługę ponad 25 miliardów tłumaczeń pojawiających się codziennie w Aktualnościach Facebooka i Instagramu oraz na naszych innych platformach. Wyobraź sobie, że w ulubionej grupie na Facebooku natrafiasz na post w języku igbo lub luganda i za pomocą jednego kliknięcia możesz przeczytać go we własnym języku. Tłumaczenia o wysokiej dokładności obejmujące więcej języków mogą również pomóc w wykrywaniu szkodliwych treści i dezinformacji, ochronie uczciwości wyborów i ograniczaniu przypadków wykorzystywania seksualnego i handlu ludźmi online. Techniki modelowania i wnioski z naszych badań nad NLLB są obecnie stosowane również w systemach tłumaczeniowych używanych przez redaktorów Wikipedii.

Ze względu na wpływ, jaki wywiera na codzienne życie ludzi, tłumaczenie to jedna z najciekawszych dziedzin sztucznej inteligencji. NLLB to znacznie więcej niż tylko zapewnienie ludziom lepszego dostępu do treści w Internecie. Może ułatwiać wykazywanie się aktywnością i dzielenie się informacjami w różnych językach. Czeka nas więcej pracy, ale energii dodają nam ostatnie postępy oraz fakt, że znajdujemy się coraz bliżej realizacji misji firmy Meta.

Zachęcamy do zapoznania się z prezentacją dotyczącą NLLB-200, która pokazuje, w jaki sposób model może tłumaczyć opowieści z całego świata, oraz do przeczytania artykułu badawczego.

Narzędzia tłumaczeniowe dostępne dla miliardów ludzi

Nawiązaliśmy współpracę z Wikimedia Foundation, organizacją non profit, która zajmuje się redagowaniem Wikipedii i realizacją innych bezpłatnych projektów szerzących wiedzę, aby pomóc jej w poprawie systemów tłumaczeniowych Wikipedii. Materiały na Wikipedii dostępne są w ponad 300 wersjach językowych, jednak w przypadku większości z nich liczba artykułów nawet nie zbliża się do ponad 6 milionów, które dostępne są w języku angielskim. Ta rozbieżność jest szczególnie duża w przypadku języków używanych poza Europą i Ameryką Północną. Przykładowo 3260 artykułów na Wikipedii dostępnych jest w języku lingala, którym posługuje się 45 milionów ludzi w Demokratycznej Republice Konga, Kongo, Republice Środkowoafrykańskiej i Sudanie Południowym. Kontrastuje to np. z językiem szwedzkim, który ma 10 milionów użytkowników w Szwecji i Finlandii, a dostępnych jest w nim ponad 2,5 miliona artykułów.

Obecnie redaktorzy Wikipedii korzystają z technologii, na których opiera się NLLB-200, aby za pośrednictwem narzędzia Content Translation Tool należącego do Wikimedia Foundation tłumaczyć artykuły w ponad 20 językach o niskich zasobach (nieposiadających obszernych zestawów danych do trenowania systemów AI). 10 spośród nich wcześniej nie było obsługiwanych przez żadne narzędzia do tłumaczenia maszynowego na platformie.

Wyzwania związane z tworzeniem jednego modelu dla setek języków

Systemy tłumaczenia maszynowego, podobnie jak wszystkie modele AI, są szkolone na danych. W przypadku systemów tłumaczenia tekstu zbiory danych zazwyczaj obejmują miliony starannie dopasowanych zdań w różnych parach językowych. W wielu przypadkach, np. w językach angielskim i ful, liczba równoległych zdań jest niewielka. Współczesne modele tłumaczeń próbują znaleźć rozwiązanie tego problemu, wyszukując dane w sieci. Otrzymywane wyniki są jednak często słabej jakości, ponieważ teksty źródłowe różnią się w poszczególnych językach. Ponadto ich pisownia jest często niepoprawna lub niespójna, brakuje w nich znaków akcentu oraz innych znaków diakrytycznych.

Kolejnym dużym wyzwaniem jest zoptymalizowanie jednego modelu pod kątem obsługi setek języków bez pogarszania wydajności i jakości tłumaczenia. Zgodnie z tradycyjną koncepcją najlepsza jakość tłumaczenia wynika z posiadania oddzielnego modelu dla każdego kierunku językowego. Podejście to trudno zastosować na dużą skalę, ponieważ w miarę dodawania kolejnych języków wydajność i jakość tłumaczeń ulegają pogorszeniu.

Modele tłumaczeniowe generują również trudne do uchwycenia błędy. Systemy te oparte są na sieciach neuronowych używanych do generowania tekstu, mogą więc w naturalny sposób generować błędy w postaci halucynacji (polegających na pewnym twierdzeniu, że coś jest prawdziwe, nawet jeśli tak nie jest), nieścisłości i niebezpiecznych treści. Ogólnie rzecz biorąc mniejsza dostępność baz porównawczych i zestawów danych dla języków o niskich zasobach znacznie utrudnia testowanie i ulepszanie modeli.

Innowacje w architekturze, pozyskiwaniu danych, analizie porównawczej itp.

Przez ostatnie lata czyniliśmy stałe postępy w przezwyciężaniu opisanych wyżej wyzwań. W 2020 roku ogłosiliśmy wprowadzenie modelu tłumaczeniowego M2M-100 obejmującego 100 języków, który wykorzystał nowe metody pozyskiwania danych szkoleniowych, nowe architektury do zwiększania skali modelu bez obniżania wydajności oraz nowe sposoby oceny i poprawy wyników. Chcąc rozszerzyć naszą bazę o kolejnych 100 języków, usprawniliśmy wszystkie trzy wspomniane obszary.

Rozbudowane zasoby szkoleniowe

Aby pozyskiwać równoległe teksty o wysokiej dokładności w kolejnych językach, usprawniliśmy LASER, nasz zestaw narzędzi do transferu typu zero-shot w przetwarzaniu języka naturalnego (NLP). Zamiast LSTM, nowa wersja, LASER3, wykorzystuje model Transformer, który jest szkolony w samonadzorowany sposób na potrzeby zamaskowanego modelowania języka. Dodatkowo zwiększyliśmy wydajność, stosując procedurę szkolenia nauczyciel-uczeń i tworząc kodery właściwe dla grup językowych, które umożliwiły nam zwiększenie skali języków obsługiwanych przez LASER3 i generowanie ogromnej liczby par zdań, nawet w przypadku języków o niskich zasobach. Udostępniamy na zasadzie licencji open-source metodę osadzania wielojęzykowego LASER3, aby mogli z niej korzystać inni badacze. Udostępniamy także miliardy równoległych zdań w różnych parach językowych, które zostały wyszukane i oczyszczone za pomocą opisanych tutaj technik.

W związku ze zwiększeniem zakresu pozyskiwania przykładów szkoleniowych w większej liczbie języków ważne było zachowanie ich wysokiej jakości. W celu zwiększenia liczby języków do 200 całkowicie zmieniliśmy nasz potok oczyszczania danych, dodając główne etapy filtrowania, które w pierwszej kolejności obejmowały wykorzystanie naszych modeli LID-200 do filtrowania danych i usuwania szumu z korpusów internetowych przy dużym stopniu pewności. Opracowaliśmy listy szkodliwych wyrażeń dla całego zestawu 200 języków, a następnie wykorzystaliśmy je do oceniania i filtrowania potencjalnej toksyczności halucynacji. W ten sposób uzyskaliśmy czystsze i mniej toksyczne zestawy danych z poprawnie zidentyfikowanymi językami. To ważny krok poprawiający jakość tłumaczenia i zmniejszający ryzyko tzw. toksyczności halucynacji, gdy w procesie tłumaczenia system błędnie wprowadza toksyczną treść.

Zwiększanie skali modelu przy zachowaniu wysokiej wydajności

Wielojęzyczne systemy tłumaczeniowe zapewniają dwie znaczące korzyści. Umożliwiają podobnym językom, takim jak np. asamski i bengalski, które są zapisywane w alfabecie bengalskim, udostępnianie danych podczas szkolenia. Wspólne szkolenie podobnych języków o wysokich i niskich zasobach znacząco poprawia jakość tłumaczenia tych drugich. Ponadto testowanie, rozszerzanie skali i eksperymentowanie z jednym wielojęzycznym modelem jest dla badaczy znacznie łatwiejsze niż z setkami, a nawet tysiącami różnych modeli dwujęzycznych.

Rozszerzenie modelu ze 100 do 200 języków wciąż jednak wiąże się z poważnymi wyzwaniami. Jeśli dane szkoleniowe zawierają więcej par językowych o niskich zasobach, przy dłuższych okresach szkolenia modeli wielojęzyczne systemy zaczynają generować nadmierne dopasowania. Szukając rozwiązania tych problemów, wprowadziliśmy następujące trzy innowacje: regularyzacja i uczenie stopniowe, samonadzorowane uczenie się oraz dywersyfikacja retranslacji.

W pierwszej kolejności opracowaliśmy modele mixture-of-experts ze współdzieloną i wyspecjalizowaną pojemnością, dzięki czemu języki o niskich zasobach bez dużej ilości danych mogły być automatycznie kierowane do pojemności współdzielonej. W połączeniu z lepiej zaprojektowanymi systemami regularyzacji pozwala to uniknąć nadmiernego dopasowania. Wdrożyliśmy również dwuetapowe uczenie stopniowe, w ramach którego najpierw w kilku epokach szkoliliśmy języki o wysokich zasobach, a następnie wprowadziliśmy pary języków o niskich zasobach, co ponownie pomogło w ograniczeniu problemu nadmiernego dopasowania. Następnie, ze względu na niewielki zbiór tekstów równoległych dla języków o niskich zasobach, wykorzystaliśmy samonadzorowane uczenie się na danych jednojęzycznych zarówno dla języków o niskich zasobach, jak i podobnych języków o wysokich zasobach, aby poprawić ogólną wydajność modelu.

Na koniec przeanalizowaliśmy, w jaki sposób najlepiej generować dane retranslacji, i stwierdziliśmy, że połączenie retranslacji wygenerowanych zarówno przez dwujęzyczne statystyczne tłumaczenie maszynowe, jak i wielojęzyczne modele neuronowego tłumaczenia maszynowego pomogło poprawić wydajność w przypadku języków o niskich zasobach ze względu na zwiększoną różnorodność generowanych danych syntetycznych. Aby wyszkolić model NLLB-200, który ma 54 mld parametrów, wykorzystaliśmy nowy Research SuperCluster (RSC), który jest jednym z najszybszych superkomputerów AI na świecie.

Narzędzia oceny i ograniczania ryzyka dla 200 języków

Aby ocenić i ulepszyć model NLLB-200, opracowaliśmy FLORES-200, unikalny zestaw danych do oceny oparty na relacji wiele-do-wielu, który umożliwia badaczom ocenę wydajności w 40 000 różnych kierunkach językowych. Udostępniamy nowy zestaw danych na zasadzie licencji open-source, aby pomóc innym badaczom w szybkim testowaniu i ulepszaniu modeli tłumaczeniowych. FLORES-200 można wykorzystać do oceny systemów tłumaczeniowych pod kątem szerokiego zakresu zastosowań, np. w broszurach zdrowotnych, filmach, książkach i treściach online w krajach lub regionach, których mieszkańcy posługują się językami o niskich zasobach.

Zwiększenie skali do 200 języków wiązało się z koniecznością ograniczenia ryzyka generowania toksycznych treści, które mogą stwarzać problemy z zarządzaniem w wielokierunkowym systemie tłumaczeń. W tym celu utworzyliśmy listy szkodliwych wyrażeń dla wszystkich obsługiwanych języków, aby umożliwić wykrywanie i filtrowanie wulgaryzmów i innych potencjalnie obraźliwych treści. Udostępniamy listy do oceny toksyczności i bazy porównawcze dla wszystkich 200 języków, aby inni badacze mogli wykorzystać narzędzia do ograniczania ryzyka w swoich modelach.

Aby mieć pewność, że rozwijamy nasze działania w sposób odpowiedzialny, współpracujemy z interdyscyplinarnym zespołem, w skład którego wchodzą lingwiści, socjologowie i etycy. Dzięki ich pracy możemy lepiej poznać każdy z uwzględnianych języków.

Wykres przedstawia średni wynik BLEU dla tłumaczeń na język angielski i z niego na 100 języków z wykorzystaniem narzędzia FLORES-101. Po lewej stronie znajdują się dwa udostępnione zaawansowane modele, M2M i Delta LM, które obsługują 100 języków. Po prawej stronie zamieszczono modele obsługujące 200 języków: podstawowy model Transformer z 3,3 mld parametrów, podstawowy model z samonadzorowanym uczeniem się (SSL), podstawowy model z retranslacją (BT) oraz NLLB-200, model typu mixture-of-experts, który wykorzystuje zarówno samonadzorowane nauczanie, jak i retranslację.

Poszerzenie zakresu tłumaczeń i większa otwartość

Wysokiej jakości narzędzia do tłumaczenia mogą mieć przełomowe znaczenie. We współczesnej rzeczywistości w Internecie dominuje kilka języków, w tym angielski, mandaryński, hiszpański i arabski. Rodzimi użytkownicy tych rozpowszechnionych języków mogą utracić świadomość tego, jak ważne jest czytanie w swoim języku ojczystym. Wierzymy, że NLLB pomoże zachować język w postaci, w jakiej ma funkcjonować, bez konieczności stosowania języka pośredniczącego, który często zniekształca nastrój/treść przekazu.

Może również pomóc w realizacji innych zadań z zakresu NLP spoza tłumaczenia, np. tworzenie asystentów dobrze sprawdzających się w językach takich jak jawajski i uzbecki, lub tworzenie systemów do dodawania poprawnych napisów w językach suahili lub oromo do filmów z Bollywood. Gdy metawersum zaczyna nabierać kształtu, możliwość tworzenia technologii, które sprawdzają się w setkach, a nawet tysiącach języków, realnie przyczyni się do upowszechnienia dostępu do nowych, immersyjnych środowisk w wirtualnych światach.

Jeszcze kilka lat temu wysokiej jakości tłumaczenie maszynowe dostępne było tylko w kilku językach. NLLB-200 przybliża nas do wypracowania systemów, które umożliwią ludziom komunikowanie się z dowolnymi osobami. Nadal przesuwamy granice w zakresie tłumaczeń maszynowych i jesteśmy podekscytowani możliwościami, jakie możemy uzyskać dzięki systemowi obecnie oraz w przyszłości.

Pracę wykonuje wielodyscyplinarny zespół Meta AI, do którego należą Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang oraz Al Youngblood.