• Odborníci z Meta AI vytvořili první model umělé inteligence, který dokáže sám překládat 200 jazyků, a to ve špičkové kvalitě, kterou u všech jazyků ověřilo rozsáhlé hodnocení. Jmenuje se NLLB-200.

  • Abychom měli jistotu, že jsou překlady kvalitní, vytvořili jsme taky novou sadu dat pro hodnocení, FLORES-200, pomocí které jsme změřili výsledky modelu NLLB-200 v jednotlivých jazycích. Model NLLB-200 předčil svého nejmodernějšího předchůdce v průměru o 44 %.

  • V současné době se techniky modelování a poznatky z projektu využívají ke zdokonalování a širšímu zpřístupňování překladů na Facebooku, Instagramu a Wikipedii.

  • Modely NLLB-200, sadu FLORES-200, kód k trénování modelu a kód k vygenerování tréninkové datové sady poskytujeme s opensourcovou licencí dalším odborníkům, aby mohli navázat na naši práci a zlepšovat vlastní překladové nástroje.

Jazyk je naše kultura, naše identita, naše spojení se světem. Pro stovky jazyků ale neexistují kvalitní překladové nástroje, a miliardy lidí tak zatím nemají přístup k digitálnímu obsahu nebo se nemůžou plnohodnotně zapojovat do online konverzací a komunit ve své vlastním jazyce nebo v jazyce, který jim nejvíc vyhovuje. Týká se to především stamilionů lidí, kteří mluví některým z mnoha afrických a asijských jazyků.

Vyskytla se chyba
S přehráváním videa máme potíže.

Záleží nám na tom, aby spolu lidé mohli co nejlíp navazovat vztahy a komunikovat a aby se do budoucna mohli aktivně zapojit do metaverza. Experti z Meta AI proto přišli s projektem No Language Left Behind (NLLB), jehož cílem bylo vytvořit nástroj pro kvalitní strojový překlad většiny světových jazyků. A dnes můžeme oznámit, že se jim podařil zásadní průlom: vytvořili model umělé inteligence (AI) NLLB-200, který umí s výbornými výsledky překládat 200 různých jazyků. Řadu z nich, třeba kambštinu nebo laoštinu, dostatečně nepodporovaly ani nejlepší stávající překladové nástroje. Překladače, které se dnes používají ve velkém, nemají v nabídce ani 25 afrických jazyků a ty, které mají, navíc často překládají velmi nedokonale. Model NLLB-200 zato podporuje 55 afrických jazyků a jeho výstupy jsou vynikající. Sám o sobě je model schopný kvalitně překládat jazyky, kterými na světě mluví miliardy lidí. V hodnocení podle skóre BLEU dosáhl model NLLB-200 44% zlepšení v porovnání se svým nejmodernějším předchůdcem, a to v rámci všech 10 tisíc směrů srovnávací datové sady FLORES-101. U některých afrických a indických jazyků je zlepšení v porovnání se současnými překladovými systémy víc než 70%.

Model NLLB-200 teď nabízíme s opensourcovou licencí a zveřejňujeme spoustu výzkumných nástrojů, aby na naši práci mohli navázat další odborníci, přidávat další jazyky a vytvářet inkluzivnější technologie. Meta AI se navíc rozhodla poskytnout granty v hodnotě až 200 000 USD neziskovým organizacím, které NLLB-200 využijí v praxi.

Zdokonalení, která projekt NLLB přinesl, se denně uplatní při tvorbě víc než 25 miliard překladů zobrazovaných v kanálu vybraných příspěvků na Facebooku, na Instagramu a na dalších platformách. Představte si, že na Facebooku v oblíbené skupině narazíte na příspěvek v igboštině nebo gandštině, jednoduše kliknete na tlačítko a budete si ho moct bez problémů přečíst ve svém vlastním jazyce. Přesné překlady ve větším počtu jazyků taky můžou pomoct vyhledávat škodlivý obsah a dezinformace, chránit integritu voleb a omezit počet případů online sexuálního zneužívání a obchodování s lidmi. Techniky modelování a poznatky z výzkumu v rámci projektu NLLB se aktuálně využívají i v překladových systémech, s kterými pracují editoři Wikipedie.

Překlad má významný vliv na běžný život lidí, a proto patří k nejatraktivnějším oblastem uplatnění umělé inteligence. Projekt NLLB slibuje mnohem víc než jen lepší přístup k obsahu na webu. Usnadní taky sdílení informací a spolupráci mezi lidmi, kteří mluví různými jazyky. Ještě před sebou máme kus cesty, ale poslední pokroky, které nás přibližují k naplnění cíle společnosti Meta, nám dávají nový elán do další etapy.

Projděte si ukázku práce modelu NLLB-200, zhodnoťte, jak dobře přeložil příběhy z různých koutů světa, a přečtěte si naši studii.

Zpřístupnění překladových nástrojů miliardám lidí

Abychom pomohli vylepšit překladové systémy na Wikipedii, navázali jsme spolupráci s neziskovou organizací Wikimedia Foundation, která zajišťuje fungování Wikipedie a dalších projektů zaměřených na bezplatné šíření znalostí. Wikipedie existuje ve víc než 300 jazykových verzích. V té anglické je k dispozici přes 6 milionů článků, ve většině ostatních podstatně míň. Výrazně menší počet článků je dostupný hlavně v jazycích používaných mimo Evropu a Severní Ameriku. Třeba v lingalštině, kterou mluví 45 milionů lidí v Demokratické republice Kongo, Konžské republice, Středoafrické republice a Jižním Súdánu, najdete na Wikipedii asi 3 260 článků. Naproti tomu ve švédštině, kterou mluví 10 milionů lidí ve Švédsku a Finsku, si můžete přečíst 2,5 milionu článků.

Editoři Wikipedie teď prostřednictvím překladového nástroje Wikimedia Foundation využívají technologii modelu NLLB-200. Usnadňuje jim překlad z víc než 20 jazyků s malým množstvím dat (u kterých nejsou k dispozici velké sady dat k trénování systémů umělé inteligence), včetně deseti, které dřív na platformě nepodporoval ani jeden nástroj pro strojový překlad.

Tvorba jednoho modelu pro stovky jazyků je náročná

Systémy pro strojový překlad se stejně jako všechny ostatní modely AI trénují na datech. V případě systémů pro překlad textů jsou to obvykle miliony vět v různých jazycích, pečlivě pospojované tak, aby si obsahově odpovídaly. U některých dvojic jazyků, třeba u angličtiny a fulštiny, ale jednoduše není k dispozici velká množina paralelních vět. Současné překladové modely se tenhle problém snaží vyřešit tak, že dolují data z webu. Kvalita výsledků je ale často nízká, protože zdrojový text je v každém z jazyků jiný. V textech navíc bývá plno chybných nebo různorodých zápisů slov a mnohdy chybí diakritická a jiná znaménka.

Dalším velkým problémem a výzvou je optimalizovat model tak, aby fungoval pro stovky jazyků, ale ne na úkor výkonnosti nebo kvality překladu. Nejlepší překlady většinou vznikají, když se pro každý směr překladu používá samostatný model. Tuhle strategii je ale složité využít ve velkém měřítku, protože se s přidáváním dalších jazyků snižuje výkon a kvalita překladu.

Překladové modely taky dělají obtížně zachytitelné chyby. Jsou to systémy založené na neuronových sítích, které generují text, a tak můžou přirozeně vytvářet chyby, jako jsou halucinace (rozhodné prezentování informace jako pravdivé, i když pravdivá není), zkreslení a nebezpečný obsah. Obecně se dá říct, že u jazyků s menším množstvím dat je zkrátka nedostatek datových sad a dat pro srovnání a to komplikuje testování a vylepšování modelů.

Inovativní přístup k architektuře, získávání dat, srovnávání i dalším oblastem

V posledních letech jsme popsané nástrahy a výzvy krok za krokem zdolávali. V roce 2020 jsme představili model M2M-100 pro překlad 100 jazyků, který využíval nové metody získávání tréninkových dat, nové architektury umožňující škálování modelu bez ztráty výkonu a nové způsoby hodnocení a zlepšování výsledků. Abychom do modelu mohli zahrnout dalších 100 jazyků, museli jsme se znovu posunout ve všech třech jmenovaných oblastech.

Další zdroje pro trénování

Potřebovali jsme vysoce přesné paralelní texty ve víc jazycích, a proto jsme zdokonalili sadu nástrojů LASER pro učení bez příkladu (zero-shot) při zpracování přirozeného jazyka (NLP). Nová verze nazvaná LASER 3 používá místo modelu LSTM model Transformer trénovaný formou učení pod vlastním dohledem s maskovaným jazykovým modelováním (MLM). V zájmu zlepšení výkonu jsme dál použili proces učitelsko-studentského trénování a vytvořili enkodéry pro konkrétní jazykové skupiny, které nám umožnily do modelu LASER 3 zahrnout víc jazyků a generovat obrovská kvanta větných párů i pro jazyky s malým množstvím dat. Metodu vícejazyčných vnoření modelu LASER 3 dáváme formou opensourcové licence k dispozici jiným výzkumníkům a stejně tak zpřístupňujeme miliardy paralelních vět v různých jazykových párech, které jsme pomocí popsaných technik vydolovali a vyčistili.

Protože při získávání příkladů pro trénování ve víc jazycích pracujeme s širokým okruhem zdrojů, věnujeme velkou pozornost zajištění kvality. Od základu jsme změnili proces čistění dat, aby pojal 200 jazyků, a přidali jsme důležité kroky filtrace. Naše modely LID-200 nejdřív data filtrují a spolehlivě z internetových korpusů odebírají šum. Potom na základě seznamů toxických výrazů, které jsme sestavili pro všech 200 jazyků, vyhodnocujeme a filtrujeme potenciální toxický obsah vzniklý halucinací. Díky těmhle krokům získáváme čistší a míň toxické datové sady se správně určenými jazyky. To je důležité z hlediska zvýšení kvality překladu a snížení rizika, které se označuje jako toxicita vzniklá halucinací, tedy rizika, že systém do překladu omylem zapracuje toxický obsah.

Škálování modelu a zachování vysokého výkonu

Vícejazyčné překladové systémy mají dvě hlavní výhody. V první řadě umožňují, aby podobné jazyky – jako třeba ásámština a bengálština, které shodně používají bengálské písmo – během tréninku sdílely data. U jazyků s malým množstvím dat, které se trénují společně s podobnými jazyky s velkým množstvím dat, to významně pomáhá ke zvýšení kvality překladu. Další výhodou vícejazyčných modelů je to, že výzkumníci můžou provádět iterace, škálování a různé experimenty snáz, než kdyby pracovali se stovkami, nebo dokonce tisíci různými dvojjazyčnými modely.

Rozšíření modelu ze 100 na 200 jazyků je ale v mnoha ohledech velmi složité. U jazykových párů s malým množstvím dat se stává, že se vícejazyčné systémy začínají při dlouhodobějším trénování přeučovat. Tyhle problémy jsme vyřešili inovacemi na třech frontách: regularizací a metodou curriculum learning, učením pod vlastním dohledem a použitím různých typů zpětného překladu.

Nejdřív jsme vyvinuli sítě kombinující víc klasifikátorů (Mixture-of-Experts, MoE), které mají sdílené a specializované kapacity, aby se jazyky s malým množstvím dat mohly automaticky přesměrovávat na sdílenou kapacitu. To ve spojení s líp nastavenými regularizačními systémy eliminuje přeučení. Dál jsme vsadili na curriculum learning ve dvou stupních – nejdřív jsme několik období trénovali jazyky s velkým množstvím dat a teprve pak jsme nasadili páry jazyků s malým množstvím dat. I tenhle postup pomáhá zmírnit problém přeučování. Potom jsme s ohledem na omezené množství paralelních dvojjazyčných dat u jazyků s malým množstvím materiálu využili učení pod vlastním dohledem na jednojazyčných datech, a to u jazyků s malým množstvím dat a u podobných jazyků s velkým množstvím dat, abychom zlepšili celkovou výkonnost modelu.

Nakonec jsme analyzovali, jak nejlíp generovat zpětné překlady. Dospěli jsme k závěru, že se u jazyků s malým množstvím dat nejvíc osvědčuje kombinování zpětně přeložených dat vygenerovaných modelem pro dvojjazyčný statistický strojový překlad a modelem pro vícejazyčný neuronový strojový překlad, protože tímhle způsobem vygenerovaná syntetická data jsou rozmanitější. K trénování modelu NLLB-200, který má 54 miliard parametrů, jsme použili nový Research SuperCluster (RSC), který patří k nejrychlejším superpočítačům pro umělou inteligenci na světě.

Hodnocení a zmírnění rizik u 200 jazyků

Pro účely hodnocení a vylepšování modelu NLLB-200 jsme vytvořili FLORES-200, unikátní datovou sadu pro hodnocení typu „many-to-many“, která umožňuje hodnotit výkon v 40 000 různých jazykových směrech. Tuhle novou datovou sadu nabízíme s opensourcovou licencí jiným výzkumníkům, aby mohli rychle testovat a zdokonalovat své vlastní překladové modely. FLORES-200 se dá použít k hodnocení překladových systémů pro překlad nejrůznějších typů obsahu, například brožur pro pacienty, filmů, knih a online obsahu v zemích a regionech, kde se mluví mnoha jazyky s malým množstvím dat.

V souvislosti s rozšířením modelu na 200 jazyků bylo nutné vyřešit riziko generování toxického obsahu, což může být u vícesměrového překladového systému složité. Abychom dokázali detekovat a filtrovat vulgární slova a jiný potenciálně urážlivý obsah, sestavili jsme seznamy toxických výrazů ve všech podporovaných jazycích. Seznamy a srovnávací materiály k toxickým výrazům pro všech 200 jazyků zpřístupňujeme, aby je mohli ke snížení rizik u svých modelů použít i jiní.

Protože své aktivity chceme rozvíjet odpovědným způsobem, spolupracujeme s interdisciplinárním týmem, do kterého patří lingvisté, sociologové a etikové a který nám zprostředkovává bližší informace o jednotlivých jazycích, kterými se zabýváme.

Obrázek shrnuje průměrné skóre BLEU zpracované podle sady FLORES-101 u překladů mezi angličtinou a 100 jinými jazyky (oběma směry). Vlevo jsou dva zveřejněné moderní modely, 2M2 a Delta LM, které podporují 100 jazyků. Vpravo jsou modely podporující 200 jazyků: základní model Transformer s 3,3 miliardami parametrů, základní model s učením pod vlastním dohledem (SSL), základní model se zpětným překladem (BT) a model NLLB-200, tedy široký model typu MoE, který využívá jak učení pod vlastním dohledem, tak zpětný překlad.

Širší dostupnost překladů a výraznější inkluze

Kvalitní překladové nástroje můžou mít ohromný přínos. V dnešní době vládne webu několik málo jazyků – především angličtina, mandarínština, španělština a arabština. Rodilí mluvčí takhle široce rozšířených jazyků si možná ani neuvědomují, jaký význam má možnost přečíst si text ve vlastním mateřském jazyce. Věříme, že projekt NLLB pomůže zachovat možnost vyjadřovat se plně a výstižně, bez nutného zprostředkování přes třetí jazyk, které může vyznění nebo obsah sdělení často zkreslit.

Kromě toho může přispět ke zdokonalení dalších typů zpracování přirozeného jazyka. Třeba k vytvoření asistentů, kteří dobře fungují v jazycích jako javánština nebo uzbečtina, nebo k vývoji systémů, které dokážou vygenerovat přesné titulky k bollywoodským filmům ve svahilštině nebo oromštině. Schopnost vytvářet technologie, které umí pracovat se stovkami nebo dokonce tisíci jazyky, bude velmi důležitá taky v souvislosti s postupným rozvojem metaverza. Pomůže zpřístupnit nová atraktivní prostředí ve virtuálních světech co nejširšímu okruhu lidí.

Ještě před pár lety byl kvalitní strojový překlad k dispozici jen u hrstky jazyků. Model NLLB-200 znamená velký krok k tomu, abychom jednoho dne mohli nabízet systémy, které lidem umožní komunikovat skutečně s kýmkoli. Jsme přesvědčení, že nám otevírá úžasné možnosti, z kterých můžeme mít prospěch dnes, ale i v budoucnu, až znovu posuneme hranice strojového překladu.

V Meta AI na projektu pracuje multidisciplinární tým, jehož členy jsou Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang a Al Youngblood.