• Meta AI on rakentanut NLLB-200-tekoälymallin, joka pystyy ensimmäisenä tuottamaan laadukkaita käännöksiä 200 eri kielen välillä. Käännöslaatu on vahvistettu jokaisen kielen laajamittaisella arvioinnilla.

  • Olemme luoneet myös uuden arvioinnin tietojoukon nimeltä FLORES-200 ja analysoineet NLLB-200-tekoälymallin toimintaa jokaisen kielen osalta käännösten laadun vahvistamiseksi. NLLB-200 on aiempaa huipputeknologiaa keskimäärin 44 prosenttia kehittyneempi.

  • Hyödynnämme nyt projektin mallinnusteknologiaa ja oppeja parantaaksemme ja laajentaaksemme Facebookin, Instagramin ja Wikipedian käännöksiä.

  • Annamme NLLB-200-mallit, FLORES-200-tietojoukon, malliopetuskoodin ja tietojoukon koulutuksen uudelleenluontikoodin avoimen lähdekoodin resursseiksi auttaaksemme muita tutkijoita parantamaan käännöstyökalujaan ja kehittämään omia järjestelmiään jo tekemämme työn pohjalta.

Kieli on kulttuurimme, identiteettimme ja yhteytemme maailmaan. Koska sadoille kielille ei kuitenkaan ole olemassa laadukkaita käännöstyökaluja, miljardit käyttäjät eivät vielä nykyäänkään pääse käsiksi digitaaliseen sisältöön tai pysty täysin osallistumaan verkkokeskusteluihin tai -yhteisöihin haluamallaan kielellä tai äidinkielellään. Tämä koskee erityisesti niitä satoja miljoonia käyttäjiä, jotka puhuvat Afrikan ja Aasian eri kieliä.

Jotain meni pieleen
Videon toisto ei onnistu.

Jotta käyttäjät voisivat olla paremmin yhteydessä toisiinsa ja olla osa tulevaisuuden metaversumia, Meta AI:n tutkijat ovat luoneet NLLB- eli No Language Left Behind -aloitteen, joka pyrkii kehittämään laadukkaita konekäännösominaisuuksia useimmille maailman eri kielille. Tänään esittelyssä on tärkeä NLLB-läpimurto: olemme rakentaneet tekoälymallin nimeltään NLLB-200, joka kääntää 200:aa eri kieltä huippulaadukkain tuloksin. Monet näistä kielistä, kuten kamba ja lao, eivät ole sisältyneet nykyisten laadukkaiden käännöstyökalujen kielivalikoimaan tai niiden tuki on ollut hyvin rajallinen. Yleisesti käytössä olevat käännöstyökalut tukevat tällä hetkellä alle 25:tä Afrikassa puhuttua kieltä, ja monet näistäkin työkaluista tuottavat heikkolaatuisia käännöksiä. Sen sijaan NLLB-200 tukee 55:tä Afrikassa puhuttua kieltä laadukkain tuloksin. Tämä yksi ja sama malli voi tarjota laadukkaita käännöksiä yhteensä miljardien puhujien kielellä ympäri maailman. NLLB-200-mallin BLEU-pisteet olivat keskimäärin 44 prosenttia paremmat edelliseen huipputeknologiaan verrattuna kaikissa FLORES-101-vertailun kymmenessätuhannessa kielisuunnassa. Joidenkin Afrikassa ja Intiassa puhuttujen kielten kohdalla kasvu edellisiin käännösjärjestelmiin verrattuna oli yli 70 prosenttia.

Julkaisemme NLLB-200-mallin nyt avoimen lähdekoodin resurssina ja lisäksi julkaisemme joukon tutkimustyökaluja, joiden avulla muut tutkijat voivat laajentaa työn vielä useampaan kieleen ja rakentaa entistä inklusiivisempia teknologioita. Lisäksi Meta AI tarjoaa voittoa tavoittelemattomille järjestöille apurahoja 200 000 Yhdysvaltain dollarin arvosta NLLB-200-mallin tosielämän sovelluksia varten.

NLLB-mallin tutkimussaavutukset tukevat yli 25:tä miljardia käännöstä, joita käytetään päivittäin Facebookin uutisissa, Instagramissa ja muilla alustoillamme. Kuvittele, että olet vierailemassa Facebookin suosikkiryhmässäsi, huomaat igbon tai lugandan kielellä kirjoitetun julkaisun ja pystyt yhdellä klikkauksella ymmärtämään sen omalla kielelläsi. Useamman kielen hyvin tarkat käännökset voivat myös auttaa tunnistamaan haitallista sisältöä ja misinformaatiota, suojella vaalien rehellisyyttä ja hillitä verkossa tapahtuvaa seksuaalista hyväksikäyttöä ja ihmiskauppaa. NLLB-tutkimuksemme mallinnustekniikoita ja -opetuksia sovelletaan nyt myös Wikipedian muokkaajien käyttämissä käännösjärjestelmissä.

Kääntäminen on yksi tekoälyn jännittävimmistä osa-alueista, sillä se vaikuttaa ihmisten päivittäiseen elämään. NLLB on paljon muutakin kuin pelkkä keino tarjota ihmisille parempi pääsy verkossa olevaan sisältöön. Sen avulla ihmiset voivat osallistua tiedon luomiseen ja jakamiseen eri kielten välillä. Meillä on vielä töitä tehtävänä, mutta olemme saaneet lisävirtaa viimeaikaisesta edistyksestä ja siitä, miten se vie meitä lähemmäs Metan tehtävän täyttämistä.

Voit tutustua NLLB-200-demoversioon ja nähdä, kuinka malli voi kääntää tarinoita ympäri maailman ja lukea myös itse tutkimuksen.

Käännöstyökalujen tuonti miljardien uusien käyttäjien ulottuville

Olemme aloittaneet yhteistyön Wikipedia Foundationin kanssa parantaaksemme Wikipedian käännösjärjestelmiä. Wikipedia Foundation on voittoa tavoittelematon järjestö, joka toimii Wikipedian ja muiden maksuttomien tietoprojektien isäntänä. Wikipedia-versioita löytyy yli 300 eri kielellä, mutta useimmilla kielillä saatavilla on paljon vähemmän artikkeleita kuin englannin kielellä, jolla julkaistuja artikkeleita löytyy yli kuusi miljoonaa. Tämä ero on erityisen suuri kielissä, joita puhutaan lähinnä Euroopan ja Pohjois-Amerikan ulkopuolella. Esimerkiksi lingalan kielellä on saatavilla noin 3 260 Wikipedia-artikkelia, vaikka kielen puhujia on Kongon demokraattisessa tasavallassa, Kongon tasavallassa, Keski-Afrikan tasavallassa ja Etelä-Sudanissa yli 45 miljoonaa. Sen sijaan ruotsin kaltaisella kielellä on saatavilla yli 2,5 miljoonaa artikkelia, vaikka ruotsin kielen puhujia on Ruotsissa ja Suomessa 10 miljoonaa.

Wikipedian muokkaajat käyttävät nyt NLLB-200-mallin taustalla olevaa teknologiaa Wikipedia Foundationin Content Translation -työkalun kautta kääntääkseen artikkeleita yli 20:lle aineistoltaan vähäiselle kielelle eli kielelle, jolla ei ole kattavaa tietojoukkoa tekoälyjärjestelmien opettamiseen, ja sisältäen 10 sellaista kieltä, joita ei ole aiemmin tuettu millään alustan käännöstyökalulla.

Haasteet yhden mallin rakentamisessa sadoille kielille

Tekoälymallien kaltaisia konekäännösjärjestelmiä kehitetään datan avulla. Tekstikäännösjärjestelmissä data koostuu yleensä miljoonista lauseista, joita yhdistellään huolellisesti eri kielten välillä. Mutta esimerkiksi englannin ja fulan kaltaisten kielten välillä ei vain yksinkertaisesti ole suurta määrää rinnakkaislauseita. Nykyiset käännösmallit yrittävät kiertää tämän ongelman louhimalla tietoja verkosta. Tulokset ovat kuitenkin usein heikkolaatuisia, sillä jokaisen kielen lähtöteksti on erilainen. Lisäksi teksteissä esiintyy usein runsaasti vääriä tai vaihtelevia kirjoitusasuja, puuttuvia aksenttimerkkejä ja muita diakriittisiä merkkejä.

Toinen merkittävä haaste on yhden mallin optimointi siten, että se toimii sadoilla kielillä ilman, että toimivuus tai käännöslaatu kärsii. Perinteisesti paras käännöslaatu on saatu siten, että jokaisella kielisuunnalla on ollut erillinen malli. Tämän lähestymistavan skaalaaminen on kuitenkin vaikeaa, sillä toimivuus ja käännöslaatu kärsivät sitä mukaa, kun uusia kieliä lisätään.

Osa käännösmallien tuottamista virheistä on vaikea havaita. Nämä järjestelmät on rakennettu tekstinluomiseen käytettävien neuroverkkojen päälle, joten ne voivat luonnollisesti tuottaa hallusinaatioiden kaltaisia virheitä väittäen jonkin asian olevan varmasti totta, vaikka näin ei olisi, tai esittää virheellisiä väitteitä ja vaarallista sisältöä. Yleisesti ottaen aineistoltaan vähäisille kielille on yksinkertaisesti olemassa vähemmän vertailukohteita ja tietojoukkoja, minkä vuoksi mallien testaaminen ja parantaminen on haastavampaa.

Innovaatioita arkkitehtuurin, tietolähteiden, vertailujen ja muiden saralla

Olemme viime vuosina edistyneet tasaisesti yllä mainittujen haasteiden selättämisessä. Vuonna 2020 esittelimme sadan kielen M2M-100-käännösmallimme, joka hyödynsi uusia menetelmiä opetustietojen hankinnassa, uusia arkkitehtuureja mallikokojen skaalaamisessa toimivuuden säilyttävällä tavalla sekä uusia keinoja tulosten arvioinnissa ja parantamisessa. Olemme edistyneet kaikilla näillä alueilla, jotta voisimme skaalata mallin seuraavalle sadalle kielelle.

Opetusresurssien laajentaminen

Jotta voisimme kerätä erittäin tarkkoja rinnakkaistekstejä useammilla kielillä, olemme parannelleet LASER-työkalupakkiamme, jota käytämme Zero-Shot-tiedonsiirtoon luonnollisen kielen käsittelyssä. LSTM-mallin sijaan uusin versio LASER3 käyttää siirtomallia, jota opetetaan itseohjatulla menetelmällä ja jonka tavoitteena on naamioitu kielimalli (eng. Masked Language Modeling, MLM). Tehostimme toimivuutta entisestään käyttämällä opettaja-oppilas-opetusmallia ja luomalla kieliryhmäkohtaisia erityisiä koodereita, joiden avulla pystyimme skaalaamaan LASER3-mallin kielikattavuutta ja tuottamaan valtavia määriä lausepareja jopa aineistoltaan vähäisille kielille. Julkaisemme monikielisen LASER3-upotusmetodin avoimen lähdekoodin resurssina, jotta se olisi myös muiden tutkijoiden saatavilla. Tuomme saataville myös eri kielipareilla miljardeja rinnakkaislauseita, joita olemme louhineet ja siistineet tässä kuvailtujen teknologioiden avulla.

Koska etsimme useamman kielen opetusesimerkkejä laajemmalta alueelta, oli tärkeää, että esimerkkien laatu pysyi korkeana. Uudistimme tietojen siistimisprosessiamme täysin, jotta se voitiin skaalata 200 kielelle, ja lisäsimme merkittäviä suodatusvaiheita, joihin kuului ensin LID-200-mallien käyttäminen tietojen suodattamiseen ja kohinan poistamiseen internetin laajuisista korpuksista suurella luotettavuudella. Kehitimme vahingollisuuslistoja kaikille 200 kielelle ja käytimme niitä mahdollisen hallusinoidun vahingollisuuden arviointiin ja suodattamiseen. Näiden vaiheiden avulla varmistimme, että tietojoukkomme ovat puhtaampia ja vähemmän vahingollisia oikein tunnistetuilla kielillä. Tämä on tärkeää käännöslaadun parantamisen kannalta ja jotta voimme laskea niin sanotun hallusinoidun vahingollisuuden riskiä. Tämä riski tarkoittaa tilannetta, jossa järjestelmä sisällyttää käännösprosessin aikana käännökseen virheellisesti vahingollista sisältöä.

Skaalausmallin koko ja järjestelmän hyvä toimivuus

Monikielisillä käännösjärjestelmillä on kaksi suurta etua. Ne mahdollistavat sen, että samankaltaiset kielet, kuten bengalin kirjaimistolla kirjoitettu assami ja bengali, voivat jakaa tietoja opetuksen aikana. Tämä auttaa edistämään aineistoltaan vähäisten kielten käännöslaatua merkittävästi, kun niitä opetetaan yhdessä samankaltaisten aineistoltaan runsaampien kielten kanssa. Tutkijat voivat myös toistaa, skaalata ja tehdä kokeiluja yksittäisellä monikielisellä mallilla paljon helpommin kuin sadoilla tai jopa tuhansilla kaksikielisillä malleilla.

Mallin laajentaminen 100 kielestä 200 kieleen sisältää kuitenkin myös merkittäviä haasteita. Kun opetustiedoissa on enemmän aineistoltaan vähäisiä kielipareja, monikielinen järjestelmä alkaa ylisovittaa niitä, kun malleja opetetaan pitkiä aikoja. Tartuimme näihin haasteisiin luomalla kolmenlaisia innovaatioita, jotka liittyivät seuraaviin osa-alueisiin: regularisointi ja suunnitelmallinen oppiminen, itseohjattu opetus ja takaisinkäännösten monipuolistaminen.

Ensiksi kehitimme asiantuntijoiden sekoitusta käyttäviä malleja, joilla on jaettu ja erikoistunut kapasiteetti. Näin aineistoltaan vähäiset kielet voidaan reitittää jaettuun kapasiteettiin automaattisesti. Kun tällaisen mallin rinnalla käytetään paremmin suunniteltuja regularisointijärjestelmiä, voidaan ylisovittamiselta välttyä. Seurasimme myös kaksivaiheista suunnitelmallisen oppimisen lähestymistapaa, jossa opetimme ensiksi aineistoltaan runsaita kieliä muutaman vaiheen ajan ennen aineistoltaan vähäisten kieliparien lisäämistä, mikä vähensi ylisovittamista entisestään. Sitten hyödynsimme aineistoltaan vähäisten vertaistekstien vähäisen määrän vuoksi itseohjattua opetusta yksikielisiin tietoihin sekä aineistoltaan vähäisiin että samankaltaisiin runsaampiaineistoisiin kieliin parantaaksemme mallin kokonaistoimivuutta.

Lopuksi analysoimme parhaita keinoja takaisinkäännöstietojen luomiseen ja havaitsimme, että sekoittamalla takaisinkäännöstietoja sekä molemmista kaksikielisistä tilastollisista konekäännöksistä että monikielisistä neuroverkkojen konekäännösmalleista saimme parannettua vähäisen aineiston kielten tuloksia, kun luodut synteettiset tiedot olivat monipuolisempia. 54 miljardia parametria sisältävän NLLB-200-mallin opetuksessa hyödynsimme vastarakennettua Research SuperCluster- eli RSC-supertietokonetta, joka on yksi maailman nopeimmista AI-supertietokoneista.

Arviointi- ja torjuntatyökalut 200 kielelle

Halusimme arvioida ja parantaa NLLB-200-mallia ja rakensimme tästä syystä FLORES-200-järjestelmän. Se on ainutlaatuinen useiden arviointiparien tietojoukko, jonka avulla tutkijat voivat arvioida yli 40 000 eri kielisuunnan toimintaa. Julkaisemme tämän tietojoukon avoimen lähdekoodin resurssina auttaaksemme muita tutkijoita toteuttamaan nopeita testejä ja parannuksia käännösmalleilleen. FLORES-200-tietojoukkoa voidaan käyttää useiden eri sovellusten käännösjärjestelmien arviointiin, esimerkiksi arvioimaan terveyteen liittyviä esitteitä, elokuvia, kirjoja ja verkkosisältöä sellaisissa maissa tai sellaisilla alueilla, jolla puhutaan aineistoltaan vähäisiä kieliä.

200 kielen skaalaus tarkoitti, että oli otettava huomioon riski vahingollisen sisällön luomisesta, minkä hallitseminen monisuuntaisessa käännösjärjestelmässä voi olla vaikeaa. Teimme tämän luomalla kaikille tuetuille kielille vahingollisuuslistoja, joiden avulla voimme tunnistaa ja suodattaa asiatonta kieltä ja muuta mahdollisesti loukkaavaa sisältöä. Julkaisemme jokaisen 200 kielen vahingollisen kielen arviointilistat ja vertailukohteet, jotta voimme tarjota muiden tutkijoiden käyttöön työkalun, jonka avulla he voivat pienentää omien malliensa riskejä.

Haluamme myös varmistaa, että laajennamme pyrkimyksiämme vastuullisesti, ja tästä syystä työskentelemme yhdessä kielentutkijoita, sosiologeja ja eetikkoja sisältävän monitahoisen tutkimustiimin kanssa oppiaksemme lisää käsittelemistämme kielistä.

Tässä kaaviossa esitellään keskimääräiset BLEU-pisteet FLORES-101-käännöksille, jotka on toteutettu englannista sadalle kielelle ja sadasta kielestä englantiin. Vasemmalla on kaksi julkaistua huipputeknologista mallia, M2M ja Delta ML, jotka tukevat sataa eri kieltä. Oikealla olevat mallit tukevat 200:aa kieltä: vertailukohtana Transformer-malli 3,3 miljardilla parametrilla, itseohjautuvan oppimisen vertailumalli (SSL), takaisinkäännösten vertailumalli (BT) ja NLLB-200, laaja eri asiantuntijoiden tiedoista koostuva malli, joka hyödyntää sekä itseohjattua oppimista että takaisinkäännöksiä.

Laajemmat käännökset ja parempi inklusiivisuus

Laadukkaat käännöstyökalut voivat olla muunneltavia. Tosiasia on, että tänä päivänä verkkoa hallitsee kourallinen kieliä, mukaan lukien englanti, mandariinikiina, espanja ja arabia. Näitä erittäin laajasti puhuttuja kieliä äidinkielenään puhuvat henkilöt voivat unohtaa, kuinka tärkeää on saada lukea jotain omalla äidinkielellään. Uskomme, että NLLB auttaa säilyttämään kielet sellaisena kuin ne on tarkoitettu jaettavaksi sen sijaan, että välissä olisi aina käytettävä jotain kolmatta kieltä, joka usein välittää tarkoituksen tai sisällön väärin.

Käännösten lisäksi se voi auttaa myös muissa luonnollisen kielen käsittelyyn liittyvissä tehtävissä. Sen avulla voidaan esimerkiksi luoda avustajia, jotka toimivat hyvin jaavan tai uzbekin kielillä, tai järjestelmiä, joiden avulla Bollywood-elokuviin voidaan lisätä kunnollisia swahilin- tai oromonkielisiä tekstityksiä. Samalla kun metaversumi alkaa löytää muotoaan, mahdollisuus luoda sadoilla tai jopa tuhansilla kielillä hyvin toimivia teknologioita on todellinen apu, kun pääsystä virtuaalimaailmojen uusiin, immersiivisiin kokemuksiin tehdään demokraattista.

Vain muutama vuosi sitten laadukkaat konekäännökset toimivat ainoastaan muutamilla kielillä. NLLB-200-malli tuo meidät entistä lähemmäs järjestelmää, jonka avulla ihmiset voivat kommunikoida kenen kanssa haluavat. Olemme innoissamme asioista, joita tämä malli tuo ulottuvillemme sekä nyt että mahdollisesti tulevaisuudessa, kun jatkamme konekääntämisen rajojen haastamista.

Tämän työn tekemiseen osallistuu Meta AI:n monialainen tiimi, johon kuuluvat Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang ja Al Youngblood.