• AI Meta wis mbangun model AI tunggal, NLLB-200, dadi sing wiwitan nerjemahake 200 basa sing beda kanthi kualitas paling canggih sing divalisasi liwat evaluasi ekstensif kanggo saben basa.

  • Kita uga wis nggawe set data evaluasi anyar, FlORES-200, lan performa NLLB-200 sing diukur ing saben basa kanggo ngonfirmasi yen kualitas terjemahane apik. NLLB-200 ngluwihi sing paling canggih sadurunge yaiku rata-rata 44 persen.

  • Kita saiki nggunakake teknik pemodelan lan pembelajaran saka proyek kanggo ningkatake lan njembarake terjemahan ing Facebook, Instagram, lan Wikipedia.

  • Kita mbukak sumber model NLLB-200, FLORES-200, kode pelatihan model, lan kode kanggo nggawe maneh set data pelatihan supya bisa mbantu peneliti liyane ningkatake alat terjemahanee lan ngembangake karya kita.

Basa minangka budaya, idhentitas, lan garis urip kita ing pandhangane ndonya. Ananging, amarga alat terjemahan kualitas apik ora kasedhiya kanggo atusan basa, miliaran wong saiki ora bisa ngakses konten digital utawa bener-bener partisipasi ing pacelathon lan komunitas online ing basa sing dikarepake utawa basa asline dheweke. Iki kedadeyan utamane kanggo atusan saka mayuta-yuta wing sing ngucapake akeh basa Afrika lan Asia.

Ana Masalah
Facebook kangelan muter video iki.

Kanggo mbantu wong-wong dina iki nyambung luwih raket lan dadi bagean saka metaverse dina mbesuk, peneliti AI Meta nggawe Aja Nganti Ana Basa sing Ketinggalan (NLLB), upaya kanggo ngembangake kemampuan terjemahan mesin kualitas apik kanggo meh kabeh basa ing ndonya. Dina iki, kita wara-wara babagan terobosan penting ing NLLB: Kita mbangun model AI tunggal sing arane NLLB-200, sing nerjemahake 200 macem basa kanthi asil paling canggih. Akeh saka basa iki, kayata Kamba lan Lao, sing ora didhukung kanthi apik utawa babar pisan senajan dening alat terjemahan paling apik sing ana saiki. Kurang saka 25 basa Afrika saiki didhukung dening alat terjemahan sing asring digunakake — akeh sing kualitase ala. Sewalike, NLLB-200 dhukung 55 basa Afrika kanthi asil sing kualitase dhuwur. Kanthi total, model tunggal iki bisa nyedhiyakake terjemahan kualitas dhuwur kanggo basa sing diucapake dening miliaran wong sing saindhenging ndonya. Ing total, skor BLEU NLLB-200 mundhak saka sing paling canggih sadurunge yaiku rata-rata 44 persen ing kabeh 10 ewu arahan patokan FLORES-101. Kanggo sawetara basa Afrika lan India, mundhake luwih 70 persen saka sistem terjemahan saiki.

Kita saiki mbukak sumber model NLLB-200 lan nerbitake akeh alat panliten kanggo ngidini peneliti liyane kanggo njembarake penggawean kanggo luwih akeh basa lan mbangun teknologi sing luwih inklusif. AI Meta uga menehi sumbangan nganti $200.000 menyang organisasi nirlaba kanggo aplikasi ndonya nyata kanggo NLLB-200.

Kemajuan panliten saka NLLB bakal ndhukung luwih saka 25 miliar terjemahan sing disedhiyakek saben dina ing Kabar Beranda Facebook, Instagram, lan platform liyane. Bayangake mbukak grup Facebook favorit, nemokake posting ing basa lgbo utawa Luganda, lan bisa mangerteni postingan kasebut ing basa sampeyan dhewe kanthi tombol klik sepisan. Terjemahan sing akurat banget ing luwih akeh basa bisa mbantu nemokake konten mbebayani lan salah informasi, nglindhungi integritas pemilu, lan mbatesi conto eksplotasi seksual online lan perdagangan manungsa. Teknik pemodelan lan pembelajaran saka panliten NLLB saiki uga diterapake tumrap sistem terjemahan sing digunakake sistem Wikipedia.

Terjemahan minangka widang sing paling narik kawigaten amarga dampake ing uripe wong saben dina. NLLB luwih saka mung menehi wong-wong akses luwih lancar menyang konton ing web. Iki bakal nggampangake wong kanggo kontribusi lan ngandumake informasi lintas basa. Kita nduwe luwih akeh penggawean ing ngarep, ananging kita rumangsa semangat karo kemajuan kita dina-dina iki lan saya nyedhekake kita ing netepi misi Meta.

Sampeyan bisa njlajahi demo NLLB-200 ing kene, nuduhake kepiye model bisa nerjemahake crita saka sindhenging ndonya, lan maca makalah panliten ing kene.

Mbukak kunci alat terjemahan kanggo miliaran wong maneh

Kita kerja bareng karo Wikimedia Foundation, organisasi nirlaba sing nyelenggarakake proyek Wikipedia lan pengetahuan gratis liyane, kanggo mbantu ningkatake sistem terjemahan ing Wikipedia. Ana versi Wikipedia ing lebih saka 300 basa, ananginging meh kabeh nduweni artikel adoh luwih sethithik saka 6+ yuta sing kasedhiya ing basa Inggris. Kesenjangan iki gedhe banget kanggo basa ing utamane diucapake ing njabane Eropa lan Amerika Utara. Conto, ana kira-kira 3.260 artikel Wikipedi ing Lingala, basa ing diucapake dening 45 yuta wong ing Republik Demokrasi Kongo, Republik Kongo, Republik Afrika Tengah, lan Sudan Selatan. Bandhingake karo basa kaya basa Swedia sing nduwe 10 yuta panutur ing Swedia lan Finlandia lan luwih saka 2,5 yuta artikel.

Editor Wikipedia saiki nggunakake teknologi ing mburine NLLB-200, liwat Alat Terjemahan Konten Wikimedia Fundation, kanggo nerjemahake artikel ing luwih saka 20 basa sumber saya asor (basa sing ora nduwe set data ekstensif kanggo nglatih sistem AI), kalebu 10 basa sing sadurunge ora didhukung dening alat terjemahan mesin apa ing platform kasebut.

Tantangan mbangun model tunggal kanggo atusan basa

Sistem terjemahan mesin, kayata kabeh model AI, dilatih ing data. Kanggo sistem terjemahan teks, ini biasane ndhaptarake mayuta-yuta ukara sing kanthi ati-ati dicocogake ing antarane akeh basa. Ananging ora ana jumlah gedhe ukara paralel ing lintas, umpamane, Inggris lan Fula. Model terjemahan sing saiki nyoba ngatasi iki kanthi nambang data saka web. Ananging, kualitas asile asring ala amarga teks sumber beda-beda kanggo saben basa. Saliyane iku, asring kebak ejaan sing ora bener utawa ora konsisten sarta ora ana tandha aksen lan tandha diakritik liyane.

Tantangan gedhe liyane yaiku ngoptimalake model tunggal supaya bisa fungsi ing lintas atusan basa tanpa ngurbanake kinerja lan kualitas terjemahan. Sacara tradisional, kualitas terjemahan paling apik diasilake saka model kapisah kanggo saben arah basa. Ananging angel kanggo nemtokake skala pendekatan iki, amarga kinerja lan kualitas terjemahan mudhun sebab ditambahi luwih akeh basa maneh.

Model terjemahan uga ngasilake kesalahan sing bisa uga angel ditangkep. Sistem iki dibangun ing jaringan netral sing digunakake kanggo ngasilake teks, dadi sistem bisa kanthi natural ngasilake kesalahan kayata halusinasi (kanthi yakin nyatakake perkara minangka bener ananging nyatane salah), salah pranyatan, lan konten sing ora aman. Umum, mung ana luwih sethithik patokan lan set data kanggo basa sumber daya asor, sing ndadekake luwih nemen angele kanggo nguji lan ningkatake model.

Nyitakake inovasi ing arsitektur, sumber data, lan patokan, lan liya-liyane

Ing taun-taun pungkasan, kita wis nggawe progres sing stabil kanggo ngatasi tantangan sing diterangake ing ndhuwur. Ing 2020, kita wara-wara model terjemahan M2M-100 100 basa, sing nggunakake metodhe anyar supaya enthuk data pelatihan, arsitektur anyar kanggo nemtokake skala ukuran model tanpa ngurbanake kinerja, lan cara anyar kanggo ngevaluasi lan ningkatake asile. Kanggo nemtokake skala ing 100 basa liyane, kita wis nggawe kemajuan luwih adoh ing kabeh telung widang iki.

Njembarake sumber pelatihan

Kanggo nglumpukake teks paralel sing akurat banget, kita ningkatake LASER, alat kanggo transfer zero-shot ing pamrosesan basa naturan (NLP). Tinimbang LSTM, LASER3 versi anyar, nggunakake model Transformer sing dilatih nganggo cara sing diawasi dhewe kanthi tujuan pemodelan basa sing ditutupi. Kita sabanjure ningkatake kinerja kanthi nggunakake prosedur pelatihan guru-murid lan nggawe enkoder khusus grup basa, sing ngidini kita nemtokake skala cakupan basa LASER3 lan ngasilake jumlah gedhe pasangan ukura, senajan kanggo basa sumber daya asor. Kita mbukak sumber metodhe penyematan multibasa LASER3 kanggo disedhiyakake kanggo peneliti liyane, lan kita uga nyedhiyakake miliaran ukara paralel ing pasangan basa sing beda, sing wis ditambang lan diresiki nggunakake teknik sing diterangake ing kene.

Amarga kita nggunakake net sing luwih amba nalika nglatih conto ing luwih akeh basa, penting kanggo mesthekake kualitas conto supaya tetep dhuwur. Kita bener-bener ngrombak alur ngesiki kanggo nemtokake skala 200 basa, nambahake langkah penyaringan utama sing ngatutake model LID-200 dhisik kanggo nyaring data lan mbusak brebeg saka korpora skala internet kanthi keyakinan sing mantep. Kita ngembangake dhaptar toksisitas kanggo set basa 200 sing jangkep, lan nggunakake dhaptar kasebut kanggo ngakses lan nyaring toksisitas halusinasi. Langkah-langkah iki kanggo mesthekake yen kita nduwe pangresik lan set data sing luwih ora toksik kanthi basa sing diidhentifikasi sing bener. Iki penting kanggo ningkatake kualitas terjemahan lan nyuda risiko apa sing diarane toksisitas halusinasi, sing sismtem kanthi kliru nglebokake konten sing toksik sasuwene proses terjemahan.

Nemtokake ukuran model nalika njaga kinerja sing apik

Sistem terjemahan multibasa nawakake rong manfaat utama. Kanggo ngidini basa sing memper — kayata basa Assam lan Bengali, sing kalorone ditulis ing skrip Bengali — kanggo ngandumake data sasuwene pelatihan. Iki mbantu ningkatake kualitas terjemahan kanthi signifikan kanggo basa sumber daya asor nalika dilatih bebarengan karo basa sumber daya asor sing memper. Saliyane iku, panliten bisa mbolan-mbaleni, nemtokake skala, lan nyoba model multibasa tunggal kanthi adoh luwih gampang tinimbang utawa senajan atusan model multibasa sing beda-beda.

Ananging isih ana tantangan gedhe nalika njembarake model saka 100 dadi 200 basa. Kanthi luwih akeh pasangan sumber daya luwih asor ing data pelatihan, sistem multibasa wiwit ngimbangi nalika kita nglatih model kanggo wektu sing luwih suwe. Kita ngatasi masalah iki kanthi nggawe inovasi ing telung widang: regulasi lan pembelajaran kurikulum, pembelajaran sing diawasi dhewe, lan diverifikasi terjemahan balik.

Sepisan, kita ngembangake jaringan mixture-of-experts sing nduwe kapasitas bebarengan lan khusus supaya basa sumber daya asor tanpa akeh data bisa kanthi otomatis dirute menyang kapasitas bebarengan. Iki, dikomunikasi karo sistem regulisasi sing luwih apik, ngindhari overfitting. Kita uga ngetutake pendekatan pembelajaran kurikulum rong langkah, nalika kita wiwitan nglatih basa sumber daya dhuwur kanggo sawetara mangsa, sadurunge ngenalake pasangan basa sumber daya asor, wis nyuda masalah overfitting maneh. Banjur, ngeling-eling kuantitas data biteks paralel kanggo basa sumber daya asor, kita nggunakake pembelajaran mandiri ing data basa tunggal kanggo basa sumber daya asor lan sumber daya dhuwur sing memper kanggo ningkatake sekabehane kinerja model.

Pungkasane, kita nganalisis cara paling apik ngasilake data terjemahan balik lan nemokake data terjemahan balik campuran sing diasilake saka model terjemahan mesin statistik dwibasa lan terjemahan mesin netral multibasa mbantu ningkatake kinerja kanggo basa sumber daya asor amarga ningkate macem-macem data sintetis sing diasilake. Kanggo nglatih model NLLB-200, sing nduwe parameter 54B, kita nggunakake Panliten SuperCluster (RSC) sing lagi wae dibangun, salah siji superkomputer paling cepet ing ndonya.

Alat evaluasi lan mitigasi kanggo 200 basa

Kanggo ngevaluasi lan ningkatake NLLB-200, kita mbangun FLORES-200, set data evaluasi akeh-menyang-akeh unik sing ngidini peneliti mbiji kinerja ing 40.000 arahan basa sing beda-beda. Kita mbukak sumber set data anyar iki kanggo mbantu peneliti liyane supaya bisa nguji lan ningkatake model terjemahan dheweke kanthi cepet. FLORES-200 bisa digunakake kanggo ngevaluasi sistem terjemahan kanggo jangkoan aplikasi sing amba, kalebu pamflet kesehatan, film, buku, lan konten sajrone negara utawa wilayah sing sajumlah basa sumber daya asor digunakake.

Nemtokake 200 basa ateges ngatasi risiko ngasilake konten toksik, sing bisa dadi angel diatur sajrone sistem terjemahan akeh arah. Kita nindakake iki kanthi mbangun dhaptar toksisitas kanggo kabeh basa didhukung supaya mungkin kanggo ndheteksi lan nyaring basa kasar lan konten sing pontensi nyinggung liyane. Kita nuduhake dhaptar evaluasi toksisitas lan patokan kanggo kabeh 200 basa kanggo menehi peneliti liyane alat kanggo nyuda risiko ing modele dheweke.

Lan kanggo mesthekake yen kita njembarake upaya kita kanthi cara sing tanggung jawab, kita kerja karo tim interdisipliner sing ngatutake ahli basa, ahli sosiologi, lan ahli etika kanggo nyinaoni luwih jangkep babagan saben basa sing kita pratimbangake.

Grafik iki nuduhake skor BLEU rata-rata ing terjemahan FLORES-101 menyang lan saka Inggris menyang 100 basa. Ing sisih kiwa, ana rong model paling canggih sing diterbitake, M2M lan Delta LM, sing ndhukung 100 basa. Model ing sisih tengen ndhukung 200 basa: Model Transformer dasar kanthi parameter 3.3B, model dasar kanthi pembelajaran sing diawasi dhewe (SSL), model dasar kanthi terjemahan balik (BT), lan NLLB-200, model dhasar mix mixture-of-experts gedhe sing nggunakake pembelajaran sing diawasi dhewe lan terjemahan balik.

Terjemahan sing dijembarake lan inklusi sing luwih apik

Alat terjemahan kualitas dhuwur bisa transformatif. Nyatane dina iki ing sawetara basa — kalebu Inggris, Mandarin, Spanyol, lan Arab — nguasai web. Panutur asli saka basa sing paling akeh digunakake iki menawa lali nemen petinge maca samubarang ing basa ibu sampeyan dhewe. Kita yakin NLLB bakal mbantu nguri-uri minangka sing dimaksudake kanggo diandumake tinimbang tansah mbutuhake basa perantar sing asring nyebabake sentimen/salah konten.

Iki uga bisa mbantu ningkatak tugas NLP liyane, ing njabane terjemahan. Iki bisa kalbu mbangun asisten sing fungsi kanthi lancar ing basa kayata Jawa lan Uzbekistan utawa nggawe sistem kanggo nggunakake film Bolywood lan nambahake teks sing akurat ing basa Swahili utawa Oromo. Nalika metaverse mulai dibentuk, kemampuan kanggo mbangun teknologi sing fungsi kanthi lancar ing atusan utawa ewonan basa bakal bener-bener mbantu nindakake demokratisasi akses menyang pengalaman imersif sing anyar ing ndonya virtual.

Sewetara taun kepungkur, terjemahan mesin kualitas dhuwur mung fungsi ing sawetara basa. Kanthi NLLB-200, kita saya cedhak karo sawijining dina duwe sistem sing ngidini wong bisa komunikasi karo sapa wae sing dipilih. Kita bungah banget babagan apa sing dibukak saiki lan apa tegese kanggo dina mbesuk nalika kita terus nyurung wates terjemahan mesin.

This work is being undertaken by a multidisciplinary team at Meta AI that includes Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang, lan Al Youngblood.