• Meta AI dia namorona modely AI tokana, NLLB-200, izay voalohany mandika avy/mankany amin’ny fiteny 200 samihafa amin’ny kalitao hiaka farany izay nohamarinina tamin’ny alalan’ny fanombanana midadasika ny tsirairay amin’izy ireo.

  • Namorona valan-data fanombanana vaovao, FLORES-200, sy nandrefy fahombiazan’ny NLLB-200 tamin’ny fiteny tsirairay ihany koa izahay mba hanamafisana fa avo kalitao ireo dikanteny. Mihoatra an’ilay hiaka farany teo aloha araka ny antsalany 44 isan-jato ny NLLB-200.

  • Mampiasa tekinika fanaova-modely sy fianarana avy amin’ilay tetikasa izahay amin’izao mba hanatsarana sy hanitarana an’ireo dikanteny amin’ny Facebook sy Instagram ary Wikipedia.

  • Manome hositrahina malalaka ireo modely NLLB-200, FLORES-200, kaody fiofanan’ny modely ary kaody ho an’ny famoronana indray ny valan-data fiofanana izahay mba hanampiana an’ireo mpikaroka hafa hanatsara ny fitaovana fandikan-tenin’izy ireo sy hanorina araka ny sanganasanay.

Fiteny dia ny kolontsaintsika sy ny fiiziantsika ary ny rohy ifamatorantsika amin’izao tontolo izao. Saingy satria tsy misy fitaovana fandikan-teny avo kalitao ho an’ny fiteny an-jatony, dia olona an-davitrisany ankehitriny no tsy afaka misitraka votoaty nomerika na mandray anjara feno amin’ireo resaka sy ireo fiombonambe an-jotra amin’ireo fiteny aleon’izy ireo na fitenin-drazan’izy ireo. Izany dia marina indrindra ho an’ny olona an-jaton-tapitrisany miteny an’ireo fiteny maro ao Afrika sy Azia.

Nisy zavatra tsy nety
Misy olana tsy ahafahanay mamaky an'ity horonantsary ity.

Mba hanampiana ny olona hifandray tsara kokoa ankehitriny sy ho anisan’ny metaverse rahampitso, ireo mpikaroka Meta AI dia namorona ny Tsisy Fiteny Tavela Afara (NLLB na No Language Left Behind), ezaka iray hamolavolana fahafahan-dikanteny masinina avo kalitao ho an’ny ankamaroan’ny fitenin’izao tontolo izao. Ankehitriny dia manambara fandrosoana mihazakazaka iray amin’ny NLLB izahay: Nanamboatra modely AI tokana antsoina hoe NLLB-200, izay mandika fiteny 200 samihafa amin’ny vokatra hiaka farany, izahay. Ny ankamaroan’ireo fiteny ireo, toy ny Kamba sy Lao, na ireo fitaovana fandikan-teny misy tsara indrindra ankehitriny aza dia tsy mandray an-tanana tsara na akory azy ireo. Vitsy kokoa noho ny fiteny afrikanina 25 no tsy raisin’ireo fitaovana fandikan-teny be mpampiasa amin’izao, ny ankamaroany dia iva kalitao. Mifanohitra amin’izay, ny NLLB-200 dia mandray an-tanana fiteny afrikanina 55 amin’ny vokatra avo kalitao. Amin’ny totaliny, ity modely tokana ity dia afaka manome dikanteny avo kalitao ho an’ireo fiteny tenenin’ny olona an-tapitrisany maneran-tany. Amin’ny totaliny, ny naoty BLEU an’ny NLLB-200 dia manatsara ny hiaka farany teo aloha amin’ny antsalany 44 isan-jato avy/mankany amin’ireo todika 10.000 rehetra amin’ny fangitra fampitahana FLORES-101. Ho an’ireo fiteny afrikanina sy indianina sasany, ny fitomboana dia lehibe kokoa noho ny 70 isan-jato ambonin’ireo rafi-dikanteny vao tsy ela.

Manome hositrahina malalaka ny modely NLLB-200 sy mamoaka andiana fitaovana fikarohana izahay amin’izao mba hahafahan’ireo mpikaroka hafa manitatra an’ity sanganasa ity amin’ny fiteny bebe kokoa sy manamboatra haitao mampiaty kokoa. Manolotra hatramin’ny $200.000 toa vatsy ho an’ireo fikambanana tsy itadiavam-bola ho an’ireo fampiharana ny NLLB-200 amin’ny tontolo tena izy ihany koa ny Meta AI.

Ireo fandrosoam-pikarohana avy amin’ny NLLB dia handray an-tanana dikanteny 25 lavitrisa mahery aroso isan’andro amin’ny Akom-baovao Facebook, amin’ny Instagram sy amin’ireo vovonana hafa. Alaivo sary an-tsaina hoe mitsidika vondrona Facebook ankafizina iray sy tojo petandrindra iray amin’ny fiteny Igbo na Luganda ary afaka mahazo ny dikan’io amin’ny fiteninao amin’ny alalan’ny tsindry bokotra iray monja ianao. Ireo dikanteny manana taham-pahamarinana ambony amin’ny fiteny bebe kokoa dia mety hahafahana ihany koa mahatsikaritra votoaty manimba sy torohay diso, miaro ny maha iray tsy anombinana ny fifidianana ary mampitsahatra an’ireo fisiana fanodinkodinana ara-nofo sy varotra olona an-jotra. Ampiharina amin’ireo rafi-dikanteny ampiasain’ireo mpanitsy votoaty Wikipedia koa ireo tekinika fanaova-modely sy fianarana avy amin’ny fikarohanay momba ny NLLB.

Ny dikanteny dia iray amin’ireo sehatra mampibitabitaka indrindra amin’ny AI noho ny fiantraikany amin’ny fiainan’ny olona andavanandro. NLLB dia lehibe lavitra noho ny manome ny olona fisitrahana tsara kokoa ny votoaty amin’ny aterineto. Noho io dia ho mora kokoa amin’ny olona ny mandrotsaka sy mizara torohay avy/mankany amin’ireo fiteny maro. Mbola be ny asa miandry anay, saingy mahazo angovo amin’ny fandrosoana vao tsy ela sy ny fomba ampihetsehan’io anay hanakaiky kokoa ny fanatanterahana ny irak’i Meta izahay.

Afaka mijerijery demo NLLB-200 iray eto ianao, mampiseho ny fomba ahafahan’ilay modely mandika tantara manerana an’izao tontolo izao sy mamaky ny taratasim-pikarohana eto ianao.

Famohana fitaovana fandikan-teny ho an’ny olona an-davitrisany fanampiny

Miray ombon’antoka amin’ny fikambanana tsy itadiavam-bola Wikimedia Foundation izay mampiantrano ny Wikipedia sy ireo tetikasam-pahalalana maimaimpoana hafa izahay hanatsarana an’ireo rafi-dikanteny amin’ny Wikipedia. Ireo dia kinovan’ny Wikipedia amin’ny fiteny 300 mahery, saingy ny ankamaroany dia misy lahatsoratra vitsy lavitra noho ireo 6+ tapitrisa misy amin’ny fiteny Anglisy. Ity fahasamihafana ity dia lehibe manokana ho an’ireo fiteny tenenina lohalaharana ivelan’i Eoropa sy Amerika Avaratra. Ohatra, misy lahatsoratra Wikipedia manodidina ny 3.260 amin’ny Lingala, fiteny iray tenenin’ny olona 45 tapitrisa ao amin’ny Repoblika Demokratikan’i Congo, Repoblikan’i Congo, Repoblika Santrafikanina ary Sodàna Atsimo. Raha mitaha amin’ny fiteny iray toy ny Soedoà, izay misy mpiteny 10 tapitrisa ao Soedy sy Finlandy ary lahatsoratra 2,5 tapitrisa mahery.

Mampiasa an’ilay haitao ambadiky ny NLLB-200 amin’izao ireo mpanitsy votoaty Wikipedia, amin’ny alalan’ny Fitaovana Fandikan-tenin’ny Votoaty an’ny Wikimedia Foundation, handikana lahatsoratra amin’ny fiteny kely enti-manana 20 mahery (ireo izay tsy manana valan-data midadasika hanofanana an’ireo rafitra AI), anisan’izany ny 10 izay tsy noraisin’ireo fitaovana fandikan-teny tsy ankanavaka tamin’ny vovonana an-tanana teo aloha.

Ireo fanambin’ny fanamboarana modely tokana ho an’ny fiteny an-jatony

Ofanina amin’ny data ireo rafi-dikanteny masinina, toy ny modely AI rehetra. Ho an’ireo rafi-dikanteny lahatsoratra, ny mandrafitra an’io mazàna dia fehezanteny an-tapitrisany ampifanandrifiana am-pitandremana avy/mankany amin’ireo fiteny. Saingy tsy be fotsiny ny hadirin’ny fehezanteny mirazotra avy/mankany amin’ny, andao atao hoe Anglisy sy Fula. Manandrana mandresy an’io amin’ny alalan’ny fitrandrahana data avy amin’ny aterineto ireo modelin-dikanteny amin’izao. Saingy matetika ratsy kalitao ny vokany, satria samy hafa ny lahatsoratra loharano (adika) ho an’ny tsirairay amin’ireo fiteny. Fanampin’izay, feno tsipelina diso na tsy mifanjohy ary tsy ampy mariky ny tsindrim-peo sy mariky ny rambokely hafa io matetika.

Fanamby lehibe iray hafa ny fanamboniana modely tokana iray hiasa avy/mankany amin’ny fiteny an-jatony tsy manimba ny fahombiazana na ny kalitaon-dikanteny. Raha ny mahazatra, ny nahazoana kalitaon-dikanteny tsara indrindra dia noho ny fananana modely mitokana ho an’ny todika fiteny tsirairay. Saingy sarotra ny mampitombo an’ity fanatomorana ity, satria arakaraka ny anampiana fiteny bebe kokoa no maharatsy kokoa ny fahombiazana sy ny kalitaon-dikanteny.

Mamokatra fahadisoana sarotra tsikaritra ihany koa ireo modelin-dikanteny. Ireo rafitra ireo dia amboarina amin’ireo tambajotra ara-neraona ampiasaina ho an’ny taranaka manaraka, ka ireo dia afaka mamokatra fahadisoana amin’ny fomba voajanahary toy ny fahitan-diso (manambara am-pitokisana fa marina ny zavatra iray na tsy dia tsy izany aza), fanambaran-diso ary votoaty tsy azo antoka. Amin’ny ankapobeny, vitsy kokoa fotsiny ny fanitra fampitahana sy vala-data ho an’ireo fiteny kely enti-manana, izay no mahasarotra bebe kokoa ny fitsapana sy ny fanatsarana an’ireo modely.

Famoronana zava-baovao amin’ny hairafitra, fantsakana data, famangitana fampitahana sy maro hafa koa

Tato anatin’ny taona maro, nahavita fandrosoana mitontohitra izahay nandresena an’ireo fanamby voasoritsoritra eo ambony. Tamin’ny 2020, nanambara izahay fa misy modelin-dikanteny M2M-100 misy fiteny 100 anay, izay nitrandraka fomba vaovao hahazoana data fiofanana, hairafitra vaovao hampitomboana ny haben’ny modely tsy manimba fahombiazana, sy fomba vaovao hanombanana sy hanatsarana ny vokany. Mba hampitomboana ho fiteny 100 hafa, dia nanao fandrosoana bebe kokoa tamin’ireo sehatra telo rehetra ireo izahay.

Loharano fiofanana nitarina

Mba hanangonana lahatsoratra mirazotra manana taham-pahamarinana ambony, izahay dia nanatsara ny LASER, ilay torosinay ho an’ny famindrana “zero-shot” amin’ny fikirakirana fiteny voajanahary (TALN). Toy izay LSTM, ilay kinova vaovao, ny LASER3, dia mampiasa modely Transformer iray izay ofanina amin’ny fomba manara-maso tena amin’ny alalan’ny tanjona fanaova-modely fiteny takonana. Niboost bebe kokoa ny fahombiazana izahay nampiasa firoso fiofanana mpampianatra-mpianatra sy namorona mpikaody voatondro ho ana vondrom-piteny, izay nahafahanay nampitombo ny rako-pitenin’ny LASER3 sy namokatra kalitaona tsiroaroam-pehezanteny be dia be, na dia ho an’ireo fiteny kely enti-manana aza. Manome hositrahina malalaka ny fomba fanatsofohana marofiteny LASER3 izahay mba hahafahan’ireo mpikaroka hafa misitraka azy, ary mamoaka ihany koa ny fehezanteny mirazotra an-tapitrisany amin’ny tsiroaroam-piteny isan-karazany, izay notrandrahina sy nodiovina tamin’ny alalan’ireo tekinika voatsoritsoritra eto, izahay.

Satria nanipy harato midadasika kokoa izahay rehefa mamoaka ohatra fiofanana amin’ny fiteny bebe kokoa, dia zava-dehibe ny fahazoana antoka fa mijanona ho avo ny kalitaon’ireo ohatra. Nanavao tanteraka ny fantsombe fandiovan-datanay hitombo ho fiteny 200 izahay, nanampy dingana fanasivanana lehibe izay voalohany nisy fampiasana an’ireo modely LID-200nay hanasivanana data sy hanalana tabataba avy amin’ny corpus ara-maridrefin’ny aterineto manana ambatatongam-pitokisana ambony. Namolavola lisitry ny fanapoizinana ho an’ilay valam-piteny 200 manontolo izahay, avy eo nampiasa an’ireo lisitra ireo hanombanana sy hanasivanana ny mety ho fanapoizinana araka ny fahitan-diso izahay. Ireo dingana ireo dia nahazoana antoka fa manana valan-data madio kokoa sy kely poizina kokoa misy fiteny fantatra marina izahay. Zava-dehibe io mba hanatsarana ny kalitaon’ny dikanteny sy hampihenana ny kinanga mety hisian’ilay fantatra amin’ny fiantsoana hoe fanapoizinana araka ny fahitan-diso, rehefa mampiditra am-pahadisoana votoaty manapoizina mandritra ny firoso fandikan-teny ilay rafitra.

Mampitombo ny haben’ny modely no sady mitana taham-pahombiazana ambony

Manolotra tombontsoa lehibe roa ireo rafi-dikanteny marofiteny. Izy ireo dia mamelona fiteny mitovy, toy ny Assamey sy Bengali, izay samy soratana amin’ny marik’abidia Bengali, mba hifampizarana data mandritra ny fiofanana. Izany dia ahafahana manatsara be dia be ny kalitaon’ny dikanteny ho an’ireo fiteny kely enti-manana rehefa ofanina miaraka amin’ireo fiteny be enti-manana mitovy aminy izy ireo. Ary koa, ireo mpikaroka dia afaka mamerimberina, mampitombo sy manandrana amin’ny modely marofiteny tokana amin’ny fomba mora lavitra noho ny modely roafiteny hafa an-jatony na arivony mihitsy aza.

Saingy mbola misy fanamby manan-danja rehefa manitatra modely iray avy amin’ny fiteny 100 ho 200. Amin’ireo tsiroaroam-piteny kely enti-manana kokoa ao amin’ny data fiofanana, manomboka manitsy tena tafahoatra ireo rafitra marofiteny rehefa manofana an’ireo modely mandritra ny vanim-potoana lava kokoa izahay. Namaha an’ireo olana ireo tamin’ny alalan’ny fanavaozana tamin’ny atrika telo izahay: fampanaraham-pitsipika sy fianarana ara-pandaharana, fianarana arahin-tena maso ary verin-dikanteny manasamihafa.

Voalohany, namolavola tambajotra ifangaroana manam-pahaizana izay manana fahafahana itambarana sy voatokana ho ana lohahevitra izahay, amin’izay azo avily amin’ny fomba mandeha ho azy any amin’ilay fahafahana itambarana ireo fiteny kely enti-manana. Io, mitambatra amin’ireo rafitra fampanaraham-pitsipika tsara voatra kokoa, dia misoroka ny fanitsian-tena tafahoatra. Nanaraka fanatomorana fianarana ara-pandaharana roa dingana iray ihany koa izahay, ka nanofana an’ireo fiteny be enti-manana ho an’ny vaninandro vitsivitsy aloha izahay, izay vao nampiditra tsiroaroam-piteny kely enti-manana, izay nampihena indray ny olan’ny fanitsian-tena tafahoatra. Avy eo, noho ny kalitao ivan’ny data roalahatsoratra mirazotra ho an’ireo fiteny kely enti-manana, dia nitrandraka fianarana arahin-tena maso amin’ny data tokam-piteny izahay ho an’ireo fiteny kely enti-manana sy ireo be enti-manana mitovy amin’izy ireo mba hanatsarana ny fahombiazan’ny modely amin’ny ankapobeny.

Farany, namakafaka ny fomba tsara indrindra hamokarana datan’ny verin-dikanteny izahay ary nahita fa ny fampifangaroana data voadika miverina novokarina avy amin’ny modelin-dikanteny masinina ara-antontanisa roafiteny no sady avy amin’ny modelin-dikanteny masinina ara-neraona marofiteny dia nahafahana nanatsara ny fahombiazan’ireo fiteny kely enti-manana noho ny fitomboan’ny hamarokarazan’ny data sentetika vokarina. Mba hanofanana an’ilay modely NLLB-200, izay manana parametatra 54B, izahay dia nitrandraka an’ilay Research SuperCluster (RSC) vao namboarinay, izay anisan’ireo super-solosaina AI haingana indrindra eto amin’izao tontolo izao.

Fitaovana fanombanana sy fanalefahana ho an’ny fiteny 200

Mba hanombanana sy hanatsarana ny NLLB-200, izahay dia namorona ny FLORES-200, valan-data fanombanana maro-mankamin’ny-maro tsy manam-paharoa iray izay ahafahan’ireo mpikaroka manombana fahombiazana amin’ny todika fiteny samihafa 40.000. Manome hositrahina malalaka ity valan-data vaovao ity izahay mba hanampiana an’ireo mpikaroka hafa hitsapa sy hanatsara haingana ireo modelin-dikantenin’izy ireo. FLORES-200 dia azo ampiasaina hanombanana an’ireo rafi-dikanteny ho ana fampiharana maro samihafa, anisan’izany ireo bokikelim-pahasalamana, sarimihetsika, boky ary votoaty an-jotra ao amin’ireo firenena na faritra itenenana fiteny kely enti-manana maro an’isa.

Ny mampitombo ho fiteny 200 dia nidika hoe manatomotra an’ireo kinanga mety hamokarana votoaty manapoizina, izay mety ho sarotra tantanana ao anatina rafi-dikanteny marotodika iray. Nanao an’io izahay tamin’ny alalan’ny fanamboarana lisitry ny fanapoizinana ho an’ireo fiteny raisina an-tanana rehetra mba hahafahana mahatsikaritra sy manasivana ompa sy votoaty hafa mety hanafintohina. Mamoaka an’ireo lisitra fanombanana fanapoizinana sy ireo fangitra fampitahana ho an’ny fiteny 200 rehetra izahay mba hanomezana an’ireo mpikaroka hafa ireo fitaovana hampihenana kinanga anatin’ireo modelin’izy ireo.

Ary mba hahazoana antoka fa manitatra ny ezakay amin’ny fomba mandray andraikitra izahay, dia miara-miasa amina ekipa marotaranja iray izay ahitana mpahay fiteny sy mpahay fiarahamonina ary mpahay foko izahay mba hamantarana bebe kokoa momba ny tsirairay amin’ireo fiteny dinihinay.

Ity fanehoana an-tsary ity dia mampiseho ny naoty BLEU antsalany amin’ireo dikanteny FLORES-101 mankany sy avy amin’ny Anglisy mankany amin’ny fiteny 100. Eo ankavia misy modely hiaka farany navoaka anankiroa, M2M sy Delta LM, izay mandray an-tanana fiteny 100. Ireo modely eo ankavanana dia mandray an-tanana fiteny 200: Modely Transformer fototra iray misy parametatra 3.3B, ilay modely fototra misy fianarana arahin-tena maso (SSL), ilay modely fototra misy verin-dikanteny (BT) ary NLLB-200, modely lehibe iray mifototra amin’ny fifangaroana manam-pahaizana izay sady mitrandraka fianarana arahin-tena maso no mitrandraka verin-dikanteny.

Dikanteny nitarina sy fampiatiana bebe kokoa

Mety ho manova ireo fitaovana fandikan-teny avo kalitao. Ny zava-misy ankehitriny dia fiteny vitsy an’isa, anisan’izany ny Anglisy, Mandarin, Espaniola ary Arabo, no manjaka amin’ny aterineto. Ny zanatany mpiteny an’ireo fiteny tena be mpampiasa ireo dia mety tsy hahatsikaritra ny lanjan’izany hoe mamaky zavatra amin’ny tenin-dreninao ianao. Mino izahay fa hanampy amin’ny fikajiana fiteny ny NLLB satria natao hozaraina io fa tsy natao haka fiteny mpanelanelana iray izay matetika mandiso ny fihetseham-po/votoaty.

Mety hahafahana mampandroso an’ireo lahasa TALN hafa, ankoatra ny dikanteny, ihany koa io. Mety ho anisan’izany ny fanamboarana mpanampy izay mety tsara amin’ireo fiteny toy ny Javaney sy Ozbek na ny famoronana rafitra haka sarimihetsika Bollywood sy hanampy zana-lohateny (sous-titre) amin’ny fiteny Swahili na Oromo. Rehefa manomboka maka endrika ny metaverse, ny fahafahana manamboatra haitao mety tsara amin’ny fiteny an-jatony na an’arivony mihitsy aza dia hanampy marina amin’ny fanalalahana ny fisitrahana traikefa vaovao sy manatsoboka anatin’ny tontolo virtoaly ho an’ny olon-drehetra.

Taona vitsy monja izay, ny dikanteny masinina avo kalitao dia niasa tamin’ny fiteny vitsy an’isa fotsiny. Miaraka amin’ny NLLB-200, manakaiky kokoa ny hanana indray andro any rafitra ahafahan’ny olona mifanerasera amin’izay rehetra safidiny isika. Mampibitabitaka anay ny avoakan’io amin’izao fotoana sy ny mety ho dikany amin’ny ho avy raha tohizanay hatrany ny fanosehana ny sisintanin’ny dikanteny masinina.

Ity sanganasa ity dia tontosaina ekipa marotaranja iray ao amin’ny Meta AI izay ahitana Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang ary Al Youngblood.