• Meta ya ƙirƙiri samfurin AI daya, NLLB-200, wanda shi ne na farko da za ta yi aikin fassara tsakanin harsuna daban-daban har guda 200 tare da inganci na kai tsaye da aka riga aka tantance ta hanyar cikakken gwajin kowanne daga cikinsu.

  • Haka kuma mun kirki wani sabon bayanai na gwaji, FLORES-200, da gwajin ƙwazon NLLB-200 a kowanne harshe don a tabbatar da cewa fassarar tana da matuƙar inganci. NLLB-200 ya zarta yanayin na farko na fasahar d adadin kashi 44.

  • A yanzu muna amfani da tsarin gwaji kuma muna koyo daga aikin domin inganta da faɗaɗa fassara a kan Facebook da Instagram, da Wikipedia.

  • Mun bar tsarin NLLB-200, FLORES-200, bayanan tsarin horarwa, da kuma bayanai don sake samar da rukunin bayanan ba da horo a buɗe don mu taimaka wa sauran masu bincike su inganta kayayyakin aikin fassararsu su kuma ɗora a kan namu aikin.

Harshe al’adarmu ne kuma shaidarmu ne kuma shi ne hanyarmu ta rayuwa a duniya. Saboda babu kayan aikin fassara mai inganci a tsakanin ɗaruruwan harsuna, biliyoyin mutane ba sa iya samun damar kai wa ga bayanai a kwamfuta ko kuma su shiga a dama da su a tattaunawa da al’ummomin da suke kan yanar gizo ta harshen da suka fi so ko kuma harshensu na uwa. Wannan zance haka yake ga ɗaruruwan miliyoyin mutanen da suke magana da harsuna masu yawa na Afrika da Asiya.

Wata Matsalar Ta Faru
Muna fuskantar matsalar a yayin kunna wannan bidiyon.

Don mu taimaka wa mutane su haɗu da juna a yau, su zama bangaren metaverse nan gaba, Masu bincike akan Meta sun samar da fasar Ba Harshen Da Aka Bari A Baya (NLLB), wani yunƙuri na samar da ingantacciyar fassarar inji, wadda za ta iya fassara yawancin harsunan duniya. A yau muna sanar da wani sabon cigaba da muka samu a fasahar NLLB: Mun samar da wani tsari na AI guda ɗaya da ake kira NLLB-200wanda yake fassara harsuna daban-daban har 200 tare da sakamako na kai tsaye. Yawancin waɗannan harsuna, kamar Kamba da Lao, ba a samun su yadda ya kamata ko ma babu su sam a injinan fassara da ake da su a yau. A yanzu, ƙasa da harsuna Afrika 25 ne ake iya samu a yawancin injinan fassara da ake amfani da su — da yawansu kuma fassarar da ake yi musu ba mai inganci ba ce. A maimakon haka, fasahar NLLB-200 tana ɗauke da harsunan Afrika har guda 55 da kuma ingantaccen sakamako. A jumlace, wannan tsarin shi kaɗai zai iya samar da ingantacciyar fassara a harsunan da biliyoyin mutane ke magana da su a duniya. Gaba daya, NLLB-200’s Shudin maki da a baya aka inganta yanayinsa na fasaha a kimanin kashi 44 a dukkan sassa 10k na FLORES-101 benchmark. Ga wasu harsunan Afirka da Indiya, karuwar da ka samu ta zarta kashi 70 cikin dari bisa ga tsarin fassara na kwanan nan.

A yanzu mun bar tsarin NLLB-200 a buɗe kuma muna wallafa kayan bincike masu yawa don mu ba wa sauran masu bincike dama su faɗaɗa wannan aikin zuwa ga wasu harsunan su kuma samar da fasahohin da za su ɗauki harsuna da yawa. Haka kuma, fasahar Ƙirƙirarriyar Basira ta Meta tana samar da kuɗaɗe har $200,000 ga ƙungiyoyin da ba an neman kuɗi ba don aiwatar da tsarin NLLB-200 a zahirance.

Bunƙasar gudanar da bincike a NLLB zai tallafa wa masu aikin fassara fiye da biliyan 25 su yi aiki a kullum a Ɓangaren Labarai na Facebook da Instagram da sauran dandamalinmu. Yanzu a ce ka ziyartar wata ƙungiyar Facebook da kake so, sai ka ga wani aike a cikin harshen Igbo ko Luganda, kuma ya zamana ka fahinci aiken a cikin harshenka ta hanyar danna wani madanni kawai. Ingantacciyar fassara ta daidai cikin harsuna da yawa za ta iya taimaka wa a gano bayanai masu cutarwa da bayanan ƙarya, a kuma kare mutuncin zaɓe, a kuma rage afkuwar ci da gumi ta hayar lalata a yanar gizo da safarar mutane. A yanzu ma ana amfani da fasahohin na gwaji da kuma abin da aka koya daga bincikenmu na NLLB a tsare-tsaren fassara da editocin Wikipedia suke amfani da su.

Fassara ɗaya ce daga cikin ɓangaroren AI saboda tasirinta a kan rayuwar mutane. Tsarin NLLB ya wuce kawai ba wa mutane ƙarin damar samun bayanai a kan yanar gizo. Zai sauƙaƙa wa mutane wajen ba da tasu gudummawar da yaɗa bayanai cikin harsuna daban-daban. Muna da aiki da yawa a gabanmu, amma mun sami ƙwarin guiwa da cigaban da muka samu a kwanan nan da kuma yadda yake matsar da mu kusa da cikar burin Meta.

Kana iya bincika demo na NLLB-200 a nan, mai una yadda tsarin ke fassara labarai daga sassan duniya, sannan da karanta takardar bincike a nan.

Buɗe kayan aikin fassara ga ƙarin biliyoyin mutane

Mun yi haɗin guiwa da Gidauniyar Wikimedia ƙungiyar da ba ta neman kuɗi da take ɗaukar nauyin Wikipedia da wasu ayyukan ilimi na kyauta, don su taimaka a inganta tsarin fassara a kan Wikipedia. Ana samun bayanan Wikipedia a cikin harsuna sama da 300, amma da waya suna da maƙalu da ba su kai wanda ake da su a Ingilishi, miliyan 6 da ɗoriya ba. Wannan bambanci yana da yawa, musamman ga harsuna da ake magana da su a wajen Turai da Arewacin Amurika. Ga misali, akwai maƙalu na Wikipedia kimanin 3,260 cikin harshen Lingala, harshen da mutane miliyan 45 suke magana da shi a Demukuraddiyar Kongo da Jamhuriyyar Kongo da Jamhuriyyar Afirka ta Tsakiya da kuma Kudancin Sudan. Ka kwatanta wannan da harshe kamar Swedish, wanda ke da mutum miliyan 10 da suke magana da shi a Sweden da Finland, kuma yake da sama da maƙalu miliyan 2.5.

A yanzu editocin Wikipedia suna amfani da fasahar NLLB-200, ta hanyar Kayan Fassara Bayani na Gidauniyar Wikimedia, don fassara maƙalu a cikin sama da harsuna 20 masu ƙarancin kayan aiki (waɗanda ba su da rukunin bayanai masu yawa don horara da Ƙirƙirarriyar Basira), haɗi da wasu 10 da a baya ba a samunsu a kowane injin fassara a dandamalin.

Matsalolin samar da tsari guda ɗaya domin ɗaruruwan harsuna

Ana horor da duk wani tsarin fassarar inji, kamar duk wani tsarin AI, a kan bayanai. Ga tsarin fassara rubutu, wannan ya ƙunshi miliyoyin jumloli da aka gwama su da juna a tsakanin harsuna cikin nutsuwa. Amma babu jumloli masu kama da juna da yawa a tsakani, kamar a ce tsakanin Ingilishi da Fula. Tsarin fassara na yanzu ya yi ƙoƙarin kawar da wannan ta hanyar samo bayanai a yanar gizo. Amma wani lokaci sakamakon ba shi da inganci saboda rubutun na asali ya bambanta a kowane harshe. Bugu da ƙari, wani lokaci cike yake da kuskure da bambancin rubutu da kuma rashin alamomin karin harshe da kuma alamomin wasu haruffa na musamman.

Wata muhimmiyar matsala kuma ita ce ta bunƙasa wani tsari guda ɗaya ya yi aiki a tsakanin ɗaruruwan harsuna ba tare da an yi asarar ƙwazo ko ingancin fassarar ba. Bisa al’ada, ana samun fassara mafi inganci ne idan an sami tsari na daban don fassara kowane harshe. Amma yana da wahala ka ƙara ƙarfin wannan hanya, tun da ƙwazo da inganci suna wahala a yayin da aka ƙara yawan harsuna.

Haka kuma tsarin fassara yana samar da kurakuran da za su yi wahala a gano su. An samar da waɗannan tsaruka ne a bisa tsarin hanyoyin sadarwa na jijiyoyi da ake amfani da su wajen samar da rubutu, ta yadda za su iya samar da kuskuren da aka saba samu a halitta, kamar hasashen wani abu (gamsuwa cewa abu gaskiya ne ko da kuwa ba hakan ba ne) da santsin baki da kuma bayanai masu haɗari. A gaba ɗaya, akwai magwaji da rukunin bayanai kaɗan ga harsunan da ba su da kayan aiki da yawa, wanda hakan ya ƙara sawa gwaji da inganta tsarin ya yi wahala.

Ƙirƙira a fasahar fasali da nemo bayanai da sanya mafi ƙanƙantar magwaji da maƙari

A ‘yan shekarun da suka gabata, mun sami tsayayyen cigaba wajen kawar da matsalolin da aka bayyana a sama. A shekarar 2020, mun sanar da tsarin fassararmu na harsuna-100, wato M2M-100, wanda ya buɗe sabuwar hanya ta samun bayanan bayar da horo da sababbin fasali don ƙara girman tsarin ba tare da yin asarar ƙwazo ba, da kuma sababbin hanyoyin aunawa da inganta sakamako. Ƙara ɗagawa zuwa wasu harsuna 100, ya nuna cewa mun ƙara samun cigaba a duka waɗannan ɓangarori guda uku.

Kayayyakin ba da horo da aka faɗaɗa

Don tattara rubuce-rubuce masu kama da juna, waɗanda suke daidai a ƙarin harsuna, mun bunƙasa LASER, kayan aikinmu na sanya iya gane baƙon abu a fasahar fahimtar harshen ɗan’adam (NLP). A maimakon LSTM, sabon samfurin, LASER3, yana amfani da wani tsari na La’akari da Ɓangarori, wato samun horo ta yanayin kula da kai tare da manufar tsarin koyon harshe ta rufe wasu kalmomi. Mun daɗa bunƙasa ƙwazo ta amfani da hanyar horar da malamai da kuma samar da masu tsari na musamman ga kowane harhse, wanda hakan ya ba mu dama mu ƙara yawan harsunan LASER3 mu kuma samar da adadin tagwayen jumloli masu yawan gaske, har ma da harsunan da suke da kayan aiki kaɗan. Mun bar hanyar shigar da harsuna da yawa ta LASER3 a buɗe, don mu samar da ita ga sauran masu bincike, haka kuma muna kan sakin na jumloli masu kama da juna a tagwaitar harshe, wadda aka tattaro aka kuma tsaftace ta amfani da dabarun da aka bayyana a nan.

Tun da mun baza koma mai faɗi a yayin nemo misalan horarwa a harsuna da yawa, ya zama abu mai muhimmanci mu tabbatar cewa misalan suna da inganci mai yawa. Mun yi wa hanyar tsaftace bayananmu duba na tsanaki don mu ƙara ta zuwa matakin harsuna 200, muka ƙara manyan matakan tacewa da suka haɗa da yin amfani da fasaharmu ta tsarin LID-200 a karon farko don tace bayanai kuma mu cire hayaniya daga rubuce-rubucen ma’aunin yanar gizo tare da cikakken tabbaci. Mun samar da jerin abubuwa masu cutarwa na kowane harshe daga cikin dukkanin harsuna 200, sannan muka yi amfani da waɗannan jerin muka auna muka kuma tace abubuwa masu iya cutarwar da ake tunani. Waɗannan matakai sun tabbatar mana da cewa mun sami jerin bayanai mafi tsafta kuma masu ƙarancin abubuwa masu cutarwa tare da harsunan da aka gano na daidai. Wannna yana da muhimmanci wajen bunƙasa ingancin fassara da kuma rage abin da ake kira rudanin tunani mai cutarwar, a inda tsarin yake gabatar da bayani mai cutarwa bisa kuskure a yayin gudanar da fassara.

Bunƙasa girman tsarin tare da tabbatar da ƙwazo mai yawa

Tsare-tsaren fassara ta harsuna da yawa yana samar da muhimman alfanu guda biyu. Suna samar da harsuna masu kama da juna — misali Assamese da Bengali, waɗanda dukkaninsu ake rubuta su cikin tsarin rubutun Bengali — don raba bayanai a lokacin ba da horo. Wannan yana matuƙar bunƙasa ingancin fassara a harsuna masu ƙarancin kayan aiki idan aka ba da horonsu tare da harsuna masu kama da su da suke da kayan aiki da yawa. Haka kuma, masu bincike za su iya maimaitawa su nuna su kuma yi gwaji da tsarin harsuna da yawa cikin sauƙi a kan su yi aiki da ɗaruruwa ko ma dubban tsarurruka na harasa daban-daban.

Amma duk da haka akwai matsaloli idan aka faɗaɗa wani tsari daga harsuna 100 zuwa 200. Da aka yi amfani tsarin tagwaita harsuna masu ƙarancin kayan aiki a bayanan bayar da horo, sai tsarin harsuna da yawa ya fara gurguwar fahimta a yayin da muke horar da tsarin na tsawon lokaci. Mun magance wannan matsalar ta ƙirƙiro abubuwa guda uku: daidaitawa da koyon manhaja da kula da kai da kuma faɗaɗa hanyoyi juya-fassara.

Da farko mun samar da haɗakar ƙwararru, waɗanda suka ƙarfin ƙwarewa iri ɗaya, ta haka harsunan da suke da ƙarancin kayan aiki, za su iya samun ƙarfin da ake da shi iri ɗaya, ba tare da bayanai masu yawa ba. Da wannan, haɗi da tsarin daidaitawa, sai aka kauce wa gurguwar fahinta. Haka kuma mun yi amfani da hanyar koyon manhaja mai mataki biyu, inda muka fara horar da harsuna masu kayan aiki da yawa har aka sami nasarori kaɗan, kafin gabatar da tagwayen harsuna masu ƙarancin kayan aiki, wanda ya ƙara rage matsalar gurguwar fahinta. Daga nan, sai a bayar da adadi kaɗan na mabambantan bayanai na harsunan da ba su da kayan aiki da yawa, mun yi amfani da koyo ta hanyar kula da kai a kan bayanan harshe guda ga harsuna masu ƙarancin kayan aiki da masu kama da su da suke da kayan aiki da yawa don inganta ƙwazon tsarin na gaba ɗaya.

Daga ƙarshe sai muka tantance hanya mafi inganci ta samar da bayanan juya fassara, sai muka gano cewa haɗa bayanan fassarar da aka juya da aka samo daga injin fassara na harsuna biyu da kuma tsarin injin fassara na harsuna da yawa ya taimaka wajen inganta ƙwazon harsuna masu ƙarancin kayan aiki a sakamakon ƙaruwar hanyoyin samar bayanan da aka sarrafa. Don horar da tsarin NLLB-200, wanda yake da iyakar harsuna 54B, mun yi amfani da sabon tsarinResearch SuperCluster (RSC) da muka samar, wanda yake ɗaya daga cikin fasahar manyan kwamfuta mafi sauri a duniya.

Aunawa da matakan kariya don harsuna 200

Don ɗaukakawa da inganta tsarin NLLB-200, mun samar da FLORES-200, wani rukunin bayanai na musamman mai auna yawa da yawa da yake ba wa masu bincike dama su auna ƙwazo ta hanyoyin harsuna daban-daban har 40,000. Mun bar wannan sabon rukunin bayana a buɗe don mu taimaka wa wasu masu bincike su gwada su kuma inganta tsarin fassararsu cikin sauri. Za a iya amfani da FLORES-200 a auna tsarin fassara ga tarin manhajoji masu yawa, haɗi da takardun kula da lafiya da finafinai da littattafai da bayanan da ke kan yanar gizo a cikin ƙasa ko yankin da ake magana da wani adadi na harsuna masu ƙaracin kayan aiki.

Ɗaukakawa zuwa harsuna 200 yana nufin magance haɗarin samar da bayanai masu cutarwa, waɗanda zai yi wahala a kula da su a cikin fassara ta hanyoyi da yawa. Mun yi wannan ta samar da jerin abubuwa masu cutarwa a kowanne harshen da ake amfani da shi don ya zama zai iya yiwuwa a gano a kuma tace duk wata lalata da kuma sauran kalamai masu cutarwa. Za mu saki jerin ma’aunin abubuwa masu cutarwa na dukkanin harsuna 200 don mu ba wa sauran masu bincike kayan aikin da za su rage haɗari a cikin tsarirrikansu.

Kuma don mu tabbatar muna faɗaɗa ƙoƙarinmu cikin yanayi na mutuntaka, muna aiki tare da rukunonin mutane daga fannoni daban-daban da suka haɗar da masana kimiyyar harshe da masana zamantakewa da kuma masana ladubban rayuwa don samin ƙarin bayani game da kowanne harshen da muke aiki da shi.

Wannan azane ya nuna adadi makin BLEU akan fassarar FLORES-101 zuwa da kuma daga Ingilishi zuwa harsunan 100. A hagu akwai tsarin-fasaha-biyu da aka wallafa, M2M da Delta LM, wanda kan taimaki harsunan 100. Tsare-tsaren a dama kan taimaki harsuna 200: Samfurin canji na asalai tare da sigogi 3.3B, samfurin asali da mai-dubawa da kan sa a wajen koyo (SSL), samfurin asali tare da fassara a baya (BT), da NLLB-200, gagarumin hadaka-kwararru na samfurin asali wanda ke kawo cikas ga mai kulawa d koyo da fassarar baya.

Faɗaɗa fassara da gagarumar shigarwa

Kayayyakin yin fassara mai inganci za su iya zama masu kawo sauyi. Magana ta gaskiya a yau shi ne wasu ‘yan harsuna kaɗan — da suka haɗar da Ingilishi da Mandarin da Spanish da Larabci — su ne suka mamaye yanar gizo. Masu magana da waɗannan harsuna da suka fi shahara za su iya kasa hangen irin muhimmancin da ke cikin mutum ya karanta wani abu cikin harshensa na uwa. Mun yi imani cewa tsarin NLLB zai taimaka wajen adana harsuna, tun da manufar ita ce a yaɗa maimakon koyaushe a riƙa neman harshen da zai shiga tsakani, wanda a wasu lokutan ake samu son rai ko kuskuren bayani.

Haka kuma zai iya taimaka wa a bunƙasa sauran ayyukan kwamfuta na fahimtar harshen ɗan’adam da aka fi sani da NLP, har su wuce fassara kaɗai. Wannan zai iya haɗawa da samar da wani tallafi da zai yi aiki sosai a harsuna irin su Japanaci da Uzbekisanci ko ƙirƙirar wani tsari da zai ɗauki finafinan Bollywood ya sanya musu fassara cikin harshen Swahili ko Oromo. A yayin da duniyar yanar gizo ta fara kankama, damar samar da fasahar da za ta yi aiki sosai cikin ɗarurwa ko ma dubban harsuna za ta yi matuƙar taimako wajen siyasantar da samun damar kai wa ga ilimi mara iyaka a duniyar kwamfuta.

‘Yan shekaru da suka wuce, ana samun ingantacciyar fassarar inji ce kawai a cikin harsuna kaɗan. Amma da zuwan tsarin NLLB-200, mun kusa zuwa ranar da zai kasance muna da tsarin da zai ba wa mutane dama su yi magana da duk wanda suka zaɓa. Mun samu shauƙi da abin da wannan ya buɗe a yanzu da kuma abin zai iya faruwa a nan gaba idan muka ci gaba da faɗaɗa iyakar fassarar inji.

Tawagar samar da tarbiyya ke ci gaba dgudanar da wannan aiki a Meta AI da hada d Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang, and Al Youngblood.