• Meta AI አንድ ነጠላ AI ሞዴል ገንብቷል NLLB-200፣ እሱም በእያንዳንዳቸው ሰፊ ግምገማዎች የተረጋገጠ በ 200 የተለያዩ ቋንቋዎች በዘመናዊ ጥራት ለመተርጎም የመጀመሪያው ነው።

  • እንዲሁም አዲስ የግምገማ ዳታ ስብስብ FLORES-200 ፈጥረናል፣ እና በእያንዳንዱ ቋንቋ የNLLB-200 አፈጻጸምን ለካን ትርጉሞቹ ከፍተኛ ጥራት ያላቸው መሆናቸውን ለማረጋገጥ ነው። NLLB-200 ከቀድሞው የጥበብ ሁኔታ በአማካኝ 44 በመቶ ይበልጣል።

  • አሁን በFacebook፣ Instagram እና Wikipedia ላይ ትርጉሞችን ለማሻሻል እና ለማራዘም ከፕሮጀክቱ ሞዴሊንግ ቴክኒኮችን እና ትምህርቶችን እየተጠቀምን ነው።

  • ሌሎች ተመራማሪዎች የትርጉም መሳሪያዎቻቸውን እንዲያሻሽሉ እና በስራችን ላይ እንዲገነቡ ለማገዝ የNLLB-200 ሞዴሎችን፣ FLORES-200፣ የሞዴል ስልጠና ኮድ እና የስልጠና ውሂብ ስብስብን እንደገና ለመፍጠር ኮድ እየከፈትን ነው።

ቋንቋ ባህላችን፣ማንነታችን እና ለአለም የህይወት መስመር ነው። ነገር ግን ከፍተኛ ጥራት ያላቸው የትርጉም መሳሪያዎች በመቶዎች ለሚቆጠሩ ቋንቋዎች ስለሌሉ፣ ዛሬ በቢሊዮን የሚቆጠሩ ሰዎች ዲጂታል ይዘትን ማግኘት ወይም በመስመር ላይ በተመረጡ ወይም በአፍ መፍቻ ቋንቋቸው በውይይቶች እና በማህበረሰቦች ውስጥ ሙሉ በሙሉ መሳተፍ አይችሉም። ይህ በተለይ በብዙ የአፍሪካ እና የእስያ ቋንቋዎች ለሚናገሩ በመቶ ሚሊዮን ለሚቆጠሩ ሰዎች እውነት ነው።

የሆነ ስህተት ተከስቷል
ይህንን ቪድዮ ማጫወት አስቸግሮናል።

ሰዎች ዛሬ በተሻለ ሁኔታ እንዲገናኙ እና የነገው metaverse አካል እንዲሆኑ ለማገዝ፣ የMeta AI ተመራማሪዎች ለአብዛኛው የአለም ቋንቋዎች ከፍተኛ ጥራት ያለው የማሽን የትርጉም ችሎታዎችን ለማዳበር ከኋላ የቀረን ቋንቋ የለም (NLLB) ፈጥረዋል። ዛሬ፣ በNLLB ውስጥ ጠቃሚ ግኝት እናሳውቃለን። NLLB-200 የተባለ ነጠላ AI ሞዴል ገንብተናል፣ እሱም 200 የተለያዩ ቋንቋዎችን በዘመናዊ ውጤቶች ይተረጉማል። እንደ ካምባ እና ላኦ ያሉ፣ አብዛኛዎቹ እነዚህ ቋንቋዎች፣ ዛሬ ባሉ ምርጥ የትርጉም መሳሪያዎች በጥሩም ሆነ ሙሉ በሙሉ አልተደገፉም ነበር። በአሁኑ ጊዜ ከ25 ያነሱ የአፍሪካ ቋንቋዎች በሰፊው ጥቅም ላይ በሚውሉ የትርጉም መሳሪያዎች ይደገፋሉ - ብዙዎቹም ጥራት የሌላቸው ናቸው። በአንፃሩ፣ NLLB-200 ከፍተኛ ጥራት ያላቸውን 55 የአፍሪካ ቋንቋዎችን ይደግፋል። በአጠቃላይ፣ ይህ ነጠላ ሞዴል በዓለም ዙሪያ በቢሊዮኖች ለሚቆጠሩ ሰዎች ለሚነገሩ ቋንቋዎች ከፍተኛ ጥራት ያላቸውን ትርጉሞች ያቀርባል። በአጠቃላይ፣ የNLLB-200's BLEU ውጤቶች በሁሉም የFLORES-101 ቤንችማርክ በሁሉም የ10k አቅጣጫዎች በአማካይ በ44 በመቶ በቀድሞው የስነጥበብ ሁኔታ ላይ ይሻሻላሉ። ለአንዳንድ የአፍሪካ እና የህንድ ቋንቋዎች፣ ከቅርብ ጊዜ የትርጉም ሥርዓቶች ጋር ሲነጻጸር ከ70 በመቶ በላይ ጭማሪ አሳይቷል።

አሁን ሌሎች ተመራማሪዎች ይህንን ስራ ወደ ብዙ ቋንቋዎች ለማራዘም እና የበለጠ አካታች ቴክኖሎጂዎችን ለመገንባት የNLLB-200 ሞዴልን ከፍተን በርካታ የምርምር መሳሪያዎችን በማተም ላይ ነን ። Meta AI እንዲሁም ለ NLLB-200 የእውነተኛ ዓለም መተግበሪያዎች እስከ 200,000 ዶላር የሚደርስ እርዳታ ለትርፍ ላልሆኑ ድርጅቶች እየሰጠ ነው።

ከNLLB የተገኙ የምርምር እድገቶች በየቀኑ በFacebook ዜና መአድ፣ Instagram እና በሌሎች መድረኮቻችን የሚቀርቡ ከ25 ቢሊዮን በላይ ትርጉሞችን ይደግፋሉ። ያስቡት የሚወዱትን የFacebook ቡድን እየጎበኙ፣ በኢግቦ ወይም በሉጋንዳ የተለጠፈ ጽሑፍ ሲያጋጥመው፣ እና በአንድ ቁልፍ ጠቅ በማድረግ በራስዎ ቋንቋ ሲረዱት። በብዙ ቋንቋዎች ትክክለኛ ትርጉሞች ጎጂ የሆኑ ይዘቶችን እና የተሳሳቱ መረጃዎችን ለመለየት፣ የምርጫ ታማኝነትን ለመጠበቅ እና የመስመር ላይ የወሲብ ብዝበዛ እና ሕገወጥ የሰዎች ዝውውርን ለመግታት ያግዛሉ። ከNLLB ምርምራችን የሞዴሊንግ ቴክኒኮች እና ትምህርቶች አሁን በWikipedia አርታኢዎች በሚጠቀሙባቸው የትርጉም ሥርዓቶች ላይም እየተተገበሩ ናቸው።

ትርጉም በሰዎች የዕለት ተዕለት ሕይወት ላይ ባለው ተጽእኖ ምክንያት በ AI ውስጥ በጣም አስደሳች ከሆኑ ቦታዎች አንዱ ነው። NLLB ለሰዎች በድር ላይ ያለውን ይዘት የተሻለ መዳረሻ ከመስጠት የበለጠ ነገር ነው። ሰዎች በቋንቋዎች መረጃን እንዲያበረክቱ እና እንዲያካፍሉ ቀላል ያደርጋል። ከፊታችን ብዙ ስራዎች አሉን፣ ነገርግን በቅርብ ጊዜ ባደረግነው ግስጋሴ እና የMeta ተልእኮ ወደ ፍፃሜው እያቀረበን ስላለው ጉልበት እንበረታለን።

ሞዴሉ በዓለም ዙሪያ ያሉ ታሪኮችን እንዴት እንደሚተረጉም በማሳየት የNLLB 200 ማሳያን እዚህ ማሰስ ይችላሉ፣ እና የጥናት ወረቀቱን እዚህ ያንብቡ።

ለተጨማሪ ቢሊዮን ሰዎች የትርጉም መሳሪያዎችን መክፈት

በWikipedia ላይ የትርጉም ሥርዓቶችን ለማሻሻል፣ ከWikimedia ፋውንዴሽን Wikipediaን እና ሌሎች የነፃ የእውቀት ፕሮጄክቶችን ከሚያስተናግደው ለትርፍ ያልተቋቋመ ድርጅት ጋር ተባብረናል። ከ300 ሚበልጡ ቋንቋዎች የWikipedia ስሪቶች አሉ፣ ነገር ግን አብዛኛዎቹ በእንግሊዝኛ ከሚገኙት ከ6+ ሚሊዮን በጣም ያነሱ ጽሑፎች አሏቸው። ይህ ልዩነት በተለይ ከአውሮፓ እና ከሰሜን አሜሪካ ውጭ ለሚነገሩ ቋንቋዎች ትልቅ ነው። ለምሳሌ በሊንጋላ፣ በኮንጎ ዲሞክራሲያዊ ሪፐብሊክ፣ በኮንጎ ሪፐብሊክ፣ በመካከለኛው አፍሪካ ሪፐብሊክ እና በደቡብ ሱዳን ውስጥ 45 ሚሊዮን ሰዎች በሚናገሩት ቋንቋ ወደ 3,260 የWikipedia ጽሑፎች አሉ። በስዊድን እና በፊንላንድ 10 ሚሊዮን ተናጋሪዎች ካሉት እና ከ2.5 ሚሊዮን በላይ ጽሑፎች ካሉት፣ እንደ ስዊድን ያለ ቋንቋ ጋር ሲወዳደር።

የWikipedia አርታኢዎች አሁን ከNLLB-200 በስተጀርባ ያለውን ቴክኖሎጂ፣ በWikimedia ፋውንዴሽን የይዘት የትርጉም መሳሪያ፣ በመጠቀም ከ20 በላይ ዝቅተኛ የመረጃ ምንጮች ጽሑፎችን ለመተርጎም (የ AI ስርዓቶችን ለማሰልጠን ሰፊ የውሂብ ስብስቦች የሌላቸው)፣ ከዚህ ቀደም 10ቱን ጨምሮ በመድረኩ ላይ በማንኛውም የማሽን የትርጉም መሳሪያዎች አልተደገፉም።

በመቶዎች ለሚቆጠሩ ቋንቋዎች አንድ ነጠላ ሞዴል የመገንባት ፈተናዎች

የማሽን የትርጉም ሥርዓቶች፣ ልክ እንደ ሁሉም AI ሞዴሎች፣ በመረጃ ላይ የሰለጠኑ ናቸው። ለጽሑፍ ትርጉም ሥርዓቶች፣ ይህ በተለምዶ በሚሊዮን የሚቆጠሩ ዓረፍተ ነገሮችን በቋንቋዎች መካከል በጥንቃቄ የተዛመዱ ናቸው። ነገር ግን ለምሳሌ በእንግሊዝኛ እና ፉላ፣ ትይዩ የሆኑ ትላልቅ ጥራዞች የሉም። አሁን ያሉት የትርጉም ሞዴሎች ይህንን ከድር በማዕድን በማውጣት ለማሸነፍ ይሞክራሉ። ነገር ግን ውጤቶቹ ብዙውን ጊዜ ጥራት የሌላቸው ናቸው ምክንያቱም የመነሻ ጽሑፍ ለእያንዳንዱ ቋንቋ የተለየ ነው። በተጨማሪም፣ ብዙ ጊዜ ትክክል ባልሆኑ ወይም ወጥነት በሌላቸው ሆሄያት የተሞላ እና የአነጋገር ምልክቶች እና ሌሎች የቃላት ምልክቶች ይጎድላሉ።

ሌላው ጉልህ ፈተና አንድ ሞዴል በመቶዎች በሚቆጠሩ ቋንቋዎች እንዲሰራ አፈጻጸምን እና የትርጉም ጥራትን ሳይጎዳ ማመቻቸት ነው። በተለምዶ፣ ምርጡ የትርጉም ጥራት የመጣው ለእያንዳንዱ የቋንቋ አቅጣጫ የተለየ ሞዴል በመኖሩ ነው። ነገር ግን ብዙ ቋንቋዎች በሚጨመሩበት ጊዜ የአፈፃፀም እና የትርጉም ጥራት ስለሚጎዳ፣ ይህን አካሄድ ለመለካት አስቸጋሪ ነው።

የትርጉም ሞዴሎች እንዲሁ ለመያዝ አስቸጋሪ የሆኑ ስህተቶችን ይፈጥራሉ። እነዚህ ሥርዓቶች የተገነቡት ለጽሑፍ ማመንጨት በሚውሉ የነርቭ ኔትወርኮች ላይ ነው፣ ስለሆነም በተፈጥሮ እንደ ቅዠት (ይህም ባይሆንም አንድ ነገር እውነት መሆኑን በእርግጠኝነት መናገር)፣ የተሳሳቱ አባባሎች እና ደህንነቱ ያልተጠበቀ ይዘት ያሉ ስህተቶችን መፍጠር ይችላሉ። በአጠቃላይ፣ ዝቅተኛ የመረጃ ምንጭ ለሆኑ ቋንቋዎች ያነሱ ማወዳደሪያ እና የውሂብ ስብስቦች አሉ፣ ይህም ሞዴሎችን መሞከር እና ማሻሻል በጣም አስቸጋሪ ያደርገዋል።

በሥነ ሕንፃ፣ የውሂብ ማግኛ፣ ማወዳደር እና ሌሎችም ውስጥ ፈጠራ

በቅርብ ዓመታት፣ ከላይ የተገለጹትን ተግዳሮቶች ለማሸነፍ የማያቋርጥ መሻሻል አሳይተናል። በ2020፣ የስልጠና መረጃን ለማግኘት አዳዲስ ዘዴዎችን፣ አፈፃፀሙን ሳይጎዳ የሞዴል መጠንን ለመለካት አዲስ አርክቴክቸር እና ውጤቱን የምንገመግምበት እና የሚያሻሽልበትን የኛን 100-ቋንቋ M2M-100 የትርጉም ሞዴል አሳውቀናል። ወደ ሌላ 100 ቋንቋዎች ለማዳረስ፣ በእነዚህ በሦስቱም ዘርፎች ላይ ተጨማሪ እድገቶችን አድርገናል።

የሥልጠና ግብዓቶች ተዘርግተዋል

በጣም ትክክለኛ የሆኑ ትይዩ ጽሑፎችን በብዙ ቋንቋዎች ለመሰብሰብ፣ በተፈጥሮ ቋንቋ ማቀነባበሪያ (NLP) ውስጥ ዜሮ-ሾት ማስተላለፍ የኛን መሣሪያ የሆነውን LASER አሻሽለናል። ከLSTM ይልቅ፣ አዲሱ ስሪት፣ LASER3፣ ጭምብል በተሞላበት የቋንቋ ሞዴሊንግ አላማ በራስ ቁጥጥር የሰለጠነ የትራንስፎርመር ሞዴልን ይጠቀማል። የመምህራንና የተማሪ የሥልጠና ሂደትን በመጠቀም እና የቋንቋ-ቡድን ልዩ ኢንኮደሮችን በመፍጠር አፈፃፀሙን አሳድገናል፣ ይህም የLASER3 ቋንቋ ሽፋንን እንድናሳድግ እና ከፍተኛ መጠን ያላቸውን የአረፍተ ነገር ጥንዶች ለማምረት አስችሎናል፣ ለዝቅተኛ ግብዓቶችም ቢሆን። የLASER3 የብዝሃ ቋንቋ መክተቻ ዘዴን ለሌሎች ተመራማሪዎች ተደራሽ ለማድረግ ክፍት እየፈለግን ነው፣ እና እዚህ በተገለጹት ቴክኒኮች በመጠቀም ማዕድን ማውጣት እና ማጽዳት በተደረገው በቢሊዮኖች የሚቆጠሩ ትይዩ አረፍተ ነገሮችን በተለያዩ የቋንቋ ጥንዶች እያዘጋጀን ነው።

የሥልጠና ምሳሌዎችን በብዙ ቋንቋዎች ስንፈልግ ሰፋ ያለ መረብ ስለጣልን፣ የምሳሌዎቹ ጥራት ከፍተኛ መሆኑን ማረጋገጥ አስፈላጊ ነበር። የመረጃ ማጽጃ ቧንቧ መስመራችንን ሙሉ በሙሉ ወደ 200 ቋንቋዎች አሻሽለነዋል፣ መረጃን ለማጣራት እና ከበይነመረቡ መጠን ኮርፖሬሽን ከፍተኛ በራስ መተማመንን ለማስወገድ በመጀመሪያ የእኛን LID-200 ሞዴሎቻችንን በመጠቀም ዋና የማጣሪያ ደረጃዎችን መጨመር። ለሙሉ 200 ቋንቋዎች የመርዛማነት ዝርዝሮችን አዘጋጅተናል፣ እና እነዚያን ዝርዝሮች ለመገምገም እና እምቅ የተዛባ መርዛማነትን ለማጣራት ተጠቀምን። እነዚህ እርምጃዎች ትክክለኛ የሆኑ ቋንቋዎች ያሏቸው ንፁህ እና ያነሰ መርዛማ የውሂብ ስብስቦች እንዳሉን አረጋግጠዋል። ይህ የትርጉም ጥራትን ለማሻሻል እና በትርጉም ሂደት ውስጥ ስርዓቱ በስህተት መርዛማ ይዘትን በሚያስተዋውቅበት ፣ የተቀበረ መርዛማነት ተብሎ የሚጠራውን አደጋ ለመቀነስ አስፈላጊ ነው።

ከፍተኛ አፈፃፀምን በመጠበቅ የሞዴሉን መጠን ማቃለል

የብዙ ቋንቋዎች የትርጉም ሥርዓቶች ሁለት ዋና ጥቅሞችን ይሰጣሉ። ተመሳሳይ ቋንቋዎች - እንደ አሳሜዝ እና ቤንጋሊ፣ ሁለቱም በቤንጋሊ ስክሪፕት የተጻፉ - በስልጠና ወቅት መረጃዎችን እንዲለዋወጡ ያስችላቸዋል። ይህ ዝቅተኛ ግብዓት ለሆኑ ቋንቋዎች ከተመሳሳይ ከፍተኛ ምንጭ ቋንቋዎች ጋር ሲሰለጥኑ የትርጉም ጥራትን በእጅጉ ለማሻሻል ይረዳል። እንዲሁም፣ ተመራማሪዎች በመቶዎች ወይም በሺዎች ከሚቆጠሩ የተለያዩ የሁለት ቋንቋ ተናጋሪዎች ሞዴሎች ይልቅ በአንድ ባለ ብዙ ቋንቋ ሞዴል ደጋግመው፣ ልኬት እና ሙከራ ማድረግ ይችላሉ።

ነገር ግን አንድን ሞዴል ከ100 ወደ 200 ቋንቋዎች ሲሰፋ አሁንም ጉልህ ፈተናዎች አሉ። በስልጠናው መረጃ ውስጥ ባለ ብዙ ዝቅተኛ ግብአት የቋንቋ ጥንዶች፣ ሞዴሎቹን ለረጅም ጊዜ ስናሰልጥናቸው የብዙ ቋንቋ ተናጋሪዎች ስርአቶች ከመጠን በላይ መግጠም ይጀምራሉ። እነዚህን ችግሮች ለመፍታት በሶስት ገፅታዎች ማለትም በመደበኛነት እና በስርአተ ትምህርት መማር፣ በራስ መተዳደር መማር እና የኋላ መተርጎምን በማባዛት ነው።

በመጀመሪያ፣ ብዙ መረጃ የሌላቸው ዝቅተኛ ግብአት ቋንቋዎች ወደ የጋራ አቅም እንዲተላለፉ የተጋሩ እና ልዩ አቅም ያላቸውን የድብልቅ-ባለሙያዎች ኔትወርኮችን አዘጋጅተናል። ይህ በተሻለ ሁኔታ ከተነደፉ መደበኛ ስርዓቶች ጋር ተጣምሮ፣ ከመጠን በላይ መገጣጠምን ያስወግዳል። እንዲሁም ባለ ሁለት ደረጃ የስርዓተ-ትምህርት ዘዴን ተከትለናል፣ በመጀመሪያ ከፍተኛ ግብአት ያላቸውን ቋንቋዎች ለጥቂት ዘመናት በማሰልጠን፣ ዝቅተኛ ግብአት ያላቸውን የቋንቋ ጥንዶች ከማስተዋወቅ በፊት፣ ይህም እንደገና የመገጣጠም ችግርን ቀንሷል። ከዚያም፣ ዝቅተኛ መጠን ያለው ትይዩ የbitext ውሂብ ለዝቅተኛ ምንጭ ቋንቋዎች፣ አጠቃላይ የአብነት አፈጻጸምን ለማሻሻል ለሁለቱም ዝቅተኛ ግብአት እና ተመሳሳይ ከፍተኛ ግብዓት ቋንቋዎች ስለ ነጠላ ቋንቋዎች በራስ የሚተዳደር ትምህርት አውጥተናል።

በመጨረሻም፣ የተመለስ ትርጉም መረጃን እንዴት በተሻለ ሁኔታ ማመንጨት እንደሚቻል መረመርን እና ከሁለቱም የሁለት ቋንቋ ተናጋሪ ስታቲስቲክስ ማሽን ትርጉም የመነጨ ወደ ኋላ የተተረጎመ ውሂብ ማደባለቅ ደርሰንበታል ውሂብ እና ባለብዙ ቋንቋ ተናጋሪ ነርቭ ማሽን የትርጉም ሞዴሎች በተፈጠረው የሰው ሰራሽ መረጃ ልዩነት ምክንያት ለዝቅተኛ ግብአት ቋንቋዎች አፈጻጸምን ለማሻሻል ረድተዋል። 54B መለኪያዎች ያለውን የ NLLB-200 ሞዴል ለማሰልጠን፣ በአለም ላይ ካሉ ፈጣን AI ሱፐር ኮምፒውተሮች መካከል ያለውን አዲስ የተገነባውን የምርምር ሱፐር ክላስተር (RSC) ተጠቅመንበታል።

ለ200 ቋንቋዎች ግምገማ እና ማቃለያ መሳሪያዎች

NLLB-200ን ለመገምገም እና ለማሻሻል፣ FLORES-200 ገንብተናል፣ ልዩ ከብዙ እስከ ብዙ የውሂብ ስብስብ ተመራማሪዎች በ40,000 የተለያዩ የቋንቋ አቅጣጫዎች አፈጻጸምን እንዲገመግሙ ያስችላቸዋል። ሌሎች ተመራማሪዎች የትርጉም ሞዴሎቻቸውን በፍጥነት እንዲሞክሩ እና እንዲያሻሽሉ ለማገዝ ይህን አዲስ የውሂብ ስብስብ ክፍት-ምንጭ እያደረግን ነው። FLORES-200 ለተለያዩ መተግበሪያዎች የትርጉም ሥርዓቶችን ለመገምገም ጥቅም ላይ ሊውል ይችላል፣ ይህም የጤና በራሪ ጽሑፎችን፣ ፊልሞችን፣ መጻሕፍትን፣ እና የመስመር ላይ ይዘቶችን ጨምሮ በርካታ ዝቅተኛ ግብአት ያላቸው ቋንቋዎች በሚነገሩባቸው አገሮች ወይም ክልሎች ውስጥ።

ወደ 200 ቋንቋዎች ማመጣጠን ማለት መርዛማ ይዘት የማመንጨት አደጋዎችን መፍታት ማለት ሲሆን፣ ይህም በበርካታ አቅጣጫዎች የትርጉም ስርዓት ውስጥ ለማስተዳደር አስቸጋሪ ሊሆን ይችላል። ይህን ያደረግነው ጸያፍ ድርጊቶችን እና ሌሎች አጸያፊ ይዘቶችን ለመለየት እና ለማጣራት እንዲቻል ለሁሉም የሚደገፉ ቋንቋዎች የመርዛማነት ዝርዝሮችን በመገንባት ነው። ለሌሎች ተመራማሪዎች በአምሳያዎቻቸው ውስጥ አደጋዎችን ለመቀነስ መሳሪያዎችን ለመስጠት የመርዛማነት ግምገማ ዝርዝሮችን እና ለሁሉም 200 ቋንቋዎች መለኪያዎችን እየለቀቅን ነው።

ጥረታችንንም ኃላፊነት በተሞላበት መንገድ እያሰፋን መሆናችንን ለማረጋገጥ የቋንቋ ሊቃውንት፣ የሶሺዮሎጂስቶች እና የሥነ-ምግባር ባለሙያዎችን ባካተተ ከኢንተር ዲሲፕሊን ቡድን ጋር በመተባበር ስለ እያንዳንዱ ቋንቋዎች የበለጠ ለማወቅ እየሰራን ነው።

ይህ ስዕላዊ መግለጫ በFLORES-101 ወደ እንግሊዝኛ ወደ 100 ቋንቋዎች የተተረጎመ አማካኝ የ BLEU ነጥብ ያሳያል። በግራ በኩል 100 ቋንቋዎችን የሚደግፉ ሁለት የታተሙ ዘመናዊ ሞዴሎች M2M እና Delta LM አሉ። በቀኝ በኩል ያሉ ሞዴሎች 200 ቋንቋዎችን ይደግፋሉ፡ የመነሻ ትራንስፎርመር ሞዴል 3.3B መለኪያዎች፣ የመነሻ ሞዴል በራስ ቁጥጥር የሚደረግበት ትምህርት (ኤስኤስኤል)፣ የመነሻ ሞዴል ከኋላ ትርጉም (BT) እና NLLB-200፣ ሁለቱንም እራሱን የሚጠቀም ትልቅ ድብልቅ-ኦቭ-ኤክስፐርት ሞዴል ክትትል የሚደረግበት ትምህርት እና ወደ ኋላ መተርጎም።

የተስፋፋ ትርጉም እና የበለጠ ማካተት

ከፍተኛ ጥራት ያላቸው የትርጉም መሳሪያዎች አብዮታዊ ሊሆኑ ይችላሉ። እውነታው ዛሬ በጣት የሚቆጠሩ ቋንቋዎች - እንግሊዘኛ፣ ማንዳሪን፣ ስፓኒሽ እና አረብኛ ጨምሮ - ድሩን ይቆጣጠራሉ። በሰፊው የሚነገሩ ቋንቋዎች ተወላጆች በራሳቸው የአፍ መፍቻ ቋንቋ ማንበብ ምን ያህል ትርጉም እንዳለው ሊገነዘቡ ይችላሉ። NLLB ቋንቋን ለመጋራት እንደታቀደው እንዲቆይ ይረዳል ብለን እናምናለን ሁልጊዜ መካከለኛ ቋንቋ ከመጠየቅ ይልቅ ስሜቱን/ይዘቱን የተሳሳተ ያደርገዋል።

እንዲሁም ከትርጉም ባሻገር ሌሎች የNLP ተግባራትን ለማራመድ ይረዳል። ይህ እንደ ጃቫኛ እና ኡዝቤክ ባሉ ቋንቋዎች በደንብ የሚሰሩ ረዳቶችን መገንባት ወይም የቦሊውድ ፊልሞችን ለማንሳት እና ትክክለኛ የትርጉም ጽሑፎችን በስዋሂሊ ወይም በኦሮምኛ ማከልን ሊያካትት ይችላል። metaverse ቅርፅ መያዝ ሲጀምር፣ በመቶዎች አልፎ ተርፎም በሺዎች በሚቆጠሩ ቋንቋዎች በደንብ የሚሰሩ ቴክኖሎጂዎችን የመገንባት ችሎታ በምናባዊ አለም ውስጥ አዳዲስ መሳጭ ተሞክሮዎችን፣ ዲሞክራሲያዊ ለማድረግ ይረዳል።

ከጥቂት አመታት በፊት ከፍተኛ ጥራት ያለው የማሽን ትርጉም የሚሰራው በጥቂት ቋንቋዎች ብቻ ነበር። በNLLB-200፣ ሰዎች ከመረጡት ሰው ጋር እንዲግባቡ የሚያስችል ስርዓት ይዘን ወደ አንድ ቀን ተቃርበናል። የማሽን ትርጉሞችን ድንበሮች መግፋታችንን ስንቀጥል ይህ በአሁኑ ጊዜ ምን እንደሚከፍት እና ለወደፊቱ ምን ማለት ሊሆን እንደሚችል ጓጉተናል።

ይህ ሥራ የሚካሄደው በMeta AI ውስጥ ባለ ብዙ ዲሲፕሊን ቡድን ሲሆን የሚያጠቃልለው Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang, እና Al Youngblood።