• Meta AI ले सिङ्गल AI मोडेल NLLB-200 निर्माण गरेको छ जुन विस्तारित मूल्याङ्कनमार्फत प्रमाणित गरिएको अत्याधुनिक गुणस्तरसहित २०० वटा विभिन्न भाषामा अनुदान गर्ने प्रथम मोडेल हो।

  • हामीले मूल्याङ्कनको नयाँ डेटासेट FlORES-200 पनि सिर्जना गरेका छौँ र अनुवादहरूको गुणस्तर उच्च छन् भन्ने कुरा पुष्टि गर्नका लागि हरेक भाषामा NLLB-200 को पर्फर्मेन्स पनि मापन गरेका छौँ। NLLB-200 ले ४४ प्रतिशतका दरले पुरानो अत्याधुनिक संस्करणभन्दा रम्रो काम गर्छ।

  • हामी अहिले Facebook, Instagram र Wikipedia मा अनुवादहरू सुधार र विस्तार गर्न मोडेलिङका उपायहरू अपनाइरहेका छौँ र परियोजनाबाट सिकिरहेका छौँ।

  • हामी अन्य अन्वेषकहरूलाई आफ्ना अनुवादसम्बन्धी टुलहरू सुधार गर्न र हाम्रो कार्यलाई विकास गर्नमा मद्दत गर्नका लागि NLLB-200 मोडेल, FLORES-200, मोडेल तालिम कोड र तालिमको डेटासेट पुनः सिर्जना गर्ने कोड खुला-स्रोतमा उपलब्ध गराउँदैछौँ।

भाषा भनेको हाम्रो संस्कृति, पहिचान र विश्वमा हाम्रो जीवनरेखा हो। सैयौँ भाषाहरूमा अनुवाद गर्ने उच्च गुणस्तरका टुलहरू उपलब्ध नभएकाले करोडौँ मानिसहरू अहिले आफ्नो रुचाइएको वा स्वदेशी भाषामा डिजिटल सामग्री प्रयोग गर्न वा कुराकानी र समुदायहरूमा पूर्ण रूपमा सहभागी हुन सक्दैनन्। यो तथ्य विशेष गरी अफ्रिका र एसियाका थुप्रै भाषाहरू बोल्ने लाखौँ मानिसहरूका लागि सत्य छ।

केही गडबड भयो
हामीलाई यो भिडियो प्ले गर्न समस्या भइरहेको छ।

मानिसहरूलाई आज अझ राम्रोसँग सम्पर्कमा ल्याउन र भोलिको मेटाभर्सको हिस्सा बनाउनमा मद्दत गर्नका लागि Meta AI अन्वेषकहरूले "कुनै पनि भाषालाई नछाड्ने" (NLLB) सिर्जना गरेको छ। यो भनेको विश्वका प्रायः भाषाहरूका लागि उच्च गुणस्तरका मेसिन अनुवादहरू गर्ने क्षमता विकास गर्ने प्रयास हो। हामी आज NLLB मा महत्त्वपूर्ण ब्रेकथ्रुको घोषणा गर्दै छौँ: हामी NLLB-200 नामक सिङ्गल AI मोडेल निर्माण गरेका छौँ जसले अत्याधुनिक परिणाम दिने गरी २०० वटा विभिन्न भाषाहरूमा अनुवाद गर्छ। यीमध्ये काम्बा र लाओ जस्ता धेरै भाषाहरूले अहिले उपलब्ध अनुवादका उत्कृष्ट टुलहरूका सहायताले पनि राम्रोसँग काम गरेन वा काम गर्दै गरेन। हाल चौडा दायरामा प्रयोग गरिने अनुवाद गर्ने टुलहरूमा २५ वटाभन्दा कम अफ्रिकी भाषाहरूले काम गर्छ — जुनमध्ये धेरैको गुणस्तर न्यून छ। यसको विपरीत रूपमा NLLB-200 ले ५५ वटा अफ्रिकी भाषाहरूमा उच्च गुणस्तरमा अनुवाद गर्छ। समग्र रूपमा यो एउटा मोडेलले विश्वभरका करौडोँ मानिसहरूले बोल्ने भाषाहरूमा उच्च गुणस्तरका अनुवादहरू प्रदान गर्न सक्छ। जम्मा NLLB-200 को BLEU अङ्क ले FLORES-101 बेन्चमार्कका सबै १० हजार दिशामा औसत रूपमा ४४ प्रतिशतका दरले अघिल्लो अत्याधुनिक संस्करणभन्दा राम्रो काम गर्छ। केही अफ्रिकी र भारतीय भाषाहरूका लागि यो वृद्धि हालसालैका अनुवाद प्रणालीहरूभन्दा ७० प्रतिशत बढि छ।

हामी अहिले अन्वेषकहरूलाई यो काम थप भाषाहरूमा विस्तार गर्न र अझ समावेशी प्रविधिहरू निर्माण गर्न NLLB-200 मोडेल खुला स्रोत बनाउँदैछौँ र अन्वेषणका थुप्रै टुलहरू प्रकाशित गर्दै छौँ। Meta AI ले वास्तविक संसारमा NLLB-200 को प्रयोजनका हकमा गैर-नाफामूलक संस्थाहरूलाई $200,000 सम्म अनुदान प्रदान गर्दै छ।

NLLB ले अन्वेषणमा गरेका प्रगतिहरूले Facebook को समाचार फिड, Instagram र हाम्रा अन्य प्लेटफर्महरूमा हरेक दिन सेवा पुर्‍याउने २५ बिलियनभन्दा बढि अनुवादहरूलाई सहायता गर्छ। इग्बो र लुगान्डामा भएको पोस्टमा आउने मन पर्ने Facebook समूहमा भिजिट गर्ने र बटन क्लिक गरेकै भरमा आफ्नै भाषामा बुझ्ने क्षमताका बारेमा कल्पना गर्नुहोस्। थप भाषाहरूमा उच्च सटीक अनुवादहरूले हानिकारक सामग्री र गलत जानकारी पत्ता लगाउन, चुनावको अखण्डता सुरक्षा गर्न र अनलाइन यौन शोषण र मानव तस्करी का घटनाहरूसँग लड्नमा पनि मद्दत गर्न सक्छ। हाम्रो NLLB अन्वेषणका मोडलिङ उपाय र शिक्षाहरू अभ Wikipedia का सम्पादकहरूले प्रयोग गर्ने अनुवादका सिस्टमहरूमा पनि लागू गरिएका छन्।

अनुवाद भनेको AI को सबैभन्दा उत्सुकतापूर्वक क्षेत्र हो किनभने यसले मानिसका दैनिक जीवनलाई असर पार्छ। NLLB भनेको मानिसहरूलाई वेबमा अझ राम्रा सामग्री प्रयोग गर्न दिने कुराभन्दा महत्त्वपूर्ण छ। यसले मानिसहरूलाई विभिन्न भाषाहरूमा जानकारी प्रदान गर्न र बाँड्न सजिलो बनाउँछ। हाम्रो अगाडि अझ बढि काम छ तर हामीले हाम्रो हालसालैको प्रगतिबाट र यसले हामीलाई Meta को अभियान पूरा गर्ने कार्यतर्फ कसरी अगाडि बढाउँदै छ भन्ने कुराबाट ऊर्जा प्राप्त गरेका छौँ।

तपाईं NLLB-200 को डेमो यहाँ अन्वेषण गर्न सक्नुहुन्छ जहाँ यस मोडेलले विश्वभरका स्टोरीहरू अनुवाद गर्न सक्छ भन्ने कुरा देखाउँछ र तपाईं अन्वेषणको कागज यहाँ पढ्न सक्नुहुन्छ।

अझ करोडौँ बढि मानिसहरूका लागि अनुवादका टुलहरू अनलक गर्ने

हामीले Wikipedia मा अनुवादका सिस्टम सुधार गर्नमा मद्दत गर्नका लागि Wikimedia Foundation सँग साझेदार गरेका छौँ जसले Wikipedia र अन्य निःशुल्क ज्ञान दिने परियोजनाहरू आयोजन गर्छ। Wikipedia का संस्करणहरू ३०० भन्दा बढि भाषामा उपलब्ध छ तर प्रायः जसो संस्करणमा अङ्ग्रेजीमा उपलब्ध ६+ मिलियनभन्दा कम लेखहरू छन्। प्राथमिक रूपमा युरोप र उत्तरी अमेरिकामा बोलिने भाषाहरूमा यो अन्तरको ठूलो भूमिका रहेको छ। उदाहरणका लागि, प्रजातान्त्रिक गणराज्य कङ्गो, कङ्गो गणराज्य, केन्द्रीय अफ्रिकी रणराज्य र दक्षिण सूडानका ४५ मिलियन मानिसहरूले बोल्ने लिङ्गाला भाषामा लगभग Wikipedia का ३,२६० वटा लेखहरू उपलब्ध छन्। स्विडेन र फिनल्यान्डमा १० मिलियन मानिसले बोल्ने स्विडिस भाषा (यस भाषामा २.५ मिलियन लेखनहरू छन्) सँग तुलना गर्दा।

Wikipedia का सम्पादकहरू अब यस प्लेटफर्ममा मेसिन अनुवाद गर्ने कुनै पनि टुलले काम नगर्ने १० वटा भाषासहित २० वटा कम स्रोत भएका भाषाहरू (AI प्रणालीहरूलाई तालिम दिनका लागि चाहिने विस्तारित डेटासेटहरू नभएका भाषाहरू) मा अनुवाद गर्नका लागि Wikimedia Foundation को सामग्री अनुवाद टुल प्रस्तुत गर्ने प्रविधि प्रयोग गरिरहेका छन्।

सैयौँ भाषाहरूका लागि एउटै मोडेल निर्माण गर्ने चुनौतीहरू

AI का सबै मोडेलहरू जसरी नै मेसिन अनुवाद सिस्टमहरूले पनि डेटाका सम्बन्दमा तालिमा पाएका हुन्छण्। टेक्स्ट अनुवाद गर्ने सिस्टमहरूका हकमा भाषाहरूबिच होसियारीका साथ मिलाइएका लाखौँ वाक्यहरू समावेश हुन्छण्। तर, ल भनी हेरौँ अङ्ग्रेजी र फुला जस्ता भाषाहरूमा समानान्तर वाक्यहरूको ठूलो सङ्ख्या भने छैन। हालका अनुवाद मोडेलहरूले यो समस्यालाई वेबबाट डेटा माइन गरी समाधान गर्ने प्रयास गर्छन्। तर हरेक भाषाको स्रोत टेक्स्ट फरक भएकाले परिणामहरूको गुणस्तर प्रायः जसो न्यून हुन्छ। साथै यसमा प्रायः जसो गलत वा असमान हिज्जे समावेश गरिएका हुन्छन् र एक्सेन्ट मार्क र अन्य डाएक्रिटिक मार्कहरू छुटेका हुन्छन्।

अर्को ठूलो चुनौती भनेको पर्फर्मेन्स वा अनुवादको गुणस्तरलाई जोखिममा नपारिकनै सैयौँ भाषाहरूमा कम गर्नका लागि एउटै मोडेल अप्टिमाइज गर्नु हो। परम्परागत रूपमा हरेक भाषाको निर्देशनमा छुट्टै मोडेल दिइएका हुनाले अनुवादको गुणस्तर उत्कृष्ट भएको हो। थप भाषाहरू हालिँदै जाँदा पर्फर्मेन्स र अनुवादको गुणस्तरमा नकारात्मक प्रभाव हुने भएकाले यो उपाय मापन गर्न कठिन छ।

अनुवादका मोडेलहरूले भेट्टाउन कठिन हुने त्रुटिहरू पनि उत्पादन गर्छ। यी प्रणालीहरू टेक्स्ट उत्पादन गर्नका लागि प्रयोग गरिने न्युरल नेटवर्कहरूका आधारमा निर्माण गरिएका हुन्छन्, त्यसैकारण तिनले भ्रम (केही कुरा सत्य नभए तापनि सत्य हो भनी आत्मविश्वासका साथ भन्ने), गलत जानकारी र असुरक्षित सामग्री जस्ता त्रुटिहरू प्राकृतिक रूपमा निकाल्न सक्छ। सामान्यतया कम स्रोत भएका भाषाहरूका बेन्चमार्क र डेटासेटहरूको सङ्ख्या नै कम हुन्छन् जसले गर्दा मोडेलहरू परीक्षण र सुधार गर्न निक्कै कठिन बनाउँछ।

वास्तुकला, डेटा स्रोत, बेन्चमार्किङलगायतका थप कुरामा नवप्रवर्तन गर्ने

हामीले विगतका केही वर्षमा माथि व्याख्या गरिएका चुनौतीहरू पार गर्ने स्थिर रूपमा प्रगति गरिरहेका छौँ। हामीले सन् २०२० मा १००-भाषा M2M-१०० अनुवाद मोडेल को घोषणा गरेका थियौँ जसले तालिमसम्बन्धी डेटा हासिल गर्ने नयाँ विधिहरू, पर्फर्मेन्समा असर नपर्ने गरी मोडेलको साइज मापन गर्नका लागि नयाँ वास्तुकलाहरू र परिणामहरू अझ राम्रो बनाउने र सुधार्ने नयाँ तरिकाहरूलाई जोड दिन्छ। अर्को १०० वटा भाषा मापन गर्न हामीले यी सबै क्षेत्रमा थप प्रगति गरेका छौँ।

तालिमका विस्तारित स्रोतहरू

थप भाषाहरूमा उच्च रूपमा सटीक समानान्तर टेक्स्टहरू सङ्कलन गर्न हामीले प्राकृतिक भाषा प्रशोधन (NLP) मा शून्य-सट ट्रान्सफरका लागि हाम्रो टुलकिट LASER सुधार गर्‍यौँ। LSTM को साटो नयाँ संस्करण LASER3 ले मास्क गरिएको भाषा मोडलिङ उद्देश्यसहितको स्वयं सुपरीवेक्षित व्यवहारमा तालिम प्राप्त ट्रान्सफर्मर मोडेल प्रयोग गर्छ। हामीले शिक्षक-विद्यार्थीको तालिम प्रशोधन प्रयोग गरी र हामीलाई कम स्रोत भएका भाषाहरूका लागि पनि LASER3 को भाषा कभरेज मापन गर्न र अत्याधिक मात्राका जोडी वाक्यहरू उत्पादन गर्न सक्षम बनाउने भाषा-समूहका निश्चित इन्कोडरहरू सिर्जना गरी पर्फर्मेन्स बुस्ट गर्‍यौँ। हामी LASER3 बहुभाषीय इम्बेडिङ विधिलाई अन्य अन्वेषकहरूका लागि उपलब्ध गराउन यसलाई खुला स्रोतमा उपलब्ध गराइरहेका छौँ र हामी विभिन्न जोडी भाषाहरूमा करोडौँ समानान्तर वाक्यहरू पनि (यहाँ व्याख्या गरिएका विधिहरू अपनाएर माइन र सफा गरिएका) उपलब्ध गराइरहेका छौँ।

हामी थप भाषाहरूमा तालिमका उदाहरणहरू स्रोत गर्दा चौडा कुल मान कास्ट गर्ने भएकाले उदाहरणहरूको गुणस्तर उच्च छन् भन्ने कुरा सनिश्चित गर्नु महत्त्वपूर्ण थियो। हामीले हाम्रो डेटा सफा गर्ने पाइपलाइन २०० वटा भाषासम्म मापन गर्नका लागि मर्मत गरेका छौँ र हामीले यसअन्तर्गत डेटा फिल्टर गर्न र उच्च गोपनीयताका साथ इन्टरनेट-मापन कोर्पोराबाट नोइज हटाउन सर्वप्रथम हाम्रो LID-200 मोडेलहरूको प्रयोजन समावेश गर्ने फिल्टरिङका मुख्य चरणहरू हाल्यौँ। हामीले २०० भाषाहरूको पूर्ण सेटका लागि टक्सिसिटी सूचीहरू विकास गर्‍यौँ र त्यसपछि सम्भावित भ्रममा परेका टक्सिसिटी निर्धारण र फिल्टर गर्न ती सूचीहरू प्रयोग गर्‍यौँ। यी चरणहरूले हामीलाई सही तरिकाले पहिचान गरिएका भाषाहरूसहित स्पष्ट र कम टक्सिक डेटासेटहरू हुने कुरा सुनिश्चित गर्‍यो। यो अनुवादको गुणस्तर सुधार गर्न र भ्रममा परेको टक्सिसिटी भनी चिनिने जोखिम कम गर्नका लागि महत्त्वपूर्ण छ। यस प्रक्रियाअन्तर्गत प्रणालीले अनुवादको प्रक्रियाका बेला गल्तीले टक्सिक सामग्री समावेश गर्छ।

उच्च पर्फर्मेन्स कायम राख्दै मोडेलको साइज मापन गर्ने

बहुभाषीय अनुवाद प्रणालीहरूले दुई मूख्य लाभहरू प्रस्ताव गर्छ। तिनले तालिमका बेला डेटा सेयर गर्न — बङ्गाली लिपीमा लेखिने अस्सामिसी र बङ्गाली भाषा जस्ता — समान भाषाहरू सक्रिय गर्छ। यसले कम स्रोत भएका भाषाहरूलाई समान उच्च स्रोत भएका भाषाहरूसँग एकसाथ तालिम दिएमा कम स्रोत भएका भाषाहरूको गुणस्तर उल्लेखनीय रूपमा सुधार गर्न मद्दत गर्छ। अन्वेषकहरूले सैयौँ वा हजाौँ बहुभाषीय मोडेलहरूभन्दा अझ सजिलै तरिकामा एउटै बहुभाषीय मोडेलसँग दोहोर्‍याउन, मापन र प्रयोग-परीक्षण गर्न पनि सक्छन्।

तर कुनै मोडेललाई १०० देखि २०० भाषामा विस्तार गर्दा अझै पनि उल्लेखनीय चुनौतीहरू हुन्छन्। तालिम डेटामा कम स्रोत भएका जोडी भाषाहरू भएकाले हामी मोडेलहरूलाई लामो अवधिका लागि तालिम गर्ने क्रममा बहुभाषीय प्रणालीहरू ओभरफिट हुन थाल्छन्। हामीले तीवटा विषयमा नवप्रवर्तन गरी यी समस्याहरू समाधान गर्‍यौँ: नियमन र पाठ्यक्रम शिक्षा, स्वयं सुपरीवेक्षित शिक्षा र विपरित-अनुवाद विविध बनाउने कार्य।

हामीले धेरै डेटा नभएका कम स्रोत भएका भाषाहरूलाई साझा क्षमतामा स्वतः राउट गर्न सकिन्छ भन्नका लागि सर्वप्रथम साझा र विशेष क्षमता भएका मिश्रित विशेषज्ञहरूको नेटवर्कहरू विकास गर्‍यौँ। यसलाई अझ राम्रो डिजाइन गरिएका नियमन प्रणालीहरूसँग संयोजन गर्दा ओभरफिट हुन दिँदैन। हामीले दुई चरणको पाठ्यक्रम शिक्षण उपाय पनि अपनायौँ। यस उपायअन्तर्गत हामीले कम स्रोत भएका भाषाका जोडीहरूको परिचय दिनुअघि उच्च स्रोत भएका भाषाहरूलाई केही इपोक्सका लागि तालिम दिँयौँ जसले पछि फेरि ओभरफिटिङ समस्या कम गर्‍यो। त्यसपछि कम स्रोत भएका भाषाहरूका लागि समानान्तर बाइटेक्स्टका कम गुणस्तरहरू भएकाले हामीले मोडेलको समग्र पर्फर्मेन्स सुधार गर्नका लागि कम स्रोत भएका र समान उच्च स्रोत भएका भाषाहरू दुवैका लागि एक-भाषे डेटा स्वयं सुपरीवेक्षित रूपमा सिक्ने कुरालाई जोड दियौँ।

अन्तिममा गएर हामीले विपरित-अनुवाद डेटा उत्कृष्ट रूपमा कसरी उत्पादन गर्ने भन्ने कुरा विश्लेषण गर्‍यौँ र दोभाषे तथ्याङ्कीय मेसिन अनुवाद र बहुभाषे न्युरल मेसिन अनुवादका मोडेलहरूबाट उत्पादित विपरित-अनुवाद गरिएको डेटा मिश्रण गरेमा कम स्रोत भएका भाषाहरूको पर्फर्मेन्स सुधार गर्न मद्दत गर्छ भन्ने कुरा पत्ता लगायौँ र यसको कारण उत्पादित सिन्थेटिक डेटाको बढ्दो विविधता रहे छ। 54B पारामिटरहरू भएको NLLB-200 मोडेललाई तालिम दिनका लागि हामीले हाम्रो हालसालै निर्मित Research SuperCluster (RSC) लाई जोड दियौँ जुन विश्वमा सबैभन्दा द्रुत AI सुपरकम्प्युटरहरूमध्ये पर्दछ।

२०० वटा भाषाहरूका लागि मूल्याङ्कन र मिटिगेसन टुलहरू

हामीले NLLB-200 मूल्याङ्कन र सुधार गर्नका लागि अन्वेषकहरूलाई भाषाका ४०,००० फरक दिशाहरूमा पर्फर्मेन्स निर्धारण गर्न सक्षम बनाउने अद्वितीय धेरै-देखि-धेरै मूल्याङ्कन डेटासेट FLORES-200 निर्माण गर्‍यौँ। हामी अन्य अन्वेषकहरूलाई आफ्ना अनुवादका मोडेलहरू द्रुत रूपमा परीक्षण र सुधार गर्नमा मद्दत गर्नका लागि यो नयाँ डेटास्रोतलाई खुला स्रोतका रूपमा उपलब्ध गराइरहेका छौँ। FLORES-200 लाई कम स्रोत भएका भाषाहरू बोलिने देश वा क्षेत्रहरूभित्र स्वास्थ्य प्याम्प्लेट, चलचित्र, पुस्तक र अनलाइन सामग्रीसहित विभिन्न प्रयोजनका लागि अनुवादका प्रणालीहरू मूल्याङ्कन गर्नका लागि प्रयोग गर्न सकिन्छ।

२०० वटा भाषासम्म मापन गर्नुको अर्थ टक्सिक सामग्री उत्पादन गर्ने जोखिमहरू सम्बोधन गर्नु पर्ने हुन्छ र यसले गर्दा बहुदिशाका अनुवाद प्रणालीभित्र व्यवस्थापन गर्न कठिन हुन सक्छ। हामीले अश्लीलता र अन्य सम्भावित अपमानजनक सामग्री पत्ता लगाउन र फिल्टर गर्न सम्भव बनाउनका लागि सबै समर्थित भाषाहरूका लागि टक्सिसिटी सूचीहरू निर्माण गरी यसो गर्‍यौँ। हामी अन्य अन्वेषकहरूलाई आफ्ना मोडेलहरूमा जोखिमहरू कम गर्ने टुलहरू दिनका लागि सम्पूर्ण २०० वटा भाषाहरूका लागि टक्सिसिटी मूल्याङ्कन सूचीहरू र बेन्चमार्कहरू जारी गर्दैछौँ।

र हामी हाम्रा प्रयासहरू जिम्मेवार व्यवहारमा विस्तार गरिरहेका छौँ भन्ने कुरा सुनिश्चित गर्नका लागि हामी हामीले विचार गर्ने हरेक भाषाका बारेमा थप जान्नका लागि भाषाविध, समाजशास्त्री र नीतिशास्त्रीहरूसहितको अन्तर-अनुशासनीय टोलीसँग काम गरिरहेका छौँ।

यो ग्राफिकले अङ्ग्रेजीदेखि १०० वटा भाषामा र १०० वटा भाषादेखि अङ्ग्रेजीमा FLORES-101 अनुवानहरूमा औसत BLEU अङ्क देखाउँछ। बायाँ छेउमा १०० वटा भाषामा काम गर्ने प्रकाशित अत्याधुनिक मोडेल M2M र Delta LM छन्। दायाँका मोडेलहरूले २०० वटा भाषामा काम गर्छ: 3.3B पारामिटरहरू भएको बेसलाइज ट्रान्सफर्मर मोडेल, स्वयं सुपरीवेक्षित शिक्षा (SSL) का साथ बेसलाइन मोडेल, उल्टो भाषामा अनुवाद (BT) सहित बेसलाइन मोडेल र NLLB-200, स्वयं सुपरीवेक्षित शिक्षा र उल्टो भाषामा अनुवाद दुवैको फाइदा लिने विशेषज्ञहरूको ठूलो मिश्रणमा आधारित मोडेल।

विस्तारित अनुवाद र अझ बढि समावेशन

अनुवादका उच्च गुणस्तरीय टुलहरू ट्रान्सफर्मेटिभ हुन सक्छण्। अहिले वास्तविक संसारमा — अङ्ग्रेजी, म्यान्डरिन, स्पेनीस र अरबी सहित — केही भाषाहरूले मात्र वेब कब्जा गरेको छ। यी चौडा दायरामा बोलिने भाषा नै मातृ भाषा भएका मानिसहरूले आफ्नै मातृ भाषामा केही कुरा पढ्न कति अर्थपूर्ण छ भन्ने कुराको अर्थ गुमाउन सक्छन्। भाषा भन्ने कुरा प्रायः जसो मनोभाव/सामग्री गलत रूपमा देखिने प्रतिनिधि भाषा आवश्यक पर्नेभन्दा बाँडिनु पर्ने भएकाले NLLB ले यसको संरक्षण गर्न मद्दत गर्ने छ भन्ने कुरामा हामी विश्वास गर्छौँ।

यसले अनुवादबाहेक अन्य NLP कार्यहरूको प्रगति गर्नमा पनि मद्दत गर्न सक्छ। यसमा जाभानिज र उज्बेक जस्ता भाषाहरूमा राम्रोसँग काम गर्ने सहायकहरू निर्माण गर्ने वा बलिवुड चलचित्रहरूमा स्वाहिली वा ओरोमो भाषाका सटीक उपशीर्षकहरू हाल्नका लागि प्रणालीहरू निर्माण गर्ने कार्य समावेश हुन सक्छ। मेटाभर्सले आफ्नो आकार लिन थाल्ने क्रममा सैयौँ वा हजारौँ भाषाहरूमा पनि राम्रोसँग काम गर्ने प्रविधिहरू निर्माण गर्ने क्षमताले साँच्चै नै भर्चुअल संसारमा नयाँ, इम्मरसिभ अनुभवहरू प्रजातान्त्रीकरण गर्नमा मद्दत गर्ने छ।

गत केही वर्षअघि मात्र उच्च गुणस्तरका मेसिन अनुवादले कुनै-कुनै भाषामा मात्र काम गर्थे। NLLB-200 का साथ हामीसँग मानिसहरूलाई जोसुकैसँग पनि सञ्चार गर्न सक्षम बनाउने प्रणालीहरू स्थापित हुनमा दिनप्रति दिन नजिक जाँदै छौँ। हामी यसले वर्तमानमा के कुरा अनलक गर्छ र हामी मेसिन अनुवादहरूको सीमा फैलाउँदै गर्दा भविष्यमा यसको अर्थ के हुने छ भन्ने बारेमा उत्तेजित छौँ।

यो कार्य बापि अकुला, पियरि एन्ड्रस, नेसिप फाजिल आयन, लोइक बार्राउल्ट, श्रुती भोसाले, मार्टा रुइज कोस्टा जुस्सा, जेम्स क्रस, ओनुर सेलेबी, सर्गे इडुनोभ, माहा इल्बायाद, एन्जेला फ्यान, सिन्थिया गावो, ग्याब्रियल मेजिया गोन्जालेस, भेडानुज गोस्वानी, फ्रान्सिस्को गुजमान, प्राङ्थिप हन्सान्ती, केन्नेट हिफिल्ड, केभिन हेफ्फर्नान, जन हफम्यान, सिमर्ली ज्यारेट, इलेइ काल्बास्सी, फिलिप कोहेन, ज्यानिस लाम, ड्यानियल लिट्च, जिन माइलार्ड, एलेक्ज्यान्ड्रा मौराचोको, क्रिस्टोफ रोपोर्स, कौसिक राम सादागोपान, सफिया सलिम, होल्गर स्वेन्च, स्यानन स्प्रुइट, एन्ना सन, चाउ ट्रान, स्काइलर वाङ, गिलौम वेन्जेक, जेफ वाङ र एल यङब्लड समावेश भएका Meta AI को बहुअनुशासनीय टोलीले कार्यान्वयन गरेको हो।