• Meta AI 所打造的 NLLB-200 是第一個能對 200 種不同語言提供先進品質翻譯的單一人工智慧(AI)模型,並且已在每種語言的廣泛評估當中獲得驗證。

  • 我們也建立了全新的評估資料集 FLORES-200,並衡量 NLLB-200 在每種語言中運作的成效,以確認能夠提供高品質的翻譯內容。相較於以前的先進技術水準,NLLB-200 的平均品質高出 44%。

  • 我們現在正運用源自這個專案的建模技術和學習成果,在 Facebook、Instagram 和維基百科(Wikipedia)上改善翻譯品質及擴大翻譯範圍。

  • 為協助其他研究人員改善他們的翻譯工具,並以我們的工作為基礎打造更優質的翻譯系統,我們將針對以下項目開放原始碼:NLLB-200 模型、FLORES-200、模型訓練程式碼以及用於重建訓練資料集的程式碼。

語言是我們在世界上展現文化、身分的工具,也是我們的命脈。但因為沒有能夠提供上百種語言的高品質翻譯工具,現今有數十億的用戶無法使用他們慣用的語言或母語在網路上存取數位內容,或者完整參與對話和社群。對於使用非洲和亞洲眾多語言的數億用戶來說,這種情況尤其明顯。

發生錯誤
播放此影片時發生問題。

為協助現今的用戶溝通交流,也作為未來元宇宙的一環,Meta AI 研究人員建立了「不遺漏任何語言」(No Language Left Behind,簡稱 NLLB)專案,致力為全世界大部分的語言開發高品質的機器翻譯功能。現在,我們在此宣佈 NLLB 的一項重大突破:我們已打造出名為 NLLB-200 的單一 AI 模型,能以最先進的成果翻譯 200 種不同語言。目前現有的最佳翻譯工具中,仍有許多語言(例如坎巴文和寮國文)缺乏完善支援,或甚至不受支援。目前廣受使用的翻譯工具支援不到 25 種非洲語言,且多數品質不佳。相比之下,NLLB-200 支援 55 種非洲語言,且提供高品質的翻譯成果。整體而言,這個單一模型可為全球數十億用戶所用的語言提供高品質的翻譯內容。總的來說,NLLB-200 的 BLEU 分數在 FLORES-101 基準的所有 10,000 個方向中,較現有的先進翻譯工具分數平均提升了 44%。在部分非洲和印度語言中,提升幅度相較最新的翻譯系統更提升了 70%。

我們現在已開放 NLLB-200 模型的原始碼並發佈一系列研究工具,讓其他研究人員將此工作擴大至更多語言,以及打造更具包容性的技術。此外,Meta AI 也向非營利組織提供多達 $200,000 美元的補助金,以推廣 NLLB-200 的實際應用。

NLLB 的研究進展將支援 Facebook 動態消息、Instagram 和我們其他平台上每日所提供超過 250 億則翻譯內容。請想像您造訪最愛的 Facebook 社團時,看到一則以伊博文或盧干達文撰寫的貼文,您只要點擊一個按鈕,就能透過自己的語言瞭解貼文內容。此外,高度準確地翻譯更多語言還能協助識別有害內容和錯誤資訊、維護廉正選舉以及遏止發生網路性剝削和人口販運的情形。源自 NLLB 研究的建模技術和學習成果,現在也應用在維基百科編輯人員所用的翻譯系統。

由於翻譯對民眾日常生活的影響極大,因此是 AI 中最值得期待的領域之一。NLLB 不僅能讓用戶更容易存取網路上的內容,還能讓使用不同語言的用戶透過簡易的方式貢獻及分享資訊。我們前方還有更多的工作需要完成,但近期的進展以及這項進展帶領我們向實現 Meta 的使命前進了一大步,給予我們滿滿能量面對未來。

您可以在此探索 NLLB-200 的示範,示範會展示此模型如何翻譯來自世界各地的動態,並在此閱讀研究論文。

為超過十億的用戶解鎖翻譯工具

我們與主辦維基百科和其他免費知識專案的非營利組織維基媒體基金會(Wikimedia Foundation)攜手合作,協助改善維基百科的翻譯系統。維基百科有超過 300 種語言版本,但多數語言版本的文章數量遠少於英文版所提供的超過 6 百萬篇文章。對於主要在歐洲和北美洲以外地區使用的語言來說,這項差距特別巨大。舉例來說,以林加拉文撰寫的維基百科文章約有 3,260 篇,這是由剛果民主共和國、剛果共和國、中非共和國和南蘇丹的 4500 萬人所用的語言。相比之下,如瑞典文這種在瑞典和芬蘭有 1 千萬人使用的語言,卻有超過 250 萬篇文章。

維基百科編輯人員現在正透過維基媒體基金會(Wikimedia Foundation)的內容翻譯工具運用 NLLB-200 模型背後的技術,將文章翻譯成超過 20 種資源匱乏的語言(這些語言沒有可用於訓練 AI 系統的大量資料集),其中包括先前在該平台上沒有任何機器翻譯工具提供支援的 10 種語言。

為數百種語言建立單一模型的挑戰

就像所有 AI 模型一樣,機器翻譯系統需要資料來進行訓練。對文字翻譯系統而言,這通常包含在多種語言之間仔細配對數百萬個句子。但有個簡單例子,在英文與富拉文之間沒有大量的平行結構句子。現有的翻譯模型試圖透過從網路挖掘資料來克服這個問題。但因為每種語言的來源文字不同,所得成果通常品質不佳。此外,這些資料經常充斥著錯誤或不一致的拼法,並且遺漏重音符號和其他變音符號。

另一個重大挑戰是,必須在無損效能或翻譯品質的情況下對單一模型進行最佳化,以在數百種語言之間順利運作。長久以來,最佳翻譯品質都是來自針對每個語言方向建立單獨的模型。但是這種做法難以擴大規模,因為只要新增更多語言,效能和翻譯品質就會下降。

眾多翻譯模型也會產生難以捕捉的錯誤。這些系統是由用於產生文字的神經網路所建立,因此可能會自然產生幻覺(自信地陳述某件事為真實,就算實際上非真實也一樣)、誤報和不安全的內容等錯誤。一般來說,資源匱乏的語言就是擁有較少基準和資料集,這導致測試和改善模型的工作更加困難。

架構、資料來源、基準分析法等方面的創新

近年來,我們在克服上述挑戰時獲得了穩定的進展。2020 年,我們宣佈了 100 種語言的 M2M-100 翻譯模型,這個模型利用全新的方法來取得訓練資料,在無損效能的情況下以新的架構擴大模型規模,並採用新的方式來評估和改善翻譯成果。為了擴大至另外 100 種語言,我們在這三個領域均獲得長足的進展。

擴展訓練資源

為蒐集更多語言的高準確度平行結構文字,我們改善了 LASER,這是我們在自然語言處理(NLP)中用於進行零樣本轉換的工具組。新版的 LASER3 並未採用 LSTM,而是採用以遮罩語言建模(Masked Language Modeling)目標進行自我監督式訓練的 Transformer(轉換)模型。我們採用師生訓練程序及建立語言組專用的編碼器,藉此擴大 LASER3 的語言涵蓋範圍並產生大量的句子配對(就算是資源匱乏的語言也一樣),進一步提升效能。我們將對其他研究人員開放 LASER3 多語言內嵌方法的原始碼,另外也提供不同語言配對的數十億個平行結構句子,這些句子都已經過本文所述各種技術的挖掘和清除程序。

由於我們在尋找更多語言的訓練範例時會更廣泛地網羅來源,因此確保範例維持高品質至關重要。我們徹底翻新了資料清除管道以擴大至 200 種語言,同時新增重要的篩選步驟,包括先使用我們的 LID-200 模型來篩選資料,並從網際網路規模的語料庫中精確移除雜訊。我們為 200 種語言開發了完整的負面內容清單,然後利用這些清單來評估和篩選出可能的幻覺負面內容。這些步驟能夠確保資料集內含正確識別的語言,且更簡潔更少負面內容。這對提升翻譯品質和減少稱為幻覺負面內容的風險極為重要,有助防止系統在翻譯過程中誤將負面內容帶入。

擴大模型規模,同時維持高效能

多語言翻譯系統提供兩大優勢。這類系統能夠讓相似語言在訓練期間共用資料,例如阿薩姆文和孟加拉文都使用孟加拉文作為書寫文字。這能協助資源匱乏的語言透過與相似且擁有大量資源的語言一起進行訓練,大幅提升翻譯品質。此外,研究人員在使用單一多語言模型進行修正、擴大規模和實驗時,會比使用數百或數千個不同雙語言模型更加容易。

不過,要將模型從 100 種語言擴展至 200 種語言仍然有許多重大挑戰。隨著訓練資料中資源匱乏的語言配對越來越多,多語言系統在我們進行較長期的模型訓練時開始過度配對。我們透過三方面的創新技術解決這些問題:正規化與課程學習、自我監督學習以及多樣化的反向翻譯

首先,我們開發出擁有共用且專用資料容量的專家混合(mixture-of-experts)網路,以此將資料不多、資源匱乏的語言自動轉送至共用的資料容量。只要與設計良好的正規化系統結合,這種做法就能避免過度配對。同時,我們也採用兩步驟課程學習的方法,我們會先在數個時期中訓練擁有大量資源的語言,之後再引入資源匱乏的語言配對,這樣就能再次減少過度配對的問題。接著,由於資源匱乏的語言平行結構雙語料資料量較少,我們同時針對資源匱乏的語言和相似且擁有大量資源的語言,進行單語言資料的自我監督學習,以提升整體模型效能。

最後,我們分析如何透過最佳方式產生反向翻譯資料,發現將雙語言統計機器翻譯模型與多語言神經機器翻譯模型所產生的反向翻譯資料混合,能夠提升資源匱乏語言的效能,這歸功於產生的合成資料增加了多樣性。為了訓練含有 54B 參數的 NLLB-200 模型,我們使用了新打造的 Research SuperCluster (RSC),這是世界最快的 AI 超級電腦之一。

適用於 200 種語言的評估和緩解工具

為評估和改善 NLLB-200,我們建立了 FLORES-200,這是獨特的多對多評估資料集,能讓研究人員評估 40,000 個不同語言方向的效能。我們將開放這個新資料集的原始碼,藉此協助其他研究人員迅速測試及改善他們的翻譯模型。FLORES-200 可用於評估應用於各方面的翻譯系統,包括在使用資源匱乏語言的國家或地區內的健康手冊、電影、書籍和網路內容。

擴大至 200 種語言必須解決產生負面內容的風險,這在多向翻譯系統內進行管理愈顯困難。我們對所有支援的語言建立了負面內容清單,以便偵測並篩選出褻瀆詞語和其他可能具冒犯性的內容,藉此解決這個問題。我們會發佈所有 200 種語言的負面內容評估清單和基準,為其他研究人員提供工具,以降低他們模型中的風險。

而為了確保我們以負責任的方式擴展計畫,我們與包括語言學家、社會學家和倫理學家在內的跨學科團隊合作,深入瞭解每種我們研究的語言。

此圖像顯示針對 FLORES-101 在英語雙向翻譯至 100 種語言的平均 BLEU 分數。左側為兩個已發佈的最新模型:M2M 和 Delta LM,支援 100 種語言。右側模型支援 200 種語言:使用 3.3B 參數的基準線 Transformer 模型、使用自我監督學習(SSL)的基準線模型、使用反向翻譯(BT)的基準線模型,以及同時利用自我監督學習和反向翻譯,具有大型混合專家模型的 NLLB-200。

擴展翻譯範圍及提升包容性

高品質的翻譯工具可以帶動革新。現今的現實是僅有少數的語言主導網路,包括英文、中文、西班牙文和阿拉伯文。這些被廣泛使用的語言母語人士可能無法瞭解,能以自己的母語閱讀,其意義有多麽重大。我們相信 NLLB 有助於保留語言,因為它的設計為共用性質,而不需要總是透過中介語言,而在情感/內容上發生錯誤。

這項專案也有助於推動翻譯以外其他 NLP 工作的進展。這包括組建能以爪哇文和烏茲別克文等語言順利運作的助理,或是建立能將寶來塢電影加上準確斯瓦西里文或奧羅莫文字幕的系統。隨著元宇宙開始逐漸成形,建立能夠以數百甚至數千種語言順利運作的技術能力,對於以多種方式存取虛擬世界的全新沉浸式體驗確有幫助。

在短短的幾年前,高品質的機器翻譯只能在少數語言中運作。有了 NLLB-200,我們更接近有一天能擁有一套系統,讓用戶與任何人建立聯繫的這項目標。在我們持續擴大機器翻譯涵蓋範圍的過程中,現在已解鎖的語言以及這對未來可能代表的重大意義,皆令人無限期待。

這項專案由 Meta AI 的跨學科團隊進行,成員包括:Bapi Akula、Pierre Andrews、Necip Fazil Ayan、Loic Barrault、Shruti Bhosale、Marta Ruiz Costa-jussa、James Cross、Onur Çelebi、Sergey Edunov、Maha Elbayad、Angela Fan、Cynthia Gao、Gabriel Mejia Gonzalez、Vedanuj Goswami、Francisco Guzmán、Prangthip Hansanti、Kennet Heafield、Kevin Heffernan、John Hoffman、Semarley Jarrett、Elahe Kalbassi、Philipp Koehn、Janice Lam、Daniel Licht、Jean Maillard、Alexandre Mourachko、Christophe Ropers、Kaushik Ram Sadagopan、Safiyyah Saleem、Holger Schwenk、Shannon Spruit、Anna Sun、Chau Tran、Skyler Wang、Guillaume Wenzek、Jeff Wang 和 Al Youngblood。