不遺漏任何語言

不遺漏任何語言

透過 AI 翻譯的力量實現兼容並蓄的理念

透過 AI 翻譯的力量實現兼容並蓄的理念

觀看影片
觀看影片

關於不遺漏

任何語言

「不遺漏任何語言」(NLLB)是真正創新、運用人工智慧(AI)突破技術瓶頸的專案,這些開放原始碼的模型能夠直接在 200 種語言之間,提供經過評估的高品質翻譯內容,包括阿斯圖里亞斯文、盧干達文、烏爾都文等資源匱乏的語言。這個專案旨在讓用戶能以自己的母語存取使用及分享網路內容,以及與任何地方的任何人溝通交流,無論他們偏好使用哪一種語言。

關於不遺漏任何語言

「不遺漏任何語言」(NLLB)是真正創新、運用人工智慧突破技術瓶頸的專案,這些開放原始碼的模型能夠直接在 200 種語言之間,提供經過評估的高品質翻譯內容,包括阿斯圖里亞斯文、盧干達文、烏爾都文等資源匱乏的語言。這個專案旨在讓用戶能以自己的母語存取使用及分享網路內容,以及與任何地方的任何人溝通交流,無論他們偏好使用哪一種語言。

應用在現實世界的人工智慧研究

將 AI 技術應用在 Facebook 和 Instagram,以翻譯資源匱乏的語言

我們致力於拉近人們的距離。因此,我們運用各種模型建立技術以及從 NLLB 研究所得的成果,改善 Facebook 和 Instagram 上資源匱乏語言的翻譯品質。透過將這些技術和學習成果應用到我們實際使用的翻譯系統,用戶將能以自己慣用的語言或母語,建立更真實且更有意義的人際關係。未來,我們希望能將透過 NLLB 取得的學習成果擴大至更多 Meta 應用程式。

現實世界的應用程式

打造兼容並蓄的元宇宙

翻譯後的元宇宙:拉近全球用戶的距離

我們打造元宇宙的首要工作,就是整合涵蓋數百種語言的即時 AR/VR 文字翻譯內容。我們的目標是設定兼容並蓄的新標準,希望有一天讓所有人都能存取虛擬世界的內容、裝置和體驗,而且能夠在元宇宙中以任何語言與任何人溝通交流。隨著時間推移,就能逐漸拉近全球人們之間的距離。

現實世界的應用程式

為所有人翻譯維基百科

協助編輯志工以更多語言提供資訊

維基百科的編輯現在可以透過維基媒體基金會(Wikimedia Foundation)的內容翻譯工具運用 NLLB-200 模型背後的技術,將資訊翻譯成他們的母語或慣用語言。維基百科的編輯可運用這項技術有效率地翻譯和編輯源自其他使用人口較少的語言的文章,例如盧干達文和冰島文等等。這樣就能透過更多的語言,為世界各地的維基百科讀者提供更多知識。此外,這個開放原始碼 NLLB-200 模型也能協助研究人員和感興趣的維基百科編輯以我們的工作成果為基礎建立社群。

體驗科技

透過翻譯說故事:

全球書籍以上百種語言呈現

透過翻譯說故事:

全球書籍以上百種語言呈現

「透過翻譯說故事」(Stories Told Through Translation)是使用「不遺漏任何語言」(No Language Left Behind,NLLB)計畫最新 AI 研究進展的示範,歡迎由此體驗 AI 翻譯的能力。此示範能將書籍由原本的語言(例如印尼文、索馬利文和緬甸文)翻譯成更多語言供讀者閱讀,並將於接下來數個月內提供上百種語言。透過此計畫,NLLB-200 將成為史上第一個能以如此規模翻譯文學作品的 AI 模型。

科技

機器翻譯說明

開放程式碼的 NLLB 模型如何直接翻譯 200 種語言?

階段 1

自動建構資料集

階段 1:自動建構資料集

收集包含輸入語言和所需輸出語言中的句子,作為訓練資料。

發生錯誤
播放此影片時發生問題。

階段 2

訓練

階段 2:訓練

針對數以千計的訓練方向建立對應的訓練資料後,這些資料會饋送至我們的模型訓練管道。這些模型由兩個部分組成:一個是編碼器,可將輸入的句子轉換為內部向量表示;另一個則是解碼器,可擷取此內部向量表示並產生準確的輸出句子。藉由使用數百萬的翻譯範例進行訓練,模型就能透過學習產生更準確的翻譯內容。

發生錯誤
播放此影片時發生問題。

階段 3

評估

階段 3:評估

最後,我們會使用一組人工翻譯的句子來評估模型,以確認翻譯品質能夠令人滿意。這包括透過利用我們為所有支援語言建立的負面內容清單,偵測及篩選出褻瀆詞語和其他有冒犯性的內容。如此得到的結果就是能夠直接翻譯語言、訓練有素的模型。

發生錯誤
播放此影片時發生問題。

階段 1

自動建構資料集

階段 2

訓練

階段 3

評估

階段 1:自動建構資料集

收集包含輸入語言和所需輸出語言中的句子,作為訓練資料。

發生錯誤
播放此影片時發生問題。

階段 2:訓練

針對數以千計的訓練方向建立對應的訓練資料後,這些資料會饋送至我們的模型訓練管道。這些模型由兩個部分組成:一個是編碼器,可將輸入的句子轉換為內部向量表示;另一個則是解碼器,可擷取此內部向量表示並產生準確的輸出句子。藉由使用數百萬的翻譯範例進行訓練,模型就能透過學習產生更準確的翻譯內容。

發生錯誤
播放此影片時發生問題。

階段 3:評估

最後,我們會使用一組人工翻譯的句子來評估模型,以確認翻譯品質能夠令人滿意。這包括透過利用我們為所有支援語言建立的負面內容清單,偵測及篩選出褻瀆詞語和其他有冒犯性的內容。如此得到的結果就是能夠直接翻譯語言、訓練有素的模型。

發生錯誤
播放此影片時發生問題。

創新

突破背後的科學基礎

現今大多數的機器翻譯(MT)模型能翻譯擁有中量至大量資源的語言,但較難翻譯資源匱乏的語言。Meta AI 研究人員運用了三大 AI 創新技術來解決這個問題。

針對資源匱乏的語言自動建構資料集

背景資訊

機器翻譯是一項受監督的學習工作,這意味著模型需要資料方能從中學習,過去使用的往往是透過開放原始碼資料蒐集而來的翻譯範例。而我們的解決方案是比對單語言文件不同資料集中的句子,藉此自動建構翻譯配對。

挑戰

這項資料集建立程序所用的 LASER 模型主要支援擁有中量至大量資源的語言,欲針對資源匱乏的語言產生意義精準的翻譯配對近乎不可能。

創新

我們的解決方式是將心力投入一項師生訓練程序,藉此達成以下目標:(1)將 LASER 的語言涵蓋範圍擴大至 200 種語言(2)產生大量的資料,即使是資源匱乏的語言也一樣。

為 200 種語言製作模型

背景資訊

相較於雙語言系統,多語言機器翻譯系統的翻譯能力多有進展。這是因為多語言機器翻譯系統能夠從訓練資料豐富的語言組合「移轉」至其他訓練資源較少的語言。

挑戰

聯合訓練數百個語言組合有其缺點,因為同一個模型將須使用相同數目的參數來代表數量漸增的語言。當資料集大小不均時,就會產生問題,因為這可能會導致過度配適。

創新

我們開發了擁有共用且專用資料容量的稀疏多專家(Sparse Mixture-of-Experts)模型,以便將資料不多、資源匱乏的語言自動轉送至共用的資料容量。只要與更好的正則化系統結合,這種做法就能避免過度配適。此外,我們還透過多種類型的反向翻譯,運用自我監督學習和大規模擴增資料的功能。

評估翻譯品質

背景資訊

為瞭解由模型產生的翻譯內容是否符合品質標準,我們必須加以評估。

挑戰

機器翻譯模型的評估方式通常是將機器翻譯的句子與人工翻譯的句子比較,但是許多語言都無法提供可信賴的翻譯資料,因此無法進行準確的評估。

創新

我們將 FLORES(人工翻譯評估基準)的涵蓋範圍擴大兩倍,使 FLORES 現在涵蓋 200 種語言。透過自動衡量指標和人工評估支援,我們得以大規模量化系統的翻譯品質。
歡迎參閱我們的白皮書部落格以深入瞭解 NLLB 背後的科學基礎,並且下載此模型來協助我們進一步發展此專案。

歡迎參閱我們的白皮書部落格,以深入瞭解 NLLB 背後的科學基礎,並且下載此模型來協助我們進一步發展此專案。

歷程

研究里程碑
研究里程碑

Meta AI 正持續發展機器翻譯技術,同時也在過程中成功克服了無數業界難題,例如取得資源匱乏語言的資料以及提升翻譯品質和準確度。隨著我們透過 AI 翻譯的力量實現兼容並蓄的理念,這個歷程仍將持續下去。

Meta AI 正持續發展機器翻譯技術,同時也在過程中成功克服了無數業界難題,例如取得資源匱乏語言的資料以及提升翻譯品質和準確度。隨著我們透過 AI 翻譯的力量實現兼容並蓄的理念,這個歷程仍將持續下去。

依據已發佈的語言數量查看模型里程碑

少於 50 種語言

50 到 99 種語言

100 種語言

200 種語言

LASER(Language-agnostic sentence representations,不限語言的語句表述)

2018

針對大量多語言語句表述的首個成功研究,在此與 NLP 社群公開分享。當中的編碼器會透過建立嵌入內容,自動將 50 種語言中意義相同的句子配對。

資料編碼器

WMT-19

2019

FB AI 模型的表現在 WMT 2019 中勝過所有其他模型,它們採用了大規模取樣的反向翻譯、雜訊管道建模,以及資料清除技術來打造功能強大的系統。

模型

Flores V1

2019

英文與資源匱乏語言之間的機器翻譯基準分析資料集引入了公平且嚴格的評估程序(從 2 種語言開始)。

評估資料集

WikiMatrix

2019

多種語言之間最大規模的平行語句擷取作業:針對維基百科的 1.35 億個語句,進行 1,620 個語言組合的雙語文本擷取作業,以打造更好的翻譯模型。

資料建構

M2M-100

2020

第一個能在不使用英文資料的情況下,直接對譯 100 種語言之中任意兩種語言的單一多語言機器翻譯模型。這個模型經過了 2,200 種語言方向的訓練,較先前的多語言模型多出 10 倍。

模型

CCMatrix

2020

以網頁為基礎的高品質雙語文本資料集中的最大者,用於建立能處理更多語言的優質翻譯模型,特別是資源匱乏語言:576 個語言組合中的 45 億個平行結構語句。

資料建構

LASER 2

2020

透過建立嵌入內容,自動將 100 種語言中意義相同的句子配對。

資料編碼器

WMT-21

2021

單一多語言模型首次超越經過特殊訓練的最佳雙語言模型,在 14 種語言組合當中的 10 種提出更為優質的翻譯,贏得 WMT 2021 的殊榮,針對資源匱乏和資源充足的語言均能提供最佳翻譯內容。

模型

FLORES-101

2021

FLORES-101 是首個多對多評估資料集,範圍涵蓋 101 種語言,能讓研究人員快速測試並改善 M2M-100 等多語言翻譯模型。

評估資料集

NLLB-200

2022

NLLB 模型可翻譯 200 種語言。

模型

FLORES 200

2021

擴充 FLORES 評估資料集的內容,現在涵蓋 200 種語言

評估資料集

NLLB-Data-200

2022

建構與發佈 200 種語言的訓練資料

評估資料集

LASER 3

2022

透過建立嵌入內容,自動將 200 種語言中意義相同的句子配對。

資料編碼器

少於 50 種語言

50 到 100 種語言

100 種語言

200 種語言

LASER(Language-agnostic sentence representations,不限語言的語句表述)

2018

針對大量多語言語句表述的首個成功研究,在此與 NLP 社群公開分享。編碼器透過建立嵌入內容,自動將 50 種語言中意義相同的句子配對。

資料編碼器

WMT-19

2019

FB AI 模型的表現在 WMT 2019 中勝過所有其他模型,它採用了大規模取樣的反向翻譯、雜訊管道建模,以及資料清除技術來打造功能強大的系統。

模型

Flores V1

2019

英文與資源匱乏語言之間的機器翻譯基準分析資料集引入了公平且嚴格的評估程序,從 2 種語言開始。

評估資料集

WikiMatrix

2019

多種語言之間最大規模的平行語句擷取作業:針對維基百科的 1.35 億個語句,進行 1,620 個語言組合的雙語文本擷取作業,以打造更好的翻譯模型。

資料建構

M2M-100

2020

第一個能在不使用英文資料的情況下,直接對譯 100 種語言之中任意兩種語言的單一多語言機器翻譯模型。這個模型經過了 2,200 種語言方向的訓練,超過先前多語言模型的 10 倍。

模型

CCMatrix

2020

以網頁為基礎的高品質雙語文本資料集中的最大者,用於建立能處理更多語言的優質翻譯模型,特別是資源匱乏語言:576 個語言組合中的 45 億個平行結構語句。

資料建構

LASER 2

2020

透過建立嵌入內容,自動將 100 種語言中意義相同的句子配對。

資料編碼器

WMT-21

2021

單一多語言模型首次超越經過特殊訓練的最佳雙語言模型,在 14 種語言組合當中的 10 種提出更為優質的翻譯,贏得 WMT 2021 的殊榮,針對資源匱乏和資源充足的語言均能提供最佳翻譯內容。

模型

FLORES-101

2021

FLORES-101 是首個多對多評估資料集,範圍涵蓋 101 種語言,能讓研究人員快速測試並改善 M2M-100 等多語言翻譯模型。

評估資料集

NLLB-200

2022

NLLB 模型可翻譯 200 種語言。

模型

FLORES 200

2021

擴充 FLORES 評估資料集的內容,現在涵蓋 200 種語言

評估資料集

NLLB-Data-200

2022

建構與發佈 200 種語言的訓練資料

評估資料集

LASER 3

2022

透過建立嵌入內容,自動將 200 種語言中意義相同的句子配對。

資料編碼器

NLLB-200 模型可翻譯 200 種語言,是先前模型的 2 倍

相較於先前的頂尖模型,我們最終的模型在 BLEU 表現上具有高出 44% 的進步

75 種商業翻譯系統先前未支援的語言

180 億個平行結構語句,訓練資料超過先前 M2M-100 模型的 2.5 倍

最大的開放原始碼機器翻譯模型 54B,參數數量較先前的 M2M-100 模型大 5 倍

單一模型支援 40,000 個翻譯方向,超過先前基準能力的 4 倍

NLLB 的研究進展支援 Facebook 動態消息、Instagram 和我們其他平台上每日所提供超過 250 億則翻譯內容

NLLB-200 模型可翻譯 200 種語言,是先前模型的 2 倍

相較於先前的頂尖模型,我們最終的模型在 BLEU 表現上具有高出 44% 的進步

75 種商業翻譯系統先前未支援的語言

180 億個平行結構語句,訓練資料超過先前 M2M-100 模型的 2.5 倍

最大的開放原始碼機器翻譯模型 54B,參數數量較先前的 M2M-100 模型大 5 倍

單一模型支援 40,000 個翻譯方向,超過先前基準能力的 4 倍

NLLB 的研究進展支援 Facebook 動態消息、Instagram 和我們其他平台上每日所提供超過 250 億則翻譯內容

瞭解詳情

一起讓「不遺漏任何語言」更進一步

關於「不遺漏任何語言」(NLLB),我們還有很多需要學習,而要達成目標更有許多事項等待完成。歡迎參閱我們的白皮書和部落格以瞭解詳情,並且下載模型來協助我們進一步發展此專案。雖然我們已擴展到 200 種語言,但這只是開始。在我們持續進行翻譯與實現兼容並蓄理念的重要旅程中,歡迎加入我們,和我們一起實現這個願景。