Tiada Bahasa Terkecuali

Tiada Bahasa Terkecuali

Mendorong rangkuman melalui kuasa terjemahan AI

Mendorong rangkuman melalui kuasa terjemahan AI

Tonton video
Tonton video

Perihal Tiada Bahasa

Terkecuali

Tiada Bahasa Terkecuali (NLLB) ialah projek kemajuan AI pertama yang memberi keupayaan kepada model sumber terbuka untuk menyampaikan terjemahan berkualiti tinggi yang dinilai secara langsung antara 200 bahasa—termasuk bahasa sumber rendah seperti Asturian, Luganda, Urdu dan banyak lagi. Projek ini bertujuan untuk memberi peluang kepada orang ramai untuk mengakses dan berkongsi kandungan web dalam bahasa ibunda mereka dan berkomunikasi dengan sesiapa sahaja, di mana jua, tanpa mengira pilihan bahasa mereka.

Perihal Tiada Bahasa Terkecuali

Tiada Bahasa Terkecuali (NLLB) ialah projek kemajuan AI pertama yang memberi keupayaan kepada model sumber terbuka untuk menyampaikan terjemahan berkualiti tinggi yang dinilai secara langsung antara 200 bahasa—termasuk bahasa sumber rendah seperti Asturian, Luganda, Urdu dan banyak lagi. Projek ini bertujuan untuk memberi peluang kepada orang ramai untuk mengakses dan berkongsi kandungan web dalam bahasa ibunda mereka dan berkomunikasi dengan sesiapa sahaja, di mana jua, tanpa mengira pilihan bahasa mereka.

penyelidikan ai untuk aplikasi dunia sebenar

Menggunakan Teknik AI pada Facebook dan Instagram untuk terjemahan bahasa sumber rendah

Kami komited untuk menyatukan orang ramai. Itulah sebabnya kami menggunakan teknik pemodelan dan pembelajaran daripada penyelidikan NLLB kami untuk menambah baik terjemahan bahasa sumber rendah di Facebook dan Instagram. Dengan menggunakan teknik dan pembelajaran ini pada sistem terjemahan pengeluaran kami, orang ramai akan dapat membuat hubungan yang lebih sahih dan lebih bermakna dalam bahasa pilihan atau bahasa ibunda mereka. Pada masa hadapan, kami berharap dapat melanjutkan pembelajaran kami daripada NLLB kepada lebih banyak aplikasi Meta.

APLIKASI DUNIA SEBENAR

Membina metaverse terangkum

Metaverse yang diterjemahkan: menyatukan orang ramai pada skala global

Semasa kami membina metaverse, menyepadukan terjemahan teks AR/VR masa nyata dalam ratusan bahasa ialah satu keutamaan. Matlamat kami adalah untuk menetapkan standard rangkuman baharu—di mana suatu hari nanti semua orang boleh mempunyai akses kepada kandungan, peranti dan pengalaman dunia maya, berserta keupayaan untuk berkomunikasi dengan sesiapa sahaja, dalam mana-mana bahasa dalam metaverse. Dan dari semasa ke semasa, menyatukan orang ramai pada skala global.

APLIKASI DUNIA SEBENAR

Menterjemahkan Wikipedia untuk semua orang

Membantu penyunting sukarela menyediakan maklumat dalam lebih banyak bahasa

Teknologi di sebalik model NLLB-200, kini tersedia melalui alat Terjemahan Kandungan Yayasan Wikimedia, menyokong penyunting Wikipedia semasa mereka menterjemahkan maklumat ke dalam bahasa ibunda dan bahasa pilihan mereka. Penyunting Wikipedia menggunakan teknologi untuk menterjemah dan menyunting artikel yang berasal daripada bahasa lain yang kurang diwakili dengan lebih cekap, seperti Luganda dan Iceland. Ini membantu untuk menyediakan lebih banyak pengetahuan dalam lebih banyak bahasa untuk pembaca Wikipedia di seluruh dunia. Model NLLB-200 sumber terbuka juga akan membantu penyelidik dan komuniti penyunting Wikipedia yang berminat melakar kejayaan dengan usaha kami.

Rasai Pengalaman Teknologi

Penceritaan Melalui Terjemahan:

buku dari seluruh dunia diterjemahkan ke dalam ratusan bahasa

Penceritaan Melalui Terjemahan:

buku dari seluruh dunia diterjemahkan ke dalam ratusan bahasa

Alami kuasa terjemahan AI dengan Cerita yang Diceritakan Melalui Terjemahan, demo kami yang menggunakan kemajuan AI terkini daripada projek No Language Left Behind. Demo ini menterjemah buku daripada bahasa asal mereka seperti bahasa Indonesia, bahasa Somalia dan bahasa Burma, ke dalam lebih banyak bahasa untuk pembaca—dengan ratusan bahasa tersedia dalam beberapa bulan akan datang. Melalui inisiatif ini, NLLB-200 akan menjadi model AI pertama yang mampu menterjemahkan sastera pada skala ini.

Kampung Bunga Ros

Oleh Su Nyein Chan

Seorang petani tinggal di sebuah kampung yang hanya menanam bunga ros merah. Apakah yang akan berlaku apabila dia menanam benih aneh dari kotak yang ditemukan di ruang bawah tanahnya?

Baca Cerita
Gajah Di Dalam Rumah Saya

Oleh Prum Kunthearo

Apabila anak gajah berlari masuk ke dalam rumah mereka, Botom cemburu dengan perhatian yang diterimanya. Bolehkah Botom menyingkirkan gajah itu, atau adakah dia akan berkawan dengan makhluk yang disayangi itu juga?

Baca Cerita
Apakah Impian Saya?

oleh Nabila Adani

Seorang gadis mendapat inspirasi daripada tugasan sekolah untuk memikirkan cita-citanya apabila dewasa kelak. Apakah bentuk inspirasi yang akan mendorong pemilihan cita-citanya?

Baca Cerita
Samad di dalam hutan

Oleh Mohammed Umar

Samad menyayangi haiwan. Impiannya adalah untuk bersantai sepanjang hari di dalam hutan dan tidur di rumah pokok. Ikuti Samad sepanjang pengembaraan ini di mana beliau mendapat rakan baharu yang hebat dan penemuan yang menakjubkan. Mengembara memasuki hutan sangat menyeronokkan.

Baca Cerita
Putera Raja dan Sang Harimau

Oleh Wulan Mulya Pratiwi

Putera raja tersesat di dalam hutan. Seekor harimau sedang menjejakinya. Apakah yang akan dilakukan oleh baginda?

Baca Cerita

Teknologi

Terjemahan mesin dijelaskan

Bagaimanakah model NLLB sumber terbuka secara langsung menterjemah 200 bahasa?

PERINGKAT 1

Pembinaan set data automatik

Peringkat 1: Pembinaan set data automatik

Data latihan yang dikumpulkan mengandungi ayat dalam bahasa input dan bahasa output yang dikehendaki.

Sesuatu Telah Berlaku
Kami bermasalah bermain video ini.

PERINGKAT 2

Latihan

Peringkat 2: Latihan

Selepas mencipta data latihan yang sejajar untuk ribuan arah latihan, data ini dimasukkan ke dalam saluran latihan model kami. Model ini terdiri daripada dua bahagian: pengekod, yang menukarkan ayat input kepada perwakilan vektor dalaman; dan penyahkod, yang mengambil perwakilan vektor dalaman ini dan menjana ayat output dengan tepat. Dengan melatih jutaan terjemahan contoh, model belajar untuk menjana terjemahan yang lebih tepat.

Sesuatu Telah Berlaku
Kami bermasalah bermain video ini.

PERINGKAT 3

Penilaian

Peringkat 3: Penilaian

Akhir sekali, kami menilai model kami terhadap set terjemahan ayat yang diterjemah oleh manusia untuk mengesahkan bahawa kami berpuas hati dengan kualiti terjemahan. Ini termasuk mengesan dan menapis perkataan kesat dan kandungan menyinggung lain melalui penggunaan senarai ketoksikan yang kami bina untuk semua bahasa yang disokong. Hasilnya ialah model terlatih yang dapat menterjemah bahasa secara langsung.

Sesuatu Telah Berlaku
Kami bermasalah bermain video ini.

PERINGKAT 1

Pembinaan set data automatik

PERINGKAT 2

Latihan

PERINGKAT 3

Penilaian

Peringkat 1: Pembinaan set data automatik

Data latihan yang dikumpulkan mengandungi ayat dalam bahasa input dan bahasa output yang dikehendaki.

Sesuatu Telah Berlaku
Kami bermasalah bermain video ini.

Peringkat 2: Latihan

Selepas mencipta data latihan yang sejajar untuk ribuan arah latihan, data ini dimasukkan ke dalam saluran latihan model kami. Model ini terdiri daripada dua bahagian: pengekod, yang menukarkan ayat input kepada perwakilan vektor dalaman; dan penyahkod, yang mengambil perwakilan vektor dalaman ini dan menjana ayat output dengan tepat. Dengan melatih jutaan terjemahan contoh, model belajar untuk menjana terjemahan yang lebih tepat.

Sesuatu Telah Berlaku
Kami bermasalah bermain video ini.

Peringkat 3: Penilaian

Akhir sekali, kami menilai model kami terhadap set terjemahan ayat yang diterjemah oleh manusia untuk mengesahkan bahawa kami berpuas hati dengan kualiti terjemahan. Ini termasuk mengesan dan menapis perkataan kesat dan kandungan menyinggung lain melalui penggunaan senarai ketoksikan yang kami bina untuk semua bahasa yang disokong. Hasilnya ialah model terlatih yang dapat menterjemah bahasa secara langsung.

Sesuatu Telah Berlaku
Kami bermasalah bermain video ini.

Inovasi

Sains di sebalik kejayaannya

Kebanyakan model terjemahan mesin (MT) hari ini berfungsi untuk bahasa sumber sederhana hingga tinggi—menyebabkan kebanyakan bahasa sumber rendah jauh ketinggalan. Penyelidik Meta AI sedang menangani isu ini dengan tiga inovasi AI yang penting.

Pembinaan set data automatik untuk bahasa sumber rendah

Konteks

MT ialah tugas pembelajaran yang diselia, yang bermaksud model memerlukan data untuk dipelajari. Contoh terjemahan daripada koleksi data sumber terbuka sering digunakan. Penyelesaian kami adalah untuk membina padanan terjemahan secara automatik dengan memadankan ayat dalam koleksi dokumen ekabahasa yang berbeza.

Cabaran

Model LASER yang digunakan untuk proses penciptaan set data ini terutamanya menyokong bahasa sumber sederhana hingga tinggi, menjadikan ini mustahil untuk menghasilkan padanan terjemahan yang tepat untuk bahasa sumber rendah.

Inovasi

Kami menyelesaikan ini dengan melabur dalam prosedur latihan guru dan pelajar, yang memungkinkan usaha 1) meluaskan liputan bahasa LASER kepada 200 bahasa dan 2) menghasilkan sejumlah besar data, walaupun untuk bahasa sumber rendah.

Memodelkan 200 bahasa

Konteks

Sistem MT berbilang bahasa telah ditambah baik berbanding dengan sistem dwibahasa. Ini disebabkan oleh keupayaan mereka untuk mendayakan "pemindahan" daripada padanan bahasa dengan banyak data latihan, kepada bahasa lain dengan sumber latihan yang lebih sedikit.

Cabaran

Melatih bersama ratusan padanan bahasa sekali gus terdapat kelemahannya, kerana model yang sama mestilah mewakili bilangan bahasa yang semakin besar dengan bilangan parameter yang sama. Ini ialah isu yang berlaku apabila saiz set data tidak seimbang, kerana ini boleh menyebabkan terlampau padan.

Inovasi

Kami telah membangunkan model Campuran Pakar Jarang yang mempunyai kapasiti kongsi dan khusus, maka bahasa sumber rendah tanpa banyak data boleh dihalakan secara automatik ke kapasiti kongsi. Apabila digabungkan dengan sistem pengaturcaraan yang lebih baik, ini mengelakkan terlampau padan. Selanjutnya, kami menggunakan pembelajaran seliaan kendiri dan penambahan data berskala besar melalui berbilang jenis penterjemahan balik.

Menilai kualiti terjemahan

Konteks

Untuk mengetahui sama ada terjemahan yang dihasilkan oleh model kami memenuhi piawaian kualiti kami, kami perlu membuat penilaian.

Cabaran

Model terjemahan mesin biasanya dinilai dengan membandingkan ayat terjemahan mesin dengan terjemahan manusia, namun untuk kebanyakan bahasa, data terjemahan yang boleh dipercayai tidak tersedia. Jadi penilaian yang tepat tidak dapat dilakukan.

Inovasi

Kami telah melanjutkan 2x liputan FLORES, iaitu penanda aras penilaian terjemahan manusia, yang kini meliputi 200 bahasa. Melalui metrik automatik dan sokongan penilaian manusia, kami dapat mengukur kualiti terjemahan kami secara meluas.
Ketahui lebih lanjut tentang sains di sebalik NLLB dengan membaca kertas putih dan blog kami, dan dengan memuat turun model untuk membantu kami meneruskan projek ini.

Ketahui lebih lanjut tentang sains di sebalik NLLB dengan membaca kertas putih dan blog kami dan dengan memuat turun model untuk membantu kami meneruskan projek ini.

Perjalanan

Peristiwa penting penyelidikan
Peristiwa penting penyelidikan

Meta AI telah memajukan teknologi Terjemahan Mesin di samping berjaya mengatasi pelbagai cabaran industri—daripada ketidaktersediaan data untuk bahasa sumber rendah hingga kualiti dan ketepatan terjemahan. Perjalanan kami diteruskan, sambil kami mendorong rangkuman melalui kuasa terjemahan AI.

Meta AI telah memajukan teknologi Terjemahan Mesin di samping berjaya mengatasi pelbagai cabaran industri—daripada ketidaktersediaan data untuk bahasa sumber rendah hingga kualiti dan ketepatan terjemahan. Perjalanan kami diteruskan, sambil kami mendorong rangkuman melalui kuasa terjemahan AI.

Lihat peristiwa penting model mengikut # bahasa yang dikeluarkan

< 50 bahasa

50-99 bahasa

100 bahasa

200 bahasa

LASER (Perwakilan ayat agnostik bahasa)

2018

Penerokaan pertama yang berjaya bagi perwakilan ayat berbilang bahasa dikongsi secara terbuka dengan komuniti NLP. Pengekod mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 50 bahasa secara automatik.

Pengekod Data

WMT-19

2019

Model AI FB mengatasi semua model lain di WMT 2019, menggunakan penterjemahan balik sampel berskala besar, pemodelan saluran hingar dan teknik pembersihan data untuk membantu membina sistem yang kukuh.

Model

Flores V1

2019

Set data penandaan aras untuk MT antara bahasa Inggeris dengan bahasa sumber rendah yang memperkenalkan proses penilaian yang adil dan rapi, bermula dengan 2 bahasa.

Set Data Penilaian

WikiMatrix

2019

Pengekstrakan terbesar bagi ayat selari merentasi berbilang bahasa: Pengekstrakan biteks sebanyak 135 juta ayat Wikipedia dalam 1,620 padanan bahasa untuk membina model terjemahan yang lebih baik.

Pembinaan Data

M2M-100

2020

Model terjemahan mesin berbilang bahasa tunggal yang pertama untuk menterjemah secara langsung antara mana-mana padanan 100 bahasa tanpa bergantung pada data bahasa Inggeris. Dilatih berdasarkan 2,200 arah bahasa —10x lebih banyak daripada model berbilang bahasa terdahulu.

Model

CCMatrix

2020

Set data terbesar bagi biteks berasaskan web berkualiti tinggi untuk membina model terjemahan yang lebih baik yang berfungsi dengan lebih banyak bahasa, terutamanya bahasa sumber rendah: 4.5 bilion ayat selari dalam 576 padanan bahasa.

Pembinaan Data

LASER 2

2020

Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 100 bahasa secara automatik.

Pengekod Data

WMT-21

2021

Buat kali pertama, model berbilang bahasa tunggal mengatasi model dwibahasa terlatih khas yang terbaik merentasi 10 daripada 14 padanan bahasa untuk memenangi WMT 2021, menyediakan terjemahan yang terbaik untuk bahasa sumber rendah dan tinggi.

Model

FLORES-101

2021

FLORES-101 ialah set data penilaian yang pertama seumpamanya dan banyak dengan banyak yang meliputi 101 bahasa, mendayakan penyelidik menguji serta menambah baik model terjemahan berbilang bahasa seperti M2M-100 dengan pantas.

Set Data Penilaian

NLLB-200

2022

Model NLLB menterjemah 200 bahasa.

Model

FLORES 200

2021

Pengembangan set data penilaian FLORES kini meliputi 200 bahasa

Set Data Penilaian

NLLB-Data-200

2022

Data latihan yang disusun dan dikeluarkan untuk 200 bahasa

Set Data Penilaian

LASER 3

2022

Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 200 bahasa secara automatik.

Pengekod Data

< 50 bahasa

50-100 bahasa

100 bahasa

200 bahasa

LASER (Perwakilan ayat agnostik bahasa)

2018

Penerokaan pertama yang berjaya bagi perwakilan ayat berbilang bahasa dikongsi secara terbuka dengan komuniti NLP. Pengekod mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 50 bahasa secara automatik.

Pengekod Data

WMT-19

2019

Model AI FB mengatasi semua model lain di WMT 2019, menggunakan penterjemahan balik sampel berskala besar, pemodelan saluran hingar dan teknik pembersihan data untuk membantu membina sistem yang kukuh.

Model

Flores V1

2019

Set data penandaan aras untuk MT antara bahasa Inggeris dengan bahasa sumber rendah yang memperkenalkan proses penilaian yang adil dan rapi, bermula dengan 2 bahasa.

Set Data Penilaian

WikiMatrix

2019

Pengekstrakan terbesar bagi ayat selari merentasi berbilang bahasa: Pengekstrakan biteks sebanyak 135 juta ayat Wikipedia dalam 1,620 padanan bahasa untuk membina model terjemahan yang lebih baik.

Pembinaan Data

M2M-100

2020

Model terjemahan mesin berbilang bahasa tunggal yang pertama untuk menterjemah secara langsung antara mana-mana padanan 100 bahasa tanpa bergantung pada data bahasa Inggeris. Dilatih berdasarkan 2,200 arah bahasa —10x lebih banyak daripada model berbilang bahasa terdahulu.

Model

CCMatrix

2020

Set data terbesar bagi biteks berasaskan web berkualiti tinggi untuk membina model terjemahan yang lebih baik yang berfungsi dengan lebih banyak bahasa, terutamanya bahasa sumber rendah: 4.5 bilion ayat selari dalam 576 padanan bahasa.

Pembinaan Data

LASER 2

2020

Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 100 bahasa secara automatik.

Pengekod Data

WMT-21

2021

Buat kali pertama, model berbilang bahasa tunggal mengatasi model dwibahasa terlatih khas yang terbaik merentasi 10 daripada 14 padanan bahasa untuk memenangi WMT 2021, menyediakan terjemahan yang terbaik untuk bahasa sumber rendah dan tinggi.

Model

FLORES-101

2021

FLORES-101 ialah set data penilaian yang pertama seumpamanya dan banyak dengan banyak yang meliputi 101 bahasa, mendayakan penyelidik menguji serta menambah baik model terjemahan berbilang bahasa seperti M2M-100 dengan pantas.

Set Data Penilaian

NLLB-200

2022

Model NLLB menterjemah 200 bahasa.

Model

FLORES 200

2021

Pengembangan set data penilaian FLORES kini meliputi 200 bahasa

Set Data Penilaian

NLLB-Data-200

2022

Data latihan yang disusun dan dikeluarkan untuk 200 bahasa

Set Data Penilaian

LASER 3

2022

Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 200 bahasa secara automatik.

Pengekod Data

200 bahasa diterjemahkan oleh model NLLB-200, 2x model terdahulu kami

Model akhir kami mempunyai +44% peningkatan prestasi BLEU berbanding dengan model canggih yang terkini

75 bahasa yang sebelum ini tidak disokong oleh sistem terjemahan komersial

18 bilion ayat selari, 2.5x lebih banyak data latihan berbanding dengan model M2M-100 model terdahulu

Model terjemahan mesin sumber terbuka terbesar 54B, bilangan parameter 5x lebih besar daripada model M2M-100 terdahulu

40,000 arah terjemahan disokong oleh satu model—lebih daripada 4x keupayaan penanda aras terdahulu

Kemajuan penyelidikan daripada NLLB menyokong lebih daripada 25 bilion terjemahan yang disampaikan setiap hari pada Suapan Berita Facebook, Instagram dan platform kami yang lain

200 bahasa diterjemahkan oleh model NLLB-200, 2x model terdahulu kami

Model akhir kami mempunyai +44% peningkatan prestasi BLEU berbanding dengan model canggih yang terkini

75 bahasa yang sebelum ini tidak disokong oleh sistem terjemahan komersial

18 bilion ayat selari, 2.5x lebih banyak data latihan berbanding dengan model M2M-100 model terdahulu

Model terjemahan mesin sumber terbuka terbesar 54B, bilangan parameter 5x lebih besar daripada model M2M-100 terdahulu

40,000 arah terjemahan disokong oleh satu model—lebih daripada 4x keupayaan penanda aras terdahulu

Kemajuan penyelidikan daripada NLLB menyokong lebih daripada 25 bilion terjemahan yang disampaikan setiap hari pada Suapan Berita Facebook, Instagram dan platform kami yang lain

Ketahui Lebih Lanjut

Mari kita bawa Tiada Bahasa Terkecuali selangkah lebih jauh, bersama-sama.

Banyak lagi yang perlu diketahui tentang NLLB dan lebih banyak lagi untuk dicapai dengannya. Baca kertas putih dan blog kami untuk mendapatkan butiran dan muat turun model untuk membantu kami meneruskan projek ini. Walaupun kami telah mencapai 200 bahasa, kami baru sahaja bermula. Sertai kami dan bina bersama kami, sambil kami meneruskan perjalanan penterjemahan dan rangkuman yang penting ini.