No Language Left Behind (Nessuna lingua resti indietro)

No Language Left Behind (Nessuna lingua resti indietro)

Favorire l'inclusione grazie alle potenzialità della traduzione basata sull'IA

Favorire l'inclusione grazie alle potenzialità della traduzione basata sull'IA

Guarda il video
Guarda il video

Informazioni su No Language

Left Behind (Nessuna lingua resti indietro)

No Language Left Behind (Nessuna lingua resti indietro) rappresenta un rivoluzionario progetto di IA, unico nel suo genere, che realizza modelli open source in grado di proporre traduzioni di qualità e sottoposte a valutazione fra 200 lingue, fra cui lingue a bassa disponibilità di risorse come asturiano, luganda, urdu e altre ancora. Il progetto mira a offrire al mondo la possibilità di accedere a contenuti web nella propria lingua madre, condividerli e comunicare con chiunque, ovunque, a prescindere dalle proprie preferenze linguistiche.

Informazioni su No Language Left Behind (Nessuna lingua resti indietro)

No Language Left Behind (Nessuna lingua resti indietro) rappresenta un rivoluzionario progetto di IA, unico nel suo genere, che realizza modelli open source in grado di proporre traduzioni di qualità e sottoposte a valutazione fra 200 lingue, fra cui lingue a bassa disponibilità di risorse come asturiano, luganda, urdu e altre ancora. Il progetto mira a offrire al mondo la possibilità di accedere a contenuti web nella propria lingua madre, condividerli e comunicare con chiunque, ovunque, a prescindere dalle proprie preferenze linguistiche.

Ricerca IA applicata al mondo reale

Applicazione di tecniche di IA a Facebook e Instagram per la traduzione di lingue a bassa disponibilità di risorse

Il nostro impegno è avvicinare le persone. Per questo motivo stiamo usando tecniche di modellazione e quanto abbiamo appreso nel corso della nostra ricerca No Language Left Behind (Nessuna lingua resti indietro - NLLB) per migliorare le traduzioni di lingue a bassa disponibilità di risorse su Facebook e Instagram. Grazie all'applicazione di questi insegnamenti e tecniche ai nostri sistemi di produzione delle traduzioni, le persone saranno in grado di creare connessioni più autentiche e significative nella propria lingua madre o di preferenza. In futuro puntiamo ad applicare quanto appreso nel progetto NLLB ad altre app di Meta.

APPLICAZIONI NEL MONDO REALE

Creazione di un metaverso inclusivo

Traduciamo il metaverso per avvicinare le persone a livello globale

Nella costruzione del metaverso, è prioritaria l'integrazione della capacità di traduzione testuale AR/VR verso centinaia di lingue in tempo reale. Il nostro obiettivo è stabilire un nuovo standard di inclusione che in futuro permetta a tutto il mondo di accedere a contenuti virtuali, dispositivi ed esperienze, potendo comunicare con chiunque in qualsiasi lingua all'interno del metaverso. In questo modo puntiamo ad avvicinare le persone a livello globale.

APPLICAZIONI NEL MONDO REALE

Wikipedia tradotto per tutto il mondo

Aiutiamo gli editor volontari a rendere le informazioni disponibili in più lingue

La tecnologia alla base del modello NLLB-200, da oggi disponibile tramite lo strumento Content Translation della Wikimedia Foundation, aiuta gli editor di Wikipedia nella traduzione di informazioni nelle loro lingue madri e di preferenza. Gli editor di Wikipedia stanno utilizzando questa tecnologia per tradurre e revisionare in modo più efficace articoli creati in altre lingue sottorappresentate, come luganda e islandese. In questo modo, i lettori di Wikipedia di tutto il mondo hanno a disposizione un volume sempre maggiore di informazioni e conoscenze. Il modello open source NLLB-200 aiuterà anche ricercatori ed editor di Wikipedia interessati a portare avanti il nostro lavoro.

Prova la tecnologia

Stories Told Through Translation:

libri da tutto il mondo tradotti in centinaia di lingue

Stories Told Through Translation:

libri da tutto il mondo tradotti in centinaia di lingue

Prova la potenza della traduzione basata sull'IA con Stories Told Through Translation (Storie tradotte e raccontate), la nostra demo che utilizza i più recenti sviluppi tecnologici dell'IA dal progetto No Language Left Behind (Nessuna lingua lasciata indietro). Questa demo traduce libri originariamente scritti in lingue come l'indonesiano, il somalo e il birmano per i lettori di altre lingue e nei prossimi mesi ne saranno disponibili a centinaia. Con questa iniziativa, NLLB-200 sarà il primo modello di traduzione basata sull'IA in grado di tradurre la letteratura su questa scala.

La tecnologia

Come funziona la traduzione automatica

Come fa il modello open source NLLB (No Language Left Behind - Nessuna lingua resti indietro) a tradurre direttamente 200 lingue?

FASE 1

Costruzione automatica di dataset

Fase 1: costruzione automatica di dataset

Raccogliamo dati di allenamento contenenti frasi nella lingua di input e in quella di output.

Si è verificato un errore
Stiamo riscontrando problemi con la riproduzione di questo video.

FASE 2

Allenamento

Fase 2: allenamento

Una volta creati dati di allenamento allineati per migliaia di direzioni linguistiche di allenamento, questi sono inseriti nella pipeline di addestramento del nostro modello. Questi modelli sono formati da due parti: l'encoder, che converte la frase di input in una rappresentazione vettoriale interna e il decoder che, partendo dalla rappresentazione vettoriale interna, genera con precisione una frase di output. Allenandosi sulla base di milioni di esempi di traduzione, i modelli imparano a generare traduzioni sempre più accurate.

Si è verificato un errore
Stiamo riscontrando problemi con la riproduzione di questo video.

FASE 3

Valutazione

Fase 3: valutazione

Da ultimo valutiamo il nostro modello confrontandolo con un set di traduzioni umane per verificare che la qualità della traduzione sia soddisfacente. In questa fase, inoltre, rileviamo e rimuoviamo volgarità e contenuti offensivi applicando elenchi di elementi tossici che realizziamo per tutte le lingue supportate. Il risultato è un modello ben addestrato in grado di tradurre direttamente una lingua.

Si è verificato un errore
Stiamo riscontrando problemi con la riproduzione di questo video.

FASE 1

Costruzione automatica di dataset

FASE 2

Allenamento

FASE 3

Valutazione

Fase 1: costruzione automatica di dataset

Raccogliamo dati di allenamento contenenti frasi nella lingua di input e in quella di output.

Si è verificato un errore
Stiamo riscontrando problemi con la riproduzione di questo video.

Fase 2: allenamento

Una volta creati dati di allenamento allineati per migliaia di direzioni linguistiche di allenamento, questi sono inseriti nella pipeline di addestramento del nostro modello. Questi modelli sono formati da due parti: l'encoder, che converte la frase di input in una rappresentazione vettoriale interna e il decoder che, partendo dalla rappresentazione vettoriale interna, genera con precisione una frase di output. Allenandosi sulla base di milioni di esempi di traduzione, i modelli imparano a generare traduzioni sempre più accurate.

Si è verificato un errore
Stiamo riscontrando problemi con la riproduzione di questo video.

Fase 3: valutazione

Da ultimo valutiamo il nostro modello confrontandolo con un set di traduzioni umane per verificare che la qualità della traduzione sia soddisfacente. In questa fase, inoltre, rileviamo e rimuoviamo volgarità e contenuti offensivi applicando elenchi di elementi tossici che realizziamo per tutte le lingue supportate. Il risultato è un modello ben addestrato in grado di tradurre direttamente una lingua.

Si è verificato un errore
Stiamo riscontrando problemi con la riproduzione di questo video.

Le innovazioni

La scienza alla base della svolta

La maggior parte dei modelli di traduzione automatica utilizzati oggi funziona con lingue con disponibilità di risorse medio-alta, lasciando indietro quasi tutte quelle con risorse scarse. I ricercatori di Meta AI hanno iniziato ad affrontare il problema grazie a tre importanti innovazioni nell'ambito dell'IA.

Costruzione automatica di dataset per le lingue a bassa disponibilità di risorse

Il contesto

La traduzione automatica è un'attività di apprendimento supervisionato, il che significa che il modello ha bisogno di dati da cui apprendere. A questo scopo, spesso si usano esempi di traduzione tratti da raccolte di dati open source. La soluzione che abbiamo proposto consiste nel costruire automaticamente coppie traduttive abbinando frasi tratte da più raccolte di documenti monolingui.

La sfida

I modelli LASER utilizzati nel processo di creazione di questo dataset supportano principalmente lingue con disponibilità di risorse medio-alta, rendendo impossibile la creazione di coppie traduttive accurate per le lingue a bassa disponibilità di risorse.

L'innovazione

Per ovviare a questo limite, abbiamo investito in una procedura di allenamento teacher-student, che ha reso possibile: 1) estendere la copertura offerta da LASER a 200 lingue e 2) produrre un ingente volume di dati, anche per le lingue a bassa disponibilità di risorse.

Modellazione di 200 lingue

Il contesto

I sistemi di traduzione automatica multilingue sono stati migliorati basandosi sui sistemi bilingui: questi ultimi, infatti, consentono trasferimenti da coppie di lingue con abbondanza di dati di allenamento a lingue che invece dispongono di meno risorse di allenamento.

La sfida

L'allenamento combinato di centinaia di coppie di lingue presenta alcuni svantaggi, in quanto uno stesso modello si trova a rappresentare numeri sempre crescenti di lingue con lo stesso numero di parametri. Questo rappresenta un problema nel momento in cui le dimensioni dei dataset sono sbilanciate, in quanto può provocare overfitting.

L'innovazione

Abbiamo sviluppato un modello Sparse Mixture of Experts dotato di capacità condivise e specializzate, in modo che le lingue a bassa disponibilità di risorse che presentano pochi dati possano essere automaticamente indirizzate verso la capacità condivisa. In combinazione con migliori sistemi di regolarizzazione, si evita così l'overfitting. Inoltre, abbiamo usato l'apprendimento auto-supervisionato e la data augmentation su larga scala applicando diversi tipi di traduzione inversa.

Valutazione della qualità delle traduzioni

Il contesto

Per sapere se una traduzione prodotta dal nostro modello soddisfa i nostri standard di qualità, dobbiamo valutarla.

La sfida

In genere, i modelli di traduzione automatica sono valutati confrontando frasi tradotte automaticamente e traduzioni umane. Tuttavia, per molte lingue non disponiamo di dati di traduzione affidabili, il che rende impossibile effettuare valutazioni accurate.

L'innovazione

Abbiamo raddoppiato la copertura offerta da FLORES, un benchmark di valutazione di traduzioni umane, che oggi è disponibile per 200 lingue. Applicando metriche automatiche e avvalendoci di supporto umano nella valutazione, siamo in grado di misurare in modo dettagliato la qualità delle nostre traduzioni.
Scopri di più sulla scienza alla base di NLLB leggendo il nostro whitepaper e l'articolo del blog e scarica il modello per aiutarci a portare avanti il progetto.

Scopri di più sulla scienza alla base di NLLB leggendo il nostro whitepaper e l'l'articolo del blog e scarica il modello per aiutarci a portare avanti il progetto.

Il nostro percorso

Traguardi della ricerca
Traguardi della ricerca

Meta AI ha fatto progredire le tecnologie di traduzione automatica, affrontando lungo il percorso le sfide del settore, come l'assenza di dati per le lingue a bassa disponibilità di risorse e le questioni relative a qualità e precisione delle traduzioni. Il nostro viaggio per garantire inclusione tramite la traduzione basata sull'IA continua.

Meta AI ha fatto progredire le tecnologie di traduzione automatica, affrontando lungo il percorso le sfide del settore, come l'assenza di dati per le lingue a bassa disponibilità di risorse e le questioni relative a qualità e precisione delle traduzioni. Il nostro viaggio per garantire inclusione tramite la traduzione basata sull'IA continua.

Scopri i traguardi della nostra ricerca segnalati dal numero di lingue rese via via disponibili

< 50 lingue

50-99 lingue

100 lingue

200 lingue

LASER (Language-agnostic sentence representations, rappresentazioni delle frasi indipendenti dalla lingua)

2018

La prima esplorazione di successo di rappresentazioni di frasi in moltissime lingue pubblicamente condivisa con la comunità di ricercatori dell'elaborazione del linguaggio naturale. L'encoder crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 50 lingue.

Encoder dati

WMT-19

2019

I modelli di IA di Facebook hanno ottenuto risultati migliori di tutti gli altri modelli presentati all'evento WMT 2019, grazie a un processo di traduzione inversa su vasta scala e basata su esempi, tecniche di modellazione dei canali rumorosi e di pulizia dei dati per consolidare il sistema.

Modello

Flores V1

2019

Un dataset di riferimento per la traduzione automatica tra l'inglese e le lingue a bassa disponibilità di risorse che introduce un processo di valutazione equo e rigoroso basato su coppie di lingue.

Dataset di valutazione

WikiMatrix

2019

La più imponente estrazione di frasi parallele fra più lingue: estrazione in parallelo di 135 milioni di frasi di Wikipedia in 1620 coppie di lingue per la realizzazione di modelli di traduzione migliori.

Costruzione dei dati

M2M-100

2020

Il primo modello singolo di traduzione multilingue in grado di tradurre qualsiasi coppia tra le 100 lingue comprese senza basarsi su dati in inglese. L'addestramento si è basato su 2200 direzioni linguistiche, una misura 10 volte superiore rispetto ai precedenti modelli multilingue.

Modello

CCMatrix

2020

Il più grande dataset di testi paralleli di qualità estratti dal web per la creazione di modelli di traduzione migliori e in grado di lavorare con più lingue, soprattutto a bassa disponibilità di risorse: 4,5 miliardi di frasi parallele in 576 coppie di lingue.

Costruzione dei dati

LASER 2

2020

Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 100 lingue.

Encoder dati

WMT-21

2021

Per la prima volta, un unico modello multilingue ha superato i migliori modelli bilingui specificamente addestrati per 10 su 14 coppie di lingue, vincendo il WMT 2021 e offrendo le traduzioni migliori per le lingue a bassa e alta disponibilità di risorse.

Modello

FLORES-101

2021

FLORES-101 è il primo dataset di valutazione many-to-many del suo genere: copre 101 lingue e consente ai ricercatori di testare rapidamente e migliorare sulla base di modelli di traduzione multilingui come M2M-100.

Dataset di valutazione

NLLB-200

2022

Il modello NLLB traduce 200 lingue.

Modello

FLORES 200

2021

Espansione del dataset di valutazione FLORES, che oggi copre 200 lingue.

Dataset di valutazione

NLLB-Data-200

2022

Costruzione e pubblicazione di dati di allenamento per 200 lingue.

Dataset di valutazione

LASER 3

2022

Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 200 lingue.

Encoder dati

< 50 lingue

50-100 lingue

100 lingue

200 lingue

LASER (Language-agnostic sentence representations - Rappresentazioni delle frasi indipendenti dalla lingua)

2018

La prima esplorazione di successo di rappresentazioni di frasi in moltissime lingue pubblicamente condivisa con la comunità di ricercatori dell'elaborazione del linguaggio naturale. L'encoder crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 50 lingue.

Encoder dati

WMT-19

2019

I modelli di IA di Facebook hanno ottenuto risultati migliori di tutti gli altri modelli presentati all'evento WMT 2019, grazie a un processo di traduzione inversa su vasta scala e basata su esempi, tecniche di modellazione dei canali rumorosi e di pulizia dei dati per consolidare il sistema.

Modello

Flores V1

2019

Un dataset di riferimento per la traduzione automatica fra l'inglese e lingue a bassa disponibilità di risorse che introduce un processo di valutazione equo e rigoroso basato su coppie di lingue.

Dataset di valutazione

WikiMatrix

2019

La più imponente estrazione di frasi parallele fra più lingue: estrazione in parallelo di 135 milioni di frasi di Wikipedia in 1620 coppie di lingue per la realizzazione di modelli di traduzione migliori.

Costruzione dei dati

M2M-100

2020

Il primo modello singolo di traduzione multilingue in grado di tradurre qualsiasi coppia fra le 100 lingue comprese senza basarsi su dati in inglese. L'addestramento si è basato su 2200 direzioni linguistiche, una misura 10 volte superiore rispetto ai precedenti modelli multilingue.

Modello

CCMatrix

2020

Il più grande dataset di testi paralleli di qualità estratti dal web per la creazione di modelli di traduzione migliori e in grado di lavorare con più lingue, soprattutto a bassa disponibilità di risorse: 4,5 miliardi di frasi parallele in 576 coppie di lingue.

Costruzione dei dati

LASER 2

2020

Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 100 lingue.

Encoder dati

WMT-21

2021

Per la prima volta, un unico modello multilingue ha superato i migliori modelli bilingui specificamente addestrati per 10 su 14 coppie di lingue, vincendo il WMT 2021 e offrendo le traduzioni migliori per lingue a bassa e alta disponibilità di risorse.

Modello

FLORES-101

2021

FLORES-101 è il primo dataset di valutazione many-to-many del suo genere: copre 101 lingue e consente ai ricercatori di testare rapidamente e migliorare sulla base di modelli di traduzione multilingui come M2M-100.

Dataset di valutazione

NLLB-200

2022

Il modello NLLB traduce 200 lingue.

Modello

FLORES 200

2021

Espansione del dataset di valutazione FLORES, che oggi copre 200 lingue.

Dataset di valutazione

NLLB-Data-200

2022

Costruzione e pubblicazione di dati di allenamento per 200 lingue.

Dataset di valutazione

LASER 3

2022

Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 200 lingue.

Encoder dati

200 lingue tradotte dal modello NLLB-20, il doppio rispetto al modello precedente

Il nostro ultimo modello vanta un miglioramento nelle prestazioni BLEU del 44% rispetto al nostro modello all'avanguardia precedente

75 lingue precedentemente non supportate dai sistemi di traduzione commerciali

18 miliardi di frasi parallele, un volume di dati di allenamento 2,5 volte superiore rispetto al precedente modello M2M-100

Il più grande modello di traduzione automatica open source con 54 miliardi di parametri, cinque volte di più rispetto al precedente modello M2M-100

40 000 direzioni di traduzione supportate da un unico modello, oltre quattro volte la capacità del benchmark precedente

Gli sviluppi di ricerca offerti da NLLB supportano oltre 25 miliardi di traduzioni fornite ogni giorno nella sezione Notizie di Facebook, su Instagram e in altre delle nostre piattaforme

200 lingue tradotte dal modello NLLB-20, il doppio rispetto al modello precedente

Il nostro ultimo modello vanta un miglioramento nelle prestazioni BLEU del 44% rispetto al nostro modello all'avanguardia precedente

75 lingue precedentemente non supportate dai sistemi di traduzione commerciali

18 miliardi di frasi parallele, un volume di dati di allenamento 2,5 volte superiore rispetto al precedente modello M2M-100

Il più grande modello di traduzione automatica open source con 54 miliardi di parametri, cinque volte di più rispetto al precedente modello M2M-100

40 000 direzioni di traduzione supportate da un unico modello, oltre quattro volte la capacità del benchmark precedente

Gli sviluppi di ricerca offerti da NLLB supportano oltre 25 miliardi di traduzioni fornite ogni giorno nella sezione Notizie di Facebook, su Instagram e in altre delle nostre piattaforme

Scopri di più

Facciamo crescere insieme No Language Left Behind (Nessuna lingua resti indietro)

C'è molto da scoprire su No Language Left Behind (Nessuna lingua resti indietro) e il lavoro da fare è ancora tantissimo. Leggi il nostro whitepaper e l'articolo del blog per saperne di più. Scarica il modello per aiutarci a portare avanti il progetto. Abbiamo raggiunto il traguardo delle 200 lingue ed è solo l'inizio. Unisciti a noi e creiamo insieme: portiamo avanti questo importante percorso che coniuga traduzione e inclusione.