No Language Left Behind

No Language Left Behind

Gerando inclusão com o poder da tradução de IA

Gerando inclusão com o poder da tradução de IA

Assistir ao vídeo
Assistir ao vídeo

Sobre o No Language

Left Behind

No Language Left Behind (ou NLLB, nenhuma língua fica para trás, em tradução livre) é um projeto pioneiro e inovador de IA, com modelos de código aberto capazes de fornecer traduções diretas, avaliadas e de alta qualidade para 200 idiomas, incluindo aqueles com poucos recursos, como asturiano, luganda e urdu, entre outros. O objetivo do projeto é dar às pessoas a oportunidade de acessar e compartilhar conteúdo da web na língua materna, além de se comunicar com qualquer pessoa em qualquer lugar, independentemente das preferências linguísticas.

Sobre o No Language Left Behind

No Language Left Behind (ou NLLB, nenhuma língua fica para trás, em tradução livre) é um projeto pioneiro e inovador de IA, com modelos de código aberto capazes de fornecer traduções diretas, avaliadas e de alta qualidade para 200 idiomas, incluindo aqueles com poucos recursos, como asturiano, luganda e urdu, entre outros. O objetivo do projeto é dar às pessoas a oportunidade de acessar e compartilhar conteúdo da web na língua materna, além de se comunicar com qualquer pessoa em qualquer lugar, independentemente das preferências linguísticas.

pesquisas em ia para aplicações no mundo real

Aplicando técnicas de IA no Facebook e no Instagram para tradução de idiomas com poucos recursos

Temos o compromisso de aproximar as pessoas. É por isso que estamos usando técnicas de modelagem e aprendizados das nossas pesquisas sobre o NLLB para melhorar as traduções de idiomas com poucos recursos no Facebook e no Instagram. Com a aplicação dessas técnicas e aprendizados aos nossos sistemas que produzem traduções, as pessoas poderão criar conexões mais autênticas e significativas na língua materna ou no idioma de preferência. No futuro, esperamos expandir os nossos aprendizados do NLLB para outros apps da Meta.

APLICAÇÃO NO MUNDO REAL

Preparando um metaverso inclusivo

Um metaverso traduzido: aproximando as pessoas em escala global

Enquanto nos preparamos para o metaverso, a integração de traduções em tempo real de textos em AR/VR em centenas de idiomas é uma prioridade. Nosso objetivo é estabelecer um novo padrão de inclusão, em que todos um dia possam ter acesso a conteúdos, dispositivos e experiências no mundo virtual, além da habilidade de se comunicar com qualquer pessoa em qualquer idioma no metaverso. Ao longo do tempo, queremos aproximar as pessoas em escala global.

APLICAÇÃO NO MUNDO REAL

Tradução da Wikipédia para todos

Ajudando revisores voluntários a disponibilizar as informações em mais idiomas

A ferramenta Tradutor de conteúdo, criada pela fundação Wikimedia, usa a tecnologia por trás do modelo NLLB-200 para ajudar revisores a traduzir informações para as próprias línguas maternas e idiomas de preferência. Os revisores da Wikipédia estão usando a tecnologia para obter mais eficiência ao traduzir e revisar artigos criados em idiomas raros, como luganda e islandês. Isso facilita a difusão de conhecimento em mais idiomas para os leitores da Wikipédia no mundo inteiro. O modelo de código aberto NLLB-200 também ajudará os pesquisadores e as comunidades de revisores interessados da Wikipedia a ir além a partir do nosso trabalho.

Experimente a tecnologia

Histórias contadas pela tradução:

livros do mundo todo traduzidos para centenas de idiomas

Histórias contadas pela tradução:

livros do mundo todo traduzidos para centenas de idiomas

Experimente o poder da tradução de IA com Histórias contadas pela tradução, nossa demonstração que usa os mais recentes avanços de IA do projeto No Language Left Behind. Essa demonstração traduz livros dos idiomas de origem, como indonésio, somali e birmanês, para outros. Centenas de idiomas estarão disponíveis nos próximos meses. Por meio dessa iniciativa, o NLLB-200 será o primeiro modelo de IA capaz de traduzir literatura nessa escala.

Tecnologia

Uma explicação sobre a tradução automática

Como o modelo de código aberto do NLLB traduz diretamente 200 idiomas?

ETAPA 1

Construção automática do conjunto de dados

Etapa 1: construção automática do conjunto de dados

Os dados de treinamento coletados contêm frases no idioma de entrada e no idioma de saída desejado.

Ocorreu um erro
Estamos tendo problemas ao reproduzir este vídeo.

ETAPA 2

Treinamento

Etapa 2: treinamento

Após a criação de dados correspondentes para o treinamento em milhares de direções, os dados são enviados ao pipeline de treinamento do modelo. Esses modelos se dividem em duas partes: o codificador, que converte a frase de entrada em uma representação vetorial interna, e o decodificador, que recebe essa representação vetorial interna e gera a frase de saída correta. Os modelos aprendem a gerar traduções mais precisas por meio do treinamento de milhões de exemplos de tradução.

Ocorreu um erro
Estamos tendo problemas ao reproduzir este vídeo.

ETAPA 3

Avaliação

Etapa 3: avaliação

Por fim, avaliamos o modelo em relação a um conjunto de frases traduzidas por humanos para confirmar se a qualidade da tradução é satisfatória. Isso inclui detectar e filtrar linguagem ofensiva e outros conteúdos prejudiciais com base em listas de toxicidade criadas para todos os idiomas compatíveis. O resultado é um modelo bem treinado que pode traduzir um idioma de maneira direta.

Ocorreu um erro
Estamos tendo problemas ao reproduzir este vídeo.

ETAPA 1

Construção automática do conjunto de dados

ETAPA 2

Treinamento

ETAPA 3

Avaliação

Etapa 1: construção automática do conjunto de dados

Os dados de treinamento coletados contêm frases no idioma de entrada e no idioma de saída desejado.

Ocorreu um erro
Estamos tendo problemas ao reproduzir este vídeo.

Etapa 2: treinamento

Após a criação de dados correspondentes para o treinamento em milhares de direções, os dados são enviados ao pipeline de treinamento do modelo. Esses modelos se dividem em duas partes: o codificador, que converte a frase de entrada em uma representação vetorial interna, e o decodificador, que recebe essa representação vetorial interna e gera a frase de saída correta. Os modelos aprendem a gerar traduções mais precisas por meio do treinamento de milhões de exemplos de tradução.

Ocorreu um erro
Estamos tendo problemas ao reproduzir este vídeo.

Etapa 3: avaliação

Por fim, avaliamos o modelo em relação a um conjunto de frases traduzidas por humanos para confirmar se a qualidade da tradução é satisfatória. Isso inclui detectar e filtrar linguagem ofensiva e outros conteúdos prejudiciais com base em listas de toxicidade criadas para todos os idiomas compatíveis. O resultado é um modelo bem treinado que pode traduzir um idioma de maneira direta.

Ocorreu um erro
Estamos tendo problemas ao reproduzir este vídeo.

Inovações

A ciência por trás da inovação

A maioria dos modelos de tradução automática (MT) funciona para idiomas com nível médio a alto de recursos. Isso deixa para trás a maioria dos idiomas com poucos recursos. Para lidar com esse problema, os pesquisadores da Meta AI estão usando três inovações significativas.

Construção automática de conjuntos de dados para idiomas com poucos recursos

Contexto

A MT é uma tarefa de aprendizado supervisionada. Isso significa que o modelo precisa de dados com os quais aprender. Exemplos de traduções provenientes de coleções de dados de código aberto são usados com frequência. Nossa solução é a construção automática de pares de tradução por meio do emparelhamento de frases em diferentes coleções de documentos monolíngues.

Desafio

Os modelos LASER usados para esse processo de criação de conjuntos de dados são compatíveis principalmente com idiomas com nível médio a alto de recursos. Isso torna impossível produzir pares de tradução precisos para idiomas com poucos recursos.

Inovação

Resolvemos esse problema investindo em um procedimento de treinamento de professores/alunos. Isso possibilitou 1) estender a cobertura do LASER para 200 idiomas e 2) produzir uma enorme quantidade de dados, mesmo para idiomas com poucos recursos.

Modelagem de 200 idiomas

Contexto

Sistemas de MT multilíngues foram aprimorados com base em sistemas bilíngues. Isso se deve à capacidade deles de permitir a "transferência" de pares de idiomas com muitos dados de treinamento para outros idiomas com menos recursos de treinamento.

Desafio

O treinamento conjunto de centenas de pares de idiomas tem as suas desvantagens, já que o mesmo modelo deve representar um número cada vez maior de idiomas com o mesmo número de parâmetros. Isso é um problema quando os tamanhos dos conjuntos de dados não são equilibrados, uma vez que pode causar sobreajuste.

Inovação

Desenvolvemos um modelo com pouca mistura de especialistas que tem capacidade compartilhada e especializada. Assim, os idiomas de poucos recursos sem muitos dados podem ser encaminhados automaticamente para a capacidade compartilhada. Isso evita o sobreajuste quando combinado com sistemas de regularização melhores. Além disso, usamos o aprendizado autossupervisionado e o aumento de dados em grande escala por meio de vários tipos de tradução reversa.

Avaliação da qualidade da tradução

Contexto

Para saber se uma tradução produzida pelo nosso modelo atende aos nossos padrões de qualidade, precisamos avaliá-la.

Desafio

Os modelos de tradução automática normalmente são avaliados comparando frases traduzidas por máquina com traduções humanas. No entanto, para muitos idiomas, não há dados de tradução confiáveis disponíveis. Com isso, não é possível fazer avaliações precisas.

Inovação

Estendemos em duas vezes a cobertura do FLORES, uma referência de avaliação de tradução por humanos, que agora abrange 200 idiomas. Com métricas automáticas e suporte à avaliação humana, somos capazes de quantificar extensivamente a qualidade das nossas traduções.
Para saber mais sobre a ciência por trás do NLLB, leia o nosso artigo técnico e o blog. Baixe o modelo para nos ajudar a levar esse projeto adiante.

Para saber mais sobre a ciência por trás do NLLB, leia o nosso artigo técnico e o blog. Baixe o modelo para nos ajudar a levar esse projeto adiante.

Jornada

Avanços da pesquisa
Avanços da pesquisa

A Meta AI vem promovendo avanços na tecnologia de tradução automática e superando muitos desafios do setor ao longo do caminho, desde a indisponibilidade de dados para idiomas com poucos recursos até a qualidade e a precisão da tradução. Nossa jornada continua, pois estamos gerando inclusão com o poder da tradução de IA.

A Meta AI vem promovendo avanços na tecnologia de tradução automática e superando muitos desafios do setor ao longo do caminho, desde a indisponibilidade de dados para idiomas com poucos recursos até a qualidade e a precisão da tradução. Nossa jornada continua, pois estamos gerando inclusão com o poder da tradução de IA.

Veja marcos dos modelos por número de idiomas lançados

Menos de 50 idiomas

50 a 99 idiomas

100 idiomas

200 idiomas

LASER (representações de frases agnósticas de linguagem)

2018

A primeira exploração bem-sucedida de representações de frases multilíngues em massa, compartilhada publicamente com a comunidade de PNL. O codificador cria incorporações para emparelhar automaticamente frases que têm o mesmo significado em 50 idiomas.

Codificadores de dados

WMT-19

2019

Os modelos de IA do Facebook superaram todos os outros modelos na conferência WMT 2019. Eles usaram amostras de tradução reversa em grande escala, modelagem de canais com ruídos e técnicas de refinamento de dados para ajudar a criar um sistema robusto.

Modelo

Flores V1

2019

Um conjunto de dados de referência para MT entre o inglês e idiomas com poucos recursos, que lançou um processo de avaliação justo e rigoroso, começando com dois idiomas.

Conjunto de dados de avaliação

WikiMatrix

2019

A maior extração de frases paralelas em vários idiomas. Foi extraído um corpus paralelo de 135 milhões de frases da Wikipedia em 1.620 pares de idiomas com o objetivo de criar modelos de tradução melhores.

Construção de dados

M2M-100

2020

O primeiro modelo de tradução automática multilíngue a traduzir diretamente entre qualquer par de 100 idiomas sem depender de dados em inglês. Treinado em 2.200 direções linguísticas, dez vezes mais do que os modelos multilíngues anteriores.

Modelo

CCMatrix

2020

O maior conjunto de dados de corpus paralelo de alta qualidade baseados na web para a criação de modelos de tradução melhores, que funcionam com mais idiomas, especialmente idiomas com poucos recursos. São 4,5 bilhões de frases paralelas em 576 pares de idiomas.

Construção de dados

LASER 2

2020

Cria incorporações para emparelhar automaticamente frases que têm o mesmo significado em 100 idiomas.

Codificadores de dados

WMT-21

2021

Pela primeira vez, um único modelo multilíngue superou os melhores modelos bilíngues especialmente treinados em 10 dos 14 pares de idiomas e ganhou a WMT 2021. Ele forneceu as melhores traduções para idiomas com poucos e muitos recursos.

Modelo

FLORES-101

2021

O FLORES-101 é o primeiro conjunto de dados de avaliação do tipo e abrange 101 idiomas. Ele permite que pesquisadores testem e melhorem rapidamente modelos de tradução multilíngues como o M2M-100.

Conjunto de dados de avaliação

NLLB-200

2022

O modelo NLLB traduz 200 idiomas.

Modelo

FLORES 200

2021

Expansão do conjunto de dados de avaliação FLORES, que agora abrange 200 idiomas

Conjunto de dados de avaliação

NLLB-Data-200

2022

Dados de treinamento construídos e lançados para 200 idiomas

Conjunto de dados de avaliação

LASER 3

2022

Cria incorporações para emparelhar automaticamente frases que têm o mesmo significado em 200 idiomas.

Codificadores de dados

Menos de 50 idiomas

50 a 100 idiomas

100 idiomas

200 idiomas

LASER (representações de frase independentes da linguagem)

2018

A primeira exploração bem-sucedida de representações de frases multilíngues em massa, compartilhada publicamente com a comunidade de PNL. O codificador cria incorporações para fazer a correspondência automática de frases que têm o mesmo significado em 50 idiomas.

Codificadores de dados

WMT-19

2019

Os modelos de IA do Facebook superaram todos os outros modelos na conferência WMT 2019. Eles usaram amostras de tradução reversa em grande escala, modelagem de canais com ruídos e técnicas de refinamento de dados para ajudar a criar um sistema robusto.

Modelo

Flores V1

2019

Um conjunto de dados referencial para a tradução automática entre o inglês e idiomas com poucos recursos, que lançou um processo de avaliação justo e rigoroso, começando com dois idiomas.

Conjunto de dados avaliativo

WikiMatrix

2019

A maior extração de frases paralelas em vários idiomas. Foi extraído um corpus paralelo de 135 milhões de frases da Wikipédia em 1.620 pares de idiomas com o objetivo de criar modelos de tradução melhores.

Construção de dados

M2M-100

2020

O primeiro modelo de tradução automática multilíngue que traduz diretamente qualquer par entre 100 idiomas sem depender de dados em inglês. Treinado em 2.200 direções linguísticas, dez vezes mais do que os modelos multilíngues anteriores.

Modelo

CCMatrix

2020

O maior conjunto de dados de corpus paralelo de alta qualidade extraído da web para a criação de modelos de tradução aprimorados que funcionam com mais idiomas, especialmente idiomas com poucos recursos. São 4,5 bilhões de frases paralelas em 576 pares de idiomas.

Construção de dados

LASER 2

2020

Cria incorporações para fazer a correspondência automática de frases que têm o mesmo significado em 100 idiomas.

Codificadores de dados

WMT-21

2021

Pela primeira vez, um modelo multilíngue superou os melhores modelos bilíngues especialmente treinados em dez dos 14 pares de idiomas e ganhou a WMT 2021. Ele forneceu as melhores traduções para idiomas com poucos e muitos recursos.

Modelo

FLORES-101

2021

O FLORES-101 é o primeiro conjunto de dados avaliativo muitos-para-muitos que abrange 101 idiomas. Com ele, os pesquisadores podem testar e melhorar com rapidez os modelos de tradução multilíngues, como o M2M-100.

Conjunto de dados avaliativo

NLLB-200

2022

O modelo do NLLB traduz 200 idiomas.

Modelo

FLORES 200

2021

Expansão do conjunto de dados avaliativo FLORES, que agora abrange 200 idiomas

Conjunto de dados avaliativo

NLLB-Data-200

2022

Dados de treinamento construídos e lançados para 200 idiomas

Conjunto de dados avaliativo

LASER 3

2022

Cria incorporações para fazer a correspondência automática de frases que têm o mesmo significado em 200 idiomas.

Codificadores de dados

From Assamese, Balinese and Estonian…to Icelandic, Igbo and more. 200 languages and counting…

Have a look at the full list of languages our NLLB-200 model supports—with 150 low-resource languages included. More will be added to this list as we, and our community, continue on this journey of inclusiveness through AI translation.

Full list of supported languages

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

English

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

Full list of supported languages

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

English

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

200 idiomas traduzidos pelo modelo NLLB-200, duas vezes mais que o nosso modelo anterior

Nosso modelo final tem uma melhoria de desempenho BLEU de +44% em relação ao modelo de última geração anterior

75 idiomas não compatíveis anteriormente com sistemas de tradução comercial

18 bilhões de frases paralelas, 2,5 vezes mais dados de treinamento que o modelo M2M-100 anterior

Maior modelo de tradução automática de código aberto 54B, número de parâmetros cinco vezes superior ao modelo M2M-100 anterior

40 mil direções de tradução compatíveis com um único modelo, mais de quatro vezes a capacidade da referência anterior

Os avanços na pesquisa do NLLB são aplicados a mais de 25 bilhões de traduções realizadas todos os dias no Feed de Notícias do Facebook, no Instagram e em outras plataformas

200 idiomas traduzidos pelo modelo NLLB-200, duas vezes mais que o nosso modelo anterior

Nosso modelo final tem uma melhoria de desempenho BLEU de +44% em relação ao modelo de última geração anterior

75 idiomas não compatíveis anteriormente com sistemas de tradução comercial

18 bilhões de frases paralelas, 2,5 vezes mais dados de treinamento que o modelo M2M-100 anterior

Maior modelo de tradução automática de código aberto 54B, número de parâmetros cinco vezes superior ao modelo M2M-100 anterior

40 mil direções de tradução compatíveis com um único modelo, mais de quatro vezes a capacidade da referência anterior

Os avanços na pesquisa do NLLB são aplicados a mais de 25 bilhões de traduções realizadas todos os dias no Feed de Notícias do Facebook, no Instagram e em outras plataformas

Saiba mais

Juntos, vamos levar o projeto No Language Left Behind adiante.

O NLLB ainda precisa ser mais explorado e pode ir muito mais longe. Leia o nosso artigo técnico e o blog para ver mais detalhes. Baixe o modelo para nos ajudar a levar o projeto mais longe. Mesmo chegando a 200 idiomas, esse é apenas o começo. Junte-se a nós nessa importante jornada de tradução e inclusão.