• A Meta AI criou o NLLB-200, o primeiro modelo único de IA capaz de traduzir 200 idiomas diferentes com qualidade de ponta, validada por testes abrangentes para cada um deles.

  • Também criamos o FLORES-200, um novo conjunto de dados avaliativo para mensurar o desempenho do NLLB-200 em cada idioma e confirmar a alta qualidade das traduções. O NLLB-200 apresenta, em média, um desempenho 44% superior em relação à tecnologia de ponta anterior.

  • Agora, estamos usando técnicas de modelagem e os aprendizados do projeto para melhorar as traduções e levá-las também ao Facebook, ao Instagram e à Wikipédia.

  • Vamos disponibilizar como código aberto os modelos do NLLB-200 e do FLORES-200, além do código para treinamento do modelo e para recriar o conjunto de dados de treinamento. Assim, ajudaremos outros pesquisadores a aprimorar as próprias ferramentas de tradução e expandir o nosso trabalho.

O idioma é a nossa cultura, identidade e a forma de nos conectarmos com o mundo. Contudo, não existem ferramentas de tradução de alta qualidade para centenas de idiomas. Por isso, bilhões de pessoas não podem acessar conteúdos digitais nem participar totalmente de conversas e comunidades online nas línguas nativas ou de preferência. Isso acontece principalmente com as centenas de milhares de pessoas que falam a grande variedade de idiomas da África e da Ásia.

Ocorreu um erro
Estamos tendo problemas ao reproduzir este vídeo.

Para ajudar as pessoas a se conectarem melhor hoje e participarem do metaverso no futuro, os pesquisadores da Meta AI criaram o No Language Left Behind ("Nenhuma língua deixada para trás", NLLB). Trata-se de uma iniciativa para desenvolver recursos de tradução automática de alta qualidade para a maioria dos idiomas do mundo. Hoje, estamos anunciando uma inovação importante no NLLB: criamos um modelo único de IA chamado NLLB-200, capaz de traduzir 200 idiomas diferentes com resultados de ponta. Muitos desses idiomas (como camba ou laosiano) tinham pouca ou nenhuma presença até mesmo nas melhores ferramentas de tradução atuais. Hoje, menos de 25 idiomas africanos são compatíveis com as ferramentas de tradução mais usadas, sendo que muitas delas são de baixa qualidade. Já o NLLB-200 é compatível com 55 idiomas africanos com resultados de alta qualidade. No total, esse modelo único pode fornecer traduções de alta qualidade para idiomas falados por bilhões de pessoas no mundo. As pontuações BLEU do NLLB-200 superam as tecnologias de ponta anteriores em uma média de 44% em todas as dez mil direções de referência do FLORES-101. Para alguns idiomas africanos e indianos, o aumento é maior do que 70% em relação aos sistemas de tradução mais recentes.

Estamos disponibilizando o modelo NLLB-200 como código aberto e publicando várias ferramentas de pesquisa. Nosso objetivo é ajudar outros pesquisadores a expandir esse trabalho para mais idiomas e criar tecnologias mais inclusivas. Além disso, a Meta AI está concedendo até US$ 200 mil em subsídios para que organizações sem fins lucrativos implementem o NLLB-200 no mundo real.

Os avanços na pesquisa do NLLB serão aplicados a mais de 25 bilhões de traduções realizadas todos os dias no Feed de Notícias do Facebook, no Instagram e em outras plataformas. Imagine acessar o grupo favorito do Facebook, encontrar uma publicação em igbo ou luganda e poder entendê-la no próprio idioma clicando em apenas um botão. Além disso, traduções altamente precisas de mais idiomas podem ajudar a identificar conteúdo prejudicial, proteger a integridade eleitoral, bem como reduzir casos de exploração sexual online e tráfico de pessoas. Agora, técnicas de modelagem e aprendizados da nossa pesquisa para o NLLB estão sendo aplicados a sistemas de tradução usados por editores da Wikipédia.

A tradução é uma das áreas mais interessantes da IA, pois repercute no dia a dia das pessoas. O NLLB fará muito mais do que apenas melhorar o acesso das pessoas ao conteúdo da web. Com ele, será mais fácil criar e compartilhar informações em vários idiomas. Temos muito trabalho pela frente. Porém, estamos animados com o nosso progresso recente e a forma como ele está nos aproximando da missão da Meta.

Aqui, você pode ler o estudo e explorar uma demonstração do NLLB-200 para ver como o modelo consegue traduzir histórias de todo o mundo.

Disponibilizando ferramentas de tradução para bilhões de pessoas

Para ajudar a melhorar os sistemas de tradução da Wikipédia, fizemos uma parceria com a Wikimedia Foundation, a organização sem fins lucrativos que mantém a Wikipédia e outros projetos gratuitos sobre conhecimento. Há versões da Wikipédia em mais de 300 idiomas. No entanto, a maior parte delas têm bem menos artigos do que a versão em inglês, que conta com mais de seis milhões de publicações. Essa disparidade é grande principalmente para idiomas falados fora da Europa e da América do Norte. Por exemplo, há cerca de 3.260 artigos da Wikipédia em lingala, um idioma falado por 45 milhões de pessoas na República Democrática do Congo, na República do Congo, na República Centro-Africana e no Sudão do Sul. Entretanto, um idioma como o sueco, falado por dez milhões de pessoas na Suécia e na Finlândia, tem mais de 2,5 milhões de artigos.

Os editores da Wikipédia estão usando a tecnologia por trás do NLLB-200 na ferramenta Content Translation, da Wikimedia Foundation. O objetivo é traduzir artigos para mais de 20 idiomas de poucos recursos e que não têm amplos conjuntos de dados para treinar sistemas de IA. Isso inclui dez idiomas que não tinham compatibilidade com nenhuma ferramenta de tradução automática na plataforma.

Os desafios de criar um modelo único para centenas de idiomas

Os sistemas de tradução automática são treinados com base em dados, assim como todos os modelos de IA. Em sistemas de tradução de texto, isso normalmente consiste na correspondência minuciosa entre milhões de frases em diferentes idiomas. Porém, não há grandes volumes de frases paralelas entre inglês e fula, por exemplo. Os modelos atuais de tradução tentam contornar isso por meio da mineração de dados na web. No entanto, os resultados costumam apresentar baixa qualidade, pois os textos originais são diferentes para cada idioma. Muitas vezes, eles também estão repletos de erros ou inconsistências ortográficas e não contêm acentos nem outros sinais gráficos.

Outro grande desafio é otimizar o modelo único para centenas de idiomas sem prejudicar o desempenho ou a qualidade da tradução. Geralmente, a melhor qualidade de tradução é obtida por meio de modelos separados para cada direção de idioma. É difícil ampliar essa abordagem porque, quanto mais idiomas são incluídos, piores são o desempenho e a qualidade da tradução.

Outra questão é que os modelos de tradução produzem erros que podem ser difíceis de identificar. Esses sistemas usam redes neurais para gerar o texto. Por isso, podem produzir erros com naturalidade, como alucinações (fazer uma afirmação categórica de que algo é verdadeiro, mesmo que não seja), declarações falsas e conteúdo não seguro. No geral, há menos referências e conjuntos de dados para idiomas de poucos recursos. Isso dificulta muito o teste e a melhoria dos modelos.

Inovando na arquitetura, na coleta de dados nas referências e muito mais

Nos últimos anos, fizemos um progresso contínuo para superar os desafios mencionados. Em 2020, anunciamos o M2M-100, o nosso modelo de tradução para 100 idiomas. Ele utilizava novos métodos para obter dados de treinamento, novas arquiteturas para ampliar o tamanho do modelo sem prejudicar o desempenho, além de novas maneiras de avaliar e aprimorar os resultados. Para expandi-lo para mais 100 idiomas, fizemos ainda mais progressos nessas três áreas.

Expansão de recursos de treinamento

Para coletar textos paralelos de alta precisão em mais idiomas, aperfeiçoamos o LASER. Ele é o nosso kit de ferramentas para fazer a transferência zero-shot no processamento de linguagem natural (PLN). Em vez do LSTM, a nova versão LASER3 usa um modelo Transformador, que é treinado de maneira autossupervisionada com um objetivo mascarado de modelagem linguística. Para impulsionar ainda mais o desempenho, usamos um processo de treinamento professor-aluno e criamos codificadores específicos para grupos de idiomas. Dessa forma, foi possível expandir a variedade de idiomas do LASER3 e produzir quantidades enormes de pares de frases, até mesmo para idiomas de poucos recursos. Estamos disponibilizando o método de integração multilíngue do LASER3 como código aberto para outros pesquisadores. Também estamos publicando bilhões de frases paralelas em diferentes pares de idiomas, que foram mineradas e refinadas por meio das técnicas descritas aqui.

Como aumentamos a abrangência dos dados ao coletarmos exemplos para treinamento em mais idiomas, era importante garantir que a qualidade dos exemplos continuasse alta. Nosso canal de refinamento de dados foi totalmente reformulado para a ampliação para 200 idiomas. Adicionamos etapas importantes de filtragem, que incluíam usar pela primeira vez os nossos modelos LID-200 para filtrar dados e remover ruídos de corpora da internet com alta confiabilidade. Desenvolvemos listas de toxicidade para o conjunto completo dos 200 idiomas. Depois, usamos as listas para avaliar e filtrar possíveis toxicidades alucinatórias. Com essas etapas, foi possível garantir conjuntos de dados mais refinados e menos tóxicos, com os idiomas identificados de maneira correta. Isso é importante para aumentar a qualidade da tradução e diminuir o risco do que chamamos de toxicidade alucinatória, em que o sistema introduz por engano conteúdo tóxico durante o processo de tradução.

Ampliando o tamanho do modelo sem perder o alto desempenho

Os sistemas de tradução multilíngue oferecem dois benefícios principais. Neles, idiomas parecidos (como o assamês e o bengali, ambos escritos no alfabeto bengali) podem compartilhar dados entre si durante o treinamento. Isso ajuda a melhorar muito a qualidade da tradução de idiomas de poucos recursos quando eles forem treinados juntos com idiomas parecidos, mas de muitos recursos. Além disso, o modelo único multilíngue permite que os pesquisadores façam repetições, expansões e testes com muito mais facilidade, em comparação com centenas ou até milhares de modelos bilíngues diferentes.

Contudo, ainda há grandes desafios para expandir o modelo de 100 para 200 idiomas. Como mais pares de idiomas de poucos recursos são incluídos nos dados de treinamento, os sistemas multilíngues começam a se sobreajustar conforme treinamos os modelos por períodos mais longos. Para resolver esses problemas, inovamos em três frentes: regularização e aprendizado curricular (curriculum learning), aprendizado autossupervisionado e diversificação da retrotradução.

Primeiro, desenvolvemos redes de mistura de especialistas que têm capacidade compartilhada e especializada. Assim, os idiomas de poucos recursos sem muitos dados podem ser encaminhados automaticamente para a capacidade compartilhada. Isso evita o sobreajuste quando combinado com sistemas de regularização melhores. Seguimos uma abordagem de aprendizado curricular com duas etapas. Primeiro, treinamos os idiomas de muitos recursos por algumas épocas e, em seguida, introduzimos os pares de idiomas de poucos recursos. Isso também ajudou a reduzir o problema de sobreajuste. Depois, considerando que os idiomas de poucos recursos são escassos em dados bitexto paralelos, utilizamos o aprendizado autossupervisionado em dados monolíngues, tanto para idiomas de poucos recursos quanto idiomas similares de muitos recursos. Nosso objetivo era melhorar o desempenho geral do modelo.

Por fim, analisamos qual era a melhor forma de gerar dados de retrotradução. Descobrimos que a mistura de dados retrotraduzidos gerados pelos modelos de tradução automática estatística bilíngue e tradução automática neural multilíngue ajudou a aprimorar o desempenho para idiomas de poucos recursos, devido ao aumento na diversidade dos dados sintéticos gerados. Para treinar o modelo do NLLB-200, que tem mais de 54 bilhões de parâmetros, utilizamos o nosso Research SuperCluster (RSC). Criado recentemente, ele está entre os supercomputadores de IA mais rápidos do mundo.

Ferramentas de avaliação e diminuição de riscos para 200 idiomas

Para avaliar e melhorar o NLLB-200, criamos o FLORES-200, um conjunto de dados de avaliação muitos-para-muitos, com o qual os pesquisadores podem avaliar o desempenho em 40 mil direções de idiomas diferentes. Estamos disponibilizando esse novo conjunto de dados como código aberto para ajudar outros pesquisadores a fazer testes e melhorias com rapidez nos próprios modelos de tradução. O FLORES-200 pode ser usado para avaliar sistemas de tradução em uma ampla variedade de aplicações. Isso inclui panfletos de saúde, filmes, livros e conteúdo online em países ou regiões onde vários idiomas de poucos recursos são falados.

Na ampliação para 200 idiomas, foi necessário diminuir o risco de gerar conteúdo tóxico, que pode ser difícil de gerenciar em um sistema de tradução multidirecional. Criamos listas de toxicidade para todos os idiomas compatíveis. Com elas, é possível detectar e remover linguagem ofensiva e outros conteúdos potencialmente prejudiciais. Estamos publicando as listas de avaliação de toxicidade e as referências para os 200 idiomas. Assim, outros pesquisadores terão as ferramentas para diminuir riscos nos próprios modelos.

Para garantir que as nossas iniciativas aumentem de forma responsável, estamos colaborando com uma equipe interdisciplinar que inclui linguistas, sociólogos e especialistas em ética a fim de entender melhor cada idioma que consideramos.

Este gráfico mostra a pontuação média BLEU em traduções do FLORES-101 do inglês para 100 idiomas e vice-versa. À esquerda, há dois modelos de ponta publicados (o M2M e o Delta LM), compatíveis com 100 idiomas. Os modelos à direita são compatíveis com 200 idiomas. São eles: um modelo Transformador base com 3,3 bilhões de parâmetros; o modelo base com aprendizado autossupervisionado (SSL); o modelo base com retrotradução (BT); e o NLLB-200, um modelo baseado em mistura de especialistas que usa aprendizado autossupervisionado e retrotradução.

Expansão da tradução e maior inclusão

Ferramentas de tradução de alta qualidade podem ser transformadoras. Hoje, a realidade é que alguns idiomas (como inglês, mandarim, espanhol e árabe) dominam a web. Os falantes nativos desses idiomas de amplo alcance podem se esquecer de como é importante ler algo no próprio idioma. Acreditamos que o NLLB ajudará a preservar os idiomas da maneira como eles devem ser compartilhados, em vez de sempre precisar de um idioma mediador que, muitas vezes, não consegue transmitir o sentido ou o sentimento.

Nosso modelo também pode ajudar no progresso de outras tarefas do PLN que vão além da tradução. Entre elas está a criação de assistentes de alta qualidade para idiomas como javanês e uzbeque. Outro exemplo é o desenvolvimento de sistemas capazes de adicionar legendas precisas em filmes de Bollywood para idiomas como suaíli ou oromo. À medida que o metaverso começa a ganhar forma, a capacidade de criar tecnologias de alto desempenho para centenas ou até milhares de idiomas realmente ajudará a democratizar o acesso a experiências novas e imersivas em mundos virtuais.

Até pouco tempo atrás, a tradução automática de alta qualidade contemplava apenas alguns idiomas. Com o NLLB-200, estamos nos aproximando do dia em que os sistemas permitirão que as pessoas se comuniquem com quem quiserem. Estamos animados com as possibilidades criadas no presente e qual será o papel dessa ferramenta no futuro, conforme continuamos quebrando barreiras da tradução automática.

Este projeto está sendo realizado por uma equipe multidisciplinar da Meta AI que inclui: Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang e Al Youngblood.