어떤 언어로도 소통할 수 있도록

어떤 언어로도 소통할 수 있도록

AI 번역의 힘을 통해 소수 언어의 어려움을 허물고 소통의 한계를 돌파해갑니다

AI 번역의 힘을 통해 소수 언어의 어려움을 허물고 소통의 한계를 돌파해갑니다

동영상 보기
동영상 보기

'뒤처지는 언어가 없도록' 프로젝트

소개

NLLB(No Language Left Behind: 어떤 언어로도 소통할 수 있도록)는 이전과 전혀 다른 형태의 혁신적인 AI 프로젝트로, 아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델입니다. NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표로 합니다.

'어떤 언어로도 소통할 수 있도록' 프로젝트 소개

NLLB(No Language Left Behind: 어떤 언어로도 소통할 수 있도록)는 이전과 전혀 다른 형태의 혁신적인 AI 프로젝트로, 아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델입니다. NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표로 합니다.

실제 세상에의 적용을 위한 ai 리서치

리소스가 적은 언어의 번역을 위해 Facebook 및 Instagram에 AI 기술 적용하기

Meta는 모두가 더욱 가까워지는 세상을 만들기 위해 노력합니다. 이를 위해 Facebook과 Instagram에서 리소스가 적은 언어의 번역 품질 개선을 위해 모델링 기법과 NLLB 리서치를 통해 얻은 결과를 활용하고 있습니다. 이러한 기술을 프로덕션 번역 시스템에 적용함으로써, 누구나 자신이 선호하는 언어나 모국어를 사용할 수 있게 되어 더욱 진정성 있고 의미 있는 소통이 가능해질 것입니다. 또한 NLLB를 통해 얻은 결과를 향후 더 많은 Meta 앱에 적용할 수 있을 것으로 기대하고 있습니다.

실제 세상에의 적용

메타버스에 포용성 더하기

번역이 제공되는 메타버스: 전 세계 모두가 원활하게 소통할 수 있는 공간

Meta는 메타버스를 만드는 과정에서 메타버스에 실시간으로 수백 개의 언어로 된 AR/VR 텍스트를 번역하는 기능을 통합하는 작업을 우선순위로 두고 있습니다. 저희의 목표는 포용성에 대한 새로운 기준을 수립하는 것입니다. 언젠가 모든 사람이 가상 세계의 콘텐츠, 기기 및 경험을 이용하고 메타버스 안에서 모든 언어로 모든 사람과 소통할 수 있게 만들어줄 수준의 포용성 말입니다. 그리고 시간이 지나면서 전 세계적으로 사람들을 이어주기도 해야죠.

실제 세상에의 적용

위키백과를 모든 언어로 제공하기

자발적으로 위키백과를 만들어가는 편집자들이 더 많은 언어로 정보를 제공할 수 있도록 돕습니다

이제 Wikimedia Foundation의 콘텐츠 번역 도구에서도 활용할 수 있는 NLLB-200 모델의 기술 덕분에, 위키백과 편집자들은 수많은 정보를 더욱 쉽게 자신의 모국어와 선호하는 언어로 번역할 수 있게 되었습니다. 위키백과 편집자들은 이 기술을 바탕으로 루간다어, 아이슬란드어 등과 같은 소수 언어로 작성된 글을 더 효율적으로 번역 및 편집하고 있습니다. 이는 전 세계 위키백과 독자들이 더 많은 언어로 더 다양한 지식을 얻을 수 있게 되었음을 의미합니다. 오픈 소스 NLLB-200 모델은 관련 연구진들 및 관심 있는 위키백과 편집자 커뮤니티들이 Meta의 기술을 바탕으로 작업을 이어나가는 데도 도움이 될 것입니다.

경험으로 만나는 기술

번역으로 만나는 이야기:

백 수십여 개 언어로 번역된 전 세계 동화

번역으로 만나는 이야기:

백 수십여 개 언어로 번역된 전 세계 동화

NLLB의 최신 AI 고급 기술을 사용하는 Meta의 데모 프로그램, '번역으로 만나는 이야기(Stories Told Through Translation)'를 통해 AI 번역의 힘을 경험해보세요. 이 데모는 Meta의 AI 모델을 활용하여 인도네이사어, 소말리아어, 버마어 등으로 쓰여진 동화들이 다른 언어를 사용하는 수많은 독자를 만날 수 있도록 번역하며, 향후 몇 달 안에는 백 수십여 개 언어로 번역 범위가 확대될 예정입니다. 이로써 NLLB-200은 문학을 대규모로 번역할 수 있는 최초의 AI 모델이 되는 것이죠.

기술

쉽게 이해하는 기계 번역

오픈 소스 NLLB 모델은 어떻게 200개 언어를 바로 번역하는 걸까요?

1단계

자동 데이터 세트 구성

1단계: 자동 데이터 세트 구성

입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집됩니다.

문제가 발생했습니다
이 동영상을 재생하는 중 문제가 발생했습니다.

2단계

학습

2단계: 학습

수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입합니다. 이러한 모델은 두 부분으로 구성되어 있습니다. 하나는 입력 문장을 내부 벡터 표현으로 변환하는 인코더이고, 다른 하나는 이 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더입니다. 모델은 수백 가지 번역 예를 토대로 학습하며 더 정확한 번역을 생성하는 법을 배웁니다.

문제가 발생했습니다
이 동영상을 재생하는 중 문제가 발생했습니다.

3단계

평가

3단계: 평가

마지막으로, Meta는 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인합니다. 이 과정에서 저희가 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링해냅니다. 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생합니다.

문제가 발생했습니다
이 동영상을 재생하는 중 문제가 발생했습니다.

1단계

자동 데이터 세트 구성

2단계

학습

3단계

평가

1단계: 자동 데이터 세트 구성

입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집됩니다.

문제가 발생했습니다
이 동영상을 재생하는 중 문제가 발생했습니다.

2단계: 학습

수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입합니다. 이러한 모델은 두 부분으로 구성되어 있습니다. 하나는 입력 문장을 내부 벡터 표현으로 변환하는 인코더이고, 다른 하나는 이 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더입니다. 모델은 수백 가지 번역 예를 토대로 학습하며 더 정확한 번역을 생성하는 법을 배웁니다.

문제가 발생했습니다
이 동영상을 재생하는 중 문제가 발생했습니다.

3단계: 평가

마지막으로, Meta는 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인합니다. 이 과정에서 저희가 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링해냅니다. 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생합니다.

문제가 발생했습니다
이 동영상을 재생하는 중 문제가 발생했습니다.

혁신

혁신의 바탕이 되는 과학

오늘날 활용 가능한 기계 번역(MT) 모델의 대부분은 리소스 분량이 중간 정도인 언어부터 많은 언어에만 효과적이고, 리소스가 적은 언어는 제대로 처리되지 않는 경우가 많습니다. Meta AI 연구진은 세 가지 중요한 AI 혁신 기술을 바탕으로 이 문제를 해결하고 있습니다.

리소스가 적은 언어를 위한 자동 데이터 세트 구성

배경

MT는 지도형 학습 과제입니다. 즉, 모델에 학습할 데이터가 필요한 것이죠. 여기에는 종종 오픈 소스 데이터 컬렉션의 샘플 번역이 사용됩니다. Meta는 단일어로 된 문서의 여러 컬렉션에서 문장들을 서로 짝 지어 자동으로 번역 쌍을 구성하는 솔루션을 사용합니다.

기존 과제

이 데이터 세트 만들기 과정에 사용되는 LASER 모델은 주로 리소스가 중간 정도인 언어부터 리소스가 많은 언어까지 지원하므로 리소스가 적은 언어의 경우 정확한 번역 쌍을 생성하기가 불가능합니다.

혁신

Meta는 선생-학생 학습 절차(teacher-student training procedure)에 투자하여 이를 해결했습니다. 이를 통해 1) LASER로 다룰 수 있는 언어를 200개로 확대하고 2) 리소스가 적은 언어의 경우에도 엄청난 양의 데이터를 생성할 수 있게 되었습니다.

200개 언어 모델링하기

배경

이중 언어 시스템을 바탕으로 다국어 MT 시스템이 개선되었습니다. 학습 데이터가 풍부한 언어 쌍에서 학습 리소스가 적은 다른 언어로 리소스를 '전달'할 수 있었기 때문입니다.

기존 과제

수백 개의 언어 쌍을 대상으로 함께 학습을 진행할 경우 단점이 있습니다. 동일한 모델을 통해 동일한 수의 매개변수를 사용하여 엄청나게 많은 수의 언어를 나타내야 하기 때문입니다. 이는 데이터 세트 규모의 불균형이 심할 때 문제가 됩니다. 과적합을 유발할 수 있기 때문입니다.

혁신

Meta는 리소스(데이터)가 적은 언어가 자동으로 공유 역량을 이용할 수 있도록 전문 공유 역량을 갖춘 전문가망 모델을 개발했습니다. 이를 더 나은 일반화 시스템과 함께 활용할 경우 과적합을 방지할 수 있습니다. 여기에 더해 여러 가지 유형의 역번역을 통해 대규모 데이터 증강과 자기 지도형 학습을 활용했습니다.

번역 품질 평가하기

배경

Meta의 모델을 통해 생성된 번역이 자체 품질 기준에 부합하는지 알아내려면 평가를 진행해야 합니다.

기존 과제

기계 번역 모델은 보통 기계로 번역된 문장을 사람의 번역과 비교하여 평가되지만 많은 언어에서 신뢰할 수 있는 번역 데이터가 부재한 상황입니다. 따라서 정확한 평가가 불가능합니다.

혁신

Meta는 사람이 번역하는 평가 벤치마크인 FLORES의 범위를 2배 확대하여 현재 200개 언어를 다루고 있습니다. 자동 지표와 사람이 진행하는 평가를 통해 Meta는 자체 번역의 품질을 광범위하게 수치화할 수 있습니다.
백서블로그에서 NLLB 프로젝트의 바탕이 되는 과학 기술에 대해 자세히 알아보고 모델을 다운로드하여 프로젝트 개선을 도와주세요.

백서블로그에서 NLLB 프로젝트의 바탕이 되는 과학 기술에 대해 자세히 알아보고 모델을 다운로드하여 프로젝트 개선을 도와주세요.

여정

리서치 발전 단계
리서치 발전 단계

Meta AI는 기계 번역 기술의 발전을 가져온 동시에, 리소스가 적은 언어의 가용 데이터 부족부터 번역 품질 및 정확성에 이르는 여러 과제를 성공적으로 해결해왔습니다. 또한 AI의 번역의 힘을 통해 포용성을 눂여가는 Meta의 여정은 결코 여기에서 멈추지 않습니다.

Meta AI는 기계 번역 기술의 발전을 가져온 동시에, 리소스가 적은 언어의 가용 데이터 부족부터 번역 품질 및 정확성에 이르는 여러 과제를 성공적으로 해결해왔습니다. 또한 AI의 번역의 힘을 통해 포용성을 눂여가는 Meta의 여정은 결코 여기에서 멈추지 않습니다.

번역 가능한 언어 개수별로 모델의 발전 단계를 확인해보세요

50개 언어 미만

50~99개 언어

100개 언어

200개 언어

LASER(Language-agnostic sentece representations)

2018년

NLP 커뮤니티에 공개적으로 공유된 대규모 다국어 문장 표현에 대한 첫 탐구를 성공적으로 진행했습니다. 인코더는 50개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.

데이터 인코더

WMT-19

2019년

Facebook AI 모델이 WMT 2019에서 다른 모든 모델을 능가하는 결과를 냈습니다. 여기에서는 견고한 시스템을 만들기 위해 대규모 샘플링 역번역, 잡음 통신로 모델링 및 데이터 정화 기법을 활용했습니다.

모델

FLORES V1

2019년

영어와 리소스가 적은 언어 간의 MT를 위한 벤치마킹 데이터 세트로, 2개 언어부터 시작하여 공정하고 철저한 평가 절차를 도입했습니다.

평가 데이터 세트

WikiMatrix

2019년

여러 언어에 걸쳐 병렬 문장을 추출한 것 중 가장 규모가 컸습니다. 더 나은 번역 모델을 만들기 위해 1,620개 언어 쌍에서 1억 3천 5백만 개의 Wikipedia 문장을 이중 텍스트 방식으로 추출했습니다.

데이터 구성

M2M-100

2020년

영어 데이터에 의존하지 않고 100개 언어 중 임의의 쌍을 바로 번역할 수 있는 최초의 단일 다국어 기계 번역 모델입니다. 이전의 다국어 모델들보다 10배 더 많은 수준인 2,200개의 언어 방향을 바탕으로 학습이 진행되었습니다.

모델

CCMatrix

2020년

더 많은 언어, 특히 리소스가 적은 언어에 적용할 수 있는 개선된 번역 모델을 만들기 위한 고품질의 웹 기반 이중 텍스트로 구성된 최대 규모(576개 언어 쌍의 병렬 문장 45억 개)의 데이터 세트입니다.

데이터 구성

LASER 2

2020년

100개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.

데이터 인코더

WMT-21

2021년

최초로, 단일 다국어 모델이 리소스가 적은 언어와 리소스가 많은 언어 모두에 대해 최고의 번역을 제공하며 14개 중 10개의 언어 쌍에 걸쳐 특별한 훈련을 거친 최고의 이중 언어 모델을 능가하는 결과를 내 WMT 2021에서 우승했습니다.

모델

FLORES-101

2021년

FLORES-101은 유례를 찾아보기 힘든 다대다 평가 데이터 세트로, 101개 언어를 다룹니다. 연구진은 이를 통해 빠르게 테스트를 완료하고 M2M-100과 같은 다국어 번역 모델을 개선할 수 있었습니다.

평가 데이터 세트

NLLB-200

2022년

NLLB 모델은 200개 언어를 번역합니다.

모델

FLORES 200

2021년

FLORES 평가 데이터 세트를 확장한 것으로, 현재 200개 언어를 다룹니다.

평가 데이터 세트

NLLB-Data-200

2022년

200개 언어를 위해 구성되어 공개된 학습 데이터입니다.

평가 데이터 세트

LASER 3

2022년

200개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.

데이터 인코더

50개 언어 미만

50~100개 언어

100개 언어

200개 언어

LASER(Language-agnostic sentece representations)

2018년

NLP 커뮤니티에 공개적으로 공유된 대규모 다국어 문장 표현에 대한 첫 탐구를 성공적으로 진행했습니다. 인코더는 50개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.

데이터 인코더

WMT-19

2019년

Facebook AI 모델이 WMT 2019에서 다른 모든 모델을 능가하는 결과를 냈습니다. 여기에서는 견고한 시스템을 만들기 위해 대규모 샘플링 역번역, 잡음 통신로 모델링 및 데이터 정화 기법을 활용했습니다.

모델

Flores V1

2019년

영어와 리소스가 적은 언어 간의 MT를 위한 벤치마킹 데이터 세트로, 2개 언어부터 시작하여 공정하고 철저한 평가 절차를 도입했습니다.

평가 데이터 세트

WikiMatrix

2019년

여러 언어에 걸쳐 병렬 문장을 추출한 것 중 가장 규모가 컸습니다. 더 나은 번역 모델을 만들기 위해 1,620개 언어 쌍에서 1억 3천 5백만 개의 Wikipedia 문장을 이중 텍스트 방식으로 추출했습니다.

데이터 구성

M2M-100

2020년

영어 데이터에 의존하지 않고 100개 언어 중 임의의 쌍을 바로 번역할 수 있는 최초의 단일 다국어 기계 번역 모델입니다. 이전의 다국어 모델들보다 10배 더 많은 수준인 2,200개의 언어 방향을 바탕으로 학습이 진행되었습니다.

모델

CCMatrix

2020년

더 많은 언어, 특히 리소스가 적은 언어에 적용할 수 있는 개선된 번역 모델을 만들기 위한 고품질의 웹 기반 이중 텍스트로 구성된 최대 규모(576개 언어 쌍의 병렬 문장 45억 개)의 데이터 세트입니다.

데이터 구성

LASER 2

2020년

100개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.

데이터 인코더

WMT-21

2021년

최초로, 단일 다국어 모델이 리소스가 적은 언어와 리소스가 많은 언어 모두에 대해 최고의 번역을 제공하며 14개 중 10개의 언어 쌍에 걸쳐 특별한 훈련을 거친 최고의 이중 언어 모델을 능가하는 결과를 내 WMT 2021에서 우승했습니다.

모델

FLORES-101

2021년

FLORES-101은 유례를 찾아보기 힘든 다대다 평가 데이터 세트로, 101개 언어를 다룹니다. 연구진은 이를 통해 빠르게 테스트를 완료하고 M2M-100과 같은 다국어 번역 모델을 개선할 수 있었습니다.

평가 데이터 세트

NLLB-200

2022년

NLLB 모델은 200개 언어를 번역합니다.

모델

FLORES 200

2021년

FLORES 평가 데이터 세트를 확장한 것으로, 현재 200개 언어를 다룹니다.

평가 데이터 세트

NLLB-Data-200

2022년

200개 언어를 위해 구성되어 공개된 학습 데이터입니다.

평가 데이터 세트

LASER 3

2022년

200개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.

데이터 인코더

이전 모델의 2배인 200개 언어가 NLLB-200 모델로 번역됩니다

최종 모델은 이전의 최신 모델에 비해 BLEU 성능이 44% 이상 개선되었습니다

이중 75개 언어는 상업 번역 시스템에서 이전에는 지원되지 않았던 언어입니다

180억 개의 병렬 문장을 추출했으며, 이전 모델인 M2M-100보다 학습 데이터도 2.5배 더 많습니다

최대 규모의 오픈 소스 기계 번역 모델 54B를 적용했으며, 이전의 M2M-100 모델보다 5배 더 많은 수의 매개변수를 사용합니다

단일 모델을 통해 이전 벤치마크보다 4배 이상 더 뛰어난 수준인 40,000개의 번역 방향이 지원됩니다

NLLB 연구 성과는 매일 Facebook 뉴스피드, Instagram 및 기타 Meta 플랫폼에서 제공되는 250억 개 이상의 번역을 지원합니다

이전 모델의 2배인 200개 언어가 NLLB-200 모델로 번역됩니다

최종 모델은 이전의 최신 모델에 비해 BLEU 성능이 44% 이상 개선되었습니다

이중 75개 언어는 상업 번역 시스템에서 이전에는 지원되지 않았던 언어입니다

180억 개의 병렬 문장을 추출했으며, 이전 모델인 M2M-100보다 학습 데이터도 2.5배 더 많습니다

최대 규모의 오픈 소스 기계 번역 모델 54B를 적용했으며, 이전의 M2M-100 모델보다 5배 더 많은 수의 매개변수를 사용합니다

단일 모델을 통해 이전 벤치마크보다 4배 이상 더 뛰어난 수준인 40,000개의 번역 방향이 지원됩니다

NLLB 연구 성과는 매일 Facebook 뉴스피드, Instagram 및 기타 Meta 플랫폼에서 제공되는 250억 개 이상의 번역을 지원합니다

더 알아보기

NLLB 프로젝트에 함께해주세요

NLLB에 대해 알아야 할 점도 많고, 이 프로젝트를 통해 이룰 수 있는 일도 굉장히 많습니다. 백서와 블로그에서 상세 정보를 읽어보고, 모델을 다운로드하여 저희가 이 프로젝트를 진전시킬 수 있도록 도와주세요. 200개 언어를 번역하는 지금의 모습은 아직 시작 단계에 불과합니다. 번역과 포용성이라는 중요한 여정을 이어나가는 Meta와 함께 미래를 만드는 데 동참해주세요.