200 언어를 하나로 묶어 바로 음석통역, 텍스트번역을 한번에 이어주는 다중 모달 스피치 번역의 시대
핸드폰에서 작동하는 화면 캡쳐하여 글 제일 밑에 이미지 설명 해 두었습니다. 참고하세요.
(상업용 목적으로는 사용 할 수 없습니다.)
인터넷, 모바일 장치, 소셜 미디어의 글로벌한 연결성으로 정의되는 시대에서 언어적 장벽을 극복하는 능력은 이전보다 더 중요해졌습니다. 어떤 언어로든 소통하고 정보를 이해하는 능력은 더 이상 과학 소설의 영역에만 머물러 있지 않습니다. 인공지능 분야의 발전은 이 비전을 현실로 만들어 가는 데 큰 기여를 하고 있습니다.
SeamlessM4T 소개
다중 모달의 탁월한 혁신 기술적 융합의 시대에 메타(Meta)는 언어학과 인공지능의 교차로에서 돋보이는 혁신을 선보입니다. SeamlessM4T는 다중 언어 및 다중 작업 모델로, 음성과 텍스트의 영역을 무장해 번역과 전사 과정을 혁신적으로 개선하고 있습니다. 다양한 형태의 커뮤니케이션과 원활하게 통합되는 SeamlessM4T는 다양한 능력을 자랑합니다: 거의 100개의 언어에 대한 자동 음성 인식
거의 100개의 입력 및 출력 언어를 지원하는 음성에서 텍스트로의 번역
거의 100개의 입력 언어와 35개 이상의 출력 언어(+ 영어)를 지원하는 음성에서 음성으로의 번역 거의 100개의 언어에 대
한 텍스트에서 텍스트로의 번역
거의 100개의 입력 언어와 35개 이상의 출력 언어(+ 영어)를 지원하는 텍스트에서 음성으로의 번역 이 뛰어난 모델은 메타의 공개 과학 접근에 따라 CC BY-NC 4.0 하에 공개되었습니다. 이러한 접근은 연구원들과 개발자들이 이 작업을 기반으로 더 많은 것을 만들 수 있도록 돕습니다. 더 나아가, SeamlessAlign의 메타데이터도 공개되었습니다. 이 데이터셋은 놀랄 만한 27만 시간의 음성 및 텍스트 정렬을 포함하며, 메타의 분야를 전진시키기 위한 헌신을 보여주는 것입니다. SONAR 및 stopes를 포함한 도구들은 단일 언어 데이터셋의 채굴을 용이하게 하며, 다양한 언어의 음성과 텍스트 문장을 인코딩하는 완벽한 세트인 SONAR와 다중 모달 데이터 처리 및 병렬 데이터 채굴을 위한 라이브러리인 stopes가 있습니다. 모든 연구 진전은 차세대 시퀀스 모델링 라이브러리인 fairseq2의 지원을 받습니다.
언어적 장벽 극복 - 코드를 해독하며
보편적 언어 번역기의 생성은 오랫동안 과학 소설의 Babel Fish와 같은 꿈이었습니다. 그러나 제한된 언어 리소스를 가진 언어에 대한 번역을 위해 기존 시스템이 번역을 분리 단계로 나누는 것은 큰 과제입니다. SeamlessM4T는 이러한 장벽을 극복하여 음성에서 음성으로와 음성에서 텍스트로의 번역 분야에서 큰 발전을 이루어냅니다. 이는 다양한 언어 작업을 매끄럽게 처리할 수 있는 통합된 다중 언어 모델을 제공합니다.
이 모델의 중요성은 크며, 서로 다른 언어를 사용하는 사람들 간의 효과적인 소통을 가능하게 합니다. 낮은 및 중간 리소스 언어에 대한 성능 향상은 디지털 언어 영역을 확장합니다. 또한 영어, 스페인어 및 독일어와 같은 고자원 언어에 대한 강력한 성능을 유지합니다. 가장 주목할만한 것은 SeamlessM4T가 별도의 언어 식별 모델 없이 소스 언어를 자동으로 인식한다는 점입니다.
모든 지혜의 여정
SeamlessM4T의 개발은 보편적 번역 분야에서의 연구와 진전의 결과물을 모아놓은 수년의 노력의 결정체입니다. 작년에 "No Language Left Behind" (NLLB)를 선보인 것은 200개 언어를 지원하는 텍스트에서 텍스트로의 기계 번역 모델을 가져온 것이었습니다. 이 혁신은 Wikipedia에 통합되어 수백만 사용자들의 번역 경험을 풍부하게 만들어 주었습니다. 직후에 공개된 Universal Speech Translator는 기록되지 않은 언어인 Hokkien의 최초의 직접 음성에서 음성으로의 번역 시스템으로 새로운 지평을 열었습니다. SpeechMatrix의 도입은 이어지는 중대한 표본 학습인 SpeechLASER에서 파생된 대규모 다중 언어 음성에서 음성으로의 번역 데이터셋을 제공했습니다. 메타의 Massively Multilingual Speech 이니셔티브는 1,100개 이상의 언어에 걸쳐 자동 음성 인식, 언어 식별 및 음성 합성 기술을 제공하며 연구의 화살촉을 더욱 강화했습니다.
SeamlessM4T는 이러한 성취들의 터전 위에 선 것으로, 오랜 기간 동안 얻은 통찰과 성과들을 결합하고 있습니다. 이 모델은 첨단 연구와 다양한 음성 데이터 소스의 조합으로 이루어진 다중 언어 및 다중 모달 번역의 탁월한 결과물입니다.
하나로 통합된 모델의 접근 방식
하나의 통합된 모델을 구축하기 위해서는 경량화되고 현대적인 PyTorch 생태계 라이브러리와 쉽게 결합할 수 있는 순서 모델링 툴킷이 필요합니다. 우리는 원래의 시퀀스 모델링 툴킷인 fairseq를 재설계했습니다. 더 효율적인 모델링과 데이터 로더 API로 fairseq2는 SeamlessM4T의 모델링을 뒷받침하는 데 도움을 주었습니다.
모델링에는 다양한 작업을 수행하는 multitask UnitY 모델 아키텍처를 사용합니다. 이 아키텍처는 번역된 텍스트와 음성을 직접 생성할 수 있는 능력을 가지고 있습니다. 이 새로운 아키텍처는 이미 바닐라 UnitY 모델의 일부인 자동 음성 인식, 텍스트에서 텍스트로, 텍스트에서 음성으로, 음성에서 텍스트로, 음성에서 음성으로 번역을 지원합니다. multitask UnitY 모델은 세 가지 주요 순차 구성 요소로 이루어져 있습니다. 텍스트 및 음성 인코더는 거의 100개의 언어에서 음성 입력을 인식하는 작업을 수행합니다. 그런 다음 텍스트 디코더는 텍스트의 의미를 거의 100개의 언어로 전달하고 이어서 텍스트에서 음성 언어의 이산 음향 단위로 디코드 하기 위한 텍스트-유닛 모델을 통과합니다. 자기 지도 인코더, 음성에서 텍스트로, 텍스트에서 텍스트로의 번역 구성 요소 및 텍스트-유닛 모델은 모델의 품질을 향상하고 훈련 안정성을 위해 사전 훈련됩니다. 디코드 된 이산 유닛은 다국어 HiFi-GAN 유닛 보코더를 사용하여 음성으로 변환됩니다.
음성 인코더의 처리 방식
저희의 자기 지도 음성 인코더인 w2v-BERT 2.0은 w2v-BERT의 훈련 안정성과 표현 품질을 향상시킨 버전으로, 수백만 시간의 다국어 음성을 분석하여 음성의 구조와 의미를 찾도록 학습합니다. 인코더는 오디오 신호를 받아 이를 작은 부분으로 분해하고 이에 대한 내부 표현을 구축합니다. 말하는 단어는 이러한 소리와 문자들로 이루어져 있기 때문에 길이 조정기를 사용하여 실제 단어에 대응하도록 대략적으로 매핑합니다.
텍스트 인코더의 처리 방식
비슷하게, 거의 100개의 언어에서 텍스트를 이해하고 번역에 유용한 표현을 생성하기 위해 훈련된 텍스트 인코더가 있습니다.
텍스트 생성
저희의 텍스트 디코더는 인코딩된 음성 표현 또는 텍스트 표현을 수용하도록 훈련되었습니다. 이는 자동 음성 인식과 다국어 번역과 같은 동일한 언어 작업에 적용될 수 있습니다. 예를 들어, 누군가가 프랑스어로 "bonjour"라는 단어를 말하면, 스와힐리어로 번역된 텍스트인 "habari"를 기대할 수 있습니다. 다중 작업 훈련을 통해 강력한 텍스트-텍스트 번역 모델(NLLB)의 강점을 활용하여 토큰 수준 지식 축소를 통해 음성-텍스트 번역 모델을 이끌어냅니다.
음성 생성
우리는 목표 측면에서 음성을 표현하기 위해 음향 유닛을 사용합니다. UnitY 모델의 텍스트-유닛(T2U) 구성 요소는 이산 음성 유닛을 생성하며 텍스트 출력을 기반으로 사전 훈련된 후에 UnitY 세밀 조정을 수행합니다. 그런 다음 다국어 HiFi-GAN 유닛 보코더를 사용하여 이러한 이산 유닛을 오디오 파형으로 변환합니다.
데이터 확장
SeamlessM4T와 같은 데이터 주도 모델은 주로 음성-텍스트 및 음성-음성 데이터와 같은 대규모 고품질 엔드 투 엔드 데이터에서 혜택을 누립니다. 인간이 직접 전사하고 번역한 음성만 의존하는 것은 100개 언어에 걸친 음성 번역의 어려운 과제에 부족합니다. 우리는 유사성 측정을 이용한 텍스트-텍스트 채굴의 선도적인 작업과 음성 채굴의 초기 작업을 더해 SeamlessM4T 모델을 훈련하기 위한 추가적인 리소스를 만들었습니다.
먼저, 200개 언어에 대한 새로운 대규모 다중 언어 및 -모달 텍스트 임베딩 공간인 SONAR(문장 수준 다중 모달 및 언어 비구속 표현)을 구축했습니다. 이는 다국어 유사성 검색에서 기존의 LASER3 또는 LaBSE와 같은 접근법을 크게 능가합니다. 그런 다음 교사-학생 접근법을 적용하여 이 임베딩 공간을 음성 모달로 확장하고 현재 36개 언어를 커버합니다. 채굴은 웹 데이터(수십억 개의 문장) 및 음성(4백만 시간)의 공개적으로 사용 가능한 저장소에서 수행됩니다. 총 44만 3000시간 이상의 음성을 텍스트와 정렬하고 약 2만 9000시간의 음성-음성 정렬을 생성할 수 있었습니다. 이 말뭉치는 SeamlessAlign으로 명명되며, 총 볼륨 및 언어 커버리지 측면에서는 역대 최대의 개방형 음성/음성 및 음성/텍스트 병렬 말뭉치입니다.
이러한 작업과 언어에 대해 SeamlessM4T는 거의 100개 언어에 대한 최첨단 결과와 자동 음성 인식, 음성에서 텍스트로, 음성에서 음성으로, 텍스트에서 음성으로, 텍스트에서 텍스트로 번역 등 다중 작업 지원을 모두 한 모델에서 달성합니다. 또한 지원하는 낮은 및 중간 리소스 언어의 성능을 크게 향상하고 고자원 언어에 대한 강력한 성능을 유지합니다.
텍스트 기반 지표에 의존하지 않고 시스템을 더 정확하게 평가하기 위해 저희는 텍스트 없는 지표를 BLASER 2.0으로 확장하여 음성 및 텍스트 단위 간의 유사성 검색을 더욱 정확하게 평가할 수 있게 했습니다. 강건성을 테스트한 결과, 우리의 시스템은 배경 소음과 화자 변동에 대한 음성-텍스트 작업에서 더 나은 성능을 발휘합니다(각각 약 37% 및 48%의 평균 개선) 현재 최첨단 모델과 비교하여. SeamlessM4T는 또한 이전의 최첨단 경쟁 모델을 능가합니다.
SeamlessM4T를 책임있게 구축한 방식
번역 시스템이 정확해야 한다는 것은 중요합니다. 모든 AI 시스템과 마찬가지로 모델이 사람이 말하고자 하는 내용을 잘못 전사하거나 유해하거나 부정확한 출력을 생성할 수 있는 내재적인 위험이 있습니다.
메타에서는 우리의 AI 연구 및 개발이 책임 있는 프레임워크를 따르며 책임 있는 AI의 다섯 가지 원칙에 따라 진행됩니다. 책임 있는 AI에 대한 우리의 헌신에 따라 모델의 어느 부분이 민감할 수 있는지 이해하기 위해 독성 및 편향에 대한 연구를 수행했습니다. 독성에 대해서는 음성 입력과 출력에서 독성 단어를 식별하는 데 도움이 되는 고도로 다중 언어 독성 분류기를 확장했습니다. 훈련 데이터에서 불균형한 독성을 걸러내었습니다. 입력 또는 출력에 독성이 다른 경우 해당 훈련 쌍을 제거했습니다.
오늘 공개하는 데모는 SeamlessM4T의 능력을 보여주며 연구의 중요한 부분입니다. 우리는 데모의 입력과 출력에서 독성을 감지합니다. 독성이 출력에서만 감지되는 경우, 이는 독성이 추가된 것을 의미합니다. 이 경우 경고를 포함하고 출력을 표시하지 않습니다. 우리의 모델을 최첨단 기술과 비교할 때 음성-음성 및 음성-텍스트 번역 모두에서 추가된 독성을 크게 줄였습니다.
성별 편향은 특정 성별을 불공평하게 지원하며 때로는 성적 인식으로 기본 설정될 수 있는 영역이며, 이것은 우리가 규모 있게 평가하려는 다른 영역 중 하나입니다. 우리는 이전에 설계한 다국어 HolisticBias 데이터셋을 음성에 확장하여 수십 개의 음성 번역 방향에서 성별 편향을 양적으로 측정할 수 있게 되었습니다.
안전성 및 보안에 대한 우리의 작업은 지속적인 노력입니다. 우리는 이 영역에서 연구를 지속하고 조치를 취하여 SeamlessM4T를 지속적으로 개선하고 모델에서 발생하는 독성 사례를 줄일 것입니다.
기술 접근을 제공하기
최첨단 결과를 바탕으로 SeamlessM4T가 AI 커뮤니티의 보편적 다중 작업 시스템을 만드는 데 중요한 발전이라고 믿습니다. 개방적인 과학에 대한 접근 방식을 유지하면서, 이 기술을 기반으로 한 연구자와 개발자들이 이 기술을 더 발전시킬 수 있도록 공개적으로 모델을 공유하는 것에 기대감을 가지고 있습니다.
이것은 모든 언어로 사람들을 연결하는 데 도움이 되는 AI 기술을 구축하는 지속적인 노력의 최신 단계일 뿐입니다. 미래에는 이 기본 모델이 새로운 커뮤니케이션 능력을 가능하게 하는 방법을 탐색하고 궁극적으로 모든 사람이 이해할 수 있는 세상에 더욱 가까워지는 방향으로 나아갈 것입니다.
아래는 입력받을수 있는 언어와 출력가능한 언어 List입니다.
본 프로그램 Test 시 꼭 마이크가 필요합니다. pc 가 없을 경우 핸드폰에서 작동 하시면 됩니다.
나름대로 괞찮은 것 같고 굳이 다른 언어를 안 배워도 음성으로 입력하면 자동으로 텍스트 번역 및 음성으로 번역하고자 하는 언어로 번역되어 너무 좋은 것 같다. 본인이 폰으로 Test 한 화면입니다.
https://seamless.metademolab.com/demo
'인공지능(AI)' 카테고리의 다른 글
의료 분야의 AI 혁신: 뇌 임플란트로 마비 환자의 의사소통 (61) | 2023.09.03 |
---|---|
라마2 발표 및 새로운 인공지능 모델 소개 (83) | 2023.09.02 |
네이버의 대화형 인공지능 ‘클로바X’의 기능 고도화 (64) | 2023.08.28 |
일상의 효율을 높여주는 AI 서비스 소개 (67) | 2023.08.27 |
스마트폰 카메라로 가능한 AI 기술: 미래의 창작과 창의성 (91) | 2023.08.26 |