인공지능(AI)

새로운 AI 오디오 시스템 '새몬'

슈가가족 2023. 10. 30. 22:35
반응형

새로운 AI 오디오 시스템 '새몬': 오디오를 넘어 소리까지 이해하는 인공지능

1. 새몬(SALMONN)이란?

새몬은 사람의 음성이나 소리, 음악과 같은 다양한 오디오 입력을 듣고, 이해하고, 추론할 수 있는 최신 인공지능(AI) 시스템입니다. 이 시스템은 단순히 음성을 텍스트로 전환하는 기존의 STT(음성 텍스트 전환) 방식을 넘어서, 다양한 유형의 오디오를 동시에 학습하고 이해하는 '오디오 전문' 멀티모달 아키텍처를 실현했습니다.

2. 새몬의 탄생 배경

벤처비트는 최근 중국 칭화대학교와 바이트댄스 연구진이 발표한 '새몬'에 관한 논문을 온라인 아카이브(arXiv)에서 소개했습니다. 이 논문에서는 새몬의 기술적 세부사항과 그 특별한 기능에 대해 상세히 설명하고 있습니다.

3. 새몬의 주요 특징

1. 멀티모달 아키텍처: 새몬은 음성 처리용과 일반 오디오용 두 가지 특수 AI 모델을 단일 LLM(Large Language Model)로 병합하였습니다.
2. 단일 임베딩 저장: 새몬은 여러 유형의 오디오 데이터를 별도로 저장하는 것이 아닌, 결합하여 단일 임베딩에 보관합니다.
3. 다양한 오디오 인식: 새몬은 음성과 일반 오디오 입력을 새로운 토큰 세트로 임베딩하며, 텍스트 프롬프트와 함께 LLM에 입력하면 적절한 응답을 제공합니다.
4. 실시간 오디오 분석: 폭발음, 총소리 등의 여러 유형의 데이터를 동시에 분석할 수 있습니다.

4. 새몬의 활용 방안

새몬의 독특한 아키텍처 덕분에 사람처럼 여러 오디오에서 정보를 동시에 수집하고, 정보를 전체적으로 처리할 수 있습니다. 화자의 성별, 노래 또는 말의 종류, 말의 의미 등에 대한 전반적인 이해를 제공하며, 다국어 음성 인식, 오디오 및 음성 공동 추론과 같은 새로운 기능을 제공할 수 있습니다.

5. 연구진의 평가 및 전망

연구진은 "새몬은 LLM의 일반 지식과 인지 능력을 활용하여 오디오 인식 능력을 한 차원 높였다"고 주장하였습니다. 그러나 아직도 추론적인 면에서 한계가 있음을 인정하며, 지속적인 연구와 개발이 필요하다고 강조하였습니다.

6. 접근성 및 사용

새몬은 오픈소스로 제공되며, 허깅페이스 플랫폼에서 사용할 수 있습니다. 이를 통해 전세계의 연구자와 개발자들이 새몬을 자유롭게 사용하고, 더 많은 기능과 응용 프로그램을 개발할 수 있게 되었습니다.

반응형