• 기초AI연구팀(FAIR), 1600개 언어 받아쓰기 자동음성인식(ARS) 체계 공개

메타 로고 로이터 연합뉴스.jpg

페이스북 모회사 메타가 1600개 언어를 인식할 수 있는 인공지능(AI) 음성 인식 모델 '옴니링구얼(Omnilingual)'을 10일(현지시간) 공개했다. 사진은 메타 로고. 로이터/연합뉴스

 

페이스북 모회사 메타가 1600개 언어를 인식할 수 있는 인공지능(AI) 음성 인식 모델 '옴니링구얼(Omnilingual)'을 공개했다. 


메타 기초AI연구(FAIR)팀은 10일(현지시간) 1천 가지가 넘는 언어의 음성을 문자로 전사할 수 있는 자동음성인식(ASR) 기술을 발표하며 "AI 접근성의 장벽을 낮추겠다"고 밝혔다.


옴니링구얼은 기존 대형언어모델(LLM) 기반 생성 AI가 고자원 언어에 편중돼 있던 한계를 넘고, 음성-문자 데이터가 적은 언어에서도 작동하도록 설계됐다. 저자원 언어(데이터가 부족하거나 연구 똫는 기술 지원이 미흡한 언어) 546종 중 36%만이 오류율 10% 미만이었지만, 고자원 언어에서는 95% 이상이 안정적인 성능을 보였다.


메타는 이 모델에 사용된 70억 개 매개변수의 음성 인코더를 오픈소스로 공개하고, 350종의 소수 언어 음성 말뭉치(corpus)도 함께 풀었다.


[미니해설] AI 언어 격차 좁히는 '옴니링구얼'…저자원 언어 접근성의 실험대


메타가 내놓은 '옴니링구얼'은 AI 기술의 민주화를 겨냥한 시도로 평가된다. 지금까지 구글, 오픈AI 등 주요 기업의 음성인식 시스템은 영어, 중국어, 스페인어 등 데이터가 풍부한 '고자원 언어' 중심이었다. 반면, 아프리카·남아시아·태평양 섬 지역의 수많은 언어는 AI가 학습할 데이터조차 부족해 기술 발전에서 소외돼 왔다.

 

옴니링구얼은 이러한 불균형을 해소하기 위해 최소한의 음성-문자 쌍 데이터만으로도 인식 기능을 구현할 수 있도록 고안됐다. 1600개 언어를 커버하며, 그중 500개는 AI 전사(轉寫·한 단어의 발음을 다른 문자 체계로 옮기는 과정)가 한 번도 시도되지 않았던 언어다. 이는 전 세계 언어 다양성 보존과 문화적 접근성 확대라는 점에서 의미가 크다.


그러나 한계도 뚜렷하다. 메타가 공개한 성능 평가에 따르면, 저자원 언어의 문자 오류율은 고자원 언어 대비 여전히 높은 편이다. 오류율 10% 미만인 언어 비율이 36%에 불과해 실생활 적용에는 시간이 필요하다. 그럼에도 불구하고, 이는 AI가 언어적 불평등을 줄이는 방향으로 진화하고 있음을 보여준다.


FAIR팀은 옴니링구얼을 구성하는 70억 개 매개변수의 음성 인코더를 오픈소스로 공개했다. 이는 AI가 음성을 벡터 데이터로 이해하도록 돕는 기반 기술로, 다른 연구자나 개발자가 이를 활용해 맞춤형 음성 서비스나 언어 모델을 개발할 수 있게 한다. 또한 350종의 소수 언어 음성 말뭉치도 함께 풀어 학계·산업계의 연구를 촉진했다.


전문가들은 이번 공개가 "AI의 다언어 처리 기술을 한 단계 끌어올린 사건"이라고 평가하면서도, "단순한 기술 공개를 넘어 언어권별 데이터 품질 개선과 지역 커뮤니티 협력이 병행돼야 한다"고 지적했다.

 

즉, 옴니링구얼은 완성된 제품이 아니라 언어 평등을 향한 '출발점'이다. AI가 더 많은 언어를 이해하고 존중할 때, 기술은 진정으로 글로벌이 된다.

전체댓글 0

비밀번호 :
메일보내기닫기
기사제목
메타, 1600개 언어 인식 AI '옴니링구얼' 공개⋯저자원 언어 500종 포함
보내는 분 이메일
받는 분 이메일