K-SMARTFACTORY

AI & Big Data

인공지능(AI)으로 방언 보호 앱개발 사례

2022-11-28

 


 

 

현지인 외에는 어느 누구도 처음 들어보는 그 지역 방언을 알아듣기 어렵다. 

중국의 음성인공지능(AI) 대기업 아이플라이텍(iflyteck) 은 소멸될 우려가 있는 방언을 음성 AI로 보존하는 프로젝트를 2017년에 발표한 바 있다. 그 프로젝트를 발표할 때 다음과 같은 메시지가 있었다.

“중국에는 한족 외에 55개 소수민족이 있다. 저마다 자민족 언어를 사용하고 있으며 지역에 따라 무수한 사투리가 사용되고 있다. 그러나 젊은이를 중심으로 점점 방언이 없어지고 있다. AI 활용이 확산되고 있는 가운데 각 방언을 완전히 재현하는 AI 시스템 연구가 시급히 요구되고 있다.”

이 회사의 입력 앱에 발표 시점 기준 22개 민족 언어의 방언을 입력할 수 있게 되었고 그 가운데 「광동어, 사천 방언, 동북 방언의 인식률은 90%를 초과」 하고 있었다.

이후 5년간 AI로 방언을 재현하기 위해 다수의 자료를 모아 방언 라이브러리를 만들고 각 지역의 방언 전문가 및 학자들과 협력하여 연구를 거듭한 결과 앱으로 23개의 방언과 3개의 소수민족 언어를 지원할 수 있게 되었다. 뿐만 아니라, 이 앱으로 입력이나 번역 외에도 다른 활용 사례가 조금씩 나오고 있다. 

장쑤 성 쑤저우에서는 다음과 같은 형태로 쑤저우어(쑤저우 방언) AI를 활용하고 있다.

아이플라이텍은 중세 쑤저우 생활 모습을 담은 단편 동영상 「姑蘇瑣記」를 발표했다. 상하이에서 가까운 장쑤성 쑤저우를 무대로 한 명나라 시대극 콘텐츠이다. 여성 연예인을 모델로 가상 캐릭터를 만들어 당시의 복장이나 도구를 사용해 돌아다니는 모습을 위화감 없이 재현하고 있다. 내레이션이나 대화 부분은 AI로 생성한 쑤저우 방언을 활용하고 있다. 몇 분짜리 동영상이지만 영화처럼 만들어졌고 지방언어인 쑤저우어도 아주 자연스럽다고 한다.

 

쑤저우 방언 프로젝트에 2만2000명이 참여하여 쑤저우어에 대한 자료를 수집하였다. 말을 알아듣고 이해할 뿐 아니라 발음과 억양, 말투 습관도 AI에 학습 시켜 보다 자연스럽고 감정이 풍부한 말투를 재현했다는 것이다. 전달 정보에 감정을 이입시킴으로써 단지 음성 통역뿐만 아니라 감정 표현이 중요한 요소가 되는 연극 등 연예 분야에도 활용할 수 있게 되었다.

 

아이프라이텍은 쑤저우시와 손잡고 쑤저우어 AI를 교육 분야나 문화관광, 미디어 영역에 적용할 수 있는지 모색해 나갈 것으로 알려졌다. 

예를 들면, 쑤저우어 AI를 사용해 동영상 스트리밍이나 쇼트 무비 등을 전달해 다음 세대에 방언을 계승하기 위해 준비하고 있다.

 

아이플라이텍이 중국어 음성 입력 기능을 출시한 것은 2010년으로 당시 표준어인 베이징어용으로 처음 개발되었다. 다만 베이징어라 해도 지역에 따라 억양이 달라 사용하기 어렵다는 피드백이 많았다. 

이것이 계기가 되어 우선 광동어, 합비어, 사천어 등 방언을 준비하게 되었다. 한편 개발자들은 지역에 따라 방언 입력 앱이 생각만큼 사용되지 않고 있다는 것에 놀라워했다. 일상생활에서 사람들이 방언을 사용할 기회가 적어지면서 젊은 세대들이 알아들을 수조차 없다는 것을 알았다. 그래서 앞서 서술한 프로젝트가 시작되었다고 한다.

상하이어 음성인식 AI를 개발하기 위한 작업은 다음과 같이 진행되었다. 먼저 상하이어를 읽고 쓸 수 있는 사람이 상하이어와 표준어의 사용 방법을 비교해 그 두 자료 사이에 모순이 있을 경우 체크해 놓고 이를 정리하여 목록을 만든다. 

그 지역에서만 사용되는 한자는 글자가 깨지기 때문에 사투리의 동음이의어를 찾아 치환한다. 이렇게 만든 목록을 방언 모국어 화자가 발음하여 녹음한다. 그 내용을 확인하고 문제가 없으면 완성이다. 

먼저 이 작업에 6개월이 걸렸다고 한다. 다음으로 다양한 문장을 사용하여 AI에게 반복 학습시킨다. 이렇게 상하이어 AI가 완성될 무렵에는 개발자들도 상하이어가 저절로 익숙해 진다고 한다. 

지난 2018년에 상하이어 음성 입력 앱이 완성되자 상하이어 사용자들은 누구나 매우 참신하다고 극찬했다.

그 다음 상하이어 개발팀은 쑤저우어 개발로 이어갔다. 이 회사는 소수민족 언어의 AI 개발도 진행하고 있다. 중국 운남성 미얀마 국경과 마주하고 있는 중국 최서부에 거주하는 중국 최소 소수민족 獨龍族 (토롱족)의 방언이 그 중 하나다. 현재 獨龍族語를 모국어로 하는 사람은 1만 명 미만이며 사용하는 사람들 또한 대부분 고령자이어서 그 민족의 문자를 읽고 쓸 수 있는 사람이 거의 없다고 한다. 이러한 상황에서 녹음된 음성에 국제 음성 기호를 대응시켜 언어재료를 모아 獨龍族어 AI를 개발하고 있다.

이 회사의 홈 페이지에 들어가 보면 제조업을 비롯해 다양한 산업분야에 AI를 활용한 솔루션 및 앱을 제공하고 있는 것을 볼 수 있다. 

 

 

 

출처 : iflytek