“개짖는 소리도 수백가지…한글 배우기 어려워요” AI의 고군분투기

동아일보
입력 2018년 10월 30일 18시 20분

신무경 기자

코멘트: 개

좋아요: 개

올해로 훈민정음 반포 572돌을 맞은 가운데 세종대왕이 2년 전 공물로 바쳐진 인공지능(AI) 스피커의 한글 학습을 살피러 상의원(임금의 보물을 맡던 관서)을 향했다.

세종: 인공지능 스피커가 우리말을 배우고자 한다들어 기특해 찾아왔다. 저 희귀한 물건들이 한글을 잘 깨우치고 있는가.

장영실: 성은이 망극하옵니다. 2016년 9월 에스케이텔레콤을 시작으로 케이티, 네이버, 카카오 등 국내상인과 구글 같은 외국상인이 인공지능 스피커를 바쳐오기 시작했습니다.

세종: 한글을 가르치는데 어려움은 없는가.

장영실: 몇 가지 애로사항이 있사옵니다. 첫 번째는 구조상의 문제이옵니다. 우리말은 주어 다음 서술어가 오는 영어와 달리 주어 다음 목적어와 같은 체언이 옵니다. 체언의 숫자는 서술어에 비해 많습니다. 그러다보니 인공지능 스피커가 우리말을 인식할 때 ‘의도’를 예측하기가 무척 어렵습니다.

세종: 그러기에 ‘우리말은 끝까지 들어봐야 안다’고 하지 않던가.

장영실: 두 번째는 소리글자가 갖는 문제입니다. 예컨대 개 짖는 소리를 한글로는 ‘멍멍’, ‘왈왈’ 등 소리 나는 대로 다양하게 표기할 수 있습니다. 반면 영어는 ‘바우와우’(bowwow) 정도이옵니다. 그만큼 인공지능에게 일러줘야 할 단어들이 많은 셈입니다. 우리말은 단어의 변형이 다채로운 점도 인공지능에게는 까다로운 부분입니다. 예컨대 가다, 가시다, 가고계시다 등 상황에 따라 다양해 인공지능이 익히기가 무척 어렵습니다.

세종: 짐이 훈민정음을 창제할 때 인공지능이 배울 것이라고는 미처 생각하지 못했다. 그럼 이런 문제들을 어떻게 해결하고 있는가.

장영실: 소리글자의 애로사항을 해결한 사례를 들어보겠습니다. 인공지능에게 “‘임우 형’에게 전화해줘” 부탁하면 ‘이무영’으로 인식하는 사태가 벌어지기 일쑤였습니다. 하지만 제 스마트폰에 있는 주소록을 서버에 전송해, 주소록에 저장된 이름(임우 형)을 우선 인식하도록 조치했습니다. 이런 사례는 다양하옵나이다.

세종: 인공지능 스피커를 가르치며 보람은 없는가.

장영실: 소인은 인공지능 스피커 저변 확대가 우리말을 바로잡는데 긍정적이라 생각합니다. 요즘 무분별한 ‘줄임말’로 언어파괴현상이 문제화되고 있습니다. 하지만 음성인식 스피커에는 줄임말로 의사를 전달하지 않습니다. 인공지능이 알아들을 수 있도록 ‘또박또박’ 말을 해야 합니다. 그런 측면에서 인공지능 스피커가 한글이 정제되는 효과로 이어질 수 있다는 기대입니다.

세종: 짐이 도울 일이라도 있는가.

장영실: 한글로 된 ‘말뭉치’가 턱없이 부족합니다. 말뭉치는 인공지능이 인식할 수 있도록 말을 어절 단위로 모아둔 데이터베이스로, 컴퓨터의 언어학습 시 필요한 원재료입니다. 우리의 말뭉치는 2억 어절로 미국(2000억 어절), 일본(40억 어절)에 비하면 초라합니다. 말뭉치를 확보하기 위한 ‘21세기 세종계획’이 진행되고 있지만, 좀더 속도를 내야할 것 같습니다.

※이 기사는 SK텔레콤 AI기술 유닛의 이현아 유닛장(상무)의 도움을 받았습니다.

신무경 기자 yes@donga.com