뉴스 트렌드 생활정보 International edition 매체

[@뉴스룸/조종엽]인공지능이 고전 번역?

입력 | 2016-06-15 03:00:00


조종엽 문화부 기자

지난달 한국고전번역원에선 고전과 잘 어울리지 않을 것 같은 인물이 특별 강연을 했다. 이명학 고전번역원장이 초청한 강사는 김진호 서울과학종합대학원 빅데이터MBA학과 주임교수. 고전과 빅데이터는 무슨 조합일까?

“한문 번역을 꼭 사람이 해야 한다는 것도 고정관념입니다.”

10일 통화에서 김 교수는 확신에 찬 목소리로 컴퓨터 알고리즘(인공지능)이 고전도 번역할 수 있다고 했다. 이미 번역된 내용과 그 원문을 컴퓨터에 학습시키면 된다는 것이다. 한문 문법을 하나하나 입력하는 것이 아니라 컴퓨터가 원문 문장이 끊어지는 지점과 앞뒤 단어 배열 등을 인식한 뒤 올바른 번역일 확률이 높은 우리말 문장을 도출하는 방식이다. ‘구글 번역기’와 같은 방식이라고 한다.

솔깃한 얘기다. 2억4300만 자에 이르는 승정원일기는 1994년 번역에 착수했지만 지금까지 번역률이 20%가 안 된다. 평상 시 40여 명이 번역하고 있지만 지금 속도라면 완역에 45년은 더 걸린다. 문집 1259종을 정리한 한국문집총간(500책) 번역도 그만큼 걸린다. 대부분의 현대인이 읽지 못하는 우리 유산을 빨리 번역할 수 있다면 얼마나 다행인가.

‘한문을 수십 년 익힌 이도 때로 막히는 고전 번역을 인공지능이 할 수 있을까’ 하는 의구심도 들었다. 구글 번역기를 써 본 이라면 우리말 자동 번역에 아직 얼마나 오류가 많은지 알 것이다.

“그건 구글 번역기에 입력된 외국어의 우리말 번역 자료가 많지 않아서 그래요. 빅데이터 활용도는 데이터의 양과 질에 따라 달라집니다.”

김 교수에 따르면 구글 번역기는 유엔이 영어 프랑스어 등 6개 국어로 상호 번역해놓은 문서를 기초 자료로 활용했는데 여기에 한국어는 포함되지 않았다. 이후 데이터가 집적될수록 정확도가 높아져 6개 언어끼리의 번역 오류는 현재 약 6% 수준이라고 한다. 고전을 우리말로 번역해놓은 디지털 자료가 적지 않으니, 이를 활용하면 번역 정확도를 일정 수준 이상으로 높일 수 있다는 얘기였다.

혹시 흘려 쓴 글씨체인 초서를 정자로 바꾸는 탈초(脫草)도 컴퓨터 알고리즘이 할 수 있을까. 많은 고전 자료들이 초서로 남아 있는데 지금은 초서를 제대로 읽는 이가 국내에 100명이 안 된다. 김 교수는 “요즘 이미지 인식 기술은 사람과 비슷한 수준”이라며 이 역시 가능하다고 봤다.

이 원장은 긍정적이면서도 신중한 의견이었다. “전례(典例)와 고사(故事), 즉 전고 인용 부분의 번역을 비롯해 난점이 있을 겁니다. 어쨌든 초벌 번역이 되면 사람의 번역도 수월해집니다.”

이 원장은 승정원일기 등 비슷한 문장의 반복이 많은 사서(史書)보다 개인 문집의 번역 난도가 더 높을 것이라고 봤다. 옛 사람들은 전고를 인용할 때 ‘누가 어떻게 했다’는 식으로 풀어서 쓰지 않고, 그냥 한두 글자로 압축해 썼다. 중견 번역자도 글자의 뜻 자체를 풀어야 하는지, 지칭하는 전고가 따로 있는 것인지 구별하는 게 쉬운 일은 아니다.

이처럼 실제 활용 가능한 고전 번역 프로그램의 개발은 앞으로의 과제다. 하지만 고전과 첨단을 접목하려는 발상 자체가 반갑다.
 
조종엽 문화부 기자 jjj@donga.com