뉴스 트렌드 생활정보 International edition 매체

승정원일기 번역하는 AI, 천문분야 古문헌도 한글로 옮긴다

입력 | 2019-07-01 03:00:00

고전번역원 “연내 특화모델 개발”
삼국시대~조선까지 풍부한 기록… 新星폭발 기록 등 해외서도 주목
인공신경망 자동번역 모델 기반… 의학-농업-의궤 등으로 확장 기대




인공지능(AI)이 내년부터 각종 천문 현상과 지식을 기록한 우리 고문헌을 한글로 번역한다.

한국고전번역원은 “승정원일기 번역을 위해 개발하고 있는 인공지능을 천문 분야 고문헌에도 적용해 올해 말까지 특화된 번역 모델을 개발하겠다”고 30일 밝혔다.

한국의 천문 분야 고문헌은 삼국시대에서 조선까지 장기간 풍부한 기록을 담고 있어 천문 데이터의 보고(寶庫)라고 할 수 있다. 근래 ‘네이처’에 실린 신성(新星) 폭발 관련 논문이 세종실록의 기록을 인용했고, 국제천문연맹(IAU) 학술회의 등에서도 해외 학자들이 한국 고문헌에 주목한다. 특히 수백 년 이상의 관측 기록은 혜성처럼 주기적인 천문 현상을 연구하는 데 중요한 자료다. 그러나 천문학과 한문 지식 모두를 갖춘 번역자가 부족해 번역이 더뎠고, 연구 활용도도 떨어졌다.

고전번역원과 공동으로 자동번역 모델을 개발하는 한국천문연구원의 김상혁 고천문연구센터장은 “인공지능이 천문 고문헌을 초벌 번역하면 연구자들의 접근성이 획기적으로 높아질 것으로 본다”며 “천문학사, 과학사, 역사학 등 융합 연구에도 효과를 낼 것”이라고 말했다. 자동번역 모델을 완성하면 천문 고문헌 번역 예산도 약 40% 절감할 것으로 기대하고 있다.

천문 고문헌 자동번역은 약 2억5000만 자에 이르는 승정원일기 번역을 앞당기기 위해 2017년부터 개발하고 있는 인공신경망 기계학습 자동번역 모델을 바탕으로 개발한다. 이미 사람이 번역해 놓은 ‘제가역상집(諸家曆象集)’ ‘주서관견(籌書管見)’ ‘천동상위고(天東象緯考)’ 등 고문헌 원문과 번역 결과물을 코퍼스(corpus·연구를 위한 말뭉치)로 정리하고 기존 번역 모델에 학습시키는 방식으로 이뤄진다.

천문처럼 특정 분야를 다루는 고전적(특수고전)은 7000종 이상으로 추정하지만 번역된 책이 많지 않다. 그나마도 역사, 지리, 정치·사회 분야에 편중돼 과학·기술, 문화·예술 등의 번역은 더욱 저조하다. 백한기 한국고전번역원 고전정보센터장은 “승정원일기 번역 알고리즘이 바탕이 되기에 비교적 적은 양의 데이터를 학습해도 기대 이상의 번역 결과물을 얻을 수 있을 것”이라며 “천문뿐 아니라 의학, 외교, 의궤, 농업 등 여러 분야의 고문헌에 특화된 자동번역 모델로 확장할 수 있다”고 말했다.

고전번역원은 승정원일기 자동번역 모델도 올해 말까지 실제 업무에 활용할 정도로 완성도를 높일 계획이라고 밝혔다. 2018년 인공지능이 승정원일기를 번역한 결과물은 전문번역가 채점 결과 5점 만점에 평균 3.7점 정도를 받았다. 그러나 2017년에는 오역했던 문장을 틀리지 않게 번역했고, 긴 문장도 내용을 파악할 수 있는 수준으로 유연하게 번역하는 등 성능이 향상됐다는 자체 평가다.

고전번역원은 이르면 올해 말 이 번역 모델을 국민에게 공개해 연구자나 콘텐츠 생산자 등이 초벌 번역에 활용할 수 있을 것으로 전망한다. 백 센터장은 “당장은 승정원일기에 최적화돼 있어 개인 문집 등에 적용하기는 어렵지만, 나중에는 한시도 번역할 수 있을 정도로 각종 문체에 맞게 특화한 모델로 발전시킬 수 있다”고 말했다.

조종엽 기자 jjj@donga.com