국립국어원 2억 어절 문장 DB 구축
우리말 전자사전 개발과 컴퓨터를 통한 정교한 번역 및 정확한 맞춤법 교정 작업에 기초가 되는 ‘21세기 세종계획’이 10년 만에 마무리됐다.
‘21세기 세종계획’은 우리말의 정보화와 표준화를 위한 데이터베이스 구축을 위해 특정 단어가 쓰인 문장을 뜻하는 말뭉치(corpus)를 집대성하고 이를 컴퓨터가 인식할 수 있는 기계어로 전환시켜 전자사전(사진)을 구축하는 사업을 말한다.
국립국어원(원장 이상규)은 1998년부터 각 신문, 잡지, 소설 등에서 소설책 4000권 분량에 해당하는 2억 어절 규모의 말뭉치를 구축했다고 최근 발표했다. 이는 영국이 1991년부터 1994년에 걸쳐 확보한 1억 어절 규모를 뛰어넘는 세계 최대 규모다.
국어원은 이를 토대로 60만 어휘 규모의 전자사전을 개발해 인터넷서비스(www.sejong.or.kr)에 착수했다. 또한 남북한 언어 비교, 방언, 어휘 역사 등의 자료를 구축했고 문자코드 표준화사업을 통해 컴퓨터에 입력할 수 없는 옛 글자를 수집했다. 또 404자의 한자를 국제표준문자에 등록하는 한편 전문용어 정비사업을 통해 14개 분야 17만 단어의 한글-영어 대응목록을 만들었다.
국립국어원은 이들 사업에 지금까지 100억여 원의 예산과 연간 200여 명의 연구 인력이 투입됐으며 1년가량 전문가 검토를 거쳐 2009년쯤 2차 사업 계획을 수립하겠다고 밝혔다.
권재현 기자 confetti@donga.com