오지 언어도 우리말로 척척… SF 속 ‘만능 번역기’ 현실로

동아일보
입력 2024년 6월 7일 03시 00분

코멘트: 개

좋아요: 개

메타, 다국어 번역 AI 개발
주류언어 모델로 소수언어 학습
인도 희귀어 등 200개 언어 구사
온라인 디지털 격차 해소 기대

페이스북의 모기업인 ‘메타’의 인공지능(AI) 연구팀이 200개의 서로 다른 언어를 번역할 수 있는 AI 모델을 개발했다. 게티이미지코리아

200개의 서로 다른 언어를 번역할 수 있는 인공지능(AI) 모델이 나왔다. 소수 언어를 사용하고 있어 디지털 시대를 따라가지 못하는 이들이 겪는 디지털 격차를 줄이는 데 기여할 것으로 보인다.

페이스북의 모기업인 메타의 AI 연구팀은 온라인 다국어 번역 AI 도구인 ‘NLLB-200’을 개발하고 연구 결과를 6일(현지 시간) 국제학술지 ‘네이처’에 공개했다. NLLB는 ‘어떤 언어도 낙오되지 않는다(No Language Left Behind)’는 의미다.

인공신경망 학습을 기반으로 하는 번역 AI 모델은 학습하는 언어의 양이 많아질수록 해당 언어의 번역 품질이 좋아진다. AI 모델은 온라인 데이터를 학습에 활용한다. 언어 종류별로 학습에 활용할 수 있는 데이터양이 다르다. 데이터의 상당수가 영어, 프랑스어 등 주류 언어로 쓰여 있고 루간다어, 아스투리아어 같은 소수 언어는 찾기 힘들다. 한국어도 마찬가지다.

메타 AI 연구팀은 “기존 번역 도구 대부분은 소수 언어 번역 서비스를 제공하지 않거나 제공한다고 하더라도 번역의 정확도가 떨어졌다”면서 “누구나 언어가 달라도 온라인 게시물을 자유롭게 읽고 가상세계에서 만날 수 있게 하기 위해 이번 모델을 만들었다”고 밝혔다.

연구팀은 NLLB-200을 만들기 위해 ‘전이학습’을 이용했다. 전이학습은 한 작업에 대해 훈련된 모델을 유사한 작업을 수행하는 모델의 기초로 활용하는 AI 훈련법이다. 주류 언어를 많이 학습한 모델을 토대로 소수 언어를 학습시키는 방식으로 적용했다. 이때 문법 구조가 유사하거나 같은 문자를 쓰는 언어는 서로 언어 데이터 사이의 연관성을 높여 학습시켰고 문장 구조가 다른 언어는 연관성을 적게 만들어 학습시켜 번역 품질을 높였다.

소수 언어의 학습 데이터양을 늘리는 시도도 했다. 데이터 마이닝 도구 ‘레이저3(LASER-3)’를 이용해 알파벳 기반의 소수 언어 148개의 온라인 데이터, 비알파벳 기반의 소수 언어 1465개의 데이터를 마이닝하여 학습시켰다. 데이터 마이닝이란 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다. 연구팀이 개발한 NLLB-200을 평가한 결과도 공개했다. NLLB-200은 기계번역 성능을 평가하는 도구인 ‘BLEU 점수’가 기존 번역 모델에 비해 44% 높았다. 일부 아프리카와 인도 희귀 언어의 경우 최근 등장한 번역 모델에 비해 NLLB-200의 BLEU 점수가 70% 더 높은 것으로 나타났다.

AI를 연구하는 오세준 홍익대 수학교육과 교수는 이번 연구 결과에 대해 “메타 AI 연구팀이 언어별로 번역이 잘 이뤄졌는지 평가할 수 있는 도구 ‘플로레스-200(FLORES-200)’을 만든 점이 눈에 띈다”면서 “문맥을 잘 이해하고 번역했는지를 평가하는 도구로 플로레스-200을 이용해 번역 품질을 계속 높여갈 것으로 보인다”고 말했다.

마르타 R 코스타 주사 메타 AI 연구팀 연구원은 “지금껏 온라인에서 거의 번역되지 않았던 언어를 사용하는 사람들이 인터넷 및 기타 기술에 접근하는 데 우리 기술이 도움이 될 것”이라며 “교육에 활용되길 바라며 여전히 오역이 발생할 수 있기 때문에 계속 기술을 발전시키겠다”고 했다.

#오지 언어 #우리말 #만능 번역기

이채린 동아사이언스 기자 rini113@donga.com