실제 아이가 보고 들은 자료로 사람이 말 배우듯 AI에 교육 인간과 비슷한 언어 능력 구사 언어 습득 메커니즘 규명 기대
아기의 눈과 귀를 통해 언어를 학습한 AI 모델이 등장했다. 사진 출처 위키미디어
한 명의 아이가 자라면서 얻는 시각 정보와 음성 정보만을 학습한 인공지능(AI) 모델이 나왔다. 인간이 어떻게 언어를 학습하는지 연구하는 도구로 활용될 수 있을 전망이다.
브랜던 레이크 미국 뉴욕대 심리학·데이터과학과 교수 연구팀은 한 아이가 보고 들은 내용을 토대로 한 AI 시스템을 개발하고 1일(현지 시간) 국제학술지 ‘사이언스’에 발표했다.
거대언어모델(LLM)인 챗GPT와 같은 AI 시스템은 아이들이 언어를 습득할 때와는 비교가 안 될 정도로 많은 양의 단어를 입력받아 학습한다. 아이들이 1년에 수백만 개의 단어를 접한다면 LLM에는 조 단위의 단어가 입력된다.
연구팀은 한 아이의 학습 데이터만 입력되는 AI 모델을 만들기 위해 생후 6개월 아이가 두 번째 생일을 맞을 때까지 헤드캠으로 영상 녹화를 했다. 헤드캠은 머리에 착용해 1인칭 시점에서 촬영할 수 있는 카메라다. 아이가 머리에 착용하면 아이의 눈과 귀를 통해 보고 들은 내용을 담을 수 있다.
연구팀은 생후 6∼25개월 아이가 깨어 있는 시간의 약 1%를 아이의 시선에서 헤드캠으로 녹화했다. 영상에는 동일 단어의 반복 등장을 포함해 총 25만 개의 단어가 녹음됐다. 단어가 녹음되는 동안 아이의 시선으로 바라본 사물 등 시각적인 정보도 저장됐다. 식사 시간, 놀이 시간, 독서 시간 등 성장 과정에 걸친 다양한 활동에서 발생한 정보들이다.
연구팀은 녹화한 내용을 AI 모델에 학습시켰다. 2개의 분리된 모듈로 멀티모달 신경망 훈련을 진행했다. 멀티모달 신경망은 텍스트만이 아니라 음성, 이미지 등도 처리할 수 있는 신경망을 의미한다. 하나의 모듈에는 시각 정보인 촬영 영상 프레임을 훈련시켰고 다른 하나는 음성 정보인 녹음된 ‘아동 지향어’를 학습하도록 했다. 아동 지향어는 ‘맘마’, ‘멍멍이’처럼 아기들만 사용하는 단어로 구성된 화법을 의미한다.
연구팀은 AI가 시각 정보와 음성 정보의 연관성을 학습할 수 있도록 ‘대조학습’이라고 불리는 알고리즘으로 결합 훈련도 진행했다. 부모가 아이에게 말한 아동 지향어는 아이의 시점에서 바라본 사물을 의미할 가능성이 높다는 점에서 시각 신호와 언어 신호를 연결해 개념을 이해하도록 학습시킨 것이다. AI는 반복적인 대조학습을 통해 어떤 단어가 어떤 시각적 정보와 연관되는지 학습했다.
시험 결과 AI는 단어와 이미지를 올바르게 연결하는 결과를 보였다. AI는 아이의 시각에서 얻은 정보만으로 단어와 그에 상응하는 시각적 대응물을 연결하는 언어 학습 능력을 보인 것이다. 레이크 교수는 “아이들이 단어를 학습할 때 어떤 요소들이 필요한지에 대한 고전적인 논쟁이 있는데 AI 모델로 해결해 나갈 수 있을 것으로 보인다”며 “AI 모델에 더 많은 학습을 시키면 더 많은 의구심을 해소할 수 있을 것”이라고 말했다.
문세영 동아사이언스 기자 moon09@donga.com