영국 연구팀, 국제학술지 발표
‘세종대왕 맥북프로 던짐 사건’ 등… 허위 내용 사실인 양 말하는 현상
근본적 원인 파악 안돼 해결 난항… 생성된 내용에 AI가 역으로 질문
다른 답과 비교해 정답 확률 계산… 인물 전기-일반 상식 등 진위 가려
“세종대왕의 맥북프로 던짐 사건은 역사 서적인 조선왕조실록에 기록된 일화로….”
지난해 초 ‘세종대왕의 맥북프로 던짐 사건’에 대해 알려달라고 하자 당시 인공지능(AI) 언어 모델 ‘챗GPT’가 내놓은 답변이다. 말도 안 되는 내용을 사실인 것처럼 뻔뻔하게 답변한 모습이 많은 사람의 웃음을 자아내 인터넷에서 유행하며 밈(meme)으로 떠돌았다.
현재 챗GPT에 세종대왕의 맥북 사건에 대한 질문을 하면 “그런 사건은 없다”고 올바르게 답변한다. 하지만 아직까지는 AI 환각 현상의 인과관계 파악이 어려워 근본적인 문제 해결이 쉽지 않은 상황이다. 이에 과학자들이 AI 언어 모델이 생성한 답변을 또 다른 AI가 평가해 환각을 잡아내도록 하는 방법을 개발했다. 서배스천 파쿼 영국 옥스퍼드대 컴퓨터과학과 연구원팀은 거대언어모델(LLM)이 생성한 답변을 다시 LLM으로 평가해 AI 환각을 줄이는 방법을 개발하고 연구 결과를 19일(현지 시간) 국제학술지 ‘네이처’에 공개했다.
● AI가 만든 환각, AI로 잡는다
챗GPT처럼 방대한 양의 텍스트를 학습하고 이를 기반으로 답변을 생성하는 AI 모델을 LLM이라고 한다. LLM은 종종 세종대왕 사건처럼 없는 사실을 있는 것처럼 꾸며내거나 내용을 왜곡해서 답변하는 ‘환각(hallucination)’을 일으킨다. AI 환각은 급속도로 발전하고 있는 AI 기술의 신뢰도와 윤리성에 악영향을 주기 때문에 반드시 해결해야 하는 과제다.
파쿼 연구원팀은 환각의 유형 중에서 LLM에 정보가 부족할 때 부정확한 내용을 지어내는 환각의 한 유형인 ‘작화증(confabulation)’을 감지하는 AI를 개발했다. 예를 들어 LLM이 답변한 내용이 정답이 되는 질문을 역으로 생성하고 생성한 질문에 대해 가능한 답변을 여러 개 만든다. 그중 처음 답변했던 내용이 포함된 동일한 의미의 답변 그룹이 나올 확률이 얼마나 되는지 비교해서 LLM이 처음 한 답변에 얼마나 확신이 있는지 파악하는 방식이다.
연구팀이 개발한 평가 모델은 인물 전기나 퀴즈, 일반 지식 등을 주제로 한 질문에 LLM이 생성한 답변에서 AI 환각을 효과적으로 감지해 냈다. 연구팀은 “LLM 답변을 조심해야 할 시점을 파악하는 데 도움이 된다”며 “광범위한 영역에서 LLM을 더 안심하고 사용할 수 있는 방법”이라고 설명했다. 카린 버스푸어 호주 로열멜버른공과대 컴퓨팅기술학과 교수는 이번 연구에 대해 “불을 불로 잡으려는 것과 같다”며 “LLM을 평가하기 위해 LLM을 사용하는 것은 편향적일 수 있다”고 지적하기도 했다.
● 법률·의료 분야 치명적일 수 있는 AI 환각
정확성이 중요한 법률·의료 분야에서는 AI 환각이 치명적일 수 있다는 우려가 지속적으로 제기되고 있다. 지난해 6월 미국에서 챗GPT로 수집한 판례를 법원에 제출한 변호사 2명이 각각 5000달러(약 690만 원)의 벌금을 부과받기도 했다. 챗GPT가 내놓은 판례 중 일부가 실존하지 않는 가짜 판례였던 것이다. 당시 벌금을 낸 변호사 중 한 명은 “가짜일 수도 있다는 생각을 하지 못했다”고 말했다.
음성을 텍스트로 변환해 주는 AI도 LLM을 기반으로 작동하기 때문에 환각 현상이 발생한다. 4월 모나 슬론 미국 버지니아대 데이터과학과 연구원팀은 미국 오픈AI의 음성-텍스트 변환 AI인 ‘위스퍼’가 받아쓴 글 중 약 1%가 지어낸 이야기라는 연구 결과를 발표했다.
이야기 중 40%는 해롭거나 폭력적인 내용이 담겼다. AI가 ‘음’ 또는 ‘아’ 같은 말을 침묵으로 해석하지 않고 가상의 문장으로 만들어 낼 수 있는 것으로 분석됐다. 연구팀은 “의사들이 음성-텍스트 변환 도구를 사용해서 환자 기록을 필사할 수 있다”며 “환자가 약을 복용하는 방법에 대해 말을 지어낸다면 결과가 얼마나 심각할지 상상해 보라”고 말했다.
인공지능(AI) 환각
챗GPT처럼 방대한 양의 텍스트를 학습하고 이를 기반으로 답변을 생성하는 AI 언어 모델이, 없는 사실을 꾸며내거나 왜곡된 내용을 답변하는 현상을 말한다.
댓글 0