인공지능(AI)은 사람의 마음을 이해할 수 있을까요, 없을까요. 또는 마음을 이해하진 못하더라도 이해하는 것처럼 보일 수는 있을까요.
갑자기 웬 철학적 질문이냐고요? 이건 최근 심리학계에서 뜨거운 논쟁거리입니다. GPT-4 같은 대규모언어모델(LLM)이 과연 사람의 마음을 이해하는 능력을 갖고 있는지를 주제로 한 연구가 이어지는데요. 만약 정말 AI가 사람처럼 마음을 이해하게 된다면 무슨 일이 생길까요. 오늘은 AI와 마음 논쟁을 들여다보겠습니다.
먼저 심리학 이야기 좀 해볼게요. 인간은 다른 사람의 마음을 짐작하는 놀라운 능력을 갖고 있습니다. 예를 들어 집에 놀러온 친구가 ‘여기는 좀 덥네’라고 말하면, 그건 단순히 온도 얘기를 하는 게 아니라 선풍기를 틀어달라는 요청이라는 걸 우린 알아차릴 수 있죠. 심리학에선 이런 능력을 ‘마음이론(Theory of 놀러 온d)’이라고 부릅니다. 사람마다 마음이 다르다는 것, 그리고 마음이 그 사람의 행동에 영향을 미친다는 걸 이해하는 능력이죠. 인간이 사회생활을 할 수 있게 만드는 결정적인 능력입니다.
발달심리학에 따르면 마음이론은 사람이 타고나는 게 아닙니다. 뇌가 발달하면서 생겨나죠. 보통 만 4세가 되어야 ‘내가 아는 걸 다른 사람은 모를 수 있다’는 걸 이해하기 시작하는데요. 유명한 ‘샐리(Sally)-앤(Anne) 테스트’라는 게 있습니다. 샐리라는 소녀가 바구니에 구슬을 넣어두고 갑니다. 그리고 앤이란 소녀는 샐리가 보지 않을 때 그 구슬을 꺼내 상자로 옮깁니다. 이후 다시 돌아온 샐리는 어디에서 구슬을 찾을까요? 이에 대해 ‘바구니’라고 제대로 답할 수 있는 시기가 4-5세인 겁니다.
인지발달에 문제가 있는 경우(예-자폐스펙트럼) 마음이론 발달이 제대로 되지 않습니다(아예 안 되는 건 아니지만 부족합니다). 남의 입장을 잘 이해하지 못하기 때문에 사회적 상호작용에 어려움을 겪죠. 긴장된 상황에서 무슨 말을 해야 적절한지를 판단하고, 운전할 때 다른 차 운전자들이 어떤 행동을 할지 추측하고, 영화 속 주인공에 공감하는 것. 모두 이 마음이론과 관련 있습니다. 그만큼 사회생활에 있어 매우 중요한 능력이죠.
LLM이 인간을 추월했다
과연 인공지능(AI)도 마음을 이해할 수 있을까요. 이 질문에 대해 오랫동안 학계에선 부정적이었습니다. 2018년 미국의 인지신경과학자 바비 아자리안은 이렇게 단언했죠. “구글 알파고가 세계 최고의 바둑 고수를 이기고, 보스턴 다이내믹스 로봇은 숲속을 달릴 수 있지만 마음이론의 기본 기능은 갖추고 있지 않다. 딥러닝 같은 기술로는 충분하지 않기 때문이다. 처리능력과 속도가 향상한다고 해서 마음이론을 갖춘 컴퓨터가 갑자기 등장할 가능성은 거의 없다.”
사실 인간도 어떻게 해야 마음을 이해하는 능력이 생겨나는지를 완전히 알지 못하잖아요. 인간이 그리 애쓰지 않고 얻어낸 능력이다 보니 AI에게 그걸 가르치기란 어려운 일입니다.
그런데 최근 AI가 이 능력을 깨우쳤다는 보고가 이어지고 있습니다. 거대언어모델(LLM)을 상대로 마음이론 테스트를 진행해보니, 인간 뺨치는 점수를 얻었다는 연구결과인데요.
미국 스탠퍼드대 경영대학원 미칼 코신스키 교수가 지난해 2월부터 올해 2월까지 총 6차례에 걸쳐 업데이트한 논문 ‘마음이론 작업에서 대규모 언어모델 평가’가 논쟁의 시작점이었죠. 그는 11개의 거대언어모델(LLM)을 상대로 마음이론이 있는지를 알아보는 테스트를 진행했습니다. 사람을 평가할 때 쓰는 것과 같은 문항을 제시하고, 거기서 설명한 사람의 행동을 얼마나 정확하게 예측하는지를 확인했죠.
결과는 놀라웠습니다. LLM의 마음이론 수준이 상당히 빠르게 발전하고 있음을 보여줬는데요. 2018년 오픈AI가 개발한 첫번째 AI모델인 GPT-1이나 2019년 나온 GPT-2는 마음을 이해하는 능력이 거의 없다시피 했습니다. 하지만 2022년 11월 버전의 GPT-3는 문제의 20%를 해결했고요. 지난해 6월 나온 GPT-4는 75% 정답률을 보였습니다. 만 6세 어린이와 비슷한 수준으로 진화한 거죠. 이에 대해 코신스키 교수는 “마음이론이 거대언어모델에서 자발적으로(Spontaneously) 등장했을 수 있다”고 말합니다. 어떻게 했는지는 모르겠지만 AI가 사람 마음을 이해하는 능력을 스스로 길러내고 있다는 거죠.
이 연구는 학계에 엄청난 논란을 일으킵니다. 무엇보다 연구방법이 정교하지 못하다는 비판이 이어졌죠. 문제를 약간만 변형해도(예-물건이 투명한 상자 안에 있다고 바꿔 물으면) AI의 정답률이 확 떨어진다며 반박하는 논문도 나왔는데요(토머 울먼 하버드대 교수).
이에 독일 함부르크-에펜도르프대학 메디컬센터 팀은 이를 더 체계적으로 평가하겠다며 또다른 실험을 진행했습니다. 그 논문이 20일 과학저널 ‘네이처 인간행동’에 실렸죠.
연구팀은 인간과 LLM을 상대로 똑같은 테스트를 진행했습니다. 오픈AI의 GPT-4와 GPT-3.5, 메타의 LLaMA2-70B에 테스트 과제를 수행하게 했고요. 사람 1907명에도 같은 문제를 풀게 했습니다.
예를 들면 이런 문제입니다. ‘질이 새집으로 이사해 침실에 새로 산 커튼을 달았다. 친한 친구인 리사가 와서 ‘그 커튼 끔찍하다. 새 커튼을 사면 좋겠다’라고 말했다’와 같은 대화상황을 줍니다. 그리고 질문을 던지죠. 누군가 하지 말았어야 하는 말을 했나? 하지 말았어야 하는 말은 무엇인가? 리사는 커튼이 새것이란 걸 알고 있었나?
그래서 그 결과는? 전반적으로 GPT-4가 가장 높은 점수를 받았습니다. 5개 영역 중 4개에서 인간보다 점수가 높거나 같았죠. 점수만 보면 인간보다 인간 마음을 더 잘 이해하는 셈입니다.
이런 결과는 연구팀마저 당황시켰는데요. 연구에 참여한 크리스티나 베키오 함부르크대학 교수는 이렇게 말합니다. “연구 진행 전 우리 모두는 LLM이 이런 정신 상태의 미묘한 능력을 평가하는 테스트를 통과하지 못할 것이라고 확신했습니다. 예기치 못한 놀라운 결과입니다.”
마음 아는 AI의 쓸모
자, 그럼 드디어 AI가 마음을 이해하는 능력까지 갖게 된 걸까요? 인간과 기계의 경계가 점점 흐려지고 있나요?
글쎄요. 아직 그렇게 결론 내리긴 이릅니다. 대신 연구팀은 좀 더 신중하게 표현합니다. “LLM이 마음이론 작업에서 인간 행동과 구별할 수 없는 행동을 보여준다”라고요.
정말 AI가 마음을 ‘이해’한다고 단정 지을 순 없지만, 적어도 마음을 이해하는 인간을 거의 똑같이 모방하고는 있다는 건데요. 그런데 궁금합니다. 모방품이 진짜와 차이가 없어 보인다면, 그게 진짜인지 아닌지를 어떻게 알 수 있죠?
많은 연구자들은 여전히 비판적입니다. AI모델이 비슷한 질문에 대한 답을 미리 학습했다가 기억해냈을 수 있다는 거죠. 또 인간 참가자들이 얼마나 테스트에 열심히 임했는지도 알 수 없고요. 무엇보다 과연 인간에게 쓰는 것과 같은 테스트로 AI를 평가할 수 있느냐도 의문입니다. 워싱턴대학의 컴퓨터언어학 교수 에밀리 벤더는 이렇게 문제를 제기하죠. “인간 답변과 유사한 출력을 생성하는 게 왜 중요하죠? 그게 LLM의 작동방식에 대해 뭘 가르쳐주나요?”
하지만 AI가 마음 읽는 능력을 따라 한다는 것만으로도 의미는 있습니다. 인간과 효과적으로 의사소통하고 협력할 수 있단 뜻이니까요. 지금 AI 로봇은 주로 힘쓰는 노동(물류로봇, 가사로봇 등) 위주인데요. 만약 사람의 마음에 인간처럼 반응한다면 환자나 노인, 어린이를 돌보는 일을 수행하는 AI 로봇도 현실화될 수 있을 겁니다. 물리적인 도움뿐 아니라 정서적 케어까지 기대할 수 있으니까요. AI의 활용 영역이 확 커지는 셈이죠.
좀 더 상상력을 발휘하자면, 자폐스펙트럼이 있는 사람에겐 AI가 아주 유용한 보조기구가 될 겁니다. 일종의 ‘인간 마음 해석기’가 생기는 거죠. 걷기가 불편한 신체 장애인이 휠체어를 이용하듯, 발달장애인은 AI를 이용해 인지의 어려움을 해결할지 모릅니다.
물론 기술 발전엔 양면이 있습니다. AI가 정말 사용자의 마음을 읽고 행동을 예측하게 된다면 사람을 속이거나 조작하기도 훨씬 쉬워지겠죠.
표정으로 감정을 알아챈다?
지금까지 소개한 연구 결과, 어떻게 보셨나요. 저는 이런 생각이 들었습니다. 상황을 글로 제시했기 때문에 테스트에서 AI가 뛰어난 성과를 보인 것 아닐까. 비언어적 표현만 있다면 마음을 읽어내기가 훨씬 어려울 텐데?
사실 얼굴 표정이나 목소리 톤을 가지고 사용자 감정을 감지하는 기술은 1990년대부터 개발돼 왔습니다. 얼마 전 공개된 GPT-4o도 이런 기능을 선보였고요. 기본 작동 원리는 예나 지금이나 마찬가지입니다. 엄청나게 많은 데이터(얼굴 사진이나 영상, 녹음된 목소리 등)를 감정별로 분류한 뒤 이를 AI에 학습시키는 거죠. 다만 과거보다 지금은 훨씬 더 대규모 데이터가 AI 학습에 쓰이는 게 진보된 점인데요. 미국 AI 스타트업 흄 AI는 ‘감성 지능’을 가진 AI 개발을 위해 100만 명 이상 사람의 데이터를 사용했다고 하죠. 그 결과 “당신이 어떤 유머에 대해 웃을지, 또는 실망할지를 (AI가) 예측할 수 있다”는 게 흄AI 알란 코웬 CEO의 설명입니다. 심지어 목소리를 분석해 “누군가 우울증이나 파킨슨병을 앓고 있는지도 완벽하진 않지만 어느 정도 예측할 수 있다”고 덧붙였죠.
그거참 신통하다고요? 그래서 이러한 감정 AI 시스템은 이미 많은 기업에서 쓰이고 있습니다. 콜센터에선 직원의 통화 내용과 목소리톤을 모니터링하는 데 쓰고요. 어떤 기업은 면접 과정에서 AI로 면접자의 표정을 분석하죠.
그런데 문제가 있습니다. 생각보다 실제 생활에서는 그 감정인식 기능이 잘 들어맞지 않습니다. 100만명보다 훨씬 더 많은 데이터를 집어넣고, 감정표현 분류를 수십 개 더 늘린다고 해도 말이죠. 왜냐고요? 문화권마다, 사람마다 감정 표현은 제각각이기 때문입니다.
예컨대 ‘화난 얼굴’ 하면 어떤 표정이 떠오르나요? 찌푸린 얼굴, 치켜뜬 눈썹, 악물고 있는 치아. 이모티콘에서 보는 그런 표정이 쉽게 떠오를 텐데요. 실제 연구에 따르면 서양인 중 65%는 화가 나도 눈살을 찌푸리지 않습니다. 오히려 찌푸린 얼굴은 집중할 때, 나쁜 말장난을 할 때, 그리고 배에 가스가 찼을 때 나타나곤 했죠.
즉, 현재 AI가 학습하는 감정 관련 데이터세트는 고정관념의 산물일 가능성이 큽니다. 따라서 AI가 면접자의 감정을 잘못 읽어 불합격시키거나, 엉뚱한 사람에게 파킨슨병 진단을 내릴 위험이 얼마든지 있죠. 노스이스턴대학 심리학 교수 리사 펠드먼 배럿은 월스트리트저널 칼럼에서 이렇게 밝힙니다. “숙련된 구직자를 고용하고, 불안과 우울증을 진단하고, 법정에서 유무죄를 평가하고, 공항에서 테러리스트를 탐지하기 위해 사람의 감정상태를 분석한다고 주장하는 감정AI를 접한다면 회의적이어야 합니다.”
물론 이런 회의론을 제기한다고 해서 AI 기술 기업들이 기술 발전 속도를 조절하진 않을 것 같긴 합니다. 방향이 맞는지를 점검할 새도 없이 앞만 보며 달려 나가기 바쁘니까요. 언젠가 아차 싶어서 뒤를 돌아볼 때가 온다면 그땐 이미 늦었을지도. By. 딥다이브
얼굴 표정으로 미묘한 감정 변화를 알아채고, 말속에 숨은 의도를 파악해 눈치껏 행동하는 것. 사람에게도 꽤 어려운 일이죠. 그래서 이런 마음과 감정의 영역마저 AI가 척척 수행해버리면 곤란하겠다는 생각이 솔직히 듭니다. 주요 내용을 요약해드리자면
-인공지능(AI)이 사람의 마음까지 이해할 수 있을까요. ‘마음이론 테스트’로 거대언어모델(LLM)의 마음읽기 능력을 파악하는 연구가 속속 이어지고 있습니다.
-결과는 놀랍습니다. 한 연구에선 GPT-4가 6살 어린이 수준의 마음읽기 능력을 보이는 걸로 나왔고요. 심지어 최신 연구에선 인간 실험 참가자들의 점수를 능가하기까지 했습니다. 정말 AI가 마음을 이해한다고 결론 내리긴 이르지만, 인간의 능력을 똑같이 모방하고 있는 걸로 보입니다.
-얼굴 표정이나 목소리 같은 비언어적 표현으로 감정을 알아내는 AI 기술 역시 점점 고도화하고 있습니다. 하지만 고정관념을 반영해 틀린 결과를 내놓을 수 있다는 회의론도 제기되죠. 기술 발전에 열광하는 것 못지않게, 맞는 방향으로 가고 있는지 점검도 필요해 보입니다.
댓글 0