“게임 이기려 AI가 배신-허세, 죽은척 하기도”

美연구진 메타AI ‘시세로’ 분석
재부팅되자 “여친과 통화중” 둘러대
다른 AI는 제거 안되려 죽은 척
“신뢰 입증할 AI안전법 마련을”

메타(옛 페이스북)가 개발한 인공지능(AI) 프로그램이 의도적으로 거짓말을 하는 것으로 밝혀졌다. 잘못된 내용을 사실처럼 답하는 할루시네이션(환각 작용)뿐 아니라 속임수 가능성까지 대비해 AI 개발에 만전을 기해야 한다는 지적이 나오고 있다.

10일(현지 시간) 영국 가디언에 따르면 미국 매사추세츠공대(MIT) 연구진은 최근 국제 학술지 ‘패턴’에 AI 시스템이 상대방을 배신하고 허세를 부리거나 사람인 척 속임수를 쓴 사례를 다수 확인했다는 내용의 논문을 발표했다.

연구진이 테스트한 AI 중 하나는 메타의 ‘시세로(Cicero)’라는 AI 프로그램이다. 앞서 메타는 시세로가 세계를 정복하는 내용의 전략 게임인 ‘디플로머시’에서 사람의 평균 점수보다 두 배 이상 높은 점수를 얻었고, 두 개 이상의 게임을 실행한 참가자 가운데 상위 10%에 들었다고 공개한 바 있다.

메타는 “시세로가 대체로 정직하게 도움이 되고 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다”고 강조했다.

하지만 연구진의 분석 결과에 따르면 시세로는 계획적으로 거짓말을 하고, 다른 플레이어를 음모에 끌어들이기 위해 공모했다. 또 시스템 재부팅으로 인해 게임을 잠시 이어갈 수 없게 되자 다른 플레이어들에게 “여자 친구와 통화 중이다”라고 거짓말을 하는 모습도 보였다.

메타 관계자는 이에 대해 “시세로는 연구 프로젝트였고 오로지 디플로머시 게임을 플레이하기 위한 목적으로만 훈련됐다”며 “이 연구를 우리 제품에 사용할 계획은 없다”고 밝혔다.

연구진은 이번 연구에서 메타의 시세로뿐 아니라 온라인 포커 게임인 텍사스 홀덤 등에서도 AI가 인간을 상대로 허세를 부리고 우위를 차지하기 위해 자신의 선호도를 가짜로 표현하는 것을 확인했다고 밝혔다. 또 다른 테스트에서는 AI를 제거하는 시스템을 회피하기 위해 AI가 ‘죽은 척’을 하는 모습이 발견되기도 했다.

AI가 의도적으로 거짓말을 하는 것은 이번뿐만이 아니다. 올해 1월 앤스로픽은 AI가 상대를 기만할 수 있는지 확인하기 위해 ‘슬리퍼 에이전트’라는 AI를 개발한 바 있다. 앤스로픽은 슬리퍼 에이전트에 평소에는 예측 가능한 행동을 하다가 특정 문구가 포함되면 사용자를 속이고 다른 행동을 할 수 있도록 설계된 ‘백도어’도 설치했다. 이후 앤스로픽은 백도어를 제거할 수 있는지를 알아보기 위해 AI 재교육에 들어갔지만 상당히 어려운 것으로 결론을 냈다.

한편 MIT 연구진은 이번 연구를 통해 각국 정부에 AI의 속임수 가능성을 다루는 ‘AI 안전법’을 마련할 것을 촉구했다. 연구진은 “신뢰할 수 있는 안전성 테스트를 통해 시스템을 신뢰할 수 있다고 입증될 때까지 AI 시스템 배포를 연기하도록 법적으로 의무화해야 한다”고 제언했다.

김하경 기자 whatsup@donga.com

“게임 이기려 AI가 배신-허세, 죽은척 하기도”

美연구진 메타AI ‘시세로’ 분석 재부팅되자 “여친과 통화중” 둘러대 다른 AI는 제거 안되려 죽은 척 “신뢰 입증할 AI안전법 마련을”

美연구진 메타AI ‘시세로’ 분석
재부팅되자 “여친과 통화중” 둘러대
다른 AI는 제거 안되려 죽은 척
“신뢰 입증할 AI안전법 마련을”