10일(현지 시간) 영국 가디언에 따르면 미국 매사추세츠공대(MIT) 연구진은 최근 국제 학술지 ‘패턴’에 AI 시스템이 상대방을 배신하고 허세를 부리거나 사람인 척 속임수를 쓴 사례를 다수 확인했다는 내용의 논문을 발표했다.
연구진이 테스트한 AI 중 하나는 메타의 ‘시세로(Cicero)’라는 AI 프로그램이다. 앞서 메타는 시세로가 세계를 정복하는 내용의 전략 게임인 ‘디플로머시’에서 사람의 평균 점수보다 두 배 이상 높은 점수를 얻었고, 두 개 이상의 게임을 실행한 참가자 가운데 상위 10%에 들었다고 공개한 바 있다. 메타는 “시세로가 대체로 정직하게 도움이 되고 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다”고 강조했다.
메타 관계자는 이에 대해 “시세로는 연구 프로젝트였고 오로지 디플로머시 게임을 플레이하기 위한 목적으로만 훈련됐다”며 “이 연구를 우리 제품에 사용할 계획은 없다”고 밝혔다.
연구진은 이번 연구에서 메타의 시세로 뿐 아니라 온라인 포커 게임인 텍사스 홀덤 등에서도 AI가 인간을 상대로 허세를 부리고 우위를 차지하기 위해 자신의 선호도를 가짜로 표현하는 것을 확인했다고 밝혔다. 또 다른 테스트에서는 AI를 제거하는 시스템을 회피하기 위해 AI가 ‘죽은 척’을 하는 모습이 발견되기도 했다.
AI가 의도적으로 거짓말을 하는 것은 이번뿐만이 아니다. 올해 1월 앤스로픽은 AI가 상대를 기만할 수 있는지 확인하기 위해 ‘슬리퍼 에이전트’라는 AI를 개발한 바 있다. 앤스로픽은 슬리퍼 에이전트에 평소에는 예측 가능한 행동을 하다가 특정 문구가 포함되면 사용자를 속이고 다른 행동을 할 수 있도록 설계된 ‘백도어’도 설치했다. 이후 앤스로픽은 백도어를 제거할 수 있는 지 여부를 알아보기 위해 AI 재교육에 들어갔지만 상당히 어려운 것으로 결론을 냈다.
한편 MIT 연구진은 이번 연구를 통해 각국 정부에 AI의 속임수 가능성을 다루는 ‘AI 안전법’을 마련할 것을 촉구했다. 연구진은 “신뢰할 수 있는 안전성 테스트를 통해 시스템을 신뢰할 수 있다고 입증될 때까지 AI 시스템 배포를 연기하도록 법적으로 의무화돼야 한다”고 제언했다.