구글 딥마인드가 개발한 ‘포더윈’ 3차원 공간에서 깃발 뺏는 게임… 45만 판 훈련하며 막강 실력 갖춰
구글 딥마인드가 개발한 새로운 인공지능(AI) ‘포더윈’이 두 명씩 편을 이뤄 깃발을 뺏는 3차원 게임에서 인간과 대결해 이겼다. 딥마인드 제공
구글 딥마인드가 개발한 새 인공지능(AI)이 여러 명이 3차원 공간을 돌아다니며 총을 들고 싸우는 복잡한 게임에서 다시 한 번 인간 고수를 꺾었다. 앞서 딥마인드가 개발한 바둑 전용 AI인 알파고는 2016년 바둑 고수 이세돌 9단을 눌렀고 올해 1월에는 게임 전용 AI인 ‘알파스타’가 인기 게임 ‘스타크래프트’ 개인전과 단체전에서 인간을 눌렀다.
딥마인드 연구팀은 29일 국제학술지 ‘사이언스’에 새 AI ‘포더윈(For the Win)’이 인기 게임인 ‘퀘이크 3 아레나’에서 인간 고수를 꺾었다고 밝혔다. 포더윈은 이 게임 중 ‘깃발 뺏기’ 종목에서 인간과 대결했다. 깃발 뺏기는 매번 새롭게 생성되는 공간에서 아군 한 명과 협력해 두 명으로 구성된 상대 팀의 깃발을 빼앗는 게임이다. 어려운 상대를 이길수록 점수가 높아지는데, 포더윈은 인간 고수의 기준인 1300점을 훌쩍 넘겨 1600점으로 인간을 압도했다.
포더윈은 알파고 때와 같은 강화학습으로 실력을 습득했다. 강화학습은 AI로 하여금 현재의 상태를 인식하게 하고, 그 상태에서 선택 가능한 행동 가운데 보상이 가장 큰 행동을 선택하게 하는 학습법이다. 연구팀은 포더윈 둘에게 기본적인 게임의 승리 조건을 입력한 뒤 서로 대결을 시켜 승리하면 보상을 주는 식으로 AI를 가르쳤다. 예를 들어 “깃발을 뺏으면 점수가 오르고 내 깃발을 잃으면 점수가 내려간다”는 조건을 줘 포더윈이 점수를 올리는 요령을 학습하게 하는 식이다. 처음에는 깃발을 갖는다는 게 무엇인지도 모르던 포더윈은 점차 게임의 규칙을 배워, 눈앞에 보이는 전장의 구조물을 기억하고, 게임 속 점수 현황을 확인하며 실력을 늘렸다.
하지만 35만 판부터는 다양한 전략을 스스로 개발했다. 깃발을 들고 있는 아군을 따라가며 엄호하거나 상대방의 기지를 정찰하고 돌아오는 전략을 선보였다. 불리한 순간에는 자신의 기지를 벗어나지 않고 방어 전략을 취하기도 했다. 전술을 고도화하면서 아군을 무작정 따라가지 않고 다른 유리한 행동을 취하는 모습도 보였다. 45만 판을 끝낸 뒤, 포더윈은 포더윈 둘로 된 팀이 포더윈과 인간으로 구성된 팀을 상대로 95%의 승률을 올릴 정도로 막강한 실력을 갖췄다.
연구팀은 “AI가 실제 세상처럼 여러 행위자가 독립적으로 활동하는 환경에서도 적용될 수 있음을 확인해 준 사례”라고 의미를 부여했다.
조승한 동아사이언스 기자 shinjsh@donga.com