AI, 3D 게임서도 인간 꺾었다

  • 동아일보
  • 입력 2019년 5월 31일 03시 00분


코멘트

구글 딥마인드가 개발한 ‘포더윈’
3차원 공간에서 깃발 뺏는 게임… 45만 판 훈련하며 막강 실력 갖춰

구글 딥마인드가 개발한 새로운 인공지능(AI) ‘포더윈’이 두 명씩 편을 이뤄 깃발을 뺏는 3차원 게임에서 인간과 대결해 이겼다. 딥마인드 제공
구글 딥마인드가 개발한 새로운 인공지능(AI) ‘포더윈’이 두 명씩 편을 이뤄 깃발을 뺏는 3차원 게임에서 인간과 대결해 이겼다. 딥마인드 제공
구글 딥마인드가 개발한 새 인공지능(AI)이 여러 명이 3차원 공간을 돌아다니며 총을 들고 싸우는 복잡한 게임에서 다시 한 번 인간 고수를 꺾었다. 앞서 딥마인드가 개발한 바둑 전용 AI인 알파고는 2016년 바둑 고수 이세돌 9단을 눌렀고 올해 1월에는 게임 전용 AI인 ‘알파스타’가 인기 게임 ‘스타크래프트’ 개인전과 단체전에서 인간을 눌렀다.

딥마인드 연구팀은 29일 국제학술지 ‘사이언스’에 새 AI ‘포더윈(For the Win)’이 인기 게임인 ‘퀘이크 3 아레나’에서 인간 고수를 꺾었다고 밝혔다. 포더윈은 이 게임 중 ‘깃발 뺏기’ 종목에서 인간과 대결했다. 깃발 뺏기는 매번 새롭게 생성되는 공간에서 아군 한 명과 협력해 두 명으로 구성된 상대 팀의 깃발을 빼앗는 게임이다. 어려운 상대를 이길수록 점수가 높아지는데, 포더윈은 인간 고수의 기준인 1300점을 훌쩍 넘겨 1600점으로 인간을 압도했다.

포더윈은 알파고 때와 같은 강화학습으로 실력을 습득했다. 강화학습은 AI로 하여금 현재의 상태를 인식하게 하고, 그 상태에서 선택 가능한 행동 가운데 보상이 가장 큰 행동을 선택하게 하는 학습법이다. 연구팀은 포더윈 둘에게 기본적인 게임의 승리 조건을 입력한 뒤 서로 대결을 시켜 승리하면 보상을 주는 식으로 AI를 가르쳤다. 예를 들어 “깃발을 뺏으면 점수가 오르고 내 깃발을 잃으면 점수가 내려간다”는 조건을 줘 포더윈이 점수를 올리는 요령을 학습하게 하는 식이다. 처음에는 깃발을 갖는다는 게 무엇인지도 모르던 포더윈은 점차 게임의 규칙을 배워, 눈앞에 보이는 전장의 구조물을 기억하고, 게임 속 점수 현황을 확인하며 실력을 늘렸다.

포더윈은 게임 45만 판을 거치며 고수가 됐다. 딥마인드의 분석 결과 포더윈은 학습 기간의 상당 부분을 ‘기본기’를 익히는 데 쓴 것으로 나타났다. ‘내가 깃발을 갖고 있다’를 인식한 것은 게임 5000판을 한 뒤였다. 최소한의 기본 원리를 학습한 것은 1만 판 뒤였고, ‘아군의 깃발을 빼앗겼다’를 이해한 것은 5만 판을 한 이후였다. 협동에 필요한 정보는 20만 판을 한 뒤에 이해했다. 이후 35만 판까지는 목표를 설정하고 상대방을 조준하는 기술을 익혔다.

하지만 35만 판부터는 다양한 전략을 스스로 개발했다. 깃발을 들고 있는 아군을 따라가며 엄호하거나 상대방의 기지를 정찰하고 돌아오는 전략을 선보였다. 불리한 순간에는 자신의 기지를 벗어나지 않고 방어 전략을 취하기도 했다. 전술을 고도화하면서 아군을 무작정 따라가지 않고 다른 유리한 행동을 취하는 모습도 보였다. 45만 판을 끝낸 뒤, 포더윈은 포더윈 둘로 된 팀이 포더윈과 인간으로 구성된 팀을 상대로 95%의 승률을 올릴 정도로 막강한 실력을 갖췄다.

연구팀은 “AI가 실제 세상처럼 여러 행위자가 독립적으로 활동하는 환경에서도 적용될 수 있음을 확인해 준 사례”라고 의미를 부여했다.

조승한 동아사이언스 기자 shinjsh@donga.com
#포더윈#구글 딥마인드#인공지능의 승리
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스