대화형 챗봇은 옛말… 사람처럼 보고 듣고 말하는 AI시대 성큼

동아일보

김현수 부장

구글 ‘제미나이’ 공개… GPT4와 경쟁
차트 요청하면 그래프 그리고 설명… 문제 보고 풀이, 오답 여부도 알려줘
구글 “인간 전문가 점수 뛰어넘어”
촉각 결합한 로봇 AI 연구도 활발

텍스트를 기반으로 한 대화형 챗봇 인공지능(AI) 경쟁이 사람처럼 보고 듣고 말하는 멀티모달(multi-modal) AI로 옮겨가고 있다. 오픈AI가 올 10월 보고 듣는 기능을 통합한 챗GPT(GPT-4)를 선보인 데 이어 구글도 6일(현지 시간) 멀티모달 AI ‘제미나이(Gemini)’를 공개했다. 구글은 제미나이 최상위 버전이 GPT-4를 능가했다고 밝혔다.

● 보고 듣는 멀티모달 AI 시대

챗GPT가 월 20달러 유료 고객에게 멀티모달 기능을 선보이자 반응은 열광적이었다. 기자가 ‘최근 90일 동안 미국 10년 만기 국채 금리 종가’가 담긴 엑셀 파일을 주고 차트로 만들라고 하자 선그래프를 그려주며 설명도 덧붙였다. 초등학교 저학년 수준 문제 사진을 찍어 ‘답이 맞는지 봐 달라’고 하면 문제 풀이와 함께 오답 여부를 알려줬다. 한국어로 말한 뒤 영어로 바꿔 달라고 하면 바로 통역도 해줬다.

구글은 여기서 더 나아가겠다고 선언했다. 바둑AI ‘알파고’를 개발한 구글 딥마인드 최고경영자(CEO) 데미스 허사비스는 이날 미 정보기술(IT) 매체 와이어드 인터뷰에서 “컴퓨터 과학자이자 신경과학자로서 사람이 모든 감각을 통해 세상과 상호작용하고 이해하는 방식을 적용한 새로운 세대 AI 모델을 만들고 싶었다”며 “제미나이는 새로운 유형의 AI”라고 말했다.

구글이 이날 공개한 사전 녹화 영상에서 제미나이는 수학 시험지를 보여주면 오답을 분석하고, 물리 시험도 그림을 보고 척척 풀었다. GPT-4를 노리고 만든 최상위 버전 제미나이 울트라는 대규모 다중작업 언어 이해(MMLU) 테스트 정답률이 약 90% 수준이었다. GPT-4는 86.4%를 기록했다. MMLU는 수학 물리학 역사 법률 의학 윤리 등 57개 주제를 복합적으로 활용해 AI 지식과 문제 해결 능력을 평가하는 테스트다. 구글 측은 “인간 전문가 점수인 89.8%를 넘은 최초의 모델”이라고 강조했다. 제미나이 울트라는 내년 출시 예정이어서 아직 일반 대중이 검증할 수는 없다. 챗GPT 무료 버전인 GPT-3.5의 대항마 제미나이 프로는 이날 구글 챗봇 ‘바드’에 바로 적용됐다.

● 후각, 촉각도? “다음은 로봇 AI”

AI 경쟁이 멀티모달 AI로 진화하는 것은 이미지와 비디오, 오디오 등 반응 데이터 종류가 확장될수록 AI를 적용할 수 있는 범위도 넓어지기 때문이다. 기업에서는 멀티모달 AI를 활용해 불량품을 잡아낼 수도 있다. 텍스트나 이미지만으로 판단하고 응답하는 AI에 비해 활용도가 높아져 통·번역, 교육, 서비스 등 기업들도 관심을 갖고 있다.

구글이 기업 고객을 오픈AI나 마이크로소프트(MS)에 빼앗기지 않도록 예정보다 더 빨리 제미나이를 선보였다는 분석이 나온다. 이날 맥도널드는 구글과 광범위한 AI 협력에 나선다고 밝혔다. 앞서 글로벌 투자은행 모건스탠리와 클라우드 컴퓨팅 서비스 업체 세일즈포스는 GPT-4를 바탕으로 기업 맞춤형 AI를 적용하고 있다. MS는 엑셀 워드 파워포인트 같은 자사 MS 오피스 소프트웨어에 적용한 AI ‘코파일럿’을 출시했다.

가까운 미래에는 여기에 로봇 공학까지 결합해 사람에 더 가까워진 AI로 진화할 것이라는 전망이 나온다. 허사비스 CEO는 이날 “진정한 멀티모달이 되려면 촉각 피드백을 포함해야 한다”면서 보고 듣는 것 외에 만져서 받아들이는 정보도 파악해 추론 데이터로 활용하는 로봇 AI를 연구하고 있다고 밝혔다.