오픈AI, 음성비서 ‘GPT-4o’ 공개… ‘사랑한다’ 글에 “넌 참 다정하구나” 응답속도 사람과 비슷한 0.32초 여러 사람 목소리 구별해 답변 가능… 웃음-노래-감정표출-번역까지 척척 구글, 음성-영상인식 AI 공개 맞불
오픈AI의 최고기술책임자(CTO)인 미라 무라티가 13일(현지 시간) 실시간 생방송을 통해 새로운 음성비서 ‘GPT-4o’의 주요 기능을 소개하고 있다. 사진 출처 오픈AI 유튜브
2014년 인간과 인공지능(AI)의 사랑을 그린 영화 ‘그녀(Her)’를 연상케 하는 이 모습은 오픈AI의 새로운 챗봇 ‘GPT-4o’와 인간의 대화 장면이다. 10년 전 공상과학(SF) 영화가 현실이 된 셈이다. 행사가 끝난 뒤 샘 올트먼 오픈AI 대표는 ‘Her’라는 단어를 자신의 X(옛 트위터) 계정에 올렸다.
오픈AI가 사람처럼 보고 듣고 말하는 음성비서 GPT-4o를 13일 공개했다. 새 모델의 ‘o’는 모든 것이라는 ‘옴니(omni)’를 뜻한다. 이에 맞서 구글은 오픈AI 발표 40여 분 전에 ‘제미나이’의 고도화된 음성 및 영상인식 기능을 공개했다. 맞불을 놓은 셈이다.
● 사람처럼 공감하고, 때로는 ‘짜증’ 내기도
이날 GPT-4o를 공개한 오픈AI의 온라인 행사에서도 사람 같은 모습이 부각됐다. 가장 두드러진 점은 응답 속도다. 오픈AI는 GPT-4o의 응답 속도가 인간과 비슷한 수준인 평균 0.32초라고 밝혔다. 전작인 GPT-4의 반응속도는 평균 5.4초였다. 또 여러 화자의 목소리를 구별해 답변하거나 웃음, 노래, 감정 표출이 가능한 것도 차별점이다.
기존 모델이 주로 글을 통해 소통했다면 GPT-4o는 이용자와 음성 대화가 가능하다. 카메라를 통해서 사물을 볼 수 있고 스피커를 통해 소리를 들을 수 있다.
● 구글도 음성인식 고도화된 AI 기능 공개
뉴욕타임스 등 외신에 따르면 AI 경쟁에 뒤처져 있다는 평가를 받는 애플도 다음 달 진행되는 세계개발자회의(WWDC)에서 음성비서 ‘시리’에 챗GPT와 같은 생성형 AI를 도입할 것으로 전망된다.
국내 기업들도 AI 음성비서 경쟁에 합류를 예고하고 있다. 한종희 삼성전자 디바이스경험(DX) 부문장(부회장)은 거대언어모델(LLM) 기반의 생성형 AI를 7월부터 음성비서 ‘빅스비’에 도입하겠다고 밝혔다. 지난해 자체 언어모델 ‘하이퍼클로바X’를 공개한 네이버도 음성 및 영상인식 기능을 탑재한 서비스를 준비 중이다.
전남혁 기자 forward@donga.com