“진화한 GPT-4, 美변호사 시험 보면 상위 10%… 이미지 인식도”

오픈AI “기억량 8배, 인간수준 추론”
음식재료 사진 해석해 메뉴 추천도
비윤리적 발언 문제 등 82% 줄어
“오답 주장 등 아직 완벽하지 않아”

세계적 열풍을 일으키고 있는 대화형 인공지능(AI) 챗봇 챗GPT 개발사 오픈AI가 14일(현지 시간) 새로운 다중 모달(Multimodal) 방식 대규모 언어 모델(LLM) AI GPT-4를 전격 공개했다. GPT-4는 현재 챗GPT에 적용된 GPT-3.5의 업그레이드 버전이다. 오픈AI는 GPT-4를 적용한 챗GPT를 유료 서비스 챗GPT플러스에서 우선 공개한다고 밝혔다. 마이크로소프트(MS)는 자사 검색엔진 ‘빙’에 이미 탑재했다고 밝혔다.

오픈AI가 이날 자사 홈페이지에서 공개한 GPT-4의 가장 큰 특징은 이미지를 인식하고 해석할 수 있다는 점이다. 텍스트만 입력할 수 있었던 기존 GPT 3.5와 달리 GPT-4는 사용자가 이미지를 활용해 질문할 수도 있다. 다만 결과물(답변)은 기존과 마찬가지로 텍스트로만 출력할 수 있다.

미국 뉴욕타임스(NYT)에 따르면 우유, 요거트 같은 음식물이 들어 있는 냉장고 사진과 함께 ‘어떤 메뉴를 만들 수 있는지’라고 묻자 사진 속 각종 식재료를 인식한 GPT-4는 만들 수 있는 두 가지 메뉴를 추천했다.

전문적 지식 및 추론 능력에서도 GPT-4는 “인간 수준 능력”을 갖췄다고 오픈AI는 설명했다. 기존 GPT-3.5가 미국 모의 변호사 시험에서 하위 10%에 해당하는 성적을 기록한 반면 GPT-4는 어떤 구체적 훈련 없이도 상위 10% 성적을 냈다. 미 대학수학능력시험(SAT) 읽기 및 쓰기 시험과 수학 시험에서도 성적이 가장 높은 사람을 100으로 할 때 GPT-4는 각각 백분위 93과 89를 기록했다.

언어 처리 능력도 향상됐다. GPT-3.5가 사용자의 질문에 대답할 때 최다 4096토큰(약 8000단어) 분량을 기억할 수 있었다면 GPT-4는 그 8배인 3만2768토큰(약 6만4000단어)까지 기억할 수 있다. 약 50페이지 분량의 대화 내용을 머릿속에 넣고 사용자 질문에 더 적합한 대답을 끌어내는 셈이다. 영어 이외 언어도 더 자연스럽게 사용할 수 있게 됐다. 오픈AI 측은 GPT-4가 한국어를 포함한 26개 비영어권 언어 사용에서 70% 이상의 정확도를 보였다고 설명했다.

개발사나 사용을 규제한 콘텐츠를 우회해서 내놓는 이른바 ‘탈옥(jailbreak)’이나 비윤리적 발언을 하며 폭주하는 문제도 일부 수정됐다. 오픈AI는 GPT-4가 허용되지 않은 콘텐츠 요청에 응답할 가능성이 GPT-3.5 대비 82% 줄었다고 밝혔다. 사실을 기반으로 대답하는 비율도 기존 대비 40% 가까이 올랐다.

다만 오픈AI는 GPT-4를 바로 실무에 사용할 수 있긴 해도 만능은 아니라고 강조했다. 답을 지어내거나 오답을 옳다고 주장하는 문제가 여전히 남아 있다는 것이다. 오픈AI는 “새 소프트웨어는 아직 완벽하지 않으며 많은 시나리오에서 인간보다 능력이 떨어진다”며 “여전히 해결하기 위해 노력해야 할 한계가 많다”고 전했다.

김수현 기자 newsoo@donga.com

“진화한 GPT-4, 美변호사 시험 보면 상위 10%… 이미지 인식도”

오픈AI “기억량 8배, 인간수준 추론” 음식재료 사진 해석해 메뉴 추천도 비윤리적 발언 문제 등 82% 줄어 “오답 주장 등 아직 완벽하지 않아”

오픈AI “기억량 8배, 인간수준 추론”
음식재료 사진 해석해 메뉴 추천도
비윤리적 발언 문제 등 82% 줄어
“오답 주장 등 아직 완벽하지 않아”