노을사진 보여주자 시읊은 네이버AI… 그래프-차트 이미지 분석도 척척

  • 동아일보
  • 입력 2024년 8월 23일 03시 00분


클로바X에 27일부터 처리기능 추가
거대언어모델 결합해 정확성 높여
오픈AI와 함께 시험… 정답률 앞서

이미지 인식 처리 기능을 추가한 네이버 인공지능(AI) 에이전트 ‘클로바X’는 위 그래프를 인식해 A회사의 시장점유율이 50%로 가장 높고 나머지 B, C, D회사의 시장점유율이 얼마인지 답변한다. 사진 출처 네이버
이미지 인식 처리 기능을 추가한 네이버 인공지능(AI) 에이전트 ‘클로바X’는 위 그래프를 인식해 A회사의 시장점유율이 50%로 가장 높고 나머지 B, C, D회사의 시장점유율이 얼마인지 답변한다. 사진 출처 네이버

네이버의 인공지능(AI) 서비스 ‘클로바X’가 텍스트와 함께 이미지도 이해할 수 있는 서비스로 진화한다. 오픈AI·구글 등 글로벌 빅테크들이 텍스트를 넘어 이미지·음성 등을 동시에 이해하고 처리하는 ‘멀티모달 AI’로 고도화하는 흐름에 네이버도 가세한 것이다.

네이버는 이달 27일부터 클로바X에 이미지 인식 처리 서비스를 추가한다고 22일 밝혔다. 기존에는 논리적 글쓰기, 코드 작성, 번역 등 텍스트 작업만 가능했지만 앞으로는 이미지나 표, 그래프를 이해하고 분석할 수 있게 되는 것이다.

이에 따라 도형이나 차트, 그래프 등을 만드는 데 필요한 코딩이 가능해진다. 우상향 곡선 그래프를 보여주고 ‘그림에 나오는 차트를 최대한 비슷하게 생성하는 파이썬(프로그래밍 언어) 코드를 작성해줘’라고 입력하면, 이에 맞는 코드를 바로 만들어낸다. 이미지에 포함된 요소를 기반으로 한 글쓰기도 할 수 있다. ‘클로바X’에 석양이 지는 해변 사진을 주고 ‘시를 지어달라’고 주문하면, “해변에 앉아 금빛 물결을 바라보네. 하늘은 붉은빛으로 물들어가고 구름 사이로 해가 숨바꼭질을 하네….” 문구로 시작된 총 4개 연의 시를 짓는다. 이미지와 함께 유머나 문화까지 이해하는 능력도 갖췄다. 네이버 측은 “이미지·텍스트 쌍으로 구성된 다량의 데이터를 학습하기에 밈(meme·인터넷 유행 콘텐츠)에 대한 이해도 가능하다”고 설명했다.

네이버의 거대언어모델(LLM)인 하이퍼클로바X가 결합해 정확성과 신뢰성을 끌어올린 것이 강점이다. 네이버에 따르면 실제 대한민국 초중고교 검정고시 총 1480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과, 클로바X는 약 84%의 정답률을 기록하며 오픈AI GPT-4o의 78%보다 높은 정답률을 보였다.

주요 글로벌 빅테크들도 이미지 인식 AI에 적극적이다. 구글 ‘제미나이’와 오픈AI의 ‘챗GPT’, 앤스로픽의 ‘클로드’ 등 AI 챗봇은 이미지 등 비정형 데이터를 분석해 답변을 제공한다. 다만 ‘챗GPT 4o’ 등은 유료 구독 서비스지만, 네이버는 무료 모델을 통해 이용자를 확보하는 록인(lock-in) 전략을 쓰고 있다. 국내에선 LG AI연구원도 자체 최신 AI 모델 엑사원 3.0을 기반으로 한 생성형 AI 서비스 ‘챗엑사원’ 시험 버전에서 이미지 기반 질의 응답이 가능한 서비스를 선보였다. 다만 이 서비스는 LG 임직원을 대상으로 하고 있다.

한편 네이버는 하이퍼클로바X 기반 음성 AI 기술도 자사 블로그에 공개했다. 언어 구조 및 발음 정확도 개선은 물론 감정 표현까지 더한 자연스러운 대화가 가능한 수준까지 기술력을 끌어올렸다는 게 네이버 측의 설명이다.

#네이버#클로바x
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0