텍스트 입력 → 동영상 생성… AI전쟁, 이젠 ‘멀티’ 싸움

동아일보
입력 2024년 2월 19일 03시 00분

코멘트: 개

좋아요: 개

‘멀티모달 AI’ 앞다퉈 선보여
도쿄 거리를 걷는 여성 입력하면…선글라스-가죽재킷 여성 동영상
텍스트 중심서 이미지-소리 등 다양한 형태 데이터 이해하고 처리
오픈AI-구글 등 프로그램 속속 공개

글로벌 주요 빅테크 기업들의 인공지능(AI) 경쟁이 불붙고 있다. 기존 텍스트 중심의 AI에서 이미지, 소리, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 AI(멀티모달 AI)가 속속 등장하면서 경쟁이 가속화하는 것이다. 이른바 ‘멀티모달 AI 전쟁’인 셈이다.

챗GPT 개발사인 오픈AI가 먼저 포문을 열었다. 15일(현지 시간) 오픈AI는 블로그를 통해 한 여성 모델이 도시의 밤거리를 걷는 59초짜리 동영상을 공개했다.

영상에 등장한 여성은 붉은색 긴 원피스에 검은색 가죽재킷을 입고 밤거리를 걷고 있다. 거리의 휘황찬란한 광고 불빛 때문에 밤중에 선글라스를 꼈지만 전혀 어색하지 않다. 여성의 얼굴이 점점 클로즈업되자 잔머리와 피부의 잡티, 목주름도 보인다.

도시의 밤거리를 걷는 여성 모델을 고화질 카메라로 촬영한 것처럼 보이지만 사실은 ‘소라(Sora)’라는 AI 시스템이 만든 영상이다. 소라는 사용자가 입력한 텍스트를 최대 1분짜리 동영상으로 만들어 주는 ‘텍스트 투 비디오’ 멀티모달AI다. 이 영상도 ‘도쿄 거리를 걷는 여성’이라는 키워드를 입력해 만든 것이다.

오픈AI에 따르면 소라는 텍스트만으로 동영상을 생성할 수 있고 기존의 이미지를 동영상으로 만들 수도 있다. 기존 동영상을 확장하거나 누락된 프레임을 채우는 것도 가능하다. 오픈AI는 “소라는 여러 캐릭터와 특정 유형의 동작, 피사체와 배경의 정밀한 디테일이 담긴 복잡한 장면을 생성할 수 있다”며 “언어에 대한 깊은 이해를 갖추고 있어서 사용자가 텍스트로 요구한 내용뿐 아니라 생생한 감정까지 표현하는 매력적인 캐릭터를 생성할 수 있다”고 밝혔다.

구글도 질세라 오픈AI와 같은 날 자체 개발한 멀티모달 AI ‘제미나이 1.5 프로’를 공개했다. 구글에 따르면 제미나이 1.5 프로는 중형 멀티모달 모델로, 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 작업을 수행한다. 구글은 제미나이를 AI가 학습한 데이터의 규모에 따라 나노, 프로, 울트라 등 3가지로 나누고 있다. 데미스 허사비스 구글 딥마인드 최고경영자(CEO)는 “(제미나이 1.5 프로는) 긴 문맥을 이해할 수 있는 뛰어난 기능을 제공한다”며 “1시간 분량의 영상, 11시간 분량의 음성, 3만 줄 이상의 코드 및 70만 개가 넘는 단어 등을 포함해 방대한 양의 정보를 한 번에 처리할 수 있다”고 밝혔다. 구글에 따르면 제미나이 1.5 프로에 미국 배우 버스터 키턴의 44분짜리 무성 영화를 제공하면 주요 줄거리를 분석하는 것은 물론이고 놓치기 쉬운 세부 내용까지 파악할 수 있다.

앞서 지난해 11월 메타는 이미지 편집 및 비디오 생성 AI인 ‘에뮤’를 공개했다. 이용자가 텍스트나 참조 이미지를 입력하면 비디오를 생성한다. 또 텍스트로 변경하고 싶은 내용을 입력하면 요청한 대로 이미지를 수정해 준다.

LG는 2021년 12월 멀티모달 AI인 ‘엑사원’을 선보였고, 지난해 7월에는 한 단계 진화한 전문가 특화 모델인 ‘엑사원 2.0’도 발표했다. 상위 1% 전문가의 AI를 표방하는 엑사원 2.0은 LG 계열사와 국내외 파트너사를 통해 확보한 특허, 논문 등 약 4500만 건과 이미지 3억5000만 장을 학습했다.

서민준 KAIST AI대학원 교수는 “빅테크 기업들의 멀티모달 AI 경쟁은 계속될 것으로 보인다”며 “예컨대 텍스트 투 비디오 모델은 메타, 구글 등에서 이미 개발하기도 했는데 결국 중요한 것은 얼마나 기술의 수준을 높여 이용자를 만족시키느냐일 것”이라고 말했다.

4차 산업혁명 시대 >

#멀티모달 ai #ai 경쟁

김하경 기자 whatsup@donga.com
남혜정 기자 nhj0607@donga.com
홍석호 기자 will@donga.com

좋아요

0개
슬퍼요

0개
화나요

0개

지금 뜨는 뉴스

좋아요

0개
슬퍼요

0개
화나요

0개

‘멀티모달 AI’ 앞다퉈 선보여 도쿄 거리를 걷는 여성 입력하면…선글라스-가죽재킷 여성 동영상 텍스트 중심서 이미지-소리 등 다양한 형태 데이터 이해하고 처리 오픈AI-구글 등 프로그램 속속 공개

댓글 0

“아들아 보고싶다” 모르는 번호로 매일 온 카톡…답장하자 생긴 일

“미술관마당에 눈 조각상 만드신 분을 찾습니다!”

‘개그맨 아니었어?’…책 3000권 읽고 노벨상 한강과 어깨 나란히

자유 찾아 떠나는 北 청년들…“김정은에 충성 안 해”

정우성, 생방송 무대서 “모든 질책 안고 갈 것…아들에 대한 책임 다하겠다”

안정환·이혜원, 한정식당 2개 운영 했었다 “관리 어려워”

‘출근거부-정치활동’ 조국당 이규원 대변인 검사직 해임

‘성매매 무혐의’ 최민환 입 열었다 “세 아이 위해 상황 정리”

중·러 군용기 11대, KADIZ 침범…공군 전투기 출격

‘항공엔진 독립’ 도전… 공중 전력 강화-전투기 수출길 연다

서울대 교수·연구자 525명 “민주주의 거부하는 대통령 거부”… 尹퇴진 시국선언

野, 거부권 못쓰는 상설특검 압박 “尹 임명 미루면 탄핵 사유”

尹 지지율 19%, 다시 10％대…부정평가 1위, 김건희→경제

감사원장 “헌법질서 훼손 정치적 탄핵 유감…자진사퇴 없다”

대통령실, 野상설특검에 “꼭두각시 앉히려는 것, 명백한 위헌”

친한, ‘당원게시판 공세’에 “김건희 특검법 임계점”… 친윤 “냉각기 갖자”

친윤 김민전, 韓 면전서 “드루킹 같은 여론조작”…친한계 “한동훈 임계점 왔다”

“스님-신부님 급감, 외국서 모셔와야할 판” 고민 커진 종교계

北미사일 상층서 요격…‘한국판 사드’ L-SAM 독자개발 성공

거부권 못쓰는 상설특검 “尹 12월 특검임명 안하면 탄핵명분” 압박

이재명의 선거법 유죄는 “미친 판결” 위증교사 무죄는 “사필귀정”? [황형준의 법정모독]

[사설]생산도 소비도 투자도 감소… 경기부양 급한데 稅收도 기근

아시아 2위 부자의 ‘뇌물 스캔들’, 인도 모디 정부를 뒤흔들다[딥다이브]

노벨위원회가 전임 대통령을 비꼬는 방법[정미경의 이런영어 저런미국]

[사설]생산도 소비도 투자도 감소… 경기부양 급한데 稅收도 기근

[횡설수설/이진영]“尹과 골프 친 부사관, 로또 당첨된 기분”

[오늘과 내일/김승련]고르바초프가 몰래 품은 꿈

[광화문에서/곽도영]멀다고 생각했던 미래가 의외로 가까울 수 있다

[새로 나왔어요]생각의 역사 外

카라바조는 ‘광기의 화가’였을까?[영감 한 스푼]

[책의 향기/밑줄 긋기]오늘도 돌아갑니다, 풍진동 LP가게

먼 강물의 편지[나민애의 시가 깃든 삶]〈477〉

‘멀티모달 AI’ 앞다퉈 선보여
도쿄 거리를 걷는 여성 입력하면…선글라스-가죽재킷 여성 동영상
텍스트 중심서 이미지-소리 등 다양한 형태 데이터 이해하고 처리
오픈AI-구글 등 프로그램 속속 공개