오픈AI, 영상 생성 AI '소라' 공개…악용 우려에 '레드팀 검증'부터

챗GPT 개발사인 오픈AI가 새로운 생성형 AI 모델을 선보였다. 텍스트를 입력하면 그 내용대로 영상을 만들어주는 소라(Sora)다.

오픈AI는 15일(현지시각) 홈페이지를 통해 소라를 공개했다. 사용자가 입력한 프롬프트(명령어)에 따라 최대 1분짜리 영상을 만들어 주는 생성형 AI 모델이다.

오픈AI의 '소라'로 생성한 영상. 전반적인 완성도는 높지만 인물과 배경 사이 흐릿한 경계면이 보이는 등 아직 어색한 부분도 있다 / 출처=오픈AI

오픈 AI가 공개한 영상을 보면 ‘세련된 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있다. 그녀는 검은 가죽 자켓, 붉고 긴 드레스, 검은 부츠 차림에 손가방을 들고 있다. 그녀는 선글라스와 빨간 립스틱을 착용하고 있다. 자신감 있고 자연스럽게 걷는다. 길은 축축하고 화려한 조명을 반사하며 거울 같은 효과를 낸다. 많은 보행자가 주위를 걷는다’는 길고 복잡한 프롬프트와 정확히 일치하는 59초 분량 영상이 생성된다.

인물과 배경 사이 흐릿한 경계면이 보이는 등 약간의 어색함이 있지만 기존의 영상 생성 AI와 비교하면 눈에 띄게 높은 완성도다.

소라가 '‘골드러시 시기의 캘리포니아를 담은 역사 기록 영상’이라는 프롬프트를 바탕으로 생성한 영상 / 출처=오픈AI

‘골드러시 시기의 캘리포니아를 담은 역사 기록 영상’이라는 비교적 간소한 프롬프트를 입력해도 그에 맞는 적절한 영상을 생성해준다. 이미지를 영상으로 만들 거나, 기존 영상의 길이를 확장하고, 누락된 장면을 채워 넣는 방식으로도 활용할 수 있다고 오픈AI는 덧붙였다. 기존 영상의 배경을 바꾸거나, 두 영상을 자연스럽게 이어지도록 합치는 등 영상 편집에도 응용할 수 있다.

소라는 달리(DALL·E), 미드저니, 스테이블 디퓨전 등 이미지 생성 AI와 같은 확산 모델(DIffusion Model)을 사용한다고 오픈AI는 소개했다. 확산 모델은 노이즈로 가득한 이미지에서 점차 노이즈를 제거하며 원하는 이미지를 생성하는 방식으로 작동한다. 또한 소라는 거대언어모델(LLM)이 텍스트를 컴퓨터가 이해할 수 있는 단위인 토큰으로 쪼개 처리하듯, 영상과 이미지를 패치(Patch)라는 단위로 쪼개어 처리한다.

소라는 영상을 패치라는 단위로 쪼개어 처리한다 / 출처=오픈AI

아직 한계도 있다. 오픈AI는 소라가 물리적으로 불가능한 움직임을 만들어 내기도 한다고 밝혔다. 예를 들어 사람이 쿠키를 베어 무는 장면에서, 쿠키에 베어 문 자국이 남지 않는 오류가 생길 수도 있다는 것이다. 런닝머신 위에서 반대 방향으로 달리는 영상도 소라의 약점을 보여주는 예시로 제시했다.

오픈AI는 소라가 물리적으로 불가능한 장면을 만들어내는 등 아직 한계가 있다고도 밝혔다 / 출처=오픈AI

소라는 아직 일반에 공개되지는 않았다. 오픈AI는 이날부터 소라를 ‘레드팀 구성원’이 사용할 수 있게 됐다고 했다. 레드팀 구성원들은 소라의 유해성과 위험성을 평가하는 역할을 하게 된다. 딥페이크와 같은 AI 악용 우려를 미리 차단하려는 의도다.

오픈AI는 동영상 생성 시점, AI 사용 여부 등을 감지할 수 있는 정보를 소라로 생성한 영상에 포함해 악용 소지를 막겠다는 계획이다. 달리3 등 기존 오픈AI 제품에 이미 적용된 안전 조치들 또한 소라에 적용한다. 폭력적이거나 성적인 콘텐츠, 혐오 콘텐츠, 유명인 초상이나 다른 이의 저작권을 침해하는 등 사용 정책을 위반하는 프롬프트를 입력하면 영상 생성을 거부한다.

일부 비주얼 아티스트, 디자이너, 영상 제작자 등 관련 전문가들에게도 사용 권한을 부여하기로 했다. 이들의 의견을 수렴한 뒤 전문적 목적으로 사용할 수 있는 수준까지 모델을 발전시키겠다는 계획이다.

IT동아 권택경 기자 tk@itdonga.com