AI가 학습하는 건 ‘실재 세계’일까[사진기자의 사談진談/신원건]

동아일보
입력 2024년 4월 24일 23시 39분

신원건 기자

코멘트: 개

좋아요: 개

생성형 AI 기술이 소리와 그림을 넘어 동영상으로 진화하고 있다. 챗GPT 개발사 오픈AI는 “텍스트(문장)로 비디오를 만든다”며 올 초 ‘소라(Sora)’를 선보였다. 맛보기 영상을 보면 언뜻 봐서는 실사(實寫·실물 촬영)와 구별하기 힘들다. ‘포토샵’ 운영사 어도비도 자사 동영상 편집 프로그램에 생성형 AI 기능을 추가했고 구글도 ‘비즈’라고 이름 붙인 앱을 6월 선보인다. 주로 1분 이내의 영상을 만들어준다니 유튜브 쇼츠나 인스타그램 릴스에서도 생성형 영상을 쉽게 볼 수 있을 것이다.

카메라는 광원이나 반사된 빛을 전기신호로 바꿔 ‘촬영’한다. 실존하는 피사체를 빛을 이용해 이미지 파일로 저장하는 것이다. 반면 위 기술은 ‘생성’ 방식이니 그림 애니메이션에 가깝다. 다만 실사 같아 보일 뿐이다. 진짜 같은 가짜다. 소라 홈페이지에는 이런 홍보 문구가 있다.

“AI가 움직이는 실재 물리 세계를 이해하고 재현하도록 학습시키고 있습니다.”

“많은 시각 예술가, 디자이너와 영상 제작자에게서 실력 향상을 위한 피드백을 얻습니다.”

기술 업체들의 자세한 개발 과정은 기업 비밀이라 공개하지 않는다. 홍보 문구 등을 통해 개발 방향을 가늠해 볼 수밖에 없다. 위 문구 중 곱씹을 만한 단어는 ‘실재 물리 세계(physical world)’, ‘재현(simulate)’과 ‘시각 예술가’ 등이다. 실재를 촬영한 영상 전문가의 작품을 학습시키고 있음을 추측할 수 있다.

그런데 ‘실재 세계’는 영상 전문가의 손을 거쳐 촬영되고 편집되면, 과포장되기 십상이다. 영화나 드라마 속 촬영지에 막상 가보면 바로 안다. 드라마 영상은 매우 고급스럽게 연출된 것임을. 실재 모습은 밋밋할 뿐이라는 것을.

지인이 교통사고 목격담을 들려준 적이 있다. 한적한 지방 국도에서 자신의 차량을 추월한 오토바이가 미끄러지면서 큰 사고를 당했다는 것이다. 운전자가 “3∼4m 높이로 몸이 붕 뜬 채로 10m를 넘게 날아가 밭으로 떨어졌다”고 했다. 헬멧과 척추보호대 등 안전 장구를 잘 착용하고 있어 다행히 크게 다치지는 않았다. 사고 순간이 궁금해 지인 차량의 블랙박스 영상을 스마트폰으로 옮겨 함께 봤다. 목격담과는 사뭇 다르게 운전자는 지상 1m 남짓 몸이 수평으로 떠올랐고 2m가량 밭에서 뒹굴었다. 0.3초 만에 상황은 끝났다. 지인이 과장해 설명한 것일까. 아니다. 블랙박스 카메라는 벌어진 상황을 렌즈를 통해 기계적으로 저장장치에 기록할 뿐이지만, 사람의 눈은 다르기 때문이다. 사고 순간의 화들짝 놀란 감정까지 뒤섞여 뇌에 저장되는 것이다. 지인에게 사고 순간은 3초 이상으로 기억돼 있었다.

영상 전문가의 연출도 이와 비슷하다. 만약 이 사고를 액션영화 감독이 연출했다면 어땠을까. ‘끼익’ 굉음을 효과음으로 넣고 배우를 와이어에 매달아 10m가량 날아가게 했을 것이다. 코미디 연출자라면 배우가 공중으로 뜨는 순간부터 슬로 모션으로 처리하고, 낮은 각도에서 올려보는 시각으로 카메라를 설치해 운전자가 하늘을 배경으로 날아가는 모습을 만들었을 것이다. 장엄한 클래식 음악을 깔고 하늘을 헤엄치듯 팔다리를 공중에서 휘젓는 모습까지.

블랙박스 영상과 목격자의 기억 중 어느 것이 실재에 가까울까. 블랙박스다. 감정의 개입 없이 상황만을 기계적으로 담았으니까. 그러나 ‘실재를 재현하겠다’는 AI가 정작 학습하는 영상은 전문가가 연출한 이른바 ‘웰 메이드’ 작품일 가능성이 크다. 게다가 컴퓨터그래픽(CG) 영상도 들어가 있다. 만약 지인이 목격한 사고담을 문장으로 입력해 동영상을 만든다면 생성형 AI는 블랙박스 영상보다 상상으로 연출한 드라마에 가깝게 만들 것이다.

다큐멘터리도 영상미가 요구되는 요즘이다. 무미건조한 영상은 관람객의 눈길을 끌지 못한다. 스토리뿐 아니라 영상도 판타지에 가까워야 인정받는 것이 현실이다. 이미지 소비자들은 실재 세계를 원하지 않는 것일까. 유튜브 등에 올라오는 아마추어 영상들은 모두 실재에 가깝다. 영상 촬영 기술과 편집력은 부족해도 정보(텍스트)를 원하기 때문이다. 이용자들도 영상미를 기대하고 유튜브를 보지는 않는다. 하지만 생성형 AI는 비전문가의 영상은 학습하지 않는다.

상상과 감정을 뒤섞어 연출하는 기법을 배운 AI 동영상이 저렴하게 상용화된다면? 이 동영상이 대량 유통되고, 다시 그 영상을 AI가 학습하면? 가상현실 세계의 무한 반복이다. 진짜가 가짜처럼 여겨지고 실재보다 ‘재현된 실재’가 더 익숙해질지도 모르겠다.