인간 영역 넘보는 가상인간… 생방송 아나운서도 꿈꾼다[인사이드&인사이트]

[인간 닮은 가상인간 개발 경쟁]
센서 옷 입은 모델 따라 움직여 3차원 공간서 실시간 동작 구현
AI 접목땐 활용분야 무궁무진…이미 모델-인플루언서 맹활약
‘인간보다 더 인간답게’ 목표…표정-머리카락 완벽 표현위해
헤어 시뮬레이션 등 본격 연구…대기업들도 앞다퉈 투자 나서

가상인간 수아(한국).

김도형 산업1부 기자

《수아, 로지, 릴 미켈라, 이마…. 국적을 점치기 힘든 이름으로 국내외에서 활약 중인 가상인간(디지털휴먼)들이다. 미국 스타트업 ‘브러드’가 만든 릴 미켈라의 경우 광고모델로 활동하며 지난해 1000만 달러(약 120억 원) 이상을 벌어들인 것으로 알려져 있다. 올해 국내에서는 보험사 신한라이프가 활용한 광고모델 ‘로지’를 통해 가상인간이 실제 사람 모델의 역할을 충분히 대체할 수 있음을 보여줬다. 시·공간의 제약을 뛰어넘을 수 있고 스캔들 우려도 없다는 장점이 부각되면서 다른 기업들에서도 가상인간을 마케팅에 활용하는 움직임이 이어지고 있다. 가상공간이나 소셜네트워크서비스(SNS) 영역을 뛰쳐나와 광고계를 점령한 가상인간은 이제 실시간 동작 기술에 인공지능(AI) 기술까지 결합해 다양한 역할을 예고하고 있다.》

SK텔레콤에서 분할한 투자전문회사 SK스퀘어는 최근 첫 투자기업 가운데 하나로 가상인간 제작사 ‘온마인드’를 낙점했다. 가상인간 제작에 대기업까지 투자에 나선 것이다. 이번 투자를 계기로 SK스퀘어는 SK의 메타버스 플랫폼 ‘이프랜드’ 안에서 사람과 비슷한 수준의 아바타를 구현한다는 청사진을 제시했다. 온마인드의 3차원(3D) 가상인간 구현 기술을 활용하면 기존보다 훨씬 더 실감나는 아바타를 구현하거나 매력적인 가상 인플루언서를 탄생시킬 수 있다는 것이다.

○ 실시간으로 반응하는 가상인간 개발 나서

가상인간 로지(한국).

최근 정보기술(IT) 업계에서 관심이 뜨거운 기술은 실시간으로 반응하는 3D 가상인간이다. 온마인드가 지난해 1월에 처음으로 등장시킨 가상인간 ‘수아’를 통해서 구현하고 있는 기술이기도 하다.

그동안 상당수의 가상인간은 움직임을 구현하기 위해 만화영화처럼 프레임을 이어 붙이는 방식을 활용해 왔다. 실제 인물이 찍은 영상의 프레임마다 컴퓨터그래픽(CG)을 기반으로 정교하게 다듬은 가상인간의 얼굴을 합성해 이어 붙이는 방식이다. 하지만 시간과 비용이 많이 필요할뿐더러 ‘녹화방송’만 가능하고 ‘생방송’은 힘들다는 점에서 한계가 있었다.

온마인드가 수아를 통해 구현한 기술의 핵심은 명령을 내리면 실시간으로 동작하는 기술이다. 세계적인 게임엔진 개발사 ‘유니티’의 게임엔진에 가상인간 개발 능력을 접목시켜 3차원 공간 속에서 가상인간이 실시간으로 움직이는 기술을 구현했다.

몇 년 전까지만 해도 실제 사람 같은 형상을 구현하기는 힘들었지만 최근 기술이 비약적으로 발전하며 가능해졌다. 실제로 지난해 수아는 유튜브 생방송을 통해서 센서가 달린 옷을 입은 모델이 움직이면 동일하게 움직이는 모습을 선보였다. 김형일 온마인드 대표는 “실시간 동작 기술에 AI가 결합됐을 때 폭발력을 가질 수 있다”며 “가상인간을 활용한 AI 챗봇을 비롯해 지금과는 전혀 다른 역할을 할 수 있을 것으로 보고 있다”고 설명했다.

사람과 거의 유사하게 보이는 가상인간 기술에 AI가 결합되면 가상인간이 아나운서나 캐스터, 쇼호스트 등의 역할을 수행하는 것이 가능해진다. 일상에서도 온라인을 기반으로 하는 운동 코칭이나 각종 교육·훈련의 강사로 가상인간이 나서는 것은 물론이고 고객 응대·상담 같은 업무를 가상인간이 빠르게 대체해 나갈 수도 있다.

물론 현재로서는 가상인간 구현 기술과 AI 기술 모두 실제 사람과 같은 수준에는 이르지 못하고 있다. 가상인간 구현에도 필요한 결과물에 맞춰서 다양한 기술을 조합해 활용하는 상황이다.

대표적인 기술 가운데 하나는 ‘디지털 더블’이다. 사람을 모델로 촬영한 영상, 이미지를 기반으로 얼굴 부분에 가상인간을 합성하는 방식이다. CG에 가까운 영역으로 실사와 유사한 이미지 표현에 유리하지만 영상 제작에 시간과 비용이 많이 소요된다는 게 단점이다. 여러 명의 얼굴 데이터를 조합해서 새로운 얼굴을 만드는 이른바 ‘딥페이크’ 기술을 활용해 사람의 얼굴을 가상의 얼굴로 변환하는 방식도 활용된다. 사람과 유사한 비주얼 표현이 가능하지만 딥페이크의 특성상 얼굴의 특정 부분을 원하는 대로 정교하게 제작하는 데는 한계가 있다.

기술마다 장단점이 있기 때문에 같은 가상인간도 상황에 따라 다른 방식으로 만들어진다. 실시간 반응이 필요한 영상이라면 게임엔진 기반의 3D 기술을 활용하더라도 인스타그램에 올릴 사진을 제작할 때는 디지털 더블 기술로 정교하게 다듬는 식이다.

○ 찡그린 표정·머리카락 표현 등 난제 극복은 과제

가상인간 브러드(미국).

가상인간을 구현하는 데 가장 근본적인 과제는 역시 ‘얼마나 사람과 똑같게 표현할 수 있느냐’는 부분이다. 이른바 ‘불쾌한 골짜기’를 벗어나야 한다는 것이다. ‘불쾌한 골짜기’ 이론은 로봇이나 가상인간이 점점 사람의 모습에 가까워질수록 호감도가 상승하다가 일정 수준을 넘어서면 오히려 거부감이 강해진다는 이론이다. 하지만 이 수준을 뛰어넘어 인간과 거의 구별이 불가능한 수준이 되면 다시 호감도가 상승할 수 있다.

인간과 똑같은 가상인간을 구현하는 데 가장 힘든 영역으로는 표정 표현이 꼽힌다. 이를 위해 ‘블렌드 셰이프(Blend shape)’가 활용된다. 얼굴 근육의 동작을 적게는 수십 개, 많게는 수백 개의 패턴으로 만들어 놓고 지어야 하는 표정에 따라서 조합하는 방식이다. 김 대표는 “사람이 짓는 표정을 다 표현할 수 있다”면서도 “아무래도 피부에 주름이 많이 생기는 찡그리는 표정 등은 사람과 동일한 수준으로 표현하는 것이 쉽지만은 않다”고 말했다.

얼굴 표정과 행동에 따라서 어떤 근육들이 움직이는지를 정확하게 표현하기 위해서는 인체에 대한 지식을 기반으로 한 섬세한 관찰과 재현이 필수적이다. 여성 가상인간이라면 빛을 받아 찰랑거리는 머리카락을 자연스럽게 표현하는 것도 난제 중의 하나로 꼽힌다. 이 문제를 풀기 위해 온마인드는 올해 세계적인 반도체 기업 AMD와 손을 잡고 3차원 가상인간의 ‘헤어 시뮬레이션’ 기술을 연구하고 있다.

전문가들은 가상인간이 차세대 플랫폼으로 주목받는 메타버스(3차원 가상세계)에서도 중요한 축을 차지할 것으로 보고 있다. 김상균 강원대 산업공학과 교수는 “최근의 기술 발전 속도를 보면 1, 2년만 흘러도 전혀 새로운 가상인간의 역할을 볼 수 있을 듯하다”며 “사람과 동일한 모습을 추구하는 가상인간뿐만 아니라 친근감이 큰 애니메이션 형태의 가상인간 등이 모두 메타버스 구현에서 중요한 역할을 하게 될 것”이라고 말했다.

김도형 산업1부 기자 dodo@donga.com