[위클리 리포트]스타트업 ‘쏙’
음악세계에 뛰어든 ‘AI 스타트업’ 가보니
AI 음악 작곡 스타트업 ‘포자랩스’
AI 오디오 기술 스타트업 ‘수퍼톤’
《AI가 작사-작곡하고 노래까지 인공지능(AI)이 순수 창작의 영역인 작곡, 작사, 그리고 노래까지 파고들었다. 장르와 분위기만 고르자 10분 만에 곡 하나가 뚝딱. 내 목소리는 케이팝 가수의 창법에 얹혀 노래로 재탄생한다. AI의 음악 창작 현장은 어떤 모습일까.》
올해 7월 방영한 MBC 드라마 ‘닥터로이어’ 최종화에서는 긴장감과 웅장한 느낌을 주는 음악이 흘러나왔다. ‘In Crisis’라는 제목의 노래로, 긴박한 리듬과 다양한 악기의 소리는 긴장감을 배가시켰다.
여느 서스펜스 드라마나 영화에 나오는 음악과 크게 다르지 않은 듯했지만 이 곡은 다른 OST와 달리 특별한 점을 갖고 있다. 작곡자가 사람이 아닌 인공지능(AI)이라는 것. AI 작곡 음악이 지상파 드라마 OST로 활용된 것은 이번이 처음이다. 해당 곡은 AI 음악 작곡 스타트업 ‘포자랩스’의 작품으로, 드라마 시놉시스와 대본을 분석해 키워드와 코드를 추출한 뒤 극 중 상황과 어울리도록 곡을 만들었다.
○ AI 작곡가, 10분 채 되지 않아 한 곡 뚝딱
AI가 다양한 분야에서 활용되고 있는 가운데 최근 몇 년 사이에는 인간의 독보적 영역으로 여겨져 왔던 예술, 특히 음악 영역에서도 두각을 드러내고 있다. 멜로디와 음성, 가사 등 노래를 구성하는 각 요소를 AI 기술로 상당 부분 구현할 수 있는 것이다.
세 가지 요소 중 가장 활발하게 발달한 영역은 멜로디를 만들어내는 작곡이다. 국내 AI 작곡 스타트업은 포자랩스를 비롯해 △업보트 엔터테인먼트 △크리에이티브마인드 △뉴툰 등이 있다. 기술 수준은 기업마다 차이가 있지만 기업, 방송국, 아티스트 등과 협업하며 음악을 선보이고 있다.
지난달 23일 서울 강남구 포자랩스 사무실에 방문해 직원의 안내에 따라 AI 작곡을 체험했다. 이준환 포자랩스 매니저는 “사용자가 원하는 음악의 장르와 분위기 등을 선택하면 AI가 이에 맞게 작곡해 준다”고 했다.
기자는 포자랩스가 내부적으로 구축해둔 비공개 플랫폼에서 장르는 ‘재즈’, 분위기는 ‘업리프팅(uplifting·희망을 주는)’을 선택했다. 이어 마우스를 몇 번 더 클릭해 어떤 악기를 쓸 것인지, 속도나 박자 등은 어떻게 할 것인지 설정했다.
곡은 10분이 채 되지 않아 완성됐다. 대개 작곡가가 한 곡을 작곡하는 데 며칠에서 몇 주의 시간을 보낸다는 것을 고려하면 비교할 수 없을 정도로 빠른 속도다.
시스템상의 재생 버튼을 누르자 재즈 특유의 리듬감이 있으면서도 밝은 분위기의 음악이 3분가량 흘러나왔다. 변주가 적절히 이뤄지는 가운데 도입과 상승, 하강, 마무리 등 노래의 서사와 기승전결이 확실해 곡이 입체적으로 느껴졌다. 해당 곡을 함께 듣던 포자랩스 관계자는 “방금 만들어진 곡이라 직원인 나조차 처음 들어보는 곡”이라며 “설정을 그대로 둔 채 다시 곡을 생성하면 같은 곡이 나올 확률은 극히 작다”고 말했다.
포자랩스에 따르면 이곳의 작곡 AI는 그동안 사람이 작곡한 노래 63만여 개를 학습했다. AI가 학습할 데이터를 만들기 위해 실제 작곡가들이 이곳에서 근무하며 데이터용 음악을 작곡했다. 현재까지 AI가 작곡한 음악은 최소 3만2000곡으로, 지금도 AI는 계속해서 새로운 곡을 만들고 있다.
허원길 포자랩스 대표는 “전 세계적으로 크리에이터가 몇천만 명이 될 것으로 추산되는데, 자신만의 음악을 필요로 하는 경우가 많다”며 “사람들의 또 다른 창작 활동을 돕고 새로운 산업이 발전하는 데 도움이 될 수 있을 것”이라고 말했다.
○ 인간 음성에 담긴 감성 학습해 구현하는 AI, 콘텐츠 질 제고 기여
음성 관련 AI 기술도 높은 수준으로 개발되고 있다. 국내에서는 AI 오디오 기술을 만드는 스타트업 ‘수퍼톤’이 주목받는다. 이 기업은 지난해 SBS에서 방영한 프로그램 ‘세기의 대결 AI vs 인간’에서 고인이 된 가수 김광석의 생전 가창 음성을 부활시킨 곳으로 유명하다.
수퍼톤의 기술은 크게 ‘음성 분리 기술’과 ‘음성 합성 기술’ 등 두 가지로 나뉜다. 전자는 배경음과 목소리를 구분해 내는 기술을 말한다. 예컨대 유명인이 야외무대에서 연설을 할 때 마이크에 잡음이 섞여 들어가면 연설 내용이 또렷하게 들리지 않을 수 있다. 이때 수퍼톤의 음성 분리 기술은 잡음과 연설 음성을 깔끔하게 분리해 낸다. 다양한 사람의 음성과 배경음을 학습한 AI가 잡음과 음성을 구분해 내는 것이다.
수퍼톤 관계자는 “여러 사람의 목소리와 잡음이 많은 상황에서도 자신이 관심을 갖는 이야기는 선택적으로 듣게 되는 ‘칵테일파티 효과’와 같은 원리”라며 “AI가 사람 머릿속에서 일어나는 행위를 모사했다고 보면 된다”고 설명했다.
특히 음성 합성 기술은 수퍼톤이 독보적으로 보유한 기술이다. 자동응답시스템(ARS)이나 내비게이션처럼 특유의 기계적인 말투가 담긴 목소리를 넘어 연기와 감성이 담긴 자연스러운 목소리를 만들어 내거나 가창을 구사한다. AI에 음정과 어조를 비롯한 감성 정보를 학습시켜 맥락에 맞게 구현하도록 한 결과다. 1분 30초 길이로 녹음한 사람 목소리는 AI가 학습하고 훈련해 해당 목소리로 노래를 부르거나 대사로 구현하기에 충분하다.
수퍼톤을 방문해 수퍼톤의 음성 합성 기술을 체험해 봤다. 극명한 대비를 위해 특유의 창법과 고음으로 오랜 시간 실력을 인정받고 있는 가수 아이유의 노래를 부르기로 했다. 우선 수퍼톤 관계자가 음성 분리 기술을 통해 ‘좋은날’의 음원에서 반주(MR)와 아이유 목소리를 서로 분리해 냈다. 두 개로 분리된 음원은 각각 MR와 가수의 목소리를 따로 녹음한 것처럼 선명하게 들렸다.
이어 기자는 장비를 갖춘 수퍼톤 녹음실에 들어가 목소리를 녹음했다. ‘노래와 무관한 내용의 텍스트를 책 읽듯 읽어도 AI가 기자의 목소리를 학습할 수 있지만, 노래로 부르면 합성을 더 잘할 수 있다’는 안내에 따라 아예 노래를 불렀다. 저음인 기자의 목소리로 소화하기에는 어려운 노래이다 보니 녹음된 목소리는 형편없는 듯 들렸다.
녹음을 마치고 10분가량 기다리자 음성 합성 작업을 하는 컴퓨터 모니터에 작업을 완료했다는 알림이 떴다. 재생 버튼을 누르니 아이유 창법으로 노래를 부르는 기자의 목소리가 흘러나왔다. 창법이 수준급으로 바뀐 만큼 노래를 잘 부르는 일반인이 부르는 노래처럼 들렸다.
최희두 수퍼톤 최고운영책임자(COO)는 “AI 모델이 아이유의 창법을 학습한 뒤 아이유의 음색을 빼내고 기자의 음색을 넣은 것으로 보면 된다”고 말했다.
이 같은 음성 합성 기술은 예술의 다양한 영역에서 활용되며 콘텐츠의 질을 높일 수 있다. 사망한 아티스트의 목소리로 미발표곡을 만들어 팬들에게 감동을 선사할 수도 있고, 외국 영화 및 드라마의 더빙 퀄리티를 높여 작품의 몰입도를 높일 수 있다.
예컨대 넷플릭스 드라마 ‘오징어게임’이 다른 나라에서 방영될 때는 해당 국가의 언어로 대사를 구사하는 성우들의 목소리를 녹음해 덧씌운다. 이러다 보니 배우의 연기가 담긴 표정과 흘러나오는 목소리가 서로 동떨어진 듯 들린다.
하지만 AI가 외국 성우의 대사를 학습해 성우의 음색을 빼내고 배우의 음색을 넣으면 입 모양은 다소 다르더라도 한국 배우가 외국어로 대사를 한 것과 같은 생생함이 전달될 수 있다.
수퍼톤 관계자는 “60대 배우 목소리를 20대처럼 만들 수도 있고, 성별을 전환하거나 제3의 목소리도 만들어낼 수 있다”며 “아티스트가 가진 한계를 보완하고 보조하면서 작품의 질을 높이는 데 활용될 것”이라고 말했다.
○ 작사 AI는 아직 걸음마 단계
AI 작사 기술은 상대적으로 초기 단계에 있다는 평가다. 가사와 유사하다고 할 수 있는 ‘시’의 경우 최근 카카오브레인이 시 쓰는 AI 모델 ‘시아(SIA)’를 개발해 53편의 시로 구성된 시집을 출간할 정도로 발전했다. 노래 가사만을 전문적으로 생성하는 기업으로 뚜렷하게 알려진 곳은 아직까지 없다.
다만 서울대 음악오디오연구실(MARG)에서 AI 작사 기술을 개발 중이다. 코딩 프로그램에 키워드를 입력한 뒤 1∼3단계로 나누어진 창의성 수준을 설정하면 1분도 채 되지 않아 가사가 생성되기 시작한다.
기자가 지난달 22일 MARG를 방문해 실제로 가사 생성에 참여해 봤다. ‘미소’라는 키워드와 함께 창의성 수준을 1단계로 입력하자 ‘미소 짓던 그 모습 이젠/아직도 잊히지 않아/어색했던 인사가/아무렇지 않은 척해’라는 그럴듯한 가사가 나왔다.
하지만 창의성 단계를 2단계로 높이고 ‘네가 참 좋아’라는 키워드를 넣자 ‘너희가 참 좋아/세상에 하나뿐인 너희가 있다/나도 그저 너 하나밖에 안 보이고/너만 보면 어지러워 미치겠다/난 그런 놈이 좋아’라는 ‘과격하게 진정성 넘치는’ 가사가 생성됐다.
MARG 연구원은 “현재 기술 수준에서는 창의성 수준을 낮추면 생성된 가사가 표절의 경계에 있을 수 있고, 수준을 높이면 동떨어진 가사가 생성될 가능성이 높다”며 “시와 달리 가사는 운율을 넘어 멜로디와 선율에도 맞게 생성해야 하기 때문에 아직 과제가 많이 남아 있다”고 말했다.
‘AI 작곡’ 법으로 저작권 인정한 나라 아직 없어
‘AI 창작물’ 저작권 문제 핫이슈 부상 AI 음악 저작권 사람 등록할 때… 개발자-작곡가-대표 애매모호 “산업 커질수록 배분 문제 우려”… 韓, 사회적 합의-입법 지지부진 표절 막을 윤리 가이드도 필요
인공지능(AI)의 창작 영역이 확대되고 능력이 고도화하면서 AI 창작물에 대한 저작권 문제가 새로운 이슈로 떠오르고 있다. 관련 논의가 각국에서 활발하게 이뤄지고 있는 가운데 한국도 AI 산업 발전을 위해서 AI 창작물을 어떻게 보호하고 다룰 것인지 등에 대해 사회적 합의를 마련해야 한다는 지적이 나온다.
관련 업계에 따르면 AI 창작물은 현재 법적으로 보호받는 것에 제약사항이 많다. 저작권법에서 저작물은 ‘인간’의 사상 또는 감정을 표현한 창작물로, 저작물의 주체는 인간으로 한정해 정의하고 있기 때문이다.
AI 작곡 스타트업 포자랩스 관계자는 “현재 상태에서는 AI 음악의 저작권자로 사람을 등록해야 하는데 AI 알고리즘을 개발한 개발자, AI가 학습할 음악을 만든 작곡가, 아니면 대표 등 누구의 이름을 넣어야 할지 애매하다”며 “관련 산업이 커질수록 수익 배분 문제가 발생할 우려가 크다”고 말했다.
전문가들은 대체적으로 AI 창작 산업의 발전을 위해 AI 창작물을 법적으로 보호해야 할 필요가 있다고 말한다. 손승우 한국지식재산연구원장(중앙대 산업보안학과 교수)은 “AI가 생성한 창작물을 보호하지 않으면 관련 산업이나 기술에 대한 투자, 연구개발이 저하될 것”이라며 “기존 저작권법을 개정할 것인지, 아니면 새로운 법률을 만들 것인지, 또 저작권 보호 수준은 어느 정도로 할지 등 전방위적인 논의가 필요하다”고 말했다.
구체적인 입법을 위해서는 무엇보다 꾸준한 사회적 논의를 통해 AI 창작물에 대한 합의된 정의가 필요하다. 예컨대 AI가 창작물을 생성하는 과정에 사람의 지시나 개입이 수반되는 경우도 많기 때문에 해당 창작물을 온전히 AI 창작물로 바라볼 수 있는지도 모호하다. 관련 시장이 아직 불투명하다는 점도 입법 조치를 하기에는 시기상조라는 지적도 있다.
국회에서도 2020년 12월 주호영 국민의힘 의원이 대표로 ‘저작권법 일부개정법률안’을 발의했다. 하지만 소관위인 문화체육관광위원회는 AI 창작물을 법적으로 보호할 필요성이 있는지, AI 창작물에 대한 사람의 관여도에 따라 저작자를 어떻게 판단할 것인지 등에 대한 논의가 부족하다고 지적했다. 현재 해당 법안은 심사 단계에 머물러 있는 상태다.
AI 창작물에 대한 보호뿐 아니라 AI가 학습에 사용한 데이터에 대한 저작권에 대해서도 논의가 필요하다. 특히 AI의 창작물이 사람이 만든 기존 작품과 유사할 경우 표절 시비가 붙을 수 있다. 책 ‘인공지능과 음악’ 저자인 이지원 피아니스트는 “저작권 관련 법뿐 아니라 윤리 가이드도 사전에 만들어져야 표절 등 많은 충돌을 방지할 수 있을 것”이라고 말했다.
해외 국가들의 상황은 어떨까. 영국은 컴퓨터 AI로 생성된 예술작품의 저자를 ‘저작물 제작에 필요한 준비를 수행하는 사람’으로 규정해 저작권법을 업데이트했다. 프랑스와 룩셈부르크 음악저작권협회는 영국의 AI 작곡 프로그램인 ‘에이바(AIVA)’를 저작권자로 인정했다. 다만 한국지식재산연구원에 따르면 AI 창작물을 기존 법제 내에서 다루거나 별도의 법으로 규정한 나라는 아직 없다.
댓글 0