‘바이든’ vs ‘날리면’…尹 음성 판독 불가능한가

음성인식 전문가 “AI로도 단언하기 어려워… 말한 사람만 알 것”

윤석열 대통령. [동아DB]

“현재로선 논란이 된 단어가 구체적으로 무엇인지 인공지능(AI)으로도 단언하기 어렵다. 무슨 단어인지 맞힐 수 있는 사람은 단 한 명, 말한 사람뿐이다.”(음성인식 전문가)

윤석열 대통령이 9월 21일(현지 시간) 미국 순방 중 ‘글로벌펀드 재정공약 회의’에서 조 바이든 미국 대통령과 만난 후 회의장을 빠져나오며 말한 ‘비속어’ 논란을 둘러싸고 정치권 공방이 이어지고 있다. 온라인 공간에서 누리꾼들은 ‘노이즈(잡음) 제거’ ‘0.5배속 저속 재생’ 등 방식으로 저마다 결론을 내리고 갑론을박하고 있다.

당시 윤 대통령이 박진 외교부 장관 등 주변에 한 발언에 대해 더불어민주당(민주당)을 포함한 야권은 “국회에서 이 ××들이 승인 안 해주면 바이든 ×팔려서 어떡하나”라고 말했다고 주장한다. 반면 대통령실과 국민의힘 등 여권은 당시 윤 대통령의 발언 내용이 “국회에서 이 ××들이 승인 안 해주고 날리믄(면) ×팔려서 어떡하나”였다고 반박한다. 이번 사태를 “MBC가 악의적 자막으로 대통령 발언을 왜곡해 국민을 속인 보이스피싱”(국민의힘 권성동 의원, 9월 28일 MBC 항의 방문 발언)이라고 규정한 것이다.

공방은 윤 대통령 발언이 포착된 영상을 보도 전 민주당 지도부가 입수한 경위로 번지고 있다. 여권은 민주당 박홍근 원내대표가 엠바고 해제 시점(9월 22일 오전 9시 39분) 전인 9시 33분에 이른바 ‘비속어 발언’을 공개 비판한 것을 문제 삼는다. MBC가 민주당 측에 정보를 미리 흘린 것 아니냐는 주장이다. 오전 9시 민주당 의원실 소속 최 모 선임비서관은 한 인터넷 커뮤니티에 “윤석열 대형사고 쳤네요”라는 글을 올린 후 엠바고 해제 전까지 “대통령실에서 비보도 읍소한다는데 일단 MBC는 내보낸다고 한다” “받/ 바이든 주최 글로벌 펀드 재정공약회의에 참석했던 윤 대통령이 박진 장관과 걸어 나오면서 ‘국회에서 이 ××들이 승인 안 해주면 바이든이 ×팔려서 어떡하나’라고 말한 게 카메라에 잡혔다” 등의 글을 올린 것으로 알려졌다. 반면 민주당 측은 △최 비서관은 오전 8시 50분 단체 카카오톡 채팅방 ‘지라시’로 해당 정보를 접했고 △당 지도부는 오전 9시 회의 중 ‘받은 글’을 봤으나 언급을 유보하다 △‘반디캠’(동영상 녹화프로그램) 형태로 영상을 확인해 9시 30분쯤 박 원내대표가 모두 발언을 했다고 주장한다.

‘잡음 제거’ ‘저속 재생’… 누리꾼 갑론을박

비속어 논란이 정언유착 의혹으로까지 번지면서 혼돈스러운 상황이 이어지고 있지만, 이번 사안의 핵심은 결국 당시 윤 대통령이 한 말이 ‘바이든’이냐, ‘날리면’이냐를 확실하게 판독하는 것이다.

정확한 판독을 가능하게 하는 기술적 해법은 없을까. 현재 음성인식 분야에서 공신력을 인정받는 곳은 대검찰청 음성분석실, 국립과학수사연구원이다. 이들 기관은 자체 음성분석 장비를 갖추고 전문 인력이 음성 자료에 몇 사람의 목소리가 담겼는지와 조작 여부 등을 감정하는 것으로 알려졌다. 다만 해당 조직은 어디까지나 범죄 수사를 지원하는 곳이기에 이번 사안에는 개입할 수 없다. 민형사 사건에서 녹음 음성 내용을 놓고 이견이 있을 때 법원이나 수사기관, 개인 의뢰로 감정해주는 사설업체도 있다. 다만 그 증거 능력이 인정될지는 재판부 판단에 달렸다. 일부 업체의 경우 분석 전문성이 떨어지기도 하는 등 공신력이 제한적인 편이다.

보통 사람들보다 말을 잘 듣고 빠르게 기록하는 속기사의 의견은 어떨까. 국내 속기사 관련 단체 측에 음성 청취 및 기록 기준에 대해 물었으나 “민감한 사안인 듯해 언급하기 부담스럽다”며 취재를 거절했다. 한 현직 속기사는 “최근 논란이 된 영상 속 음성을 어찌 기록할지 답변하기 어렵다”면서도 다음과 같이 일반적 기준을 설명했다.

“말이나 대화에 대한 여러 가지 자료를 일단 참고한다. 그래도 어떻게 들리는지 애매하면 복수의 속기사가 모여 일종의 ‘공청회’를 연다. 여럿이서 어떻게 들리는지 얘기해보고 (답을) 좁혀나가는 것이다. 그런 식으로 최대한 오류를 줄여간다.”

AI를 활용한 음성인식 기술을 연구하는 음성공학자나 음성학자, 음향학자들의 견해도 중요하다. 최근 열린 관련 학회에선 일부 참석자의 사담(私談) 중 이번 논란이 입에 오르내렸다고 한다. “국내 유명 교수들이 ‘민감한 문제라 언론사 취재를 거절했다’면서도 ‘과학적 견지에선 이런 식의 논의는 안 된다’고 말했다”는 게 학회에 참석한 연구자의 전언이다. 애초에 과학적 방식의 음성인식을 통해 발언 내용을 확인하지 못한 채, 여야 정쟁으로 논의가 흐르는 것이 안타깝다는 얘기다. 익명을 원한 한 언어학자는 이번 논란을 두고 “말의 맥락을 따져야지 음성, 음향을 분석해 시시비비를 가린다는 것은 곤란하다”고 말했다.

“일부 유튜브 내용, 전문가 보기에는 웃기는 것”

‘주간동아’는 음성인식 분야 전문가인 모 대학 A 교수에게 AI 기술로 이번에 논란이 된 윤 대통령의 발언 내용을 확인할 수 있는지 질의했다. 그는 논란이 된 윤 대통령의 음성이 담긴 파일을 자체 AI 프로그램으로 분석해봤다고 한다. A 교수는 “기존 AI를 바탕으로 (확인)해보니, 강한 파열음이라 바로 들리는 ‘×팔려’밖에 안 나왔다”면서 “AI를 계속 학습·튜닝할수록 (성능이) 좋아지겠지만, 그렇다 해도 논란이 된 단어가 구체적으로 무엇인지 결론을 단언하긴 힘들 것”이라고 말했다. “무슨 단어인지 맞힐 수 있는 사람은 단 한 명, 말한 사람뿐”이라는 것이다. 다음은 A 교수와 일문일답.

최근 온라인상에 ‘분석 영상’이 떠도는데.

“음성인식은 과학적으로 검증된 방법으로 이뤄져야 한다. 최근 유튜브 등 온라인 공간에서 ‘인공지능으로 잡음을 제거했다’는 식의 내용은 전문가로선 그야말로 웃기는 것이다.”

음성에서 잡음을 제거하면 선명하게 들리는 것 아닌가.

“음성의 잡음을 제거하는 것은 소리가 잘 들리게끔 하는 게 아니라, 듣기 편하게 만드는 것이다. 무슨 소리인지 맞히는 목적이 아니라는 얘기다. 음질 자체는 깨끗이 할 수 있어도 가령 ‘강아지’ ‘망아지’나 ‘선릉로’ ‘헌릉로’처럼 발음이 비슷한 단어를 구별할 수 있게 하지는 못한다. 잡음을 섣불리 제거하면 오히려 잘 안 들리는 부분이 날아갈 수 있다는 점에서 함부로 해선 안 된다. 현재로선 잡음만 완벽히 제거하는 기술은 없다. 차라리 (잡음 제거를) 안 하고 듣는 게 나을 수도 있다.”

천천히 재생해 듣는 방법은 어떤가.

“녹음된 음성의 속도를 바꿔 듣는다는 것은 소리 파형을 줄이거나 늘린다는 뜻이다. 가령 2배속 하면 파형의 절반을 날리고, 0.5배속 하면 파형을 2배로 늘리는 식이다. 음성을 천천히 듣게 되면 시간적으로 정보를 늘려야 하는데, 그사이를 채우는 새 정보가 생길 수는 없다. 마찬가지로 음성 내용을 파악하는 데 한계가 있다.”

이번 논란을 어떻게 보나.

“소리를 듣고 처음 기록할 땐 반드시 ‘블라인드’ 상황을 전제로 해야 한다. 그렇지 않으면 듣는 사람이 ‘선행(先行·precedence)효과’로 사전에 노출된 정보의 영향을 받아 선입견이 생길 수 있기 때문이다. 이번 사안은 일반인이 귀로 음성을 듣고 평가한 내용을 바탕으로 자막이 제작된 것으로 보인다. 그런 점에서 실수이자, 전제가 틀렸다고 할 수 있다. 음성 전문가에게 이렇다 할 검증을 받지 않은 점이 아쉽다.”

[이 기사는 주간동아 1358호에 실렸습니다]

김우정 기자 friend@donga.com