음성인식 전문가 “AI로도 단언하기 어려워… 말한 사람만 알 것”
윤석열 대통령. [동아DB]
“현재로선 논란이 된 단어가 구체적으로 무엇인지 인공지능(AI)으로도 단언하기 어렵다. 무슨 단어인지 맞힐 수 있는 사람은 단 한 명, 말한 사람뿐이다.”(음성인식 전문가)
윤석열 대통령이 9월 21일(현지 시간) 미국 순방 중 ‘글로벌펀드 재정공약 회의’에서 조 바이든 미국 대통령과 만난 후 회의장을 빠져나오며 말한 ‘비속어’ 논란을 둘러싸고 정치권 공방이 이어지고 있다. 온라인 공간에서 누리꾼들은 ‘노이즈(잡음) 제거’ ‘0.5배속 저속 재생’ 등 방식으로 저마다 결론을 내리고 갑론을박하고 있다.
당시 윤 대통령이 박진 외교부 장관 등 주변에 한 발언에 대해 더불어민주당(민주당)을 포함한 야권은 “국회에서 이 ××들이 승인 안 해주면 바이든 ×팔려서 어떡하나”라고 말했다고 주장한다. 반면 대통령실과 국민의힘 등 여권은 당시 윤 대통령의 발언 내용이 “국회에서 이 ××들이 승인 안 해주고 날리믄(면) ×팔려서 어떡하나”였다고 반박한다. 이번 사태를 “MBC가 악의적 자막으로 대통령 발언을 왜곡해 국민을 속인 보이스피싱”(국민의힘 권성동 의원, 9월 28일 MBC 항의 방문 발언)이라고 규정한 것이다.
‘잡음 제거’ ‘저속 재생’… 누리꾼 갑론을박
비속어 논란이 정언유착 의혹으로까지 번지면서 혼돈스러운 상황이 이어지고 있지만, 이번 사안의 핵심은 결국 당시 윤 대통령이 한 말이 ‘바이든’이냐, ‘날리면’이냐를 확실하게 판독하는 것이다.
정확한 판독을 가능하게 하는 기술적 해법은 없을까. 현재 음성인식 분야에서 공신력을 인정받는 곳은 대검찰청 음성분석실, 국립과학수사연구원이다. 이들 기관은 자체 음성분석 장비를 갖추고 전문 인력이 음성 자료에 몇 사람의 목소리가 담겼는지와 조작 여부 등을 감정하는 것으로 알려졌다. 다만 해당 조직은 어디까지나 범죄 수사를 지원하는 곳이기에 이번 사안에는 개입할 수 없다. 민형사 사건에서 녹음 음성 내용을 놓고 이견이 있을 때 법원이나 수사기관, 개인 의뢰로 감정해주는 사설업체도 있다. 다만 그 증거 능력이 인정될지는 재판부 판단에 달렸다. 일부 업체의 경우 분석 전문성이 떨어지기도 하는 등 공신력이 제한적인 편이다.
보통 사람들보다 말을 잘 듣고 빠르게 기록하는 속기사의 의견은 어떨까. 국내 속기사 관련 단체 측에 음성 청취 및 기록 기준에 대해 물었으나 “민감한 사안인 듯해 언급하기 부담스럽다”며 취재를 거절했다. 한 현직 속기사는 “최근 논란이 된 영상 속 음성을 어찌 기록할지 답변하기 어렵다”면서도 다음과 같이 일반적 기준을 설명했다.
AI를 활용한 음성인식 기술을 연구하는 음성공학자나 음성학자, 음향학자들의 견해도 중요하다. 최근 열린 관련 학회에선 일부 참석자의 사담(私談) 중 이번 논란이 입에 오르내렸다고 한다. “국내 유명 교수들이 ‘민감한 문제라 언론사 취재를 거절했다’면서도 ‘과학적 견지에선 이런 식의 논의는 안 된다’고 말했다”는 게 학회에 참석한 연구자의 전언이다. 애초에 과학적 방식의 음성인식을 통해 발언 내용을 확인하지 못한 채, 여야 정쟁으로 논의가 흐르는 것이 안타깝다는 얘기다. 익명을 원한 한 언어학자는 이번 논란을 두고 “말의 맥락을 따져야지 음성, 음향을 분석해 시시비비를 가린다는 것은 곤란하다”고 말했다.
“일부 유튜브 내용, 전문가 보기에는 웃기는 것”
‘주간동아’는 음성인식 분야 전문가인 모 대학 A 교수에게 AI 기술로 이번에 논란이 된 윤 대통령의 발언 내용을 확인할 수 있는지 질의했다. 그는 논란이 된 윤 대통령의 음성이 담긴 파일을 자체 AI 프로그램으로 분석해봤다고 한다. A 교수는 “기존 AI를 바탕으로 (확인)해보니, 강한 파열음이라 바로 들리는 ‘×팔려’밖에 안 나왔다”면서 “AI를 계속 학습·튜닝할수록 (성능이) 좋아지겠지만, 그렇다 해도 논란이 된 단어가 구체적으로 무엇인지 결론을 단언하긴 힘들 것”이라고 말했다. “무슨 단어인지 맞힐 수 있는 사람은 단 한 명, 말한 사람뿐”이라는 것이다. 다음은 A 교수와 일문일답.
최근 온라인상에 ‘분석 영상’이 떠도는데.
음성에서 잡음을 제거하면 선명하게 들리는 것 아닌가.
“음성의 잡음을 제거하는 것은 소리가 잘 들리게끔 하는 게 아니라, 듣기 편하게 만드는 것이다. 무슨 소리인지 맞히는 목적이 아니라는 얘기다. 음질 자체는 깨끗이 할 수 있어도 가령 ‘강아지’ ‘망아지’나 ‘선릉로’ ‘헌릉로’처럼 발음이 비슷한 단어를 구별할 수 있게 하지는 못한다. 잡음을 섣불리 제거하면 오히려 잘 안 들리는 부분이 날아갈 수 있다는 점에서 함부로 해선 안 된다. 현재로선 잡음만 완벽히 제거하는 기술은 없다. 차라리 (잡음 제거를) 안 하고 듣는 게 나을 수도 있다.”
천천히 재생해 듣는 방법은 어떤가.
“녹음된 음성의 속도를 바꿔 듣는다는 것은 소리 파형을 줄이거나 늘린다는 뜻이다. 가령 2배속 하면 파형의 절반을 날리고, 0.5배속 하면 파형을 2배로 늘리는 식이다. 음성을 천천히 듣게 되면 시간적으로 정보를 늘려야 하는데, 그사이를 채우는 새 정보가 생길 수는 없다. 마찬가지로 음성 내용을 파악하는 데 한계가 있다.”
이번 논란을 어떻게 보나.
“소리를 듣고 처음 기록할 땐 반드시 ‘블라인드’ 상황을 전제로 해야 한다. 그렇지 않으면 듣는 사람이 ‘선행(先行·precedence)효과’로 사전에 노출된 정보의 영향을 받아 선입견이 생길 수 있기 때문이다. 이번 사안은 일반인이 귀로 음성을 듣고 평가한 내용을 바탕으로 자막이 제작된 것으로 보인다. 그런 점에서 실수이자, 전제가 틀렸다고 할 수 있다. 음성 전문가에게 이렇다 할 검증을 받지 않은 점이 아쉽다.”
[이 기사는 주간동아 1358호에 실렸습니다]
김우정 기자 friend@donga.com