보이스피싱(전화금융사기) 사기범의 목소리를 단 30초 만에 97% 정확도로 판독하고 유사 음성끼리 묶어 범죄집단 그룹화까지 구현할 수 있는 기술이 세계 최초로 개발됐다. 보이스피싱 범죄 수사와 범죄자 검거에 속도가 붙게 될 것으로 기대된다.
행정안전부 통합데이터분석센터와 국립과학수사연구원은 지난 21일 정부세종2청사에서 정책설명회를 열어 ‘보이스피싱 음성분석 모델’ 개발 결과 및 활용 계획을 발표했다.
◆보이스피싱 피해 年7000억 넘어…외산모델 기능·사용범위 한계
최근 5년(2018~2022년)간 보이스피싱 피해 건수는 15만6294건, 피해 금액은 3조620억원에 달한다. 보이스피싱 피해 범죄로 인해 국민 고통이 크고 범죄 예방을 위한 사회·경제적 비용도 날로 급증하는 추세다.
국내에서는 국과수가 러시아와 영국에서 개발한 음성분석 모델을 활용해 보이스피싱 수사에 필요한 음성감정을 시행 중이다. 음성감정은 사람마다 발성·발음 특징이 서로 다른 점을 이용해 전화 녹취록 속 사기범 음성을 입력하면 범죄자 데이터베이스와 자동 대조해 동일인 여부를 판별하는 기법이다.
하지만 외국어로 학습된 외산 모델 특성상 한국어를 사용하는 범죄자의 동일인 여부를 구분해내는 정확도에 한계가 있다. 동일 화자(話者) 여부 판단이 어려워 ‘감정불가’로 판별되는 사례가 약 70%에 이른다.
특히 보이스피싱 범죄 특성상 역할을 나눠 그룹별로 활동하지만 외산 모델의 경우 범죄에 가담·연루한 자들까지 군집화하는 기능은 아예 없다.
외산 모델 구매 및 유지·관리 비용 문제로 사용자 확장성이 어려워 분석처리 하는 데 어려움도 상당하다. 일선 경찰서는 다량의 사기범 음성파일을 확보하고 있음에도 이를 분석할 수 있는 시스템이 없어 국과수에 일일이 음성감정을 요청해야 하는 실정이다.
◆국과수 제안에 3억 들여 6개월여 만에 개발
보이스피싱 음성분석 모델은 지난해 8월 국과수의 제안으로 행안부가 3억원을 지원해 개발해낸 것이다.
국내·외 6000여명으로부터 추출한 100만여 개의 음성파일을 활용했다. 특히 한국어의 경우 10만 개 이상의 일반인 음성파일과 국과수가 보유 중인 보이스피싱 사기범 음성데이터를 함께 사용했다.
인공지능(AI)의 딥러닝(deep learning) 기술을 기반으로 다양한 학습 과정과 성능 검증과정을 반복 시행해 최적의 알고리즘을 만들어냈고 이에 따라 2개 음성 간 유사도 및 동일인일 확률 값을 출력해냈다. 이는 단 30초 만에 이뤄진다.
국과수가 두 차례에 걸친 정확도 검증을 실시한 결과, 사기범 음성을 정확하게 판별해내는 판독률은 기존 외산 모델 대비 약 77% 향상된 것이 확인됐다. 100명의 사기범 음성감정 시 기존 외산 모델에서 목소리 동일성 여부를 28개만 판별해 낼 수 있었지만 이번에 개발된 모델에서는 51개까지 판별이 가능해진 것이다.
또 기존 모델에서는 기대할 수 없었던 ‘범죄자 그룹화’ 기능을 세계 최초로 구현해냈다. 범죄자 그룹화란 서로 다른 보이스피싱 사건에 가담한 범죄자의 음성을 연쇄 비교해 동일인임을 확인하고 발성·발음 특징 유사성에 따라 군집화하는 것을 뜻한다.
동일화자 및 군집화에 대한 정확도는 약 96.6% 수준으로 파악됐다. 이는 범죄자를 범죄자로 판별한 경우의 신뢰도 수준에 해당한다.
김철 행안부 통합데이터분석센터 센터장은 “새 분석모델을 통해 범인 특정이 빨라지면 수사의 신속성과 초동수사의 민첩성이 증대되리라고 생각한다”면서 “사기범의 음성데이터가 많이 쌓일수록 동일화자 및 군집화에 대한 정확도를 더 높일 수 있을 것”이라고 설명했다.
◆유관기관 확산 위한 교육 시행…해외 수출 추진
국과수는 이 모델을 2월말부터 보이스피싱 사기범 음성감정에 활용한다.
우선 경찰이 보유 중인 약 1만 개의 보이스피싱범 음성파일을 분석해 범죄조직 그룹화와 이미 검거된 범죄자의 여죄 추궁 등에 사용할 예정이다.
오는 7월부터는 각급 수사관들이 수사 과정에서 활용할 수 있도록 경찰청과 협업해 실무 교육과정을 운영한다. 하반기 중에는 개발도상국 수사기관 교육에도 반영한다.
행안부는 국과수가 분석한 보이스피싱 사기범 음성을 금융감독원 홈페이지에 공개해 범죄 경각심 제고와 사전예방에 나선다.
우리나라의 최신 과학수사기법을 전수 받기를 희망하는 해외 국가로의 수출도 모색한다.
다만 턱없이 부족한 인력이 한계다. 전옥엽 국과수 디지털과 공업연구관은 “분석 의뢰부터 결과 도출까지는 빠르면 3주 내외가 걸린다”면서도 “데이터만 수천여건에 달하고 주변 녹음 상태 등에 영향을 받는 보이스피싱 녹취록의 전처리 과정을 단 2명이 하다보니 한계 상황이긴 하다”고 전했다.
이에 대해 한창섭 행안부 차관은 “새로 개발된 보이스피싱 음성분석모델은 데이터 분석을 통해 사회현안을 해결하는 디지털플랫폼정부의 구체적 성과물에 해당한다”며 “앞으로도 국민이 필요로 하는 분석과제를 발굴하고 분석 결과를 현장에 적극 활용해 나갈 수 있도록 지원하겠다”고 말했다.
댓글 0