필자는 축구를 사랑한다. 1998년 프랑스 월드컵을 기점으로 관심을 가진 이후, 아직도 새벽잠을 설쳐가며, 영국 프리미어리그의 아스날 경기를 시청한다. 오래된 타 축구팬들에 비교할 정도는 아니지만, 그래도 20년 가까이 이 아름다운 스포츠와 가까이 지내며 경기 흐름과 선수 기량, 그리고 전략적인 변화 등을 어느 정도 파악할 수 있다고 자부한다.
프리미어리그 팬으로 느낀 가장 큰 공격적인 변화는 기존 킥&러쉬(흔히 말하는 뻥축구)와 측면 날개를 활용하는 직선적인 돌파 위주 전술에서 탈피했다는 점이다. 현재 프리미어리그는 짧은 패스로 점유율을 늘리면서 압박을 피하는, 심지어 수비수와 골키퍼로부터 빌드 업을 시작하는 전략으로 변화했다. 이 같은 변화는 1996년 아스날에 최초로 외국인 감독 아르센 벵거 감독이 부임하고 난 이후부터 시작됐다. 그가 도입한 간결한 패싱플레이(이른바 벵거볼)는 완벽한 조직력을 바탕으로 쉴틈없이 빠르고 짧은 패스를 이어가는, 이른바 '아름다운 축구'를 표방한다. 실제로 벵거볼의 첫 번째 황금기라 할 수 있는 프리미어리그 03-04 시즌에 아스날은 무패우승을 차지했다.
< 프리미어리그 무패우승을 차지한 아스날, 출처: 아스날 홈페이지 >
아스날의 패싱플레이는 현대 축구 전술의 핵심으로 자리잡았다. 많은 사람들이 알고 있는 '티키타카'(fútbol tiqui-taca: 스페인어로 탁구공이 왔다갔다 한다는 뜻) 역시 높은 볼점유율을 바탕으로 한다. 드리블을 최소화해 선수들이 패스 받을 위치로 끊임없이 이동, 많은 패스로 경기를 풀어나가는 방식이다. 기본적으로 많은 훈련을 통해 선수 개개인이 서로의 의도를 정확히 파악하고, 공이 없는 상황에서도 사인을 주고 받아야 완벽한 패싱플레이를 펼칠 수 있다.
최근 가정에서 음성인식 스피커를 비교적 쉽게 찾아볼 수 있다. 필자도 아마존 에코 스팟을 사용하고 있는데(아직 국내 정식 서비스를 시작하지 않았다), 상당히 편리하다. 이제는 필자에게 농담까지 할 정도다. 하지만, '편리'한 것와 '유용'한 것에는 큰 차이가 있다고 생각한다. 현재 상용화된 음성인식 스피커들은 사용자가 명령을 전달해야만 기능을 수행한다. 즉, 음성인식 스피커가 사용자에게 먼저 유용한 기능을 전달하지는 못한다. 아직 사용자와 음서인식 스피커간 패싱플레이는 완벽하지 못한 셈이다.
시중에서 판매되는 인공지능 스피커는 미리 'Rule'로 프로그래밍된 말을 인식하고, 그에 맞도록 답변한다. 사용자의 말을 이해하는 것처럼 포장한 셈이다. 때문에 일부 사용자는 혼란스러워 한다. 예를 들어, "방탄소년단 노래 틀어줘"라고 명령하면, 방탄소년단이라는 하나의 키워드를 인식해 연동된 음원 사이트에서 음원을 들려주는 것 밖에는 역할이 없다. "친구한테 메세지 보내줘" 등도 같은 원리다. 글쎄. 음성인식 스피커에 머신러닝이 적용되어야 비로소 '인공지능'이라는 말을 붙일 수 있지 않을까.
< 인공지능 스피커 비교표, 출처: 동아닷컴 >
사실 음성인식은 최근 기술이라 할 수 없다. 음성인식 기술은 1971년부터 시작된 미국 국방부 산하 국방첨단연구사업국(DARPA)의 음성이해연구 프로그램을 통해 비약적으로 발전했다. 고립단어(Isolated word)를 인식하는데 국한되었던 음성인식 기술은 1980년대부터 연결단어(Connected word)를 처리하기 시작했으며, 인식할 수 있는 단어도 1만개 수준으로 크게 늘어났다.
음성인식 프로세스에 대해 알아보기 위해 사내 딥러닝팀 강성준 엔지니어의 도움을 받았다. 음성인식 소프트웨어 동작과정을 간략히 살펴보면 다음과 같다. 실제 음성을 포함한 소리 정보를 디지털 데이터로 녹음하면, 하기 그림처럼 시간 축에 대한 진폭 값으로 변환 된다.
< 음성데이터 녹음 자료, 출처: CLOUDINARY BLOG >
이 같은 형태를 통상적으로 'Waveform'이라 부르는데, Waveform은 처리해야 하는 데이터 양이 많아 일반적인 데이터 정보를 압축해 특징점들만 남기는 방식으로 활용한다. 대부분 음성 데이터를 일정 시간 단위로 겹치게 자른 후, 아래의 예시처럼 표현되는 '시간축-주파수축'으로 이루어진 Spectrogram 형태의 데이터로 변환한다.
< '시간축-주파수축'으로 이루어진 Spectrogram 형태의 데이터, 출처: 위키피디아 >
즉, 음성을 축소된 디지털 데이터로 변환하는 것이다. 이후 해당 데이터를 어떤 텍스트로 변환되어야 하는지 판별하는데, 이 때 딥러닝 기반 머신러닝 기술을 많이 활용되는 것이 최근 추세다.
딥러닝은 '입력 데이터'와 '데이터를 입력할 때 함께 주어진 정답'의 차이를 비교하고, 그 결과에 따라 인공 신경망 내 변수들의 값을 조금씩 변경하며 신경망을 학습 시킨다. 이후 새로운 데이터를 입력해 출력 값을 예측 값으로 사용하는 방법이다. 세부적으로 'Convolution' 연산을 활용해 'Convolution Filter'값을 학습시키는 'CNN(Convolutional Neural Network)', 연속된 데이터간 상관관계가 있을 때 앞서 처리한 값을 다음 데이터를 처리 시 같이 활용하는 'RNN(Recurrent Neural Network)'등이 있다. 음성인식의 마지막 단계에서는 머신 러닝 모델에서 출력된 글자들을 일종의 통계적 단어장/숙어장인 '언어모델(Language Model)'과 대조해 후처리를 마친 후, 음성 신호로부터 예측된 최종 문자열을 전달한다.
음성인식 스피커에서 사용하는 이러한 기능은 스마트폰 비서 기능과 별반 차이 없다. 다만, 음성인식을 구현하는 위한 가장 핵심적인 요소로 꼽히는 '입출력 장치' 때문에 스피커는 데이터 수집면에서 스마트폰이나 TV와 같은 다른 기기보다 효율적이다. 정보통신정책 연구원의 '음성인식 AI 비서 시장의 현황과 시사점'에 따르면 "애플의 'Siri'나 구글의 'OK Google' 기능은 활성화 되어 있을 때만 음성 데이터를 녹음하고 처리할 수 있다. 반면, 스피커는 Mute 기능을 사용 시를 제외하고는 상시적으로 음성 데이터를 녹음하고 클라우드 서버에 저장할 수 있어, 음성인식 시스템 개선에 필요한 중요 자원을 빠른 속도로 수집한다"라고 설명한다.
소리라는 축구공을 주고 받길 기대한다
< 아마존 에코 기능별 사용 통계표, 출처: 리코드넷 >
얼마 전, 기사를 통해 아마존 알렉사의 스킬이 2만 5,000건을 넘었다고 들었다. 그러나 여전히 음성인식을 이용해 뉴스 브리핑을 듣거나, 피자를 주문하고, 은행잔고를 확인하는 등 사용자에게 능동적으로 다가가는 비서 역할은 못한다. 음성인식 스피커가 인공지능 스피커로서 통용되기 위해서는 사용자의 감정을 이해하고, 자동으로 단말을 제어해주는 등 능동적인 기능이 부수적으로 활용되어야 한다. 다만, 능동적인 인공지능 스피커도 곧 우리 곁에 등장할 것으로 예상한다.
최근 음성인식 기술은 예상을 뛰어넘는 속도로 빠르게 발전하고 있다. 음성, 소리를 축구공으로 비교한다면, 조만간 사용자가 원하는 위치로 정확하게 패스하는 쌍방향 소통의 스피커와 티키타카를 할 수 있지 않을까.
이호진, 스켈터랩스 마케팅 매니저
조원규 전 구글코리아 R&D총괄 사장을 주축으로 구글, 삼성, 카이스트 AI 랩 출신들로 구성된 인공지능 기술 기업 스켈터랩스에서 마케팅을 담당하고 있다
*본 칼럼은 IT동아의 편집 방향과 다를 수 있습니다.
글 / 스켈터랩스 이호진 마케팅매니저
동아닷컴 IT전문 권명관 기자 tornadosn@donga.com