3세대 진화 AI 음성인식 기술, 코로나19 확산에 조명

  • 동아닷컴
  • 입력 2020년 4월 13일 13시 58분


코멘트
신종 코로나바이러스 감염증(코로나19)확산으로 비대면 서비스인 인공지능 기반의 음성인식 기술이 조명 받고 있다.

단순한 명령 정도만 알아듣는 음성인식 가상비서로 시작했던 음성인식 기술은 심층 신경망을 포함한 기계학습 기술의 혁신적인 발전과 함께 대용량 분산 처리 기술이 적극적으로 도입되면서 음성인식 성능이 크게 향상되었다. 본격적인 음성인식 경제 시대가 도래 했다는 표현이 지나치지 않을 정도로 음성으로 대화가 가능한 모든 산업과 서비스에 음성인식 기술이 적용되고 있다.

음성인식 기술은 간단한 기계학습이나 시그널 분석을 활용한 1세대, 딥러닝(Deep Learning) 기술을 적용한 2세대를 지나 액티브 러닝(Active Learning)을 적용한 3세대로 발전하는 추세다.

기계가 사람의 말을 알아듣기 위해서는 음성인식 엔진의 성능이 중요하다. 효율 적인 기술 개발을 위해 관련 기업간 협업도 활발하게 이뤄지고 있다. 인공지능(AI)·데이터 과학 전문 기업 솔트룩스와 음성인식 AI솔루션 업체 아틀라스랩스의 업무제휴도 그 중 하나다.

솔트룩스는 지난해 8월 음성인식 솔루션을 자체 개발한 아틀라스랩스와 전략적 투자 및 사업 협력을 위한 양해각서를 체결하고 액티브 러닝이 적용된 ‘3세대 음성인식’ 기술에 관한 공동 연구를 진행해왔다. 아틀라스랩스는 전 세계적으로 가장 많이 쓰이는 음성인식 오픈 소스인 Kaldi를 기반으로 자체 음성인식 솔루션 ‘Zeroth Enterprise Edition(Zeroth EE)’를 개발했고, 국내 대기업/중소기업과의 프로젝트를 통해 해당 기술의 우수성을 검증 받았다.

솔트룩스와 아틀라스랩스가 공동 연구/개발한 음성인식 액티브 러닝 기술의 핵심은 어떤 데이터(오디오)를 먼저 레이블링(선별)해서 음성인식기를 학습하게 할 것인 지에 있다. 액티브 러닝 기술을 통해 전체 1/3 수준의 데이터로 학습할 수 있는 스몰데이터 러닝이 가능해 비용과 시간을 70% 이상 절감할 수 있고 음성인식 엔진의 음향모델을 최적화하는 것이 가능하다. 전문가들에 따르면 기존의 음성인식 엔진이 구축된 기업에서 음성인식기의 성능을 높이려면, 기업에서 실제 운영을 통해 약 일천 시간 분량의 실 데이터를 확보해야 한다. 설사 일천 시간 분량의 오디오 데이터를 확보하더라도 해당 오디오에 대한 전사 데이터를 만들기 위해서는 추가로 막대한 시간과 비용이 필요하다. 시간당 전사 비용을 10만 원씩만 책정해도 1억 원 이상이 필요한 구조이다. 이러한 이유로 음성인식 엔진을 도입한 많은 기업에서는 고객 응대 매뉴얼 변화 및 서비스 확장에 따른 음성인식기 성능 업그레이드가 필요함에도 섣불리 시도하지 못하는 상황이다.

솔트룩스 관계자는 “액티브 러닝 기술이 적용된 음성인식 엔진을 도입할 경우, 품질은 높아지고 음성인식 엔진 업그레이드 비용은 기존 대비 최대 1/5 수준까지 절감될 수 있을 것”이라며, “딥러닝 기반의 음성인식 기술을 지식그래프와 연동함으로써 3세대 인공지능 기술의 핵심인 앙상블 인공지능(뉴로 심볼릭 인공지능), 설명 가능한 인공지능의 상용화를 열게 됐다”라며 많은 기대감을 나타냈다.

솔트룩스 측은 인공지능 기반 고객상담과 질의응답 시스템 구현을 위한 연구개발을 지속해온 결과 금융 부문의 비대면 음성 상담 서비스 시스템 구축과 상용화에 세계적인 성공 사례를 확보했다며 국내 한 은행의 사례를 보면 고객 및 내부 직원으로부터 매월 10만여 건 이상의 신규 문의가 발생하는데 이를 인공지능 챗봇, 상담 어시스턴트로 처리해 연간 수십억 원을 절약한다고 전했다.

박해식 동아닷컴 기자 pistols@donga.com
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

오늘의 추천영상

지금 뜨는 뉴스