2022년 MIT 테크놀로지리뷰가 선정한 ‘10대 혁신 기술’에는 ‘인공지능(AI)을 위한 합성 데이터’가 이름을 올렸다. AI가 학계와 산업계의 주요 테마로 거론돼 온 것은 하루 이틀 일이 아니지만, 올해 특별히 주목할 점은 AI 응용을 위한 핵심 기술로 ‘합성 데이터’가 꼽혔다는 점이다.
이 새로운 기술에 대한 시장의 높은 관심은 거대 자본의 이동을 통해서도 확인된다. 2021년 10월, 메타(구 페이스북)는 합성 데이터 생성 기업인 ‘AI 레버리(AI.Reverie)’를 조용히 인수한 뒤 그해 12월 이 회사를 메타사업부인 리얼리티 랩스와 통합했다. 메타버스 세계를 구현하는 데 합성 데이터를 활용하겠다는 의중을 암암리에 드러낸 것이다. 메타와 같은 시기인 2021년 10월, 북미의 최대 식료품 배달 업체인 인스타카트 역시 ‘캐퍼(Caper)’라는 합성 데이터 생성 기업을 품었다. 이처럼 두 IT 공룡이 잇달아 2017년, 2016년께 설립된 신생 스타트업을 인수했다는 것은 업종을 불문하고 고급 머신러닝 알고리즘을 훈련하는 데 있어 합성 데이터의 중요성에 주목하고 있음을 보여준다.
국내에서도 이 같은 변화를 간파하고 재빨리 이 시장에 뛰어든 기업이 생겨나고 있다. 2019년 삼성 출신의 엔지니어들이 의기투합해 창업한 합성 데이터 전문 기업 ‘씨앤에이아이(CN.AI)’가 대표적이다. 합성 데이터가 무엇이고, 왜 주목받고 있는지를 다룬 DBR 2022년 5월 2호(345호) 기사를 요약 소개한다.
○ 데이터에 굶주린 기업들의 새로운 돌파구
진짜를 모방한 ‘가짜 데이터’가 진짜 데이터의 대체재로 부상하고 있는 흐름은 AI가 진화할수록 AI 훈련에 필요한 데이터양이 천문학적으로 불어나고 있는 현상과 관련이 깊다. 똑똑한 자식을 키우기 위해 교육비가 늘어나는 것과 비슷한 이치다. 데이터의 양이 AI의 학습 속도를 따라가지 못하게 되면서 데이터에 굶주린 빅테크들이 돌파구를 찾기 시작했고, 이들이 눈을 돌린 곳이 바로 합성 데이터다.
합성 데이터란 실제로 촬영한 이미지 등 현실의 데이터가 아니라 AI 학습용으로 만들어낸 가상 데이터를 가리킨다. 통계적 방법이나 기계학습 방법을 써서 생성한 데이터라고 이해하면 된다. 정교한 머신러닝 모델을 만들기 위해서는 데이터가 많으면 많을수록, 다양하면 다양할수록 좋다. 예를 들어, 의료 분야에서 위암을 진단하는 AI엔진이 전문가보다 뛰어난 약 95%의 정확도를 보이기 위해서는 20만 개의 위암 환자 내시경 이미지가 필요하다. 그런데 환자의 개인정보 민감성 등의 이유로 이렇게 많은 수의 데이터를 확보하기 어려울뿐더러 어렵게 구한다 하더라도 어디가 위암 부위고, 어디가 정상 부위인지 등을 사람이 일일이 표시하는 라벨링 작업을 해줘야 한다. 또한 암이 잘 발생하지 않는 예외적인 구간에서 병변이 발견되는 등 희소성이 높은 환자 케이스의 경우 데이터가 더 부족할 수밖에 없다.
이렇게 수천 혹은 수만 개의 데이터를 확보하는 데는 엄청난 인건비와 시간이 든다. 그런데 인공적으로 데이터를 생성할 경우 이 비용과 시간을 크게 절감하면서도 편향되지 않은 다양한 케이스를 만들어낼 수 있다. AI 레버리의 공동 설립자인 폴 월보스키는 인간이 수작업으로 하는 라벨링 서비스를 이용하면 데이터 한 개당 약 6달러가 들지만 인공적으로 데이터를 생성하면 6센트까지 비용을 낮출 수 있다고 주장했다.
○ 의료·자율주행·금융 혁신의 ‘게임 체인저’ 될까
이미 합성 데이터는 여러 산업 분야에서 활발히 도입되기 시작했다. 특히 자율주행 자동차의 가상 도로 학습에 광범위하게 이용되고 있고, 테슬라도 자율주행에 합성 데이터를 이용한 사례를 ‘테슬라 AI 데이’에 공개했다. 이런 업체들은 대개 시뮬레이터를 만들어 가상환경에서 자율주행 차가 사람을 치는 사고 상황, 눈이나 비가 내리는 위험한 상황 등 현실에서 얻기 힘든 케이스의 이미지들을 생성한다. 원래는 자율주행차 몇 십 대에 카메라를 달고 달리게 해야 얻을 수 있는 데이터를 시뮬레이터에서 전부 뽑아내는 것이다.
마찬가지로 금융 분야에서도 합성 데이터가 사기 감지 AI의 정확도를 높이는 데 이용될 수 있다. 갈수록 사기 수법이 교묘해지고 다양해지다 보니 실제 거래 이력만 학습해서는 이상 신호를 감지하는 게 점점 더 어려워지고 있다. 더욱이 이런 예외적인 이상 거래가 매일 수시로 발생하는 게 아니고 대부분 방어막에 걸려 승인이 거절되기 때문에 데이터가 충분하지도 않다. 간혹 방어막이 뚫리면서 놓칠 수 있는 한두 가지 희귀 케이스나 고도의 사기 수법까지 막으려면 여러 가지 발생 가능한 시나리오를 섞어서 합성 데이터를 만들어 두는 게 효과적일 수 있다.
물론 아무리 정교하게 만들어도 가짜 데이터를 학습한 AI 모델을 신뢰하는 게 쉽지 않을 수 있다. 하지만 합성 데이터 업체들은 이런 가상의 데이터가 수학적으로나 통계적으로 실제 데이터를 반영하고 AI 모델 훈련에 최적화된 형태로 만들어졌다고 강조한다. 또한 최종 AI 모델의 정확도를 검증할 때는 진짜 데이터를 활용하기 때문에 가짜 데이터를 섞었다고 해서 완성된 모델까지 가짜인 것은 아니라고 덧붙인다. 이원섭 씨앤에이아이 대표는 “향후 합성 데이터의 사용 비율이 실제 데이터를 능가하게 될 것이라는 전망도 나온다”며 “향후 산업별 비즈니스 혁신을 앞당길 ‘게임 체인저’로서 합성 데이터의 잠재력에 관심을 기울일 필요가 있다”고 말했다.
댓글 0