“허락없이 데이터 쓰지마” AI 무단학습 막힌 빅테크들 울상

동아일보
입력 2024년 7월 9일 03시 00분

남혜정 기자

코멘트: 개

좋아요: 개

아마존-GPT봇 등 콘텐츠 긁어가
데이터 확보용 약관 개정 꼼수도
전 세계서 무단 수집 반발 커져
AI기업들 돈 내고 구매 늘어

“인공지능(AI) 기업들이 무단으로 웹사이트를 스크랩하지 못하도록 막겠다.”

미국 인터넷 보안 전문기업인 클라우드플레어는 최근 AI 기업들이 웹사이트의 콘텐츠를 무단으로 수집하지 못하도록 차단하는 기능을 내놨다. AI 기업들이 ‘AI 봇’을 활용해 타사의 웹사이트 콘텐츠를 무작위로 수집하는 것을 원치 않는 웹사이트 고객들이 많아지면서다.

빅테크 기업들의 ‘AI 학습 데이터 무단 수집’에 대한 반발이 전 세계적으로 커지고 있다. AI 기업들은 산업 전반 발전을 위해 학습에 데이터 사용을 자유롭게 허용해야 한다는 입장이지만 콘텐츠 업계에서는 허락 없이 무단으로 AI 학습에 사용하는 것은 ‘도둑질’이라고 비판하고 있다.

8일 정보기술(IT) 업계에 따르면 지난달 구글 대항마로 급부상한 AI 검색 스타트업 퍼플렉시티가 언론사들의 콘텐츠를 무단으로 사용해 논란이 일었다. 퍼플렉시티가 ‘페이지’라는 뉴스 요약 기능을 출시하면서 미국 언론매체 포브스의 독점 유료 콘텐츠를 출처를 밝히지 않고 요약한 것이다. 페이지는 검색 엔진으로 정보를 검색하고 이를 정리해서 기사나 블로그 게시물로 작성하는 과정까지를 한 번에 대신해 주는 기능이다. 미국 기술 전문지인 와이어드도 퍼플렉시티가 웹사이트 자동 수집을 막는 장치를 피해서 콘텐츠를 가져간 사실을 폭로했다. 앞서 오픈AI와 앤스로픽도 AI 모델 학습을 위해 웹사이트 자동수집을 차단하는 장치를 피해서 무차별적으로 콘텐츠를 끌어모으고 있다는 지적을 받았다.

실제로 지난 한 해 클라우드플레어가 집계한 ‘AI 봇’의 활동 현황을 보면 바이트댄스의 ‘바이트스파이더’, 아마존의 ‘아마존봇’, 앤스로픽의 ‘클로드봇’, 오픈AI의 ‘GPT봇’ 등이 인터넷상에서 가장 많이 콘텐츠를 긁어간 상위 4개로 꼽혔다.

빅테크 기업들은 최근 데이터 확보를 위해 약관을 개정하는 등 ‘꼼수’를 부리다가 거센 반발에 직면하기도 했다. 메타는 지난달 26일부터 유럽 사용자들에게 소셜네트워크서비스(SNS)에 공개된 정보를 활용해 AI 모델을 훈련하겠다고 발표했다가 강한 반발에 부딪혔다. 메타는 “유럽을 혁신과 AI 개발 경쟁에서 후퇴하게 만드는 것”이라고 주장했으나 반발은 줄어들지 않았다. 결국 메타는 AI 비서 서비스 ‘메타 AI’ 유럽 출시를 일시 중단했다. 유럽연합(EU)에 이어 브라질의 국가 데이터 보호당국(ANPD)도 메타에 SNS 등 공개된 개인 데이터를 활용해 AI 모델을 훈련시키는 것을 금지하고 나섰다.

무단 데이터 수집에 대한 반발이 커지자 AI 기업들이 점차 돈을 내고 데이터를 구매하는 사례가 늘고 있다. 미국의 ‘레딧’과 스톡미디어 플랫폼인 ‘셔터스톡’, ‘프리픽’, ‘디파인ai’ 등과 데이터 활용을 위한 계약을 체결하는 것이다. 글로벌 시장조사 기업 프리시던스리서치에 따르면 글로벌 AI 학습시장 규모는 지난해 24억 달러(약 3조4000억 원)에서 2032년 99억 달러(약 13조5000억 원)으로 4배 넘게 성장할 것으로 전망하고 있다. 새로운 데이터 확보에 갈증을 느낀 기업들은 소위 ‘데이터브로커’라고 불리는 데이터 공급업체를 통해 데이터를 확보하기도 한다.

IT 업계 관계자는 “콘텐츠를 기반으로 AI 모델을 만들고 수익을 만드는 만큼 대가 없이 데이터를 가져가는 것에 대한 반감이 국제적으로 커지고 있다”며 “한국 AI 기업들도 콘텐츠 저작권 문제에 미리 준비해야 할 것”이라고 말했다.

남혜정 기자 namduck2@donga.com