[사설]공짜로 콘텐츠 긁어다 ‘돈벌이’용 AI 개발하는 빅테크들

동아일보
입력 2023년 4월 20일 00시 00분

AI 기술은 아직 완성되지 않았고, 전문가들조차 정확히 무슨 일이 벌어질지 모르는 상황이다. AI 기술의 약점과 한계를 명확히 드러내고 이용자들에게 주지시켜야 할 이유다. 게티이미지

챗GPT 등 생성형 인공지능(AI)을 개발하는 과정에서 빅테크들이 콘텐츠를 공짜로 가져다 쓰고 있어 논란이 커지고 있다. AI를 학습시키는 데 방대한 데이터를 활용하면서도 저작자들에 대한 정당한 보상 없이 무단으로 사용하고 있는 것이다. 콘텐츠 업계는 콘텐츠 제공 거부, 집단 소송 등으로 대응에 나섰다. 미국 월스트리트저널은 “AI의 콘텐츠 무단 사용은 산업화된 콘텐츠 도둑질”이라고 비판했다.

생성형 AI는 막대한 양의 데이터를 학습한 AI가 텍스트, 그림, 음악, 영상 등 새로운 콘텐츠를 스스로 만들어 내는 기술이다. 생성형 AI 개발을 위해선 학습에 필요한 데이터의 양과 질이 핵심으로 꼽힌다. 빅테크들은 정제된 언론 기사, 소셜미디어의 게시물, 학술 논문, 각종 창작물 등을 저작권자의 허락 없이 공짜로 마구 가져다 썼다. 오픈AI는 뉴욕타임스, 워싱턴포스트 등 주요 20개 언론사의 뉴스 콘텐츠를 챗GPT 학습에 활용했다. 네이버도 초거대 AI를 개발하면서 뉴스 기사 50년 치, 블로그 9년 치의 막대한 데이터를 이용했다.

빅테크들은 연구·교육 등을 위해 저작권자의 허락 없이도 저작물을 활용할 수 있다고 주장한다. 하지만 이미 비영리적 활용을 넘어 구독료, 광고 등 AI 서비스 유료화를 통해 상업적으로 막대한 수익을 거두고 있다. 저작권자들은 피땀 흘려 만든 콘텐츠를 도둑맞았다며 강하게 반발하고 있다. 18일 미 소셜미디어 레딧은 자사 사이트의 대화 데이터를 상업적으로 사용하려면 비용을 지불하라고 요구했다. 미 언론사, 프로그램 개발자, 예술가들의 저작권 침해 소송도 이어지고 있다.

콘텐츠의 무단 도용은 AI 산업 발전에도 심각한 악영향을 준다. 창작자들의 의지가 꺾여 콘텐츠의 질이 저하되면 AI가 수준 낮은 콘텐츠를 학습해 잘못된 결과물을 내놓을 수 있다. 편향된 정보, 거짓을 그럴듯하게 꾸며내는 환각 등의 부작용도 커진다. 미국, 유럽 등은 이 같은 문제를 인식해 AI 규제에 시동을 걸었다. 주요 7개국(G7)도 ‘책임 있는 AI’ 실현을 위한 논의를 시작하기로 했다. 한국도 AI의 데이터 활용은 촉진하되 저작권자의 권리는 보호하는 방향으로 법적 정비가 필요하다. AI가 인류의 미래를 바꿀 유용한 기술로 한 단계 진화하기 위해서는 반드시 거쳐야 할 과정이다.