美매체, 학습에 사용된 데이터 분석 “최근 20년간 출간된 책 17만권 포함 AI가 약속한 미래는 훔친 말로 쓰여”
스티븐 킹, 무라카미 하루키, 제이디 스미스, 마이클 폴런….
페이스북 모회사 메타가 개발하는 생성형 인공지능(AI)의 기반이 되는 대규모 언어모델(LLM) ‘라마(LLaMA)’ 학습에 쓰인 작품의 작가 중 일부다. 미국 시사매체 디애틀랜틱은 이 작가들의 작품이 무단 사용됐다고 19일(현지 시간) 보도했다. 앞서 미 일부 작가가 자신들의 책이 동의 없이 챗GPT 훈련에 사용됐다고 오픈AI를 상대로 소송을 냈는데 방대한 양의 저작권이 있는 자료가 무단 사용된 사실이 드러난 것이다.
디애틀랜틱이 라마 학습에 사용된 데이터세트 ‘북3(Books 3)’를 입수해 분석한 결과 최근 20년간 출간된 17만 권 넘는 책이 포함된 것으로 나타났다. 미 출판사 펭귄랜덤하우스 책 3만 권, 영국 출판사 하퍼콜린스와 맥밀런 책 각각 1만4000권과 7000권, 영국 옥스퍼드대 출판부 책 1800권 등이다. 3분의 1은 픽션이고, 3분의 2는 논픽션이었다. 디애틀랜틱은 “AI가 약속한 미래는 훔친 말들(stolen words)로 쓰여 있었다”고 지적했다.
디애틀랜틱은 “완성작의 복제와 배포를 규제하겠다는 보장 없이 몇 년 동안 소설을 쓰거나 역사를 연구할 사람은 없을 것”이라며 “오늘날 대표 기술이 대량 절도에 의해 작동하고 있다는 것은 불편하지만 적절한 말이다”라고 꼬집었다.
이기욱 기자 71wook@donga.com