史蒂芬•金、村上春樹、傑迪•史密斯、邁克爾•福倫…….
這是Facebook母公司Meta開發的生成型人工智能(AI)基礎的大規模語言模型(LLM)“LLAMA”學習中使用的作品的壹部分作家。美國時事媒體《The Atlantic》19日(當地時間)報道說,這些作家的作品被擅自使用。此前,美國部分作家以自己的書未經同意就用於ChatGPT訓練為由,以OpenAI為對象提起了訴訟,結果發現擅自使用了有龐大著作權的資料。
《The Atlantic》獲得用於LLAMA學習的數據集“Books 3”進行分析的結果顯示,包含了最近20年間出版的超過17萬冊書。美國出版社企鵝蘭登書屋書籍3萬冊、英國出版社哈珀科林斯和麥克米倫書籍各1.4萬冊和7000冊、英國牛津大學出版部書籍1800冊等。三分之壹是虛構作品,三分之二是非虛構作品。《The Atlantic》指出:“AI承諾的未來是用偷來的話(stolen words)寫成的。
“Books 3”還用於OpenAI的ChatGPT和今年3月彭博社推出的生成型AI“彭博GPT”的學習訓練。《The Atlantic》解釋說,在AI社區備受歡迎的“Books 3”在今年6月提出對OpenAI的著作權集體訴訟後,很難訪問。大科技企業對違反著作權的訴訟表示:“生成型AI不是復制受訓書籍,而是生產新作品。”
《The Atlantic》指出:“如果在限制成品的復制和發行方面得不到保障,幾年內將不會有人再寫小說或研究歷史”,“雖然‘當今時代的代表技術因大量盜竊而啟動’聽起來會讓人感到不舒服,但其實這話說得有道理。”
李基旭記者 71wook@donga.com