史蒂芬•金、村上春树、杰迪•史密斯、迈克尔•福伦…….
这是Facebook母公司Meta开发的生成型人工智能(AI)基础的大规模语言模型(LLM)“LLAMA”学习中使用的作品的一部分作家。美国时事媒体《The Atlantic》19日(当地时间)报道说,这些作家的作品被擅自使用。此前,美国部分作家以自己的书未经同意就用于ChatGPT训练为由,以OpenAI为对象提起了诉讼,结果发现擅自使用了有庞大著作权的资料。
《The Atlantic》获得用于LLAMA学习的数据集“Books 3”进行分析的结果显示,包含了最近20年间出版的超过17万册书。美国出版社企鹅兰登书屋书籍3万册、英国出版社哈珀科林斯和麦克米伦书籍各1.4万册和7000册、英国牛津大学出版部书籍1800册等。三分之一是虚构作品,三分之二是非虚构作品。《The Atlantic》指出:“AI承诺的未来是用偷来的话(stolen words)写成的。
“Books 3”还用于OpenAI的ChatGPT和今年3月彭博社推出的生成型AI“彭博GPT”的学习训练。《The Atlantic》解释说,在AI社区备受欢迎的“Books 3”在今年6月提出对OpenAI的著作权集体诉讼后,很难访问。大科技企业对违反著作权的诉讼表示:“生成型AI不是复制受训书籍,而是生产新作品。”
《The Atlantic》指出:“如果在限制成品的复制和发行方面得不到保障,几年内将不会有人再写小说或研究历史”,“虽然‘当今时代的代表技术因大量盗窃而启动’听起来会让人感到不舒服,但其实这话说得有道理。”
李基旭记者 71wook@donga.com