スティーヴン・キング、村上春樹、ジェイディー・スミス、マイケル・ポーラン…。
フェイスブックの親会社・メタが開発する生成型人工知能(AI)の基盤となる大規模な言語モデル(LLM)「ラマ(LLaMA)」の学習に使われた作品の作家の一部だ。米メディア「ジ・アトランティック」は19日(現地時間)、これらの作家の作品が無断で使用されたと報じた。これに先立って、米国の一部の作家は自分たちの本が同意なしにチャットGPTのトレーニングに使われたと、オープンAIを相手に訴訟を起こしたが、膨大な量の著作権のある資料が無断で使用された事実が明らかになったのだ。
ジ・アトランティックは、ラマの学習に使われたデータセット「ブック3(Books 3)」を入手して分析した結果、最近20年間出版された17万冊を越える本が含まれていることが分かった。米出版社ペンギンランダムハウスの本が3万冊、英出版社ハーパーコリンズとマクミランの本がそれぞれ1万4000冊と7000冊、英オックスフォード大学出版部の本が1800冊などだ。3分の1はフィクションで、3分の2はノンフィクションだった。ジ・アトランティックは、「AIが約束した未来は、盗まれた言葉(stolen words)で書かれていた」と指摘した。
ブック3は、オープンAIのチャットGPTの学習と今年3月にブルームバーグ通信が発売した生成型AI「ブルームバーグGPT」の学習にも使われた。AIコミュニティで人気を集めていたブック3は、今年6月にオープンAIに対する著作権の集団訴訟が提起され、アクセスが難しくなったとジ・アトランティックは説明した。ビッグテック企業は、著作権違反の訴訟提起に対し、「生成型AIは、トレーニングを受けた本を複製するのではなく、新しい作品を生産している」と対抗している。
ジ・アトランティックは、「完成作の複製と配布を規制するという保障なしに、数年間小説を書いたり歴史を研究したりする人はいないだろう」とし、「今日の代表的な技術が大量窃盗によって動作しているというのは不便だが、適切な言葉だ」と批判した。
イ・ギウク記者 71wook@donga.com