「ビッグテックのＡＩ学習に村上春樹などの作品を無断で使用」　米メディア報道

Posted August. 22, 2023 08:40,

Updated August. 22, 2023 08:40

「ビッグテックのＡＩ学習に村上春樹などの作品を無断で使用」　米メディア報道. August. 22, 2023 08:40. by イ・ギウク記者 71wook@donga.com. スティーヴン・キング、村上春樹、ジェイディー・スミス、マイケル・ポーラン…。フェイスブックの親会社・メタが開発する生成型人工知能（ＡＩ）の基盤となる大規模な言語モデル（ＬＬＭ）「ラマ（ＬＬａＭＡ）」の学習に使われた作品の作家の一部だ。米メディア「ジ・アトランティック」は１９日（現地時間）、これらの作家の作品が無断で使用されたと報じた。これに先立って、米国の一部の作家は自分たちの本が同意なしにチャットＧＰＴのトレーニングに使われたと、オープンＡＩを相手に訴訟を起こしたが、膨大な量の著作権のある資料が無断で使用された事実が明らかになったのだ。ジ・アトランティックは、ラマの学習に使われたデータセット「ブック３（Ｂｏｏｋｓ３）」を入手して分析した結果、最近２０年間出版された１７万冊を越える本が含まれていることが分かった。米出版社ペンギンランダムハウスの本が３万冊、英出版社ハーパーコリンズとマクミランの本がそれぞれ１万４０００冊と７０００冊、英オックスフォード大学出版部の本が１８００冊などだ。３分の１はフィクションで、３分の２はノンフィクションだった。ジ・アトランティックは、「ＡＩが約束した未来は、盗まれた言葉（stolen words）で書かれていた」と指摘した。ブック３は、オープンＡＩのチャットＧＰＴの学習と今年３月にブルームバーグ通信が発売した生成型ＡＩ「ブルームバーグＧＰＴ」の学習にも使われた。ＡＩコミュニティで人気を集めていたブック３は、今年６月にオープンＡＩに対する著作権の集団訴訟が提起され、アクセスが難しくなったとジ・アトランティックは説明した。ビッグテック企業は、著作権違反の訴訟提起に対し、「生成型ＡＩは、トレーニングを受けた本を複製するのではなく、新しい作品を生産している」と対抗している。ジ・アトランティックは、「完成作の複製と配布を規制するという保障なしに、数年間小説を書いたり歴史を研究したりする人はいないだろう」とし、「今日の代表的な技術が大量窃盗によって動作しているというのは不便だが、適切な言葉だ」と批判した。

한국어

スティーヴン・キング、村上春樹、ジェイディー・スミス、マイケル・ポーラン…。

フェイスブックの親会社・メタが開発する生成型人工知能（ＡＩ）の基盤となる大規模な言語モデル（ＬＬＭ）「ラマ（ＬＬａＭＡ）」の学習に使われた作品の作家の一部だ。米メディア「ジ・アトランティック」は１９日（現地時間）、これらの作家の作品が無断で使用されたと報じた。これに先立って、米国の一部の作家は自分たちの本が同意なしにチャットＧＰＴのトレーニングに使われたと、オープンＡＩを相手に訴訟を起こしたが、膨大な量の著作権のある資料が無断で使用された事実が明らかになったのだ。

ジ・アトランティックは、ラマの学習に使われたデータセット「ブック３（Ｂｏｏｋｓ３）」を入手して分析した結果、最近２０年間出版された１７万冊を越える本が含まれていることが分かった。米出版社ペンギンランダムハウスの本が３万冊、英出版社ハーパーコリンズとマクミランの本がそれぞれ１万４０００冊と７０００冊、英オックスフォード大学出版部の本が１８００冊などだ。３分の１はフィクションで、３分の２はノンフィクションだった。ジ・アトランティックは、「ＡＩが約束した未来は、盗まれた言葉（stolen words）で書かれていた」と指摘した。

ブック３は、オープンＡＩのチャットＧＰＴの学習と今年３月にブルームバーグ通信が発売した生成型ＡＩ「ブルームバーグＧＰＴ」の学習にも使われた。ＡＩコミュニティで人気を集めていたブック３は、今年６月にオープンＡＩに対する著作権の集団訴訟が提起され、アクセスが難しくなったとジ・アトランティックは説明した。ビッグテック企業は、著作権違反の訴訟提起に対し、「生成型ＡＩは、トレーニングを受けた本を複製するのではなく、新しい作品を生産している」と対抗している。

ジ・アトランティックは、「完成作の複製と配布を規制するという保障なしに、数年間小説を書いたり歴史を研究したりする人はいないだろう」とし、「今日の代表的な技術が大量窃盗によって動作しているというのは不便だが、適切な言葉だ」と批判した。

イ・ギウク記者 71wook@donga.com

Editions