MetaのAIのトレーニングに使われた書籍データセット「Books3」には村上春樹やスティーブン・キングの著作も含まれている

📆 9/29/2023 5:47 PM

South Africa News News

South Africa Latest News,South Africa Headlines

📆 9/29/2023 5:47 PM
📰 gigazine

⏱ Reading Time:
24 sec. here
2 min. at publisher
📊 Quality Score:
News: 13%
Publisher: 51%

Metaが開発する大規模言語モデル「LLaMA」などのトレーニングに使用された書籍データセット「Books3」は、知的財産権や著作権に対する侵害の疑いが指摘されています。そんなBooks3に含まれる書籍の内訳やBooks3が抱える問題点について、テクノロジー系ライターのアレックス・リーズナー氏が解説しています。

」が、オープンソースのトレーニング用データセット「The Pile」の一部としてリリースした書籍データセットです。Books3には19万1000冊以上もの電子書籍が含まれていますが、いずれの書籍も著者の許可を得て使用されたものではなく、リーズナー氏は「過去20年間に出回った海賊版電子書籍に基づいたデータセット」であると指摘しています。

それにもかかわらず、MetaやBloombergなどの大企業は自社製AIをトレーニングするデータセットとしてBooks3を使用しています。2023年8月にはデンマークの著作権侵害対策グループが、Books3をホストする大規模リポジトリのThe Eyeに対し、デジタルミレニアム著作権法侵害に基づくBooks3の削除要請を行いました。The Eyeは「すべてのデータセットはデジタルミレニアム著作権法に準拠しています」と主張していましたが、要請を受けてBooks3のデータセットを削除しました。しかし、たとえホストしていたリポジトリからデータセットが削除されたとしても、インターネットアーカイブや代替のダウンロードリンクなども残っているため、Books3は依然としてインターネット上に残り続けています。また、すでにMetaのLLaMAなどではトレーニング用データセットとしてBooks3が使われているため、著作権で保護された書籍が著者の同意がないままAIのトレーニングに使用されたという問題も残っています。

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

South Africa Latest News, South Africa Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

本当にオープンソースのライセンスで利用＆検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能フランスのAIスタートアップであるMistral AIが開発した大規模言語モデル「Mistral 7B」が、2023年9月に登場しました。モデルの重みがApache 2.0ライセンスでリリースされているので自由に調整してチャットAI開発に利用可能となっているほか、パラメーター数を73億個に抑えているにもかかわらず「Llama 2 13B」や「Llama 1 34B」などパラメーター数の大きいモデルよりもベンチマークで高いスコアを残しています。
Read more »