Metaが開発する大規模言語モデル「LLaMA」などのトレーニングに使用された書籍データセット「Books3」は、知的財産権や著作権に対する侵害の疑いが指摘されています。そんなBooks3に含まれる書籍の内訳やBooks3が抱える問題点について、テクノロジー系ライターのアレックス・リーズナー氏が解説しています。
」が、オープンソースのトレーニング用データセット「The Pile」の一部としてリリースした書籍データセットです。Books3には19万1000冊以上もの電子書籍が含まれていますが、いずれの書籍も著者の許可を得て使用されたものではなく、リーズナー氏は「過去20年間に出回った海賊版電子書籍に基づいたデータセット」であると指摘しています。
それにもかかわらず、MetaやBloombergなどの大企業は自社製AIをトレーニングするデータセットとしてBooks3を使用しています。2023年8月にはデンマークの著作権侵害対策グループが、Books3をホストする大規模リポジトリのThe Eyeに対し、デジタルミレニアム著作権法侵害に基づくBooks3の削除要請を行いました。The Eyeは「すべてのデータセットはデジタルミレニアム著作権法に準拠しています」と主張していましたが、要請を受けてBooks3のデータセットを削除しました。 しかし、たとえホストしていたリポジトリからデータセットが削除されたとしても、インターネットアーカイブや代替のダウンロードリンクなども残っているため、Books3は依然としてインターネット上に残り続けています。また、すでにMetaのLLaMAなどではトレーニング用データセットとしてBooks3が使われているため、著作権で保護された書籍が著者の同意がないままAIのトレーニングに使用されたという問題も残っています。
South Africa Latest News, South Africa Headlines
Similar News:You can also read news stories similar to this one that we have collected from other news sources.
本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能フランスのAIスタートアップであるMistral AIが開発した大規模言語モデル「Mistral 7B」が、2023年9月に登場しました。モデルの重みがApache 2.0ライセンスでリリースされているので自由に調整してチャットAI開発に利用可能となっているほか、パラメーター数を73億個に抑えているにもかかわらず「Llama 2 13B」や「Llama 1 34B」などパラメーター数の大きいモデルよりもベンチマークで高いスコアを残しています。
Read more »