反盜版組織下線AI訓(xùn)練數(shù)據(jù)集 “Books3” Meta大模型也曾使用
8月22日 消息:近日,反盜版組織成功要求在線盜版書(shū)籍資源庫(kù) The Eye 下線 AI 訓(xùn)練數(shù)據(jù)集 "Books3" 的事件。"Books3" 數(shù)據(jù)集是一個(gè)大規(guī)模的盜版書(shū)籍資源,包含了37GB 的文本,用于訓(xùn)練人工智能模型。
Books3存儲(chǔ)庫(kù)包含196,640本書(shū),全部采用 plain.txt 格式,旨在為新興的 AI 項(xiàng)目提供與 ChatGPT 制造商 OpenAI 等項(xiàng)目競(jìng)爭(zhēng)的優(yōu)勢(shì)。
丹麥的反盜版組織 Rights Alliance 向 The Eye 發(fā)送了 DMCA 通知書(shū),要求其下線該數(shù)據(jù)集。該組織表示,Books3數(shù)據(jù)集包含其成員公司出版的約150本書(shū)。Rights Alliance 還聯(lián)系了 AI 模型托管網(wǎng)站 Hugging Face(該網(wǎng)站托管了數(shù)據(jù)卡和 Books3下載鏈接)以及 EleutherAI。兩個(gè)組織都將反盜版組織的目標(biāo)指向了“The Eye”。
非營(yíng)利研究組織 EleutherAI 最初發(fā)布 Books3作為 AI 訓(xùn)練集 The Pile 的一部分,The Pile 是一個(gè)800GB 的開(kāi)源訓(xùn)練數(shù)據(jù)塊,其中包含22個(gè)專門(mén)為訓(xùn)練語(yǔ)言模型而設(shè)計(jì)的其他數(shù)據(jù)集。
盡管 "Books3" 數(shù)據(jù)集已被下線,其發(fā)布者Shawn Presser(人工智能開(kāi)發(fā)人員和著名開(kāi)源人工智能支持者) 又在 Twitter 上發(fā)布了兩個(gè)新的下載鏈接。反盜版組織表示將繼續(xù)追蹤和打擊存有該數(shù)據(jù)集的網(wǎng)站。
盡管如此,大型科技公司在訓(xùn)練 AI 模型時(shí)使用版權(quán)數(shù)據(jù)的普遍性,但這些公司并不會(huì)公開(kāi)發(fā)布其訓(xùn)練數(shù)據(jù),這造成了與個(gè)人和非營(yíng)利項(xiàng)目的不公平競(jìng)爭(zhēng)。反盜版組織表示,AI 對(duì)版權(quán)產(chǎn)生了新的挑戰(zhàn),需要加強(qiáng)監(jiān)管和規(guī)范。
據(jù)了解,meta 等公司也使用了 "Books3" 數(shù)據(jù)集來(lái)訓(xùn)練 AI 模型。在描述原始 LlaMA 語(yǔ)言模型的白皮書(shū)中,meta 研究人員將 Books3描述為“用于訓(xùn)練大型語(yǔ)言模型的公開(kāi)數(shù)據(jù)集”。meta 引用了來(lái)自The Pile的這個(gè)數(shù)據(jù)集。另外,OpenAI 的 GPT-3模型使用 Books2訓(xùn)練集來(lái)訓(xùn)練其 AI。Books1和 Books2都占 GPT-3訓(xùn)練數(shù)據(jù)的近15%。
本文來(lái)源于站長(zhǎng)之家,如有侵權(quán)請(qǐng)聯(lián)系刪除
本站部分文章來(lái)自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點(diǎn)不代表本站立場(chǎng)。閱讀前請(qǐng)查看【免責(zé)聲明】發(fā)布者:方應(yīng),如若本篇文章侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。本文鏈接:http://www.gdyuanyu.cn/tougao/95701.html