3萬億的開放數(shù)據(jù)集AI2 Dolma發(fā)布
8月22日 消息:即使有許多公開的數(shù)據(jù)集,也缺乏足夠的規(guī)模來訓練最先進的模型。艾倫人工智能研究所的 Dolma 數(shù)據(jù)集旨在實現(xiàn)這一目標,以便研究人員能夠在大規(guī)模上研究數(shù)據(jù)效應(yīng)。該數(shù)據(jù)集的發(fā)布不僅為研究人員提供了更高質(zhì)量和更大規(guī)模的數(shù)據(jù),還為人工智能的發(fā)展開辟了新的可能性。
AI2Dolma 是一個開放的預訓練數(shù)據(jù)集,包含3萬億個標記。它由 Allen AI 研究所創(chuàng)建,用于語言模型的預訓練。該數(shù)據(jù)集的目標是推動大規(guī)模自然語言處理系統(tǒng)的研究,并提供一個透明和開放的平臺。
項目地址:https://huggingface.co/datasets/allenai/dolma
Dolma 數(shù)據(jù)集包含了來自各種來源的文本,如網(wǎng)絡(luò)內(nèi)容、學術(shù)出版物、代碼、書籍和百科全書資料。該數(shù)據(jù)集的設(shè)計原則包括開放性、代表性、規(guī)模和可重現(xiàn)性。
Dolma 的創(chuàng)建過程包括數(shù)據(jù)處理步驟,如語言識別、質(zhì)量過濾、去重復、風險緩解等。與閉源數(shù)據(jù)集相比,Dolma 采取了更多的透明度,提供了更多的信息和工具以便其他研究者進行研究和評估。Dolma 數(shù)據(jù)集已經(jīng)發(fā)布,并在 AI2ImpACT 許可下可在 HuggingFace Hub 上下載使用。
特點:
1. 數(shù)據(jù)規(guī)模龐大:AI2Dolma 是迄今為止最大的開放數(shù)據(jù)集,包含了來自多個來源的3萬億個標記。這使得它成為訓練大規(guī)模語言模型的理想選擇。
2. 開放性:AI2Dolma 的目標是以透明和開放的方式構(gòu)建語言模型。它的數(shù)據(jù)集和模型遵循 AI2ImpACT 許可證,可以供其他研究人員使用和研究,促進了整個研究社區(qū)的合作和發(fā)展。
3. 代表性:AI2Dolma 的數(shù)據(jù)集與其他語言模型數(shù)據(jù)集(無論是閉源還是開源)具有相似的來源和處理方式,確保了模型在廣泛領(lǐng)域的能力和行為與其他語言模型一致。
4. 可復現(xiàn)性:AI2Dolma 的數(shù)據(jù)處理工具和方法都是開放可用的,其他研究人員可以復現(xiàn)和使用這些工具來創(chuàng)建自己的數(shù)據(jù)集。這種可復現(xiàn)性有助于推動研究的進展和結(jié)果的驗證。
5. 風險控制:AI2Dolma 在數(shù)據(jù)處理過程中采取了一系列風險控制措施,包括個人信息的刪除、有害內(nèi)容的過濾等,以最大程度地降低數(shù)據(jù)使用可能帶來的風險。
6. 其他語言支持:雖然 AI2Dolma 的第一個版本僅包含英文數(shù)據(jù),但它的設(shè)計目標是支持多種語言。未來的版本可能會擴展到其他語言,從而滿足不同語言背景下的研究需求。
本文來源于站長之家,如有侵權(quán)請聯(lián)系刪除
本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點不代表本站立場。閱讀前請查看【免責聲明】發(fā)布者:方應(yīng),如若本篇文章侵犯了原著者的合法權(quán)益,可聯(lián)系我們進行處理。本文鏈接:http://www.gdyuanyu.cn/tougao/95686.html