3萬億的開放數(shù)據(jù)集AI2 Dolma發(fā)布

由 方應(yīng) 分享時間：2023-08-22 22:11:00 瀏覽：0

8月22日消息:即使有許多公開的數(shù)據(jù)集，也缺乏足夠的規(guī)模來訓練最先進的模型。艾倫人工智能研究所的 Dolma 數(shù)據(jù)集旨在實現(xiàn)這一目標，以便研究人員能夠在大規(guī)模上研究數(shù)據(jù)效應(yīng)。該數(shù)據(jù)集的發(fā)布不僅為研究人員提供了更高質(zhì)量和更大規(guī)模的數(shù)據(jù)，還為人工智能的發(fā)展開辟了新的可能性。

AI2Dolma 是一個開放的預訓練數(shù)據(jù)集，包含3萬億個標記。它由 Allen AI 研究所創(chuàng)建，用于語言模型的預訓練。該數(shù)據(jù)集的目標是推動大規(guī)模自然語言處理系統(tǒng)的研究，并提供一個透明和開放的平臺。

項目地址:https://huggingface.co/datasets/allenai/dolma

Dolma 數(shù)據(jù)集包含了來自各種來源的文本，如網(wǎng)絡(luò)內(nèi)容、學術(shù)出版物、代碼、書籍和百科全書資料。該數(shù)據(jù)集的設(shè)計原則包括開放性、代表性、規(guī)模和可重現(xiàn)性。

Dolma 的創(chuàng)建過程包括數(shù)據(jù)處理步驟，如語言識別、質(zhì)量過濾、去重復、風險緩解等。與閉源數(shù)據(jù)集相比，Dolma 采取了更多的透明度，提供了更多的信息和工具以便其他研究者進行研究和評估。Dolma 數(shù)據(jù)集已經(jīng)發(fā)布，并在 AI2ImpACT 許可下可在 HuggingFace Hub 上下載使用。

特點:

1. 數(shù)據(jù)規(guī)模龐大:AI2Dolma 是迄今為止最大的開放數(shù)據(jù)集，包含了來自多個來源的3萬億個標記。這使得它成為訓練大規(guī)模語言模型的理想選擇。

2. 開放性:AI2Dolma 的目標是以透明和開放的方式構(gòu)建語言模型。它的數(shù)據(jù)集和模型遵循 AI2ImpACT 許可證，可以供其他研究人員使用和研究，促進了整個研究社區(qū)的合作和發(fā)展。

3. 代表性:AI2Dolma 的數(shù)據(jù)集與其他語言模型數(shù)據(jù)集（無論是閉源還是開源）具有相似的來源和處理方式，確保了模型在廣泛領(lǐng)域的能力和行為與其他語言模型一致。

4. 可復現(xiàn)性:AI2Dolma 的數(shù)據(jù)處理工具和方法都是開放可用的，其他研究人員可以復現(xiàn)和使用這些工具來創(chuàng)建自己的數(shù)據(jù)集。這種可復現(xiàn)性有助于推動研究的進展和結(jié)果的驗證。

5. 風險控制:AI2Dolma 在數(shù)據(jù)處理過程中采取了一系列風險控制措施，包括個人信息的刪除、有害內(nèi)容的過濾等，以最大程度地降低數(shù)據(jù)使用可能帶來的風險。

6. 其他語言支持:雖然 AI2Dolma 的第一個版本僅包含英文數(shù)據(jù)，但它的設(shè)計目標是支持多種語言。未來的版本可能會擴展到其他語言，從而滿足不同語言背景下的研究需求。

本文來源于站長之家，如有侵權(quán)請聯(lián)系刪除

本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點不代表本站立場。閱讀前請查看【免責聲明】發(fā)布者：方應(yīng)，如若本篇文章侵犯了原著者的合法權(quán)益，可聯(lián)系我們進行處理。本文鏈接：http://www.gdyuanyu.cn/tougao/95686.html

上一篇：GPT-4沒有意識！但圖靈獎得主Bengio等88頁論文暗示「天網(wǎng)」遲早降臨

下一篇：抖音上線AI婚紗照特效濾鏡；超50萬網(wǎng)友圍觀AI懶羊羊演唱會 | AI一周熱門