一次通過率73％，開源代碼大模型WizardCoder超越最新GPT-4以外所有閉/開源模型

由 方應(yīng) 分享時間：2023-08-28 15:51:00 瀏覽：0

這幾天，代碼大模型領(lǐng)域又熱鬧了起來!

先是 meta 開源代碼專用大模型Code Llama，且免費(fèi)商用。效果也非常好，Code Llama 在 Humaneval 和 MBPP 代碼數(shù)據(jù)集上的一次生成通過率（pass@1）輕松超越 GPT-3.5，其中「Unnatural」版本的 pass@1逼近了原始 GPT-4(OpenAI 在今年3月 GPT-4技術(shù)報告中的數(shù)據(jù))。

Code Llama 發(fā)布僅一天，來自Phind組織的研究人員用微調(diào)的 Code Llama-34B 在 Humaneval 評估中擊敗了 GPT-4。他們的兩個模型 Phind-CodeLlama-34B-v1以及 Phind-CodeLlama-34B-Python-v1在 Humaneval 分別實(shí)現(xiàn)67.6% 和69.5% 的 pass@1，顯然都超越了原始 GPT-4的67%。

不過，僅僅又過了一天，Phind 微調(diào)版 Code Llama 又迎來了一個強(qiáng)勁的對手。這次是 WizardLM 團(tuán)隊的編程專用大模型 WizardCoder。

該團(tuán)隊推出了基于 Code Llama 的最新版本模型 WizardCoder34B，它利用 Evol-Instruct 進(jìn)行微調(diào)而成。

結(jié)果顯示，它在 Humaneval 上的 pass@1達(dá)到了驚人的73.2%，超越了原始 GPT-4、ChatGPT-3.5以及 Claude2、Bard。此外，WizardCoder13B 和7B 版本也將很快到來。

GitHub 地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder
Huggingface:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0

此次具體版本是 WizardCoder-Python-34B-V1.0，下圖是與主流閉源和開源模型的 Humaneval pass@1比較。除了最新 API 的 GPT-4（該團(tuán)隊測試后得到的結(jié)果是82.0%），該模型超越了所有閉源和開源模型，包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。

因此，WizardCoder-Python-34B-V1.0成為了最新的 SOTA 開源代碼大模型。

WizardLM 團(tuán)隊還表示，WizardCoder-Python-34B-V1.0的性能百分之百是可以復(fù)現(xiàn)的。

想要體驗(yàn) WizardCoder-Python-34B-V1.0的小伙伴可以嘗試以下 demo。

demo 地址:https://47.103.63.15:50085/

有人表示，在試了 demo 后發(fā)現(xiàn)，提供準(zhǔn)確代碼之前似乎有 COT（思維鏈）在起作用，這非常棒。

還有人表示，WizardCoder-Python-34B-V1.0要比 GPT-4犯的錯更少。

不過運(yùn)行 WizardCoder-Python-34B-V1.0需要32GB 以上的 mac。

WizardLM 團(tuán)隊會帶來更多驚喜

WizardCoder 在成為代碼家族一員已經(jīng)不是新鮮事，但是 WizardLM 團(tuán)隊每次都會給大家?guī)聿灰粯拥捏@喜。

斯坦福發(fā)布的大語言模型排行榜 Alpacaeval 是一種基于 LLM 的全自動評估基準(zhǔn)，且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜單。在這其中，WizardLM13B V1.2依舊在第六位。

WizardLM 是由 Can Xu 等人在2023年4月提出的一個能夠根據(jù)復(fù)雜指令生成文本的大型語言模型。它使用了一個名為 Evol-Instruct 的算法來生成和改寫指令數(shù)據(jù)，從而提高了指令的復(fù)雜度和多樣性。 WizardLM 共有三個版本:7B、13B 和30B。

WizardLM 推出的指令微調(diào)代碼大模型 ——WizardCoder，更是打破了閉源模型的壟斷地位，在 Humaneval 和 Humaneval + 上優(yōu)于 Anthropic 的 Claude 和 Google 的 Bard。

更值得一提的是，WizardCoder 還大幅度地提升了開源模型的 SOTA 水平，創(chuàng)造了驚人的進(jìn)步，提高了22.3% 的性能，成為了開源領(lǐng)域的新晉「領(lǐng)頭羊」。

以下為 WizardLM 團(tuán)隊在 GitHub 上發(fā)布的諸多模型，這些模型是該團(tuán)隊不斷創(chuàng)新、改進(jìn)的足跡。

WizardLM 團(tuán)隊在 WizardLM 與 WizardCoder 之后，還在今年八月中旬公布了 WizardMath。該團(tuán)隊還發(fā)推文表示，自己一直在致力于解決各個學(xué)科復(fù)雜的問題。

那么未來 WizardLM 團(tuán)隊還會帶給我們怎樣的驚喜，讓我們拭目以待。

本文來源于機(jī)器之心公眾號，如有侵權(quán)請聯(lián)系刪除

本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點(diǎn)不代表本站立場。閱讀前請查看【免責(zé)聲明】發(fā)布者：方應(yīng)，如若本篇文章侵犯了原著者的合法權(quán)益，可聯(lián)系我們進(jìn)行處理。本文鏈接：http://www.gdyuanyu.cn/tougao/96372.html

上一篇：知識內(nèi)容井噴，為什么我們比以前更焦慮了?

下一篇：所謂人情世故只是踏入人間的門檻是什么歌