大模型實時打《街霸》捉對PKGPT-4居然不敵3.5

由思娟分享時間：2024-04-01 20:07:47 瀏覽：0

讓大模型直接操縱格斗游戲《街霸》里的角色，捉對PK，誰更能打？

GitHub上一種你沒有見過的船新Benchmark火了。

與llmsys大模型競技場中，兩個大模型分別輸出答案，再由人類評分不同——街霸Bench引入了兩個AI之間的交互，且由游戲引擎中確定的規(guī)則評判勝負。

這種新玩法吸引了不少網(wǎng)友來圍觀。

由于項目是在Mistral舉辦的黑客馬拉松活動上開發(fā)，所以開發(fā)者只使用OpenAI和Mistral系列模型進行了測試。

排名結果也很出人意料。

經(jīng)過342場對戰(zhàn)后，根據(jù)棋類、電競常用的ELO算法得出的排行榜如下：

最新版gpt-3.5-turbo成績斷崖式領先，Mistral小杯排第二。更小的模型超過了更大的如GPT-4和Mistral中杯大杯。

開發(fā)者認為，這種新型基準測試評估的是大模型理解環(huán)境并根據(jù)特定情況采取行動的能力。

與傳統(tǒng)的強化學習也有所不同，強化學習模型相當于根據(jù)獎勵函數(shù)“盲目地”采取不同行動，但大模型完全了解自身處境并有目的的采取行動。

考驗AI的動態(tài)決策力

AI想在格斗游戲里稱王，需要哪些硬實力呢？開發(fā)者給出幾個標準:

反應要快：格斗游戲講究實時操作，猶豫就是敗北

腦子要靈：高手應該預判對手幾十步，未雨綢繆

思路要野：常規(guī)套路人人會，出奇制勝才是制勝法寶

適者生存：從失敗中吸取教訓并調整策略

久經(jīng)考驗：一局定勝負不說明問題，真正的高手能保持穩(wěn)定的勝率

具體玩法如下：

每個大模型控制一個游戲角色，程序向大模型發(fā)送屏幕畫面的文本描述，大模型根據(jù)雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等信息做出最優(yōu)決策。

第一個挑戰(zhàn)是定位人物在場景中的位置，通過檢測像素顏色來判斷。

由于目前大模型數(shù)學能力還都不太行，直接發(fā)送坐標值效果不好，最終選擇了將位置信息改寫成自然語言描述。

所以對于AI來說，實際上他們在玩的是一種奇怪的文字冒險游戲。

再把大模型生成的動作招式映射成按鍵組合，就能發(fā)送給游戲模擬器執(zhí)行了。

在試驗中發(fā)現(xiàn)，大模型可以學會復雜的行為，比如僅在對手靠近時才攻擊，可能的情況下使用特殊招式，以及通過跳躍來拉開距離。

從結果上可以看出，與其他測試方法不同，在這個規(guī)則下似乎更大的模型表現(xiàn)越差。

開發(fā)者對此解釋到：

目標是評估大模型的實時決策能力，規(guī)則上允許AI提前生成3-5個動作，更大的模型能提前生成更多的動作，但也需要更長的時間。

在推理上的延遲差距是有意保留的，但后續(xù)或許會加入其他選項。

后續(xù)也有用戶提交了流行開源模型的對戰(zhàn)結果，在7B及以下量級的戰(zhàn)斗中，還是7B模型排名更靠前。

從這個角度看，這種新型基準測試為評估大模型的實用性提供了新思路。

現(xiàn)實世界的應用往往比聊天機器人復雜得多，需要模型具備快速理解、動態(tài)規(guī)劃的本領。

正如開發(fā)者所說，想要贏，要在速度和精度之間做好權衡。

GitHub項目：https://github.com/OpenGenerativeAI/llm-colosseum

參考鏈接：[1]https://x.com/nicolasoulianov/status/1772291483325878709[2]https://x.com/justinlin610/status/1774117947235324087

本文轉載于快科技，文中觀點僅代表作者個人看法，本站只做信息存儲

本站部分文章來自網(wǎng)絡或用戶投稿。涉及到的言論觀點不代表本站立場。閱讀前請查看【免責聲明】發(fā)布者：思娟，如若本篇文章侵犯了原著者的合法權益，可聯(lián)系我們進行處理。本文鏈接：http://www.gdyuanyu.cn/tougao/127739.html

上一篇：中國智能音箱銷量暴跌超40%創(chuàng)新低揭秘三大原因

下一篇：小米SU7太火爆各版本交付時間一覽：雷軍曾稱怕賣太火被大家罵慘

91无码高清视频在线播放|亚洲最大成人在线资源|日本黄色免费调教网站|亚洲春色一区二区三区|国产一级一区二区三区|成人免费做受电影无码

大模型實時打《街霸》捉對PKGPT-4居然不敵3.5

相關推薦文檔

精選圖文

熱門排序

推薦文章

熱門標簽

91无码高清视频在线播放|亚洲最大成人在线资源|日本黄色免费调教网站|亚洲春色一区二区三区|国产一级一区二区三区|成人免费 做受电影无码

大模型實時打《街霸》捉對PKGPT-4居然不敵3.5

相關推薦文檔

精選圖文

熱門排序

推薦文章

熱門標簽

91无码高清视频在线播放|亚洲最大成人在线资源|日本黄色免费调教网站|亚洲春色一区二区三区|国产一级一区二区三区|成人免费做受电影无码