91无码高清视频在线播放|亚洲最大成人在线资源|日本黄色免费调教网站|亚洲春色一区二区三区|国产一级一区二区三区|成人免费 做受电影无码

歡迎訪問漢海網(wǎng),帶你進(jìn)入知識(shí)的海洋!

清華電子系聯(lián)合火山語音開源全新的聽覺大語言模型——SALMONN

方應(yīng) 分享 時(shí)間: 瀏覽:0

8月22日 消息:SALMONN 是一個(gè)由清華大學(xué)電子工程系和字節(jié)跳動(dòng)合作開發(fā)的大型語言模型(LLM),能夠處理語音、音頻事件和音樂輸入。

相比于只能處理語音或音頻事件的模型,SALMONN 能夠感知和理解各種音頻輸入,并因此具備了多語言語音識(shí)別和翻譯以及音頻 - 語音推理等新興能力。可以說,SALMONN 為 LLM 提供了 "聽覺",使其具備了認(rèn)知聽覺能力,這是通向聽覺啟發(fā)的人工通用智能的一步。

Github倉(cāng)庫(kù):https://github.com/bytedance/SALMONN/

Demo鏈接:https://bytedance.github.io/SALMONN/

該模型通過增加通用音頻編碼器和融合器來實(shí)現(xiàn)對(duì)音頻模態(tài)的直接感知,使得模型可以直接從物理世界獲取知識(shí)。

SALMONN 能夠勝任英語語音識(shí)別、語音翻譯、情感識(shí)別、音頻字幕生成等任務(wù),并展現(xiàn)了多種在模型訓(xùn)練中沒有學(xué)習(xí)過的多語言和跨模態(tài)能力。研究團(tuán)隊(duì)將在近期開源 SALMONN v1.0模型及相關(guān)代碼,并持續(xù)更新模型,為建設(shè)開源的通用人工智能做出貢獻(xiàn)。

核心功能:

1. 處理語音、音頻事件和音樂輸入。

2. 實(shí)現(xiàn)多語言語音識(shí)別和翻譯。

3. 進(jìn)行音頻 - 語音推理。

4. 支持根據(jù)文本和語音命令進(jìn)行操作。

本文來源于站長(zhǎng)之家,如有侵權(quán)請(qǐng)聯(lián)系刪除

本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點(diǎn)不代表本站立場(chǎng)。閱讀前請(qǐng)查看【免責(zé)聲明】發(fā)布者:方應(yīng),如若本篇文章侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。本文鏈接:http://www.gdyuanyu.cn/tougao/95676.html

221381