清華電子系聯(lián)合火山語音開源全新的聽覺大語言模型——SALMONN
8月22日 消息:SALMONN 是一個(gè)由清華大學(xué)電子工程系和字節(jié)跳動(dòng)合作開發(fā)的大型語言模型(LLM),能夠處理語音、音頻事件和音樂輸入。
相比于只能處理語音或音頻事件的模型,SALMONN 能夠感知和理解各種音頻輸入,并因此具備了多語言語音識(shí)別和翻譯以及音頻 - 語音推理等新興能力。可以說,SALMONN 為 LLM 提供了 "聽覺",使其具備了認(rèn)知聽覺能力,這是通向聽覺啟發(fā)的人工通用智能的一步。
Github倉(cāng)庫(kù):https://github.com/bytedance/SALMONN/
Demo鏈接:https://bytedance.github.io/SALMONN/
該模型通過增加通用音頻編碼器和融合器來實(shí)現(xiàn)對(duì)音頻模態(tài)的直接感知,使得模型可以直接從物理世界獲取知識(shí)。
SALMONN 能夠勝任英語語音識(shí)別、語音翻譯、情感識(shí)別、音頻字幕生成等任務(wù),并展現(xiàn)了多種在模型訓(xùn)練中沒有學(xué)習(xí)過的多語言和跨模態(tài)能力。研究團(tuán)隊(duì)將在近期開源 SALMONN v1.0模型及相關(guān)代碼,并持續(xù)更新模型,為建設(shè)開源的通用人工智能做出貢獻(xiàn)。
核心功能:
1. 處理語音、音頻事件和音樂輸入。
2. 實(shí)現(xiàn)多語言語音識(shí)別和翻譯。
3. 進(jìn)行音頻 - 語音推理。
4. 支持根據(jù)文本和語音命令進(jìn)行操作。
本文來源于站長(zhǎng)之家,如有侵權(quán)請(qǐng)聯(lián)系刪除
本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點(diǎn)不代表本站立場(chǎng)。閱讀前請(qǐng)查看【免責(zé)聲明】發(fā)布者:方應(yīng),如若本篇文章侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。本文鏈接:http://www.gdyuanyu.cn/tougao/95676.html