歡迎訪問漢海網(wǎng),帶你進(jìn)入知識(shí)的海洋！

清華電子系聯(lián)合火山語音開源全新的聽覺大語言模型——SALMONN

由 方應(yīng) 分享時(shí)間：2023-08-22 22:10:00 瀏覽：0

8月22日消息:SALMONN 是一個(gè)由清華大學(xué)電子工程系和字節(jié)跳動(dòng)合作開發(fā)的大型語言模型（LLM），能夠處理語音、音頻事件和音樂輸入。

相比于只能處理語音或音頻事件的模型，SALMONN 能夠感知和理解各種音頻輸入，并因此具備了多語言語音識(shí)別和翻譯以及音頻 - 語音推理等新興能力。可以說，SALMONN 為 LLM 提供了 "聽覺"，使其具備了認(rèn)知聽覺能力，這是通向聽覺啟發(fā)的人工通用智能的一步。

Github倉(cāng)庫(kù):https://github.com/bytedance/SALMONN/

Demo鏈接:https://bytedance.github.io/SALMONN/

該模型通過增加通用音頻編碼器和融合器來實(shí)現(xiàn)對(duì)音頻模態(tài)的直接感知，使得模型可以直接從物理世界獲取知識(shí)。

SALMONN 能夠勝任英語語音識(shí)別、語音翻譯、情感識(shí)別、音頻字幕生成等任務(wù)，并展現(xiàn)了多種在模型訓(xùn)練中沒有學(xué)習(xí)過的多語言和跨模態(tài)能力。研究團(tuán)隊(duì)將在近期開源 SALMONN v1.0模型及相關(guān)代碼，并持續(xù)更新模型，為建設(shè)開源的通用人工智能做出貢獻(xiàn)。

核心功能:

1. 處理語音、音頻事件和音樂輸入。

2. 實(shí)現(xiàn)多語言語音識(shí)別和翻譯。

3. 進(jìn)行音頻 - 語音推理。

4. 支持根據(jù)文本和語音命令進(jìn)行操作。

本文來源于站長(zhǎng)之家，如有侵權(quán)請(qǐng)聯(lián)系刪除

本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點(diǎn)不代表本站立場(chǎng)。閱讀前請(qǐng)查看【免責(zé)聲明】發(fā)布者：方應(yīng)，如若本篇文章侵犯了原著者的合法權(quán)益，可聯(lián)系我們進(jìn)行處理。本文鏈接：http://www.gdyuanyu.cn/tougao/95676.html

上一篇：今年全球最大規(guī)模 IPO 或?qū)⒄Q生，芯片巨頭 Arm 正式提交上市申請(qǐng)！

下一篇：真我GT5首發(fā)極客性能面板：驍龍8 Gen2 3.2GHz終于跑滿了