首頁 > 新聞 > 智能 > 正文

Video-LLaMA: 一種用于視頻的指令調(diào)諧視聽語言模型

2023-06-06 16:05:18來源:ZAKER科技  


(資料圖)

品玩 6 月 6 日訊,研究人員提出一種多模態(tài)框架:Video-LLaMA,,使語言模型能夠理解視頻中的視聽內(nèi)容。通過跨模態(tài)訓(xùn)練,解決了視頻難以理解的挑戰(zhàn),包括捕捉時間變化和整合音視頻信號。研究表明 Video-LLaMA 能夠感知和理解視頻內(nèi)容,并生成基于視聽信息的有意義回答。該研究為開發(fā)音視頻 AI 助手提供了潛在的原型。已提供代碼、預(yù)訓(xùn)練模型和演示。

論文鏈接:https://huggingface.co/papers/2306.00958
關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀