首頁 > 新聞 > IT資訊 > 正文

谷歌視覺語言模型可讓機器人更自主 世界消息

2023-03-09 10:52:57來源:青島財經日報  


(資料圖片)

近日,谷歌發布了其最新的語言模型PaLM-E,該模型具有5620億的參數量(ChatGPT為1750億參數),是谷歌歷史上參數量最大的模型。PaLM-E是迄今為止已知的最大視覺語言模型,它不僅可以理解圖像,還能理解、生成語言,執行各種復雜的機器人指令而無需重新訓練。它還展示出了強大的涌現能力(模型有不可預測的表現)。

據研究團隊表示,語言模型越大,在視覺語言和機器人任務訓練時就越能保持其語言能力,PaLM-E的5620億參數量剛好讓它保留住了幾乎所有語言能力。同時,PaLM-E的正遷移能力也得到了研究團隊的驗證,同時在多個任務領域訓練的PaLM-E,單任務能力相比"專精AI"顯著提高。

除了人機交互方面有著重大進展,研究團隊還發現了PaLM-E有著諸如多模態思維鏈推理和多圖像推理等新興能力,在OK-VQA視覺問答基準測試上達成了新的SOTA(最佳水平AI)。

此外,PaLM-E還具有對話任務方面的能力。團隊將其與已有的對話AI進行了比較,結果顯示,PaLM-E 的對話能力相對較強,不僅在生成自然流暢的回復方面表現出色,還可以進行常識性推理和邏輯性推理,具備更好的智能交互能力。

谷歌研究員表示,PaLM-E的發布意味著谷歌正邁向一種更加綜合和全面的AI。未來,這種能夠同時處理多種任務的通才AI將在工業自動化、智能家居、醫療輔助等領域發揮越來越重要的作用。綜合

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀