谷歌視覺語言模型可讓機器人更自主世界消息

2023-03-09 10:52:57來源：青島財經日報

(資料圖片)

近日，谷歌發布了其最新的語言模型PaLM-E，該模型具有5620億的參數量（ChatGPT為1750億參數），是谷歌歷史上參數量最大的模型。PaLM-E是迄今為止已知的最大視覺語言模型，它不僅可以理解圖像，還能理解、生成語言，執行各種復雜的機器人指令而無需重新訓練。它還展示出了強大的涌現能力（模型有不可預測的表現）。

據研究團隊表示，語言模型越大，在視覺語言和機器人任務訓練時就越能保持其語言能力，PaLM-E的5620億參數量剛好讓它保留住了幾乎所有語言能力。同時，PaLM-E的正遷移能力也得到了研究團隊的驗證，同時在多個任務領域訓練的PaLM-E，單任務能力相比"專精AI"顯著提高。

除了人機交互方面有著重大進展，研究團隊還發現了PaLM-E有著諸如多模態思維鏈推理和多圖像推理等新興能力，在OK-VQA視覺問答基準測試上達成了新的SOTA（最佳水平AI）。

此外，PaLM-E還具有對話任務方面的能力。團隊將其與已有的對話AI進行了比較，結果顯示，PaLM-E 的對話能力相對較強，不僅在生成自然流暢的回復方面表現出色，還可以進行常識性推理和邏輯性推理，具備更好的智能交互能力。

谷歌研究員表示，PaLM-E的發布意味著谷歌正邁向一種更加綜合和全面的AI。未來，這種能夠同時處理多種任務的通才AI將在工業自動化、智能家居、醫療輔助等領域發揮越來越重要的作用。綜合

關鍵詞：

責任編輯：hnmd003