首頁 > 新聞 > 智能 > 正文

3 天近一萬 Star，無差體驗 GPT-4 識圖能力，MiniGPT-4 看圖聊天、還能草圖建網站|全球動態

2023-04-21 08:28:21來源：ZAKER科技

機器之心報道

(資料圖片僅供參考)

機器之心編輯部

GPT-4 已經發布一個多月了，但識圖功能還是體驗不了。來自阿卜杜拉國王科技大學的研究者推出了類似產品 —— MiniGPT-4，大家可以上手體驗了。

對人類來說，理解一張圖的信息，不過是一件微不足道的小事，人類幾乎不用思考，就能隨口說出圖片的含義。就像下圖，手機插入的充電器多少有點不合適。人類一眼就能看出問題所在，但對 AI 來說，難度還是非常大的。

GPT-4 的出現，開始讓這些問題變得簡單，它能很快的指出圖中問題所在：VGA 線充 iPhone。

其實 GPT-4 的魅力遠不及此，更炸場的是利用手繪草圖直接生成網站，在草稿紙上畫一個潦草的示意圖，拍張照片，然后發給 GPT-4，讓它按照示意圖寫網站代碼，嗖嗖的，GPT-4 就把網頁代碼寫出來了。

但遺憾的是，GPT-4 這一功能目前仍未向公眾開放，想要上手體驗也無從談起。不過，已經有人等不及了，來自阿卜杜拉國王科技大學（KAUST）的團隊上手開發了一個 GPT-4 的類似產品 —— MiniGPT-4。團隊研究人員包括朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny，他們均來自 KAUST 的 Vision-CAIR 課題組。

論文地址：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

論文主頁：https://minigpt-4.github.io/

代碼地址：https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4 展示了許多類似于 GPT-4 的能力，例如生成詳細的圖像描述并從手寫草稿創建網站。此外，作者還觀察到 MiniGPT-4 的其他新興能力，包括根據給定的圖像創作故事和詩歌，提供解決圖像中顯示的問題的解決方案，根據食品照片教用戶如何烹飪等。

MiniGPT-4 看圖說話不在話下

MiniGPT-4 效果到底如何呢？我們先從幾個示例來說明。此外，為了更好的體驗 MiniGPT-4，建議使用英文輸入進行測試。

首先考察一下 MiniGPT-4 對圖片的描述能力。對于左邊的圖，MiniGPT-4 給出的回答大致為「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶，遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界中嗎？MiniGPT-4 給出的回答是這張圖像在現實世界并不常見，并給出了原因。

接著，在來看看 MiniGPT-4 圖片問答能力。問：「這棵植物出現了什么問題？我該怎么辦？」MiniGPT-4 不但指出了問題所在，表示帶有棕色斑點的樹葉可能由真菌感染引起，并給出了治療步驟：幾個示例看下來，MiniGPT-4 看圖聊天的功能已經非常強大了。不僅如此，MiniGPT-4 還能從草圖創建網站。例如讓 MiniGPT-4 按照左邊的草稿圖繪制出網頁，收到指令后，MiniGPT-4 給出對應的 HTML 代碼，按照要求給出了相應網站：借助 MiniGPT-4，給圖片寫廣告語也變得非常簡單。要求 MiniGPT-4 給左邊的杯子寫廣告文案。MiniGPT-4 精準的指出了杯子上有嗜睡貓圖案，非常適合咖啡愛好者以及貓愛好者使用，還指出了杯子的材質等等：MiniGPT-4 還能對著一張圖片生成菜譜，變身廚房小能手：解釋廣為流傳的梗圖：根據圖片寫詩：此外，值得一提的是，MiniGPT-4 Demo 已經開放，在線可玩，大家可以親自體驗一番（建議使用英文測試）：

Demo 地址：https://0810e8582bcad31944.gradio.live/

項目一經發布，便引起網友廣泛關注。例如讓 MiniGPT-4 解釋一下圖中的物體：

下面還有更多網友的測試體驗：

方法簡介

作者認為 GPT-4 擁有先進的大型語言模型（LLM）是其具有先進的多模態生成能力的主要原因。為了研究這一現象，作者提出了 MiniGPT-4，它使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM（Vicuna）對齊。

MiniGPT-4 由一個預訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。MiniGPT-4 只需要訓練線性層，用來將視覺特征與 Vicuna 對齊。

MiniGPT-4 進行了兩個階段的訓練。第一個傳統的預訓練階段使用大約 5 百萬對齊的圖像文本對，在 4 個 A100 GPU 上使用 10 小時進行訓練。第一階段后，Vicuna 能夠理解圖像。但是 Vicuna 文字生成能力受到了很大的影響。

為了解決這個問題并提高可用性，研究者提出了一種新穎的方式，通過模型本身和 ChatGPT 一起創建高質量的圖像文本對。基于此，該研究創建了一個小而高質量的數據集（總共 3500 對）。

第二個微調階段使用對話模板在此數據集上進行訓練，以顯著提高其生成可靠性和整體可用性。這個階段具有高效的計算能力，只需要一張 A100GPU 大約 7 分鐘即可完成。

其他相關工作：

VisualGPT: https://github.com/Vision-CAIR/VisualGPT

ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner