3 天近一萬 Star,無差體驗 GPT-4 識圖能力,MiniGPT-4 看圖聊天、還能草圖建網站|全球動態
機器之心報道
(資料圖片僅供參考)
機器之心編輯部
GPT-4 已經發布一個多月了,但識圖功能還是體驗不了。來自阿卜杜拉國王科技大學的研究者推出了類似產品 —— MiniGPT-4,大家可以上手體驗了。
對人類來說,理解一張圖的信息,不過是一件微不足道的小事,人類幾乎不用思考,就能隨口說出圖片的含義。就像下圖,手機插入的充電器多少有點不合適。人類一眼就能看出問題所在,但對 AI 來說,難度還是非常大的。
GPT-4 的出現,開始讓這些問題變得簡單,它能很快的指出圖中問題所在:VGA 線充 iPhone。其實 GPT-4 的魅力遠不及此,更炸場的是利用手繪草圖直接生成網站,在草稿紙上畫一個潦草的示意圖,拍張照片,然后發給 GPT-4,讓它按照示意圖寫網站代碼,嗖嗖的,GPT-4 就把網頁代碼寫出來了。
但遺憾的是,GPT-4 這一功能目前仍未向公眾開放,想要上手體驗也無從談起。不過,已經有人等不及了,來自阿卜杜拉國王科技大學(KAUST)的團隊上手開發了一個 GPT-4 的類似產品 —— MiniGPT-4。團隊研究人員包括朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny,他們均來自 KAUST 的 Vision-CAIR 課題組。
論文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf論文主頁:https://minigpt-4.github.io/
代碼地址:https://github.com/Vision-CAIR/MiniGPT-4
MiniGPT-4 展示了許多類似于 GPT-4 的能力,例如生成詳細的圖像描述并從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教用戶如何烹飪等。
MiniGPT-4 看圖說話不在話下
MiniGPT-4 效果到底如何呢?我們先從幾個示例來說明。此外,為了更好的體驗 MiniGPT-4,建議使用英文輸入進行測試。
首先考察一下 MiniGPT-4 對圖片的描述能力。對于左邊的圖,MiniGPT-4 給出的回答大致為「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶,遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界中嗎?MiniGPT-4 給出的回答是這張圖像在現實世界并不常見,并給出了原因。
接著,在來看看 MiniGPT-4 圖片問答能力。問:「這棵植物出現了什么問題?我該怎么辦?」MiniGPT-4 不但指出了問題所在,表示帶有棕色斑點的樹葉可能由真菌感染引起,并給出了治療步驟:幾個示例看下來,MiniGPT-4 看圖聊天的功能已經非常強大了。不僅如此,MiniGPT-4 還能從草圖創建網站。例如讓 MiniGPT-4 按照左邊的草稿圖繪制出網頁,收到指令后,MiniGPT-4 給出對應的 HTML 代碼,按照要求給出了相應網站:借助 MiniGPT-4,給圖片寫廣告語也變得非常簡單。要求 MiniGPT-4 給左邊的杯子寫廣告文案。MiniGPT-4 精準的指出了杯子上有嗜睡貓圖案,非常適合咖啡愛好者以及貓愛好者使用,還指出了杯子的材質等等:MiniGPT-4 還能對著一張圖片生成菜譜,變身廚房小能手:解釋廣為流傳的梗圖:根據圖片寫詩:此外,值得一提的是,MiniGPT-4 Demo 已經開放,在線可玩,大家可以親自體驗一番(建議使用英文測試):Demo 地址:https://0810e8582bcad31944.gradio.live/
項目一經發布,便引起網友廣泛關注。例如讓 MiniGPT-4 解釋一下圖中的物體:
下面還有更多網友的測試體驗:方法簡介
作者認為 GPT-4 擁有先進的大型語言模型(LLM)是其具有先進的多模態生成能力的主要原因。為了研究這一現象,作者提出了 MiniGPT-4,它使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM(Vicuna)對齊。
MiniGPT-4 由一個預訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。MiniGPT-4 只需要訓練線性層,用來將視覺特征與 Vicuna 對齊。
MiniGPT-4 進行了兩個階段的訓練。第一個傳統的預訓練階段使用大約 5 百萬對齊的圖像文本對,在 4 個 A100 GPU 上使用 10 小時進行訓練。第一階段后,Vicuna 能夠理解圖像。但是 Vicuna 文字生成能力受到了很大的影響。為了解決這個問題并提高可用性,研究者提出了一種新穎的方式,通過模型本身和 ChatGPT 一起創建高質量的圖像文本對。基于此,該研究創建了一個小而高質量的數據集(總共 3500 對)。
第二個微調階段使用對話模板在此數據集上進行訓練,以顯著提高其生成可靠性和整體可用性。這個階段具有高效的計算能力,只需要一張 A100GPU 大約 7 分鐘即可完成。
其他相關工作:
VisualGPT: https://github.com/Vision-CAIR/VisualGPT
ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner
此外,項目中還使用了開源代碼庫包括 BLIP2、Lavis 和 Vicuna。
THE END
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
-
3 天近一萬 Star,無差體驗 GPT-4 識圖能力,MiniGPT-4 看圖聊天、還能草圖建網站|全球動態
機器之心報道機器之心編輯部GPT-4已經發布一個多月了,但識圖功能還是體驗不了。來自阿卜杜拉國王科技大學
2023-04-21 -
熱點!清潔工花三個月工資給孩子買 iPhone 14 Pro 店家:現在孩子怎么了
月薪三千,你會給家人買接近萬元的iPhone14Pro嗎?據無限金華報道,4月20日,上海一家手機專賣店里,來了一
2023-04-21 -
環球速讀:Moderna 與 IBM 合作將人工智能、量子計算于應用于 mRNA 疫苗研發中
品玩4月21日訊,據新浪財經報道,Moderna和IBM兩家公司周四宣布,正在合作使用人工智能和量子計算來推進mRN
2023-04-21 -
SpaceX “星艦”發射任務失敗 星艦未能與重型助推器分離|全球視訊
品玩4月20日訊,SpaceX的星艦于美國中部時間4月20日8:33左右成功點火發射升空。但隨后SpaceX宣布,星艦和推
2023-04-20 -
大小兩款折疊屏 + 平板,vivo 發布多款新品_新要聞
vivoXFlip鈦媒體App4月20日消息,vivo推出了新一代大折疊vivoXFold2和首款小折疊vivoXFlip以及旗艦平板電腦
2023-04-20
相關閱讀
-
3 天近一萬 Star,無差體驗 GPT-4 識圖能力,MiniGPT-4 看圖聊天、還能草圖建網站|全球動態
機器之心報道機器之心編輯部GPT-4已經發布一個多月了,但識圖功能還是體驗不了。來自阿卜杜拉國王科技大學
-
熱點!清潔工花三個月工資給孩子買 iPhone 14 Pro 店家:現在孩子怎么了
月薪三千,你會給家人買接近萬元的iPhone14Pro嗎?據無限金華報道,4月20日,上海一家手機專賣店里,來了一
-
環球速讀:Moderna 與 IBM 合作將人工智能、量子計算于應用于 mRNA 疫苗研發中
品玩4月21日訊,據新浪財經報道,Moderna和IBM兩家公司周四宣布,正在合作使用人工智能和量子計算來推進mRN
-
澳門賽女單16強出爐!國乒五席日本三人,王藝迪有望再戰伊藤美誠|天天通訊
澳門賽女單16強出爐!國乒五席日本三人,王藝迪有望再戰伊藤美誠,國乒,王藝迪,單曉娜,孫穎莎,奧運會,澳門賽
-
焦點要聞:報告關注中國數字經濟發展進入新階段 建言數字經濟企業高質量發展
中新網北京4月20日電(劉一 張素)近日發布的一份報告認為,從“東數西算”“數據二十條”等一系列工程和...
-
專精特新“小巨人”百強榜:企業平均發明專利181個,3年凈利復合增長率超60%!-每日熱文
來源|時代商學院作者|陳佳鑫編輯|孫一鳴專精特新“小巨人”企業通常在細分行業內市場份額領先,且研發投...
-
特斯拉利潤下滑股價暴跌近10% 市值蒸發3800億
馬斯克說還可能降價。鳳凰網科技訊北京時間4月21日消息,在發布了凈利潤下滑逾20%的第一季度財報后,特斯拉
-
世界滾動:2023年上海車展:理想汽車宣布進軍純電市場,發布純電解決方案
2023年上海車展:理想汽車宣布進軍純電市場,發布純電解決方案眾所周知理想汽車從成立以來,一直堅持增程式
-
古普塔:以軟件驅動,2030年日產電驅化車型占比80%-環球報道
古普塔:以軟件驅動,2030年日產電驅化車型占比80%“到2026年,日產汽車會在中國市場推出7款電驅化車型;到20
-
豐田將在巴西投資3.38億美元,生產新型混合動力汽車
豐田將在巴西投資3 38億美元,生產新型混合動力汽車蓋世汽車訊據外媒報道,日本汽車制造商豐田汽車公司在4
-
一圖解碼:金盛海洋滬市主板IPO 深耕海洋化工領域 業績呈波動_世界今頭條
近日,金盛海洋披露了招股書,計劃在上交所主板掛牌上市;東興證券為主承銷商。金盛海洋是一家綜合利用海水
-
環球熱推薦:特斯拉大跌近 10%,市值一夜蒸發 3835 億元!
美東時間4月20日,特斯拉(TSLA)報162 99美元,大跌9 75%,最新市值5165 7億美元。其市值一夜蒸發558億美
-
天天速讀:網傳“深圳取消二手房參考價”?部分中介 APP 目前僅顯示房源掛牌價
4月20日下午,有關深圳將取消二手房指導價的消息在網上流傳。為此,《每日經濟新聞》記者聯系了深圳多家銀
-
會議通知| 2023長沙國際工程機械展覽會(CICEE)土木工程綠色低碳高質量發展論壇
點擊藍字關注我們上海市土木工程學會END往期回顧資質獲獎盛會新刊視界關注我們點擊圖片,識別二維碼微信公
-
擁有三款折疊屏的我,如何看待 vivo X Fold2 “生產力”? 看點
這幾天專家又冒出來了一個神言論:專家稱折疊屏可能取代電腦,這個話題在微博上討論得火熱。一派胡言圖源:
-
重點聚焦!元旦吃什么傳統東西_元旦吃什么傳統食物
歡迎觀看本篇文章,小柴來為大家解答以上問題。元旦吃什么傳統東西,元旦吃什么傳統食物很多人還不知道,現
-
打印機拒絕訪問無法打印怎么處理_打印機拒絕訪問 全球視點
1、問題分析解決: 解決方法參考一: 以下內容來自微軟官方參考資料(電腦軟硬件應用網稍作修改整理
-
全球動態:最新!教育部公布21種本科新增專業
教育部日前公布2022年度普通高等學校本科專業備案和審批結果,并發布最新《普通高等學校本科專業目錄》。
-
當前頭條:vivo推出新一代折疊屏手機vivo X Fold2和首款小折疊vivo X Flip
證券時報e公司訊,4月20日,vivo推出了新一代大折疊手機vivoXFold2和首款小折疊vivoXFlip。其中,vivoXFold
-
紋理燙早上起來怎么打理 紋理燙一覺醒來_環球即時
1、先洗頭發,或者用半干的毛巾擦濕頭發。2、將頭發完全吹干后,再吹蓬松,單手拿吹風機,另一只手插頭發中
-
環球實時:lol沒有聲音怎么辦_有什么方法解決
歡迎觀看本篇文章,小升來為大家解答以上問題。lol沒有聲音怎么辦,有什么方法解決很多人還不知道,現在讓
-
環球資訊:IBMG聚焦丨談談超市品類管理與定價策略,如何科學合理地賺錢?
超市經營商品的定價策略至關重要,一方面有價格形象建設的需要,另一方面又會普遍遇到價格競爭問題。品類管
-
馬寨鎮王莊社區:組織開展防汛應急演習
汛期將至,為進一步提高王莊村防汛應急救援能力,增強廣大干部群眾的防汛抗災意識,提高救災能力,確保轄區
-
“雙智天花板” 問界M5智駕版震撼登場,全新HUAWEI ADS 2. 世界觀點
4月17日,AITO問界M5(參數|詢價)系列華為高階智能駕駛版(AITO問界M5智駕版)正式上市。華為常務董事、終端
-
Apple Card國內怎么申請
最近有關AppleCard引起不少小伙伴的關注,尤其是有在使用蘋果產品的用戶也在關心AppleCard最新的政策變化。
-
焦點精選!聯想控股(03396.HK):4月20日南向資金減持4.76萬股
4月20日北向資金減持4 76萬股聯想控股(03396 HK)。近5個交易日中,獲南向資金減持的有4天,累計凈減持70
-
每日觀察!美國加息對大宗商品是利好還是利空?
美國加息對大宗商品是利好還是利空,沒有一個絕對的答案,加息對大宗商品市場的影響比較復雜,不同的商品可
-
河北工業職業學院是公辦還是民辦_河北工業職業學院
1、看你學什么專業了,后者在河北省專科類院校排第二,工科類專業不錯。2、不過有些文科專業也不如政法,。
-
華為P60 Pro成專業“夜視望遠鏡”,長焦微距輕松實現全天候清晰拍攝 焦點熱議
如何將手機影像玩出精彩花樣?4月20日,華為官方發布《探索微小生命,見證萬物生長》長焦微距延時視頻,用
-
如何定義負責任的消費金融機構?
如何定義負責任的消費金融機構?,貸款,信貸,消費金融機構
精彩推薦
閱讀排行
精彩推送
- 什么?!南通男人更容易被騙?
- “渾水罩魚”哪家強?這場比賽讓...
- 快資訊:樊振東國乒搭檔官宣喜訊...
- 你滿意嗎?英記:本賽季至今英超...
- 自貢瀘州和重慶爭火鍋起源地 四...
- 全球快播:車展E快評 | 補足駕...
- 4·21南京見,密碼“1911”|全球聚看點
- 網上群眾工作新路徑如何走?這個...
- 全媒傳播新探索 這場發布會值得...
- SpaceX “星艦”發射任務失敗 ...
- 大小兩款折疊屏 + 平板,vivo...
- 中年男人的幸福居家三件套:電視...
- 熱點在線丨算力資源統一調度!上...
- 引發自動扶梯事故的原因有哪些?...
- 【熱聞】《灌籃高手》上映首日票...
- 南京前首富栽了!造假120億,罰...
- 燕京啤酒一季度凈利增70倍,凈利...
- 天天新消息丨劍指特斯拉Model 3...
- 又一個新勢力品牌發布!瞄準年輕...
- 香飄飄沖泡板塊一季度增長近四成...
- 報道:焦點訪談:“老廣交”新成色
- vivo X Fold 2 折疊屏手機正...
- 世界實時:vivo X Flip 折疊...
- 勇敢的選擇 動態體驗哪吒雙門 GT 跑車
- 當前滾動:國寶畫重點丨來看看這...
- 全球聚焦:4月86款國產網絡游戲...
- 環球關注:華為宣布成功實現Meta...
- 馬斯克:星艦約在37分鐘后發射
- 江波龍:正在有序導入DDR5的RDIM...
- 速讀:美國太空探索技術公司(Sp...