【速看料】比 OpenAI 更快一步,最新開源的 MiniGPT-4 模型可讓開發者提前感受 GPT-4 識圖能力!
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
迄今為止,GPT-4 憑借多模態能力已經成為 AI 領域備受關注的大模型,不過值得注意的是,OpenAI 在推出 GPT-4 時雖然引入了對圖像理解的能力,但并沒有在除了 Be my Eyes(針對盲人或弱視人士的應用程序和服務)應用程序之外的任何地方提供此功能。
(資料圖片)
GPT-4 對圖像理解能力的示例詳見:
用戶:這幅畫有什么好笑的地方?逐一描述它的板塊。
圖片來源:https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/GPT-4:圖片顯示的是一個 "Lightning Cable " 適配器的包裝,有三個板塊:
板塊 1:一部智能手機,VGA 連接器(通常用于電腦顯示器的大型藍色 15 針連接器)插在其充電端口。
板塊 2:"Lightning Cable " 適配器的包裝上有一張 VGA 接口的圖片。
板塊 3:VGA 連接器的特寫,末端是一個小的 Lightning 連接器(用于為 iPhone 和其他蘋果設備充電)。
這張圖片的幽默感來自于將一個大的、過時的 VGA 連接器插入一個小的、現代的智能手機充電端口的荒謬性。
近日,來自沙特阿拉伯阿卜杜拉國王科技大學的研究團隊推出了一款名為 MiniGPT-4 的新模型,以開源的形式提供了此功能。
研究人員還透露,MiniGPT-4 具有許多類似于 GPT-4 所展示的功能,下文我們也將分享相關的實例。
可執行復雜的視覺語言任務的 MiniGPT-4
該團隊發現盡管 GPT-4 表現出非凡的能力,但是其特殊能力背后的方法并不為眾人所熟知。因此,他們提出「GPT-4 具有先進的多模態生成能力的主要原因在于利用了更先進的大型語言模型(LLM)」這一想法。
為了驗證這一想法,他們便提出了 MiniGPT-4 模型。
根據研究團隊發布的論文顯示,為了構建 MiniGPT-4,研究人員使用了基于 LLaMA 構建的 Vicuna 作為語言解碼器,并使用 BLIP-2 視覺語言模型作為視覺解碼器。
其中,Vicuna 和 BLIP-2 都是開源的。這意味使用開源軟件可以用較少錢進行訓練和微調,并且沒有海量數據和開銷,這也是為什么這個模型加上了 "mini" 的前綴。
在實驗中,該團隊發現只對原始圖像 - 文本對進行預訓練會產生不自然的語言輸出,包括重復和零散的句子,缺乏連貫性。為了解決這個問題,其在第二階段策劃了一個高質量、一致性好的數據集,利用對話模板對此模型進行微調,這一步被證明對提高模型的生成可靠性和整體可用性至關重要。具體來看,研究團隊分兩個階段訓練了 MiniGPT-4 模型。
第一階段,研究團隊首先在四張 NVIDIA A100 顯卡上利用了大約 500 萬個對齊的圖像 - 文本對,讓 MiniGPT-4 進行了十個小時的訓練。在第一階段之后,Vicuna 能夠理解圖像。但是 Vicuna 的生成能力受到了很大的影響。
為了解決這個問題并提高可用性,研究人員提出了一種通過模型本身和 ChatGPT 一起創建高質量圖像文本對的新方法。因此,展開了第二階段的微調訓練,該模型使用 MiniGPT-4 和 ChatGPT 之間的交互生成的 3,500 個高質量文本圖像對進行了改進。ChatGPT 更正了 MiniGPT-4 生成的不正確或不準確的圖像描述。
這一步顯著提高了模型的可靠性和可用性,MiniGPT-4 能夠連貫地和用戶友好地談論圖像,并且只需要在單個 NVIDIA A100 上進行七分鐘的訓練。讓研究人員自己都感到驚訝的是,這個階段的計算效率很高。
MiniGPT-4 架構MiniGPT-4 Vicuna 的語言模型遵循 "Alpaca 公式 ",使用 ChatGPT 的輸出來微調 LLaMA 系列的 Meta 語言模型。據說 Vicuna 與 Google Bard 和 ChatGPT 相當,同樣只需相對較小的訓練工作量。
當前,該研究團隊已經將 MiniGPT-4 的代碼、預訓練的模型和收集的數據集在 GitHub 上開源:https://minigpt-4.github.io/。
擁有和 GPT-4 相似的圖片解析功能
正如開頭所述,該研究團隊推出的 MiniGPT-4 擁有和 GPT-4 相似的功能。譬如:
給它一張圖,便能生成詳細的圖像描述:
也能講出圖片中搞笑、有趣的部分:「星期一通常被認為是一周中最令人恐懼的一天」。還能在進一步交互中發現不尋常的內容,如:雖然仙人掌有可能在寒冷的氣候條件下生長,但很少看到仙人掌生長站在冰凍的湖泊中間。此外,水面上形成的大冰晶也不是常見的現象。于是,MiniGPT-4 給出了自己的見解:這張圖片很可能是數字創作或操控的。
當然,和 GPT-4 演示的一樣,MiniGPT-4 也能根據手繪草圖生成網站:識別圖像中的問題并提供解決方案:以及創造詩歌或說唱歌曲的靈感:此外,也能根據圖片續寫故事,給產品做廣告,對圖像展現的畫面進行評論、檢索與圖片有關的事實,以及當給定一張準備好的菜肴照片時,該模型可以輸出(可能)與之匹配的食譜或者生成一個適合視障人士的圖像描述。開源類 GPT-4 模型層出不窮鑒于 OpenAI 沒有透露太多關于 GPT-4 架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法的細節,強大的 LLM 的開源 MiniGPT-4 可能在研究方面具有重要意義。
對于 MiniGPT-4 的到來,也引發了一些 HN 網友的熱議,有網友表示:
在技術層面上,這個研究團隊正在做一些非常簡單的事情 -- 將 BLIP2 的 ViT-L+Q-former,用一個線性層連接到 Vicuna-13B,并在一些圖像 - 文本對的數據集上只訓練這個小層。
但結果是相當驚人的。它完全打敗了 Openflamingo 和甚至原始的 blip2 模型。最重要的是,它比 OpenAl 的 GPT-4 圖像模態更早到達。(這是)開源人工智能的真正勝利。
也有媒體評價到,「MiniGPT-4 是開源社區在很短時間內取得快速成功的另一個案例。前幾天,推出,使用從志愿者那里收集的指導數據進行訓練,并打算最終成為一個 ChatGPT 的開源平替。這表明純 AI 模型公司的護城河可能沒有那么高。在這種趨勢下,對于 OpenAI 公司而言,首先應該專注于使用 ChatGPT 插件為 GPT-4 建立一個合作伙伴生態系統,而不是現在就訓練 GPT-5,這是有意義的。」
事實上,除了 OpenAssistant、MiniGPT-4 之外,GitHub 上也有網友盤點了近段時間來誕生的許多開源模型(https://github.com/nichtdax/awesome-totally-open-chatgpt),如 Databricks 推出的 Dolly 模型、類 ChatGPT 的 PaLM-rlhf-pytorch、OpenChatKit 等等,為此,你認為開源大模型在此趨勢下會迎來什么樣的發展機遇?歡迎留言分享你的看法。
關于 MiniGPT-4 模型的更多內容可參考:
項目地址:https://minigpt-4.github.io/
GitHub 地址:https://github.com/Vision-CAIR/MiniGPT-4
論文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
參考:
https://the-decoder.com/minigpt-4-is-another-example-of-open-source-ai-on-the-rise/
責任編輯:hnmd003
相關閱讀
-
【速看料】比 OpenAI 更快一步,最新開源的 MiniGPT-4 模型可讓開發者提前感受 GPT-4 識圖能力!
整理|屠敏出品|CSDN(ID:CSDNnews)迄今為止,GPT-4憑借多模態能力已經成為AI領域備受關注的大模型,不...
2023-04-19 -
【世界播資訊】消息稱蘋果在 iPhone 15 系列研發早期曾測試閃電接口版 但很快放棄
【TechWeb】4月19日消息,據外媒報道,外界普遍預計,蘋果今年下半年推出的iPhone15系列智能手機,將放...
2023-04-19
相關閱讀
-
【速看料】比 OpenAI 更快一步,最新開源的 MiniGPT-4 模型可讓開發者提前感受 GPT-4 識圖能力!
整理|屠敏出品|CSDN(ID:CSDNnews)迄今為止,GPT-4憑借多模態能力已經成為AI領域備受關注的大模型,不...
-
看完釘釘的土味炫技,我的職場恐懼癥好多了_環球速遞
我遇到麻煩了。我是一名2023年的應屆畢業生,經過簡歷篩選、性格測試、筆試、群面、二面、HR面……共九...
-
知網:有不法分子冒用知網名義行騙,將保留追責權利
知網發布關于警惕假冒知網工作人員、偽造知網公告行騙的聲明:近期,知網接到舉報,有不法分子以知網工...
-
每日快看:眾安保險報銷比例多少?能報多少錢?
可能為60%或者是100%,還是要看我們所購買的眾安保險產品的情況的。比如如果是買眾安旗下的百萬醫療,就...
-
焦點消息!600百萬醫療保險是不是真的?怎么買?
肯定是真的!這樣的產品是真真實實的可以提供最高600萬的醫療費用報銷額度的產品,是一類在2016年才正式...
-
眾安保險600萬醫療保險每月1元是真的嗎?好不好?|全球熱點
是真的!不過這個每月1元是特指的產品的首月繳費金額,也可以說是首期繳費金額,它們是可以按照月度繳費...
-
百萬醫療險到底有沒有用?購買時需要注意什么?
有用。 由于醫療費用的不斷上漲和醫療保障體系的不完善,許多人在生病時需要支付高額的醫療費用,這對于...
-
世界報道:經營不善、展臺冷清,盤點那些上海車展的失意者
4月的上海,天氣開始變得炎熱,上海車展的舉辦則讓申城更顯熱情。作為后疫情時代首次A級車展,上海車展...
-
全球速看:眾安百萬醫療險人工客服電話是多少?可靠嗎?
人工客服熱線有兩個,通過撥打10109955或者是4009999595都可以聯系上眾安保險公司。用于咨詢跟旗下百萬...
-
孟晚舟:預計2025年55%經濟增長來自于數字驅動|環球觀焦點
鳳凰網科技訊4月19日消息,2023華為全球分析師大會今日在深圳舉行。本屆大會將以“躍升數字生產力,加速...
-
視點!貨運平臺被指“大數據殺熟”? 滿幫回應:不存在也沒必要
鳳凰網科技訊4月19日消息(作者 季倩)近日,有網友通過網絡短視頻發布、改編有關“運滿滿”找貨的內容...
-
全球熱資訊!五一出游需求爆發,飛豬:國內游預訂量已超2019年
今日,飛豬發布《2023年“五一”出游風向標》,距離“五一”假期不
-
華為戰略研究院院長周紅:AI發展還面臨三個重要挑戰:世界消息
第20屆華為全球分析師大會于4月19日至4月20日在深圳舉辦。華為戰略
-
知網:有不法分子冒用知網名義行騙,將保留追責權利
知網發布關于警惕假冒知網工作人員、偽造知網公告行騙的聲明:稱近
-
頭條:外貿平臺詆毀阿里國際站被罰40萬
天眼查App顯示,近日,寧波中茂網絡科技有限公司因商業詆毀行為,被
-
熱議:兗煤澳大利亞:一季度平均價格為347澳元╱噸 同比升35%
兗煤澳大利亞(03668 HK)發布公告,2023年第一季度,按100%基準計,原煤產量為1120萬噸。按100%基準計,...
-
41家中國廠商入圍全球手游發行商收入榜Top 100:全球速讀
SensorTower發布了2023年3月中國手游發行商在全球AppStore和GooglePlay的收入排名,本期共有41家中國廠...
-
“高啟強”成小米手機代言人_當前快播
截至去年末,小米全球智能手機用戶規模創新高。
-
宜明細胞完成1.5億元C+輪融資,多支基金出手
宜明細胞生物科技有限公司(簡稱:宜明細胞)近日宣布完成1 5億元人民幣C+輪融資。本輪融資由國泰君安...
-
視點!生工生物獲20億首輪戰略融資,德福資本領投
生工生物工程(上海)股份有限公司(“生工生物”)宣布正式引進首輪戰略融資,融資規模20億。本輪融資...
-
西門子與小鵬汽車簽署戰略合作協議:今日視點
品玩4月19日訊,據西門子中國官方微信,4月18日,西門子與小鵬汽車簽署戰略合作協議。旨在共同打造柔性...
-
特斯拉被曝扣發員工獎金驚動馬斯克!新工廠還能招到人嗎?
本文來源:時代周報作者:齊鑫特斯拉工廠憑借誘人的薪資成為不少打工人的夢中情廠,然而現在似乎翻車了...
-
內斗升級!被開除高管曾暫停給員工發工資,爆料寶寶樹涉嫌造假上市?
本文來源:時代周報作者:梁春富母嬰社區電商平臺寶寶樹(01761 HK)高層內斗升級。寶寶樹4月17日晚披...
-
平安金鑫盛17這個產品怎么樣?值得購買嗎?
整體性價比水平一般,從產品優勢來看,不外乎還是平安的品牌優勢、服務優勢等,但是產品不足是比較凸顯...
-
世界微頭條丨特斯拉被曝扣發員工獎金驚動馬斯克!新工廠還能招到人嗎?
特斯拉工廠憑借“誘人”的薪資成為不少打工人的“夢中情廠”,然而現在似乎翻車了。據媒體報道,上周晚...
-
平安福19終身壽險咋樣?適合誰?
還不錯。 平安福19終身壽險作為一款綜合性的保險產品,具備多重保障。其等待期內保險理賠返還保險費用的...
-
怡寶馬拉松推廣大使基普喬格官宣!
4月17日,怡寶官宣馬拉松世界紀錄保持者&馬拉松奧運冠軍—埃魯德·基普喬格成為其馬拉松推廣大使。怡寶...
-
醫療保險哪家保險公司比較好?買哪種好?
不同人就保險公司的選擇是不同的,并不存在哪家保險公司醫療險好的標準答案。因為不同的人群側重的保險...
-
尋路可持續發展,騰訊微保聯合復旦大學發布《2023惠民保健康發展十問十答》-全球觀焦點
保障覆蓋2 98億人次,超過80家保險公司運營共263款惠民保產品。其中,運營時間最長的惠民保項目已在深...
-
世界頭條:少兒重疾保險是30年好還是終身好?怎么買更劃算?
一般人群會更推薦選擇30年的少兒重疾險,推薦這樣的產品原因包括了價格水平更低,產品杠桿更足,而且這...
精彩推薦
閱讀排行
精彩推送
- 環球熱頭條丨江蘇徐州寫成浙江徐...
- 全球微頭條丨眾安百萬醫療險可以...
- 華為換屆完成工商變更 董事閻力...
- Omdia:全球顯示面板廠家2023年...
- 今日精選:馬斯克再談人口危機:...
- 愛奇藝訴電信及快手侵權 案件即...
- 民事訴訟法是公法還是私法?公法...
- 大眾汽車集團將投資約10億歐元在...
- 12生肖婚姻最佳配對是什么?最旺...
- 訴訟離婚的流程是怎么進行的?離...
- 分居多久可以自動解除婚姻關系?...
- 婚姻出現問題怎么修復?夫妻走到...
- 垃圾股有幾種?為什么垃圾股會被...
- 垃圾股是什么意思?垃圾股和股票...
- 股票買入和賣出都要交手續費嗎?...
- 創業板上市需要什么條件?創業板...
- 股票dr開頭是什么意思?股票dr好...
- 惠凱醫療完成數千萬A+輪投資
- 世界關注:上海10家銀行向30家民...
- 上海車展|東風風神啟動1258“e啟...
- 焦點速訊:惠凱醫療完成數千萬A+...
- 五糧液10億元跨界新能源_全球新動態
- 今日關注:熬過了三年“寒冬”,...
- 【世界播資訊】消息稱蘋果在 iP...
- 世界要聞:積極應對惡劣天氣 守...
- 炒股票怎么開戶?注冊股票開戶的...
- 中簽的股票什么時候可以賣?中簽...
- 要聞速遞:成都金融城“上新”,...
- 成都3宗宅地總收金20.36億元,且...
- 怎么申購新股?每天都可以申購新...