Zilliz 創始人兼首席執行官星爵演講實錄:向量數據庫:大模型的記憶體
5 月 31 日,由品玩主辦的「模型思辨」國內大模型產業生態研討會在北京舉辦。360 集團創始人周鴻祎、百度、阿里巴巴、商湯科技、Zilliz、瀚博半導體等來自大模型產業鏈上的頭部互聯網公司、芯片、數據庫、應用項目、投資機構等 100 多位 VP 級的嘉賓參與此次研討會,深度探討中國大模型產業生態的建設。Zilliz 創始人兼首席執行官星爵發表了《向量數據庫:大模型的記憶體》的主題演講。
圖為 Zilliz 創始人兼首席執行官星爵他認為,移動應用時代程序開發經歷了從復雜到簡單的過程,AI 浪潮的來臨則提高了程序開發的成本,而隨著大模型時代和新的 AI 時代的到來,CVP Stack 這種新范式的出現改變了這一現狀,人人都可能是 AI 時代的工程師。此外,大模型的發展,離不開存儲這一關鍵點,其中以 Milvus 和 Zilliz Cloud 為代表的向量數據庫扮演著大模型記憶體的角色,可以讓大模型們進行知識增強。下一個殺手軟件會是智能體,它同樣需要向量數據庫的存儲和檢索能力。最后,向量數據庫將迎來快速的市場規模增長,未來可期。
以下是星爵演講全文:
(資料圖片僅供參考)
大家好,我是 Zilliz 創始人星爵,今天給大家帶來的分享是向量數據庫在大模型時代的存儲,但其實今天我講的內容一點都不技術。在座的肯定有很多大模型和 IT 的從業者,今天我跟大家分享的是從程序員的時代看新一輪的 AI 和大語言模型時代。
從移動應用時代到大模型時代
其實這個時代被冠以很多花里胡哨的文字,同樣的熱浪在十年前的硅谷也有經歷過,當時硅谷的每個周末或者任何一座大城市都有一群熙熙攘攘的人在探討 IOS 和 Android。經過了十多年,我們見證了移動技術的成長,改變了生活的方方面面。
這是今年 3 月份來自硅谷的一張照片,它是 OpenAI 做的一場沙龍,從東海岸到西海岸,從西雅圖到舊金山,每周都會有數場類似的沙龍,無數開發者涌入這個賽道,在周末不眠不休,用二十四小時開發出一個好的應用程序。
為什么會發生這樣的變化?借用英偉達 CEO 老黃的一句話,iPhone 時刻已至。那么,這和我們的程序員有什么關系?為什么移動時代會誕生幾百萬、幾千萬的令人眼花繚亂的創意和應用程序?
不知道在座的各位有多少寫過智能手機時代以前的移動開發程序?因為當時寫移動開發程序是相當復雜的,需要用到內存管理、工具鏈、編譯和調試,相當復雜。但 IOS 和 Android 的出現,不只帶來了大屏手機,也使得內容生態的開發難度得到極度簡化。在過去十多年的時間里,開發者憑借 IOS 和 Android 操作系統,再加上 MongoDB 這些靈活的數據庫系統和前端設計師,基本上可以在二十四小時以內做出 DEMO 程序和 MVP 產品。
不過,過去十年 AI 蓬勃發展,工具卻變得越來越復雜。去年給出的 MLOps 全景圖涵蓋了模型調優、訓練、部署、數據的觀察性和安全性等上百個工具。需要招十幾個人花上半年時間和幾百萬資金才能做出一個 AI 應用程序,開發成本特別高,然而過去半年大模型的出現改變了這一切。現在市面上有很多開發工具,就是用大模型加上 AI 的語義存儲的向量數據庫,配合能夠把業務邏輯準確翻譯出來的提示工程,進行交互,便可做出一個效果很好的應用程序。
如何用大語言邏輯把商業邏輯表達出來?我們把這種全新的開發范式抽象了出來命名為 CVP Stack, C 是以 ChatGPT 為代表的這種大模型, V 是指以 Milvus、 Zilliz Cloud 為代表的向量數據庫為大模型去存儲數據,作為它的一個額外記憶體。P 不只是 提示工程,更多的是 提示工程跟 產品設計的一個結合,是新一代產品設計的方式。有了它一個周末就可以寫出一個 AI 應用程序。
這種新的開發范式催生出很多新的應用場景,從聊天機器人到企業知識庫,PDF 到 Excel、Copilot 都有全新的管理,包括文檔的摘要、會議的記要甚至匯報。我們也可以跟傳統的數據庫 BI 進行交互,就是用自然語言去寫報表,當然也包括寫代碼,這些應用可以通過 CVP Stack 輕松搭建起來,開發門檻被降得很低,跟幾年前動輒花費五六個月、幾百萬資金的投入形成了鮮明的對比。
舉個例子,我們的同事用了兩天就做出了一個 ChatGPT + Milvus 向量數據庫的應用,他的名字叫 OSSChat。隨著很多人擁抱開源,越來越多的開源項目先后出現,但開發文檔繁瑣冗長,很多問題分布在各種論壇和討論區,為開發者帶來了一定的困擾。所以我們把所有數據整合在一起,存在向量數據庫,然后把這些知識給 ChatGPT 增強,兩天就把原型做出來了,又花了兩天時間完善就把服務上線了。目前我們已經支持幾十個主流的開源項目,每天都有很大的訪問量,用戶甚至可以去生成開源項目的代碼。
存儲比計算更便宜,大模型也不例外
所有應用場景的本質就是用向量數據庫幫助我們管理私域的知識,老黃在今年的 GTC 上也專門提出了 " 向量數據庫對于構建專有大語言模型的組織來說至關重要 " 這樣一個觀點。 為什么我們要把私域數據和公域數據用向量數據庫來做?這里有一個數據歸屬權的問題,我們并不愿意把這些數據交給大模型,希望可以在保留用戶使用權的情況下,可以不用私人的數據進行訓練,同時可以得到大語言提供的更好的知識生成、輔助解決問題的能力。而我們都知道,大模型更新的時間比較長,成本也比較高,知識也具有一定的滯后性(例如 ChatGPT 的知識只停留在 2021 年底),如果用現在的數據庫存儲方式,可以把最新的知識提供給向量數據庫,對大模型進行知識增強,可以得到更好的答案。
大家可能會問,現在大語言模型發展得特別快,計算成本可能變得更低,大模型變得越來越大,能不能把所有知識都放到大模型里面?那是不是就不需要向量數據庫了?
回答這個問題之前,我們可以看一看過去幾十年發生了什么。在計算機發展史中,最經典的架構是馮 · 諾伊曼架構,最核心的貢獻就是實現存儲與計算分離,即把所有信息、所有計算歸為計算問題和存儲問題。存儲與計算分離有各種各樣的好處,傳統的馮 · 諾伊曼架構是把信息用二進制代表,實現存儲和計算分離。
隨著深度學習與新的 AI 浪潮的發展,向量嵌入日漸成為基本的數據交換方式,要是把任何神經網絡的每個節點都作為神經元,交換信息是用生物電的信號,但在神經網絡里面傳播信息都是向量嵌入,所以這是所有神經網絡深度學習技術,包括大模型技術中基本的信息交換單元,其實這個單元是在傳統的二進制抽象表現加上語義抽象。
我們知道二進制是比較寬泛的表示,但如果賦予智能的話需要有語義,需要知道這個語義和其它語義有沒有什么區別。有了向量嵌入,我們再去看 CVP Stack 就會比較簡單,本質上就是面向新一代的 AI 應用,基于向量嵌入的計算結構。
大語言模型本質上就是向量嵌入的處理器,歸根結底,向量數據庫負責的是向量嵌入語義數據的存儲與檢索。我們要把大語言模型和向量數據庫分為兩個模塊,就是存儲與計算分離,正如馮諾伊曼架構一樣。這樣做的好處就是歷史上存儲價格永遠比計算價格便宜幾個數量級以上,大語言模型也不例外。假設有一個大模型可以做 100KB Token,同樣條件下,給到大語言模型運算的成本遠大于做向量召回。如果這個大模型要做 1000 Token 呢?運算成本將更加昂貴。雖然大語言模型未來會有越來越大的 Token 的窗口,但我們本質上不會把所有信息都分到大模型里面,且大模型不能覆蓋全世界所有信息。
未來向量數據庫應該會成為大語言片外存儲的標配,傳統的數據庫之所以不適合為大模型做存儲,因為沒有語義表達,不能提供語義存儲。如果說現在有一種數據庫方案和存儲方案,能夠提供語義檢索的話,只能是向量存儲。Zilliz 開始做世界上第一款向量數據庫的時候,內存應用場景根本不是大語言模型,更多的是圖片搜索、視頻搜索,包括個性化的搜索引擎,但本質上都是用神經網絡做成向量嵌入。大語言模型開發門檻的降低讓這個領域成為面向開發者友好的 Killer 領域,所以我們認為向量數據庫這個領域未來幾年將迎來快速的增長與更加龐大的市場規模。
下一個殺手軟件
講完過去一年半年的機會,我們來聊聊下一個機會是什么?剛才老周和軼航的對話也有講到智能代理越來越被認為是下一代殺手級應用,對此,我很認同。大模型還需要人不停地給予提示,智能代理就是希望通過做任務和場景拆解,解決無限復雜的問題,最終實現和人一樣的自我演進的能力,或者形成自己獨特觀點和演化的能力。例如,可以看看機器的表達,你跟它說今天上班晚了,被老板罵了,它跟你說不用理會老板。
目前,智能代理的商業化已經初露頭角,例如 AI 偶像,它不一定是大明星,可以是小網紅,AI 通過復制一百個一千個自己和無數人談戀愛來賺錢。剛才也有聊到我們可以做一個虛擬的駱軼航,實現數字永生,同時參加一百個會議,做一百個演講,每個分身都有個性,增加游戲的可玩性,甚至在社群里面可以讓這些用戶在游戲社區里面交互和對話,形成虛擬偶像。文學網站可以拿到一本小說,直接創造很多跟主人公一模一樣的角色進行復制。其實這個道理很容易理解,一部小說中主角的對話、行為是很多樣的,解讀以后 AI 就可以一比一復制,跟小說主角玩一個無窮無盡的游戲。
人類如果想要達到完完全全的智能體,必須做到不斷演進,即要有一個智能的處理器和記憶。人類的大腦有一個區域叫做海馬體,就是負責長期記憶。記憶是人類智能很重要的部分,不可能今天把昨天的事情忘記還說自己很聰明。如果我們需要一個長期記憶的話,現在行業里面的嘗試是用向量數據庫存儲長期記憶,因為向量數據庫的成本是很可控的。假設有一個數字人從第一天開始安裝大腦,與其他人沒有區別,但每次跟外界的感知、跟外界對話的過程它都會記下來:今天這個人問了我一個不好的問題,明天他又問了一個我特別喜歡的問題……十年以后我依然知道從前和這個人進行過怎樣的交互。而如果要做這種大時間跨度的上下文記憶,一定要有一個具備低廉的成本、快速召回并且能夠增大的記憶體。想要滿足上述需求,向量數據庫是很好的選擇。
如果我們相信以后會出現很多智能體,可能現在電腦手機中的很多程序都可以用智能體重做一次。舉例來說,現在我們訂機票、訂火車票需要反復比較和操作,酒店、美食就更復雜了,有時候還需要看一看評論再根據自己的喜好做決定。如果有一個智能體可以復制所有的決定,將大大減少我們在這些事情上所耗費的時間成本。此外,寫 PPT、寫文檔的程序也都可以重新來過。智能體的出現會讓我們大語言模型的應用從 Copilot 變成 Autopilot,ChatGPT 就是一個 Copilot,需要人不斷引導,Autopilot 只要給任務就可以自己拆解,可以全自動駕駛。
未來如果每個人都能夠有幾十個智能體幫助我們生產生活,像向量數據庫這樣具有語義查詢的存儲市場會有很大的增長。過去我們所有的存儲,不管是磁盤、內存還是數據庫都不具備語義的能力,以后如果有語義存儲的話,這個市場是相當大的。
AI 時代,人人都可能是工程師
GitHub 數據顯示全球程序員有五千多萬,兩千多萬是移動開發者,十年前其實在全球的移動開發者小于一百萬,因為那個時候移動開發特別麻煩。IOS 和 Android 的出現讓這一生態極其簡單,大量開發者涌入這個生態。過去的十年大家都在講 AI,但 AI 程序員到今天為止也就區區一百萬,工資很高,很多時候招不到人。未來幾年可能會得到很大的改變,因為有大量前端工程師、大量移動工程師、大量產品經理,甚至不會寫代碼的人,大量的在座的各位,可能被我安利一下回去就會拿起電腦寫出自己的第一個大語言模型應用。未來幾年,AI 工程師會有幾十倍的增長,因為在這個時代人人都會寫代碼,寫一個 AI 應用程序是如此簡單。
我們今天是在講 AIGC,主要應用也是專注于 AIGC 和大語言模型領域,其實數據庫應用場景遠不止如此。過去五年,我們見識到任何一個圖片檢索的場景,數據庫都是標配,任何一個企業如果有海量圖片,需要圖片檢索的時候都會用向量數據庫,拍張照片也要檢索,視頻截圖也要檢索。抖音、快手這樣的程序會去做個性化推薦,其實用的也是向量數據庫。目前我們看到所有的 AI 還只是起步,希望在座的各位聽了我的演講以后,回去能夠拿起鍵盤學習 AI 時代怎么去寫應用程序,可能會發現特別特別簡單,只要花一個下午時間就能夠寫出你人生的第一個 AI 應用。
責任編輯:hnmd003
相關閱讀
-
焦點快看:10499 元與 55999 元起,蘋果 15 英寸 MacBook Air 與新 Mac Pro 發布;擠牙膏更新的 iOS 17 與 macOS
蘋果在6月6日的WWDC一共發布了5款硬件和6大系統的更新:VR眼鏡AppleVis
2023-06-07
相關閱讀
-
Zilliz 創始人兼首席執行官星爵演講實錄:向量數據庫:大模型的記憶體
5月31日,由品玩主辦的「模型思辨」國內大模型產業生態研討會在北京舉
-
iOS17 上手:小組件終于能互動了,但別的更新挺無聊。
昨天凌晨蘋果發布會,差評君和托尼一波人熬了大夜,給大家肝了三篇文章
-
Altman:OpenAI 并沒有上市計劃-觀點
品玩6月7日訊,據財聯社報道,OpenAI聯合創始人SamAltman近日在接受采
-
集成云串流、電致變色等創新技術,XR 品牌「VITURE」獲近千萬美金 A+ 輪融資-當前觀點
文|周鑫雨編輯|鄧詠儀36氪獲悉,近日消費級XR眼鏡品牌VITURE完成近千萬
-
工人保險怎么買在哪里買?工人保險一年交多少錢?
工人保險怎么買在哪里買?1、工人意外險可以直接在保險公司購買,也可以在第三方平臺投保,線上線下均可...
-
什么是平安一帳通?平安一賬通注冊有風險嗎?
什么是平安一帳通?一賬通一般表示的是平安一賬通,中國平安公司使用了國際上普遍應用的eWise賬戶整合技...
-
傳世尊享終身壽險值得買嗎?傳世尊享終身壽險缺點
傳世尊享終身壽險值得買嗎?同方全球傳世尊享終身壽險提供了兩項保單權益,分別是保單借款和保費自動墊交...
-
公司私有化是什么意思?公司私有化退市后股票怎么辦?
公司私有化是什么意思?上市公司私有化,是資本市場一類特殊的并購操作;與其他并購操作的最大區別,就是...
-
安德烈·比凱-阿穆古
1、安德烈·比凱-阿穆古,1985年1月8日生,是一名足球運動員。2、場上
-
中國中等收入群體超4億人標準曝光!中等收入與中產階級的區別
中國中等收入群體超4億人標準曝光!近日,有網友提出一個問題:多少才能算中等收入?事實上,對于收入高低...
-
廣發信用卡新聰明卡怎么激活?最高額度是多少?
廣發信用卡新聰明卡怎么激活?1、首次通過網上、電話渠道申請聰明卡的新客戶,為保障用卡安全,用戶必須...
-
招行基金定投怎么操作?招行基金定投手續費怎么收?
招行基金定投怎么操作?(1)打開并登錄招行手機銀行;(2)在首頁的頂部中找到定投選項并點擊進入;(3)進入定...
-
天天最新:庫克治下蘋果深陷創新困境,9年憋出一臺賣2.5萬元的頭顯,果鏈也被帶崩了
VisionPro,圖片來源:蘋果發布會截圖歷經8年時間打磨,備受期待的蘋果
-
重磅官宣!華為發布全球首款:可高效支撐AI訓練等業務,100%釋放算力
據華為中國官方微信號6月6日消息,第31屆中國國際信息通信展日前在北京
-
小產權房貸款能貸多少?小產權房貸款利率是多少?
小產權房貸款能貸多少?1、小產權房的土地不是經過合法出讓、建筑未經建筑規劃,房子沒有國家發放的土地...
-
新資訊:全新標致3008內飾官圖發布 將于9月亮相
全新標致3008內飾官圖發布將于9月亮相日前,標致發布了旗下全新標致300
-
搭載1.6T發動機 全新DS 4將于7月正式上市 天天觀焦點
搭載1 6T發動機全新DS4將于7月正式上市日前,車質網從相關渠道獲悉,全
-
每日短訊:寶駿,可惜了
寶駿,可惜了比死亡更痛苦的,是被遺忘。“柳州吉姆尼”,坦克300的弟
-
【天天快播報】電動化轉型改造,上汽大眾永久關停安亭一廠
電動化轉型改造,上汽大眾永久關停安亭一廠據界面新聞6月5日報道,上汽
-
價格戰連鎖反應出現 長安汽車單方面扣供應商10%貨款 焦點精選
價格戰連鎖反應出現長安汽車單方面扣供應商10%貨款6月5日,一則《保護
-
如何推銷保險給客戶?保險話術的開門技巧
如何推銷保險給客戶?1、熟悉條款你是一個保險推銷人員,前提是你一定要熟悉自己所推銷的保險條款,一條...
-
焦點快看:10499 元與 55999 元起,蘋果 15 英寸 MacBook Air 與新 Mac Pro 發布;擠牙膏更新的 iOS 17 與 macOS
蘋果在6月6日的WWDC一共發布了5款硬件和6大系統的更新:VR眼鏡AppleVis
-
世界觀焦點:售價 2.5 萬!MR 頭顯能開啟蘋果下個十年的輝煌么?
本文來源:時代周報作者:鄭栩彤6月6日凌晨,蘋果公司(AAPL O)發布旗
-
天舟五號貨運飛船完成與空間站組合體再次交會對接_全球快看
今天是2023年6月6日,距離全年結束還有208天。1981年6月6日,世界上第
-
當前速讀:一文讀懂蘋果 Vision Pro:最好最貴的頭顯,重新定義下一代計算
北京時間6月6日凌晨2點,研發七年的蘋果頭戴顯示器設備VisionPro,在WW
-
Apple Vision Pro 能否幫助蘋果再次開啟”新紀元“
【CNMO】2007年喬布斯帶著第一代iPhone站在舊金山的Macworld上,他或許
-
今日播報!周鴻祎天價離婚案后續:已完成向前妻股份轉讓,“分手費”縮水逾 20 億
財聯社6月6日訊,三六零集團創始人、董事長兼CEO周鴻祎離婚案后續又有
-
投資“拼單購車” 竟是緬北騙子陷阱|全球熱頭條
6月6日,常州市中級人民法院公布2022年審結的通訊網絡詐騙典型案例,其
-
特斯拉車禍后不到一年,林志穎復出,為小鵬“代言”_焦點簡訊
距離特斯拉車禍不足一年,林志穎復出了。圖片來源:小鵬汽車宣傳片視頻
-
宗者拉杰_關于宗者拉杰介紹
1、系《中國藏族文化藝術彩繪大觀》創委會主任、總設計師。宗者拉杰自
精彩推薦
閱讀排行
精彩推送
- 看看就好,千萬別玩!這款讓主播...
- 焦點速遞!剛賺錢就全國 9.9 ...
- ? iPhone 15 會有哪些新功能...
- 庫克:ChatGPT 有廣闊前景,蘋...
- OpenAI 沒有上市計劃!CEO 給...
- 通訊!眾泰汽車董事長黃繼宏辭職...
- 當前消息!蘋果跌超 1%,MR 頭...
- “零添加”醬油低至 8.5 元 /...
- 環球百事通!理想汽車上周銷量達...
- 香港怎么去澳門最快_香港怎么去...
- 媒體人:張鎮麟今天從廈門赴美 ...
- 【世界播資訊】邱世卿:印太區域...
- 吉兇禍福壽夭貴賤等一切遭遇都是...
- 特斯拉車禍后不到一年,林志穎復...
- 美股異動 | 諾和諾德漲超2% ...
- 凱迪股份(605288.SH):5250萬股...
- 林子豐_關于林子豐概略 環球快播
- 翰墨飄香 沁潤童心 ——東坡區...
- 世界銀行上調中國2023年經濟增速...
- 炸了!任正非,馬斯克突然宣布!...
- 熱點!“ 2023 中國最具價值品...
- 中國長城年報遭問詢:扣非后凈利...
- 世界視點!瞧不起人的成語_瞧不起
- 2023年湛江市現代化海洋牧場活動...
- “減肥神藥”即將在國內正式上市...
- 三六零:實控人周鴻祎已完成向胡...
- 大主播翻云覆雨 快品牌含量猛增...
- 全球訊息:能否革手機的命?蘋果...
- 光伏龍頭晶澳科技宣布再擴產 擬...
- 三六零:周鴻祎與胡歡協商離婚,...