首頁 > 新聞 > 智能 > 正文

大模型行至深處,「悟道」如何走好全面開源之路?

2023-06-16 20:24:36來源:ZAKER科技  

2021 年,智源發(fā)布了 " 悟道 1.0 " 與 " 悟道 2.0"。" 悟道 1.0" 是當時中國首個超大模型," 悟道 2.0" 發(fā)布時成為全球最大的智能模型,模型參數規(guī)模達到 1.75 萬億,是 OpenAI 所發(fā)布的 GPT-3 的 10 倍,受到了國內外的矚目。也因此,智源被斯坦福、谷歌等企業(yè)列為大模型的先驅。

盡管如此,由于早期,大模型還缺乏好的應用場景和產品,價值始終無法發(fā)揮,大模型的研發(fā)也曾受到一些爭議。而智源更是在大模型的算法研發(fā)尚未明朗的階段,就已經開始了籌備開源與基礎設施的構建,這在當時也令不少行業(yè)人士十分詫異。


(資料圖)

在過去不到一年的時間里,ChatGPT 帶火了大模型。曾經的唱衰者回頭看,才驚覺智源這一舉措的前瞻性。早在大模型的潛力還不為大多數人所熟悉時,智源是國內為數不多率先關注 AI 大模型開源與基礎工作的機構之一。

作為國內最早布局大模型研發(fā)的機構,智源區(qū)別于其他家的一點是,在大模型的基礎配套系統與設施上有更早期、更全面的布局。

大模型的范式變革,注定了算法的創(chuàng)新只是第一步,底層算力、網絡、存儲、大數據、AI 框架等等復雜的系統性工程問題也同等重要,如同電動汽車的普及需要便利的充電樁、針對電車的維修與保養(yǎng)中心等等,需要體系化的基礎設施支撐。沒有基礎設施,就相當于在馬車時代發(fā)明了汽車,大模型只能停留在 " 馬拉小車 " 的階段。

大模型時代的到來,是一場技術變革解決實際落地問題的重要突破。

那么,全局考慮下的大模型研發(fā),又有著怎樣的過人之處?

今年 6 月的智源大會上,北京智源人工智能研究院交出了一份別開生面的成績單。

黃鐵軍發(fā)布《2023 智源研究院進展報告》

" 悟道 3.0 " 有哪些開創(chuàng)性的成就?

繼 2021 年悟道大模型項目連創(chuàng) " 中國首個 + 世界最大 " 紀錄之后,時隔 2 年多,智源發(fā)布并全面開源 " 悟道 3.0" 系列模型。

值得注意的是,智源的關注點不僅是模型本身,更包括模型背后的算力平臺建設、數據梳理、模型能力評測、算法測試、開源開放組織等體系化工作。

" 悟道 3.0 " 包括 " 悟道 · 天鷹 "(Aquila)語言大模型系列、" 悟道 · 視界 " 視覺大模型系列,以及一系列多模態(tài)模型成果。同期,FlagOpen 大模型技術開源體系也上新了天秤(FlagEval)開源大模型評測體系與開放平臺,

智源自研,更新的架構

相比于悟道 1.0、" 悟道 2.0 " 是由智源與多個外部實驗室聯合發(fā)布的研究成果,悟道 3.0 系列大模型是由智源研究院團隊自研完成。

2021 年,智源推出了 " 悟道 2.0 " 系列模型,其語言模型、如 GLM 以及文生圖模型、如 CogView 等,經過兩年的發(fā)展在相關領域已實現進一步發(fā)展演進。對此,基于過去模型的研究," 悟道 3.0" 在很多方向進行了重構。

據智源研究院副院長兼總工程師林詠華介紹,如語言模型中采用 Decoder-Only 的架構,已證實在加以更高質量的數據之上,可在大規(guī)模參數的基礎模型中獲得更好的生成性能;而在文生圖模型中,智源也改用了基于 difussion 模型來進行創(chuàng)新。

悟道 · 天鷹 Aquila 基礎模型(7B、33B)則集成了 GPT-3、LLaMA 等模型架構設計優(yōu)點,在替換更高效的底層算子、重新設計實現了中英雙語 tokenizer 的同時,升級 BMTrain 并行訓練方法,從而使 Aquila 訓練過程中達到比 LLaMA 還要高 24% 的訓練效率。

同時,AquilaChat 還能通過定義可擴展的特殊指令規(guī)范,對其它模型和工具的調用。舉個例子,對 AquilaChat 給出一個 " 生成唐裝女性肖像圖 " 的指令,AquilaChat 通過調用智源開源的 AltDiffusion 多語言文圖生成模型,可實現流暢的文圖生成能力。

文圖生成

深層次數據清洗,更合規(guī)、更干凈

" 悟道 · 天鷹 "(Aquila)語言大模型系列由 Aquila 基礎模型、AquilaChat 對話模型和 AquilaCode 文本 - 代碼生成模型構成。

今天大模型 " 智能涌現 " 能力的出現,與其背后海量的數據分不開。 語言數據本身蘊含著豐富的知識和智能,大模型靠海量數據訓練,發(fā)現海量數據內存在的結構和規(guī)律后,出現了涌現能力。

作為首個支持中英雙語知識、開源商用許可的語言大模型," 悟道 · 天鷹 " Aquila 與 LLaMA、OPT 等以英文為主的學習模型不同,其 " 中英雙語 " 的特性提升了訓練難度, 要實現好性能也更具挑戰(zhàn)性。

為此,研究團隊在中英文高質量語料基礎上從0開始訓練悟道 · 天鷹 Aquila 語言大模型,放入接近 40% 的高質量中文語料,包括中文互聯網數據、中文書籍、中文教材、中文文獻及百科等。

此前大部分模型數據的主要來源都來自知名的開源數據集如 Common Crawl 等。智源在抽取其 100 萬條中文數據分析其站源情況后發(fā)現,來自中國大陸的站源僅占 17%,83% 站源來自海外的中文網站,在內容合規(guī)性、安全性上有很大的風險。

相較之下," 悟道 · 天鷹 " Aquila 的中文互聯網數據 99% 來自國內網站,并沒有使用 Common Crawl 內中文任何預料,而是使用了智源過去三年多積累的悟道數據集,使用戶可以放心地基于它做持續(xù)訓練。

與 " 悟道 · 天鷹 " Aquila 同期發(fā)布的智源 FlagEval 大語言模型評測體系目前涵蓋了 22 個主觀和客觀評測集,84433 道題目,細粒度刻畫大模型的認知能力。基于 " 悟道 · 天鷹 "Aquila 基礎模型(7B)打造的 AquilaChat 對話模型,在 FlagEval 評測榜單(flageval.baai.ac.cn)上,目前暫時在 " 主觀 + 客觀 " 的評測上領先其他同參數量級別的開源對話模型,包括基于 LLaMA 系列微調模型 Alpaca 等。在最新評測結果中,AquilaChat 以大約相當于其他模型 50% 的訓練數據量(SFT 數據 + 預訓練數據分別統計)達到了最優(yōu)性能。但由于當前的英文數據僅訓練了相當于 Alpaca 的 40%,所以在英文的客觀評測上還暫時落后于基于 LLaMA 進行指令微調的 Alpaca。隨著后續(xù)訓練的進行,相信很快可以超越。

林詠華介紹,這個結果主要得益于數據質量提升。在 LLaMA 中,開源數據集 Common Crawl 占比達到了 67%,相較之下,智源在預訓練數據處理時會對數據進行深層次清洗,特別是互聯網數據進行多次清洗,使數據更滿足合規(guī)需要、更干凈。

" 悟道 · 天鷹 "Aquila 語言大模型通過數據質量的控制、多種訓練的優(yōu)化方法,實現了在更小的數據集、更短的訓練時間,獲得比其它開源模型更優(yōu)的性能。

基于 Aquila-7B 強大的基礎模型能力,智源推出的 AquilaCode-7B " 文本 - 代碼 " 生成模型,是基于 The Stack 數據集進行抽取和高質量過濾,使用了約 200GB 的數據進行訓練,,以小數據集、小參數量,實現高性能,是目前支持中英雙語的、性能最好的開源代碼模型。此外,AquilaCode-7B 在英偉達和國產芯片上分別完成了代碼模型的訓練,此舉意在通過對多種架構的代碼 + 模型開源,推動芯片創(chuàng)新和百花齊放。

通用性更強,應用門檻低

此前業(yè)界討論大模型時,往往焦點都放在了語言大模型。有的看法認為,視覺和語音是屬于感知層面的智能,很多動物也具備,因此感知智能是比較基礎、也比較低端的智能,而語言層面則是更高端的 " 認知智能 "。

但人的智能行為是多模態(tài)的,視覺作為 AI 重要組成分支,視覺大模型在近半年里也多有突破,例如 Meta 發(fā)布的通用圖像分割模型 SAM、智源推出的 SegGPT 等。

此次悟道 3.0 系列模型中,智源也發(fā)布了 " 悟道 · 視界 " 視覺大模型系列,包括在多模態(tài)序列中補全一切的多模態(tài)大模型 Emu,最強十億級視覺基礎模型 EVA,一通百通、分割一切的視界通用分割模型,首創(chuàng)上下文圖像學習技術路徑的通用視覺模型 Painter,性能最強開源 CLIP 模型 EVA-CLIP,簡單 prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術。

" 悟道 · 視界 " 視覺大模型系列模型通用性更強,系統化解決了當前視覺領域存在的任務統一、模型規(guī)模化以及數據效率等系列瓶頸問題。

比如此次推出的多模態(tài)大模型 Emu ,可接受多模態(tài)輸入、產生多模態(tài)輸出。通過學習圖文、交錯圖文、交錯視頻文本等海量多模態(tài)序列,實現在圖像、文本和視頻等不同模態(tài)間的理解、推理和生成。在完成訓練后,Emu 可在多模態(tài)序列的上下文中補全一切,實現多輪圖文對話、視頻理解、精準圖像認知、文圖生成、多模態(tài)上下文學習、視頻問答和圖圖生成等多模態(tài)能力。

最強十億級視覺基礎模型 EVA,該模型結合了語義學習模型(CLIP)和幾何結構學習(MIM)兩大關鍵點,在僅使用標準 ViT 模型的情況下,使 EVA 擁有了更高效、簡單的兩大優(yōu)點,模型通用性更強。目前已在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務中取得最優(yōu)性能。

多模態(tài)圖文預訓練大模型 EVA-CLIP 是基于視覺基礎模型 EVA 研發(fā),目前參數量達到 50 億參數。與此前 80.1% 準確率的 OpenCLIP 相比,EVA-CLIP 5B 版本在 ImageNet1K 零樣本 top1 準確率達到了 82.0%。

智源 " 悟道 · 視界 " 的另一成果是,今年年初發(fā)布的一通百通、分割一切的視界通用分割模型,其與 SAM 模型同時發(fā)布,是首個利用視覺提示(prompt)完成任意分割任務的通用視覺模型,可從影像中分割出各種各樣的對象,是視覺智能的關鍵里程碑。

建立科學、公正、開放的評測基準

當前,大模型仍具有諸多難以透徹理解的黑盒特性,規(guī)模大、結構復雜,對其所待開發(fā)的 " 潛力 " 具體形式和上限尚無法確定,傳統的評測方法和基準在基礎模型評測上也面臨著失效的問題。

在這種迫切的情況下,我們亟需搭建起一套科學、公正、開放的大模型評測體系,這有助于在學術上拉動大模型創(chuàng)新,構建可以衡量大模型的能力和質量的尺子。同時在產業(yè)上,為不具備研發(fā)和構建基礎大模型的企業(yè)提供一個可信可靠的全面的評測體系,將幫助他們更客觀地選擇適用于自身的大模型。

為此,智源優(yōu)先推出了天秤(FlagEval)大模型評測體系及開放平臺,創(chuàng)新性地構建了 " 能力 - 任務 - 指標 " 的三維評測框架,細粒度地刻畫基礎模型的認知能力邊界,呈現可視化評測結果,提供 30 + 能力、5 種任務、4 大類指標共 600 + 維全面評測,任務維度當前包括 22 個主客觀評測數據集和 84433 道題目,更多維度的評測數據集正在陸續(xù)集成。

目前,天秤 FlagEval 大模型評測體系及開放平臺已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎模型、跨模態(tài)基礎模型實現評測。后續(xù)將全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象,包括自然語言處理、計算機視覺、音頻及多模態(tài)等四大評測場景和豐富的下游任務。天秤 FlagEval 將繼續(xù)拓展和完善 " 大模型認知能力 " 框架,集成豐富的數據集與評測指標,并探索與心理學、教育學、倫理學等社會學科的交叉研究,以期更加科學、全面地評價語言大模型。

為未來智能運營商提供底層支持

2021 年 3 月,在 " 悟道 1.0 " 的發(fā)布現場,黃鐵軍表示,人工智能的發(fā)展已經從 " 大煉模型 " 逐步邁向了 " 煉大模型 " 的階段。在此之前,學術界稱 " 大模型 " 一直是 " 預訓練模型 ",但從這一刻起,智源給了一個更接地氣的叫法," 大模型 " 概念正式進入公眾視野。

不同于國內大部分做大模型研發(fā)的公司,可以說,智源是第一個關注大模型基礎設施的團隊。由張宏江、黃鐵軍首次提出的 " 大模型是 AI 時代的智能基礎運營商 " 的說法,如今看來也極具前瞻性。

如果說模型和算法是讓機器得以轉動的電力,那么擔任發(fā)電廠角色的大模型,則非所有機構和企業(yè)都能參與角逐的對象。

同時我們也看到,基礎設施的體系化建設非一家之力可以完成,需要更多機構協力合作,建立提供數據、訓練、評測、治理等全套服務。此前黃鐵軍就曾斷言," 不可能、也不應該有任何一家企業(yè)來完全封閉地主導大模型這么一個重要的方向。"

大模型技術經過這幾年的你追我趕,研發(fā)技術上已較為成熟,而 ChatGPT 和 GPT-4 的火爆,將大模型應用拉向了大規(guī)模落地的階段。

這當中,開源扮演著重要角色。

林詠華作《悟道 · 天鷹大模型——工程化打造 AI 中的 "CPU"》主題報告

林詠華認為,智源大模型開源的必要點在于,基于大模型本身的特色,需要構建一個的開源系統。

從研發(fā)的角度來看,大模型目前還面臨著三個突出的難題。一方面,大模型技術復雜,各種開源框架和算法增加了開發(fā)者的學習難度,加上許多開源算法的模塊沒有統一接口,以至于在研究時僅適配階段就要花耗很多時間;其次,開源模型質量也參差不齊;更重要的是,大模型在系統層面的工程浩大,訓練和推理都需要很大的平臺算力去支持。

面對重重困難,智源先于行業(yè)一步開始大模型的開源工作,目前也取得了一定的成果。具體來看,智源不但開源了悟道大模項目,也打造了大模型技術開源體系(FlagOpen 飛智),對模型、工具、算法代碼等開源。

其中,FlagOpen 的核心 FlagAI 是大模型算法開源項目,當中集成了全球各領域的一些明星模型,如語言大模型 OPT、T5,視覺大模型 ViT、Swin Transformer,多模態(tài)大模型 CLIP 等,也包含了智源自家的明星大模型,此次發(fā)布的悟道 · 天鷹 Aquila 就集成到了 FlagAI 開源項目中(https://github.com/FlagAI-Open/FlagAI ) 。

在目前開源項目中,FlagAI 開源最早,從 2022 年 6 月開始,FlagOpen 整個開源體系也是圍繞大模型去建設。從體系化的角度做大模型生態(tài),智源想將 FlagOpen 打造成新浪潮里的 " 新 Linux" 生態(tài)。

在模型之外,智源也做了很多的工作,例如此前推出的混合架構云平臺九鼎,不僅滿足了不同模型對算力要求的調度,作為大模型系統創(chuàng)新的試驗場,可在平臺上率先進行 AI 系統創(chuàng)新,九鼎還肩負著用大模型來拉動多種 AI 加速算力的重任。

目前,國內大部分應用層公司的普遍思路主要有兩個,一類是直接用大模型將現有的軟件升級一遍,另一類是基于行業(yè) Know-How 訓練出自己的模型算法、在此基礎上再提供應用服務。對許多企業(yè)來說,從 0 到 1 不斷訓練、優(yōu)化大模型往往并不經濟,各行各業(yè)都需要成本足夠低的 AI 基礎設施。

在開源模式下,企業(yè)憑借公開的源代碼,可以在已有的基礎框架上、基于自身業(yè)務需求做訓練和二次開發(fā),例如在 FlagAI 上,當中集成了很多主流大模型算法技術,此外還有多種大模型并行處理和訓練加速技術,并且支持微調,開箱即可使用,應用門檻低,對企業(yè)應用和開發(fā)者創(chuàng)新都非常友好。

這種基于開源模型做自主創(chuàng)新的方式,發(fā)揮了大模型通用性上的優(yōu)勢,模型效果專業(yè)性也更強,從而釋放出遠超于當前的生產力。

智源始終堅持全面開源,在開源體系下豐富算力平臺、大模型服務等 AI 基礎設施,讓企業(yè)不必再 " 重復造輪子 "、陷入對算力和算法無意義內卷中去,而是把更多的精力投入到原創(chuàng)的、專屬的模型研發(fā)和應用革新中。

對于企業(yè)而言,使用開源的技術和產品還遠不止是成本上的考量,同時也是對風險的規(guī)避、降低和質量的提高。例如 Meta 在今年年初開源的 LLaMa,就規(guī)定了其版權不可以商用,基于 LLaMa 微調的新模型也不能商用,而智源所開源的悟道 · 天鷹 Aquila 大模型則是真正在協議規(guī)定上支持商用。

以大模型為核心的新生態(tài)正在形成,在變革的浪潮里,技術創(chuàng)新引領不斷向前的方向,而起到支撐性作用的基礎設施、將決定我們能走得多遠。智源舉開源之力,促進大模型時代的協同創(chuàng)新,讓更多企業(yè)能放心地把大模型用起來,一起參與到智能未來藍圖的繪制中去。

(雷峰網雷峰網)

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀