全球訊息:華為在手機上,率先實現本地端自然語言搜圖功能
機器之心原創
作者:澤南
(資料圖片僅供參考)
在手機上用自然語言搜本地相冊圖片,業界首個移動端多模態語義檢索引擎,改變了我們的手機使用體驗。
習慣了搜索引擎的我們,在手機上找本地文件的時候往往卻束手無策:如今每個人的智能手機上,存上千張照片已是常態,有時候想找某張具體的照片就像大海撈針。
不過在今年華為的 P60 系列發布會上出現了這樣一項功能 —— 智慧搜圖,基于多模態大模型技術在端側輕量化應用,手機上第一次有了自然語言圖片搜索能力。既然是自然語言,就意味著在找圖這件事上可以對手機講人話了。
如果記不得想找的照片是何時何地拍攝的,只大概記得照片中出現的人或物怎么辦?只要把能想到的幾個詞寫到搜索框里,智慧搜索就能給你找到:
或者用語音喚醒小藝用一句話形容想要找的照片內容,比如搜索「去年在長白山滑雪的照片」,就可以直接找到手機里所有那次去玩的照片:再進一步,你也可以搜索「騎自行車的人」、「戶外的聚會」等描述性的概念。相比以前基于標簽的照片搜索方式,智慧搜圖可以讓手機更加「聰明」,響應速度更快,輸出結果更高效。結合多模態語義模型技術,華為的智慧搜圖在云端對上億級圖文數據進行了預訓練,對更通用化的語義擁有了理解能力。更重要的是,模型部署在端側,搜索計算是在本地完成的,進一步保護隱私安全。
這不禁讓人懷疑,華為的手機是不是已經有了破解圖形驗證碼的能力?
手機自然語言搜圖,為啥這么難?以前在很多手機上,你可以通過輸入時間、人物、地點等關鍵詞找到想要的特定照片。這是通過 AI 算法識別圖片類型和文字,以及地理信息等文件固有標簽來實現的,不過一般來說,它們只能識別出有限的類別。
在使用「常規」方法時,你需要通過短標簽及其組合進行搜索,例如「風景」、「貓」、「食物」等等,手機支持的短標簽數量有限,只能滿足你的一小部分意圖,大部分時候還是需要手動去相冊里翻找,效率很低。
標簽都給你打好了,但選擇的種類有限。這并不奇怪,因為在它的后端頂多是簡單的圖像識別模型,搜索的自由度趨近于無,當然也不能理解人的意圖。在使用這樣的系統時,有時候結果會變成讓我們猜模型到底能識別哪些標簽。
要想實現「智慧搜圖」,AI 模型需要能同時理解自然語言與圖像兩種模態的數據,而在手機上,我們還需要使用一系列壓縮算法盡可能利用有限的算力,并從工程角度盡量加快推理速度。
具體而言,先不管部署到手機端的困難,要想實現對圖片和文本的語義級理解,讓手機自己「看懂照片」,我們需要經歷一段三步走的過程。
物理世界產生的非結構化數據如圖片、語音和文本,在 AI 算法中會被轉化為結構化的多維向量,向量標識出關系,檢索就是在計算向量之間的距離,通常距離越近相似度就越高。構建智慧的搜圖技術,首先需要訓練多模態語義模型,通過對比學習令相同語義的文字與圖片距離特別近,不同語義的數據距離特別遠,從而把自然語言及圖片等多模態數據轉換成相同語義空間下的向量;其次,我們需要使用該多模態模型編碼被檢索的圖片;最后當我們輸入一句話時,手機就會通過檢索系統快速地定位與內容相匹配的圖片了。
在整個語義搜圖的過程中,首要的挑戰是如何更好地將語義相同的圖片與文字匹配起來。多模態模型需要編碼用戶的個人圖片,最好是將模型部署在手機端側,而部署到手機端,就意味著必須對多模態模型進行壓縮與加速,這里將需要大量的工程實踐。
業界首個手機端多模態語義模型
這個「智慧搜圖」的背后,是華為通過輕量化的多模態語義模型,讓手機可以高效理解自然語言和照片含義,實現了業界首個可端側部署的輕量化多模態語義模型。相比傳統打標簽的方式,它的體驗可是要好太多了。我們不再需要猜測圖片的標簽,直接輸入自然語言就能檢索到對應的圖片。毫不夸張地說,它讓手機本地搜圖,從難用跳到了好用。
基礎:多模態模型
在人工智能領域里,Transformer 是個里程碑式的技術,它既催生了 ChatGPT 這樣的 NLP 技術突破,也在視覺領域上擁有非常不錯的效果。通過 Transformer 對文本與圖片同時進行表征,再通過弱監督對比學習拉近相同語義的圖片與文字,拉遠不同語義的圖片與文字,我們就能獲得一個不錯的多模態模型。
這其中的重點在于對比學習,如下圖所示,常規的對比學習方法會將圖片與文本分別編碼為不同的向量,并將該向量映射到聯合多模態語義空間之中。因為不同模態的數據表示之間可能存在差異,無法進行直接的比較,因此先將不同模態的數據映射到同一個多模態空間,從而有利于后續的模型訓練。
選自 arxiv: 2102.12092。在多模態的對比學習中,其目標函數即讓正樣本對(上圖藍框部分,I1T1、I2T2... )相似度很高,負樣本對(上圖白框部分)相似度很低。通過這種訓練,自然語言天然就能和圖像匹配上,不同模態的數據就能對齊。
為了提升模態間的對齊效果,華為通過提高正樣本的相關性,并在算法層面對負樣本去噪,再借助更大、更高質量的數據源,提升模型表征的準確性,從而提升語義搜索的準確性和召回率。與以往基于有限的標簽集合給圖片打標簽,再通過標簽來進行搜索的方式相比,基于語義表征進行搜索的方式能大幅提升圖片檢索的靈活性。
優化:模型的極致壓縮
多模態是當前非常熱門的 AI 研究領域,但除了華為的「智慧搜圖」,還沒有人能把整個推理過程都部署到手機端。其中的工程難點,顯然在于如何將多模態模型在效果基本無損失的情況下,壓縮到能在手機等邊緣設備上運行。
在這里,也許我們需要考慮整個模型架構的參數效率,優化模型結構以在最小的計算量上達到最優的效果。例如卷積神經網絡中 EfficientNet,Transformer 類模型中的 Multi Query Attention,它們都嘗試優化模型結構以令參數效率達到更優。「智慧搜圖」也一樣,通過優化多模態模型架構,使得整體訓練能獲得更好的效果。
除了技術上的更新,部署到移動端更大的挑戰還是在工程上。與平常我們在 GPU 上訓練與推理模型不同,移動端缺少便捷高效的算子實現,優化起來也困難重重。舉例來說,手機端的 CPU 芯片基本是精簡指令集 Arm 架構的,那么機器學習編譯器在做優化時就需要考慮很多指令層面并行處理,來最大程度利用有限的計算力。
針對底層硬件的優化適配,華為將模型的海量矩陣乘法分解到手機端 CPU 與 NPU 等設備上,并通過圖算融合等方式構建出能在手機端高效運行的底層算子,進而支持整個模型的高效推理。
總結來說,華為「智慧搜圖」輕量化模型通過更多的數據、更優的算法等補償性設計及一些模型輕量化技術,首次將多模態模型部署到手機端,從而提供更好的圖搜體驗。
實用:向量檢索引擎
我們期望通過圖片信息、時空維度等不同線索,快速找到與心中期待相符的圖片,而圖片與自然語言請求都是多模態語義空間的向量。因此,華為面向端側場景自研輕量級向量檢索引擎,支持對海量數據進行向量索引構建,且支持時空(時間、地點)語義一站式融合檢索,可以便捷、高效地通過 Query 語義特征找出匹配的照片。
上圖是一個簡單的向量檢索引擎,假設移動端多模態模型已經將相冊內的圖片編碼為一條條向量,并持久化存儲到「Vector Database」中。每當用戶有需要搜索的請求,該請求將通過「Embedding Model」,即多模態模型中的文本 Encoder 部分,將文本編碼為一條向量,該向量會從向量數據庫中搜索以找到一批最接近的圖像。為了在移動端獲得更好的搜圖效果,華為自研的輕量化向量檢索引擎做了一系列創新與優化。
在構建索引時,如果采用云側常用的離線定期全量構建的方式,將會顯著的增加功耗開銷,因此華為在手機端采用增量實時寫入的方式。并且出于可靠性目的,增量寫入的數據會持久化到索引中。
同時,為了提高索引加載和檢索的效率,索引的格式也是特別定制的,語義向量檢索將地點、時間等信息作為索引的一部分,在檢索時可以快速實現條件過濾,并返回與查詢語句最相關的結果。只要關鍵字落在時間、地點等常見搜索條件,索引格式創新帶來的加速,相比純數據庫檢索,能快十多倍。
但定制化的索引格式也會帶來一些困難,即新寫入的索引數據不一定都保存在索引的尾部。例如在故宮新拍了一張照片,那么該照片向量的索引,需要插到同地點的那一部分索引當中,也就導致之前所有的索引都需要覆蓋重寫一遍。尤其是數據越來越多,如果我有十萬張圖片,難道每次拍一張照,十萬多條索引都需要重寫一遍?
在這里,華為再次找到了創新解法,其采用索引分段及壓縮合并兩種方式進行優化,索引分段能顯著降低單次插入索引時間,通過定期進行壓縮合并,完成已刪除數據占用內存 / 磁盤資源的回收,達到了顯著降低資源開銷的目的。
一系列優化后,智慧搜圖的能力也不僅限于高配置的旗艦級手機。除目前的 P60 系列和 Mate X3 之外,更多設備未來也會隨 HarmonyOS 3.1 的升級陸續獲得這樣的能力。
智慧搜索:打造 HarmonyOS 生態的系統級入口
當然,最新的 HarmonyOS 3.1 版中,智慧搜圖只是眾多新能力的一小部分。光是搜索上,華為就帶來了不少黑科技。
除了智慧搜圖之外,華為智慧搜索將不斷跨越不同 App、端側設備、云端和本地的邊界,實現真正意義上的全局搜索,結合華為長期實踐的「軟硬芯云一體化」能力,讓端側預置 AI 模型實現毫秒級響應速度,消除跨終端聯動的延遲感,實現「多臺設備合體」的搜索體驗。
現在是以 App 為主的移動互聯網時代,搜索有很大一部分已從網頁轉移到了更封閉的 App 上,華為智慧搜索卻可以做到從一站式的入口獲取全局內容,打破信息孤島。
在打通所有邊界之后,華為還通過 AI 技術實現了高效率的服務流轉和更聰明的「意圖搜索」能力。讓搜索引擎理解人的意圖,提供最合適的智慧服務,手機上的搜索框再也不是簡單的查詢工具。還記得四年前華為在開發者大會上發布的初版 HarmonyOS 嗎?當時 HarmonyOS 的定義是一個全場景分布式系統,現在的 HarmonyOS 已經發展出了豐富的生態,下一步要做的則是統一:通過系統級能力的提升做到一個框架,掌控全局。
這種整合落到搜索上,就是無感知的大范圍能力調用和響應,華為內部將其稱為「全搜」能力。智慧搜索或將成為 HarmonyOS 生態的系統級入口,帶來遠超搜索框定義的功能與服務。
當需求不再被設備和形式所限制,一切以人為中心,這才是萬物互聯時代該有的樣子。這也讓我們對下一個 HarmonyOS 的產品,充滿了期待。
THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
相關閱讀
-
全球訊息:華為在手機上,率先實現本地端自然語言搜圖功能
機器之心原創作者:澤南在手機上用自然語言搜本地相冊圖片,業界首個移
-
Urtopia 推出首款搭載 ChatGPT 的電動自行車 Fusion
品玩7月4日訊,據insideevs報道,Urtopia近日推出一款智能電動自行車Fu
-
「電子果蠅」驚動馬斯克!背后是 13 萬神經元全腦圖譜,可在電腦上運行 環球滾動
腦科學研究又進一大步!來自普林斯頓的科學家最新宣布,他們已經成功創
-
天天短訊!跨境電商三國殺,阿里、拼多多、SHEIN 決戰海外
大佬親自帶隊,阿里、拼多多、SHEIN決戰海外跨境電商的戰況越發膠著了
-
駕駛證怎么查真假?偽造駕駛證怎么處罰?
駕駛證怎么查真假?一、網上查詢首先,準備一個可以上網的電腦或手機。然后打開電腦或手機地瀏覽器,進入...
-
環球焦點!假面騎士Geats:黑九尾情報公開,擁有毀滅世界的力量
最近網上也是公開了最新的關于假面騎士Geats劇場版中黑九尾的相關情報
-
新華每日電訊:千年瓷都成海內外青年“造夢工廠” 每日觀察
新華社南昌電 記者裴劍容高皓亮程迪參與采寫:朱雨諾王奕涵 在江
-
百萬醫療住院都可以報銷嗎?報銷比例是多少?|全球聚焦
根據具體情況而定。百萬醫療保險主要是為了解決高額醫療費用帶來的經濟
-
“藥店四小龍”哪家強?大參林一季度最賺錢,定增30億再擴軍 時快訊
文|記者何秀蘭邁入“萬店時代”,大參林(603233 SH)計劃募資不超過30
-
人保的百萬醫療怎么樣?等待期是多久?
人保百萬醫療作為一款知名的醫療保險產品,備受市場和消費者的信賴。作
-
【全球新視野】品味舍得·江河萬象新限量禮盒套裝上市,舍得酒業以文創精品領跑端午旺季
近年來,隨著國潮興起、文化自信回歸,白酒的文化屬性日益凸顯。以文化
-
【世界聚看點】百萬醫療保險保單怎么查?保單內容有哪些?
要查詢百萬醫療保險的保單信息,首先需要保險持有人掌握保險公司的名稱
-
焦點要聞:百萬醫療需要交多少年?一年多少錢?
根據具體情況而定。如果投保人購買的百萬醫療險的保障期限是1年,那么
-
有五險還用交百萬醫療嗎?二者有什么區別? 環球信息
根據具體情況而定。雖然五險提供了一定程度的醫療保障,但仍有一些限制
-
奇瑞新能源下鄉補貼優惠:小螞蟻、無界Pro車型補貼5000元,QQ冰淇淋補貼1000元_當前熱點
奇瑞新能源下鄉補貼優惠:小螞蟻、無界Pro車型補貼5000元,QQ冰淇淋補
-
關曉彤天然呆奶茶店被強執8.1萬
近日,成都天然呆餐飲管理有限公司新增一則被執行人信息,執行標的8 1
-
腔鏡吻合器龍頭風和醫療沖刺IPO
6月30日,據上交所官網顯示,風和醫療已提交科創板上市。據悉,風和醫
-
堅持異質主機形態,任天堂下一代 Switch 性能直追 PS4
從5月《塞爾達傳說:王國之淚》解禁以來,這一個多月我一直在沉浸在海
-
環球熱文:只要裝了谷歌相機,千元機也能隨手拍大片
618剛剛結束沒多久,相信有不少朋友在大促期間選購了自己心儀的手機,
-
小米對華為鎖屏專利發起無效宣告請求,將于 7 月 21 日口審
鈦媒體App7月4日消息,7月3日,國家知識產權局發布的口審公告顯示,小
-
游戲平臺隱晦封殺 AI 生成內容 Steam 稱無法發布版權不明的游戲_焦點簡訊
財聯社7月4日訊(編輯馬蘭)游戲向來被認為是AI發展的舒適區。5月時,
-
對話 Adobe 首席產品官:深度解讀軟件巨頭 AIGC 轉型路,大象如何轉身?
智東西(公眾號:zhidxcom)編譯|Glu編輯|李水青智東西7月4日消息,據
-
游戲平臺隱晦封殺 AI 生成內容 Steam 稱無法發布版權不明的游戲 全球視訊
財聯社7月4日訊(編輯馬蘭)游戲向來被認為是AI發展的舒適區。5月時,
-
世界訊息:馬斯克 VS 小扎“火藥味”再升級!推特限制瀏覽量 Meta 趁亂推競品
財聯社7月4日訊(編輯黃君芝)近段時間以來,特斯拉首席執行官馬斯克(
-
極氪賣車離不開沃爾沃-天天看點
圖片來源@視覺中國文|陸玖商業評論6月以來,極氪一直站在車圈風口上:
-
天天快訊:銷量跳水、質量問題頻發,讓馬自達“塞車”的可不是梁家輝
本文來源:消費者報道作者:陳梓慶你坐馬自達,怪不得你塞車。梁家輝在
-
《正當防衛》手游官宣取消,體驗版已下架,官方主頁統統關閉
IT之家7月4日消息,日前,SquareEnix負責《正當防衛》系列的全球負責人
-
當前快播:青春光芒點亮“七彩假期” 赤壁市余家橋鄉2023年暑期公益班開班了!
青春光芒點亮“七彩假期”赤壁市余家橋鄉2023年暑期公益班開班了!---
-
上半年百強房企銷售總額同比微增0.1%,平穩發展成企業新目標
上半年百強房企銷售總額同比微增0 1%,平穩發展成企業新目標2023-07-04
-
cdr高版本轉低版本轉換器_cdr版本轉換器在線 世界最新
1、目前最好使用的CorelDraw版本是CorelDRAWX6CorelDRAW是加拿大著名軟
精彩推薦
閱讀排行
精彩推送
- 最低可采厚度(關于最低可采厚度...
- 焦點熱文:球探報告——阿爾瓦羅...
- 全球快報:百萬醫療是住院就給報...
- 全球熱資訊!百萬醫療的膳食費如...
- 買了重疾還要買百萬醫療嗎?有什...
- 每日快播:百萬醫療轉保是什么意...
- 熱文:眾安百萬醫療保險是什么?...
- 三年虧超百億,負債率再走高,悅...
- 天天時訊:Keep,一個偽裝成健身...
- 微信支付“惹眾怒”漲價背后的焦...
- 互聯網“上四休三”有多難?
- 報道:認知AI治標不治本,叮當健...
- 天天熱門:Instagram計劃推出類似...
- 全球滾動:小鵬汽車6月交付新車8,...
- 華晨寶馬與百度達成戰略合作,將...
- 商業賄賂行為有哪些?如何治理商...
- 商住樓產權年限是多少年?商住樓...
- 身有殘疾的人可以駕駛機動車嗎?...
- 技術服務費是什么意思?技術服務...
- 全球熱點評!?中銀證券:旗下FO...
- 榕樹家宣布旗下中醫診所規模突破...
- 重慶緣生康中醫擬申請知識產權資...
- 崇山生物合成膠原項目獲千萬首輪...
- 高質量發展調研行丨海南儋州:“...
- 房屋租賃營業稅是什么稅種?房屋...
- 報道:馬斯克 VS 小扎“火藥味...
- 榮耀 Magic V2 外觀公布 屏...
- Zucks China & Telecy 攜手...
- 世界熱點評!日媒評論:半導體產...
- 半年增近千億美元!馬斯克身家漲...