首頁 > 新聞 > 智能 > 正文

華為智慧搜索更好用了！上線智慧搜圖，用人話就能找出“我的”圖片|天天觀察

2023-07-03 11:12:12來源：ZAKER科技

搜索引擎的求變信號，比以往任何時候都要強烈。

先是谷歌推出 AI snapshot，讓搜索結果不再只是 "10 條藍色鏈接 "，還加上了 AI 智能總結；很快百度也把 "AI 伙伴 " 嵌入搜索引擎，通過對話就能得到問題解答。

(資料圖片)

不過，這些都還只是針對外部搜索。

對于移動端來說，"內部搜索" 需要也正在同步發(fā)生改變。

內部搜索，相比于搜索外部世界知識，是把用戶個人信息當成一個巨大知識庫的搜索技術。

但無論哪種搜索，對于智能化要求都很高，甚至需要借助千億參數(shù)級別的大模型實現(xiàn)。

以從手機中找一張照片為例。以前我們的操作習慣可能是翻個 10 分鐘相冊，從幾百張表情包或是幾千張照片中找到想要的那張（甚至找不到）。

但在搭載 HarmonyOS 3.1 的華為 P60 系列和 Mate X3 手機上，現(xiàn)在只需用自然語言描述想找的照片特征，系統(tǒng)就能高效識別、并給出相關圖像。

不僅能理解整體語義，如在圖庫輸入 " 山頂看日出 " ——

就連更精細的時間、地點描述也能快速 get 到，如語音喚起小藝搜索 " 去年在長白山滑雪的照片 "：最關鍵的是，這種堪比大模型語義理解的搜索方式，直接在端側就能實現(xiàn)，無需將數(shù)據(jù)上傳到云端處理。

換而言之，即使手機開飛行模式，這種內部搜索也照樣能進行。

所以，這個新出的圖片搜索功能究竟有啥特點，率先把它部署到端側的華為又做了什么？

華為智慧搜圖長啥樣？

此前，在手機上搜索圖片主要有兩種方式。

一種相當于 " 換皮 " 的文件搜索，用戶不僅得準確回憶起具體時間、拍攝地址等信息，甚至得精確到文件名：

另一種則是依靠分類 AI 做的圖像識別功能，但這種搜圖也只能通過某些場景關鍵詞描述縮小搜索范圍，例如風景、美食、人像等。

顯然，這兩種方法都還停留在 " 信息匹配 " 階段，支持的標簽數(shù)量也有限，一旦搜不出來，最終還是得回到手動翻照片流程上。這是因為，我們不僅習慣用自然語言描述圖片內容，而且描述的內容不限定某個名詞，還可能是動詞、場景、代詞等。

要想做到搜索 " 記憶中 " 的個人圖片，AI 模型不僅得聽得懂人話，還要能提取人話中的細粒度標簽，并將之對應到圖片上。

現(xiàn)在，華為最新的智慧搜圖，就很好地實現(xiàn)了這兩大功能。

除了可以直接搜名詞找圖片，還可以用任何短描述詞來形容圖像，如桌面下拉在智慧搜索中輸入 " 奔跑的 "，系統(tǒng)就能自動搜出相冊中奔跑的各種人像，快速給出推薦：

如果感覺搜出來的范圍還是太大了，還能隨時增加信息標簽，如 " 奔跑的 " 變成 " 奔跑的小狗 "，立刻就能找到想要的圖像：當然，不止能添加一兩個標簽。如果你想，還可以靈活地細化描述，如加上時間、地點、人物、語義等各種復合標簽，像 " 前年冬天和女朋友去內蒙古拍的各種好吃的 " 等。

體驗過華為智慧搜圖后，最直觀的感受應該就是 "AI 理解力" 和 "響應速度" 了。

相比傳統(tǒng)的文件搜索、或是 AI 圖像識別方法，華為智慧搜圖主要實現(xiàn)了圖片搜索功能的兩大 " 躍遷 "：

其一，" 人話 " 解讀能力。傳統(tǒng)圖像 AI 往往按 " 時間 "、" 地點 " 等概括詞分類，而智慧搜圖不僅能單獨搜詞分類，甚至還能放一起搜，如 " 去年在動物園拍的老虎 " 等。

其二，高效搜索速度。相比動輒翻上十幾分鐘半個小時的相冊，現(xiàn)在無論從桌面下拉智慧搜索、打開圖庫、或是用小藝語音，都只需要一句話就能搜到想要的圖片，系統(tǒng)級地提升了找信息的效率。

雖然聽起來只是手機等移動端搜索功能上的一個小突破，然而在華為之前，端側卻沒有一個廠商能夠解決這個難題。

究竟是什么技術這么難實現(xiàn)？

技術上突破了什么難點？

事實上，無論是大模型的語義理解能力，還是搜索引擎的響應速度，都并非計算資源極其有限的端側所能承受。

因此，之前大部分搜索引擎和大模型相關 APP 解決 " 上線到移動端 " 的唯一辦法，是將模型計算量分配到云端，解決資源不夠的問題。

但這勢必意味著，數(shù)據(jù)處理要在云端進行。

具體到技術細節(jié)來看，又有三大難點：

其一，壓縮多模態(tài)大模型并確保精度。這并非簡單用剪枝或量化等方法，直接壓縮幾倍模型大小就能搞定。畢竟對于端側而言，算力有限的情況下，能部署的模型大小是往往只能達到大模型的幾十分之一。

其二，搜索所需功耗隨著數(shù)據(jù)增加逐漸增大。對于端側搜索引擎而言，面對不斷更新的照片、文件等數(shù)據(jù)，只能將索引重新寫一遍，這勢必導致大量新的計算開支。

其三，模型更新等面臨的云端協(xié)同問題。雖然 AI 模型最終部署在端側，但無論是模型效果迭代、更新，訓練還是得在云端進行，最終再下發(fā)到端側，這勢必要求廠商同時具備云端兩方面的技術。

因此，對于數(shù)據(jù)隱私極為敏感的內部搜索而言，這兩類技術想要布局到端側上非常難。此前的 " 折中 " 方法，最多也就是將圖像分類 AI 這種 " 小模型 " 布局到端側，實現(xiàn)簡單的智能搜圖。

所以，華為究竟是如何解決這些難點，同時又最大程度上保留大模型 " 理解人話 " 效果和搜索響應速度的？

簡單來說，華為在 AI 模型和搜索引擎兩方面，都自研了對應的技術。

一方面，華為專門為端側自研了輕量級的多模態(tài)語義理解模型，能夠在不損失精度的情況下，將大模型縮小幾十倍。

首先，用多模態(tài)語義表征模型將不同模態(tài)輸入轉變?yōu)檎Z義向量，結合多模態(tài)語義對齊算法模型對齊文本和圖片的語義信息，結合華為內部的海量高質量數(shù)據(jù)，提升召回率。

然后，依靠輕量化部署技術，在端側實現(xiàn)高精度檢索，同時確保數(shù)據(jù)留在本地，提高隱私安全保護。

另一方面，華為又使用索引分段、定期壓縮合并等方式，成功將檢索引擎 " 塞 " 進了移動端中。

檢索引擎部署到端側的核心難點，是云側離線構建索引的方式在端側無法實現(xiàn)。

為了解決這一問題，華為先通過采用索引分段，減少單次落盤時間，并通過定期壓縮合并的方式，釋放已刪除數(shù)據(jù)占用的內存 / 磁盤資源，以降低所需的存儲空間；

隨后，又通過定義索引的格式，將地點、時間等信息作為索引的一部分，快速實現(xiàn)檢索條件過濾，并返回和查詢語句最相關的結果，相比數(shù)據(jù)庫檢索能提升十幾倍效率。

△幾乎不需要計算時間

不過，耗費這么大的技術資源，去實現(xiàn)移動端一個看似很小的 " 搜圖 " 功能，華為這樣做的目的究竟是什么？

為什么要做智慧搜圖？

直接原因當然是手機用戶——也就是你我，真的很需要這個功能。

試問誰沒有經(jīng)歷過，因為找一張圖片而需要化身福爾摩斯展開縝密分析的場景：

" 我上一次看到這張圖是什么時候 "、" 它是什么時候存的 "、" 那天我還拍什么了 " ……

但即便根據(jù)這些問題思索完，最終也不一定真能找到那張圖。

尤其隨著大家在手機內存的照片越來越多、種類越來越復雜——不光是記錄生活的照片，還有上課拍下的 PPT、網(wǎng)上保存的旅行圖文攻略等堆在相冊里，手動查找的難度也越來越高。

手機系統(tǒng)廠商們早就注意到這個事了。

如自動分類相冊、根據(jù)標簽檢索、OCR 檢索照片文字等功能，都陸續(xù)出現(xiàn)在大家的手機里。

但是這些能力相對而言，靈活性不高、實際效果有限，很多時候也是躺在手機里 " 吃灰 "。

所以，讓搜圖功能更智能化是目前用戶側真實存在的需求，也直接驅動了華為上線智慧搜圖功能。

而深層原因上，還有內外兩方面因素驅動。

外因來自于行業(yè)方面：搜索功能更擁抱 AI 是大勢所趨。

通過行業(yè)各種數(shù)據(jù)的初步驗證，讓搜索更加智能、高效符合用戶當下的需求，能推動行業(yè)向前發(fā)展。

不過目前覆蓋的范圍是互聯(lián)網(wǎng)上的內容搜索，而日常生活中還有另一大搜索場景——端側搜索，也需要智能化升級。

尤其隨著用戶在手機 / 電腦本地及個人賬戶中存儲的文件、圖片、音頻等越來越多，涉及到對個人信息的搜索操作增加，這種升級也變得更加迫切起來。

比如微軟在變革必應的同時，也推出了 Windows Copilot，一舉替代原本的 " 小娜 "。它們的定位雖是 AI 助手，但也同樣覆蓋了端側搜索的應用場景，二者最大的差距便是 Windows Copilot 引入更強的 AI 能力、更加智能化。

總之，無論對內對外，搜索接入更加強大的 AI、向著更智能高效便捷的方向發(fā)展，已經(jīng)是行業(yè)的共識。

深層內因：則來自于華為自身。

智慧搜圖其實是作為華為智慧搜索戰(zhàn)略與藍圖的一部分推出。

所謂智慧搜索，具體來看就是一個一站式聚合入口，實現(xiàn)了手機桌面下拉一下，就能以最快捷的方式，一步直達各類本機應用及信息內容，同時支持全場景跨終端搜索。

它的定位是進行 " 我的 " 搜索。

搜索范圍是用戶在手機端上的各類信息和功能，比如圖片文件 APP 等；搜索的目標是智能識別用戶的需求，讓用戶在 " 我的 " 領域內，實現(xiàn)更加快速便捷的操作。

智慧搜索的戰(zhàn)略是要實現(xiàn) "本機搜索 + 生態(tài)搜索 + 全場景搜索"。

這三者聯(lián)通，便能覆蓋所有 " 我的 " 搜索。

其一，本機搜索是指本機應用搜索、圖片搜索、文件搜索（含云端文件）、搜設置項、搜備忘錄等。

比如最新升級版本中，智慧搜索下拉即搜華為云空間的云盤文件，只需輸入文件名稱關鍵詞就能開始搜索，范圍包括自己存入云盤的本地文件、微信 /QQ 保存的文件等。

前文提到的智慧搜圖，也在這一范疇內。此外還能智慧搜索備忘錄，如采購清單、密碼賬單、朋友生日等等零碎信息，如果在記錄時沒有對內容進行分類的話，想要再查看之前記錄的文稿十分費事。現(xiàn)在智慧搜索能幫人省去這一步了。

其二生態(tài)內容搜索，包括搜服務及網(wǎng)頁內容、旅游出行、本地生活、音樂視頻、購物等。

尤其是購物方面，能聚合全網(wǎng)精品商品，提供與 " 我 " 相關的購物服務。

其三則是全場景搜索，即跨設備搜索。

HarmonyOS 將手機、電腦、平板等設備之間壁壘打通，形成了一個 " 超級終端 "。

在登錄同一帳號情況下，用戶在 PC 端點擊華為電腦桌面任務欄控制中心內搜索圖標，或使用快捷鍵 Ctrl+Alt+Q，可快速檢索手機、平板內的文件。包括文檔、應用、圖片、視頻等，并支持選擇不同類型文件進行快捷預覽。

通過整合 " 軟硬芯云一體化 " 技術，端側預置 AI 模型的加持，保障跨端搜索也不會有延遲感。總之，無論是從最基本的用戶層面，還是行業(yè)層面、華為自身，都在推動操作系統(tǒng)將端側搜索體驗進一步升級。

由此也就不難理解華為為什么要上線智慧搜圖功能。

尤其是當下，手機操作系統(tǒng)經(jīng)過十余年發(fā)展，在功能、內容、生態(tài)上的搭建都已經(jīng)相對完善，接下來的升級和迭代一定是朝著更加細微處發(fā)展。

這些細小的升級和改變，更加潤物細無聲，往往讓人在使用了很久后不得不感慨一句：真香。

如果從更加宏觀的角度來看，這些細微功能的升級和改變，還能把人機交互體驗 " 卷 " 向一個新的水平和高度。

從華為的動作里可以看到，它們選擇了端側搜索作為切入口之一，由點及面帶來改變。

智慧搜圖的出現(xiàn)，更像是一個 " 序章 "，后面隱藏著華為對智慧搜索、手機系統(tǒng)、乃至人機交互的無限想象。

AI 升級端側，從搜索看起

不僅僅是華為。

一方面，從AI 技術落地場景來看，本機搜索、甚至是 " 搜圖 " 這個特定功能，或許是 AI 技術應用到移動端最容易忽略、又最為重要的方式之一。

當前這波最新的 AI 浪潮，正在飛速改變搜索引擎的交互方式。

正如開頭所言，無論谷歌還是百度，都已經(jīng)投身這場搜索引擎革新，在云側改變搜索的方式，核心就是讓搜索引擎具備自然語言理解能力，更好地認知并理解用戶的意圖。

但這并不意味著只有云端的搜索引擎會被迭代。

在端側用自然語言搜 " 內部數(shù)據(jù) "，與在云端用自然語言提問一樣，是長期以來用戶隱秘的剛需之一。隨著計算硬件的迭代和算法的優(yōu)化，AI 用于移動端改善用戶體驗，也必然成為一種全新的趨勢。

另一方面，從人機交互角度來看，這種對內的搜索，不會局限于單一設備，必然是多端互通，形成核心以 " 人 " 為單位，最終完成全局智能化檢索的生態(tài)。

如今人類對移動計算平臺的暢想，已經(jīng)從 PC、手機逐漸延伸到 VR、AR、智能汽車等新型終端上。

而在這些新型移動計算平臺上，交互的形式開始不再局限于一塊屏幕，轉而變成更加自然的語言、手勢交互。

最終在 " 萬物互聯(lián) " 的前提下，實現(xiàn)多端信息的互通。

總之，無論從 AI 落地應用、還是人機交互趨勢而言，搜索都是移動端必不可少的體驗改善功能之一。

無論技術趨勢如何，華為已經(jīng)都從移動端側做好了提升用戶體驗的準備。

— 完—

點這里關注我，記得標星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

關鍵詞：

責任編輯：hnmd003

華為智慧搜索更好用了！上線智慧搜圖，用人話就能找出“我的”圖片|天天觀察

相關閱讀

相關閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀