超負(fù)荷 Google I/O：AI 大滿貫更新在前，沒人關(guān)注 Pixel 手機(jī)了視焦點(diǎn)訊

2023-05-11 10:06:52來源：ZAKER科技

在 AI 上積累了 7 年的谷歌，迎來了一場真正以 AI 為核心的 I/O 發(fā)布會。

比起去年，強(qiáng)調(diào)「整合全球信息，使人人都能從訪問中受益」的使命，谷歌 CEO Sundar Pichai 今年以「Making AI helpful for everyone」總領(lǐng)整個發(fā)布會。AI 將成為工具，幫助每一個人。這既包括了谷歌一貫強(qiáng)調(diào)的整合信息、學(xué)習(xí)，還包括 AI 成為創(chuàng)作力輔助、幫助企業(yè)更好地創(chuàng)新產(chǎn)品。

模型、產(chǎn)品、功能、平臺、硬件，一個接一個 demo，一個接一個 trailer，掌聲和歡呼一刻也沒有停下。

【資料圖】

如果沒有 OpenAI 和微軟帶來的競爭，我們可能永遠(yuǎn)看到不到這樣一場，超負(fù)荷的 Google I/O 發(fā)布會。

在這兩個半小時里，山景城的海濱露天劇場，渴望成為世界中心。

開場三個 Demo

開場前的表演即是一個生成式人工智能實(shí)驗(yàn)。

音樂家丹 · 迪肯使用谷歌的 MusicLM、Phenaki 和 Bard Al 制作。「在制作這個節(jié)目的過程中，沒有鴨子受到傷害。」

Sundar Pichai 登臺，「機(jī)會終于來了，」他說，「這是 AI 的好年」。

在大模型及一系列產(chǎn)品功能更新前，他先上了三碟前菜。

Gmail 發(fā)布新功能「幫我寫」（Help Me Write），根據(jù)郵件內(nèi)容，用自然語言命令 AI 撰寫對應(yīng)的回復(fù)。

比如，航空公司發(fā)來航班取消的郵件，表示會送上代金券作為補(bǔ)償，這時候你可以讓 AI 幫你寫一個全額退款的郵件，它就會結(jié)合具體郵件內(nèi)容，撰寫全文。

Google Maps 將街景與導(dǎo)航結(jié)合，發(fā)布新功能「沉浸式路線視圖」（Immersive View for routes）。

用戶可以在導(dǎo)航時，直接提前看到整個路線的動態(tài)街景視角。

在這一視圖中，用戶還能查看路線中的交通、天氣情況。Google Photos 推出「魔法編輯器」（Magic Editor）。這是編輯前的圖片，僅僅使用拖拽和一鍵優(yōu)化，孩子的位置移動了，天空變得更藍(lán)了。PaLM2 取代了 LamDA，

分化出四個版本

如今談 AI 技術(shù)，必須先亮出大模型，谷歌也不例外。

在 I/O 之前，關(guān)于谷歌最新模型的消息就陸續(xù)傳出。此前支持 Bard 的模型是一個輕量級的對話模型 LamDA，Pichai 在三月份采訪中就表示，將把背后的模型升級為更大規(guī)模的 PaLM 模型。

I/O2023 上，最新最強(qiáng)的 PaLM2 終于露出了廬山真面目。PaLM2 是 PaLM1 的升級版。PaLM2 在數(shù)學(xué)、編碼、推理、多語言翻譯和自然語言生成上的表現(xiàn)都更加出色。

Pichai 現(xiàn)場展示了一個修改 Bug 后，用韓語對代碼進(jìn)行解釋的例子：

PaLM 是谷歌于 2022 年 4 月份推出的大語言模型，有 5400 億參數(shù)。這次介紹的 PaLM2 是在此基礎(chǔ)上的升級版。PaLM 是 Pathways Language Model 縮寫。可以理解為，在 Pathway 架構(gòu)上訓(xùn)練的模型。

Jeff Dean 曾經(jīng)專門撰文介紹 Pathway 架構(gòu)，這個架構(gòu)是為了可以處理多任務(wù)的通用模型而設(shè)計，采用了一種新的異步分布式數(shù)據(jù)流，這使得并行計算和運(yùn)行更加高效。Pathways 還可以支持包含視覺、聽覺和語言理解的多模態(tài)模型。

PaLM2 使用谷歌自主研發(fā)的 TPU 進(jìn)行計算，具體使用了多少算力計算 PaLM2 目前尚未公布，但可以參考訓(xùn)練 PaLM1 的數(shù)據(jù)，使用了 6144 塊 TPU。

使用谷歌最新的 TPU 架構(gòu)來訓(xùn)練模型，意味著在基礎(chǔ)工程上，谷歌進(jìn)行了整合計算、優(yōu)化縮放、改善數(shù)據(jù)集組合和模型架構(gòu)等各項(xiàng)工作，這些也能夠使得模型能力靈活被調(diào)用進(jìn)各種產(chǎn)品、服務(wù)中。谷歌能夠?qū)⒛Ｐ偷哪芰Π凑招枨筮M(jìn)行蒸餾和提煉。

為了讓模型的能力更靈活地服務(wù)于產(chǎn)品，Pichai 特地強(qiáng)調(diào)，PalM2 有四種不同的尺寸，分別以動物的名稱命名：壁虎、水獺、野牛和獨(dú)角獸。其中壁虎（Gecko）最輕量級的版本。

Gecko is so lightweight that it can work on mobile devices and is fast enough for great interactive applications on-device, even when offline. This versatility means PaLM 2 can be fine-tuned to support entire classes of products in more ways, to help more people.

Gecko 是如此輕量級，以至于它可以在移動設(shè)備上工作，而且速度足夠快，可以在設(shè)備上運(yùn)行交互式應(yīng)用程序，即使在離線時也是如此。這種多功能性意味著可以對 PalM2 進(jìn)行微調(diào)，以便以更多的方式支持整個類別的產(chǎn)品，從而幫助更多的人。

最輕的模型可以在移動設(shè)備上運(yùn)行交互應(yīng)用程序，而在最新的三星 Galaxy 上，它能夠每秒處理 16 個 Token。

此外，pathway 架構(gòu)的設(shè)置，也利于在特定領(lǐng)域?qū)δＰ瓦M(jìn)行微調(diào)。健康研究團(tuán)隊在此基礎(chǔ)上進(jìn)一步發(fā)展，創(chuàng)建了 Med-PaLM 2，它可以檢索醫(yī)學(xué)知識、回答問題、生成有用的模板，解碼醫(yī)學(xué)行話。

在上一代 AI 視覺技術(shù)中，AI 已經(jīng)被訓(xùn)練能夠看懂 X 光片等圖像，現(xiàn)在結(jié)合語言生成能力，模型能夠根據(jù)提供的

搜索新體驗(yàn)：升級 Bard 之外，

又加了一個 Search Lab

之前為了應(yīng)對 NewBing 的挑戰(zhàn)，谷歌匆匆上線了對話機(jī)器人 Bard。但是從各種用戶反饋來看，許多人都覺得作為搜索助手的 Bard 不如 NewBing 好用。

對話與生成將更新搜索體驗(yàn)，已經(jīng)成為新的共識，但是具體的產(chǎn)品形態(tài)依舊在探索的路上。谷歌也不想用 Bard 這個產(chǎn)品完全定義自己未來的搜索產(chǎn)品形態(tài)，因此關(guān)于搜索功能的升級，Keynote 中分為兩個部分來展示：Bard 產(chǎn)品升級，Search Lab 的新功能測試。而這些新的功能，都由最 PalM2 來支持。

Bard 的基本功能點(diǎn)升級比如支持更多語言，能夠識別圖像信息，都屬于規(guī)定動作，并無意外。讓人感到驚喜的地方是，Bard 將接通谷歌自己的應(yīng)用程序，以及一些外部的應(yīng)用，來實(shí)現(xiàn)更強(qiáng)大的功能。

比如，有著驚艷語言生成圖像能力的 Adobe firefly，在未來幾個月將直接集成到 Bard 中。這樣在和 Bard 的對話中，就能夠設(shè)計圖片，比如請柬的封面、想象中的蛋糕。

谷歌地圖、圖表能力也能夠直接在 Bard 中調(diào)用。現(xiàn)場演示給了一個例子，用戶通過提問得到了幾所符合自己報考目的大學(xué)名單，讓 Bard 在地圖中將這幾個學(xué)校的地址標(biāo)出來，再讓 Bard 根據(jù)學(xué)習(xí)的專業(yè)、排名、地址等相關(guān)信息生成對比表格。

關(guān)于復(fù)雜問題的搜索，則在 Search Lab 的環(huán)節(jié)中進(jìn)行演示。Search Lab 是一個探索性的產(chǎn)品，目前還沒有全部開放，需要申請 Waitlist 才能使用。

新的搜索體驗(yàn)試圖幫助人們更好地分析一個復(fù)雜、或者有些模糊的問題。在人們開始搜索的時候，往往問題并不明確，而是知道一個大致的方向，又或者是問題能夠再被拆分為子問題。

現(xiàn)場演示了對比景點(diǎn)、購買 ebike 兩個例子。搜索即是決策過程，AI 生成要點(diǎn)提供了思考的框架，并提供相關(guān)鏈接，用戶可以通過對話深挖信息。

有 3 歲以下的孩子和狗狗的家庭，Bryce Canyon 和 National Parks 哪個更適合？在這個案例演示中，Generative AI 匯總提煉了兩個景點(diǎn)的優(yōu)劣，并且提供了幾篇參考鏈接，如果用戶有需求，可以打開參考鏈接閱讀，而且鏈接文章也會根據(jù)不同的內(nèi)容重點(diǎn)進(jìn)行分類。在另外一個演示案例中，用戶需要選購一輛支持通勤 5 英里和山路的 ebike，AI 會提煉設(shè)計、電池、減震裝置等關(guān)鍵的選購因素。對話模式下，AI 會記住用戶之前的一些選擇，對信息做進(jìn)一步的處理。比如用戶想要「紅色的 Ebike」，AI 會繼續(xù)基于「通勤 5 英里、支持山路」等條件繼續(xù)進(jìn)行篩選。谷歌的 AI 副駕駛，叫「Duet AI」

不出意外，有了新模型，對內(nèi)，能升級的產(chǎn)品升級；對外，向企業(yè)提供服務(wù)，幫助他們更好地用上模型能力。這也符合 Pichai 在開場后不久提到的「AI helpful everyone」。

Google Workspace 是谷歌推出的多人協(xié)作軟件，現(xiàn)在無論是寫作文案、故事寫作、制作幻燈片、制作表格，都可以用上 AI 了，形式類似于微軟的 Copilot，在工作的主界面右側(cè)有一個邊欄，谷歌將其稱為「sidekick」，AI 會在這里提出文章的修改意見、建議生成配圖、表格的樣式，用戶選擇合適的結(jié)果，就可以將 AI 生成的內(nèi)容移入主界面。

「sidekick」樣式

「Help Me Write」的寫作輔助功能，同時出現(xiàn)在 Workspace 和 Gamil 里。據(jù)谷歌介紹，目前在 Workspace 最受歡迎的用例是「給出幾個關(guān)鍵詞，完成招聘要點(diǎn)」。

閱讀室、豌豆莢創(chuàng)始人，同時也是谷歌前員工的王俊煜對此吐槽，這個產(chǎn)品設(shè)計就是沿用了 Microsoft 365 Copilot 的思路，但是換了個「Duet AI」的名字。

形式上看起來的確差不多，不過使用體驗(yàn)如何涉及很多細(xì)微的因素，比如根據(jù) prompt 的生成內(nèi)容是否令人滿意，根據(jù)文章內(nèi)容生成的配圖效果如何，是不是可以直接使用。這些都需要等待用戶們使用了一段時間后，給出反饋。

就像各處出現(xiàn)的「Help Me Write」，「Duet AI」也出現(xiàn)在給開發(fā)者的云工具上，在 Cloud Console 出現(xiàn)的「Duet AI」，功能是用語言改善開發(fā)者與云平臺上工具的交互體驗(yàn)。利用生成式 AI 提供實(shí)時的上下文代碼完成、代碼函數(shù)生成、基于代碼庫的建議，甚至協(xié)助進(jìn)行代碼審查和檢查。

面面俱到的服務(wù)：

平臺、模型、計算設(shè)施

谷歌面向企業(yè)的 AI 平臺叫做 vertex AI，企業(yè)用戶可以在這個平臺上調(diào)用需要的模型、按照需求對模型的參數(shù)權(quán)重進(jìn)行微調(diào)、根據(jù)內(nèi)部數(shù)據(jù)建立企業(yè)版本的搜索引擎。

除了語言模型，谷歌還提供了其它三個專業(yè)能力模型供選用：圖像生成模型、代碼生成模型、以及文本轉(zhuǎn)語音模型 Chirp。

在現(xiàn)場展示的合作伙伴中，Replit、Character AI、Canvas 等明星公司都在其中，當(dāng)然還有谷歌自己投資的 Antropic，也在使用谷歌提供的模型云服務(wù)。

現(xiàn)場還公布了一個基礎(chǔ)設(shè)施層面的消息，谷歌和英偉達(dá)合作，搭建了基于 H100 的下一代 A3 圖形處理器超級計算機(jī)。

基于 H100 的 A3 虛擬機(jī)，網(wǎng)絡(luò)帶寬比上一代 A2 虛擬機(jī)多 10 倍。當(dāng)然，PalM 的 API 也將在不久開放。

可以說，在對外輸出模型能力上，谷歌確實(shí)拿出了實(shí)力雄厚的大廠做派，從開發(fā)工具平臺、到基礎(chǔ)模型、到基礎(chǔ)設(shè)施、開放 API，一整個做了全套。

硬件：三款新產(chǎn)品，

Android 14 未登場

這次 I/O 大會上 Google 也發(fā)布了一系列的硬件。除了在 2022 I/O 上預(yù)告的 Android 平板、新機(jī) Pixel 7a，谷歌也終于發(fā)布了自己的折疊手機(jī)。

今年 5 月 4 日星戰(zhàn)日，Google 的一段視頻泄露了折疊手機(jī) Pixel Fold 的存在。

對標(biāo)三星的 Galaxy Z Fold 系列，目前有黑白兩種配色，官方價格 1799 美元，已同步上架，預(yù)定送 Pixel Watch，6 月開始配送，默認(rèn)不包含充電器。

為了實(shí)現(xiàn)折疊的形態(tài)，谷歌重新設(shè)計了長焦鏡頭模組、電池組件等等，使其保持相對的輕薄，官方號稱是最薄的折疊屏手機(jī)。

雙屏除了我們常見的桌面模式和懸停模式之外，谷歌考慮的「內(nèi)外屏」同時顯示功能是『實(shí)時翻譯』，內(nèi)外屏顯示兩種翻譯的語言（感覺并不是什么有用的功能，語音翻譯不是更實(shí)用？）。

總結(jié)

在微軟的 NewBing、Office 365 全家桶、Notion AI 輔助寫作功能面世之后，再看谷歌的產(chǎn)品似乎都給人一種似曾相識之感，很難耳目一新。大模型給產(chǎn)品形態(tài)上帶來的第一輪沖擊，已經(jīng)基本完成了。

值得注意的是，雖然產(chǎn)品展示了識別圖片的能力，但是谷歌似乎還沒有一個像 GPT-4 這樣的擁有文字、圖像多模態(tài)的基礎(chǔ)模型。Pichai 只是預(yù)告了一個叫做 Gemini 的多模態(tài)模型，正在研發(fā)之中，不久后會公布。

拋開 Duet AI 與 Copilot 類似的產(chǎn)品形態(tài)，谷歌在介紹時，強(qiáng)調(diào)了其自動優(yōu)化 Prompt 語言表述，以及自動根據(jù)文章內(nèi)容提出寫作建議的特點(diǎn)，似乎更加用戶友好。是否用起來也會如此，還需要等待用戶反饋。同理，最新的模型 PaLM2 所支持的搜索功能，和 NewBing 相比，究竟體驗(yàn)如何？PaLM2 支持的 Bard，比之前 LamDA 支持的 Bard，使用感能夠提升多少？

在 I/O 的媒體預(yù)溝通會上，有人提問，看起來谷歌將模型的能力分散到了各個產(chǎn)品里，重點(diǎn)不明確。來自谷歌研究部門的工作人員回答道，「這似乎是一種分散策略，但在谷歌，我們支持大量的產(chǎn)品，我們將其視為模型的靈活性，來支持不同的用例和受眾群體。這也是我們能夠同時在許多不同方向上測試模型能力的好方法。」

長期來看，大模型的最終競爭壁壘不在于技術(shù)，而在于產(chǎn)品是否會被用戶真正接納，圍繞技術(shù)能否實(shí)現(xiàn)開發(fā)者生態(tài)。從這次發(fā)布來看，谷歌布局了所有能布局的產(chǎn)品與服務(wù)，而在其進(jìn)入的領(lǐng)域中，是否能夠真正形成優(yōu)勢，所有人將拭目以待。

關(guān)鍵詞：

責(zé)任編輯：hnmd003