首頁 > 新聞 > 智能 > 正文

超負(fù)荷 Google I/O:AI 大滿貫更新在前,沒人關(guān)注 Pixel 手機(jī)了 視焦點(diǎn)訊

2023-05-11 10:06:52來源:ZAKER科技  

在 AI 上積累了 7 年的谷歌,迎來了一場真正以 AI 為核心的 I/O 發(fā)布會。

比起去年,強(qiáng)調(diào)「整合全球信息,使人人都能從訪問中受益」的使命,谷歌 CEO Sundar Pichai 今年 以「Making AI helpful for everyone」總領(lǐng)整個發(fā)布會。AI 將成為工具,幫助每一個人。這既包括了谷歌一貫強(qiáng)調(diào)的整合信息、學(xué)習(xí),還包括 AI 成為創(chuàng)作力輔助、幫助企業(yè)更好地創(chuàng)新產(chǎn)品。

模型、產(chǎn)品、功能、平臺、硬件,一個接一個 demo,一個接一個 trailer,掌聲和歡呼一刻也沒有停下。


【資料圖】

如果沒有 OpenAI 和微軟帶來的競爭,我們可能永遠(yuǎn)看到不到這樣一場,超負(fù)荷的 Google I/O 發(fā)布會。

在這兩個半小時里,山景城的海濱露天劇場,渴望成為世界中心。

開場三個 Demo

開場前的表演即是一個生成式人工智能實(shí)驗(yàn)。

音樂家丹 · 迪肯使用谷歌的 MusicLM、Phenaki 和 Bard Al 制作。「在制作這個節(jié)目的過程中,沒有鴨子受到傷害。」

Sundar Pichai 登臺,「機(jī)會終于來了,」他說,「這是 AI 的好年」。

在大模型及一系列產(chǎn)品功能更新前,他先上了三碟前菜。

Gmail 發(fā)布新功能「幫我寫」(Help Me Write),根據(jù)郵件內(nèi)容,用自然語言命令 AI 撰寫對應(yīng)的回復(fù)。

比如,航空公司發(fā)來航班取消的郵件,表示會送上代金券作為補(bǔ)償,這時候你可以讓 AI 幫你寫一個全額退款的郵件,它就會結(jié)合具體郵件內(nèi)容,撰寫全文。

Google Maps 將街景與導(dǎo)航結(jié)合,發(fā)布新功能「沉浸式路線視圖」(Immersive View for routes)。

用戶可以在導(dǎo)航時,直接提前看到整個路線的動態(tài)街景視角。

在這一視圖中,用戶還能查看路線中的交通、天氣情況。Google Photos 推出「魔法編輯器」(Magic Editor)。這是編輯前的圖片,僅僅使用拖拽和一鍵優(yōu)化,孩子的位置移動了,天空變得更藍(lán)了。PaLM2 取代了 LamDA,

分化出四個版本

如今談 AI 技術(shù),必須先亮出大模型,谷歌也不例外。

在 I/O 之前,關(guān)于谷歌最新模型的消息就陸續(xù)傳出。此前支持 Bard 的模型是一個輕量級的對話模型 LamDA,Pichai 在三月份采訪中就表示,將把背后的模型升級為更大規(guī)模的 PaLM 模型。

I/O2023 上,最新最強(qiáng)的 PaLM2 終于露出了廬山真面目。PaLM2 是 PaLM1 的升級版。PaLM2 在數(shù)學(xué)、編碼、推理、多語言翻譯和自然語言生成上的表現(xiàn)都更加出色。

Pichai 現(xiàn)場展示了一個修改 Bug 后,用韓語對代碼進(jìn)行解釋的例子:

PaLM 是谷歌于 2022 年 4 月份推出的大語言模型,有 5400 億參數(shù)。這次介紹的 PaLM2 是在此基礎(chǔ)上的升級版。PaLM 是 Pathways Language Model 縮寫。可以理解為,在 Pathway 架構(gòu)上訓(xùn)練的模型。

Jeff Dean 曾經(jīng)專門撰文介紹 Pathway 架構(gòu),這個架構(gòu)是為了可以處理多任務(wù)的通用模型而設(shè)計,采用了一種新的異步分布式數(shù)據(jù)流,這使得并行計算和運(yùn)行更加高效。Pathways 還可以支持包含視覺、聽覺和語言理解的多模態(tài)模型。

PaLM2 使用谷歌自主研發(fā)的 TPU 進(jìn)行計算,具體使用了多少算力計算 PaLM2 目前尚未公布,但可以參考訓(xùn)練 PaLM1 的數(shù)據(jù),使用了 6144 塊 TPU。

使用谷歌最新的 TPU 架構(gòu)來訓(xùn)練模型,意味著在基礎(chǔ)工程上,谷歌進(jìn)行了整合計算、優(yōu)化縮放、改善數(shù)據(jù)集組合和模型架構(gòu)等各項(xiàng)工作,這些也能夠使得模型能力靈活被調(diào)用進(jìn)各種產(chǎn)品、服務(wù)中。谷歌能夠?qū)⒛P偷哪芰Π凑招枨筮M(jìn)行蒸餾和提煉。

為了讓模型的能力更靈活地服務(wù)于產(chǎn)品,Pichai 特地強(qiáng)調(diào),PalM2 有四種不同的尺寸,分別以動物的名稱命名:壁虎、水獺、野牛和獨(dú)角獸。其中壁虎(Gecko)最輕量級的版本。

Gecko is so lightweight that it can work on mobile devices and is fast enough for great interactive applications on-device, even when offline. This versatility means PaLM 2 can be fine-tuned to support entire classes of products in more ways, to help more people.

Gecko 是如此輕量級,以至于它可以在移動設(shè)備上工作,而且速度足夠快,可以在設(shè)備上運(yùn)行交互式應(yīng)用程序,即使在離線時也是如此。這種多功能性意味著可以對 PalM2 進(jìn)行微調(diào),以便以更多的方式支持整個類別的產(chǎn)品,從而幫助更多的人。

最輕的模型可以在移動設(shè)備上運(yùn)行交互應(yīng)用程序,而在最新的三星 Galaxy 上,它能夠每秒處理 16 個 Token。

此外,pathway 架構(gòu)的設(shè)置,也利于在特定領(lǐng)域?qū)δP瓦M(jìn)行微調(diào)。健康研究團(tuán)隊在此基礎(chǔ)上進(jìn)一步發(fā)展,創(chuàng)建了 Med-PaLM 2,它可以檢索醫(yī)學(xué)知識、回答問題、生成有用的模板,解碼醫(yī)學(xué)行話。

在上一代 AI 視覺技術(shù)中,AI 已經(jīng)被訓(xùn)練能夠看懂 X 光片等圖像,現(xiàn)在結(jié)合語言生成能力,模型能夠根據(jù)提供的

搜索新體驗(yàn):升級 Bard 之外,

又加了一個 Search Lab

之前為了應(yīng)對 NewBing 的挑戰(zhàn),谷歌匆匆上線了對話機(jī)器人 Bard。但是從各種用戶反饋來看,許多人都覺得作為搜索助手的 Bard 不如 NewBing 好用。

對話與生成將更新搜索體驗(yàn),已經(jīng)成為新的共識,但是具體的產(chǎn)品形態(tài)依舊在探索的路上。谷歌也不想用 Bard 這個產(chǎn)品完全定義自己未來的搜索產(chǎn)品形態(tài),因此關(guān)于搜索功能的升級,Keynote 中分為兩個部分來展示:Bard 產(chǎn)品升級,Search Lab 的新功能測試。而這些新的功能,都由最 PalM2 來支持。

Bard 的基本功能點(diǎn)升級比如支持更多語言,能夠識別圖像信息,都屬于規(guī)定動作,并無意外。讓人感到驚喜的地方是,Bard 將接通谷歌自己的應(yīng)用程序,以及一些外部的應(yīng)用,來實(shí)現(xiàn)更強(qiáng)大的功能。

比如,有著驚艷語言生成圖像能力的 Adobe firefly,在未來幾個月將直接集成到 Bard 中。這樣在和 Bard 的對話中,就能夠設(shè)計圖片,比如請柬的封面、想象中的蛋糕。

谷歌地圖、圖表能力也能夠直接在 Bard 中調(diào)用。現(xiàn)場演示給了一個例子,用戶通過提問得到了幾所符合自己報考目的大學(xué)名單,讓 Bard 在地圖中將這幾個學(xué)校的地址標(biāo)出來,再讓 Bard 根據(jù)學(xué)習(xí)的專業(yè)、排名、地址等相關(guān)信息生成對比表格。

關(guān)于復(fù)雜問題的搜索,則在 Search Lab 的環(huán)節(jié)中進(jìn)行演示。Search Lab 是一個探索性的產(chǎn)品,目前還沒有全部開放,需要申請 Waitlist 才能使用。

新的搜索體驗(yàn)試圖幫助人們更好地分析一個復(fù)雜、或者有些模糊的問題。在人們開始搜索的時候,往往問題并不明確,而是知道一個大致的方向,又或者是問題能夠再被拆分為子問題。

現(xiàn)場演示了對比景點(diǎn)、購買 ebike 兩個例子。搜索即是決策過程,AI 生成要點(diǎn)提供了思考的框架,并提供相關(guān)鏈接,用戶可以通過對話深挖信息。

有 3 歲以下的孩子和狗狗的家庭,Bryce Canyon 和 National Parks 哪個更適合?在這個案例演示中,Generative AI 匯總提煉了兩個景點(diǎn)的優(yōu)劣,并且提供了幾篇參考鏈接,如果用戶有需求,可以打開參考鏈接閱讀,而且鏈接文章也會根據(jù)不同的內(nèi)容重點(diǎn)進(jìn)行分類。在另外一個演示案例中,用戶需要選購一輛支持通勤 5 英里和山路的 ebike,AI 會提煉設(shè)計、電池、減震裝置等關(guān)鍵的選購因素。對話模式下,AI 會記住用戶之前的一些選擇,對信息做進(jìn)一步的處理。比如用戶想要「紅色的 Ebike」,AI 會繼續(xù)基于「通勤 5 英里、支持山路」等條件繼續(xù)進(jìn)行篩選。谷歌的 AI 副駕駛,叫「Duet AI」

不出意外,有了新模型,對內(nèi),能升級的產(chǎn)品升級;對外,向企業(yè)提供服務(wù),幫助他們更好地用上模型能力。這也符合 Pichai 在開場后不久提到的「AI helpful everyone」。

Google Workspace 是谷歌推出的多人協(xié)作軟件,現(xiàn)在無論是寫作文案、故事寫作、制作幻燈片、制作表格,都可以用上 AI 了,形式類似于微軟的 Copilot,在工作的主界面右側(cè)有一個邊欄,谷歌將其稱為「sidekick」,AI 會在這里提出文章的修改意見、建議生成配圖、表格的樣式,用戶選擇合適的結(jié)果,就可以將 AI 生成的內(nèi)容移入主界面。

「sidekick」樣式

「Help Me Write」的寫作輔助功能,同時出現(xiàn)在 Workspace 和 Gamil 里。據(jù)谷歌介紹,目前在 Workspace 最受歡迎的用例是「給出幾個關(guān)鍵詞,完成招聘要點(diǎn)」。

閱讀室、豌豆莢創(chuàng)始人,同時也是谷歌前員工的王俊煜對此吐槽,這個產(chǎn)品設(shè)計就是沿用了 Microsoft 365 Copilot 的思路,但是換了個「Duet AI」的名字。

形式上看起來的確差不多,不過使用體驗(yàn)如何涉及很多細(xì)微的因素,比如根據(jù) prompt 的生成內(nèi)容是否令人滿意,根據(jù)文章內(nèi)容生成的配圖效果如何,是不是可以直接使用。這些都需要等待用戶們使用了一段時間后,給出反饋。

就像各處出現(xiàn)的「Help Me Write」,「Duet AI」也出現(xiàn)在給開發(fā)者的云工具上,在 Cloud Console 出現(xiàn)的「Duet AI」,功能是用語言改善開發(fā)者與云平臺上工具的交互體驗(yàn)。利用生成式 AI 提供實(shí)時的上下文代碼完成、代碼函數(shù)生成、基于代碼庫的建議,甚至協(xié)助進(jìn)行代碼審查和檢查。

面面俱到的服務(wù):

平臺、模型、計算設(shè)施

谷歌面向企業(yè)的 AI 平臺叫做 vertex AI,企業(yè)用戶可以在這個平臺上調(diào)用需要的模型、按照需求對模型的參數(shù)權(quán)重進(jìn)行微調(diào)、根據(jù)內(nèi)部數(shù)據(jù)建立企業(yè)版本的搜索引擎。

除了語言模型,谷歌還提供了其它三個專業(yè)能力模型供選用:圖像生成模型、代碼生成模型、以及文本轉(zhuǎn)語音模型 Chirp。

在現(xiàn)場展示的合作伙伴中,Replit、Character AI、Canvas 等明星公司都在其中,當(dāng)然還有谷歌自己投資的 Antropic,也在使用谷歌提供的模型云服務(wù)。

現(xiàn)場還公布了一個基礎(chǔ)設(shè)施層面的消息,谷歌和英偉達(dá)合作,搭建了基于 H100 的下一代 A3 圖形處理器超級計算機(jī)。

基于 H100 的 A3 虛擬機(jī),網(wǎng)絡(luò)帶寬比上一代 A2 虛擬機(jī)多 10 倍。當(dāng)然,PalM 的 API 也將在不久開放。

可以說,在對外輸出模型能力上,谷歌確實(shí)拿出了實(shí)力雄厚的大廠做派,從開發(fā)工具平臺、到基礎(chǔ)模型、到基礎(chǔ)設(shè)施、開放 API,一整個做了全套。

硬件:三款新產(chǎn)品,

Android 14 未登場

這次 I/O 大會上 Google 也發(fā)布了一系列的硬件。除了在 2022 I/O 上預(yù)告的 Android 平板、新機(jī) Pixel 7a,谷歌也終于發(fā)布了自己的折疊手機(jī)。

今年 5 月 4 日星戰(zhàn)日,Google 的一段視頻泄露了折疊手機(jī) Pixel Fold 的存在。

對標(biāo)三星的 Galaxy Z Fold 系列,目前有黑白兩種配色,官方價格 1799 美元,已同步上架,預(yù)定送 Pixel Watch,6 月開始配送,默認(rèn)不包含充電器。

為了實(shí)現(xiàn)折疊的形態(tài),谷歌重新設(shè)計了長焦鏡頭模組、電池組件等等,使其保持相對的輕薄,官方號稱是最薄的折疊屏手機(jī)。

雙屏除了我們常見的桌面模式和懸停模式之外,谷歌考慮的「內(nèi)外屏」同時顯示功能是『實(shí)時翻譯』,內(nèi)外屏顯示兩種翻譯的語言(感覺并不是什么有用的功能,語音翻譯不是更實(shí)用?)。

總結(jié)

在微軟的 NewBing、Office 365 全家桶、Notion AI 輔助寫作功能面世之后,再看谷歌的產(chǎn)品似乎都給人一種似曾相識之感,很難耳目一新。大模型給產(chǎn)品形態(tài)上帶來的第一輪沖擊,已經(jīng)基本完成了。

值得注意的是,雖然產(chǎn)品展示了識別圖片的能力,但是谷歌似乎還沒有一個像 GPT-4 這樣的擁有文字、圖像多模態(tài)的基礎(chǔ)模型。Pichai 只是預(yù)告了一個叫做 Gemini 的多模態(tài)模型,正在研發(fā)之中,不久后會公布。

拋開 Duet AI 與 Copilot 類似的產(chǎn)品形態(tài),谷歌在介紹時,強(qiáng)調(diào)了其自動優(yōu)化 Prompt 語言表述,以及自動根據(jù)文章內(nèi)容提出寫作建議的特點(diǎn),似乎更加用戶友好。是否用起來也會如此,還需要等待用戶反饋。同理,最新的模型 PaLM2 所支持的搜索功能,和 NewBing 相比,究竟體驗(yàn)如何?PaLM2 支持的 Bard,比之前 LamDA 支持的 Bard,使用感能夠提升多少?

在 I/O 的媒體預(yù)溝通會上,有人提問,看起來谷歌將模型的能力分散到了各個產(chǎn)品里,重點(diǎn)不明確。來自谷歌研究部門的工作人員回答道,「這似乎是一種分散策略,但在谷歌,我們支持大量的產(chǎn)品,我們將其視為模型的靈活性,來支持不同的用例和受眾群體。這也是我們能夠同時在許多不同方向上測試模型能力的好方法。」

長期來看,大模型的最終競爭壁壘不在于技術(shù),而在于產(chǎn)品是否會被用戶真正接納,圍繞技術(shù)能否實(shí)現(xiàn)開發(fā)者生態(tài)。從這次發(fā)布來看,谷歌布局了所有能布局的產(chǎn)品與服務(wù),而在其進(jìn)入的領(lǐng)域中,是否能夠真正形成優(yōu)勢,所有人將拭目以待。

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀