首頁 > 新聞 > 智能 > 正文

谷歌推出 AudioPaLM，一款能說會聽的大語言模型-天天要聞

2023-06-25 18:23:37來源：ZAKER科技

大模型資訊：

谷歌推出 AudioPaLM，一款能說會聽的大語言模型

(相關資料圖)

據 huggingface 頁面顯示，谷歌研究團隊近日推出一款大語言模型產品 AudioPaLM，可以實現語音理解和生成功能。

AudioPaLM 將兩個大語言模型 PaLM-2 和 AudioLM 融合到一個統一的多模態架構之中，利用該架構處理和生成文本和語音。 AudioPaLM 還支持語音識別以及語音翻譯。

試驗表明，AudioPaLM 的表現顯著優于現有的語音翻譯系統。

YouTube 將推出 AI 配音功能，支持多種語言配音

據 the verge 報道，YouTube 近日宣布與 Aloud 合作，推出全新的 AI 語音功能，該功能目前正在測試之中，計劃在 2024 年上線。

據悉，這項功能可以幫助創作者為視頻自動配音，并將配音翻譯為其他的語言。AI 會先將原本的內容轉換成文字并進行翻譯，之后會由 AI 根據翻譯后的語言生成相應的配音。

YouTube 相信，為視頻配備不同語言的配音可以吸引更多的觀眾收看。

OpenAI 首席執行官表態支持歐盟 AI 監管

據財聯社報道，歐盟產業主管埃里 · 布雷頓在美國加州會見 Meta 公司首席執行官扎克伯格和 OpenAI 首席執行官奧特曼等人。

布雷頓表示，他和扎克伯格在歐盟的人工智能監管問題上 " 意見一致 "，目前正在進行最后的談判。布雷頓說，他們就水印等措施達成了一致。

OpenAI 首席執行官奧特曼說，他也同意歐盟在人工智能方面的做法，并補充說：" 我真的很感謝歐洲的機構在這里，以及對這個問題如此認真對待的遠見，對世界其他地區也是如此。"

Stable Diffusion 版本更新，生成圖片更加真實

Stability AI近日宣布，推出 SDXL 0.9 版本更新，對 Stable Diffusion 文本生成圖片模型進行了升級。

升級之后的 Stable Diffusion 可以呈現更加逼真的圖片效果，而且圖像和構圖細節也得以改進。

Stability AI 表示用戶可以通過 ClipDrop 訪問該模型，即將推出相關的 API，預計會在今年 7 月中旬發布的 1.0 版本。

AI 筆電或帶動新一波換機潮，業界預期最快 2024 年開始發酵

據科創板日報報道，AI 熱潮席卷全球，筆電品牌也開始鎖定 AI 商機。

宏碁、惠普領頭釋出打造 AI 筆記本電腦的方向，要透過全新的 AI 芯片、軟件應用，以及新的使用情境和體驗，帶動新一波筆電換機潮。宏碁已攜手 CPU 廠商，預計把生成式 AI 或其他 AI 應用導入到終端裝置，規劃相關 AI 筆電應用案例將在 2024、2025 年陸續出現，推升 AI 相關筆電產品滲透率。

業界預期，AI 筆電帶來市場影響力，最快 2024 年就會開始發酵。

亞馬遜云科技中國峰會即將召開，聚焦生成式 AI 等前沿科技

據亞馬遜云科技官方消息，2023 亞馬遜云科技中國峰會將于 6 月 27 日至 28 日在上海舉辦。

本屆峰會主題為因構建而可見，聚焦生成式 AI、Web3、企業服務及智能設備出海等創投熱門賽道。

據報道，本次峰會有超過 270 個展位展出，將有超過 100 個來自亞馬遜云科技合作伙伴與行業客戶的行業與技術展示，分布在汽車、制造、零售、游戲、媒體、金融、教育、醫療、電信、可持續等多個行業專區，以及端到端的云原生數據戰略、下一代云基礎架構、亞馬遜云科技培訓與認證、創業者、開發者等多個展區。

視頻生成模型 zeroscope_v2 XL 開源

據huggingface 頁面顯示，一款名為 zeroscope_v2 XL 的視頻生成模型現已開源。

zeroscope_v2 XL 基于 Modelscope 打造，可以通過文本生成 16:9 的高質量視頻。

據悉，zeroscope_v2 XL 采用 24 幀、576x320 分辨率的 9923 個剪輯和 29769 個標記幀進行訓練。

掌趣科技與悠米達成合作，將共同開發 AI 游戲創作平臺

據 36 氪報道，掌趣科技近日宣布與悠米達成戰略合作。

據悉，雙方將共同開發 "AI 游戲創作平臺 "，降低開放世界游戲的開發門檻，實現個人及小團隊也可以開發大規模的開放世界游戲，并通過該平臺分享游戲成果。

據悉，掌趣科技將基于自身在游戲及 AI 技術、產品、運營、渠道等方面的優勢，結合悠米在 3A 開放世界、萬人同時在線交互、高精度物理仿真、數字人及虛擬現實場景編輯等領域的技術儲備，實現在游戲創作和游戲體驗方面的 AI 化提升，打造 "AI+UGC" 平臺。

谷歌云推出 AI 驅動的金融產品

據科創板日報報道，谷歌云近日宣布推出一個新的 AI 驅動的反洗錢產品。

與市場上已有的許多其他工具一樣，該公司的技術使用機器學習來幫助金融行業的客戶遵守要求篩選和報告潛在可疑活動的法規。

Midjourney 開始測試 5.2 版本，增加諸多新功能

Midjourney 近日宣布正在測試 5.2 版本，該版本在原有基礎上進行了諸多功能改進，并增加了一些新的功能。

在該版本中， MidJourney 增加了一個全新的 Zoom out 功能，可以模擬出不同的變焦效果。目前 MidJourney 提供三種規格的變焦效果。

此外，新版本中還提供 Make Square 功能，可將圖片調整為正方形圖像。另外 5.2 版本還可以使用命令符對用戶的 prompt 進行分析，幫助用戶優化 prompt 。

Dropbox 測試 AI 搜索工具 Dropbox Dash

據 mspoweruser 報道，Dropbox 近日發布 AI 搜索工具 Dropbox Dash，幫助提高工作效率，簡化工作流程。

Dropbox Dash 擁有 AI 驅動的搜索功能，將多個辦公平臺和應用聚合在一起，提高用戶的搜索效率。他可以讓用戶在搜索欄中快速找到自己所需要的信息。 Dropbox Dash 還具備堆棧功能，可以幫助用戶快速存儲和整理相關地址。

據悉， Dropbox Dash 將會在未來引入生成式對答功能，根據用戶提問進行回答。目前 Dropbox Dash 正在進行小范圍測試，上線時間尚不確定。

美國商務部宣布成立 AI 公共工作組，應對生成式人工智能潛在風險

美國商務部部長吉娜雷蒙多（Gina Raimondo）日前宣布，美國國家標準與技術研究院（NIST）將成立一個新的人工智能（AI）公共工作組，該工作組將在 NIST 人工智能風險管理框架（RMF）的成功基礎上，進一步解決 AI 技術快速發展帶來的問題。

美國商務部表示，該工作組將招募來自私營和公共部門的志愿者與技術專家，并將重點關注與生成式 AI 相關的風險，因為生成式 AI 正在推動技術和市場的快速變化。

AI 公司 MosaicML 推出 300 億參數模型 MPT-30B，表示訓練成本僅為競品零頭

AI 創業公司 MosaicML 近日發布了其語言模型 MPT-30B，該模型具有 300 億參數，訓練成本 " 僅有其他同類競品模型的零頭 "，有望促進行業逐步降低此類模型訓練成本，擴大 AI 模型在更廣泛領域的運用。

MosaicML 公司的首席執行官兼聯合創始人 Naveen Rao 表示，MPT-30B 的訓練成本為 70 萬美元（約 502.44 萬元人民幣），遠低于 GPT-3 等同類產品所需的數千萬美元訓練成本。此外，由于 MPT-30B 的成本較低，體積較小，它也可以更快速地被訓練，并且更適合部署在本地硬件上。

MosaicML 公司表示，將模型擴展到 300 億參數只是第一步，接下來他們將以降低成本為前提，推出體積更大、質量更高的模型。

重點論文：

中國的大型語言模型最新趨勢

隨著大規模預訓練的人工智能模型在西方越來越受歡迎，許多中國人工智能實驗室已經開發出了自己的模型，能夠生成連貫的文本、逼真的圖像和視頻。

這些模型代表了人工智能研究的前沿，對人工智能倫理具有重要意義，不過目前還沒有對這些模型進行深入的英語分析。該團隊研究了中國開發的 26 個大規模預訓練人工智能模型的樣本，描述了它們的一般能力，并強調了政府、行業和學術界在支持這些項目中的合作作用。它還揭示了中國關于技術民族主義、人工智能治理和倫理的討論。

論文鏈接：https://uploads-ssl.webflow.com/614b70a71b9f71c9c240c7a7/644fce359d9b266dd4f60a80_Trends%20in%20Chinas%20LLMs.pdf

谷歌推出 AudioPaLM，一款能說會聽的大語言模型-天天要聞

相關閱讀

相關閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀