AI 潮涌,這門生意爆了
作 者丨郭美婷
編 輯丨吳立洋
AI 潮水洶涌,數(shù)據(jù)正成為一門火爆的生意。
(資料圖片)
為了給人工智能喂上充足的 " 養(yǎng)料 ",從發(fā)掘、采集到標注,企業(yè)在數(shù)據(jù)處理的各個環(huán)節(jié)掘金。到如今,真實的數(shù)據(jù)已無法滿足日漸膨脹的 AI" 胃口 ",企業(yè)開始探索 AI 自產(chǎn)自銷的 " 假 " 數(shù)據(jù)——合成數(shù)據(jù)產(chǎn)業(yè)應(yīng)用而生。
上個月底,國內(nèi)合成數(shù)據(jù)公司 " 光輪智能 " 宣布完成天使 + 輪融資;幾個月前,新加坡合成數(shù)據(jù)初創(chuàng)公司 Betterdata 也獲得一筆 165 萬美元規(guī)模的種子輪融資。互聯(lián)網(wǎng)大廠也開始了布局。微軟、英偉達、meta、亞馬遜等數(shù)得上號的科技巨頭中,均有合成數(shù)據(jù)相關(guān)的業(yè)務(wù)布局、投資或收購舉動。
合成數(shù)據(jù)究竟是 " 何方神圣 "?它有怎樣的產(chǎn)業(yè)價值和風險?會給 AI 產(chǎn)業(yè)帶來怎樣的顛覆?
" 人造 " 數(shù)據(jù)崛起
相比于從現(xiàn)實世界中采集或測量的真實數(shù)據(jù),合成數(shù)據(jù)顧名思義是人工合成的 " 假 " 數(shù)據(jù)。由于能夠反映原始數(shù)據(jù)的屬性,合成數(shù)據(jù)可以作為原始數(shù)據(jù)的替代品來訓練、測試和驗證 AI 模型。
但人工合成并不意味著完全憑空捏造。現(xiàn)階段,大部分合成數(shù)據(jù)的 " 根 " 仍然是真實數(shù)據(jù)。
Unity 中國高級軟件工程師錢文億向 21 世紀經(jīng)濟報道記者介紹了其合成數(shù)據(jù)產(chǎn)品在計算機視覺相關(guān)項目中的普遍生成過程:第一步,在現(xiàn)實中找到可識別的對象,通過掃描技術(shù),將物體模型真實地還原在 3D 場景中;在此基礎(chǔ)上,對該物體模型進行打標簽,如顏色、大小等,具體標簽類型依據(jù)訓練需求而定;最后,將這些物體放置于各種設(shè)定的場景中,隨機組合,快速地生成多張圖片。
因此,訓練同一個 AI 模型時,使用真實數(shù)據(jù)也許需要攝像頭不斷變換地捕捉物體在不同場景、狀態(tài)下的多張照片,而合成數(shù)據(jù)則能夠通過調(diào)整物體位置、角度、所處背景等參數(shù),一分鐘內(nèi)生產(chǎn)成百上千張不同的圖片,降低成本,提高數(shù)據(jù)集生成效率。
事實上,合成數(shù)據(jù)的概念并不新穎。據(jù)說,這一概念早在 1993 年 Donald Rubin 的一篇文章中就有雛形。近年來,隨著人工智能技術(shù)一次次取得突破性發(fā)展,真實數(shù)據(jù)的采集、獲取難度也水漲船高,已難以填飽 AI 訓練的龐大 " 胃口 "。
合成數(shù)據(jù)常常作為真實數(shù)據(jù)的 " 平替 " 而存在。據(jù)人工智能初創(chuàng)公司 Cohere 首席執(zhí)行官 Aiden Gomez 在上個月底透露,由于 Reddit、推特等公司的數(shù)據(jù)采集要價太高,微軟、OpenAI 和 Cohere 等公司,已使用合成數(shù)據(jù)來訓練 AI 模型。Gomez 表示,合成數(shù)據(jù)可以適用于很多訓練場景,只是目前尚未全面推廣。
但在廣州大學計算機科學與網(wǎng)絡(luò)工程學院教授王員根看來,價格反而不是選擇合成數(shù)據(jù)最主要的考慮因素。
真實數(shù)據(jù)涉及大量個人隱私,冒然使用可能引起嚴重的法律糾紛問題,而且并非所有的真實數(shù)據(jù)都是可用的。互聯(lián)網(wǎng)上充斥著大量真?zhèn)坞y辨的信息,要從雜亂無章的真實數(shù)據(jù)中挖掘出可用的信息,需要大量的人工篩選。另外,真實數(shù)據(jù)還存在分布不均衡的問題。例如,訓練人臉識別系統(tǒng)時,從互聯(lián)網(wǎng)上爬取到的人臉數(shù)據(jù)中亮皮膚人臉圖像占多,而暗皮膚人臉圖像偏少,這將導致所訓練的模型存在偏見。合成數(shù)據(jù)恰能在一定程度上人為規(guī)避上述問題。
" 部分真實數(shù)據(jù)無法獲取,如清晰的水下圖像等,通過合成數(shù)據(jù)技術(shù)模擬生成相關(guān)數(shù)據(jù),能夠補充訓練數(shù)據(jù)的完備性。" 王員根補充道,盡管現(xiàn)階段大量合成數(shù)據(jù)建立在真實數(shù)據(jù)基礎(chǔ)上,但隨著技術(shù)的進步,未來對真實數(shù)據(jù)的依賴將逐步減少,目前已有技術(shù)能讓直接合成的數(shù)據(jù) " 以假亂真 "。
但合成數(shù)據(jù)并非十全十美。在 AI 訓練數(shù)據(jù)服務(wù)商 Appen 澳鵬官方發(fā)布的一篇文章中,就提到合成數(shù)據(jù)缺乏異常值,而這些異常值自然出現(xiàn)在真實數(shù)據(jù)中,對于模型精確度至關(guān)重要。另外,合成數(shù)據(jù)的質(zhì)量通常取決于用于生成的輸入數(shù)據(jù),輸入數(shù)據(jù)中的偏見很容易傳播到合成數(shù)據(jù)中,因此不能低估使用高質(zhì)量數(shù)據(jù)作為起點的重要性。所以,企業(yè)需要將合成數(shù)據(jù)與人工標注的真實數(shù)據(jù)進行比較,作為額外的輸出控制。
越敏感,越先突破
目前,合成數(shù)據(jù)主要應(yīng)用于哪些領(lǐng)域?
相比于自然語言、音頻等形式,合成數(shù)據(jù)最先在計算機視覺上展露拳腳。受訪專家們認為,這與圖片處理更加簡單直接、人類與環(huán)境進行交互時優(yōu)先通過視覺系統(tǒng)等因素相關(guān)。未來,其他領(lǐng)域的合成數(shù)據(jù)也將得到進一步的發(fā)展。
合成數(shù)據(jù)在自動駕駛、醫(yī)療、金融等場景有著廣闊的應(yīng)用前景。這些場景的共同點在于,真實數(shù)據(jù)敏感,難以獲取,但又關(guān)涉重大,有的還涉及人身安全,對數(shù)據(jù)質(zhì)量要求極高。" 哪里最有需要,哪里就會最先得到發(fā)展和應(yīng)用。合成數(shù)據(jù)技術(shù)最有可能在這些敏感場景中取得突破。" 王員根表示。
以自動駕駛為例,實際駕駛過程中,車輛可能會碰到各種復(fù)雜多變的路況,甚至是極端情況,如嚴重的交通堵塞、事故、惡劣天氣等。尤其是在極端情況下,使用真車冒險測試幾乎不可能,極難采集和獲取到真實數(shù)據(jù)。
合成數(shù)據(jù)可以模擬出這些情景。王員根介紹," 比如,要模擬暴雨天氣,我們就用日常能夠收集到的普通天氣的數(shù)據(jù),構(gòu)建一個物理或網(wǎng)絡(luò)模型,將‘暴雨’的關(guān)鍵參數(shù)輸入進去,就能生成相應(yīng)的場景。模型和參數(shù)越準確,場景的逼真程度越高。" 如此,能夠在保障人員和設(shè)備安全的條件下,提升自動駕駛能力。
公開資料顯示,許多自動駕駛汽車廠商都在合成數(shù)據(jù)和模擬方面進行了大量投資。例如,谷歌母公司 Alphabet 旗下的自動駕駛子公司 Waymo 在 2106 年就生成了 25 億英里的模擬駕駛數(shù)據(jù)來訓練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實世界收集的駕駛數(shù)據(jù)僅為 300 萬英里)。到 2019 年,這一數(shù)字已達到 100 億英里。
國內(nèi),騰訊自動駕駛實驗室開發(fā)的自動駕駛仿真系統(tǒng) TADSim 已經(jīng)可以自動生成無需標注的各種交通場景數(shù)據(jù)。華為云也基于盤古大模型開發(fā)了場景重建大模型,該模型可基于采集的路采視頻數(shù)據(jù)做場景重建(合成數(shù)據(jù)),普通用戶很難用肉眼分清這些重建的場景跟真實場景有何區(qū)別。
然而,自動駕駛涉及人身安全,合成數(shù)據(jù)畢竟不是完全真實的,這注定了企業(yè)使用這類數(shù)據(jù)進行訓練時會表現(xiàn)得更加謹慎。
小馬智行聯(lián)合創(chuàng)始人兼 CTO 樓天城向 21 記者強調(diào),合成數(shù)據(jù)既有憑空生成的虛擬數(shù)據(jù),也有基于真實數(shù)據(jù)加以修改得到的數(shù)據(jù),目前在 L4 的感知模塊中,小馬智行沒有使用憑空生成的虛擬數(shù)據(jù)。主要是因為 L4 方案依賴于激光雷達,對于如惡劣天氣、長尾物體等難度場景,生成激光雷達的虛擬數(shù)據(jù)與真實數(shù)據(jù)的分布差異較大,無法用虛擬數(shù)據(jù)來達到在真實場景下提升的效果。
但小馬智行會對真實數(shù)據(jù)加以修改來合成數(shù)據(jù)用于感知算法,對于不依賴原始傳感器輸入的模塊,例如路徑規(guī)劃和一些場景理解等算法,也會使用合成數(shù)據(jù)進行訓練和仿真評估。
樓天城認為,要把虛擬數(shù)據(jù)做到足夠逼真對標注質(zhì)量的要求反而更高。而對于一般的簡單場景,做數(shù)據(jù)挖掘和智能標注的數(shù)據(jù)閉環(huán)相比于研發(fā)合成逼真的虛擬數(shù)據(jù)的成本還要低不少。目前學術(shù)界對使用完全虛擬的數(shù)據(jù)進行自動駕駛的訓練有一些研究,不少公司也在做相關(guān)預(yù)研。從訓練效果來看,從 0 到 80 分有幫助,但對 90 到 99 分效果一般,實際落地部署的案例并不普遍。
" 我們也在關(guān)注合成虛擬數(shù)據(jù)相關(guān)的技術(shù)進展并持開放的態(tài)度,如果某一天技術(shù)足夠成熟時也會考慮應(yīng)用。" 樓天城表示。
數(shù)據(jù)標注產(chǎn)業(yè)將被重構(gòu)?
據(jù)咨詢公司 Gartner 預(yù)測,到 2030 年,合成數(shù)據(jù)將徹底取代真實數(shù)據(jù),成為 AI 模型所使用的數(shù)據(jù)的主要來源。而美國 AI 研究機構(gòu) Cognilytica 數(shù)據(jù)顯示,2021 年合成數(shù)據(jù)市場規(guī)模大概在 1.1 億美元,到 2027 年將達到 11.5 億美元。這是一塊讓不少科技大廠和初創(chuàng)公司垂涎的大蛋糕。
多家的科技巨頭均有合成數(shù)據(jù)相關(guān)的業(yè)務(wù)布局、投資或收購舉動。例如,2021 年,英偉達發(fā)布了用于訓練 AI 的 Omniverse Replicator 合成數(shù)據(jù)生成引擎,今年 7 月,英偉達初創(chuàng)加速計劃成員 Rendered.ai 將 Omniverse Replicator 集成到其合成數(shù)據(jù)生成平臺,使 AI 訓練變得更加簡單易用;亞馬遜也在多個場景探索合成數(shù)據(jù)的應(yīng)用,例如使用合成數(shù)據(jù)來訓練、調(diào)試其虛擬助手 Alexa,以避免用戶隱私問題等;Meta 則直接收購了合成數(shù)據(jù)創(chuàng)業(yè)公司 AI.Reverie,以整合至旗下元宇宙部門 Reality Labs。
創(chuàng)業(yè)公司方面,合成數(shù)據(jù)領(lǐng)域的投資并購持續(xù)升溫。計算機視覺合成數(shù)據(jù)提供商 Datagen 于 2022 年初宣布完成 5000 萬美元 B 輪融資;今年 4 月,新加坡合成數(shù)據(jù)初創(chuàng)公司 Betterdata 在獲得一筆 165 萬美元規(guī)模的種子輪融資;7 月末,國內(nèi)合成數(shù)據(jù)公司 " 光輪智能 " 宣布完成天使 + 輪融資,這家今年剛成立的新公司,已經(jīng)完成種子輪、天使輪、天使 + 三輪融資,累計融資金額達數(shù)千萬元。
錢文億觀察到," 過去幾年,全球幾乎每年都有好幾百甚至上千家新型初創(chuàng)公司建立,為各行各業(yè)提供用于算法訓練的合成數(shù)據(jù)產(chǎn)品。"
產(chǎn)業(yè)繁榮之下,我國也開始鼓勵和引導合成數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。今年 3 月初,中國證監(jiān)會科技監(jiān)管局局長姚前曾在《中國金融》雜志撰文稱,建議重點發(fā)展基于 AIGC 技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場 " 增量擴容 ",助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。5 月 19 日,北京發(fā)布的 " 北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃 ",提到謀劃建設(shè)國家級數(shù)據(jù)訓練基地,也提出了支持發(fā)展基于 AIGC 技術(shù)的合成數(shù)據(jù)新產(chǎn)業(yè)。
而在過去很長一段時間里,人工智能對數(shù)據(jù)的海量需求催生了一批數(shù)據(jù)標注師的就業(yè)群體。如今,當合成數(shù)據(jù)逐漸成勢,數(shù)據(jù)標注產(chǎn)業(yè)的格局是否會因此遭到?jīng)_擊?
王員根認為,沖擊是必然的,但需求仍在。" 首先這件事沒有那么快到來,其次,標注師們要進行轉(zhuǎn)型。比如,過去需要標注的是原始數(shù)據(jù),如今則變成了 AI 生成的數(shù)據(jù);又如在原本數(shù)據(jù)標注工作的基礎(chǔ)上,標注師們還將被要求分辨哪些是 AI 生成的數(shù)據(jù),哪些是自然數(shù)據(jù)等。即使合成數(shù)據(jù)越來越多、質(zhì)量越來越高,也離不開人類的引導和監(jiān)督,以及時修正可能出現(xiàn)的偏差。"
SFC
本期編輯 江佩佩 實習生 章寶怡
21 君薦讀
責任編輯:hnmd003
相關(guān)閱讀
-
未經(jīng)配偶同意,男子用 144 萬“賣房款”炒股虧損 70 萬,法院裁定:屬于嚴重損害夫妻共同財產(chǎn)利益的行為
財聯(lián)社8月14日訊,近日,北京高院審理了一起因婚內(nèi)炒股虧損導致夫妻財
2023-08-14 -
跌跌不休!地產(chǎn)、汽車股萎靡不振,AI 概念股逆市反彈;業(yè)績不達預(yù)期,2000 億龍頭股價創(chuàng)新低
今日,A股三大指數(shù)集體低開,滬指低開0 93%,深成指低開1 03%,創(chuàng)業(yè)板
2023-08-14
相關(guān)閱讀
-
AI 潮涌,這門生意爆了
作者丨郭美婷編輯丨吳立洋AI潮水洶涌,數(shù)據(jù)正成為一門火爆的生意。為了
-
未經(jīng)配偶同意,男子用 144 萬“賣房款”炒股虧損 70 萬,法院裁定:屬于嚴重損害夫妻共同財產(chǎn)利益的行為
財聯(lián)社8月14日訊,近日,北京高院審理了一起因婚內(nèi)炒股虧損導致夫妻財
-
大盤上演單日“ V ”型反彈,“市場底”來了嗎?
財聯(lián)社8月14日訊,大盤全天探底回升,三大指數(shù)仍收跌,滬指相對偏強。
-
跌跌不休!地產(chǎn)、汽車股萎靡不振,AI 概念股逆市反彈;業(yè)績不達預(yù)期,2000 億龍頭股價創(chuàng)新低
今日,A股三大指數(shù)集體低開,滬指低開0 93%,深成指低開1 03%,創(chuàng)業(yè)板
-
預(yù)計2027年我國汽車改裝行業(yè)市場規(guī)模分析
預(yù)計2027年我國汽車改裝行業(yè)市場規(guī)模分析隨著汽車消費逐漸成為大眾消費
-
未來生物識別技術(shù)行業(yè)發(fā)展前景如何 預(yù)計2025年生物識別技術(shù)行業(yè)市場規(guī)模分析
隨著人臉、虹膜和靜脈等識別技術(shù)取得重大突破,其產(chǎn)品得到了廣泛的應(yīng)用
-
智能制藥行業(yè)市場規(guī)模及增速預(yù)測
智能制藥行業(yè)市場規(guī)模及增速預(yù)測隨著人工智能浪潮的興起,AI也被用于提
-
2023優(yōu)質(zhì)牧草行業(yè)發(fā)展趨勢及市場現(xiàn)狀分析
2023優(yōu)質(zhì)牧草行業(yè)發(fā)展趨勢及市場現(xiàn)狀分析優(yōu)質(zhì)牧草行業(yè)發(fā)展趨勢及市場現(xiàn)
-
2023點餐系統(tǒng)行業(yè)現(xiàn)狀與市場發(fā)展前景趨勢分析
2023點餐系統(tǒng)行業(yè)現(xiàn)狀與市場發(fā)展前景趨勢分析點餐系統(tǒng)行業(yè)現(xiàn)狀,點餐系
-
城投綠城·N30°夢想城丨編織繁華圖景,藏納生活愜意
生活的意義在于生活本身,也在于如何去享受生活,城投綠城·N30°夢想
-
《博德之門3》獲M站官方認證:評分最高的PC游戲
《博德之門3》獲M站官方認證:評分最高的PC游戲,半條命2,pc游戲,單人游
-
《博德之門3》地精營地下毒攻略分享
相信大家都知道,在博德之門3中要想變的更強,那么就必須要知道《博德
-
辛選2022年成交總額達500億元 純購物用戶超8000萬
辛選純購物用戶超8000萬,用戶復(fù)購率達65%,人均付款訂單數(shù)超20,人均
-
北京:支持具有突出創(chuàng)新潛能的優(yōu)秀青年科技人才挑大梁、擔重任
中國青年報客戶端訊(中青報·中青網(wǎng)記者樊未晨)記者從北京市教委獲悉
-
五險里的意外險怎么報銷?報銷需要哪些材料?
五險里面沒有意外險,但是可以自己購買意外險,然后按照規(guī)定申請報銷。
-
慧馨安2022少兒重疾險購買渠道有哪些?有哪些保障?
大家如果想要投保這一款少兒重疾險,可以在保險公司的官網(wǎng)或者是下載保
-
達爾文6號重疾險和超級瑪麗6號哪個好?怎么購買呢?
達爾文6號重疾險和超級瑪麗6號都是知名保險公司推出的重疾險產(chǎn)品,它們
-
買人生意外險多少錢一年?怎么買?
人生意外險的價格因保險公司、保險產(chǎn)品和個人情況而異。 一般來說,保
-
個人購買意外險多少錢?怎么買?
視具體情況而定。 首先,個人購買意外險的價格因保險公司和保險計劃的
-
洪水退去,救援隊再相聚:從陌生人變“生死兄弟”
洪水退去,楊帆的生活回歸慢節(jié)奏。8月11日,他決定召集當初參加涿州救
-
涿州供水未完全恢復(fù),市民每天醒來第一件事:“接水”
“我們家已經(jīng)很多天沒有吃過蔬菜了,因為要洗,基本就靠燒餅、面之類的
-
反腐風暴下的醫(yī)院:有醫(yī)生減少手術(shù),學術(shù)會陷爭議,“正常講課退費沒道理”
醫(yī)藥反腐風暴洶涌。這一輪風暴已經(jīng)醞釀多時。7月28日,紀檢監(jiān)察機關(guān)配
-
現(xiàn)代汽車集團(中國)與能鏈智電達成合作,合力推進充電基礎(chǔ)設(shè)施建設(shè)
現(xiàn)代汽車集團(中國)與能鏈智電達成合作,合力推進充電基礎(chǔ)設(shè)施建設(shè)8
-
Lucid因3大問題召回6,360輛電動汽車
Lucid因3大問題召回6,360輛電動汽車三起召回都是在2023年7月27日發(fā)布的
-
福特推遲電動版探險者歐洲上市時間
福特推遲電動版探險者歐洲上市時間業(yè)內(nèi)人士懷疑,探險者的延遲還有一個
-
公安部交管局推出優(yōu)化機動車登記服務(wù)新措施
公安部交管局14日部署各地公安交管部門進一步細化措施、優(yōu)化流程,簡化
-
李大霄:長期資金入市的最好時機
李大霄表示,最近股市的下跌趨勢令人關(guān)注,他強調(diào)了長期資金在救市中的
-
天天收評:今日37股漲停 算力等AI概念股反彈
今日37股漲停,主要集中在通信、醫(yī)藥生物等行業(yè)。
-
消息稱特斯拉 FSD 測試版已向部分國內(nèi)用戶推送
IT之家8月14日消息,推特博主TeslaChinaAnalyst近日透露,特斯拉自動駕
-
不止手機、平板,小米發(fā)布會確認有 One More Little Thing
更新:小米確認今晚發(fā)布會有OneMoreLittleThing環(huán)節(jié)。IT之家8月14日消
精彩推薦
閱讀排行
精彩推送
- 趙明:榮耀將在 IFA 大展上發(fā)...
- 首位車主與賈躍亭合照亮相,法拉...
- 歡慶十周年?Apple Watch X ...
- 搶人大戰(zhàn),從直接發(fā)錢到首付降三成
- 中銀資產(chǎn)被罰 100 萬元:未經(jīng)...
- 疾風驟雨來了!美債收益率逼近年...
- 商務(wù)部:研究推動合理縮減外資準...
- 悶聲不響的淘寶,讓市場驚喜了一回
- 滬鋁高開后震蕩走弱 宏觀氛圍較...
- 重慶:支持提取住房公積金直接支...
- 2名中國男子在柬埔寨綁架同胞勒...
- 醫(yī)療反腐,捍衛(wèi)白大褂的純潔
- 山東污染環(huán)境刑事案件數(shù)量連續(xù)三...
- 泰康100元意外險保障范圍是什么...
- 太平保險的福祿順禧重疾險怎么樣...
- 意外險能賠幾次?怎么理賠?
- 大地保險大學生意外險賠償范圍是...
- 昆侖健康增多多3號下架了嗎?需...
- 2023年服貿(mào)會將設(shè)202場論壇會議...
- 歐盟天然氣價格飆升 專家稱制裁...
- 黑鉆用戶怒批攜程:買票被貸款還...
- 印媒:OpenAI 可能會在 2024 ...
- 硅谷一夜解禁 RoboTaxi 所有限...
- 跟 AI 打工,貧困縣也能月薪 7000
- 料酒抽檢報告:有“酒精”就能做...
- 千萬別再用這個姿勢睡覺!當心把...
- 擅自砍伐被風吹倒或已枯死的樹木...
- 已有中融信托投資人準備報案,合...
- Smart 車主刮起一股扣標風
- 寺廟文旅賽道火爆,普通寺廟如何...