首頁 > 新聞 > 智能 > 正文

馴服調皮的 Diffusion,就能讓服裝賣家們不再為請模特發愁了!

2023-07-12 09:15:31來源:ZAKER科技  

產品簡介:簡單來說 ,Weshop 就是 " 一鍵給服裝商品配個模特 " 的 AI 工具。用戶在上傳自己拍攝的真實服裝圖片后,可以在它提供的交互界面里,通過簡單的勾選和語言描述,生成不同風格種類的模特圖。這對中小電商賣家,尤其一些需要外籍模特的跨境商家來說,可以節省很多成本。目前它已經對外開放,并可以免費試用。


(相關資料圖)

2022 年 8 月,Stable Diffusion 開源了它的模型。它進一步降低了對計算設備的需求,同時又帶來了驚艷的圖片生成效果,和已經被很多人把玩的 Midjourney 一起,伴隨著口水和爭執徹底帶火了 AI 生成圖片的技術應用。但隨著使用者增加,人們也困擾于它的不可控:一些細節總是無法按照需要生成,導致圖片經常無法真正的被使用——雖然叫 stable 但并不怎么穩定。

直到次年 2 月,ControlNet 的出現改變了一切。這是一種神經網絡結構,通過增加更多的條件來控制擴散模型,當加到 Stable Diffusion 上后徹底改變了它的可用性。

在 Controlnet Stable Diffusion 剛一出現時,并沒有立刻改變混亂的 AI 繪畫社區,藝術家和創作者們還是在混亂而興奮的討論和使用著這些工具,但在杭州的一個小辦公室里,一個一直在關注 Diffusion 模型的小團隊,覺得他們等了很久的東西終于出現了。

" 我覺得這一波有機會了。" 吳海波對我說。他是 WeShop 團隊的負責人,他們開發了一款基于 Diffusion 模型的服裝模特生成工具。WeShop 團隊是電商公司蘑菇街的一支特種兵,他們一直在關注虛擬試衣的方向,在 Stable Diffusion 出來時,他們已經在嘗試搭建自己的各種 demo,而看到 ControlNet 的一刻,他們覺得是時候做一些更深入的版本了。

ControlNet 讓一個期待了許久的技術走向商業場景的可用,而另一個沖擊也在 4 月到來—— Meta 的 Segment Anything 出現。這是一個用于圖形分割的基礎模型,讓人們可以只通過提示工程就可以高效的完成高質量的圖形分割。

這是一次飛躍,所有人都炸了。

吳海波回憶他所在的技術討論小群看到這篇論文的那個夜晚。" 那天晚上大家都很熱鬧,因為你一直在做相關的工作,就會發現你看到這個技術時你的理解跟別人不一樣,你一直苦惱的東西你覺得它能馬上解決。"

然后一周半不到,WeShop 的全新方案完成。

今天你打開 WeShop 的網站,可以看到這是一個三列式的布局。" 最左邊是功能圖,你可以理解成它是我今天雇的一個 AI 攝影師,他目前主要是干這個場景的,但我們未來會有非常多場景,比如說你要拍個淘寶類的,拍個小紅書類的,拍個拼多多類的,你再拍個亞馬遜類的,以前只能一套圖多用,但現在完全是可以的。 "

簡單來說 ,WeShop 就是 " 一鍵給服裝商品配個模特 " 的 AI 工具。用戶在上傳自己拍攝的真實服裝圖片后,可以在它提供的交互界面里,通過簡單的勾選和語言描述,生成不同風格種類的模特圖,也可以選擇讓這些模特出現在不同的背景中。這對中小電商賣家,尤其一些需要外籍模特的跨境商家來說,可以節省很多成本。目前它已經對外開放,并可以免費試用。

以下為一些真實例子,可以看到,它生成的圖片和真實模特拍攝的之間已經難以區分。

" 商家們比我們更聰明 "

技術方案確定的同時,WeShop 也快速選擇了兩個主要的商用場景:一個是外模場景,另一個是 " 真人場景 "。

前者來自于 WeShop 過去幾年和跨境商家的接觸,他們普遍苦于尋找合適的外籍模特,而疫情更加深了這種苦惱;另一個則基于蘑菇街的電商經驗。

" 因為我們做這么多年電商之后,非常討厭貨不對版,我們認為必須設定底線,也就是但凡任何一套技術它會改變商品本身的細節的,售賣的過程中就會出問題,就不能上。"

所以 WeShop 設計了真人和人臺的概念。

" 人臺是說,你針對真實產品雖然請不起外模,但你自己把它穿上去,你只要這樣拍,具體是什么樣都無所謂,你在哪里拍都好,我們都可以給你生成好看的模特圖片。我們產品反復在迭代就是降低你對圖片本身的要求,這是核心未來要不停做的。" 吳海波說。

" 第二個是真人,也就是有好多國內賣家,他其實也拍過圖了,拍過圖之后我們可以幫他把圖換掉,可以生成另一種圖。"

而在產品逐漸提供給商家試用后,更多的有意思的需求由商家們提了出來。

一個是今天網紅帶貨里非常愛說的 " 氛圍感 ",有非常多的商家反饋他們非常需要摳背景,就是商品換背景,換各種地方,而傳統的技術會顯得不夠逼真。" 然后我們發現我們花了一點精力做了一下,效果也很好,我們也就做上去了。"

而更讓開發團隊感到驚喜的,是聰明的商家們發明的使用竅門。

在人臺的生成過程中,不可避免出現一些崩掉的問題。weshop 團隊一開始想了各種方法,比如讓商家自己買個真人臺,要求一定要有頭,或者用技術的方法給每一個人臺再生成一個頭。

最后發現,用戶自己解決了,方法非常簡單,就是在上傳圖片時,同時在頭的位置涂抹兩下,就好了。

" 是我們自己想多了,用戶比我們聰明多了。" 他說。而這樣的做法從技術上也能立刻理解,它幫助模型識別的更準確。" 我們馬上會有一個新的功能,就是讓他更容易涂,直接在我這邊能涂,不用去美圖秀秀,也不用去 ps 中涂,后面還會再加一個小工具擴一下,可以涂,還可以把四肢長出來。"

越來越多的商家開始使用,也有越來越多的商家開始付費。目前,weshop 的訂閱價格為 298 元 / 月、598 元 / 月、1598 元 / 月,其對應算力點為 20000、60000、200000,分別約可生成 2000 張、6000 張、20000 張商拍圖。此外 WeShop 也提供 " 加油包 " 作為算力補充,有 25 元、125 元、250 元三個檔位可供選擇。在這個收費邏輯下,用戶使用 WeShop 越熟練,算力浪費就越少,即單張商拍圖的價格就越低。

產品經理思路

作為一款基于新流行的人工智能技術開發的產品,也意味著它在開發過程中要面對全新的問題,以及解決全新問題的技術路線的抉擇與取舍。

在技術方案確定后,WeShop 團隊面對的最大挑戰依舊是如何讓這套技術方案能夠在業務工作流里聽他們的話。讓擴散模型可以被掌控永遠是非常難的事情。

如果把 Diffusion 想成一個人,他就是一個很調皮,有自己想法的人。

比如,吳海波介紹了一個調皮的例子:" 大部分時候我們把圖像切割出來之后,Diffusion 模型非常喜歡在商品的邊緣做一些他自己的修飾,比如說他給你袖子這里加一個鏈條,或者說你明明是一個穿著高跟鞋的,他給你上面加一些花紋,就是你的鞋面上給你加一點東西,你的鞋跟給你加一點東西,就這些事情他非常喜歡干。"

而面對這樣的問題,WeShop 團隊也曾想出很算法科學家的解決方案——他們開發了一個模型。" 這個當時按我們的理解,就是一個局部重繪的場景,所以我們當時就開發一個模型,它可以緩解很多這種問題。" 吳海波說。

但是當模型上線時,在測試的時候他們發現,這個模型會讓整體照片的質感偏向一種油畫的感覺,像是加了一層濾鏡——這是產品經理思路的人才會發現的問題。

" 對產品經理來講,才會盯這個東西,且盯得很細。我們在自己的測試集里面是沒有問題的,如果是發 paper 的那種算法開發的思路,這就夠了。但是我們選擇拿很多用戶上次跑過的案例再跑一次,結果兩張圖放一起比就發現,一些情況下濾鏡的感覺就出來了。" 吳海波說。

團隊內部為此爭論了一個星期。" 這是一個電商場景,他拿回去還要再做處理的,我最好給他的是一個 iPhone 原片,或者是某個單反攝像機的原片這種感覺,他可以再做處理。但我如果已經給他了,他就沒法用了,它的感受不一樣,感受 p 圖過度了。"

" 最后我們決定下線自己研發的這個模型。" 吳海波說。" 對我們來說迭代出一個模型是非常困難的,而且好不容易有一個模型能上線解決一個很重要的問題,但最終我們還是強行下線了它,沒有讓它出現在客戶面前過。"

這也形成了 WeShop 的產品思路,產品經理的比重會大過純算法或者技術的思路,因為后者往往會走向炫技的陷阱。

WeShop 團隊內部也經常討論為什么 GPT 會在 OpenAI 而不是在 Google 出來的問題。一個結論就是,對同樣的模型,怎么去調它這件事,理解是不一樣的。

" 我們實踐的過程中我們出的圖臉很少崩的,因為我們接受不了臉崩這件事情,因為我做產品的,我怎么把整個臉都崩成鬼畜的樣子出來,這是不能接受的。但是如果是一個工程師團隊或者是一個學術團隊,我第一波做完,我現在公開測試指標好不好,我指標如果不錯,然后再從我的 case 中,只要我的臉崩概率小于百分之多少,我就認為可用了,就類似于這一套東西跟我們以前做算法很像的,發 paper 的思路,做完結束了,那就做下一個。

吳海波記得 OpenAI 也分享過類似的經驗,他們與 Google 的區別就在于,OpenAI 的人們就像一個產品團隊,開發后會不停的用產品,而 Google 的團隊在學術界 paper 發完了就進入到下一個課題了。

" 但是只有產品經理、對產品負責的人,他才會反復對自己孩子一樣,反復用它,你才會知道它的邊界已經超出你的認知了,你指導回來的那個技術方向也就不一樣。"

吳海波認為,他們今天能做到這個程度,一定程度上也是對 SD 的實踐是遠多于其他人。

" 它的邊界在哪里?我們試過的 case 是多于其他人的,所以當我們產品第一天上線的時候,可能別人還不太理解為什么能到這種效果。其實每次歷史上都是有一波人他自己因為用的夠多了,才會對這個東西有更好的理解,然后做的東西就不太一樣。"

在 6 月中旬,谷歌也發布了用在虛擬試衣的 TryOn Diffusion,可以向顧客展示衣服在不同體型和尺寸的真實模特身上的效果。它基于擴散的框架,把兩個 Parallel-Unet 統一起來,實現了對衣服細節的更好的把控。

達到這個效果的一個重要方法,是基于谷歌自身算力資源進行的大量訓練。

" 我們也看了它的研究,其實證明了這條路的前景,大廠用暴力證明這條路,后面開源社區會給它進一步實現。" 吳海波說。

虛擬試衣看起來離我們越來越近。

不過,在這樣一個蓬勃發展的技術下,單獨的一個產品不是最終的目的。WeShop 團隊經常思考,什么才算是 AI native 的產品。

" 當然今天這個產品剛做出來還比較早期,但我們內部有一些想法,他們不一定對,但是更遠。" 吳海波說。他相信 AI Agents 的方向,未來會是很多種 AI 工具最終結合到一起,有點像是一個 AI 管理的經理。

" 今天的大模型有點像一個常青藤畢業讀了最多的書,有非常好的背景的學生,他什么都懂,什么都能跟你聊一聊,但他就是不知道你的業務問題是什么。" 他說。

"AI 的技術雖然很強,但它總是要有某個流程把它串在一起。怎么串可能現在還不知道,但我們先把一些特定的場景做出來,可能誰第一個找到這個業務流程中數據閉環或者業務閉環,找到能跟 AI 之間反饋并且直接迭代的,誰就有了最深的壁壘。"

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀