成本降到千元級別、12小時出demo、可自行定制“數(shù)字分身”……數(shù)智人生產(chǎn)有了可批量復制的“生產(chǎn)工廠”。
(相關(guān)資料圖)
4月25日,騰訊云智能小樣本數(shù)智人生產(chǎn)平臺首次對外發(fā)布,平臺具有訓練樣本小、生產(chǎn)效率高、自動化生產(chǎn)等特性,可以實現(xiàn)“自助式”數(shù)智人生產(chǎn)制作。 3分鐘真人口播視頻、100句語音素材,平臺便可通過音頻、文本多模態(tài)數(shù)據(jù)輸入,實時建模并生成高清人像,在24小時內(nèi)制作出與真人近似的“數(shù)智人”。
以知識分享口播視頻生產(chǎn)為例,小樣本數(shù)智人可以代醫(yī)生、律師等專業(yè)人士出鏡,大大節(jié)省視頻錄制時間。
數(shù)智人的價格、生產(chǎn)周期的下降,離不開通用模型的進步。
曾經(jīng)訓練每一個數(shù)智人,需要幾十小時甚至更長時間的語料、視頻素材,而用通用模型的學習,每一個新的數(shù)智人的定制,包括形象、音色等,邊際成本會有所下降,逐漸成為固定成本。同時,數(shù)智人的生產(chǎn)周期也大大下降,曾經(jīng)是以月為級別,如今一天內(nèi)就能生成。
因為標注數(shù)智人的成本較高,騰訊在技術(shù)的構(gòu)建里,引入了自監(jiān)督機制,“讓數(shù)據(jù)自己約束自己,可以省掉很多數(shù)智人標注時間。”
騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰介紹,早期做3D重建時,需要自己設(shè)計一套表情,再用3D掃描,才能獲得一個3D人臉,需要花費半個小時到一個小時,一天能夠采集的人的數(shù)量有限。而采用了自監(jiān)督模式后,生成效率就會大大提高,數(shù)據(jù)量提高后,模型的表達能力也會提升。再通過自監(jiān)督學習的方式,去消化大量數(shù)據(jù),構(gòu)成預訓練模型。另外,生成模塊中,3D重建渲染出來變成自然圖像,最后也會以自監(jiān)督學習的模式變成自己學習,達到消化大數(shù)據(jù),通用預訓練模型的效果。
另一個降低成本的方式是提高自動化生產(chǎn)能力。比如,原來一個人有50-200多個表情,挨個制作較為麻煩,現(xiàn)在重建算法,自動去生成標準,就能加快整個制作過程。
“小樣本數(shù)智人,看到的小,但是背后是大,是基于自監(jiān)督技術(shù),構(gòu)建大的數(shù)據(jù)、大的模型。現(xiàn)在是3分鐘,可能過幾個月變成1分鐘了,大模型持續(xù)去消化更多的數(shù)據(jù),模型會變得更大。”汪鋮杰說。
目前,“數(shù)智人工廠”大多還是面向企業(yè)端用戶、特殊名人定制等方向,由于個人投入的商業(yè)模式較為模糊,出于算力成本、制作成本等考慮,開放時間未明。
“(C端個人用戶)整體的落地,一個是時間成本,一個是金錢成本,還有一個是穩(wěn)定性,這三個如果都解決了,對于個人來說做自己的數(shù)智分身都是觸手可及的。我們會變成自助式的,客戶可以自己開賬號,下單,購買,上傳素材,自己訓練,確認效果好不好,后續(xù)就是一站式的,自己獨立式的生成。”騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊說。
撰文 | 趙子坤
編輯 | 董雨晴


