對于電影愛好者來說,面部捕捉是一個既熟悉又陌生的概念,熟悉是因為在魔幻電影當中,動作捕捉和面部捕捉是常用技術,不少經典非人類角色,都是依靠這兩項技術完成的。正是技術進步,我們才得以見證《指環王》里恢弘的中土大陸和其中多樣的種族,《阿凡達》里的外星奇觀,也能看到,人類在熒幕上與其他物種建立聯系。
說陌生,則是因為對于大多數人而言,面部捕捉是一項聽過見過,但是沒體驗過的技術。我們一直是這項技術的旁觀者,而非親歷者。
但技術進步的曲線,往往有兩條分支,一支往前,向更遠的地方進發;另一支往下,從高成本到低成本,從影響寥寥數人,到惠及千萬大眾。有時候,兩條線也會齊頭并進,交織在一起,產生更大的能量。
在元宇宙里做面部捕捉,很難
在 2016 年的電影《魔獸》中,依靠動作捕捉和面部捕捉,亞洲洲草候選人吳彥祖在電影中扮演了一位丑陋邪惡的獸人古爾丹。
在動作捕捉和面部捕捉領域,甚至還有一位巨星名叫安迪·瑟金斯,他扮演了《指環王》三部曲里的關鍵人物咕嚕,以及《猩球崛起》三部曲的主角大猩猩凱撒。
▲ 去年微軟上線的元宇宙演示
電影,是我們身處其外的虛擬世界,元宇宙,則是未來我們可以身處其中的虛擬世界。不過,嘗鮮過元宇宙 VR 應用的用戶,可能已經深刻意識到,這里的「我」,還遠遠不是真正的「我」,這里建模粗糙,甚至一開始都沒法把用戶的腿給映射進去,更別說用戶豐富的表情了。
所以,有時候,作為嘗鮮者,我會羨慕起電影表演中的面部捕捉技術,希望元宇宙當中的我,不是那個如同 QQ 秀一樣的卡通小人,而是能縱橫中土大陸,艾澤拉斯世界或者潘多拉星球的幻想者。
但也不是沒有例外,愛奇藝熱播的首個虛擬現實游戲闖關真人秀《元音大冒險》,將一眾炫酷科技帶到了真人秀的節目制作中,讓嘉賓得以登上虛擬世界——元音大陸,開啟了一場奇趣爆笑的闖關冒險之旅。
這里可能是為數不多有「精致感」的元宇宙內容,這種精致感,正是源自虛擬人物與對應明星的「神似」,這種「神似」背后,則是前面提到的面部捕捉技術。
元宇宙當中,工業級,少數人能接觸到的電影級別面部捕捉,顯然不是普惠型技術,如果能用一個手機就能完成面部捕捉,那自然是最好。
但,想要實現工業級到消費級的跨越,自然是難度重重。
在如今成熟的工業電影當中, 實現精確的面部捕捉,幾乎遵循著高投入高質量產出的規律。
▲《阿凡達》特效制作前后
這里的投入既包括了時間也包括了金錢,就拿曾經給我們帶來視覺奇觀的《阿凡達》來說,導演詹姆斯·卡梅隆從萌生拍攝的想法再到項目落地,當中花去了 10 年的時間。
而在電影花絮當中,每個演員都需要在面部進行打黑點標記,再由面前的攝像機捕捉,同時,周圍再分布幾臺攝像機進行肢體動作的捕捉。
當所有劇情拍攝完畢之后,并不意味著電影制作已經結束,后續還需要大致一倍甚至兩倍的拍攝時間對攝像機采集的面部表情和肢體動作,一同擬合到虛擬人物當中。
▲《阿凡達》特效制作前后
且為了達到足夠震撼的結果,往往需要龐大的后期團隊一同完成。這種傳統的工業級流水線,效果雖好,精度拉滿,走的是好事多磨路線,放棄了速度。
面部捕捉的速度和精度,有些類似于魚與熊掌,在 AI 算法的設計領域,它們與功耗通常構成了一個不可能的三角形,也就是「三元悖論」,通俗一點就是一個三難選擇。
人臉當中有著 43 塊肌肉來協同表達我們的情感,很多表情既復雜又細微,不同表情的區別,往往也只有一河之隔。
想要在元宇宙里精確地表達出真情實感,或者說是將現實當中的面部微表情傳達到虛擬世界中,其捕捉精度必須達到一定的程度,需要準確掌握數百個特征點,再配合模型算法進行還原。
值得注意的是,我們提及的「元宇宙」并非是創作,可以擁有一定的后期制作,想要身臨其感,并做到實時反饋,面部捕捉和傳達需要保持同步計算,并實時反饋。
即便按照電影 24 幀的標準來看,它仍然需要每秒內實時處理 24 幀高精度的圖片,從幾百個特征點里抓取重點,完成對表情的重構。
光是對復雜而靈動的人臉進行面部捕捉,已經是個工程量巨大的工作了,人臉之外,還有很多很多外部因素和突發情況,也會影響面部捕捉的效果,在元宇宙里,我們不可能創造一個電影影棚,專業打光和后期電腦來完成這項工作。
一切,都是當下發生,當下記錄。
所以,想要更好的效果,還需要把不同的光影變化,所佩戴頭盔、攝像頭等設備的抖動,以及面部部分遮擋等客觀、主觀等因素加入在內。
總之,面部捕捉,聽起來可能只不過是一個圖像捕捉的技術,但實際上,它需要把與面部相關的各種信息點,以及微表情變化,光線環境等因素考慮在內。
它并不是人臉的肌肉變化一一呈現到虛擬世界里,而是把現實當中的情緒,準確而實時的傳遞過去。
為什么驍龍能做到元宇宙里的面部捕捉?
對于面部表情的記錄和呈現,實際上我們身邊早已有了相應的應用,也就是大部分廠商在聊天 app 當中加入的「動畫表情」。
它的作用像是一個豐富聊天的娛樂功能,精確度要求不高,也只能記錄幾個比較有特征的表情,細微表情實際上很難被呈現出來。
對于愛奇藝《元音大冒險》這檔節目來說,「動畫表情」這種形式遠遠不夠。
挑戰的是面部捕捉算法的魚與熊掌兼得的難題,并且人臉面部捕捉的難度,要大于人類動作捕捉,和動物面部捕捉。
因而硬件,軟件,硬件對軟件的支持度,這三個層面,決定了驍龍能不能做好面部捕捉,也就是說需要手機芯片平臺強大的底層算力以及神經網絡算法支撐。
早在元宇宙概念大火之前,驍龍芯片的影像算法就足以識別一定的人臉數據,并通過相應算法進行針對性的優化。
不過對于面部捕捉,或者說利用面部捕捉技術參與到《元音大冒險》節目的制作,尚屬首次。
首先是基于原有的技術對相應的算法進行調試,先從精度入手,訓練一個計算量龐大的復雜模型,盡可能的覆蓋所有可能性的表情,然后反復對比調試,完成適配節目錄制的需求。
再考慮到減小計算量而進行「裁剪計算」,換句話說就是減負,但前提是保面部捕捉一定精度的情況下,進行減少計算量。
此前,對于面部數據計算的 AI 算法是使用手機 CPU,在保持一定精度的情況下,只能維持到 30fps,且在高頻率的計算過程中,會容易引起設備的積熱,和在部分復雜光線表情下卡頓的情況。
為了解決功耗續航的問題,在這套算法上高通引入了驍龍 SNPE 工具(驍龍神經處理引擎,是一個針對驍龍加速深層神經網絡的運行時軟件)優化,并啟用 AI 引擎。
如此,原本的 AI 算法能夠達到 60fps 運行,并可以持續運行三個小時,幾乎完美解決了精度與速度,讓「魚與熊掌兼得」。
而讓人較為震驚的是,在節目錄制時,這個方案還只是基于上一代的驍龍 8+ 芯片,AI 引擎也是上一代。
還有一點,提前曝光的錄制花絮當中,參與錄制的明星面部并沒有傳統的密集的數據采樣點,只佩戴了一個僅固定設備用的頭盔與 Android 手機終端。
不需要特殊標記點,也不需要多個攝像機的多角度攝錄,一臺基于驍龍芯片的 Android 手機就能完成對面部 300 個特征點的采集,并利用終端的 AI 引擎對繁復的 AI 算法進行實時呈現。
對于面部捕捉來說,最終通過算法、AI 引擎、NPU 硬件加速實現了精度與速度的兼得。另一方面,對于《元音大冒險》來說,驍龍的技術實力,讓這檔節目也從構想到了實際行動上。
針對人臉之外的種種干擾,高通驍龍和相芯科技也一起針對各個細節,進行了技術突破。
比如藝人在唱歌時,由于話筒非常接近面部,會對面捕造成較嚴重的遮擋,技術設計上就需要考慮這一點,最終他們實現了即便嘴部部分遮擋,也能穩定捕捉嘴部動作,保持虛擬形象的面部穩定性、避免因為捕捉不到位而出現「抽搐、抖動」等影響現場效果的情況。
元宇宙第一站,驍龍做向導
可以看到,《元音大冒險》已經證明,在未來我們可以通過驍龍 8 系移動平臺的手機,來完成面部捕捉,像明星一樣,在元宇宙世界里映射本我,展現自我。就像小鬼王琳凱那樣,形象是古靈精怪的小丑,表情則依舊是自己的喜怒哀樂。
過去,我們可以清晰地感知手機 SoC 進步帶來的各種進步:單核 CPU 到多核 CPU,讓手機不再卡頓了;GPU 進步,能玩的游戲,從《憤怒的小鳥》到了桌面級別的《原神》,以及手游幀率,從 30fps 走向了 120fps 級別;網絡也是類似,得益于 Modem 的進步,網速也從 kb 到 mb 再到現在的 gb 級別。
更關鍵的是,如前面說說,技術不僅要往前,也要往下,如果現在手機操作系統的界面,依舊需要輸入指令符,而不是現在的圖形觸控界面,那驍龍芯片算力再強,也難以每年數億級別出貨。
在驍龍和相芯科技合作,完成元宇宙主題綜藝節目的超低門檻面部捕捉技術時,遇到的命題不光是克服技術難題,還有一個命題是,做出足夠簡單易用,智能穩健的技術,比較這項技術的使用者,不是技術人員和開發者,而是影視制作團隊和演員。
所有司空見慣的蘋果落地,背后都有一個復雜的地心引力學說,類似于驍龍支持面部捕捉這樣的進步,背后又是誰在出力呢?
答案是高通 AI 引擎。
相對于處理器的 CPU、GPU 而言,AI 計算引擎的存在感要弱一些,即便每一代 AI 引擎的算力都在成倍的增長,但帶來的感知卻似乎有點弱?
就拿這次對于面部捕捉又快又好的呈現來說, 普通設備當中的 AI 引擎已然達到了相當的水準。
而在平時,AI 引擎算力的指數增長,你的每一次操作,解鎖、開啟攝像頭、喚醒語音助手等等都無時不刻的不被 AI 引擎所包圍。
AI 引擎帶來的高算力,讓這些操作響應地更快,讓你察覺不到科技的存在,卻又被更好的人機交互包圍。
高通 AI 引擎在《元音大冒險》節目里,也不僅是在面部捕捉以及虛擬形象建立等方面發光發熱。元宇宙想要足夠的沉浸感,首先需要跟現實世界一樣有著視覺、聽覺等相應的感知。
精準的面部捕捉、動作捕捉,可以歸類到視覺當中,而聽覺,則借由 Snapdragon Sound 驍龍暢聽技術帶來低延時、高音質的體驗。
這些技術的背后都有高通 AI 引擎參與,AI 引擎的助力無形之中也成為開啟元宇宙背后的那把鑰匙。
如果對比一下國內外一些所謂元宇宙平臺里面的虛擬形象,比如 Meta 的 Horizon,就會發現,《元音大冒險》里所呈現形象,才能對普通人產生吸引力。這里面的形象落差,完全就是 2G 網絡和 4G 網絡的區別。