VR直播如何超越現(xiàn)場?微鯨VR技術VP仝曉亮演講實錄

?? 由 文心大模型 生成的文章摘要
上周,以“融合品質多元”為主題的2016上海網(wǎng)絡視聽季暨第八屆中國網(wǎng)絡視聽產(chǎn)業(yè)論壇在上海世貿商城展覽中心舉行,本次活動包含10個網(wǎng)絡視聽行業(yè)細分垂直領域的特色沙龍,而我正好參加了與VR相關的VR內容沙龍。值得注意的是,本次沙龍是由微鯨VR協(xié)辦的,而微鯨VR技術副總裁仝曉亮也在現(xiàn)場呈現(xiàn)了精彩的主題演講。仝曉亮的演講主題是“直播技術助力VR視頻產(chǎn)業(yè)化之路”,今天我就和大家分享一下這場充滿干貨的主題演講的內容,為達到最好的閱讀效果,我略微進行了整理。
對于直播來說,核心的改變在于技術,沒有技術就沒有直播。
當提到VR帶給用戶的感受時,我們用到最多的詞匯可能就是“臨場感”或者“沉浸感”,VR能夠把用戶帶到現(xiàn)場。我們認為,在現(xiàn)場是一個起點,如果你做不到在現(xiàn)場,你就不能說自己是合格的VR內容。對于微鯨VR來說,我們要做到不光在現(xiàn)場,而且要超越現(xiàn)場。
我們看一下視頻產(chǎn)業(yè)傳遞的媒介,影視內容從早期的膠片、磁帶到VCD、DVD再到現(xiàn)在,物理承載的方式一直在不斷演變。我們現(xiàn)在更多的是數(shù)字化視聽,它的承載更多依靠我們網(wǎng)絡的帶寬條件,我們可以看到信息傳遞的媒介也是和帶寬承載能力有一個內在的關聯(lián)。從早期2G時代,大家只能發(fā)短信傳遞文字信息;到3G時代大家看圖片,分享語音;到了視頻應用,視頻交流,我們依賴于4G通信網(wǎng)絡以及20兆以上比較普及的家庭帶寬。我們也看到,現(xiàn)在直播平臺非?;穑@樣一個現(xiàn)狀也會進一步催生我們對于帶寬的要求。反過來說,傳輸帶寬不斷提升對于我們所能夠承載媒介體量都會有一個促進作用,這兩者并不是一個因果關系,但他們實際上有一個深刻的互相內在關聯(lián)。
提到直播,我們認為它會是VR視頻內容比較早的走出商業(yè)化步驟的起點。目前VR視頻內容的商業(yè)化模式有可能有哪些?我在這里說一些我的看法,但并不一定是說有非常好、非常成熟的商業(yè)實踐,至少我們看到了一些苗頭。一種是院線的票房和線下付費體驗,做得比較好VR影視內容本身可以收費;第二種是企業(yè)的宣傳片,這是To B的業(yè)務,付費方是企業(yè),它的觀眾可能就是企業(yè)的員工以及企業(yè)的客戶;第三種是景區(qū)的導覽,這種付費方可能是政府,它的目標對象應該是游客或者潛在游客;對于婚禮、發(fā)布會也是To B的模式,實現(xiàn)商業(yè)化。還有廣告,目前VR廣告本身都是比較精彩的VR內容,這是它跟傳統(tǒng)廣告不同的一點;另外一種是在VR內容里面貼廣告。接下來還有秀場,我們已經(jīng)看到有秀場平臺在做VR的演進,這應該是最接近讓用戶付費的方式。接下來是體育和音樂兩大領域,這兩大領域里面,目前用戶在傳統(tǒng)直播領域開始形成比較好的付費習慣,我們可以做在線音樂會付費門票,比如50塊或者30塊一張,你通過網(wǎng)絡觀看這種已經(jīng)比較流行了,這也是我們認為直播能邁出商業(yè)化的前提。
我們認為,直播的技術對于VR視頻體驗帶來的是強化的作用,具體來說主要有以下幾點。
第一點,體育類的比較強調競技性或者競賽的內容,是有時效性的。我們以前在學校的時候,看NBA的比賽,通常都是上課的時間,如果周末,你可以全程觀看,你的感受與下課之后再下載比賽的錄像再看,你的感受其實不一樣,因為你已經(jīng)知道結果甚至已經(jīng)知道過程了,這個樂趣就少掉很多,這是直播本身特有的屬性,不僅限于VR。
第二點,我們對VR周邊環(huán)境還會很好奇,如果我們對于這個過程和結果保持好奇心的話,會把更多注意力放在內容本身。這樣有助于提升用戶的體驗,直播技術會使得我們場內和場外的互動成為可能。對于直播來說,這種可能性是存在的,而且我們已經(jīng)看到了這樣的嘗試,比如演唱會現(xiàn)場大屏幕和場外做直聯(lián),相當于做一場直播,把現(xiàn)場變成一個大的秀場,場外觀眾通過網(wǎng)絡觀看可以獻花、送禮物有其他的互動方式,這些結果會呈現(xiàn)在大屏幕上,可以實現(xiàn)場內場外互動,以及包括明星與非現(xiàn)場粉絲之間產(chǎn)生互動。
最后,通過直播的技術,可以使虛擬的世界帶來比較現(xiàn)實的社交空間。舉個例子,我們接下來要做籃球賽的直播,雖然我和我的好友不能到現(xiàn)場看籃球比賽,但是我們可以待在各自家里,戴上VR頭盔看這樣一場直播,我們在同一個時間點在這個過程中間可以通過語音交互,不光可以看球還可以一起評論。如果我是一個行家,我可以通過這種方式形成一個我自己的私人演播室,我可以邀請周圍好友聽我給他們講球,這就是現(xiàn)實場景在虛擬世界的延伸。這樣的場景只有在直播技術下才可以實現(xiàn)。
直播的技術究竟是如何做到呢?我簡單說一下我們目前所采用直播系統(tǒng)的架構。
VR視頻直播包含視頻的采集和音頻這兩塊,對于視頻來說采集到的視頻需要全景的拼接,再按照一定規(guī)則做投影,最后和傳統(tǒng)的直播就比較接近,做一些播控。對于音頻采集處理要特殊一點,全景音頻處理非常困難,到目前為止還沒有特別成熟的解決方案,只能看到一些有深厚積累的公司在做嘗試,在直播場景下面也很難支撐到實施性的要求。在這一點上,后面我們還會繼續(xù)去做一些深入的探索。全景化之后我們會做音視頻加嵌編碼推流CDN分發(fā)和用戶觀看,這是我們采用的技術架構。是不是所有團隊都這樣做?不一定,未來我們是不是還會這樣做?也不一定。
未來VR直播技術會有哪些發(fā)展方向呢?說一下我個人的看法。
第一個方向,在我們剛才展示的架構下面,以傳統(tǒng)直播技術體系做參照,以傳統(tǒng)直播體驗做標桿,從VR功能和性能的可靠性不斷逼近傳統(tǒng)的可靠性。以體育直播為例,因為這是一個傳統(tǒng)直播技術最高的品類,在直播過程當中,我們其實通過傳統(tǒng)直播技術比在現(xiàn)場可能看得更好,你不一定感受到現(xiàn)場的氛圍,但你一定能看得更清楚,因為你會有慢動作,會有及時的回放,休息期間還可以看到剛剛過去的賽事集錦,所有技術支撐來提升用戶的體驗。類似這些東西,我們認為對用戶體驗有價值的東西,在VR直播技術當中,我們都會考慮要把它實現(xiàn)。在VR直播技術當中給用戶的體驗是不是會有不同?只有試過才知道。
第二個方向,相對于現(xiàn)有傳統(tǒng)直播設備、技術、工作流程,我們有一套完整的、全新的基于IP、集合傳統(tǒng)直播功能的一站式軟硬件的解決方案,我們在現(xiàn)場有非常強大的工作站,它可以通過軟件技術實現(xiàn)原有直播當中的所有設備的功能?;贗P前提為什么要加在這里呢?基于我們對超高分辨率技術采集的需求,這樣的需求對傳統(tǒng)直播也是一個瓶頸,傳統(tǒng)直播是非常成熟的解決方案,但是對于4K直播、對于4K體育直播,國內還沒有成熟的解決方案?;贗P的話,這是一個方向,對于傳統(tǒng)直播來說也是一個方向。
第三種可能性,我認為是完全面向未來基于云服務的自助式解決方案。我們在現(xiàn)場可能僅僅要做的事情就是信號的采集,采集完我們保持直接聯(lián)網(wǎng)的狀態(tài),隨時隨地把自己采集到的視頻流傳送到云端,后面所有一切工作由云端完成,這樣大大簡化現(xiàn)場的系統(tǒng)和部署,這樣有更好的靈活性。這是我認為未來直播技術發(fā)展的方向。
我們現(xiàn)在不管是VR影視也好,還是VR直播也好,提升用戶體驗還受到一些限制。
我把第一位排給了機位的稀缺度,俗話說“一白遮百丑”,如果你的機位距離主體足夠近,可能后面所有問題都是可忽略的,這是我的第一個觀點。后面的清晰度、流暢度這些是老生常談,所有的VR用戶抱怨都集中在這一塊。另外還有很深刻的影響就是交互的便利性,我在VR播放界面里面如何做操作,我想很多用戶都有這方面的難題。
下面一行其實是用戶端的瓶頸,我們現(xiàn)在大多數(shù)用戶還是通過手機來觀看,手機的解碼能力、功耗、頭動時延,這些都會影響到用戶會不會暈眩,包括屏幕顯示效果,我們在實驗的過程當中都看到不同的差異,不同終端的表現(xiàn)不一樣。這些并不是直播技術本身的瓶頸,但是它也限制了直播技術給用戶帶來體驗的提升。
如果我們單獨看VR直播技術,它有下面一些瓶頸。
第一點,我們現(xiàn)在傳統(tǒng)直播的設備、技術以及信號制作方法,對于VR模式是不友好的。
舉個例子來說,這是我們“昆侖決”直播信號里面的一張截圖,大家看一下底部加載logo的位置,誰能第一眼看到里面有昆侖決三個字呢?三種主色調,藍色、黃色、紅色,紅色加著銀灰色就是昆侖決三個字,如果我在里面加載字幕,不能直接放在上面,要做處理,這樣觀眾看上去才是對的。還有一個問題,對于這種展開模式來說,在畫面不同的高度,它的畸變效果不一樣,如果在屏幕的正中間你可能不用做任何畸變,如果在頂部或者底部,你就要做到連他媽都不認識的狀態(tài)。如果現(xiàn)在有一個特效從天上掉下來,它每移動一幀像素就要做一次畸變的校正,這樣的工作怎么完成呢?
VR由于其視頻的獨特性,因為是基于球面,我們現(xiàn)有的工具都是基于平面,其實在球面是不能支撐到的。我給大家展示的還是目前相對好的狀態(tài),至少我們可以有一種方式,有一種方法,先把這種預畸變做好,直播的時候再加載進去。但這種方式是最通用的方式,對帶寬需求最高,如果我們用算法把帶寬降下來又是什么情況呢?
這是我們采用八面體的方式得到的畫面,誰能告訴我加字幕應該怎么加?所以可以看到,整個產(chǎn)業(yè)鏈對VR內容的模式來說是非常不友好的。
我們再看另外一個話題,就是帶寬。這塊大家討論都很多,有說30、50倍,其實我們不用說得那么夸張,至少5倍到10倍更高的帶寬需求是毫無疑問的。
剛才也提到客戶端的硬件性能,我們要更高的畫質,就要更高的分辨率,包括采用更有效的編碼手段。我們把制作精美并且高效壓縮的信號給到用戶之后,他打開只有黑屏,那就沒有任何意義。
另外,我們現(xiàn)有編碼優(yōu)化的經(jīng)驗,在VR觀看模式下是水土不服的。這里面要稍微解釋一下,投影和編碼其實是兩個不同的階段。這里的編碼優(yōu)化在長期以來是一直都存在的,對于傳統(tǒng)視頻在網(wǎng)絡上的傳播也是需要做編碼優(yōu)化的。我們試過有很多很好的編碼器,他們對于傳統(tǒng)的視頻做一個編碼壓縮之后,相同碼率下帶來30%左右的畫質提升。同樣條件下在VR里面是怎樣呢?我們也做了一個對照測試,結果很超出我的預期。在基于電視或者是PC手機觀看模式下面,更優(yōu)的編碼優(yōu)化方式,在VR觀看模式下面效果最差。現(xiàn)在對于VR模式下的編碼優(yōu)化,沒有任何人有經(jīng)驗,之前所有的經(jīng)驗都是基于PC、電視,這些經(jīng)驗到了今天全部歸零。
我們如何來打破瓶頸最終實現(xiàn)對現(xiàn)場的超越呢?這也是微鯨VR對于自己的規(guī)劃。
首先,我們可以做6K和8K的原始數(shù)據(jù)采集,這是清晰度的技術,至少在原端要保證超高清。
其次,我們會優(yōu)化投影和編碼兩個算法,目的就是要提升畫質,大幅度降低我們對帶寬的需求。投影這塊我們已經(jīng)有了很多研發(fā)投入,也有專利的布局,這塊工作已經(jīng)做得很到位了,但是編碼的優(yōu)化剛才也提到,我們剛剛發(fā)現(xiàn)比較震驚的結果,所有編碼優(yōu)化的成果到了VR面前都歸零,后面在這塊我們也會加大投入。
最后,我們要對直播的技術做產(chǎn)品化,產(chǎn)品化最終影響是用戶最直觀的體驗,我們在直播的過程當中,對內容的延展,對實時數(shù)據(jù)做一些補充,對于增加互動以及社交等等,讓用戶在觀看直播的時候,能夠更自在,能夠看到比現(xiàn)場更多。
比如我在觀看球賽的時候,如果在現(xiàn)場大屏幕上只能看到實時的比分和比較簡要的數(shù)據(jù)統(tǒng)計,以及時間進度等等很簡要的信息,在VR直播里面由于我們有360度空間,我們有足夠的空間來展示更多內容,我們可以延展展示比如每個球員個人的信息,球隊過去的戰(zhàn)績等等,這些東西我們都可以放在背后,大多數(shù)時候你都可以關注比賽,但是你想知道這些信息的時候,轉身之后有一個瀏覽器在后面可以幫助你查詢所有數(shù)據(jù),這是內容的延展。
另外我們可以承載更多實時數(shù)據(jù),在現(xiàn)場大屏幕都看不到的實時數(shù)據(jù)。此外就是互動,跟現(xiàn)場的互動,包括我前面舉的例子,在虛擬場景下面可以跟好友一起看球的社交體驗。
我們認為這些內容做起來,作為一個獨立的產(chǎn)品本身,它能夠給用戶帶來一個非常好的體驗。再加上我們的直播技術,如果我們解決了清晰度的問題,解決了帶寬問題,我們能夠很清晰、很流暢觀看到現(xiàn)場,我們覺得就沒有必要再去現(xiàn)場。當然對于不同人來說,還有不同的價值判斷,但對于大部分人來說多了一種選擇。所以如果我們做到這一點,我期待下一次論壇大家都不用親自到這里來了,謝謝大家!
【913VR原創(chuàng)內容,轉載請注明及回鏈】