全屏美女视频来电铃声,古力娜扎污视频,杨幂视频13分钟

　　QCon北京2017，我司陳若非博士講解了《實時音視頻質(zhì)量評估與監(jiān)控》，以下是演講精要。

　　陳若非，畢業(yè)于香港城市大學(xué)，Ph.D。在聲網(wǎng)Agora.io負責(zé)基礎(chǔ)音頻技術(shù)。曾任職于YY基礎(chǔ)技術(shù)研發(fā)部。IEEE期刊與會議評審。

　　目前，在實時音視頻領(lǐng)域普遍存在幾個問題：

對實時音視頻的難度估計不足
對實時音視頻的測試方法了解不多
對上線后可能遇到的困難準(zhǔn)備不足

　　這三個問題，就導(dǎo)致了一些實時音視頻產(chǎn)品在上線后，質(zhì)量差、用戶體驗差，甚至不能達到商用的標(biāo)準(zhǔn)。

　　本文將會解答以下3個問題：

音視頻的現(xiàn)狀與趨勢
音視頻的質(zhì)量問題及其來源
如何快速建立一個公平有效的評估體系

　　實時音視頻的現(xiàn)狀

　　實時音視頻，最主要的特點是，低延時。根據(jù)ITU-TG.114標(biāo)準(zhǔn)，單向通話延時大于150ms就可受到通話連續(xù)性受到影響，最大可容忍時延為400ms。

　　實時音視頻，主要會應(yīng)用于實時的音視頻通信，比如網(wǎng)絡(luò)電話、視頻通話；也會應(yīng)用于直播，尤其是直播中的多主播連麥；同時，還會應(yīng)用于一些垂直場景，比如手游中的玩家實時對講，在線教育課程等。

　　目前，實時音視頻這個領(lǐng)域，涉及到三個層次。最底層的硬件基礎(chǔ)設(shè)施升級，wifi的普及，3G向4G、甚至5G的升級，手機等終端設(shè)備計算能力的提升，都會加速實時音視頻的發(fā)展。中間層是實時云CaaS（Communications-as-a-Service，通訊即服務(wù)）。CaaS是將傳統(tǒng)電信的能力如消息、語音、視頻、會議、通信協(xié)同等封裝成API或者SDK通過互聯(lián)網(wǎng)對外開放，將電信能力真正作為服務(wù)對外提供。聲網(wǎng)Agora.io就處于這一層。最頂層應(yīng)用層，直接面向終端用戶，涉及到諸多垂直行業(yè)。

　　實時音視頻的發(fā)展趨勢

　　實時音視頻，朝著3個方向發(fā)展：

　　越來越真實

視頻清晰度和音頻音質(zhì)，隨著技術(shù)和硬件的發(fā)展，在不斷提高。VR視頻，極大的增強了用戶的沉浸感。聲網(wǎng)的音頻已經(jīng)可以做到180°的立體聲，聲音自帶方位感。
實時音視頻也在朝著越來越多互動發(fā)展，直播連麥、手游音視頻社交、以Houseparty為代表的創(chuàng)新社交模式，這些創(chuàng)新應(yīng)用，在實時音視頻出現(xiàn)之前是很難普及的。

實時音視頻，有了越來越多的玩法，人臉識別技術(shù)的具體應(yīng)用：美顏和換臉。音頻方面也可以有變聲這樣好玩的功能。

　　實時音視頻質(zhì)量的挑戰(zhàn)

　　以上趨勢，對實時音視頻有了更大的挑戰(zhàn)和更高的要求：

更大的數(shù)據(jù)量
更低的延時
更多的算法

　　這是一個視頻質(zhì)量對比的案例，右側(cè)視頻出現(xiàn)的問題分別有：

出圖慢，視頻首幀時間明顯慢于左邊的視頻
畫面模糊
延時
卡頓，甚至卡住
綠屏，花屏

　　那么問題來了：

什么情況下會出現(xiàn)這些問題？
是網(wǎng)絡(luò)問題還是設(shè)備問題？
影響了多少用戶？是個例問題還是全局問題？
如何在測試中盡可能的覆蓋這些問題？

　　實時音視頻質(zhì)量問題的來源

　　實時音視頻，總共分幾個環(huán)節(jié)：采集、前處理和編碼、傳輸、解碼和后處理、渲染。

　　采集：iOS是比較簡單的，Android則要做些機型適配工作（聲網(wǎng)Agora.io目前適配了5000+Android機型）。PC最麻煩各種奇葩攝像頭驅(qū)動，出了問題特別不好處理。

　　前處理：美顏、換臉就是在這個環(huán)節(jié)處理。美顏算法需要懂圖像處理算法的人，沒有好的開源實現(xiàn)。算法設(shè)計好后還需要優(yōu)化。容易出現(xiàn)的問題有：GPU占用太高導(dǎo)致手機發(fā)燙，手機發(fā)燙會導(dǎo)致攝像頭采集掉幀。這需要豐富的經(jīng)驗來支撐。

　　編碼：分為硬編碼和軟編碼，720P需要硬編碼。但是硬件編碼不靈活，兼容性有問題。編碼還需要考慮網(wǎng)絡(luò)和設(shè)備兼容，尤其是數(shù)千種安卓設(shè)備。在這個環(huán)節(jié)，軟編碼可能會導(dǎo)致CPU發(fā)燙，進一步導(dǎo)致攝像頭采集掉幀，長期發(fā)燙的直接反應(yīng)是費電。這些是性能方面的問題。音視頻編解碼技術(shù)還涉及到網(wǎng)絡(luò)傳輸，編碼的碼率、幀率、分辨率直接影響網(wǎng)絡(luò)傳輸效率。

　　傳輸：聲網(wǎng)的音視頻傳輸是通過自建的SD-RTN? （ Software Defined Real-time Network），專為實時傳輸設(shè)計的虛擬通信網(wǎng)絡(luò)來進行。這是一種新型的專為實時傳輸而設(shè)計的網(wǎng)絡(luò)架構(gòu)，基于UDP協(xié)議。通過在互聯(lián)網(wǎng)上不同地區(qū)的數(shù)據(jù)中心放置軟件組網(wǎng)單元，相互連接互相調(diào)度，在現(xiàn)有的公共互聯(lián)網(wǎng)基礎(chǔ)上構(gòu)建一層新的虛擬網(wǎng)絡(luò)。SD-RTN?系統(tǒng)能夠?qū)崟r根據(jù)各節(jié)點的連接和傳輸狀況、負載狀況以及到用戶的距離和響應(yīng)時間，自動分配最優(yōu)、最通暢的傳輸路徑，達到實時傳輸需要的質(zhì)量保障級別。

　　解碼：這一環(huán)節(jié)需要做容錯處理和適配。解碼和編碼一樣，都存在發(fā)燙，導(dǎo)致手機卡，耗電量高的問題。

　　渲染：可能存在的問題是，手機明明解碼出好多幀數(shù)據(jù)，就是渲染不出來。為什么聲畫就是不同步？

　　這幾個環(huán)節(jié)，歸納起來可分為：物理環(huán)境、設(shè)備環(huán)境、網(wǎng)絡(luò)環(huán)境，三個不同環(huán)境，導(dǎo)致能導(dǎo)致實時音視頻最后出現(xiàn)質(zhì)量問題。

　　如何設(shè)計一個質(zhì)量評估體系

　　那么，如何設(shè)計一個質(zhì)量評估體系來監(jiān)控上述三個環(huán)境？

　　這三個環(huán)境的特點是，隨機性、多元性和主觀性。我們的質(zhì)量評估體系，需要能夠重現(xiàn)問題、發(fā)現(xiàn)問題的關(guān)聯(lián)性，并且統(tǒng)一評價標(biāo)尺。與此同時，還要考慮到成本、覆蓋性等問題。

　　實時音視頻質(zhì)量評估中，我們是選擇主觀測試還是客觀測試呢？是選擇標(biāo)準(zhǔn)化測試還是自建呢？

　　客觀測試（標(biāo)準(zhǔn)化）

　　我們想要定量的分析一個音頻引擎的優(yōu)劣點，就必須在測試中盡可能的排除網(wǎng)絡(luò)、設(shè)備和物理環(huán)境等因素帶來的隨機性影響。3GPP、ESTI等通信業(yè)國際標(biāo)準(zhǔn)，對手機通信的測試環(huán)境方法有很多要求和指引。簡單的說，我們需要足夠安靜且反射路徑最小化的聲學(xué)環(huán)境來避免周圍的環(huán)境音來影響測試，所以需要有專業(yè)設(shè)計的消聲室。我們需要可重復(fù)又高保真的發(fā)聲和收音裝置來覆蓋人的正常說話和聽力動態(tài)范圍，所以需要人工耳和人工嘴。另外，為了覆蓋更多的真實場景，我們還需要網(wǎng)損設(shè)備來模擬和控制丟包。需要近似真實環(huán)境的沉浸式噪音場景，我們需要在人工頭的四周布置高保真的音箱來制造噪聲聲場。

　　客觀測試的一個重要優(yōu)點是，網(wǎng)絡(luò)設(shè)備物理環(huán)境條件相對可控，可重復(fù)性較強。這些通信標(biāo)準(zhǔn)定義的客觀指標(biāo)也很大程度上可以幫助快速定位音視頻問題。但是客觀測試本身也它自己的局限性。首先，要搭建上述的一套科學(xué)的客觀測試環(huán)境，一般需要七位數(shù)字人民幣的預(yù)算，這對很多公司來說已經(jīng)是個很大的制約了。更重要的是，客觀測試雖然可以暴露一些明顯的問題，但是很難覆蓋到一些細節(jié)和定位到問題的根源。所以無論是出于成本的考慮還是更細節(jié)的分析，我們都需要有合理的主觀測試來彌補客觀測試的一些問題。

　　主觀測試

　　一般比較常用的做法是請足夠多的人來采集有統(tǒng)計意義的樣本，然后對測試人員做一定的培訓(xùn)。最后根據(jù)信號失真度，背景侵入度，和總體質(zhì)量等方面來對音視頻通話打分。

　　這種方法主要用來比較不同引擎之間的總體主觀感受，如果需要更細節(jié)的發(fā)現(xiàn)和比較問題，還是需要跟針對性的測試。

　　主觀測試相對來比較靈活，可以不必限定在消聲室中進行。但是為了盡量避免我們之前的提到的設(shè)備網(wǎng)絡(luò)環(huán)境的不確定因素，測試人員和被測設(shè)備需要分別放置于兩個音源隔離的房間。雖然主觀評估的準(zhǔn)確性較高，但是也有一些缺點。例如，人眼和人腦會疲勞，從而導(dǎo)致在一定時間內(nèi)能進行的測試量較少；人的主觀性導(dǎo)致結(jié)果的可重復(fù)性會有一定的偏差。

　　評估還需要有參考對象，有比較的進行評估。

　　測試環(huán)境搭建的標(biāo)準(zhǔn)，需考慮的模塊，流程可以參考上圖。下面一個視頻，是聲網(wǎng)關(guān)于延時的評估案例，用到磁懸浮地球儀和一個在線秒表。第一排是本地視頻，第二排是接收端接收到的圖像。左右兩個是不同產(chǎn)品的對比測試。通過錄像，我們可以看到對比之下的延時和畫面質(zhì)量。

　　搭建好本地環(huán)境后，就需要執(zhí)行測試。共涉及三個環(huán)節(jié)

人員
測試項
結(jié)果分析

　　實時音視頻質(zhì)量的監(jiān)控

　　前面部分講的是實時音視頻質(zhì)量的評估，那么產(chǎn)品上線后，應(yīng)該如何監(jiān)控？需要覆蓋兩個方面：

全局質(zhì)量監(jiān)控
個例問題調(diào)查

　　全局監(jiān)控的目的是：

準(zhǔn)確了解全網(wǎng)質(zhì)量，而不是僅僅局限于自己測試或者用戶反饋
通過數(shù)據(jù)驅(qū)動發(fā)現(xiàn)問題，驗證質(zhì)量改進的效果
全局監(jiān)控要遵循一個規(guī)則：看分布不看均值

　　在描述服務(wù)質(zhì)量時，均值是很弱的概念。舉個例子：中國家庭平均資產(chǎn)92萬；把收入從高到低排序，排到第95%位置的家庭，年收入是900元。第一個均值對了解人民生活水平意義不大，第二個告訴我們很多人還在艱難謀生。因此聲網(wǎng)在統(tǒng)計全局質(zhì)量時：看分布、不看均值。上圖中是聲網(wǎng)做的一個統(tǒng)計，反應(yīng)每天使用用戶大概比例，用什么網(wǎng)絡(luò)什么系統(tǒng)，音頻視頻打分如何，丟包率如何？

　　全局反饋良好，但依然有用戶報問題，我的聲音聽不到怎么辦？聲網(wǎng)在實踐當(dāng)中做了這樣一套系統(tǒng)，可以根據(jù)用戶ID去查詳細的通話信息：包括一些碼率、CPU的情況、音頻錄音大小可以自己看得到，這樣子就能定位問題。

中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

QCon演講：實時音視頻質(zhì)量評估與監(jiān)控

評論排行

推薦閱讀

專題

大家都在看