中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 新聞 > 專家觀點 >
 首頁 > 新聞 > 專家觀點 >

QCon演講:實時音視頻質(zhì)量評估與監(jiān)控

2017-04-20 14:02:11   作者:   來源:CTI論壇   評論:0  點擊:


 \ 
  QCon北京2017,我司陳若非博士講解了《實時音視頻質(zhì)量評估與監(jiān)控》,以下是演講精要。
  陳若非,畢業(yè)于香港城市大學(xué),Ph.D。在聲網(wǎng)Agora.io負責(zé)基礎(chǔ)音頻技術(shù)。曾任職于YY基礎(chǔ)技術(shù)研發(fā)部。IEEE期刊與會議評審。
  目前,在實時音視頻領(lǐng)域普遍存在幾個問題:
  • 對實時音視頻的難度估計不足
  • 對實時音視頻的測試方法了解不多
  • 對上線后可能遇到的困難準(zhǔn)備不足
  這三個問題,就導(dǎo)致了一些實時音視頻產(chǎn)品在上線后,質(zhì)量差、用戶體驗差,甚至不能達到商用的標(biāo)準(zhǔn)。
  本文將會解答以下3個問題:
  • 音視頻的現(xiàn)狀與趨勢
  • 音視頻的質(zhì)量問題及其來源
  • 如何快速建立一個公平有效的評估體系
  實時音視頻的現(xiàn)狀
\
  實時音視頻,最主要的特點是,低延時。根據(jù)ITU-TG.114標(biāo)準(zhǔn),單向通話延時大于150ms就可受到通話連續(xù)性受到影響,最大可容忍時延為400ms。
  實時音視頻,主要會應(yīng)用于實時的音視頻通信,比如網(wǎng)絡(luò)電話、視頻通話;也會應(yīng)用于直播,尤其是直播中的多主播連麥;同時,還會應(yīng)用于一些垂直場景,比如手游中的玩家實時對講,在線教育課程等。
\
  目前,實時音視頻這個領(lǐng)域,涉及到三個層次。最底層的硬件基礎(chǔ)設(shè)施升級,wifi的普及,3G向4G、甚至5G的升級,手機等終端設(shè)備計算能力的提升,都會加速實時音視頻的發(fā)展。中間層是實時云CaaS(Communications-as-a-Service,通訊即服務(wù))。CaaS是將傳統(tǒng)電信的能力如消息、語音、視頻、會議、通信協(xié)同等封裝成API或者SDK通過互聯(lián)網(wǎng)對外開放,將電信能力真正作為服務(wù)對外提供。聲網(wǎng)Agora.io就處于這一層。最頂層應(yīng)用層,直接面向終端用戶,涉及到諸多垂直行業(yè)。
  實時音視頻的發(fā)展趨勢
\
  實時音視頻,朝著3個方向發(fā)展:
  越來越真實
  • 視頻清晰度和音頻音質(zhì),隨著技術(shù)和硬件的發(fā)展,在不斷提高。VR視頻,極大的增強了用戶的沉浸感。聲網(wǎng)的音頻已經(jīng)可以做到180°的立體聲,聲音自帶方位感。
  • \
  • 實時音視頻也在朝著越來越多互動發(fā)展,直播連麥、手游音視頻社交、以Houseparty為代表的創(chuàng)新社交模式,這些創(chuàng)新應(yīng)用,在實時音視頻出現(xiàn)之前是很難普及的。
\

  • 實時音視頻,有了越來越多的玩法,人臉識別技術(shù)的具體應(yīng)用:美顏和換臉。音頻方面也可以有變聲這樣好玩的功能。
  實時音視頻質(zhì)量的挑戰(zhàn)
  以上趨勢,對實時音視頻有了更大的挑戰(zhàn)和更高的要求:
  • 更大的數(shù)據(jù)量
  • 更低的延時
  • 更多的算法
  這是一個視頻質(zhì)量對比的案例,右側(cè)視頻出現(xiàn)的問題分別有:
  • 出圖慢,視頻首幀時間明顯慢于左邊的視頻
  • 畫面模糊
  • 延時
  • 卡頓,甚至卡住
  • 綠屏,花屏
  那么問題來了:
  • 什么情況下會出現(xiàn)這些問題?
  • 是網(wǎng)絡(luò)問題還是設(shè)備問題?
  • 影響了多少用戶?是個例問題還是全局問題?
  • 如何在測試中盡可能的覆蓋這些問題?
\
  實時音視頻質(zhì)量問題的來源
  實時音視頻,總共分幾個環(huán)節(jié):采集、前處理和編碼、傳輸、解碼和后處理、渲染。
  采集:iOS是比較簡單的,Android則要做些機型適配工作(聲網(wǎng)Agora.io目前適配了5000+Android機型)。PC最麻煩各種奇葩攝像頭驅(qū)動,出了問題特別不好處理。
  前處理:美顏、換臉就是在這個環(huán)節(jié)處理。美顏算法需要懂圖像處理算法的人,沒有好的開源實現(xiàn)。算法設(shè)計好后還需要優(yōu)化。容易出現(xiàn)的問題有:GPU占用太高導(dǎo)致手機發(fā)燙,手機發(fā)燙會導(dǎo)致攝像頭采集掉幀。這需要豐富的經(jīng)驗來支撐。
  編碼:分為硬編碼和軟編碼,720P需要硬編碼。但是硬件編碼不靈活,兼容性有問題。編碼還需要考慮網(wǎng)絡(luò)和設(shè)備兼容,尤其是數(shù)千種安卓設(shè)備。在這個環(huán)節(jié),軟編碼可能會導(dǎo)致CPU發(fā)燙,進一步導(dǎo)致攝像頭采集掉幀,長期發(fā)燙的直接反應(yīng)是費電。這些是性能方面的問題。音視頻編解碼技術(shù)還涉及到網(wǎng)絡(luò)傳輸,編碼的碼率、幀率、分辨率直接影響網(wǎng)絡(luò)傳輸效率。
  傳輸:聲網(wǎng)的音視頻傳輸是通過自建的SD-RTN? ( Software Defined Real-time Network),專為實時傳輸設(shè)計的虛擬通信網(wǎng)絡(luò)來進行。這是一種新型的專為實時傳輸而設(shè)計的網(wǎng)絡(luò)架構(gòu),基于UDP協(xié)議。通過在互聯(lián)網(wǎng)上不同地區(qū)的數(shù)據(jù)中心放置軟件組網(wǎng)單元,相互連接互相調(diào)度,在現(xiàn)有的公共互聯(lián)網(wǎng)基礎(chǔ)上構(gòu)建一層新的虛擬網(wǎng)絡(luò)。SD-RTN?系統(tǒng)能夠?qū)崟r根據(jù)各節(jié)點的連接和傳輸狀況、負載狀況以及到用戶的距離和響應(yīng)時間,自動分配最優(yōu)、最通暢的傳輸路徑,達到實時傳輸需要的質(zhì)量保障級別。
  解碼:這一環(huán)節(jié)需要做容錯處理和適配。解碼和編碼一樣,都存在發(fā)燙,導(dǎo)致手機卡,耗電量高的問題。
  渲染:可能存在的問題是,手機明明解碼出好多幀數(shù)據(jù),就是渲染不出來。為什么聲畫就是不同步?
  這幾個環(huán)節(jié),歸納起來可分為:物理環(huán)境、設(shè)備環(huán)境、網(wǎng)絡(luò)環(huán)境,三個不同環(huán)境,導(dǎo)致能導(dǎo)致實時音視頻最后出現(xiàn)質(zhì)量問題。
\
  如何設(shè)計一個質(zhì)量評估體
  那么,如何設(shè)計一個質(zhì)量評估體系來監(jiān)控上述三個環(huán)境?
  這三個環(huán)境的特點是,隨機性、多元性和主觀性。我們的質(zhì)量評估體系,需要能夠重現(xiàn)問題、發(fā)現(xiàn)問題的關(guān)聯(lián)性,并且統(tǒng)一評價標(biāo)尺。與此同時,還要考慮到成本、覆蓋性等問題。
\

\
  實時音視頻質(zhì)量評估中,我們是選擇主觀測試還是客觀測試呢?是選擇標(biāo)準(zhǔn)化測試還是自建呢?
  客觀測試(標(biāo)準(zhǔn)化)
  我們想要定量的分析一個音頻引擎的優(yōu)劣點,就必須在測試中盡可能的排除網(wǎng)絡(luò)、設(shè)備和物理環(huán)境等因素帶來的隨機性影響。3GPP、ESTI等通信業(yè)國際標(biāo)準(zhǔn),對手機通信的測試環(huán)境方法有很多要求和指引。簡單的說,我們需要足夠安靜且反射路徑最小化的聲學(xué)環(huán)境來避免周圍的環(huán)境音來影響測試,所以需要有專業(yè)設(shè)計的消聲室。我們需要可重復(fù)又高保真的發(fā)聲和收音裝置來覆蓋人的正常說話和聽力動態(tài)范圍,所以需要人工耳和人工嘴。另外,為了覆蓋更多的真實場景,我們還需要網(wǎng)損設(shè)備來模擬和控制丟包。需要近似真實環(huán)境的沉浸式噪音場景,我們需要在人工頭的四周布置高保真的音箱來制造噪聲聲場。
\
  客觀測試的一個重要優(yōu)點是,網(wǎng)絡(luò)設(shè)備物理環(huán)境條件相對可控,可重復(fù)性較強。這些通信標(biāo)準(zhǔn)定義的客觀指標(biāo)也很大程度上可以幫助快速定位音視頻問題。但是客觀測試本身也它自己的局限性。首先,要搭建上述的一套科學(xué)的客觀測試環(huán)境,一般需要七位數(shù)字人民幣的預(yù)算,這對很多公司來說已經(jīng)是個很大的制約了。更重要的是,客觀測試雖然可以暴露一些明顯的問題,但是很難覆蓋到一些細節(jié)和定位到問題的根源。 所以無論是出于成本的考慮還是更細節(jié)的分析,我們都需要有合理的主觀測試來彌補客觀測試的一些問題。
  主觀測試
  一般比較常用的做法是請足夠多的人來采集有統(tǒng)計意義的樣本,然后對測試人員做一定的培訓(xùn)。最后根據(jù)信號失真度,背景侵入度,和總體質(zhì)量等方面來對音視頻通話打分。
  這種方法主要用來比較不同引擎之間的總體主觀感受,如果需要更細節(jié)的發(fā)現(xiàn)和比較問題,還是需要跟針對性的測試。
  主觀測試相對來比較靈活,可以不必限定在消聲室中進行。但是為了盡量避免我們之前的提到的設(shè)備網(wǎng)絡(luò)環(huán)境的不確定因素,測試人員和被測設(shè)備需要分別放置于兩個音源隔離的房間。雖然主觀評估的準(zhǔn)確性較高,但是也有一些缺點。例如,人眼和人腦會疲勞,從而導(dǎo)致在一定時間內(nèi)能進行的測試量較少;人的主觀性導(dǎo)致結(jié)果的可重復(fù)性會有一定的偏差。
\
  評估還需要有參考對象,有比較的進行評估。
\

\
  測試環(huán)境搭建的標(biāo)準(zhǔn),需考慮的模塊,流程可以參考上圖。下面一個視頻,是聲網(wǎng)關(guān)于延時的評估案例,用到磁懸浮地球儀和一個在線秒表。第一排是本地視頻,第二排是接收端接收到的圖像。左右兩個是不同產(chǎn)品的對比測試。通過錄像,我們可以看到對比之下的延時和畫面質(zhì)量。
  搭建好本地環(huán)境后,就需要執(zhí)行測試。共涉及三個環(huán)節(jié)
  • 人員
  • 測試項
  • 結(jié)果分析
\

\

\
  實時音視頻質(zhì)量的監(jiān)控
  前面部分講的是實時音視頻質(zhì)量的評估,那么產(chǎn)品上線后,應(yīng)該如何監(jiān)控?需要覆蓋兩個方面:
  • 全局質(zhì)量監(jiān)控
  • 個例問題調(diào)查
\
  全局監(jiān)控的目的是:
  • 準(zhǔn)確了解全網(wǎng)質(zhì)量,而不是僅僅局限于自己測試或者用戶反饋
  • 通過數(shù)據(jù)驅(qū)動發(fā)現(xiàn)問題,驗證質(zhì)量改進的效果
  • 全局監(jiān)控要遵循一個規(guī)則:看分布不看均值
  在描述服務(wù)質(zhì)量時,均值是很弱的概念。舉個例子:中國家庭平均資產(chǎn)92萬;把收入從高到低排序,排到第95%位置的家庭,年收入是900元。第一個均值對了解人民生活水平意義不大,第二個告訴我們很多人還在艱難謀生。因此聲網(wǎng)在統(tǒng)計全局質(zhì)量時:看分布、不看均值。上圖中是聲網(wǎng)做的一個統(tǒng)計,反應(yīng)每天使用用戶大概比例,用什么網(wǎng)絡(luò)什么系統(tǒng),音頻視頻打分如何,丟包率如何?
\
  全局反饋良好,但依然有用戶報問題,我的聲音聽不到怎么辦?聲網(wǎng)在實踐當(dāng)中做了這樣一套系統(tǒng),可以根據(jù)用戶ID去查詳細的通話信息:包括一些碼率、CPU的情況、音頻錄音大小可以自己看得到,這樣子就能定位問題。

專題