解析視頻監(jiān)控系統(tǒng)圖像處理關(guān)鍵技術(shù)

2022-02-07 22:20:11|

來源：網(wǎng)絡(luò) 作者：

視頻監(jiān)控就是通過攝像機(jī)觀測被監(jiān)視場景中的運(yùn)動目標(biāo)，查看、分析、描述、記錄其行為，以滿足安全防范、遠(yuǎn)程管理和實(shí)時(shí)交流的需要。視頻監(jiān)控系統(tǒng)是多媒體、計(jì)算機(jī)網(wǎng)絡(luò)和人工智能等技術(shù)的綜合運(yùn)用，在視頻監(jiān)控系統(tǒng)中進(jìn)行圖像處理，目的是提高圖像視感質(zhì)量，適應(yīng)傳輸網(wǎng)絡(luò)狀況，提取圖像的特征或信息，其核心問題是實(shí)現(xiàn)以更小的傳輸帶寬承載更高質(zhì)量的視頻，減少運(yùn)算資源消耗，實(shí)現(xiàn)對視頻內(nèi)容的主動感知，對海量視頻數(shù)據(jù)的快速查找、精確定位和靈活呈現(xiàn)，涉及的主要技術(shù)包括：視頻編解碼、視頻傳輸與存儲、移動視頻技術(shù)、視頻分析、視頻檢索等，以下將進(jìn)行簡要介紹。

視頻編解碼

目前提高視頻編碼效率的方法可分為兩大類：一是在傳統(tǒng)的編碼框架內(nèi)繼續(xù)提高各模塊的編碼效率，這一類的編碼技術(shù)有變塊大小預(yù)測、自適應(yīng)塊變換、自適應(yīng)插值濾波等技術(shù);二是結(jié)合人類視覺特性的新型編碼框架研究，這一類的編碼技術(shù)包括基于HVS評價(jià)標(biāo)準(zhǔn)的混合視頻編碼、基于紋理分析/合成的編碼、基于圖像修復(fù)的圖像/視頻編碼等。

視頻編碼關(guān)鍵技術(shù)

變塊大小預(yù)測

宏塊是視頻編碼的基本單位。H.264編碼算法中定義了七種大小可變的塊尺寸模式，同時(shí)利用率失真策略對這七種模式進(jìn)行遍歷，這就使編碼器可以根據(jù)圖像中運(yùn)動情況靈活地選擇塊的大小，提高運(yùn)動預(yù)測精度。

自適應(yīng)塊變換

H.264標(biāo)準(zhǔn)制定的初期曾有自適應(yīng)塊變換的提案，目前的應(yīng)用中自適應(yīng)塊變換與信號特征的結(jié)合更為緊密，如變換塊大小與運(yùn)動劃分大小的結(jié)合，更多的變換大小選擇，以及結(jié)合圖像紋理特征的方向變換等技術(shù)。

自適應(yīng)插值濾波

部分像素預(yù)測是提高預(yù)測編碼效率的重要工具，其中插值濾波系數(shù)起著關(guān)鍵作用。根據(jù)圖像信號的特征，自適應(yīng)選擇插值濾波系數(shù)使得預(yù)測誤差能量最小化，能夠大大提高編碼效率，這種方法在高分辨率編碼中優(yōu)勢明顯。

新型編碼技術(shù)的方法

基于HVS評價(jià)標(biāo)準(zhǔn)的混合視頻編碼

由于人眼對圖像每個(gè)區(qū)域的敏感度是不同的，可以通過探索HVS的掩蔽特性來建立感知誤差的閾值，以區(qū)分人們能夠感知到的和不能感知到的信號，進(jìn)而去除視覺心理冗余。

基于紋理分析/合成的編碼

基于紋理分析與合成的編碼主要是將視頻場景分為紋理區(qū)域和非紋理區(qū)域兩部分，并通過一個(gè)紋理分析與合成器把主觀不重要的紋理區(qū)域分割并重構(gòu)出來，在編碼端，將原始序列某些區(qū)域的紋理，僅編碼其余區(qū)域以及用于合成去除紋理區(qū)域的參數(shù);在解碼端，去除的紋理區(qū)域通過碼流中參數(shù)進(jìn)行重構(gòu)。

基于圖像修復(fù)的圖像/視頻編碼

對于失真不易覺察到的塊或區(qū)域不采用圖像修復(fù)的方法進(jìn)行修復(fù)，要方法是根據(jù)偏微分方程計(jì)算出等照度線傳播方向，使信息從待修復(fù)圖像塊的邊緣向內(nèi)部擴(kuò)散，完成整個(gè)缺失塊的填充。

分布式編碼

在分布式視頻編碼技術(shù)中，視頻幀分為Wyner-Ziv幀和Key幀。Wyner-Ziv幀獨(dú)立進(jìn)行Wyner-Ziv編碼，生成的碼流傳輸?shù)浇獯a端，解碼器利用生成的邊信息來進(jìn)行解碼，信號之間的相關(guān)性由解碼器來消除，Key幀采樣傳統(tǒng)視頻編碼中的幀內(nèi)編碼(如H.264的幀內(nèi)編碼)，解碼端通過Key幀和邊信息重建視頻序列。相對于傳統(tǒng)編碼技術(shù)，分布式視頻編碼主要有以下特點(diǎn)：低復(fù)雜度的編碼、高復(fù)雜度的解碼，對于容易產(chǎn)生誤碼的通信網(wǎng)絡(luò)具有較好的魯棒性，具有較高的壓縮效率，易形成分級編碼的碼流，適合傳感器網(wǎng)絡(luò)、分布式監(jiān)控等應(yīng)用場景。

視頻編解碼標(biāo)準(zhǔn)化

在標(biāo)準(zhǔn)化方面，MPEG工作組和VCEG工作組自聯(lián)合制定H.264標(biāo)準(zhǔn)后，又陸續(xù)完成了面向可伸縮網(wǎng)絡(luò)傳輸應(yīng)用的H.264 SVC標(biāo)準(zhǔn)擴(kuò)展，以及面向多視應(yīng)用的H.264 MVC標(biāo)準(zhǔn)擴(kuò)展，預(yù)計(jì)在明后年將推出H.265(即H.264 HVC)的編碼標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)主要依賴小波的聚能性能和分解級數(shù)進(jìn)行視頻壓縮，在壓縮效率、魯棒性和錯(cuò)誤恢復(fù)能力、實(shí)時(shí)時(shí)延和復(fù)雜度等方面將會有較大改進(jìn)。在國內(nèi)，AVS工作組自2002年成立至今，已經(jīng)成功完成第一代AVS視音頻編碼標(biāo)準(zhǔn)制定工作，而面向高清、超高清、三維視頻的AVS2標(biāo)準(zhǔn)制定工作已經(jīng)展開。

視頻流傳輸與存儲

由于目前的因特網(wǎng)在帶寬、延遲抖動和丟包率等方面的不可預(yù)知性，在大規(guī)模網(wǎng)絡(luò)視頻監(jiān)控系統(tǒng)中，需要采用相關(guān)技術(shù)，提高流媒體服務(wù)質(zhì)量，目前采用的技術(shù)主要包括：音視頻流播出質(zhì)量服務(wù)、視頻流的轉(zhuǎn)發(fā)與存儲、漸進(jìn)式音視頻流傳輸?shù)取?/P>

音視頻流播出質(zhì)量服務(wù)

包括各個(gè)層次上的網(wǎng)絡(luò)服務(wù)控制(QOS)，如錯(cuò)誤隱藏、跳幀處理和容錯(cuò)編碼等。其中客戶端的差錯(cuò)隱藏是比較常用的技術(shù)手段，該技術(shù)利用圖像序列的連續(xù)性恢復(fù)出受損塊的運(yùn)動矢量，在沒有運(yùn)動信息時(shí)利用受損塊周圍的相同信息來推測受損塊的內(nèi)容。

視頻流的轉(zhuǎn)發(fā)與存儲

與數(shù)值、字符等數(shù)據(jù)不同，視音頻數(shù)據(jù)是非格式數(shù)據(jù)，并且數(shù)據(jù)量相對龐大，對存儲服務(wù)器和轉(zhuǎn)發(fā)服務(wù)器的性能有較高要求，因此服務(wù)器不僅需要有海量的多模態(tài)數(shù)據(jù)存儲能力，還需要有快速的數(shù)據(jù)吞吐量、實(shí)時(shí)的響應(yīng)時(shí)間;對于存儲設(shè)備，主要技術(shù)包括有磁盤調(diào)度策略、數(shù)據(jù)條塊化、分級存儲和磁盤容錯(cuò)等。

漸進(jìn)式音視頻流傳輸

這種傳輸方式首先接收并顯示低分辨率的音視頻數(shù)據(jù)，然后再進(jìn)一步接收更精細(xì)的數(shù)據(jù)，來提高音視頻的現(xiàn)實(shí)質(zhì)量，這樣可以用來平衡等待時(shí)間與觀看質(zhì)量之間的矛盾，該技術(shù)的關(guān)鍵問題是對音視頻對象的漸進(jìn)式表達(dá)。

移動視頻技術(shù)

隨著移動互聯(lián)網(wǎng)的發(fā)展，移動終端已經(jīng)成為信息獲取和交互主要工具，成為視頻監(jiān)控系統(tǒng)中的重要終端。目前移動視頻監(jiān)控系統(tǒng)應(yīng)用中的核心問題是如何在較低的帶寬和較小的顯示屏幕限制下，更方便地獲取視頻監(jiān)控信息，其技術(shù)主要包括以下幾個(gè)方面：

面向小屏幕應(yīng)用的媒體內(nèi)容適配顯示

由于移動終端的屏幕有限，而音視頻內(nèi)容在移動環(huán)境下往往不能被充分顯示，需要采用自適應(yīng)瀏覽技術(shù)，對于靜態(tài)內(nèi)容的顯示可根據(jù)前期關(guān)注分析的結(jié)果，按重要程度依次顯示或進(jìn)行放大縮小處理;對于動態(tài)音視頻內(nèi)容的播放，可以采用最優(yōu)化損失、曲線擬合等方法減少視頻畫面抖動。

面向移動音視頻訪問的人機(jī)交互界面

由于移動終端顯示屏幕大小的限制，往往不能像正常的屏幕那樣顯示檢索或推薦得到的多個(gè)媒體內(nèi)容，這樣就需要研究移動環(huán)境下的媒體可視化技術(shù)，在有限空間范圍內(nèi)盡可能多的表示媒體內(nèi)容，同時(shí)還能增強(qiáng)用戶的瀏覽觀感。

面向移動應(yīng)用的視頻轉(zhuǎn)碼

由于移動終端的顯示能力和計(jì)算能力各不相同，支持的視頻質(zhì)量也各不相同，需要采用面向移動應(yīng)用的視頻轉(zhuǎn)碼和視頻傳輸技術(shù)，能根據(jù)不同的信道狀況和終端顯示能力，對視頻進(jìn)行自適應(yīng)的轉(zhuǎn)碼處理。視頻轉(zhuǎn)碼技術(shù)分為碼率縮減的轉(zhuǎn)碼、分辨率縮減的轉(zhuǎn)碼、幀率縮減的轉(zhuǎn)碼、針對無線網(wǎng)絡(luò)的容錯(cuò)轉(zhuǎn)碼、不同格式之間的轉(zhuǎn)碼等，其主要研究內(nèi)容包括結(jié)合快速模式選擇，高效、低復(fù)雜度的率失真優(yōu)化轉(zhuǎn)碼框架，以及根據(jù)輸入視頻碼流中的各種信息參數(shù)進(jìn)行不同預(yù)測模式之間的快速預(yù)測和變換。在多模式的視頻轉(zhuǎn)碼中，還需要根據(jù)用戶所需要的視頻內(nèi)容和網(wǎng)絡(luò)資源占用情況，綜合考慮動態(tài)調(diào)整視頻流的幀率、空間分辨率以及量化步長，使得用戶體驗(yàn)最優(yōu)化。

視頻分析

雖然音視頻內(nèi)容的分析研究已經(jīng)進(jìn)行了多年，但許多問題依然只能在較小的范圍內(nèi)應(yīng)用，目前監(jiān)控系統(tǒng)中應(yīng)用的視頻分析和理解技術(shù)主要包括特征提取、分類方法、多模態(tài)融合等。

特征提取

現(xiàn)有的音視頻特征可分為兩類：整體特征和局部特征，整體特征往往從整個(gè)媒體單元中抽取得到，可以較好地描述音視頻數(shù)據(jù)的整體特性，但不能有效描述其細(xì)節(jié)特點(diǎn)，局部特征從音視頻數(shù)據(jù)的局部中抽取得到，并用于描述其細(xì)節(jié)特點(diǎn)，局部特征可以對遮擋、光照、視角變換具有更好的魯棒性。受文本信息檢索技術(shù)的啟發(fā)，通過將音視頻數(shù)據(jù)的局部特征量化為視覺單詞，從而將媒體數(shù)據(jù)轉(zhuǎn)化為類文本數(shù)據(jù)結(jié)構(gòu)，進(jìn)而采用較為成熟的文本信息處理技術(shù)處理音視頻數(shù)據(jù)，這種基于局部特征和視覺單詞模型，已經(jīng)被應(yīng)用于物體識別、物體檢測、視頻檢索、事件檢測等應(yīng)用中。

分類方法

目前采用的分類方法可分大致為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)三大類，其中，有監(jiān)督學(xué)習(xí)方法需要大量的標(biāo)注數(shù)據(jù)用于訓(xùn)練分類器以對待處理的數(shù)據(jù)進(jìn)行的分類識別，無監(jiān)督學(xué)習(xí)方法通過聚類分析等提取出一些可能有用的信息來輔助滿足用戶的需求，這兩種分析方法已經(jīng)在音視頻分析中得到了大量的應(yīng)用;半監(jiān)督學(xué)習(xí)方法，該方法利用數(shù)據(jù)的內(nèi)在分布特點(diǎn)，只需要用戶標(biāo)定少量數(shù)據(jù)以得到更準(zhǔn)確的分類模型，在已標(biāo)注的訓(xùn)練數(shù)據(jù)不足而未標(biāo)注的數(shù)據(jù)卻大量存在的情況下效果較好，目前半監(jiān)督學(xué)習(xí)算法主要有如自訓(xùn)練法、產(chǎn)生式模型方法、直推式支持向量機(jī)及其改進(jìn)、多視角方法的和基于圖的學(xué)習(xí)方法等。

多模態(tài)融合

融合多種模態(tài)信息的音視頻分析可以根據(jù)不同模態(tài)特征在分類能力和可靠性的差異采用不同的處理模式，通過合理利用圖像/關(guān)鍵幀、聲音、文字等多種媒體源特征的互補(bǔ)性，獲得更優(yōu)的分類或檢測結(jié)果;多模態(tài)融合主要可以分為前融合和后融合，多模態(tài)特征的前融合即將不同的特征向量合并在一起作為分類器輸入，具有應(yīng)用簡單、魯棒性較強(qiáng)的特點(diǎn)但常不能反映各模態(tài)特征受關(guān)注程度的全部信息，后融合方法在解決數(shù)據(jù)的不對稱性問題和不同時(shí)序?qū)哟蔚呐袆e融合問題方面具有較大優(yōu)勢。視頻處理

視頻監(jiān)控中的視頻處理技術(shù)主要包括視頻格式轉(zhuǎn)換和圖像增強(qiáng)兩大類，視頻格式轉(zhuǎn)換包括視頻縮放和去隔行技術(shù)。

視頻格式轉(zhuǎn)換

視頻縮放技術(shù)

圖像縮放的方法主要有幾何變換法和離散圖像連續(xù)表示法兩大類。幾何變換法的主要原理是將目標(biāo)圖像上的點(diǎn)映射成源圖像上的點(diǎn)，然后將目標(biāo)圖像的顏色值取作源圖像的顏色值，而當(dāng)源圖像上的點(diǎn)不是格點(diǎn)時(shí)，則采用鄰近若干格點(diǎn)處的顏色值表示;離散圖像連續(xù)表示法對原始的數(shù)字圖像用連續(xù)函數(shù)進(jìn)行刻畫，再根據(jù)圖像放縮的倍數(shù)要求對該連續(xù)表示的圖像進(jìn)行重新采樣，最后得到新的離散表示的數(shù)字圖像。視頻縮放算法中，關(guān)鍵是插值參數(shù)曲面的構(gòu)造.常用的插值方法有：鄰近點(diǎn)插值，雙線性插值，雙三次插值方法和三次B樣條插值等。在以上方法中，鄰近點(diǎn)插值不能保證插值曲面零階連續(xù)，插值后圖像會出現(xiàn)塊狀化現(xiàn)象，圖像視覺效果不佳，因而在實(shí)際的應(yīng)用中極少采用;雙線性插值只能達(dá)到零階連續(xù)，在插值處只能保證灰度值連續(xù)，不能保證導(dǎo)數(shù)值連續(xù)。因此，在某些要求較高的場合仍不能滿足要求;B樣條插值方法可以達(dá)到二階連續(xù)，在插值處可以保證灰度值和直到二階導(dǎo)數(shù)值連續(xù)，因而對一些細(xì)節(jié)豐富的圖像應(yīng)用雙三次樣條插值可以得到更好的視覺效果，但B樣條插值需要求解線性方程組，其計(jì)算時(shí)間較長，尤其是在放大倍數(shù)很大時(shí)，尤為明顯。

去隔行技術(shù)

目前業(yè)界采用的去交錯(cuò)方法主要可以分為四類：直接合并去交錯(cuò)、圖場內(nèi)差去交錯(cuò)、動態(tài)適應(yīng)去交錯(cuò)和動態(tài)補(bǔ)償去交錯(cuò);直接合并去交錯(cuò)法將連續(xù)的奇或偶圖場直接合并為一幀，此方法計(jì)算量小，但會產(chǎn)生梳狀流線、邊緣閃動等現(xiàn)象，一般用于靜態(tài)畫面的處理;圖場內(nèi)差去交錯(cuò)法在圖場內(nèi)通過算法確定邊緣方向，通過在邊緣方向上進(jìn)行插值確定目標(biāo)圖場數(shù)值，通常這類方法計(jì)算量小可以讓物體邊緣更銳利，但會產(chǎn)生邊緣閃動的現(xiàn)象;動態(tài)適應(yīng)去交錯(cuò)法結(jié)合直接合并法和圖場內(nèi)插法，在算法中增加了動態(tài)偵測器，通過圖場差判斷畫面某部分是否動態(tài)，將動態(tài)部分做圖場內(nèi)插，對靜態(tài)部分做直接合并，此類方法計(jì)算量比較大，對于超大范圍的運(yùn)動、移動、轉(zhuǎn)動和縮放會產(chǎn)生放射性條紋;動態(tài)補(bǔ)償去交錯(cuò)法不僅要檢測視頻圖像序列中是否存在運(yùn)動，還要計(jì)算運(yùn)動的方向和大小，通過計(jì)算得到的運(yùn)動矢量從鄰近場的像素點(diǎn)來還原本場內(nèi)的像素點(diǎn)，此方法能解決運(yùn)動物體的還原問題，但是計(jì)算量較大且運(yùn)動矢量計(jì)算誤差將被傳輸?shù)脚R近的視頻場。

圖像增強(qiáng)處理

圖像增強(qiáng)方法主要分成兩大類：頻率域法和空間域法，前者把圖像看成一種二維信號，對其進(jìn)行基于二維傅里葉變換的信號增強(qiáng)，采用低通濾波法，可去掉圖像中的噪聲，采用高通濾波法，則可增強(qiáng)邊緣等圖像高頻信號;基于空域的算法分為點(diǎn)運(yùn)算算法和鄰域去噪算法，點(diǎn)運(yùn)算算法即灰度級校正、灰度變換和直方圖修正等，目的是使圖像成像均勻，或擴(kuò)大圖像動態(tài)范圍，擴(kuò)展對比度，鄰域增強(qiáng)算法分為圖像平滑和銳化兩種，平滑一般用于消除圖像噪聲，常用鄰域增強(qiáng)算法有均值濾波、中值濾波，銳化的用于突出物體的邊緣輪廓，常用銳化算法有梯度法、算子、高通濾波、掩模匹配法、統(tǒng)計(jì)差值法等。

視頻檢索

目前視頻監(jiān)控中的視頻檢索技術(shù)主要是通過在視頻碼流中加入特定標(biāo)簽的對視頻進(jìn)行標(biāo)識，在關(guān)系數(shù)據(jù)庫中對標(biāo)簽進(jìn)行索引實(shí)現(xiàn)視頻檢索;未來的視頻檢索將采用面向?qū)ο蟮臄?shù)據(jù)庫技術(shù)，實(shí)現(xiàn)基于內(nèi)容的視頻檢索?；趦?nèi)容的視頻信息檢索通過對非結(jié)構(gòu)化的視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和處理，采用視頻分割技術(shù)，將連續(xù)的視頻流劃分為具有特定語義的視頻片段即鏡頭，作為檢索的基本單元，在此基礎(chǔ)上進(jìn)行代表幀的提取和動態(tài)特征的提取，形成描述鏡頭的特征索引。依據(jù)鏡頭組織和特征索引，采用視頻聚類等方法研究鏡頭之間的關(guān)系，把內(nèi)容相近的鏡頭組合起來，逐步縮小檢索范圍，直至查詢到所需的視頻數(shù)據(jù)，所以視頻分割、代表幀和動態(tài)特征提取是基于內(nèi)容的視頻檢索的關(guān)鍵技術(shù)。

視頻分割有自動和半自動兩種方式，其中自動分割的難度大，分割效果隨視頻的內(nèi)容復(fù)雜度變化很大，半自動分割方式適用于復(fù)雜場景下對象的分割，分割的質(zhì)量較好，但沒有實(shí)時(shí)性，采用的方法主要有幀間差分法、運(yùn)動矢量場估計(jì)法、基于貝葉斯和馬爾科夫隨機(jī)場的分割方法等;代表幀是用于描述鏡頭的關(guān)鍵圖像，常用的選取方法是幀平均法和直方圖平均法，抽取代表幀后，視頻檢索就轉(zhuǎn)變?yōu)閿?shù)據(jù)庫中類似代表幀的檢索，目前常用的查詢方式是示例查詢，在視頻特征庫的支持下檢索到相似代表幀，用戶通過播放觀看相關(guān)視頻片段，選擇相似圖像進(jìn)行查詢;動態(tài)特征是檢索時(shí)用戶所能給出的主要內(nèi)容，如鏡頭的運(yùn)動變化、運(yùn)動目標(biāo)的大小變化、視頻目標(biāo)的運(yùn)動軌跡等，這些動態(tài)特征的提取需要通過對視頻序列的分析提取分析，視頻運(yùn)動信息的提取需要計(jì)算光流圖，它是對物體在三維場景中運(yùn)動在二維圖像平面上投影變化的估計(jì)，主要采用基于窗口的塊匹配算法。

總結(jié)

隨著物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展，傳統(tǒng)的IT架構(gòu)逐漸云端化，計(jì)算資源和承載業(yè)務(wù)將進(jìn)一步深度整合，在物聯(lián)網(wǎng)和云計(jì)算匯聚的潮流中，視頻監(jiān)控技術(shù)將發(fā)生徹底的變革：視頻監(jiān)控平臺將成為多信息互聯(lián)、集成、交互的核心系統(tǒng)，視頻監(jiān)控前端設(shè)備逐漸進(jìn)化為具有自主智能的節(jié)點(diǎn)，整個(gè)監(jiān)控前端網(wǎng)絡(luò)將從星型管控向網(wǎng)狀感知系統(tǒng)轉(zhuǎn)變，通過RFID、無線傳感網(wǎng)、視頻監(jiān)控網(wǎng)絡(luò)的協(xié)作互補(bǔ)，監(jiān)控系統(tǒng)的感知能力和智能程度將得到極大提升，采集的數(shù)據(jù)也將從非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榛ハ嚓P(guān)聯(lián)的結(jié)構(gòu)化數(shù)據(jù)。在這場變革中，圖像處理技術(shù)特別是視頻編解碼技術(shù)，視頻分析、理解、檢索技術(shù)是將是未來產(chǎn)業(yè)競爭的制高點(diǎn)，值得業(yè)內(nèi)人士持續(xù)關(guān)注。（

標(biāo)簽：視頻監(jiān)控視頻處理視頻編解碼