高效能處理器加持　視訊內容分析效率大幅提升

2009-02-02

Cheng Peng

在安全領域中，布置大量的監視攝影機幾乎等於需要相同數量的人數進行24小時監控才有意義。但就監控效能與投資報酬率來說，若能透過處理器與相關技術完成視訊內容分析，將可大幅減輕人力負擔與可能造成的人為疏失，這也正是VCA近期大受歡迎的主因。

就安全系統而言，視訊資料由類比轉為數位是期盼已久的一項進展，主要原因在於數位壓縮技術可協助傳送更多影像資料，並加以儲存，然而，新的技術發展通常需要一些代價。

舉例來說，數位視訊系統安裝眾多攝影機，但如此一來便需要更多人員進行監控。另外，儲存視訊可降低須檢視的畫面量，不過由於移動向量與偵測器無法提供畫面內容的相關資訊，實際上仍須以人工檢查擷取視訊，判斷是否有值得注意的可疑活動。這也促使研究人員開始研發新方法，以大幅提升安全監控與影像監視的效率。被稱為視訊分析的視訊內容分析(VCA)，可在一連串圖框中以電子方式確認重要特徵，以便系統在發生特定類型事件時發布警報，加速即時的安全反應。此外，VCA也可自動搜尋擷取視訊中的特定內容，相關人員不必再花時間檢視。此項技術可減少檢查攝影機畫面的人員數，並降低成本。VCA是目前的新興科技，研究人員不斷發展相關技術，以期在數年後可廣泛應用。

不過，VCA需要強大的處理能力才能辨識。此外，VCA系統必須具有可程式化的功能，才能配合不同應用、辨識不同類型的內容，並符合持續發展的演算法。新上市的視訊處理器均具有極高的效能與可程式彈性，以符合壓縮、VCA、數位視訊系統的其他需求。搭配處理器的軟體平台及工具，亦有助於簡化安全及監控產品的開發過程。隨著VCA技術的發展，現有的科技可隨時採用最新發展的技術。

監控內容龐雜　VCA分層處理

目前VCA並無國際規範標準，但一般流程包括：先將較長的連續畫面分割為個別場景或畫面加以分析。由於不同場景的色階或色頻分布不同，若某圖框的色階分布迥異於前一圖框，則可視為場景改變。第二步，將場景中前景物體的變動與靜止背景分開偵測，並單獨擷取或分割前景物體，再就圖框分別加以追蹤。追蹤項目包括偵測物體的位置與速度，而這兩項數據可能會變化或暫時不變。如須辨識前景物體，則可擷取物體特徵，並將物體分類。最後，若畫面中的事件值得注意，便會向管理軟體或人員發布警報。

前景/背景偵測方式迥異

VCA的原理，是於一般靜止或毋須注意的背景中，偵測前景中出現的異動或可疑活動。過去前景/背景偵測受到運算功能的限制而無法達到，但今日更高效能的數位訊號處理器(DSP)與視訊處理器，則可協助執行更複雜的偵測演算法。一般而言，前景/背景偵測有兩種執行方法，一為非動態調整方法，僅用於少數視訊圖框，且不會維持背景模型。另一則為動態調整方法，維持隨時間而發展的背景模型。

一般在動態調整VCA演算法中，上述步驟一與步驟二的回饋資訊，將用於更新及維持背景模型，而後再以該背景模型作為辨別場景變化的輸入資訊。

在最基本的非動態調整情況中，會以目前圖框去除前一圖框中的畫素，以判斷是否出現絕對差，接著再比對畫素的絕對差與預定的臨界值；該臨界值代表補償場景與影像裝置雜訊後的「原點」值。如果絕對差高於臨界值，對應畫素就屬於前景，反之則屬於背景。前景畫素整體可顯示兩個圖框間的前景變化(圖1A)。在此已將背景遮住，只留下前景畫素顯示目前圖框中的行進車輛，以及前一圖框中的車輛「殘影」。

圖1　以三個圖框進行前景/背景偵測

出現殘影表示基本的動作偵測只需兩個圖框，因此不須追蹤與辨識物體。除了殘影外，前景中的其他畫素雜訊也可能遭到誤認。只要在演算法中多採用一個圖框，略微提升運算能力，即可改善前景影像。若採用三個圖框，則可依據目前圖框與前一圖框、目前圖框與下一個圖框的差異，計算畫素與畫素間的絕對差，因為物體殘影在下一個圖框中的位置便有所不同(圖1B)。若兩個絕對差都大於臨界值，則對應畫素屬於前景，反之則屬於背景。圖1A與圖1B中的殘影消失，因此圖1C中的影像便屬於前景。
若採用三個圖框加以判斷，則可於受控環境中短期追蹤與辨識視訊物體。然而，即使如此，只有在高度監控下的短期追蹤應用，且視訊場景無重大變化時，才能採用非動態調整方式。否則誤差會愈來愈大，導致分析結果不可靠。

由於非動態調整方式有所限制，因此在VCA應用裝置中，採用動態調適前景或背景偵測方式。動態調整偵測法可維持背景模型，將每個新視訊圖框的資料併入模型，並持續更新。動態調整方式的處理步驟多於非動態調整方式，而背景模型的複雜度也不同。與非動態調整演算法刪去後續圖框的背景不同，在基本動態調整方式中，演算法會以畫素為單位，將背景模型自目前的圖框一一去除，以判斷前景。判定結果也會送回模型中，因此不須重設，即可將結果併入持續進行的背景變化中。此種方式特別適合有許多物體持續移動或背景雜訊占大部分時間的視訊監控環境中。

更複雜的前景或背景偵測法，是以統計背景模型為依據，視訊圖框中的每個背景畫素，都會視為常態分布(Gaussian Distribution)後出現的隨機變數。每個畫素的平均差與標準差，都會依據每個圖框的視訊資料隨時間而改變。舉例而言，若場景中包含河岸，則水面上的光影變化，會導致河流的畫素偏差值遠高於相對較無變化的河岸。要判定目前圖框中的前景與背景畫素，可依據背景模型對應畫素標準差計算出臨界值(Threshold)，再將前景與背景畫素與該臨界值比較。換句話說，在背景畫素差異大時，如河流，若某畫素屬於前景，則該畫素必須與背景畫素有顯著差異，但若背景畫素變化不大，如河岸，則前景畫素必定與背景畫素差異極小。若場景中不同區域的照明狀況或雜訊標準不同，此種方式便相當有效，因為若採用以高雜訊標準，如河流，為參考的統一臨界值，則物體進入低雜訊區域，如河岸，時可能會因此消失。

追蹤/辨識物體成進階課題

在前景或背景偵測後，遮罩會隨之建立(圖1C)。由於環境雜訊的影響，視訊影像中單一物體的所有部分可能不會互相連結，因此會先執行型態膨脹(Morphological Dilation)密集運算處理程序，再將所有部分連結為完整物體。膨脹程序包括將網格加於遮罩上，並計算每一方格中的前景畫素，若計算結果顯示應連結分離的物體，則開啟該方格區域中的其餘畫素。執行膨脹程序與元件連結後，每個物體會產生邊界區塊，代表包含整個物體的最小方形區域，而該物體可能出現於不同圖框，形成分割效果(圖2)。

圖2　物體分割

追蹤分割的前景物體包含三個步驟：預測各物體在目前圖框應出現的位置、判斷哪一個物體最符合特徵描述、修正物體路徑以預測該物體在下個圖框中的位置。步驟一與步驟三可採用回歸式卡爾曼濾波法(Recursive Kalman Filter)執行。由於在單一圖框中只能觀察到物體的位置，因此必須採用矩陣運算即時計算物體的速度與在下一個圖框中的位置。開始執行處理程序時，濾波法會依據前景物體相對於背景模型的位置進行初始化。在追蹤物體的每個圖框中，濾波法會預測下個圖框前景物體的相對位置。而在場景移至下個圖框時，濾波器法會確定物體位置並修正路徑。

追蹤的第二個步驟為建立資料的關聯性，依據物體特徵的相似度，判定各圖框中物體間的相關性。根據邊界方塊及物體於圖框間的重疊部分，可判斷物體的尺寸、形狀及位置。此外，根據卡爾曼濾波法可預測物體速度，並以色階分布圖判斷各物體的顏色，但上述特徵可能改變。因此，軟體必須納入特徵變化，以正確辨識。

不過，追蹤的複雜度會造成物體辨識相關問題。例如，就系統而言，若越過攝影機前界線的是物體，會比人類越界更容易發布警報。物體的體積與速度，可提供向量進行初步辨識，但更詳細的辨識則需要更多資訊。物體越大提供的畫素資訊就越多，但資料也可能過多，以致於難以快速辨識。在此情況下，即使之後的調查可能仍採用儲存圖框中的完整畫素資訊，仍需以縮小體積技術進行即時回應。

要有效執行VCA，除物體分類外，也須克服其他問題，包括夜間、水面、雲層、樹林中的風、下雨、下雪、起霧等所造成的亮度變化；追蹤交錯物體的路徑，讓物體的前景畫素在短暫合併後又分開；以及在多重攝影機系統中，於不同畫面追蹤物體等。在VCA中，這些問題仍有待解決。

VCA系統設計難度大　高效能處理器不可或缺

執行VCA與視訊編碼，需要高效能的處理器及不同配置。結合可程式數位訊號處理器與精簡指令集運算(RISC)微處理器核心以及視訊硬體協同處理器的高效能處理器，可滿足研發新分析技術所需的可程式彈性。此外，合適的處理器也須結合高速通訊周邊裝置及視訊訊號鏈，以減少系統元件與成本。

如圖3，透過兩個高效能處理器，即可處理高階VCA，並以每秒30圖框的速度，將720×1080高畫質(HD)之視訊來源編碼為720p30 HD，以茲物體辨識。