運用多埠記憶體開發高效率無線基頻處理元件

2004-03-23

Stephen Rogers/Rajiv Nema

隨著無線傳輸標準從2G、2.5G、3G等規格，一直演進到更新的技術，每個無線通訊基礎建設網路的子系統都面臨嚴苛的壓力，必須滿足愈來愈高的效能與頻寬的需求。此外，子系統晶片廠商不但面臨各種技術上的限制，另一方面也必須提供充裕的功能與效能。

隨著無線傳輸標準從2G、2.5G、3G等規格，一直演進到更新的技術，每個無線通訊基礎建設網路的子系統都面臨嚴苛的壓力，必須滿足愈來愈高的效能與頻寬的需求。此外，子系統晶片廠商不但面臨各種技術上的限制，另一方面也必須提供充裕的功能與效能。為滿足這些與日俱增的需求，系統架構必須採用非傳統元件徹底重置。多埠記憶體，也稱為特殊用途記憶體，就屬於這類元件，能滿足現今網路設備子系統的需求。

由於無線網路逐漸轉變成在3G通訊速度下傳輸多媒體資料(語音、資料及影片)，故基頻介面卡內部處理作業的複雜度亦隨之增加。系統內部運用大量的DSP、FPGA以及ASIC處理各種作業，以平行處理模式達到即時處理的效率。運用多埠記憶體達到充裕的緩衝容量，便能支援處理器之間通訊的需求。本文介紹3G 基地台內部的基頻處理介面卡運用多埠記憶體的幾項技術。

3G無線基地台

圖1顯示3G基地台的主要元件(節點B)。主要元件可分成以下主要部份：天線、放大器、過濾器、基頻處理卡、功率、控制與時脈分配以及網路介面等。本文主要討論探討基頻處理卡，因為它是執行大部份運算與訊號處理工作的元件。

基頻處理卡

處理卡基頻接收元件的複雜度高於傳送元件，如同諺語所說的「聽比說還難」。這是因為基頻元件的接收端可能會同時接收到多個使用者的訊號，而行動使用者與基地台之間經常混雜著多位使用者發出的訊號、同一使用者發出訊號的複本以及許多雜訊來源的干擾，這些因素讓接收訊號的作業極為困難。要區隔許多訊號來源需要運用大量的運算資源。反觀基地台的傳送元件的工作，僅是將原始資料轉換成3G訊號的協定格式，然後再發送出去。本文所介紹的設計建議與技巧，主要集中在基頻介面卡的接收部份。Tx與Rx基頻處理元件可建置於兩組不同的介面卡上，讓基地台能單獨針對接收或傳送元件進行升級與更換。

接收部份包含片碼速率(Chip Rate)處理區塊以及符號傳輸率(Symbol Rate)處理區塊，如所標示部份。Chip Rate處理區塊會從多組使用者行動裝置所發出的多組訊號中，產生最強的訊號，而Symbol Rate處理元件則會從訊號中譯出使用者資料。

高效率的Chip Rate處理

從最終使用者到基地台所上傳的Chip Rate處理，可結合FPGA與DSP達到最佳化的效率。FPGA主要用來建置一套耙式接收器(RAKE receiver)，因為輸入端的資料速度較高，且必須針對多重使用者的通訊進行大量的平行運算。而DSP則適合建置各種密集運算的功能，例如像通道預測、頻道預測以及大量等比結合(Maximum Ratio Combining, MRC)。而這種建置模式需要在FPGA與DSP之間處理大量的資料。

RAKE接收器

RAKE接收器用來解決多重通道訊號的問題，發自最終使用者行動裝置的訊號會經由多組不同的通道，包括從建築物與其它障礙物所反射回來的訊號。RAKE這個字的英文原意是耙子，它的起源是由於接收器運用多組finger通道，而這些不同長度的finger形狀類似一般花園用的耙子。RAKE接收器會接收多組接收訊號的複本，並將它們送至不同的finger通道，之後再將每個finger終點的輸出訊號進行加總處理(sum)。通道預測的程序是用來計算不同通道的時間點(timing)，再針對RAKE接收器中的每個finger套用適合的延遲設定。

使用者打每一通電話可能需要在RAKE接收器上，配置不同數量的finger(通常介於3至6之間)以達到最佳的訊號品質，實際的數量由頻道預測區塊決定。通訊環境中若有多組通道，系統會根據每個訊號與 RAKE接收器finger之間的雜訊與訊框流失的預測值，由頻道預測以及MRC來決定要套用多大的相對加權值(weight)。

FPGA用來處理傳至將會傳送所需的追蹤資料至DSP，其中包含許多大量的相關係數，這些資料是進行finger配置與加權的依據，並能將實際解展頻的資料傳至DSP進行Symbol Rate處理。FPGA與DSP之間傳遞追蹤資料的數量，取決於基頻介面卡所處理的頻道數量、資料碼採樣速度及通訊天線的數量等因素。參考資料1所列舉的範例，顯示在一個內含32個處理頻道的WCDMA系統中，FPGA與DSP之間每個訊框(10ms)須處理13Mb的追蹤資料。

FPGA傳送至DSP的資料量 = 400Kb(每個訊框所的追蹤資料) x 32(頻道數量) x 100(10ms 訊框) = 1.3Gb/s。

低延遲、高速的DSP序列埠可將小量的更新係數(coefficient update)及finger配置資料區塊傳回至chip rate的FPGA或ASIC。若chip-rate處理系統包含FPGA至DSP的連結，並在FPGA與DSP之間置入一組多埠記憶體，如雙埠記憶體，便能讓系統輕易傳遞追蹤資料(tracking data)並加以緩衝處理。參考資料2中的研究結果顯示區隔DSP間的運算作業，使演算法的執行速度提高5倍之多，有效紓解系統的瓶頸。例如，在頻道或通道預測以及偵測使用者等部份的功能，採用多組DSP各司其職。在這種建置模式中，各DSP可在不同的時間或不同的時脈速度下存取相同的資料。雙埠記憶體適合支援這類應用，其結構如圖2所示。

雙埠記憶體提供容量密度極高的緩衝區，並能在極高流量下以隨機模式存取緩衝區內的資料。在這個範例圖2中，可同時讓介面裝置、FPGA及DSP存取資料，且能在兩組相互獨立的時域(clock domain)中運作。每個傳輸埠具備雙向傳輸的特性，協助FPGA與DSP能達到真正的資料分享機制。最近問市的產品包括內含36位元寬傳輸埠的9Mb 元件，若採用堆疊模式，可建構出密度更高、頻寬更大的記憶體系統。雙埠記憶體的流量(頻寬)計算公式為fMAX x 2埠 x 每埠頻寬，而最近市面上推出的產品能提供每秒超過14 Gigabit的傳輸流量。

雙埠記憶體可與DSP的外部記憶體介面(External Memory Interface, EMIF)緊密地連結。運用DSP內的直接記憶體存取(Direct Memory Access, DMA)引擎，存取雙埠記憶體中的緩衝資料之時，可將CPU的運作干擾降至最低的程度。運用各項晶片功能，這連結機制協助一組DSP能共用相同的資料，讓 DSP能同步處理不同雙埠記憶體內部、相同資料或緩衝區內的資料。這種機制使資料能保存於緩衝區，而DSP則是處理先前傳輸的資料，而不是直接與FPGA 和DSP連線。這種機制比使用正規單埠SRAM或DRAM還要理想的地方在於FPGA在將資料寫入記憶體緩衝區及DSP讀出資料時，不會有匯流排週轉 (turnaround)延遲的狀況。相反地，系統的頻寬與效率都會增加數倍。此外，多埠記憶體讓不同運作時脈或不同時域的處理器都能輕易地連結，若是採用單埠記憶體就不可能達到這種模式。這種模式下的多埠架構亦在處理器與記憶體之間提供點對點的連結機制，反觀單埠型元件則需要一套共用匯流排。點對點的連結模式能簡化維持訊號完整性的設計工作，並達到比使用共用匯流排機制更高的時脈速度。

高效率的Symbol Rate處理

Symbol Rate處理的資料傳輸速度遠低於Chip Rate的資料傳輸速度。大多數Symbol Rate處理都由基頻介面卡上的DSP完成。Symbol Rate處理的部分包含許多方面的作業。在對接收資料進行錯誤檢查的作業中，循環冗贅核對編碼(Cyclic Redundancy Check encoding, CRC encoding)與解碼增加一道最後的步驟。在前向錯誤修正(Forward Error Correction, FEC)作業中採用迴旋式(convolutional)編碼技術，將每個位元編碼成一組3位元的符號，藉以改進傳輸資料的完整性。在接收器中運用相對應的解碼技術，能協助系統回復在傳輸過程中受雜訊干擾而受損的資料。即使構成Symbol的某些位元在傳輸過程中受損，解碼器仍能將訊息修復成原始的資料。 Symbol Rate是原始資料速度的3倍。3G系統中主要採用2類編碼與解碼機制-Viterbi，主要應用在語音頻道，能與2G系統達到回溯相容性。另一種就是 turbo解碼，在資料傳輸的編碼與解碼上能提供更高的效率，但它耗用的運算效能高於Viterbi。交織處理(Interleaving)將資料寫入一連串X列乘以Y行的矩陣中，然後將資料從行中讀出，再由接收器中的解交織器將資料寫入較小矩陣中的行中，之後再按列讀出，排置成資料在傳輸之前的格式。這個程序能將傳輸中的Symbol展開(spread out)，讓訊號在充滿瞬間雜訊的傳輸環境中避免受損。

德州儀器推出的C64x系列DSP就在晶片內建turbo與viterbi兩種協同處理器，協助提高Symbol Rate處理的效能。多埠記憶體在基頻介面卡中能進一步提升這部份的處理效能。其中一種建置模式是運用一組4埠記憶體，例如Cypress Semiconductor的QuadPort記憶體元件，如圖3所示。此記憶體是一套4埠的交換元件，能從每個完整的獨立連結埠中存取一個整合記憶體陣列，且各自在不同的頻域(frequency domain)下運作。在這種建置模式中，QuadPort記憶體其中一組連結埠連結至Symbol Rate FPGA，其餘3組連結埠則連結至3組不同的DSP，讓系統能同時存取相同的資料。

負責處理Symbol Rate的FPGA所配置的資料會暫存在QuadPort記憶體，然後再由解交織或解多工DSP讀取，之後寫回記憶體中，供執行viterbi解碼的 DSP(支援語音頻道，或2G舊型通訊裝置的資料)或是執行turbo解碼(支援3G資料頻道)的DSP存取存取這些資料。DSP中的EMIF介面是由 DMA所控制，當系統將資料從外部多埠記憶體傳送至內部記憶體快取時，若運用這些介面，則CPU仍能繼續運作。QuadPort記憶體中的記憶體空間可加以切割，將原始的交織資料儲存在矩陣的某一區域，並將解交織或處理後的資料儲存在不同的區域，供執行解碼作業的DSP存取這些資料。

此外，多組DSP可用來改進超快速解碼流程的效能。這種設計能以平行模式處理資料，讓資料的解碼作業達到更可靠的結果。其運作機制如所示。系統中建置一組雙埠記憶體，作為資料在流入晶片rate process元件之前的緩衝區，並供負責執行解交織或解多工作業的DSP存取緩衝區內的資料。雙埠記憶體的其它連結埠用來趨動一組匯流排，讓執行 viterbi或turbo解碼作業的DSP能存取其中的資料。元件中的另一組連結埠可用來與負責執行平行turbo高速解碼的DSP分享資料。

多埠記憶體有效縮短DSP與FPGA間訊號傳送距離

3G網路需要的處理效能遠高於現有GSM網路，而處理技術已逐漸無法滿足處理器需要的速度，且無法趕上這些網路對於訊號處理需求的成長速度。有些技術針對基地台架構採用多埠記憶體，成功銜接兩者之間的差距。在無線基地台中運用多埠記憶體能帶來多方面的利益。它們能提高整體流量以提升系統整體效能、提供充裕的設計彈性、並讓產品能迅速問市。此外，多埠記憶體亦有助於機板的設計，因為它能建立許多點對點的連結，降低DSP/FPGA/ASIC之間傳輸介面的負載，有效縮短DSP與FPGA之間訊號傳送的距離。

(本文由Cypress公司提供)