網路IP 分立式 乙太網 CPU 雲端

瞄準資料中心/電信設備 超高效能平台專攻網通運算

2020-10-12
都會網路和核心網路的頻寬需求在全球市場持續成長,已超越當今技術的支援能力。以資料中心為核心的學術研究,以及企業和消費應用則需要效率更高、性能更強的運算,而這也超出了傳統技術所能企及的水準,分立式解決方案已經無法滿足性能、散熱和頻寬等需求。

 

以Versal Premium ACAP為例,能夠以最小功耗和占板面積在靈活應變的平台上執行突破性異質整合,以及超高性能運算、連接與安全功能。這款高度整合的平台,讓用戶能專注在其獨特的核心競爭力及新穎演算法,不必分散精力設計與記憶體連接的基礎設施,可以使用最快速度將產品投放到市場。

保持連線、無處不在的AI與隨需應變的市場

全球所有市場對都會區網、核心網路的頻寬需求都在持續成長,已超越當今技術的支援能力。這種對更高效、更普及運算的需求已經超出了CPU和GPU技術所能企及的水準。這種頻寬需求背後的推動力包括,影音串流服務爆炸性成長、消費者普遍習慣使用個人物聯網設備,以及雲端服務等。

此外,隨著5G推出,每台連接設備的端點頻寬預計將增加一個數量級,並且連接設備的數量預計比目前無線設備數量增加百倍以上。在空間提升有限的前提下,這類行動頻寬大規模增長,顯著增加了回程網路、都會網路和核心網路的容量。圖1顯示了由5G驅動的網路核心基礎設施投資預測狀況。

圖1  5G無線部署驅動有線基礎設施衝擊頻寬的限制

如今的交換架構通常可在單個1RU主機機箱內實現12.8Tbps的容量,這需要使用32×400G OSFP或QSFP-DD前面板埠。相同尺寸下,新一代交換容量預計將增至25.6Tbps。為了能夠在擁擠不堪的前面板支援更大容量,需要利用相同的OSFP和QSFP-DD尺寸執行每模組800Gbps的承載能力。由於光學模組的電氣側可支援8條序列連結,因此,新一代光學模組的每條序列連結至少需要實現100Gbps的承載能力,促使系統提供商採用全新SerDes技術。

以資料中心為核心的學術研究、企業和消費者服務呈現出爆發成長態勢,帶動了市場對更高效、更普及的運算需求,而這也超越了傳統架構的支援能力。傳統處理架構採用分立式處理、連接和加速IC,功耗過大且無法提供足夠低的延時,難以滿足消費者期望。

由於核心通訊設備和運算基礎設施的開發需要數年時間,因此,系統廠商需要立即著手設計新一代系統。

系統設計挑戰

在設計新一代頻寬最高、最安全的網路與運算基礎設施時,系統設計人員面臨著眾多挑戰,其中三大挑戰包括,

一、在散熱和空間受限環境中對更高頻寬網路的無止境需求。

二、對可擴展、高度整合的IC、處理和儲存的需求(可提供低延時以滿足消費者的用戶體驗)。

三、以最快速度投放市場進而贏得主流市場占比的需求。

為了讓極高頻寬應用能夠以最快的速度投放市場,系統設計人員必須考慮為新興介面標準提供支援,這類新興標準包括800GE、400G ZR、靈活乙太網路(FlexE)和112G直接連線銅纜等。由於標準在審批通過後仍可能發生改變,因此開發自適應解決方案至關重要,否則會面臨重大的高耗時硬體重設計風險,導致丟失搶占市場占有率的機遇。

資料中心和電信設備面臨的功耗和散熱問題,難以利用當前技術解決。因此,儲存、處理、系統控制器、高速網路介面和加速器等大量功能通常都執行在分立IC中,而這會加劇複雜性、提高功耗。此外,設計人員還需要克服占板空間、功耗和散熱約束等眾多難題。

對於資料中心和機器學習(ML)加速應用來說,由硬體執行的演算法和任務變化非常頻繁,特別是在敏捷開發環境中,這就會產生頻繁更換硬體的風險。此外,資料中心和機器學習應用承擔著多種類型的工作負載。因此,相同加速器硬體應用在資料中心和機器學習的多元工作負載勢在必行,否則資料中心將被迫開發多種類型的加速器模組。這種低效工作在研發資源的配置會造成不利影響,並產生互不關聯的加速解決方案,不僅難以支持和維護,還會增加採購開銷和營運成本(OPEX)。

傳統的分立式硬體執行方案增大了系統複雜性、功耗預算、空間預算、BOM元件數和成本等。這種複雜性延長了研發時間,拖慢高頻寬、高運算密度的安全應用的上市進程。

高度整合軟硬體平台Versal Premium ACAP

7nm Versal Premium ACAP是一款高度整合的軟硬體平台,以Versal AI Core和Versal Prime系列提供的架構元素為基礎來建構,包括新一代可程式設計邏輯的硬體、智慧引擎(DSP)、標量引擎(Arm CPU、RPU)、可編程片上網路系統(NoC)、外部記憶體控制器,以及多種類型的周邊介面與I/O。Versal Premium系列的獨到之處包含112Gbps PAM4收發器、高可靠性的乙太網路和Interlaken連接、高速加密(HSC)引擎,以及內置DMA且支援CCIX和CXL的PCIe Gen5等整合模組,參見圖2。

圖2  Versal Premium ACAP原理圖

Versal Premium ACAP的獨有特性

GTM收發器(112Gbps PAM4)

16nm Virtex UltraScale+ FPGA的PAM4收發器延伸發展了Versal ACAP的GTM收發器,把線速提高到112Gbps。發送器是一台4-tap驅動器:1個主驅動器、1個預強調(Pre-emphasis)tap、2個後強調(Post-emphasis)tap。接收器是一種基於ADC的設計,即在透過模擬AGC和CTLE階段後對資料進行採樣,接著透過統整的DSP引擎來完成均衡的其餘部分。

該DSP引擎經改進修正後,提供了1個決策回饋等化器(DFE)tap和31個前饋式等化器(FFE)tap。在前一代GTM收發器增加tap,有助於克服細微的通道缺陷,這種缺陷有可能在高速率下損壞資料。在使用PAM4以最高速率傳遞訊號的同時,GTM收發器也能使用NRZ以半速率傳遞訊號,結合內部分頻器使用,GTM 收發器能夠支援10G的NRZ速率、25G的NRZ 和PAM4速率、50G的NRZ和PAM4速率以及112G的PAM4速率。

GTYP收發器(32.75G NRZ) 此外,Versal Premium ACAP也包含從16nm Virtex UltraScale+ GTY收發器演進的GTYP收發器(32.75G NRZ)。Versal平台的GTYP收發器支持PCIe Gen5並已經通過調整測試,可滿足PCIe Gen5電氣規格,也能夠支援逾100種其他協定,意指GTYP收發器既能在256Gbps速率推送資料的Gen5×8 IC運用,也能用於使用全部15個DFE tap的25G-LR乙太網路來連接,更能連接在1.5Gbps速率下的SATA Gen1。每個GTYP收發器有5個迴路(PLLs),在每個迴路中有N回饋分頻器,它能讓這些完全不同的協定能使用相同的參考時鐘。

圖3  GTM收發器(112G PAM4 SerDes)原理圖

彈性連結600G乙太網路、PCIe Gen5和600G Interlaken

Versal Premium ACAP彙集了通訊、資料中心、測試測量應用需要的最關鍵連接特性,整合包括600Gbps乙太網路MAC和PCS、帶有FEC的600G Interlaken、多速率100Gbps乙太網路MAC和PCS,以及PCIe Gen5,這些整合連接特性利用各種不同比例來組合在Versal Premium系列裡面。納入加固連接核心能夠大幅改善執行標準化介面所需的邏輯架構和功耗。這樣用戶就能夠在尺寸更小、功耗更低的元件中執行高頻寬連接。

整合連接核心能夠針對多種配置進行程式設計,進而適應多種應用。這些核心擁有精細細微性的靈活性,能夠繞過乙太網路處理器和Interlaken處理器內的子模組,用戶可以在核心內的各點上插入自己的代碼。

圖4  GTYP收發器(32.75G NRZ)原理圖

600Gbps通道化多速率整合乙太網路子系統

為了支援最新的標準化介面與新興的高速聯網介面,Versal Premium ACAP的每個整合600G乙太網路MAC/PCS子系統(DCMAC),提供了高達600G的通道化乙太網路頻寬,能夠針對不同速率的頻寬來配置(見圖5)。DCMAC可以執行一個時間片段(Time-sliced)的MAC區塊,該區塊可支援多達40個資料處理與資料統計通道。此外,該模組也可執行KP4和KR4前向錯誤碼修正(FEC)區塊,能夠對傳輸過程中發生的錯誤,利用遠端來修正。與此同時,還可支援FlexE v2.0標準並提供次毫微秒(Sub-nanosecond)等級精準度的時間標記。

圖5  多重速率的乙太網路子系統共同整合的DCMAC原理圖

DCMAC是一種功能強大的整合區塊,其提供下列關鍵特性:

1.多重配置

(1) 1×400GE 

(2) 3×200GE 

(3) 6×100GE

2.擁有時間片段600GE的MAC區塊

(1)支援40個資料處理與資料統計通道

3.整合FEC

(1)可選已整合的RS-FEC(KP4/KR4)

(2)面向光傳輸網路(OTN)的FlexO FEC

(3)可選擇只有FEC的模式

4. FlexE支援夾層路徑(Shim Path)為符合未來技術的相容

5. IEEE Std 1588時間標記:次毫微秒等級精準度

整合600Gbps Interlaken高速晶片之間的介面

為了支援FPGA、ACAP、ASIC和ASSP之間最先進的高速資料傳輸,Versal Premium元件整合了多個600Gb/s Interlaken介面。這些硬核IP支援內建流量控制的通道化介面。Versal Premium平台的GTM(112G PAM4)和GTYP(32.75G NRZ)收發器可支援PCB層、背板層和線纜PHY層(見圖6),

圖6  整合600G Interlaken和FEC區塊的原理圖

下面是其特性總結

一、收發器擁有高達600G的通道化頻寬和自適應速率,包括

1. 12×56.42G 

2. 24×28.21G 

3. 24×12.5G

4. 其他速率與寬度可程式設計

二、彈性化的AXI-S使用者介面,可配置2048b到512b的資料頻寬,

三、可選擇整合RS-FEC 

1. 100G/50G RS-FEC(KP4)

2. 純FEC模式

四、所有配置的通道停用

配備PCIe Gen5的IC

Versal Premium ACAP內置兩種用於PCIe的匯流區塊,包含配備Compute Express Link(CXL)的PCIe Gen5(PL PCIE5);內置DMA且支援CCIX的PCIe Gen5(CPM5)。將這些IC,與全新的GTYP收發器結合使用,能夠支援每通道2.5GT/s(Gen1)、每通道5GT/s(Gen2)、每通道8GT/s(Gen3)、每通道16GT/s(Gen4),直至每通道32GT/s(常稱為Gen5)等多種速率。

CPM5區塊內置兩個針對PCIe設計的控制器子區塊,每個子區塊整合一個基於佇列的直接記憶體存取(QDMA)控制器。每個控制器都能獨立訂製,並且能夠直接連接到NoC和調整硬體(Adaptable Hardware's)的可程式設計邏輯架構。此外,CPM5也提供支援快取同調匯流互連加速器(CCIX)設計的區塊。每個區塊與具備CCIX能力的處理器配合使用,能協助運算加速應用執行快取一致性加速。CPM5區塊已經能夠存取16個GTYP收發器。

CPM5可支援的最大連結配置是2*Gen5×8或Gen4×16。這些連結能與任何符合PCI Express基本規範修訂版的設備,來進行交互操作。Versal架構在CPM中已經增加了轉換與橋接應用程式的支援,以及支援先前架構的端點(Endpoint)和Root Port(見圖7)。

圖7  內置DMA且支援CCIX的CPM5 PCIe原理圖

PL PCIE5(見圖8)是部署在Versal AI Core ACAP,以及Versal Prime ACAP內的PL PCIE4強化,進一步提供協定升級版本。與CPM5類似,PL PCIE5區塊也需要配合GTYP收發器使用,可支援各種資料速率。PL PCIE5可支援的最大連結寬度配置包括Gen5×4、Gen4×8和Gen3×16。這些連結能與符合PCI Express基本規範任何修訂版的設備進行交互操作。在之前架構對端點和Root Port支援的基礎之上,Versal架構在CPM中新增對交換應用和橋接應用的支援。

圖8  PL PCIE5原理圖

高速加密(HSC)引擎

Versal Premium ACAP中的每個高速加密(HSC)引擎均採用AES-GCM-256/128引擎,可在多達40條通道上提供高達400Gbps的總體加密能力,並支援這40條通道與600G乙太網路子系統進行連接,也提供多達4個HSC引擎,執行最高1.6Tbps的線路速率加密。

每個HSC核心可同時支援MACsec和IPSec,頻寬可劃分為1×400G、2×200G或4×100G通道,每100G可提供多達128個安全關聯(SA)。透過調整硬體中的軟邏輯,還能執行額外的SA(見圖9)。

圖9  整合400G高速加密引擎

資料中心聯網:3.2Tb/s資料中心互聯平台

當今暴增的頻寬需求最終會對資料中心產生影響,而這些資料中心通常為多種類型的使用者和提供內容與服務的應用,並處理資料和事務。頻寬與服務不僅在出入資料中心的連結產生大幅成長,也在資料中心相互連接的連結上提升,這些連結是跨區域性分布式資料中心站所互聯。DCI設備必須能夠相容伺服器方面和傳輸方面的多種光通訊技術與協議,同時兼顧安全、低成本的平台適應新興的以及不斷演進發展的標準。

Versal Premium ACAP執行1RU系統或單卡方案,可在1.6Tbps的線路速率加密功能下提供3.2Tb/s的容量,支援各類型的標準化與新興協定以及光通訊技術。隨著透過突破性整合連接與加密核心,單片Versal Premium ACAP就能做到這點,圖10顯示了Versal Premium ACAP橋接主流100G和400G新興光通訊技術的執行狀況。

圖10  3.2Tb/s資料中心互聯原理圖

舉例來說,在伺服器方面採取透過4×25G NRZ連接QSFP28光模組的32通道100G FlexE;在線路方面,則採用透過4×112G PAM4連接未來光通訊技術(預計使用QSFP-DD或OSFP光模組外形構造)的8通道400G乙太網路。加固的乙太網路區塊用在伺服器一側,來執行配備RS-FEC和多速率PCS的100G FlexE,並在線路方面配備KP4 FEC的400GE來運行。1.6Tbps的AES256線路速率加密在4×400G HSC引擎中執行。雙核Arm Cortex-A72處理器用於為高效率、隨時可程式設計系統與網路管理提供控制和埠管理功能。這些特性全部執行在Versal Premium ACAP的整合硬IP區塊中,既能夠提供ASIC級的單位功耗性能,又能夠最大限度降低提供這些功能所需的功耗與晶片面積。

另一個需要邏輯架構的特性是FlexE Shim。它能在一個或多個乙太網路PHY上執行接合、通道化和降額運行。例如,Shim支援單個2×100GE介面承載獨立的10GE、25GE和50GE通道。

有線網路:2.4Tb/s用戶端介面卡

對於使用常見在資料封包用戶端介面建立的傳輸應用層來說,Versal Premium ACAP可提供一種高效方法,各種用戶端資料流量與服務橋接並封裝到產業標準的OTN封裝程式中。本文使用整合的通道化的乙太網路、Interlaken FEC,配合112G和58G PAM4 GTM收發器,以及32.75G GTYP收發器,可在Versal Premium ACAP中執行2.4Tb/s容量用戶端介面。自適應硬體邏輯架構用於執行ODUk映射、分段和再重組(SAR)功能,以及ODUk開銷功能(見圖11)。

圖11  2.4Tbps用戶端介面卡原理圖

借助Versal Premium ACAP執行傳輸用戶端卡(Client Cards)的優勢

用戶端卡可隨時適應動態用戶端介面的需求。升級光模組並採用相同的硬體平台,就能採用新用戶端面向的光通訊標準,如借助112G PAM4通道執行800GE或400GE。在Versal Premium ACAP的專用硬IP中執行乙太網路、FEC和Interlaken,既能獲得ASIC級的功率效率,又能釋放邏輯架構資源用於映射、開銷、SAR功能以及差異化功能的執行。

零售分析:適用於影片內容分析的自我調整加速器

零售企業正面臨著多方面的挑戰,包括損失防護(LP)、低成本的即時庫存管理,以及如何透過個性化市場行銷,來實現收入最大化。由資料驅動的影片內容分析系統能有效地識別LP風險,提供自動化、即時、有助於採取措施的庫存洞察,並提供可促進銷售最大化的客戶體驗訂製能力。Versal Premium ACAP能夠在單個平台上建構影片分析解決方案,用於影片中元資料的識別、提取和分類(圖12)。

圖12  零售影片內容分析加速器

Versal Premium ACAP的殼層(Shell)程式和角色功能,可以為設計人員集中精力開發針對特定角色的應用,以及提供便利的ML演算法執行方案。同時,它還可以利用ACAP的現成殼層連接與安全特性。角色會以軟體可程式設計運算核心的形式,在ACAP的自適應硬體與DSP引擎中執行,這些核心可以隨影片分析庫提供的功能一起載入。這些分析庫能加速物件檢測、圖像分類功能和影片編碼/解碼/縮放等核心智慧零售功能。各類型CNN都能在賽靈思的深度學習處理單元(DPU)中執行。此外,DPU也位於Versal平台的自適應硬體內,支援DPU進行持續最佳化與更新,以跟上AI領域的快速發展。最重要的是,能夠在緊鄰運算核心的地方提供最大1Gb的SRAM,以及提供高達123TB/s的記憶體頻寬,這對於CNN、RNN、MLP等網路的人工智慧加速至關重要。此外,ACAP很容易適應大小為1的批次,進而消除了GPU架構和基於GPU的架構所特有的記憶體瓶頸與批次大小輸送量限制,進而為Resnet50執行高達每秒13,000幅圖像的處理速度。

Versal Premium ACAP的殼層可提供平台連接和加密功能。主機通訊是PCIe的整合區塊所提供,這是由Gen5速率與整合的DMA引擎配對。網路連接由乙太網路子系統處理,可提供高達5Tb/s的通道化頻寬。HSC引擎用於保障與AES-256/128加密、MACsec和IPSec的安全通訊。所有殼層與角色功能均可透過可程式設計NoC進行互聯,該互聯能提供高達2.2Tb/s的橫斷面(Cross-sectional)頻寬。

建構在Versal Premium ACAP上的影片分析系統是一個穩定的超高性能自我調整平台,能夠為零售商提供方便採取行動的情報,進而最大限度地減小損失並實現收入最大化。

網路測試:3.2Tb/s容量800G L2-L3網路測試器

雲端和企業資料中心使用多家廠商提供的伺服器、交換機、路由器、應用以及其他設備構建他們的基礎設施。為了確保設備可執行交互操作,並且能夠正確地對預期的流量進行處理,設備需要在特定的OSI層接受測試。通常有兩個層次的測試,分別是L2-L3測試面向乙太網路交換機、橋接和路由器等設備;L4-L7測試面向路由器、視訊伺服器、媒體閘道和防火牆等設備的應用級測試。雖然Versal Premium ACAP非常適合於所有層的測試器執行方案,但本文的重點是800Gb/s L2-L3測試設備。

L2-L3測試設備需要高度訂製的協定邏輯來執行非標準功能,對既定協定的各項特性開展故障注入(Fault Injection)和分析。這些測試器受到空間和功耗的約束,因此有必要將BOM組件整合到高能效的IC中,以支援高度訂製的協定邏輯。

Versal Premium ACAP的自適應硬體適用於執行這種高度訂製的協定邏輯,因為它是高度可程式設計的,其邏輯容量足以執行非常大型的協定邏輯區塊。 圖13展現是800G L2-L3網路測試器的原理圖。它最多支援4個800G通道,可提供3.2Tb/s的容量。

在圖13中,介面ACAP用於執行PCS、MAC和FEC功能。每個介面ACAP都能執行一個800G流量或多個低速流量,例如8×100G或2×400G。在後端,分析移除ACAP以線路速率執行下列功能:

圖13  3.2Tb/s容量800G L2-L3網路測試器

1.影像掉格率(Frame Loss)

2.往返通訊延遲(Round-trip Latency)

3.封包差異(Packet Jitter)

4.間隔時間(Inter-Arrival Time)

5.序列錯誤(Sequence Errors)

6.時間標記(Time Stamps)

介面ACAP能在中等密度的Versal Premim元件上執行,而分析卸載的ACAP能在最小型的Versal Premium元件上執行。這種劃分代表典型的測試器架構,而且一些廠商能夠選擇在一個大型Versal Premium ACAP上執行所有功能。

Versal Premium ACAP用於L2-L3網路測試器的優勢

整合112G PAM4能夠消除前面板介面橋接到測試器內的主流速率,以及協定的外部變速機制(有時也稱Bitmuxes,比特多工器),這會推動廠商支援最先進的協定並助其執行最高速率。此外,它還能簡化電路板複雜性,減少元件數量並降低BOM成本。借助Versal Premium ACAP替代變速機制,能夠完整觀察串列訊號眼圖的張開和幅度,並面向各類差異提供分析,而這是基於變速機制的執行方案所無法具備的。

Versal Premium ACAP的整合KP4 FEC區塊可以為400G+協定FEC提供支援,因為FEC執行在主晶片裡,所以使用者邏輯以及內置乙太網路MAC和PCS區塊,能夠通過標準布線資源隨時存取。當與晶片組執行方案(MAC/PCS和FEC直接連接到SerDes)進行比較時,這種架構體現出兩大顯著優勢,首先,訂製協議能夠直接存取FEC,需借助晶片組的連接,因而能夠將該連接釋放用於高速SerDes資料路徑;其次,功耗與相關的熱耗散分布在整個架構中,能夠消除熱點,有利於整個元件發揮最佳性能。

內置DMA的PCIe Gen5整合(加固)區塊能夠在不影響邏輯資源的情況下執行高功率效率的PCIe介面,這樣可以最大限度將邏輯架構用於執行訂製協定邏輯。

Versal Premium系列的優勢

Versal Premium ACAP在與ASIC類似的網路匯流區塊內整合了多種關鍵功能,來釋放邏輯資源,並且用在自我調整硬體中為客戶執行關鍵的差異化、訂製加速器以及邏輯,通過為眾多應用最大限度減少需在硬體中執行的IC數量,這種整合可以顯著減小占板面積、減少功耗預算及元件數。

更重要的是,Versal Premium ACAP 是一款預先設計的元件,可以執行高效率的資料移動(輸入/輸出/元件上傳輸)、大量高速通訊介面、訂製層級和現成的記憶體次系統、安全處理、應用處理和即時處理,以及軟體控制平台管理。所有這些子系統都能透過可程式設計NoC卸載到硬IP上。

Versal Premium ACAP大規模整合了聯網硬IP,能夠大幅簡化系統設計,來解放架構師與研發團隊,使其可以全力開發下一個重大產品,專注於關鍵演算法和協定的設計,而無需將精力分散在基礎設施構建上。憑藉Versal Premium ACAP的一流性能和單位功耗頻寬及其大規模資料傳輸與處理能力,自我調整加速器中的用戶核心功能就能以最快速度執行商業化。

22倍等效邏輯容量

相較於賽靈思上一代高端FPGA,即16nm Virtex UltraScale+元件,Versal Premium元件中的硬IP整合規模增長了22倍的運算密度。舉例來說,Virtex UltraScale+ FPGA的等效邏輯資源與Versal Premium ACAP VP1802的加固IP硬核進行比較:要執行600G通道化乙太網路MAC、100G多速率乙太網路MAC、400G HSC引擎以及內置FEC的600G Interlaken,在設計中需要使用22個Virtex UltraScale+ FPGA;而Versal Premium ACAP VP1802將所有這些功能都執行在硬IP中,可以同時提供相當於Virtex UltraScale+ VU13P近兩倍的邏輯容量,顯著降低了功耗水準(見圖14)。

圖14  將22個Virtex UltraScale+ 高端FPGA等效邏輯整合到單個Versal Premium VP1802 ACAP

112G PAM4收發器使頻寬密度翻倍、延時減半

需要100Gb/s或更大頻寬的核心網路、都會網路和DCI網應用在不斷推動前面板機櫃空間利用效率的提高。企業、商業和消費者應用需要最大限度降低延時,以提供最佳的用戶體驗。與16/14nm的58Gb/s PAM4技術相比,將112G PAM4收發器用於核心網路、都會網路和DCI基礎設施,能夠在傳輸既定資料負載時將每埠頻寬密度翻倍、延時減半。提高埠密度可通過降低功耗與節省機櫃空間降低OPEX,在保留原有基礎設施的同時,在電信與資料中心應用中執行單位體積頻寬翻倍。提高頻寬能夠最大限度降低延時、提高應用回應性,進而提升客戶滿意度並提供更優質的客戶體驗。在執行跨地域分散式資料中心互聯時,這有助於減輕延時帶來的影響。參見圖15。

圖15  每節點賽靈思SerDes總頻寬

可擴展性與靈活應變能力:面向多元化動態光通訊市場提供統一平台

規劃整合光介面的系統和板卡設計時,設計人員往往面臨著艱難的權衡取捨:支援最先進的最高頻寬和最大密度光通訊標準,還是支援各種已投產並得到廣泛採用的標準光通訊技術。此外,設計人員必須在為多太位元容量而設計的系統中適配從1G到10G的多種存取速率。Versal Premium ACAP支援系統軟體使用一致的使用者介面,在相同的硬體/軟體可程式設計平台上,執行從最低速率介面(如1GE)到最高速率介面(如即將推出的 800GE)的縮放業務。因為ACAP硬體/軟體平台觀感相同,所以研發團隊的執行效率會有所提高。Versal Premium ACAP 內在的自我調整性有助於將最先進的協議和光通訊標準整合到現有基礎設施,即使系統在標準最終制定前已完成部署。

DSP靈活性與性能強化

DSP相關應用目前極為普遍,從5G通訊和測試、航空電子到超大規模資料中心AI推斷,幾乎遍及所有市場。這些應用有一個共同需求,即底層功能與運算的類型,主要是用於FFT和矩陣乘法運算的乘法和累加函數(MAC)。Versal Premium ACAP能夠以整數、單精確度浮點和混合精度浮點等多種不同資料類型為MAC提供支援,並且可以動態對精度、準確性和功耗進行調整。Versal Premium ACAP的DSP資源能夠執行重新程式設計,以適應隨時間推移或演算法執行方案的演進發展而變化的工作負載。

Versal架構下的DSP引擎基於DSP58區塊建構。這種架構源於上一代DSP48,能夠針對最常使用的操作(如INT8、32位浮點、18位複數運算等)提供超越Virtex UltraScale+ FPGA的優異性能。這些資料類型現在都能夠從Versal平台的DSP引擎中得到在地支援。Versal Premium元件擁有多達14,000個低功耗DSP區塊,是高速度與小尺寸的完美結合。DSP資源能夠為資料訊號處理外的眾多應用強化速度和效率,例如寬動態匯流排移位元器、記憶體位址生成器、寬匯流排多工器以及記憶體映射I/O寄存器。 為了體現出DSP強化性能,圖16是上一代擁有DSP資源的高端FPGA Virtex UltraScale+ VU13P FPGA與擁有最多DSP資源的Versal Premium ACAP VP1802之間的比較。

圖16  Versal Premium ACAP(VP1802)與Virtex UltraScale+ FPGA(VU13P)的DSP性能比較

對於都會網路、核心網路以及前沿運算加速應用來說,Versal Premium ACAP 突破性地將功耗最佳化的網路IP核心整合到統一平台上,以適應新標準與新演算法。Versal Premium ACAP將超高性能的運算架構與最大容量為1Gb的片上SRAM相鄰布置。SRAM存取速度高達123TB/s,足以滿足新一代運算應用的需求。整合連接功能可以為都會網路與核心網應用提供高達5Tb/s的乙太網路連接,同時也為高資料輸送量的運算應用提供了最快的資料傳輸。Versal Premium平台的自適應硬體提供了超過700萬個系統邏輯單元,方便使用者執行高度差異化的邏輯與最先進的演算法。這款異質平台為用戶提供了預先設置連接、處理器、訂製記憶體層級、安全功能以及可訂製運算架構,有助於產品以最快速度投放市場,在最具挑戰性的運算應用與聯網應用市場占有一席之地。

(本文由賽靈思與其TEE合作夥伴Prove&Run共同撰寫)

 

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!