AI運算朝異質架構發展　處理器/記憶體方案滿足多元需求

2019-06-25

吳栢妤

5G商轉啟動，可望結合AI應用掀起一波AIoT浪潮。而隨著AI應用越趨多元、運算需求不斷提升，AI運算平台也開始朝異質化架構發展。面對強大的AIoT需求，處理器與記憶體、儲存裝置業者也在COMPUTEX 2019分享各自的應戰方針。

5G商轉的加速，為人工智慧(AI)帶來更多應用可能性及更龐大的資料量。而在應用越趨複雜、資料負載不斷提升的情況下，AI處理器也越趨多元，以執行不同的演算法，使得物聯網(IoT)與智慧型手機的AI處理架構邁向異質化。

Arm副總裁/院士暨機器學習事業部總經理Jem Davies表示，AI與5G時常被一同提出來討論，這並不是因為兩者間有絕對的關聯，而是因為5G的大頻寬、高傳輸速率與海量連接可為AI應用更大的資料負載，也使之成為AI處理器開發時重要關鍵議題。

AI核心平台邁向異質化

Arm IP產品事業群總裁Rene Haas表示，AI核心平台邁向異質化時代。而若單就智慧型手機市場而言，現今的智慧型手機已經內建許多AI和ML的基礎功能，包括即時影像擷取、人臉辨識等，但在全球將近四十億只的智慧型手機中，目前約有85%的手機還是將機器學習(ML)的工作負載交由CPU或者CPU搭配GPU執行的(圖1)。

SoC成下世代手機AI運算架構

根據Arm對AI處理器工作負載的研究，AI+5G將掀起的大資料量時代，在此趨勢下，為達成更佳的應用效能和使用體驗，發揮AI和ML的優勢，未來智慧型裝置將走向SoC的運算架構，以CPU為AI運算中心，再整合運用GPU、神經處理單元(NPU)、顯示處理器(DPU)、現場可編程邏輯閘陣列(FPGA)等運算資源。

以目前的情勢來說，可以觀察到全球前三大的智慧型手機廠都已經表示會以SoC架構作為晶片開發、設計方向，導入NPU或者AI處理單元(APU)來提升AI運算效能，以分擔CPU或GPU的運算負載。而中階手機也會慢慢地朝這個趨勢發展，不過Davies認為，至少需要4~5年的時間才能在中階手機看到明顯的趨勢。整體而言，CPU現階段仍是智慧型手機的運算核心。

AIoT運算需求多元/複雜　處理器各有優勢

而在物聯網的部分則可以觀察到，隨著運算需求不斷提升，AI應用在雲端與邊緣端的分工也越來越明確。機器學習的應用可分為訓練(Training)與推理(Inference)，其中，訓練工作在雲端/伺服器完成，邊緣端是負責做推理或者簡單的再訓練(Retraining)工作，一來是因為雲端有更大的資料庫可供訓練，二來是這麼做就能減輕邊緣端的運算量與功耗。因此，對於部分的應用而言，邊緣端只須搭載CPU或MCU支援人臉辨識、物件辨識等推理工作，在滿足運算需求的前提下，延長電池壽命。

那麼在CPU、GPU、NPU與APU等多種處理器中，是否會有特定處理器會成為AIoT終端裝置運算主流？

對此，Davies表示，以Arm推出的幾款處理器來說，ML處理器的運算能力是最強的，其次是G77，再來則是A77處理器，然而，效能最好並不代表就適合所有的應用。由於AIoT的應用非常多元，包括語音、影音等對於處理器的要求都不同，例如，語音裝置並不須要大量的運算效能，可能只須執行簡單的邊緣運算，就不須要GPU，用CPU就足夠，且同時還能保有功耗上的優勢；但如果是大資料量的影音串流的話，就需要加速器。

由上述可知，並沒有絕對優秀的處理器，而是要依照不同的應用需求來設計一套最合適的運算架構。

Arm推出全面運算方案應戰

展望未來，當今最大的挑戰之一，即是市場上許多不同的解決方案，造成碎片化生態系統的擴大，讓終端到雲端的擴充性變得十分困難，對於開發人員以及新技術的採用也更為挑戰。而5G將帶動對效能與效率的強烈需求，意謂著共同架構的必要性，才能讓設計與部署更為便利。

因應此趨勢，Arm不但推出了新一代產品優化各元件效能，包括Cortex-A77 CPU，提升20%的IPC效能；Mali-G77 GPU，以更高的能耗效率實現高階圖形運算效果；ML處理器(即NPU)，可以提供同級最優化的能耗效率，最高可達每瓦5兆次運算(TOPs/W)。更強調從系統整體出發，結合硬體IP、軟體架構和最佳化工具，提供開發者一次解決未來運算複雜性的全面運算(Total Compute)解決方案。

Total Compute解決方案能以CPU為任務控制核心，再透過System IP確保AI運算的工作負載能達到最佳分配。例如影像搜尋作業由NPU執行，將比CPU更快、更有效率。再加上GPU、ML處理器、DPU、Arm NN架構等，將能協助開發人員強化AI效能。

Haas表示，未來新的工作負載是以使用案例為設計基礎的，要解決未來的複雜性挑戰，必須從根本上最佳化硬體、軟體、平台安全性和工具。整個AI產業面臨著極大的挑戰，而CPU軟體生態系統將有助於開發人員拓展邊緣的AI體驗。而該公司也希望透過兼顧安全、效能和效率的Total Compute策略涵蓋的軟硬體和生態系統，幫助開發者跨越各個市場領域，加速提供5G與AI時代的全新體驗。

聯發科導入APU執行DL運算

雲端與終端運算各有優勢，雲端的優勢在於運算效能強大、記憶體容量大且網路空間大、熱預算(Thermal Budget)足夠；而邊緣運算的優勢在於能解決雲端隱私疑慮及網路延遲性的問題，其具備更好的網路效率，部署成本也較低。

聯發科指出，5G將能讓消費者以更快的速度連接至雲端，而終端AI算力則可在使用者的即時AI體驗方面發揮作用。這也使得邊緣運算越趨重要。

邊緣運算的崛起，意味著物聯網與行動通訊的終端裝置運算需求會不斷提升。而聯發科計算與人工智慧技術群處長吳驊也點出了幾個設計AI邊緣裝置SoC時會面臨的挑戰，他指出，以深度學習(DL)的應用而言，不但需要龐大的運算負載、龐大的記憶體頻寬；隨著裝置越來越聰明，所需的數據模型也越來越多；此外，當AI裝置功能從被動發展至主動服務，裝置也必須處在「Always on」的狀態，因此SoC處理效能、記憶體空間、耗能與散熱，都會是重要的課題。

因應AI邊緣化的發展趨勢，聯發科也推出搭載AI引擎APU 2.0的SoC晶片Helio P90，補強終端應用的AI算力。SoC的高整合度架構能幫助終端應用簡化開發流程，為智慧家庭、可穿戴設備、智慧型手機、自駕車和其它互聯設備提供更好的AI效能。

吳驊表示，該SoC架構包含了CPU、GPU與APU處理器，以及聯網模組。在異質化架構中，SoC必須根據應用端的運算需求，將運算工作分配給最適合的處理器，提升整體運算效能。CPU是很全能的處理器，每種運算都能跑，但效能卻不是最高的；而GPU可執行大量的平行處理，相較於CPU會更適合跑深度學習算法；但APU又比GPU更適合跑深度學習的算法。

他進一步說明，在進行深度學習算法時，除了要執行大量的乘法與加法，還必須在多層神經網路中執行運算。因此，若能再利用(Reuse)數據，即這層算完之後將數據提供給下一層再使用，不要進出DRAM，將可達到最高的處理效率。而GPU雖然適合執行深度學習所需的乘法與加法，但並沒有這樣的設計，所以隨著應用端的運算量越趨龐大，會需要APU這類特殊的硬體來滿足運算需求。而這也是該公司在SoC中導入APU的原因。

美光廣泛記憶體/儲存組合滿足多元需求

美光預估，全球傳輸、儲存與分析的數據量將於9年內成長10倍，至2023年時達103ZB，而AI運算將數據分析的過程扮演要角。其中，記憶體與儲存架構更攸關AI系統的成敗，重要性不雅於運算單元。以自駕車為例，未來每輛L5級自駕車將會配置8~12個高畫質顯示螢幕，為支援V2X連結，記憶體每秒須處理0.5-1TB的數據；在娛樂系統方面，記憶體頻寬需求也將達每秒150~300GB；再加上自駕車也將搭載黑盒子，持續紀錄車內外狀況，估計需要每秒1GB的記憶體頻寬。整體而言，車輛生命週期中會重複寫入的數據將達150PB之多，因此記憶體與儲存方案的效能與耐用性至關重要。

而隨著AI工作負載提升與布建需求更為廣泛，機器學習與深度學習逐漸捨棄傳統x86平台，伺服器運算選項不再只有CPU，更包括GPU、TPU、FPGA、SoC、ASIC等，由同質轉向異質運算平台。美光指出，這樣的趨勢和各種負載需要不同的優化且記憶體緊鄰的運算解決方案也有關。

因應AI發展趨勢，美光也提供廣泛的記憶體與儲存產品組合，從低延遲的DRAM記憶體、高頻寬NVDIMM記憶體、更高容量的3D XPoint記憶體，到儲存解決方案TLC NANDSSD與QLC NAND SSD，以滿足不同AI運算架構所需的記憶體與儲存方案。