行動裝置解鎖邊緣LLM應用(1)

2024-03-25

2023年，生成式AI的應用如雨後春筍般冒出，而在邊緣端運行大型語言模型(LLM)具有隱私安全及快速回應等優勢，行動裝置因此陸續開始探索邊緣LLM的可能性。本文以Arm實際示範成果為例，說明可協助行動裝置實現邊緣LLM應用的關鍵技術。

Pixabay

2023年，由生成式AI驅動的應用場景數量十分壯觀。OpenAI的ChatGPT以及Google的Gemini AI模型的核心，正是展現這種顛覆型的人工智慧(AI)技術，透過使用者的文字提示，產出文本、影像甚至是音訊內容，展現出簡化工作與增進教育發展的契機。

不過，隨著生成式AI在我們倚賴的消費性電子裝置間擴散，生成式AI的下一步是什麼？答案是在邊緣的行動裝置上運行生成式AI。

本文將說明大型語言模型(LLM，一種生成式AI的推論類型)，如何能在基於Arm技術打造的多數行動裝置上運行。文中將討論Arm CPU如何因應此類應用場景的典型批量大小(Batch Size)，以及這類AI工作負載在運算與頻寬之間所需的平衡。本文也將解釋Arm CPU的AI能力，並展示其彈性與可程式化設計性如何促成智慧的軟體優化，為許多LLM應用場景帶來優異的效能與絕佳的機會。

大型語言模型發展現況

各種不同的網路架構都能用來運行生成式AI。不過，由於LLM能用前所未見的規模翻譯與產出文本，外界對其持有高度興趣。

正如大型語言模型的名稱所示，這些模型與2023年之前使用的模型相比絕對要大得多。以下提供一些相關數據：LLM可輕易達到1,000億到1兆個可訓練的參數，代表與基於轉換器(Transformers)的雙向編碼器表示技術(BERT)相比，它的規模至少大上三個數量級，而BERT已經是Google於2018年訓練的最大型的前瞻自然語言處理(NLP)模型之一。

如果以隨機存取記憶體(RAM)的需求來看，若將模型部署於使用浮點16位元加速的處理器之上，那麼具有1,000億個參數的模型將至少需要200GB的RAM。因此，這些大型模型最終被移至雲端上運行。不過，在雲端運行大型模型也產生三個基本的挑戰，進而限制這項技術的採用：高昂的基礎設施成本、隱私權問題(使用者資料可能曝光)、擴充性的挑戰。

大約在2023下半年，我們開始看到一些較小型、效率更高的LLM出現。這些模型將在行動裝置上展現生成式AI的威力，並讓此一技術更為普遍。Meta的LLaMA2、Google的Gemini Nano與Microsoft的Phi-2，在2023年開啟了行動LLM部署的大門，以解決前述的三項挑戰。這些模型分別擁有70億、32.5億與27億個可訓練的參數。

在行動裝置上運行LLM

時下的行動裝置能夠基於Arm技術實現可觀的運算力，因此可以即時運行複雜的AI演算法。事實上，現有的旗艦與高階智慧型手機已經可以運行大型語言模型。

根據預測，未來LLM在行動裝置上的部署將會加速進行，以下為可能出現的使用案例：

．文本生成：例如，我們可能會要求虛擬助理為我們撰寫電子郵件。

．智慧回覆：即時通訊應用軟體可能可以針對問題自動提出建議答覆。

．文本摘要：電子書閱讀器應用軟體可能可以提供整篇章節的摘要。

這些使用場景將產生龐大的使用者資料，而模型必須處理這些資料。由於LLM是在邊緣端、沒有網際網路連線的情況下運行，資料不會離開裝置，有助於保護個人隱私，同時改善使用者在延遲與回應性上的體驗。上述優勢成為在邊緣端於行動裝置上部署LLM的有力理由。

Arm近期使用3個Cortex-A700系列的CPU核心，示範在現有安卓(Android)手機上運行LLaMA2-7B LLM的效能(圖1)。展示中，安卓應用軟體的虛擬助理回應性高，能夠快速進行答覆，首個Token時間(Time-to-first Token)回應效能佳，而每秒9.6個token的文本生成速率，也比人類的平均閱讀速度還要快。實現如此性能背後的元素，包括用於AI的現有CPU指令，以及專為LLM進行的軟體優化。

行動裝置解鎖邊緣LLM應用(1)

行動裝置解鎖邊緣LLM應用(2)