人工智慧卷積神經網路 CNN 光體積變化描記圖法 Photoplethysmography PPG 語音辨識影像辨識邊緣運算

下放語音/影像辨識力　低功耗推論促成小型化邊緣AI

2023-02-02

Kris Ardis

人工智慧推論需要以比傳統微控制器或處理器解決方案更少的能量來執行，並且無需借助能耗高、尺寸大、成本大的外部零組件；邊緣運算解決方案能夠消除機器視覺的能量損失，因此最小的設備也能看到並識別周圍環境發生的事情。

此時此刻，人們本該已經擁有飛天車，還有機器人管家。如果運氣不好的話，還可能出現具有感知能力的機器人在我們造成世界末日之前起而反抗人類。雖然目前這些都還沒發生，但顯然人工智慧(AI)技術已走進世界。每次使用者命令Alexa做事時，機器學習技術都會努力釐清表達的內容，並試圖對要求它做的事情做出最佳判斷。每次Netflix或亞馬遜推薦下一部電影或下次購買商品時，都是基於複雜的機器學習演算法來提供更具吸引力的推薦，這些推薦遠比過去的促銷更誘人。雖然可能不是人人都有自駕車，但人們都敏銳的意識到該領域的發展和自主導航的潛力。

人工智慧技術大有前途—其讓機器可以根據周圍的世界做出決策，像人類一樣處理資訊，甚至處理方式還會優於人類。但是，如果仔細想一想如上所述的例子，就會發現這裡指的人工智慧承諾只能透過大型機器來實現，這些機器沒有電源、尺寸或成本限制，或者換言之，它們會發熱、擁有插座供電線路、尺寸很大，而且很貴。Alexa和Netflix依靠雲端的大型、高耗電伺服器來分析消費者的意圖。雖然自動駕駛汽車很可能要依賴電池供電，但考慮到電池必須能夠驅動車輪和轉向，因此需要提供很高的電量，畢竟比起人工智慧決策的高功耗，為動力系統而準備的電力原本就大得多。

目前，人工智慧發展得很不錯，但是人工智慧的「小型化、邊緣化」卻被拋在後面了。那些由小型電池供電或存在成本和尺寸限制的裝置無法實現機器的視覺和聽覺分析功能。目前，這些小型機器只能利用簡單的人工智慧技術，也許只是聽一個關鍵字，或者分析低維訊號，例如用光體積變化描記圖法(Photoplethysmography, PPG)來測量心率。

小型機器具備視覺和聽覺功能會如何？

但是，小型設備能夠看到和聽到是否有實用價值呢？思考一下，像視訊門鈴這樣的小產品需要使用自動駕駛或自然語言處理大量的人工智慧技術嗎？似乎也沒有必要。因此可以考慮採用不太複雜、處理強度不大的小型化、邊緣端的人工智慧運算，比如詞彙識別、語音辨識和影像分析。

普通的視訊門鈴和智慧安防攝影機經常會被一些無關緊要的事件觸發，例如颳風引起的植物擺動、雲彩引起的劇烈光線變化、甚至是狗或貓在鏡頭前跑動。這些事件可能會導致誤觸發，而需要屋主去操作忽視並清除此類觸發事件。更糟糕的是，如果屋主正好在全球其它地方旅行，而家裡的攝影機卻對日出、雲彩、日落造成的光線變化發出了誤報，便會影響睡眠和旅行。更智慧的攝影機能夠觸發更具體的事件，例如在所監控的畫面中偵測到一個人。

門鎖或其它出入口可使用臉部辨識，甚至是語音辨識來授予人員存取權限，在某些情況下不需要鑰匙或卡片。

很多攝影鏡頭都希望在發生某些特定事件時才被觸發，例如，追蹤攝影機可能希望在畫面中出現動物蹤跡時被觸發，安防攝影鏡頭可能希望在畫面中有人或出現開門或腳步聲等噪音時才被觸發，而個人攝影鏡頭可能希望透過語音命令來觸發。

雖然有很多「Hey Alexa」這類簡單的解決方案，但多詞彙量命令在很多應用中都非常有用。如果具備識別20個或更多單詞的詞彙表，就可以在工業設備、居家自動化、烹飪設備和大量其它裝置中應用，以簡化人機互動。

這些例子只觸及表層：讓小型機器看到、聽到和解決過去需要人為干預的問題，這就是一種很強大的思路，而且人們每天都在不斷發現智慧化的創造新用例。

小機器具備視覺和聽覺功能挑戰為何？

那麼，如果人工智慧對小型機器具有如此實用價值，為什麼還沒有開發出來呢？答案是運算能力。人工智慧推論是神經網路模型運算的結果。可以把神經網路模型看成是大腦處理圖像或聲音的粗略近似形態，將其分解為非常小的片段，然後在這些小碎片組合在一起時識別出模型。現代化機器視覺的主要模型是卷積神經網路(CNN)。此類模型在圖像分析方面非常卓越，在音訊分析方面也非常有用。問題在於，這類模型需要數百萬或數十億次的數學運算。用傳統的設計方法，這些應用在建置時會面臨一個困難的抉擇。

若使用低成本、低功耗的微控制器解決方案，雖然平均功耗可能很低，但卷積神經網路可能需要幾秒鐘的時間來運算，這表示人工智慧推理不是即時的，也表示其會消耗大量的電池電量。

若採用一個昂貴的高性能處理器，就能在規定的延遲內完成這些數學運算。如此處理器通常很大，需要很多外部元件，包括散熱片或類似的冷卻零組件。不過，其執行人工智慧推理的速度非常快。

低功耗微控制器解決方案的速度太慢，無法發揮作用，而高性能處理器會超出成本、尺寸和電源預算，可以說上述兩種方案都不夠理想，難以實施。

業界需要的是從頭開始建構的嵌入式人工智慧解決方案，盡可能減少卷積神經網路運算所需的能耗。人工智慧推論需要以比傳統微控制器或處理器解決方案更少的能量來執行，並且無需借助能耗高、尺寸大、成本大的外部零組件，如記憶體。如果人工智慧推論解決方案實際上能夠消除機器視覺的功耗限制，那麼即使是最小的設備也能看到並識別周圍環境發生的事情。

幸運的是，現在已經處於這場「小型機器」革命的開端。市場上已經推出的產品，可消除人工智慧推理的能源成本，並實現電池供電的機器視覺功能。

(本文作者任職於ADI)