Audio Hub Always On 系統單晶片 語音辨識 音訊中樞 語音啟動 隨時啟用 CPU SoC 離散式 溝通 按鈕 IC 語言

巧用低功率音訊中樞 行動裝置實現語音辨識

2014-02-17
現今機器對於人類語言解讀的功力仍不足,無法為多數使用者帶來明顯的好處,因此人與機器的對話仍有改善的空間。不過,由於低功耗語音技術能減少語音辨識技術在發展時可能遇上的瓶頸,預期人機關係在未來將有更大的進步。能聆聽、辨識語言的機器與人的互動將變得更有趣,機器甚至能真正了解使用者的需求,讓人機互動創新的時代加快到來。
對人類而言,語言是最自然的溝通方式,而雙方在身處不同環境、看不見彼此影像的溝通過程中,就需要機器的協助,但這會產生對於新行為協定的需求。對早期的電話使用者而言,一開始難免無法適應透過電話來溝通,即使是通訊裝置逐漸普及的現在,使用者依然困擾於雙向無線通訊時不順暢的情形。

在上述兩種情境中,由於兩方都是人類,情況能很快得到改善並達到相當自然的溝通。

建構高效能語音辨識方案

以近年來的科技革命為例,觸控螢幕是全新且大眾較不熟悉的,但因為介面具備高品質的執行力及附加價值,故能夠順利成為主流並且廣為採用。因此,有必要更廣泛地來訂定語音控制的「效能」,設計出更多解決方案來因應未來可能碰上的各種瓶頸。

一般經常用「精確度」或「命中率」來定義語音辨識的效能高低,簡單來說就是正確辨識單字或詞組的概率。現在,在定義「效能」時,須要以更廣泛且更全面的方式來反映語音介面的長期潛力,看看它們是否能像觸控介面一樣,為使用者提供相同水準的舒適度及準確度。

語音辨識解讀出來的內容品質是一種人工智慧的體現,比基本的單字辨識能力更為關鍵。語音辨識功能是除觸控螢幕外的另一個可行選項,它可應用於多元的裝置種類,例如穿戴式的小型裝備等。低反應延遲及自然、「無協定」的互動,還有在噪音環境中表現良好等,都能改善使用者經驗。

揚棄舊有按鈕設計

按鈕或其他機械啟動方式,是現今語音辨識技術中最大的人體工學限制,這讓語音辨識在許多使用情境中有所局限,並且造成功耗限制。

為維持電池壽命的續航力,行動裝置的待機功率預算都非常低,通常只有個位數毫安培(mA)的電流,然而,這麼低的功率預算無法讓語音辨識持續運作,甚至無法支援臨時的語音辨識需求。

針對這個問題,按鈕啟動機制提供了一個較原始的方式來將平均功耗降至最低:語音辨識維持在「停用」狀態,直到使用者按下按鈕才能將其功能喚醒。然而,利用最新高階音訊中樞(Audio Hub)實現的語音啟動功能,能夠大幅降低語音辨識的平均功耗,甚至降至待機模式的水平讓主處理器得以休眠。

這種降低功耗(通常是降低一個等級)的方法能夠捨棄按鈕,不再讓使用者被其限制住,而製造商也能在介面上有更多發揮的空間。

選擇語音啟動架構

圖1 使用音訊中樞的隨時啟用語音啟動機制

語音啟動機制通常是使用一個關鍵單字或詞組來喚醒裝置並回應之後的語音輸入。圖1顯示的半自動低功耗隨時啟用(Always On)處理電路,為語音啟動機制提供了一個平台。

圖2 以系統單晶片為基礎的語音啟動功能

音訊中樞係具備所有內部及耳機麥克風的介面,可說是語音啟動功能的心臟。針對語音喚醒功能,音訊中樞的首要目標就是讓訊號處理週期在環境噪音變化時,仍能維持在最佳狀態,以降低平均電池電流。

其他的架構大致可分為兩大類:離散式解決方案與系統單晶片(SoC)語音啟動機制,而這些架構會大大影響功耗模式及使用者互動方式。軟體架構則在使用情境轉換及序列埠組態的管理方面扮演關鍵的角色,並且決定兩者間的對話模式。

由於中央處理器(CPU)長期處於運作的狀態,導致以系統單晶片為基礎的語音啟動功能(圖2)須消耗極高的靜態電力。一般而言,單晶片的電池電流消耗比音訊中樞的電池電流消耗高出一個等級。

圖3 離散式語音啟動解決方案

離散式解決方案(圖3)通常使用於來自主音訊通道的不同介面,而使用情境轉換管理以及噪音降低功能的啟用/停用,會由於不同積體電路(IC)的延遲及不同訊號格式,導致語音不連續,甚至在轉換至主動模式運作時可能造成對話中斷。在使用耳機麥克風進行操作等其他例子中,有限的麥克風數量也會局限可用性。

創造優良使用者經驗

現今,技術的創新及發展已改變使用者與消費裝置互動的方式,而使用者對於新互動模式的反應及接受度已被用來衡量技術改良的成功與否。語音控制技術的終極目標就是在下一世代行動硬體裝置中被廣為接受與採用。如同使用者已熟悉與觸控螢幕之間的直覺互動方式,未來也將快速適應如何與新世代語音控制機器互動。

然而,不像早期的語音通訊技術,在另一端與用戶對話的終究還是人類,至今仍不能確定使用者在熟悉語音回應技術後,與裝置之間是否能有實用,甚至有趣的對話,並真正地受惠,而這絕大部分要取決此技術的效能。

目前用來衡量語音辨識效能的標準非常粗糙,也無法充分描述未來世代語音辨識系統的有效性。對此,需要更全面的方法,也必須將更高層次的機器智慧以及系統與雲端的互動納入考量。必須藉由硬體和較低層次的韌體來大幅鬆綁,利用此技術為行動裝置打造更多的可能性,建立一個不會限制或延遲下世代發展的音訊架構。

低功率音訊中樞的待機模式音訊處理能力,已經解決語音辨識技術可用性中最主要的一些瓶頸。雖然捨棄按鈕是一個重要的里程碑,但它只是今日行動平台設計中眾多語音辨識強化功能中的一種。在整合階段時就建立起正確的架構,即能達成完全自然的溝通方式,這也將在未來幾年內影響,甚至徹底改變一般人的行動裝置使用習慣。

(本文作者任職於歐勝)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!