聲控應用日漸普及　MEMS麥克風/對話式AI組成最佳拍檔

2024-04-02

英飛凌

對話式人工智慧(Conversational AI)帶來人機互動新可能，聲控應用也逐漸普及於日常生活中。為了提供理想的使用者體驗，相關裝置的語音辨識能力至關重要。具有高訊噪比(SNR)的MEMS麥克風能夠精準捕捉目標訊號，將在蓬勃發展的聲控應用中扮演重要角色。

英飛凌

對話式AI改變了人們與科技互動的方式，聲控應用也逐漸普及於日常生活。然而，要提供理想的語音應用使用者體驗，最大的挑戰在於如何準確擷取並處理語音，在吵雜的環境中更是如此。在準確進行語音辨識、改善音訊品質方面，具有高訊噪比(SNR)的高品質微機電系統(MEMS)麥克風重要性與日俱增。

本文將說明高SNR MEMS麥克風在對話式AI應用所扮演的角色，並以英飛凌(Infineon)XENSIV MEMS麥克風為例，說明高品質麥克風如何成為內建對話式AI裝置的最佳夥伴。

高SNR MEMS麥克風的角色

高SNR MEMS麥克風能夠擷取清晰準確的音訊，同時大幅減少失真。這類麥克風的評估標準為訊噪比(Signal to Noise Ratio, SNR)，也就是目標訊號以及麥克風自有噪音的比例。SNR越高，代表MEMS麥克風能夠更準確地擷取目標訊號，例如使用者對智慧喇叭發出指令時的聲音。因此，高SNR MEMS麥克風是擷取音訊的理想解決方案。

除了準確擷取音訊，高SNR MEMS麥克風也適用於遠場語音拾取(Far-field Voice Pickup)，使用者可在遠處或吵雜的環境中向語音助理發出指令。此外，此類麥克風還能從使用者的語音中擷取重要的語境提示，例如語氣和強調；語音助理可藉此提供更準確的個人化回應，改善整體使用者體驗。

MEMS麥克風/對話式AI強強聯手

對話式AI技術日益進步，而採用這項技術的裝置與應用，也改變了我們與數位世界的互動方式。對話式AI的應用範例包括智慧喇叭、汽車聲控系統、智慧家庭系統及智慧會議室系統(圖1)。隨著對話式AI持續發展、效率逐步提升，預計在2023年至2030年間，語音助理市場的年複合成長率(CAGR)將達到33.5%。

儘管語音辨識與自然語言處理技術都有長足進步，實際採用聲控助理時，仍會面臨各種挑戰。資料隱私便是其中一項主要挑戰，使用者會擔心儲存在雲端的語音資料是否安全，以及裝置是否會秘密記錄私人對話。此外，聲控助理可能無法時時滿足使用者的需求，尤其是在吵雜環境中，當聲控助理無法理解語音指令時，容易令使用者感到挫折。

高品質的矽麥克風能夠精確擷取音訊，同時確保對話式 AI 系統的音訊輸入更加清晰，將可協助聲控助理應對上述挑戰。例如，英飛凌XENSIV MEMS麥克風(圖2)便可在高聲壓位準下，依舊實現高SNR與低失真，並且具備緊密的元件間相位和靈敏度匹配、平坦的頻率響應與低頻衰減，以及超低群延遲(Group Delay)。基於上述性能，此類MEMS麥克風可說是內建對話式AI裝置的理想搭檔。

未來語音技術發展值得期待

藉由整合高SNR MEMS麥克風與聲控應用，能夠大大提升語音辨識的準確度，並實現更流暢的人機互動。英飛凌XENSIV MEMS 麥克風即使在吵雜環境也能展現最佳效能，擷取清晰音訊，協助使用者更輕鬆地與虛擬助理互動，改善使用者體驗。儘管目前尚有多項待解決的挑戰，隨著高SNR MEMS麥克風與對話式AI技術持續進步，仍可期待透過軟硬體整合，為未來的語音技術帶來全新可能。

(本文由英飛凌提供)