AI語音辨識狂潮來襲　MEMS麥克風/DSP全力備戰

2019-01-08

盧佳柔

AIoT與智慧語音結合，為「聲控」市場揭開爭奪戰序幕。2018年可看到智慧語音技術大舉進入各種類型的終端裝置，包含手機、智慧音箱、穿戴式裝置，甚至是汽車應用平台等，刺激MEMS麥克風、語音處理器，以及各種感測元件的需求爆發。

運算力效能明顯提升　激發專用型語音DSP需求

Cadence亞太區IP銷售總監陳會馨(圖1)表示，AI語音辨識需求急速攀升，帶動IP相關產品的詢問度與訂單快速增加，同時也造成應用處理器(AP)設計產生改變，催生專用型語音DSP設計當道。

圖1　Cadence亞太區IP銷售總監陳會馨表示，專用型語音DSP有助於提升AP運算能力。

陳會馨談到，早期智慧音箱發展起飛時，內部大多採用Arm為基礎的CPU架構，但從2016年開始，許多晶片商為了滿足智慧語音識別處理所需的效能，開始研發專用的語音處理晶片，也開始導入語音DSP在其中。追根究柢，導致晶片設計改變，主要原因在於「運算能力需求的增加」。

眾所皆知，在智慧語音識別過程中，首先須要對進來的語音做前處理，此處理過程包含多麥克風陣列、遠場、波束增強、噪音消除等功能，這些技術對於在地端的運算能力有龐大要求，促使語音DSP技術於近兩年發展快速。換言之，過去可能是單一通道處理技術，如濾波的技術，演變至今，有許多神經網路技術也開始導入其中。

陳會馨指出，現有許多噪音辨識乃是透過人工智慧學習演算法，對原始資料進行分類，進而瞭解資料內部結構，該技術稱之為非監督式學習(Unsupervised Learning Network)。這種演算法的引進，對於晶片硬體的運算能力要求將會比過去AP晶片的要求高出許多，若採用舊有AP晶片技術，將難以滿足此類型技術的運算能力需求。

陳會馨分析，過去AP設計大多並未導入DSP設計，僅採用Arm基礎的CPU架構。雖然仍有部分廠商採用通用型DSP進行訊號處理，但相較於一顆專為語音辨識量身打造的語音DSP，後者能採取較低的工作頻率，完成AI語音所需的工作運算能力與技術規格要求，對於語音處理的效能也將相對提升。

滿足低功耗/高整合度　DSP+MEMS麥克風齊抬轎

樓氏資深產品管理總監王宇飛(圖2)強調，已有越來越多語音處理器，內建AI與機器學習(ML)演算法，尤其是深度學習網路的加入，帶來高達10倍以上的運算需求，這也讓原本看似不重要的功耗效率問題逐漸受到重視。簡言之，在大量運算的過程中，功耗不能瞬間提升太多，否則將可能導致溫度升高，進而影響處理性能。

圖2　樓氏資深產品管理總監王宇飛指出，AI運算量不斷擴增，使低功耗設計要求日益攀升。

樓氏(Knowles)中國區產品管理消費電子事業部副總裁暨中國區董事總經理陸文杰(圖3)表示，低功耗性能取決於整體系統設計，也意味著前段MEMS麥克風的音訊蒐集，到後期處理的設計皆環環相扣。也基於此，樓氏整合既有的MEMS麥克風技術與低功耗DSP推出高整合度、低功耗的智慧麥克風方案。

圖3　樓氏中國區產品管理消費電子事業部副總裁暨中國區董事總經理陸文杰談到，該公司智慧麥克風方案可協助廠商降低整合成本。

王宇飛認為，該款智慧麥克風方案在低功耗的效能表現十分優秀，從樓氏自我產品測試結果來看，目前已可以透過單麥克風進行語音喚醒，其功耗水準達2毫瓦以下。針對需要搭載電池的AI語音應用相關裝置，如智慧手機、穿戴型應用裝置，將有效延長其產品續航力，同時滿足智慧化語音應用需求。

據了解，樓氏所推出的DSP結合MEMS麥克風的整合方案，已相繼導入Vivo、OPPO等智慧型手機旗艦機種，同時也與百度DuerOS合作SmartMic耳機開發套件。

陸文杰表示，該公司是第一家推出這種全方位智慧型麥克風整合方案的廠商，其技術能量來自於樓氏本身的MEMS麥克風、DSP、演算法與軟體開發能力。從開發商的角度而言，成本一直是產品設計考量的關鍵重點之一，相較於本身僅有MEMS麥克風技術能力的廠商來說，DSP+MEMS麥克風整合方案，將有助於降低「整合成本」的問題，也就是說開發商無須耗費人力與時間鑽研各元件之間的整合，可將心力著重在提升整體產品性能或差異化的特點上。

二合一感測器加持　強化語音裝置精準度

不過針對DSP+MEMS麥克風的整合型方案，意法半導體(ST)亞太區產品行銷經理陳建成(圖4)則提出另外一種看法。他談到，各種搭載語音辨識的物聯網裝置出貨量逐漸提升，帶動MEMS麥克風的需求增加，然而MESM麥克風市場價格卻不斷下降，如何提升MESM麥克風價值，同時兼顧其辨識能力，將是重點所在。

圖4　意法半導體亞太區產品行銷經理陳建成表示， MEMS麥克風結合加速計將有助於提升辨識精準度。

陳建成指出，很多智慧型語音應用裝置，設置於一些會產生振動的環境之中，例如藍牙耳機應用，消費者可能在走路的過程中聽音樂，或進行語音控制，故若結合加速計與MEMS麥克風，將使裝置更清楚得知訊息，強化情境精確度。

目前來說，陳建成表示，加速器與MEMS麥克風整合的需求大多在智慧家庭與智慧工廠的應用情境中，但若要實現AI語音控制的能力，最重要的環節是演算法開發部分，以感測器的角色，關鍵還是在於精確蒐集有利於後段辨識的環境數據資料。

從應用市場角度分析，汽車應用將有望成為繼智慧音箱後，下一個AI語音藍海市場。ams台灣區總經理李定翰(圖5)表示，在駕駛汽車過程中，駕駛者的目光與雙手皆須為了操控汽車而有所限制，在這種情況下，最需要語音來代替雙手，進行控制車內環境與導航。

也基於此，看好車用市場的發展潛力，ams本身的MEMS麥克風產品已通過ACQ-100車規認證，待AI語音車用市場起飛之時大舉搶進。同時，ST亦計畫推出車規MEMS麥克風系列，預計2019年將會看到相關產品。

生產製程易卡關　MEMS麥克風挑戰大

值得一提的是，李定翰認為，目前MEMS麥克風技術變化不大，重點在於維持既有的精準性、縮小尺寸，以及在量產時能達到產品的一致性的要求。雖然語音辨識的發展，進一步帶動MEMS麥克風的需求，但生產製程的良率管理，也成為相關供應鏈廠商一門難解的課題。

鑫創科技市場行銷部經理曾建統(圖6)表示，AI語音發展趨勢規格目前呈現兩極化的發展，針對較成熟的消費型應用產品(如手機、筆電與耳機)，現有的MEMS麥克風性能皆已可滿足其應用需求，但另一方面，對於MEMS麥克風的靈敏度、收音與抗噪有更高要求的AI應用(如智慧音箱類型產品)，則對MEMS麥克風技術規格要求更嚴苛。換言之，面對這兩種截然不同的應用，MEMS麥克風除了技術規格有提升的必要，同時也須在既有產品與技術規格下，考量提升產品良率的技術。

曾建統談到，該公司看到許多語音應用產品，在生產過程中的不良率問題經常在MEMS麥克風元件的節點中被突顯出來。原因在於，相較於其他類型的感測元件，MEMS麥克風的元件特性更為脆弱，不適合用水洗或吹風的方式進行處理。不過為了回應產品整體的輕薄短小與高性能的需求，開發商追求更高階製程，而新型態的生產過程，卻與MEMS麥克風本身的元件特性經常背道而馳。再者，受限於MEMS麥克風本身價格低廉的因素，生產者是否希望透過製程改進MEMS的良率問題，也是一個須考量的因素。

隨著消費型產品在輕、薄、短小的要求下，開發商需要透過製程的改善，進而滿足產品機構上的要求，也基於此，PCB板上的MEMS麥克風，經常成為容易出錯的問題點。舉例說明，水洗、噴發氣體與壓力變化都會對麥克風良率產生影響，然而有些新製程為了清除感測器上的雜質，採用水洗的製程做清洗的動作；此外，也有些製程於真空環境中生產，當生產完畢時，產品就會進入破真空的階段，過程中會產生一些壓力變化，進而影響麥克風的良率。

不僅如此，由於產品對於靜電放電(ESD)要求越來越嚴苛，因此系統產品在測試ESD過程中，需要拿靜電槍對各個接口發射靜電測試，而MEMS麥克風元件又經常擺放於開口處，也容易使得MEMS麥克風元件受到影響。

整體而言，曾建統分析，ESD的防護是系統層面的問題，需要提供廠商生產、製程上的協助予以克服。但從另外一個層面來看，上述提到的系統產品開發問題，單純從表面上看到的是MEMS麥克風造成良率的影響，但這背後某種程度也是MEMS麥克風廠商所面臨的一大瓶頸。

陳建成表示，未來MEMS麥克風使用將愈趨普遍，甚至可能會成為標配選項，因此麥克風良率變差，將會引發很大的設計難題，也基於此該公司在台北設立麥克風實驗室，協助廠商進行麥克風測試、頒發測試證書等。

整體而言，目前台灣IC設計商尚未在MEMS麥克風市場中受到Tire 1開發廠關注或合作的主要原因在於，即便台灣MEMS麥克風廠商可以滿足開發商規格上的要求，但在生產良率的要求，比起一般國際大廠則較為不足，故如何協助開發商提升良率問題，將成為未來拿下AI語音龐大商機關鍵要素。