提升語音清晰度 寬聲頻打造高音質VoIP

2008-02-12
相較於原有的窄聲頻電話,使用寬聲頻技術的VoIP電話可擁有更高品質的音效,提升消費者聽覺上的享受。寬聲頻電話在設計上,如突破電氣發聲元件須涵蓋全部寬頻語音的頻率響應,則將開啟更多不同的市場,包括互動式語音應答等,促使產業鏈中的廠商皆成為贏家。
記得第一次聽到FM收音機聲音的感動嗎?或是聽過多年的黑膠唱片後第一次聆聽CD唱片的震撼?這就是未來高清晰(HD)音質電話將帶給消費者的感受。當網路電話變得愈來愈普及之際,系統開發與電信服務提供廠商的策略重心即從初期的網路語音通訊協定(VoIP)電話,進化到更高音質的VoIP。  

隨著高畫質電視(HDTV)的市場引領風騷,HD-Sound也成為寬聲頻語音的品牌標誌,促使系統提供商透過家用IP網路電話,也能提供卓越與純淨的通話品質。昔日傳統的窄頻電話乃是語音清晰度與資料傳輸率間的一個妥協,頻率響應只有300Hz~3.4kHz,相較之下,HD-Sound使用寬聲頻技術,頻率響應範圍達50Hz~7.0kHz以上,其結果為,獲得大幅改善的清晰度與更接近原音的品質,不單只是用於電話通話,更能運用於其他各種聲頻應用,例如MP3播放器和網路收音機。本文將探討HD-Sound網路電話面臨的難題,以及具有的潛在市場。  

寬聲頻電話音質已超越窄頻電話  

所謂寬聲頻(HD-voice)電話的定義是指傳輸聲頻在150Hz~6.3kHz間的範圍,雖遠不及20Hz~20kHz的CD音質頻寬,但相較於窄頻電話,已大幅改善音質程度。其實寬聲頻電話早在20多年前就由ISDN制訂了G.722規格,雖未真正普及,但G.722卻在新聞界找到一片天,通常是記者從偏遠地區傳送回語音時的選擇,以取代長途電話的低劣品質。  

既然傳統網路電話有足夠的效能處理窄頻音訊壓縮演算,因此利用同一顆語音引擎處理寬聲頻音訊編解碼(Wideband Codecs)即綽綽有餘。假如類比轉數位與數位轉類比轉換器支援16kHz的取樣率,網路電話的寬頻音訊即具有較低的額外占量(Overhead)。另外影響寬頻語音通訊發展的因素是新泛歐式數位無線電話系統(DECT)標準CAT-iq,該系統也指定G.722為HD語音的編解碼器。  

PC音效卡支援8k、16k、32k、44.1k與48kHz取樣率,一般都具備足夠的處理效能應付寬聲頻編解碼作業,如用於PC的網路電話應用程式「Skype」早在市場上占有一席之地,且大多數企業用的網路電話,如西門子的OpenStage系列,也都支援寬聲頻通話技術。企業界通行的寬頻電話是最好的概念性驗證,因用戶端的軟硬體控制通常比較單純,但家用市場要布建HD語音技術則困難得多,利用寬聲頻通話時,雙方都須具有寬聲頻能力的硬體設備,而且電話也要能立即找到可用的最佳編解碼器。  

過去,VoIP電話的風評並非讓人津津樂道,早期,只有新技術嚐鮮者才會透過網路打電話,其中的寬頻用戶很快就採用新網路語音服務供應商提供的服務方案,雖然通話品質不佳,但至少能以價格取勝。今日VoIP網路通話音質已非吳下阿蒙,甚至可與POTS傳統電話相提並論。隨著網路頻寬與家用設備處理效能的提升與普及,使用更大的頻寬積極改善通話語音品質,不單只是美夢成真,且是勢在必行。這也是眾家網路服務供應商能脫穎而出之處。網路電話絕不僅是網路電話,HD-Sound音質讓網路電話不再只是以低價吸引消費者,傳統電話的聲音與音質取向的HD-Sound電話比起來,顯得單薄且單調,HD-Sound的話音帶給人更「溫暖」的感覺,捕捉人們講話時各種聲調的細節,因此誤將F聽成S的情況已成過去式,高音質通話時代帶給消費者眾多的可能性,但推廣該技術遭遇的阻礙也不容小覷。  

從圖1頻譜分析圖中可明顯看出HD-Sound具有較大的頻率響應範圍。HD-Sound向上向下打通頻率響應界限,涵蓋比傳統窄頻電話更高與更低的人聲頻率,結果是讓寬頻電話用戶擁有更為悅耳的通話體驗。

圖1 窄聲頻與寬聲頻頻譜圖

再從圖2平均意見得分(Mean Opinion Scores, MOS)數值分析可看出,寬聲頻的主觀感受得分令人印象深刻。絕大部分的窄聲頻G.729A得分落在3.5,而寬聲頻的分數最低4.5,至少皆高出窄聲頻30%以上。

資料來源:法國電信
圖2 窄聲頻與寬聲頻編解碼器的平均意見得分

為讓寬聲頻語音電話達到最佳效果,有線與無線話機製造廠商須恪遵幾個重點,如電氣發聲元件,尤其是話機的聽筒或免持聽筒的擴音喇叭,皆須涵蓋全部寬頻語音的頻率響應,且擁有低失真率與高傳真的特性。這對於話機設計者無疑是艱鉅的挑戰,尤其像無線話機或行動電話這麼小的體積,要打造一流聲音品質必定價格不斐,但如果市場夠大,價格應該可壓低。  

在電話麥克風(Speakerphone)方面,最好將其封裝,避免在機殼內產生迴音,也才能強調低頻的效果,如同家用HiFi音響喇叭也都是完全密封。不管是窄聲頻或寬聲頻VoIP電話,語音延遲性是設計者追求全雙工效能上的最大阻礙,迴音若緊接著每個字後立即產生,人耳不太分辨得出,否則在任何房間內說話都會聽到很大的迴音。可是一個人說話後與產生迴音之間的延遲時間愈長,人耳就聽得愈清楚,這也是為什麼會在教堂內聽到迴音的原因。標準的IP網路封包延遲時間可能超過100毫秒,換算成空間延遲,等於在一間超大的教堂內說話,基於這個原因,設計師須努力找出方法克服迴音問題。在話機內消除迴音的原理跟人耳一樣,必須先估計、計算、然後抵消麥克風聲頻產生的迴音,這不是項簡單的工作,因為無法預估使用話機的環境。  

寬聲頻高品質通話效果開啟新商機  

寬聲頻技術為系統供應商與服務提供商開啟新市場的無限可能性。

互動式語音應答
  透過預錄樣本聲音的電話語音服務,使消費者很難訂好機票,今天的語音啟動服務常會讓人失望,機器無法了解標準語音外的任何細微變化版本。有了寬聲頻語音技術後,可以捕捉到話語中更細微的音調差異,讓無人值守的語音啟動服務成為可行且深具潛力的市場。消費者不須再對任何真人說話,就能升級寬頻網路或電話服務,甚至連訂機票、飯店或火車票等,也都不成問題。聲頻範圍的提高讓語音辨識系統如虎添翼,使其擁有更高的辨識率,因為連最難分辨的齒擦音都能分辨得出,即說話時發出的S音,或是在窄聲頻電話中F音通常會被誤認為S音的問題都能解決。
文字轉語音(TTS)系統是一種將標準語言文字轉換成語音的技術(使用合成語音),語音合成器的品質端看有多接近真人的聲音,以及能被了解的程度而定。智慧型文字轉語音程式能協助視覺障礙或閱讀障礙人士,從電話或在電腦上「聽到」白紙黑字的文字。
該系統可用於包括自動翻譯,即語音樣本在第一時間被翻譯成文字;汽車語音辨識為使用語音控制多項汽車功能,包括雨刷、收音機、車窗等;生物語音辨識用於驗證說話者的身分,可能的應用範圍包括工作地點,或任何需要身分辨識的場合;還可用於聽(打)寫;而免動手操作電腦指殘障人士可使用語音來操控電腦;家庭自動化系統為使用語音控制取代家裡的電器開關,如關百葉窗、關燈、開電暖器等。
最後則為醫療轉錄功能,當代醫界需要醫生投入更多時間照顧病患,而非花心思填製醫療文件,方能達到財務收支平衡。現在有愈來愈多的方法,即透過電腦,或是網路科技解決醫生的文件製作需求。語音辨識(VR)就是其中的新時代科技之一,有了每分鐘高達兩百個字、準確度達99%的語音辨識技術,已將醫生從傳統繕寫醫療文件的桎梏中解放。
無線網路電話機的網路收音機
  今日寬頻連線具有的頻寬,已足夠應付終端家庭用戶的寬聲頻需求,對此DECT論壇創立一套無線電話標準CAT-iq,充分運用VoIP端點的寬聲頻發展潛力,有幾個發展步驟(圖3),第一個步驟為具寬聲頻的無線話機,廠商致力推出支援HD音質的新產品,如同前述,這意味得將話機升級,搭載更高性能的話筒及喇叭聽筒,才能充分利用寬聲頻編解碼器的優點。第二步驟為寬聲頻語音品質的電話會議,硬體提升後,就可以導入新功能,如原音重現三方電話會議,帶給用戶前所未有的感受。

圖3 英飛凌CAT-iq技術發展示意圖

第三項為網路收音機,在連串推出新服務上,CAT–iq規格產品將支援HD音質的新聞收報器(News Tickers)與網路收音機功能。結合網路威力與HD音質,對家用VoIP將是殺手級的應用。住在澳大利亞的愛爾蘭人將可收聽Radio Cork電台,住在慕尼黑的中國人則可收聽來自上海的FM廣播節目,不用跑到地下室開電腦收聽。第四個步驟為串流音訊內容,CAT-iq的出現為無線話機設備與服務供應商打開原先HiFi音響業者獨占的市場,內建DECT接收器的喇叭是家中各處收聽音訊節目的理想解決方案,甚至家中有上下樓層也都沒問題,這種應用方式不但擁有穩定的空中介面(Air Interface),也能達到更佳的節電效率。

寬聲頻是「耳聽為憑」的使用者經驗,VoIP電話曾為聲音通訊帶來革命性的影響,寬聲頻技術勢將也為VoIP帶來衝擊。該技術須升級現有硬體設備,此舉將直接導入下一世代的新產品和新服務,然而這些產品及服務會回過頭來為廠商和業者帶來可觀的新營收。事實上,整個產業鏈上的廠商都將是贏家,最重要的是消費者終端用戶將迎向一個前所未有的語音技術新紀元。  

(本文作者為英飛凌VoIP產品行銷部經理)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!