本技術(shù)針對衛(wèi)星通信和保密通信應(yīng)用場景對低碼率語音編解碼的需求,實現(xiàn)了一種基于梅爾倒譜系數(shù)的低碼率語音編解碼器。該語音編解碼器利用基于人耳聽覺特性的梅爾倒譜系數(shù)作為參數(shù),實現(xiàn)了低復(fù)雜度的編碼端和高質(zhì)量語音重建的解碼端。利用非均勻標量量化和矢量量化對參數(shù)進行壓縮編碼,在保證語音質(zhì)量的前提下,實現(xiàn)了能工作在2400bps、1200bps、600bps和300bps四種碼率的低碼率語音編解碼器。
本技術(shù)的特色和優(yōu)勢:
采用 VAD (Voice Active Detector) 實現(xiàn)自適應(yīng)的環(huán)境噪聲功率譜估計及語音降噪技術(shù),以應(yīng)對實際應(yīng)用場景的環(huán)境復(fù)雜多變。
采用梅爾倒譜系數(shù) MFCC作為語音信號的特征進行傳輸,有利于提升人耳的主觀聽覺感受、有利于提升參數(shù)的魯棒性、有利于與分布式語音識別系統(tǒng)無縫融合。
突破傳統(tǒng)算法需要在編碼端完成清濁音、基音的估計,本技術(shù)在解碼端完成預(yù)測估計,從而進一步降低碼率。
上圖:原始語音信號,下圖:編解碼后的語音信號(300bps)
掃碼關(guān)注,查看更多科技成果