《語音信號短時(shí)分析》由會員分享,可在線閱讀,更多相關(guān)《語音信號短時(shí)分析(51頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,,*,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,,*,語音信號的短時(shí)分析技術(shù),分析是處理的前提和基礎(chǔ);,,分析的目的是提取需要的信息,獲取特征表示參數(shù);,,可分為時(shí)域分析、頻域分析、同態(tài)分析等;模型分析與非模型分析等;,,分析技術(shù):短時(shí)分析10~30,ms,相對平穩(wěn)(5~50,ms,20~200ms),,分析幀長一般為20,ms,,常用的短時(shí)分析技術(shù)有:,,短時(shí)能量,,短時(shí)平均幅度,,短時(shí)過零率,,短時(shí)自相關(guān)函數(shù),,短時(shí)平均幅度差函數(shù),,短
2、時(shí)頻譜,,短時(shí)功率譜,預(yù)濾波,預(yù)濾波的目的,,防止混疊干擾,,抑制50Hz的電源干擾,,預(yù)濾波實(shí)際上是一個(gè)帶通濾波器,其上下截止頻率分別為fH和fL 。,,對于絕大多數(shù)語音編碼器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz.,,對于語音識別系統(tǒng)而言,用于 用戶時(shí)要求技術(shù)指標(biāo)與語音編碼器相同,如果對于更高的要求場合,則fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz,幀和加窗的概念,短時(shí)分析將語音流分為一段一段來處理,每一段稱為一“幀”;,,幀長:10~30,ms,20ms,常見;(幀率)幀移:0~1/2幀長,幀與幀之間的平滑過
3、渡;,為了減小語音幀的截?cái)嘈?yīng),需要加窗處理;,矩形窗,Hamming,Hann,不同的窗口選擇(形狀、長度),將決定短時(shí)平均能量的性質(zhì)。什么樣的窗口,其短時(shí)平均能量才能更好的反映語音信號的振幅變化哪?,,首先是,窗口的形狀,窗口有多種形狀,他們都是中心對稱的,。,,其次是,窗口的長度,無論什么形狀的窗口,窗口序列的長度,N,將起決定性的作用。,N,選得太大,濾波器的通帶變窄,波形的振幅變化細(xì)節(jié)就看不出來,反之,如果,N,太小,則濾波器的通帶變寬,信號得不到足夠的平均。,,所謂,窗口長度的長短,都是相對于語音信號的基調(diào)周期而言的。通常認(rèn)為在一個(gè)語音幀內(nèi),應(yīng)含有,1—7,個(gè)基調(diào)周期為好。,可是人
4、的語音的基調(diào)周期值是變化的,從女性小孩的,2ms,到老年男子的,14ms,(即基調(diào)頻率為,500Hz,至,70Hz,),所以,N,的選擇是比較困難的。通常折衷的,選擇,N,為,100~200,點(diǎn)為宜,。若采用頻率為,10KHz,,則相當(dāng)于每幀的長度(即窗口序列的長度)約為,10~20ms,為宜。若采樣頻率為,8KHz,,,200,點(diǎn)相當(dāng)于,25ms,,,40,幀,/s,;,120,點(diǎn)相當(dāng)于,15ms,,,66,幀,/s.,窗函數(shù)及其比較,三種窗函數(shù)都有,低通特性,,通過分析三種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn):,,矩形窗的主瓣寬度最小,旁瓣高度最高,會導(dǎo)致泄漏現(xiàn)象,,,哈明窗的主瓣最寬,旁瓣高度最
5、低,,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。,,窗口的形狀和長度對分析影響很大,不同的分析方法對窗函數(shù)的要求不盡一樣;,Hamming,,Hann,矩形窗,語音信號的短時(shí)能量(語音信號強(qiáng)度的度量參數(shù)),如果窗的起點(diǎn)是,n=0,,短時(shí)能量為,,,,如果窗的起點(diǎn)為,n=m,,短時(shí)能量為:,,,,不同窗口寬度的短時(shí)能量函數(shù)示意圖,短時(shí)平均能量的主要用途,可以從語音中區(qū)別出濁音來,,因?yàn)闈嵋魰r(shí)短時(shí)平均能量的值要比清音時(shí)短時(shí)平均能量的值大很多;,,可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等,,最為一種超音段信息,用于語音識別中。,語音信號的短時(shí)平均幅度,如果窗的起點(diǎn)是,n=0,
6、,短時(shí)平均幅度為,,,,如果窗的起點(diǎn)為,n=m,,短時(shí)平均幅度為:,,,短時(shí)過零率,,,波形穿過橫軸(零電平)的次數(shù),短時(shí)過零可以看作信號頻率的簡單度量,語音信號的短時(shí)過零率,Z,過零就是指信號通過零值。過零率就是每秒內(nèi)信號值通過零值的次數(shù)。,,對于離散時(shí)間序列,過零則是指序列取樣值改變符號,過零率則是每個(gè)樣本的改變符號的次數(shù)。對于語音信號,,則是指在一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù),??梢杂孟噜弮蓚€(gè)取樣改變符號的次數(shù)來計(jì)算。,,如果窗的起點(diǎn)是,n=0,,短時(shí)過零率,Z,為,,,將,Z,應(yīng)用于語音信號分析中,發(fā)濁音時(shí),聲帶振動,因而聲門激勵(lì)是以此音調(diào)頻率為基頻來使聲道共振;盡管有
7、若干個(gè)共振峰,但其能量的分布集中于低于,3KHz,的頻率范圍內(nèi)。,,發(fā)清音時(shí)聲帶不振動,聲道某部分阻塞產(chǎn)生類白噪聲激勵(lì),通過聲道后其能量集中在比濁音時(shí)更高的頻率范圍內(nèi)。,,濁音時(shí)能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時(shí)能量集中于較高頻率段內(nèi),具有較高的過零率。,,濁音和清音情況下典型的平均過零率的直方圖。直方圖的分布形狀與高斯分布很吻合,而且,濁音時(shí)的短時(shí)平均過零率的均值為,14,過零,/10ms,,清音時(shí)短時(shí)過零率的均值為,47,過零,/10ms,。,注意到濁音和清音有一個(gè)交疊區(qū)域,此時(shí)很難分清是濁音還是清音,盡管如此,平均過零率仍可以粗略的判斷清音和濁音。,短時(shí)平均能量和短時(shí)平均
8、過零率兩個(gè)參數(shù),也都可以用于語音識別中。主要用于識別無聲段和語音段的起點(diǎn)和終點(diǎn)的位置。,,在背景噪聲比較小的時(shí)候用平均能量來識別比較有效,在背景噪聲比較大的時(shí)候用平均過零率來識別比較有效,但是通常情況是兩個(gè)參數(shù)聯(lián)合進(jìn)行識別。,E、M、Z,的條件概率密度函數(shù),濁音、清音、無聲的短時(shí)特性,S,(無聲),U,(清音),V,(濁音)三種情況下短時(shí)平均幅度的條件概率密度的示意圖。可以看出,,濁音的短時(shí)平均幅度最大,無聲的短時(shí)平均幅度最小。,清音的短時(shí)過零率最大,無聲居中,濁音的短時(shí),,過零率最小,。,語音有聲和無聲,在許多語音處理技術(shù)中需要判斷一段輸入信號中哪些是語音段,哪些是無聲段(只有背景噪聲),,
9、在語音識別中正確的決定所要識別語音的起點(diǎn)、終點(diǎn)對于提高識別率往往是重要的。,,對于數(shù)字移動通信的手持機(jī)編譯碼器,在較長的無聲段應(yīng)降低發(fā)射功率以節(jié)約其電池的消耗。,語音有聲和無聲,對于已經(jīng)判定為語音段的部分,尚需決定其清音或濁音,無論對于語音識別還是低速語音編譯碼器這都是很重要的。這些問題可以概括為無聲,/,有聲判決以及更細(xì)致的,S/U/V,判決。,,能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語音的各種短時(shí)參數(shù)具有不同的概率密度函數(shù)以及相鄰的若干幀語音應(yīng)具有一致的語音特性,它們不會在,S,、,U,、,V,之間跳來跳去。,判斷語音信號的起點(diǎn)和終點(diǎn),在獨(dú)立詞(字)語音識別系統(tǒng)中需正確判定每一個(gè)輸入語音的起
10、點(diǎn)和終點(diǎn),利用短時(shí)平均幅度和短時(shí)過零率可以做到這一點(diǎn)。,,首先,可根據(jù)濁語音情況下短時(shí)平均幅度,M,的概率密度函數(shù),P(M/V),確定一個(gè)閾值參數(shù),M,H,, M,H,的值定得比較高。當(dāng)一幀輸入信號的,M,值超過,M,H,時(shí),就可以十分肯定該幀語音信號不是無聲,而有相當(dāng)大的可能性是濁音。,判斷語音信號的起點(diǎn)和終點(diǎn),根據(jù),M,H,可判定輸入語音中的前后兩個(gè)點(diǎn),N,1,和,N,2,, N,1,和,N,2,之間肯定是語音段,但是語音的精確起點(diǎn)、終點(diǎn)還要在,N,1,之前和,N,2,之后仔細(xì)查找。為此在設(shè)置一個(gè)低閾值參數(shù),M,L,,,由,N,1,向前找,當(dāng)短時(shí)平均幅度,M,由大到小減至,M,L,時(shí)可以確
11、定點(diǎn),N,1,’,。類似由,N,2,向后找,可以確定,N,2,’,。在,N,1,’,和,N,2,’,之間仍能肯定是語音段。,,判斷語音信號的起點(diǎn)和終點(diǎn),由,N1’,向前和,N2’,向后繼續(xù)用短時(shí)過零率,Z,進(jìn)行搜索。根據(jù)無聲情況下短時(shí)過零率,Z,的均值,設(shè)置一個(gè)參數(shù),Z0,,如果由,N1’,向前搜索時(shí),Z,始終大于,Z0,的,3,倍,則認(rèn)為這些信號仍屬于語音段,直至,Z,突然下降到低于,3Z0,值時(shí),這時(shí)可以確定語音的精確起點(diǎn)(為了保證可靠,由,N1’,向前搜索時(shí)間不超過,25ms,)。對終點(diǎn)做同樣的處理。采取這一算法的原因在于,,N1’,以前可能是一段清輔音段(如,f,s,),它的能量相當(dāng)弱
12、,依靠能量不可能把他們與無聲段區(qū)別開,而他們的過零率明顯高于無聲,因而能用這個(gè)參數(shù)來精確的判斷二者的分割點(diǎn),也就是語音真正的起點(diǎn)。,判斷語音信號的起點(diǎn)和終點(diǎn),另一種判斷的方法是如果能夠求出,S,、,U,、,V,三種情況下短時(shí)平均幅度,M,和短時(shí)過零率,Z,的條件聯(lián)合概率密度函數(shù),P(M,、,Z/S), P(M,、,Z/U), P(M,、,Z/V),,那么就可以采用統(tǒng)計(jì)學(xué)中的最大似然算法,根據(jù)一幀信號的,M,和,Z,值來判斷它的,S/U/V,。就是計(jì)算后驗(yàn)概率:,,P(X/M,Z)=[P(M,Z/X)P(X)]/P(M,Z),,其中,,X=S,或,U,或,V,。后驗(yàn)概率最大者即作為判決結(jié)果。,,
13、事實(shí)上,僅依靠,M,和,Z,兩個(gè)參數(shù)還是不夠的,通常要選擇更多的參數(shù),如相關(guān)函數(shù)等。,,,短時(shí)自相關(guān)函數(shù),1、是偶函數(shù);,,2、,s(n),是周期的,那么,R(k),也是周期的;,,3、可用于基音周期估計(jì)和線性預(yù)測分析;,,語音信號的短時(shí)自相關(guān)函數(shù),假設(shè) 一段加窗語音信號,非零區(qū)間為,n=0~N-1,,,,的自相關(guān)函數(shù)稱為語音信號的短時(shí)自相關(guān)函數(shù),,,,可以證明,自相關(guān)函數(shù)是偶函數(shù),且在,l=0,處取得最大值,且值為短時(shí)能量,,修正的自相關(guān)函數(shù),短時(shí)自相關(guān)函數(shù)的特點(diǎn),濁音是周期信號,濁音的短時(shí)自相關(guān)函數(shù)也呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號的周期,。,,清音接近于
14、隨機(jī)噪聲,請音的短時(shí)自相關(guān)函數(shù)不具有周期性,且隨著,l,的增大迅速減小,。,,根據(jù)這個(gè)性質(zhì)可以判斷一個(gè)語音信號是清音還是濁音,還可以判斷濁音的基音周期。,語音信號的短時(shí)頻譜,的離散時(shí)域付里葉變換,,稱為語音信號的短時(shí)頻譜,,,稱為語音信號的短時(shí)功率譜,語音信號的短時(shí)頻譜,窗函數(shù),w(n),語音信號,S(n),加窗語音信號,Sw(n),DTFT,S(exp(jw)),DTFT,W(,exp(jw)),DTFT,S,w,(,exp(jw)),計(jì)算短時(shí)頻譜一般采用哈明窗,,,,短時(shí)平均幅度差函數(shù)(,AMDF),Average Magnitude Difference FunctionRoss,等人
15、于,1974,年提出的,,,短時(shí)基音周期估計(jì),基于短時(shí)自相關(guān)函數(shù)的基音周期估計(jì),,最大峰與基音周期不一致,要求幀長大于兩個(gè)基音周期;,,受共振峰的干擾,可以采取濾波或中心消波預(yù)處理。,,基于短時(shí),AMDF,的基音周期估計(jì),,需進(jìn)行谷值點(diǎn)清晰度檢查、比較復(fù)雜的閾值判決;,,預(yù)處理可以改善效果;,,對幅度變化比較敏感。,基于短時(shí)自相關(guān)函數(shù)的基音周期估計(jì)方法,短時(shí)自相關(guān)函數(shù)在基音周期的各個(gè)整數(shù)倍點(diǎn)上取得最大值,只要能找到第一最大峰值點(diǎn)的位置并計(jì)算它與,l,=0,點(diǎn)的間隔,便能估計(jì)出基音周期。,,實(shí)際上,第一最大峰值點(diǎn)的位置有時(shí)不能與基音周期相吻合。因此很多時(shí)候并不是計(jì)算,l,=0,點(diǎn)的距離作為基音周
16、期。產(chǎn)生這種情況的原因:,,與窗的選取長度有關(guān),窗口過長或過短都會導(dǎo)致不一致。,通常認(rèn)為窗長至少應(yīng)大于兩個(gè)基音周期,語音信號中最長的基音周期約為,20ms,,因此在基音周期估計(jì)時(shí)窗長應(yīng)選的大于,40ms,。,,與聲道特性的影響有,,有時(shí)窗長足夠長,但是第一最大值與基音周期仍不一致,這是主要由聲道的共振峰特性造成的干擾。(,1,、,60~900Hz,的帶通濾波器濾波,并用濾波信號的自相關(guān)函數(shù)進(jìn)行基音周期的估計(jì);,2,、對語音信號進(jìn)行非線性變換后求自相關(guān)函數(shù),一種有效的非線性變換是中心削波,削波后基音周期的峰起更尖銳,),,語音信號的短時(shí)平均幅度差函數(shù)(,AMDF,),為了求基音周期,還可以采用短
17、時(shí)平均幅度差函數(shù),,對于周期語音信號,其短時(shí)平均幅度差函數(shù)也是周期性的。在估計(jì)基音周期時(shí),不論計(jì)算短時(shí)自相關(guān)函數(shù)還是短時(shí)平均幅度差函數(shù),一般都采用矩形窗,基于短時(shí)平均幅度差函數(shù)的基音周期估計(jì)方法的特點(diǎn),基音周期的谷點(diǎn)銳度比峰點(diǎn)的銳度要尖銳,估計(jì)的精度更高,,計(jì)算短時(shí)平均幅度差函數(shù)不用乘法,計(jì)算量小,,可以通過對語音信號進(jìn)行譜平滑(去除共振峰的影響)和中心削波處理來改善基音周期估計(jì)的效果,,短時(shí)平均幅度差函數(shù)對于語音信號的快速變化比較敏感。,對基音周期軌跡的平滑,中值濾波 平滑點(diǎn)附近左右各取,L,個(gè)點(diǎn),將,2L+1,個(gè)點(diǎn)按大小排列,取隊(duì)列中間值作為平滑器的輸出,,線性濾波 通過一個(gè)低通濾波器
18、,,組合平滑 可以將兩個(gè)中值平滑串聯(lián),或者將中值平滑和線性平滑串聯(lián),,基音估計(jì)的其他方法:,,倒譜法(,CEP),,簡化的逆濾波器法(,SIFT),,小波變換的方法,,……,基于短時(shí)自相關(guān)函數(shù)的基音周期估計(jì)方法,短時(shí)自相關(guān)函數(shù)在基音周期的各個(gè)整數(shù)倍點(diǎn)上取得最大值,,但是很多時(shí)候并不是計(jì)算,l=0,點(diǎn)的距離作為基音周期,,與窗的選取長度有關(guān),,與聲道特性的影響有關(guān)(,1,、濾波;,2,、對語音信號進(jìn)行非線性變換后求自相關(guān)函數(shù)),語音信號的短時(shí)譜,語音信號的主要特征表現(xiàn)在它的 “短時(shí)頻譜”(“短時(shí)譜”)上,,短時(shí)譜的求得,短時(shí)功率譜,濁音、清音短時(shí)譜的特點(diǎn),濁音短時(shí)譜的特點(diǎn):,,具有明顯的周期性起伏結(jié)構(gòu),,具有明顯的凸起點(diǎn),稱為“共振峰”(,formant,),,清音短時(shí)譜的特點(diǎn):隨機(jī)噪聲,,短時(shí)功率譜示例,功率譜與自相關(guān)函數(shù)的關(guān)系,短時(shí)譜包絡(luò)需要用到線性預(yù)測的方法,,同態(tài)濾波與倒譜分析,……,作業(yè),給定兩段信號判斷其是否為語音信號;,,如是語音信號判斷其起點(diǎn)和終點(diǎn)的位置;,,判斷其為濁音信號還是清音信號;,,如是濁音信號,進(jìn)行基音周期的估計(jì)。,,