A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie Doc. Ing. Petr Pollák, CSc. Míst. 461, email: pollak@fel.cvut.cz http://noel.feld.cvut.cz/vyu/a2m31rat 16.února2011-10:26
Obsah přednášky Přehled aplikací hlasových technologií Model vzniku řeči a základní charakteristiky řeči Řečový signál- vzorkování a kvantování Základní charakteristiky řeči v časové oblasti
I. část Přehled aplikací hlasových technologií
Aplikace hlasových technologií rozpoznávání řeči(izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka, audio-vizuální rozpoz. extrakce příznaků(analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS(převod textu do mluvené podoby- syntéza) dialogové systémy(informační systémy- telefonní, kiosek) kódování pro elektronické uložení promluvy, přenos telekomunikačním kanálem měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu(mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače(textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků
Aplikace hlasových technologií- telekomunikace rozpoznávání řeči(izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka, audio-vizuální rozpoz. extrakce příznaků(analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS (převod textu do mluvené podoby- syntéza) dialogové systémy(informační systémy- telefonní, kiosek) kódování pro elektronické uložení promluvy, kódování v telekomunikačním kanále měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu(mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače(textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků
Státnicové okruhy související s problematikou zpracování řeči Společné otázky- obecné CZS Lineární a cyklická konvoluce, zpracování dlouhých signálů, vlastnosti DFT, váhování, číslicové filtry, kvantování a jeho důsledky(a2m99czs) Převzorkování, banky filtrů, odhad parametrů náhodných signálů, spektrální a korelační analýza, modelování a lineární predikce(a2m99czs) Oborově specifické otázky pro obor Sítě elektronických komunikací Digitalizace řečového signálu, spektrální charakteristiky, vokodéry používané v telekomunikacích, subjektivní a objektivní měření kvality řečového signálu(a2m31rat). Náhrada ztracených segmentů řeči při přenosu komunikačním kanálem, metody potlačování šumu v řečovém signálu, potlačování echa(a2m31rat). Principy a způsoby realizace rozpoznávání řeči, syntéza řeči, dialogové komunikační systémy(a2m31rat).
II. část Model vzniku řeči a základní charakteristiky řeči
Fyziologie hlasového ústrojí Artikulační orgány hlasového ústrojí člověka dutina nosní do žaludku do plic zubyarty dutina ústní jazyk tvrdé patro měkké patro dutina hrdelní hlasivky Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
Model vzniku řeči Model hlasového ústrojí člověka dutina nosní nos plíce hlasivky dutina hrdelní dutina ústní rty Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
Model vzniku řeči Model generování řečového signálu f o generátor pulzů G(zesílení) Parametry hlasového ústrojí Model produkce s[n] generátor šumu znělá/neznělá Model produkce řeči- AR model- nejjednodušší model - snadná identifikace parametrů AR modelu pomocí LPC analýzy - souvislost s rezonátory hlasového ústrojí
Fyziologie vnímání- percepce Ucho- sluchový aparát člověka třmínek kovadlinka kladívko vnější zvukovod bubínek hlemýžď(cochlea) bubínek + třmínek, kovadlina, kladívko: přenos kmitů na nervová zakončení nervových vláken do hlemýždě hlemýžď- nervová zakončení na obvodu zužujícího se profiluinformace vedená do mozku = vyhodnocení energie ve frekvenčním spektru
Reprezentace řeči- informační obsah Akustická úroveň časový průběh, spektrální reprezentace kvazistacionární signál(10-30 ms) kvaziperiodický vs. neperiodický(znělý vs. neznělý) pásmověomezenýsignál(8000hzresp.4000hz) f s Fonetická a fonologická úroveň fonetika- základní element je hláska(fón)- zvukový charakter fonologie- základní element je foném- lingvistický charakter hláska je akustickou realizací fonému česká fonetická abeceda rozlišuje 44(42) hlásek fonetická abeceda SAMPA
Reprezentace řeči- informační obsah Elementy řečového signálu +1 [V] 0-1 0 0,1 0,2 0,3 0,4 [s] 0,5 s e d u m se #-s+e s-e+d X d-u+m sedum dum u-m+# #-s s-e e-d d-u u-m m-# fonémy slovo slabiky trifóny difóny X=e-d+m
III. část Řečový signál- vzorkování a kvantování
Vzorkování a kvantování signálu- PCM x(t)... analogový signál x[n]... diskrétní signál T s nt s t n T s x(t)... analogový signál x d [n]...digitálnísignál T s nt s t n T s
Vzorkování řečového signálu Minimálnívzorkovacíkmitočet -f s =8kHz zajištěna srozumitelnost jednotlivých hlásek základní rozlišení hlasových charakteristik mluvčího používáno v telefonních aplikacích (nižší vzorkovací kmitočty pouze v dílčích algoritmech) Nejrozšířenějšívzorkovacíkmitočet -f s =16kHz zlepšené rozlišení hlasových charakteristik mluvčího používán na vstupech hlasem ovládaných systémů komunikace po Interenetu(VoIP sítě) Vyšší vzorkovací kmitočty použití spíše řidší- pozvolný nárůst sbírané řečové databáze již uchovávají data v nejvyšší kvalitě f s =44,1kHz-CDkvalita f s =48kHz-snadnépřevzorkovánína16kHzči8kHz
Lineárně kvantovaná reprezentace řeči 16-bitová PCM(Pulse Code Modulation) základní číslicová reprezentace řečového signálu dynamický rozsah(15 bitů pro absolutní hodnotu) (dynamikařečijeasi50db) 20log2 15 90dB Formáty reprezentace zvukových souborů MicrosoftRIFFWAV-obsahujehlavičku44bytůs informacemi o vzorkovací frekvenci, počtu kanálů, počtu bitů, atd. RAW soubor(bez hlavičky)- nutno mít dodatečné informace o formátu dat pro více bytové reprezentace- pořadí bytů (Little Endian, Big Endian) další formáty pro různé platformy resp. systémy konverze mezi různými zvukovými formáty- sox(freeware)
Nelineární kvantovaní řečového signálu Nevýhody lineárního kvantování řečového signálu řečový signál obsahuje mnoho vzorků malých hodnot hustota pravděpodobnosti rozložení hodnot není rovnoměrná ucho má též logaritmickou citlivost na amplitudu akustického tlaku Nelineární logaritmické kvantování principiálníblokovéschéma... využití v telefonních aplikacích nejčastěji používané standardy: A-law, µ-law
Nelineární kvantování řečového signálu- A-law y[n] = a Y max 1 +lna Y max 1 +ln a x[n] X max 1 +lna x[n] X max sgnx[n], pro x[n] < X max a sgn x[n], v ostatních případech., x[n] = X max 1 +lna X max a e a y[n] Y max sgny[n], pro y[n] < Y max 1 +lna,» y[n] (1+lna) Y max 1 sgny[n], vostatníchpřípadech. x[n] je hodnota vzorku v lineárním měřítku y[n] je hodnota v měřítku logaritmickém.
Nelineární kvantování řečového signálu- A-law Lineární PCM 12 bitů(11+1)- maximální hodnota 2048 2000 1500 1000 500 0 0 50 100 a-law8bitů 60 50 40 30 20 10 0 Detail převodní charakteristiky 5 10 15 20 25 a-law8bitů 30 35 40 45 Lineární PCM 11 bitů(10+1)- maximální hodnota 1024 1000 800 600 400 200 0 0 50 100 a-law8bitů 30 25 20 15 10 5 0 Detail převodní charakteristiky 5 10 15 20 25 a-law8bitů 30 35 40 45 Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
Nelineární kvantování A-law dle ITU-T G.711 PCM13bitů(12+1) 3500 3000 2500 2000 1500 1000 500 0 20 40 60 80 100 120 a-law8bitů(7+1) Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
IV. část Základní charakteristiky řeči v časové oblasti
Přehled charakteristik řeči v časové oblasti Energie(výkon), RMS, obálka Intenzita Počet průchodů nulou Autokorelační funkce řeč je nestacionární signál krátkodobé charakteristiky segmentace(do kvazistacionárních úseků 20 30 ms) Odhady resp. zpracování se provádějí VŽDY v uvedených kvazistacionárních segmentech
Energetické charakteristiky řeči v časové oblasti Energie (E)resp.výkon (P)signálu N E = x 2 [n] n=1 P = 1 N N x 2 [n] n=1 (RMS) hodnota(efektivní h., pro vyjádření hlasitosti) N x 2 [n] n=1 RMS = N Efektivní hodnota resp. výkon v db ( ) N P db =10log ǫ + 1 N x 2 [n],rms db =20log N ǫ + x 2 [n] n=1 N n=1
Energetické charakteristiky řeči v časové oblasti (PP) spičková hodnota(peak-to-peak) PP =max(x[n]) min(x[n]). Energie vs. intenzita N N E = x 2 [n] M = x[n] - odlišná dynamika od energie n=1 n=1
Další charakteristiky řeči v časové oblasti (ZCR) počet průchodů nulou(zero-crossing rate) ZCR = 1 N N n=1 sgnx[n] sgnx[n 1] 2 f s [Hz]. - četnost přepočítána na frekvenci - použití zejména pro detekci neznělých hlásek, začátku a konce promluvy, apod.
Další charakteristiky řeči v časové oblasti Autokorelačnífunkce(LPCanalýza,odhadf o ) R x [k] = 1 N N k 1 k=0 x[n]x[n +k],pro0 k <N Vzájemná korelační funkce(odhad zpoždění mezi dvěma kanály) N k 1 1 x[n]y[n +k], pro0 k <N, N k=0 R xy [k] = N k 1 1 x[n +k]y[n], pro N <k <0. N k=0 Koeficient korelovanosti(segmentace signálu) r xy = R xy[0] Rx [0]R y [0]
Děkuji za pozornost