ZRE - Kódování řeči II. CELP Vladimír Malenovsý, ÚPGM FIT VUT Brno
Plán přednášy vsupní řeč LP analýza předzpracování OL pich analýza syneicá řeč lasifiace posprocessing LP vanizace CELP deodér enodér CELP enodér LP devanizace deodér biový o biový o
LP analýza Auoorelační funce Levinson- Durbin Az () Řečový signál Sperum Obála LP analýza se provádí na ráých úsecích vsupního signálu (5-30ms) Koeficieny filru zísané na záladě LP analýzy se ódují v podobě LSP/LSF paramerů Poloha pólů filru /A(z) odpovídá formanům ve speru Řád filru P=5-20 posačuje bohaě pro řeč či šum, ne vša např. pro hudbu Drivá věšina řečových odeů používaných na svěě využívá LP analýzu apple na hp://web.mi.edu/6.302/www/pz/ nebo na hp://www.falsad.com/dfiler/ index.hml Klasifiace ve svěě
LP analýza Az () Řečový signál Residuální signál Sperum Inverze obály Filrace A(z) odsraňuje z řečového signálu jeho obálu a ím zbavuje sperum formanů Reziduální (exciační) signál je dále ódován Klasifiace ve svěě
LP synéza Exciační signál Filr LP synézy Synéza P Az () az i i i Koeficieny LP filru se ódují nejčasěji pomocí MSVQ. Pro filr 6.řádu je zapořebí cca 30 biů/20ms, aby nedošlo e zreslení signálu. Filr LP synézy je IIR filr, aže má vlasní paměť, což je něoli posledních vzorů z minulé synézy Vzhledem charaeru filru může dojí jeho nesabiliě a explozi synézy Klasifiace ve svěě
d orelační funce C norm d L n0 L s ( n) s ( n d) L 2 2 s n s n d n0 n0, orelační funci počíáme pro d = <20;230> exremely low voice hps://www.youube.com/wach?v=aapifo-nlc vybereme první velé maximum, o prohlásíme za OL pich snažíme se vyhnou násobům OL pich zapamaujeme si hodnou C(d max ), o prohlásíme za OL voicing Klasifiace ve svěě
Klasifiace
Typy exciačních signálů řečový signál exciace VOKÁLY (znělé úsey) a, e, i, o, u PLOZÍVY, d,, g FRIKATIVY (neznělé úsey) s, z, š, h, ch, v, f NEPÁROVÉ KONSONANTY m, n, j, l, r lasifiace signálů na ZNĚLÉ, NEZNĚLÉ a OSTATNÍ výběr vhodného modelu pro ódování exciačního signálu Klasifiace ve svěě
LP vanizace
LSF vanizace ódové slovo (codeword) Voronoi region LP paramery se převádí na LSP paramery a y se převádí na LSF paramery, eré se vanizují Veorová vanizace (MSVQ), -means algorihm Animace VQ na hp://www.daa-compression.com/vqanim.shml 20-30 biů na jeden 6-i dimenzionální LSF veor Klasifiace ve svěě
CELP
Kódování exciačního signálu s(n) např. 320 vzorů pro 6Hz signál odpovídá 20ms vsupní rámec řeči - Chyba (error) G Zesílení (gain) ŝ(n) Snažíme se minimalizova chybu Nejčasěji min n sˆ n 2 s n Knihovna (codeboo) exciačních signálů Klasifiace ve svěě
Deódování exciačního signálu G řeč nejlepší z možných exciačních signálů (deódovaný index) deódovaný zis deódované paramery LP filru Klasifiace ve svěě
Zavedení adapivní nihovny a podrámců s(n) T OL podrámec řeči (~5ms) Adapivní nihovna (adapive codeboo) G Zesílení (gain) s a (n) - min n 2 s n sa n adapivní nihovna je v podsaě minulá exciace hledá se nejlepší úse minulé exciace, erý by mohl reprezenova svým varem současný podrámec řeči orelace a minimalizace vadráu chyby oolo T OL (open-loop pich) esimace zesílení prohledávání adapivní nihovny se dělá podle residuálního signálu Klasifiace ve svěě
Zavedení adapivní nihovny a podrámců podrámec řeči (~5ms) s(n) Adapivní nihovna (adapive codeboo) G a Zesílení (gain) s a (n) - e(n) min n 2 s n sa n Fixní nihovna (innovaion codeboo) s c (n) G c - min en s 2 c n n Zesílení (gain) Klasifiace ve svěě
Masování vanizačního šumu masovací šum o cenralní frevenci Hz, riicé šírce pásma 400Hz a úrovni 60 dbspl práh slyšielnosi óny v blízosi silného ónu jsou masovány sperální omponeny s úrovní pod prahem slyšielnosi není řeba ódova lze olerova vyšší úroveň vanizačního šumu v blízosi silných ónů, např. formanů demo na hps://www.youube.com/ wach?v=6dvyww5nr4 Klasifiace ve svěě
Masování vanizačního šumu vanizační šum W z A z/ 0 z 0 percepuální filr Klasifiace ve svěě
Zavedení percepuálního filru podrámec řeči (~5ms) s(n) Adapivní nihovna (adapive codeboo) G a Zesílení (gain) s a (n) - e(n) z min en ( ) n 2 Zesílení (gain) Fixní nihovna (innovaion codeboo) s c (n) r(n) G c - 2 z min rn ( ) n Klasifiace ve svěě
Výpočení náročnos Adapivní nihovna: (7-9 biů,.j. 28 52 veorů) (esimace periodiciy předem (OL pich analysis), prohledávání nihovny olem éo hodnoy) /2 s(n) G a s a (n) - e(n) z s c (n) G c - r(n) z Klasifiace ve svěě
Výpočení náročnos Fixní nihovna: (0-88 biů,.j. 024 3.0 26 veorů) (vnucení jednoduchých sruur pouze něoli pulzů na sopu, omezený poče pozic pulzů, znaména) s(n) G a s a (n) - e(n) z s c (n) G c - r(n) z Klasifiace ve svěě
Výpočení náročnos Filrace: (pro aždý codevecor nuno provés onvoluci s filry 6.řádu) (nahrazení filrů /A(z) a W(z) jejich impulzní odezvou) viz dále s(n) G a s a (n) - e(n) z s c (n) G c - r(n) z Klasifiace ve svěě
Přemísění filru W(z) podrámec řeči (~5ms) z G a z - z G c - Klasifiace ve svěě
Odečení ZIR podrámec řeči (~5ms) z G a z - oeficieny filrů se mění, ale co s paměmi? z G c - Klasifiace ve svěě
Odečení ZIR podrámec řeči (~5ms) z Zero-Inpu Response (ZIR) nulový vsup z - G a z - nulový počáeční sav z G c - Klasifiace ve svěě
Nahrazení filrů impulzní odezvou z H operaci filrace nahradíme obyčejným maicovým násobením oeficieny h 0, h,..., h N- voří impulzní odezvu filru W(z)/A(z) vzhledem předpoladu nulového savu paměí má maice H riangulární var h 0 h h 2...h N- h 0 h... h 0... h 0... h 0 Klasifiace ve svěě
Celové schéma CELP enodéru podrámec řeči (~5ms) z s(n) nulový vsup z Az () - H G a s a (n) - e(n) min en ( ) n 2 H s c (n) G c - r(n) min rn ( ) n 2 Klasifiace ve svěě
Celové schéma CELP deodéru G a + řeč G c Klasifiace ve svěě
je paenovanou echnologií VoiceAge Corp. a Universié de Sherbrooe, CANADA vyvinuo v roce 989 (Jean-Pierre Adoul, Claude Laflamme, Redwan Salami, Bruno Bessee) ouzlo u spočívá v om, že doáže nahradi obří fixní nihovnu signálů jednoduchou nihovnou s algebraicou sruurou, de je jen něoli málo pulzů v přesně definovaných pozicích a ím zreduova paměťovou a výpočení náročnos echnologii využívá cca - 2,4 miliard uživaelů mobilních elefonů na celém svěě - 35 milionů uživaelů přehrávačů MP3-500 milionů uživaelů inerneových přehrávačů RealPlayer nebo MediaPlayer Klasifiace ve svěě
Prohledávání fixní nihovny podrámec řeči (~5ms) z s(n) nulový vsup z Az () - H G a s a (n) - e(n) min en ( ) n 2 (n) H s c (n) G c - r(n) min rn ( ) n 2 Klasifiace ve svěě
Zavedení algebraicé nihovny c H y G c - min Gcy 2 algebraicá nihovna (až 80 biů) Klasifiace ve svěě
Prohledávání fixní nihovny min Gcy 2 G c c H y G c - min Gcy 2 algebraicá nihovna (až 80 biů) Klasifiace ve svěě
Prohledávání algebraicé nihovny min Gcy 2 G c T. y max T y. y orelace mezi cílovým (arge) veorem a esovaným veorem energie esovaného veoru c H y G c - min Gcy 2 algebraicá nihovna (až 80 biů) Klasifiace ve svěě
Prohledávání algebraicé nihovny min Gcy 2 G c max T. y 2 T y. y T. H. c 2 max T T c. H. H. c c H y G c - min Gcy 2 algebraicá nihovna (až 80 biů) Klasifiace ve svěě
Prohledávání algebraicé nihovny min Gcy 2 G c max T. y 2 T y. y T. H. c 2 max T T c. H. H. c max T d. c 2 T c. Φc. c H y G c - min Gcy 2 algebraicá nihovna (až 80 biů) Klasifiace ve svěě
Prohledávání algebraicé nihovny max T d. c 2 T c. Φc. Lze prohledáva rychle, poud c obsahuje jen velmi málo nenulových prvů s hodnoami + nebo - T T d. c c. Φc. d 0 d d 2... d 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ij 0 0 0 0 d d 3 6 3,3 6,6 23,6 Klasifiace ve svěě
ve svěě
Od AMR-NB AMR-WB (HD VOICE) HD voice demo na hps://www.youube.com/ wach?v=y4bb3b9pirg Klasifiace ve svěě
Technologie v mezinárodních sandardech EVS Muli Rae 2005 204 200 univerzální ode pro 4.generaci mobilních síí (LTE) široopásmová elefonie pro 3.generaci mobilních síí (UMTS) 3GPP2 (Norh America) SMV Rae Se I VMR-WB Rae Se I/II 200? AMR-WB Muli Rae 999 AMR-NB Muli Rae 3GPP ETSI (Europe) EVRC Rae Se I 995 996 GSM EFR 2,2 bps QCELP3 Rae Se II 994 995 GSM HR 5,6 bps IS-96A Rae Se I 993 989 GSM FR 3 bps Klasifiace ve svěě