A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Podobné dokumenty
A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

íta ové sít baseband narrowband broadband

Základní principy přeměny analogového signálu na digitální

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014

Úvod do praxe stínového řečníka. Proces vytváření řeči

Kepstrální analýza řečového signálu

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

A/D převodníky - parametry

Signál v čase a jeho spektrum

Úvod do zpracování signálů

ADA Semestrální práce. Harmonické modelování signálů

Akustika. 3.1 Teorie - spektrum

Základní komunikační řetězec

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

DSY-4. Analogové a číslicové modulace. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Fyziologická akustika. fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí

Zvuk a jeho vlastnosti

Počítačové sítě. Lekce 5: Základy datových komunikací

Snímání biologických signálů. A6M31LET Lékařská technika Zdeněk Horčík Katedra teorie obvodů

Algoritmy a struktury neuropočítačů ASN P8b

Moderní multimediální elektronika (U3V)

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

ednáška a metody digitalizace telefonního signálu Ing. Bc. Ivan Pravda

Číslicové filtry. Honza Černocký, ÚPGM

Zvukové rozhraní. Základní pojmy

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST

Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky

B2M31SYN SYNTÉZA AUDIO SIGNÁLŮ

Náhodné signály. Honza Černocký, ÚPGM

FONETIKA A FONOLOGIE I.

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Základní metody číslicového zpracování signálu a obrazu část II.

Akustika. Teorie - slyšení. 5. Přednáška

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

Pavel Cenek, Aleš Horák

Laboratorní úloha č. 8: Elektroencefalogram

Klasifikace hudebních stylů

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Rozpoznávání hlasových vstupů

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

31SCS Speciální číslicové systémy Antialiasing

1. Přednáška: Obecné Inf. + Signály a jejich reprezentace

Digitalizace převod AS DS (analogový diskrétní signál )

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Pulzní (diskrétní) modulace

1. Základy teorie přenosu informací

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY, ČASOVÉ ŘADY a SYSTÉMY

Úvod do praxe stínového řečníka. Úvod

Akustika. Teorie - slyšení. 5. Přednáška

Sluchové stimulátory. České vysoké učení technické v Praze

Úvod do medicínské informatiky pro Bc. studium. 6. přednáška

Akustika. Teorie - slyšení

Analýza a zpracování ultrazvukových signálů

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

Direct Digital Synthesis (DDS)

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY, ČASOVÉ ŘADY a SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Kompresní metody první generace

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Vlastnosti a modelování aditivního

OSNOVA. 1. Definice zvuku a popis jeho šíření. 2. Rozdělení zvukových záznamů (komprese) 3. Vlastnosti jednotlivých formátů

Speciální struktury číslicových systémů ASN P12

polyfázové filtry (multirate filters) cascaded integrator comb filter (CIC) A0M38SPP - Signálové procesory v praxi - přednáška 8 2

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

PCM30U-ROK 2 048/256 kbit/s rozhlasový kodek stručný přehled

Digitální telefonní signály

Zvuk a akustika. Helena Uhrová

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

A4400 VA4 pro ROZUMÍME ŘEČI VIBRACÍ

4. Komunikace, komunikační schéma, percepce a produkce řeči (Kopecký Kamil, Mgr. Ph.D.)

Multimediální systémy

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

A4400 VA4 PRO II 4-KANÁLOVÝ ANALYZÁTOR ROZUMÍME ŘEČI VIBRACÍ

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

JAK VZNIKÁ LIDSKÝ HLAS? Univerzita Palackého v Olomouci

1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce

3.cvičen. ení. Ing. Bc. Ivan Pravda

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Předmět A3B31TES/Př. 13

Otázka 22(42) Přístroje pro měření signálů, metody pro měření v časové a frekvenční doméně. Přístroje

Universální přenosný potenciostat (nanopot)

Teoretická elektrotechnika - vybrané statě

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3

Fyzika_9_zápis_6.notebook June 08, Akustika = část fyziky, která se zabývá ZVUKEM (vznikem zvuku, vlastnostmi zv., šířením zv., lid.

- DAC - Úvod A/D převodník převádějí analogové (spojité) veličiny na digitální (nespojitou) informaci. Základní zapojení převodníku ukazuje obr.

Kvalita zvuku a obrazu v elektronických komunikacích aneb Ještě chceme HiFi?

Měření zvuku. Judita Hyklová. První soukromé jazykové gymnázium Hradec Králové, s r.o. Brandlova 875, Hradec Králové

Grafika na počítači. Bc. Veronika Tomsová

Řečové technologie pomáhají překonávat bariéry

Fyziologické vlastnosti lidského zraku a sluchu

Charakteristiky zvuk. záznamů

Transkript:

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie Doc. Ing. Petr Pollák, CSc. Míst. 461, email: pollak@fel.cvut.cz http://noel.feld.cvut.cz/vyu/a2m31rat 16.února2011-10:26

Obsah přednášky Přehled aplikací hlasových technologií Model vzniku řeči a základní charakteristiky řeči Řečový signál- vzorkování a kvantování Základní charakteristiky řeči v časové oblasti

I. část Přehled aplikací hlasových technologií

Aplikace hlasových technologií rozpoznávání řeči(izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka, audio-vizuální rozpoz. extrakce příznaků(analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS(převod textu do mluvené podoby- syntéza) dialogové systémy(informační systémy- telefonní, kiosek) kódování pro elektronické uložení promluvy, přenos telekomunikačním kanálem měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu(mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače(textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků

Aplikace hlasových technologií- telekomunikace rozpoznávání řeči(izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka, audio-vizuální rozpoz. extrakce příznaků(analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS (převod textu do mluvené podoby- syntéza) dialogové systémy(informační systémy- telefonní, kiosek) kódování pro elektronické uložení promluvy, kódování v telekomunikačním kanále měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu(mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače(textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků

Státnicové okruhy související s problematikou zpracování řeči Společné otázky- obecné CZS Lineární a cyklická konvoluce, zpracování dlouhých signálů, vlastnosti DFT, váhování, číslicové filtry, kvantování a jeho důsledky(a2m99czs) Převzorkování, banky filtrů, odhad parametrů náhodných signálů, spektrální a korelační analýza, modelování a lineární predikce(a2m99czs) Oborově specifické otázky pro obor Sítě elektronických komunikací Digitalizace řečového signálu, spektrální charakteristiky, vokodéry používané v telekomunikacích, subjektivní a objektivní měření kvality řečového signálu(a2m31rat). Náhrada ztracených segmentů řeči při přenosu komunikačním kanálem, metody potlačování šumu v řečovém signálu, potlačování echa(a2m31rat). Principy a způsoby realizace rozpoznávání řeči, syntéza řeči, dialogové komunikační systémy(a2m31rat).

II. část Model vzniku řeči a základní charakteristiky řeči

Fyziologie hlasového ústrojí Artikulační orgány hlasového ústrojí člověka dutina nosní do žaludku do plic zubyarty dutina ústní jazyk tvrdé patro měkké patro dutina hrdelní hlasivky Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.

Model vzniku řeči Model hlasového ústrojí člověka dutina nosní nos plíce hlasivky dutina hrdelní dutina ústní rty Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.

Model vzniku řeči Model generování řečového signálu f o generátor pulzů G(zesílení) Parametry hlasového ústrojí Model produkce s[n] generátor šumu znělá/neznělá Model produkce řeči- AR model- nejjednodušší model - snadná identifikace parametrů AR modelu pomocí LPC analýzy - souvislost s rezonátory hlasového ústrojí

Fyziologie vnímání- percepce Ucho- sluchový aparát člověka třmínek kovadlinka kladívko vnější zvukovod bubínek hlemýžď(cochlea) bubínek + třmínek, kovadlina, kladívko: přenos kmitů na nervová zakončení nervových vláken do hlemýždě hlemýžď- nervová zakončení na obvodu zužujícího se profiluinformace vedená do mozku = vyhodnocení energie ve frekvenčním spektru

Reprezentace řeči- informační obsah Akustická úroveň časový průběh, spektrální reprezentace kvazistacionární signál(10-30 ms) kvaziperiodický vs. neperiodický(znělý vs. neznělý) pásmověomezenýsignál(8000hzresp.4000hz) f s Fonetická a fonologická úroveň fonetika- základní element je hláska(fón)- zvukový charakter fonologie- základní element je foném- lingvistický charakter hláska je akustickou realizací fonému česká fonetická abeceda rozlišuje 44(42) hlásek fonetická abeceda SAMPA

Reprezentace řeči- informační obsah Elementy řečového signálu +1 [V] 0-1 0 0,1 0,2 0,3 0,4 [s] 0,5 s e d u m se #-s+e s-e+d X d-u+m sedum dum u-m+# #-s s-e e-d d-u u-m m-# fonémy slovo slabiky trifóny difóny X=e-d+m

III. část Řečový signál- vzorkování a kvantování

Vzorkování a kvantování signálu- PCM x(t)... analogový signál x[n]... diskrétní signál T s nt s t n T s x(t)... analogový signál x d [n]...digitálnísignál T s nt s t n T s

Vzorkování řečového signálu Minimálnívzorkovacíkmitočet -f s =8kHz zajištěna srozumitelnost jednotlivých hlásek základní rozlišení hlasových charakteristik mluvčího používáno v telefonních aplikacích (nižší vzorkovací kmitočty pouze v dílčích algoritmech) Nejrozšířenějšívzorkovacíkmitočet -f s =16kHz zlepšené rozlišení hlasových charakteristik mluvčího používán na vstupech hlasem ovládaných systémů komunikace po Interenetu(VoIP sítě) Vyšší vzorkovací kmitočty použití spíše řidší- pozvolný nárůst sbírané řečové databáze již uchovávají data v nejvyšší kvalitě f s =44,1kHz-CDkvalita f s =48kHz-snadnépřevzorkovánína16kHzči8kHz

Lineárně kvantovaná reprezentace řeči 16-bitová PCM(Pulse Code Modulation) základní číslicová reprezentace řečového signálu dynamický rozsah(15 bitů pro absolutní hodnotu) (dynamikařečijeasi50db) 20log2 15 90dB Formáty reprezentace zvukových souborů MicrosoftRIFFWAV-obsahujehlavičku44bytůs informacemi o vzorkovací frekvenci, počtu kanálů, počtu bitů, atd. RAW soubor(bez hlavičky)- nutno mít dodatečné informace o formátu dat pro více bytové reprezentace- pořadí bytů (Little Endian, Big Endian) další formáty pro různé platformy resp. systémy konverze mezi různými zvukovými formáty- sox(freeware)

Nelineární kvantovaní řečového signálu Nevýhody lineárního kvantování řečového signálu řečový signál obsahuje mnoho vzorků malých hodnot hustota pravděpodobnosti rozložení hodnot není rovnoměrná ucho má též logaritmickou citlivost na amplitudu akustického tlaku Nelineární logaritmické kvantování principiálníblokovéschéma... využití v telefonních aplikacích nejčastěji používané standardy: A-law, µ-law

Nelineární kvantování řečového signálu- A-law y[n] = a Y max 1 +lna Y max 1 +ln a x[n] X max 1 +lna x[n] X max sgnx[n], pro x[n] < X max a sgn x[n], v ostatních případech., x[n] = X max 1 +lna X max a e a y[n] Y max sgny[n], pro y[n] < Y max 1 +lna,» y[n] (1+lna) Y max 1 sgny[n], vostatníchpřípadech. x[n] je hodnota vzorku v lineárním měřítku y[n] je hodnota v měřítku logaritmickém.

Nelineární kvantování řečového signálu- A-law Lineární PCM 12 bitů(11+1)- maximální hodnota 2048 2000 1500 1000 500 0 0 50 100 a-law8bitů 60 50 40 30 20 10 0 Detail převodní charakteristiky 5 10 15 20 25 a-law8bitů 30 35 40 45 Lineární PCM 11 bitů(10+1)- maximální hodnota 1024 1000 800 600 400 200 0 0 50 100 a-law8bitů 30 25 20 15 10 5 0 Detail převodní charakteristiky 5 10 15 20 25 a-law8bitů 30 35 40 45 Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.

Nelineární kvantování A-law dle ITU-T G.711 PCM13bitů(12+1) 3500 3000 2500 2000 1500 1000 500 0 20 40 60 80 100 120 a-law8bitů(7+1) Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.

IV. část Základní charakteristiky řeči v časové oblasti

Přehled charakteristik řeči v časové oblasti Energie(výkon), RMS, obálka Intenzita Počet průchodů nulou Autokorelační funkce řeč je nestacionární signál krátkodobé charakteristiky segmentace(do kvazistacionárních úseků 20 30 ms) Odhady resp. zpracování se provádějí VŽDY v uvedených kvazistacionárních segmentech

Energetické charakteristiky řeči v časové oblasti Energie (E)resp.výkon (P)signálu N E = x 2 [n] n=1 P = 1 N N x 2 [n] n=1 (RMS) hodnota(efektivní h., pro vyjádření hlasitosti) N x 2 [n] n=1 RMS = N Efektivní hodnota resp. výkon v db ( ) N P db =10log ǫ + 1 N x 2 [n],rms db =20log N ǫ + x 2 [n] n=1 N n=1

Energetické charakteristiky řeči v časové oblasti (PP) spičková hodnota(peak-to-peak) PP =max(x[n]) min(x[n]). Energie vs. intenzita N N E = x 2 [n] M = x[n] - odlišná dynamika od energie n=1 n=1

Další charakteristiky řeči v časové oblasti (ZCR) počet průchodů nulou(zero-crossing rate) ZCR = 1 N N n=1 sgnx[n] sgnx[n 1] 2 f s [Hz]. - četnost přepočítána na frekvenci - použití zejména pro detekci neznělých hlásek, začátku a konce promluvy, apod.

Další charakteristiky řeči v časové oblasti Autokorelačnífunkce(LPCanalýza,odhadf o ) R x [k] = 1 N N k 1 k=0 x[n]x[n +k],pro0 k <N Vzájemná korelační funkce(odhad zpoždění mezi dvěma kanály) N k 1 1 x[n]y[n +k], pro0 k <N, N k=0 R xy [k] = N k 1 1 x[n +k]y[n], pro N <k <0. N k=0 Koeficient korelovanosti(segmentace signálu) r xy = R xy[0] Rx [0]R y [0]

Děkuji za pozornost