kursu, úvod 2017/18 Igor Szöke a Honza Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Podobné dokumenty
LPC. Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39

cernocky

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Úvod do zpracování signálů

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

Speciální struktury číslicových systémů ASN P12

1. Základy teorie přenosu informací

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

A/D převodníky - parametry

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Náhodné signály. Honza Černocký, ÚPGM

7 Další. úlohy analýzy řeči i a metody

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Úvod do teorie informace

ISS 2017/18 intro. Honza Černocký, ÚPGM FIT VUT

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

Číslicové filtry. Honza Černocký, ÚPGM

Pavel Cenek, Aleš Horák

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Algoritmy a struktury neuropočítačů ASN P8b

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

Moderní multimediální elektronika (U3V)

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Základní principy přeměny analogového signálu na digitální

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

B2M31SYN SYNTÉZA AUDIO SIGNÁLŮ

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Číslicové zpracování signálů a Fourierova analýza.

Klasifikace Landau-Kleffnerova syndromu

Úvod do praxe stínového řečníka. Úvod

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

Zpracování obrazů. Honza Černocký, ÚPGM

ADA Semestrální práce. Harmonické modelování signálů

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx

Vlastnosti a modelování aditivního

Kompresní metody první generace

DSY-4. Analogové a číslicové modulace. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

ednáška a metody digitalizace telefonního signálu Ing. Bc. Ivan Pravda

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722

Biofyzikální ústav LF MU Brno. jarní semestr 2011

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST

Základní komunikační řetězec

Václav Syrový: Hudební akustika, Praha 2003, s. 7

Rozpoznávání hlasových vstupů

íta ové sít baseband narrowband broadband

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

SRE 03 - Skryté Markovovy modely HMM

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

Akustika. 3.1 Teorie - spektrum

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

jednotky + Projekty Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno

Snímání biologických signálů. A6M31LET Lékařská technika Zdeněk Horčík Katedra teorie obvodů

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

A7B31ZZS 10. PŘEDNÁŠKA Návrh filtrů 1. prosince 2014

Úvod do praxe stínového řečníka. Proces vytváření řeči

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

VY_32_INOVACE_E 15 03

OSNOVA. 1. Definice zvuku a popis jeho šíření. 2. Rozdělení zvukových záznamů (komprese) 3. Vlastnosti jednotlivých formátů

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

Signál v čase a jeho spektrum

ANALÝZA A KLASIFIKACE DAT

Specifikace požadavků pro školní část přijímací zkoušky (anglický jazyk) Šestiletý obor vzdělávání

Akustika pro posluchače HF JAMU

Úvod do medicínské informatiky pro Bc. studium. 6. přednáška

Klasifikace hudebních stylů

FONETIKA A FONOLOGIE I.

1. Přednáška: Obecné Inf. + Signály a jejich reprezentace

Analýza a zpracování signálů

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

Spektrální analýza a diskrétní Fourierova transformace. Honza Černocký, ÚPGM

PB169 Operační systémy a sítě

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

Hlasové vypínání elektrických přístrojů 1 ÚVOD. 11

Akustika pro posluchače HF JAMU

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

Zvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti

Transkript:

Zpracování řečových signálů program kursu, úvod 2017/18 Igor Szöke a Honza Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 1/27

Plán Who s who Program kursu Hodnocení Literatura a Web Vědy vztahující se ke zpracování řeči Informační obsah řeči. Aplikační okruhy. Dolování dat z řeči. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 2/27

Kdo Vás bude učit přednášky: Honza Černocký. jiné lidé (LVCSR, syntéza) když tomu někdo rozumí lépe snaha o externisty: Vladimír Malenovský, VoiceAge + doufejme další. poč. cvičení: 01 LICHY KAL. TYDEN UTERY 14:00-17:50 N205 Miro Skacel 02 SUDY KAL. TYDEN CTVRTEK 12:00-13:50 N205 Katka Zmolikova 02 SUDY KAL. TYDEN CTVRTEK 12:00-13:50 N205 Ladislav Mosner zapisování včera 20:00, snad jste happy... Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 3/27

Program kursu Přednášky Počítačové laboratoře Matlab, účast je kontrolována a hodnocena, Projekty 2, automaticky a ručně vyhodnocovány. Ne Matlab. numerické cvičení jedno ke konci semestru, příklady na LPC, DTW, HMM, příklady budou ale i součástí přednášek. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 4/27

Přednesy Organisace kursu, aplikace, vědy. Číslicové zpracování řečových signálů: záznam řečového signálu - vzorkování, kvantování. Získání spektra řeči - Fourierova transformace - spojitý čas, co se děje, když navzorkujeme. Diskrétní Fourierova transformace. Náhodné signály, spektrální hustota výkonu. Úprava řeči - filtrace. Frekvenční charakteristiky filtru. Předzpracování řeči: střední hodnota, preemfáze, rámce, základní parametry parametry, Spektrogram. Tvorba řeči: Řečové ústrojí a jeho signálový model - hlasivky a artikulační trakt vs. buzení a filtr. Základní charakteristiky v čase a ve spektru: vliv buzení a filtru. Formanty. Co je vidět na short-term a long-term spektrogramu. Jak od sebe oddělit buzení a filtr: cepstrum + MFCC. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno5/27

Lineárně-prediktivní model: Na co nám to vlastně je? Chceme pouze charakteristiky hlas. traktu, ne buzení aplikace v kódování a rozpoznávání. Předpověď následujícího vzorku z předcházejících - lineární predikce (LP). Chyba LP. Získání chyby LP jediným filtrem. Určení modelu artikulačního ústrojí pomocí pomocí LP analýzy. Spektrum pomocí lineární predikce. Parametry odvozené z LP - LAR a LSF, které se používají v kodérech. LPC-cepstrum. Určování základního tónu. Terminologie. Charakteristiky základního tónu mužů, žen a dětí. Využití v systémech zpracování řeči. Metody založené na autokorelační funkci. Normalizovaná cross-corelation function (NCCF). Dlouhodobý prediktor a cepstrální analýza pro určení základního tónu. Spolehlivost a problémy detektorů základního tónu. Kódování řeči I: Cíl kódování. Bitový tok, objektivní a subjektivní kvalita. Dělení kodérů podle bit. toku a kvality. Kódování signálu v časové oblasti. Vokodéry - LPC. Vektorové kvantování v kódování řeči. [Vláďa Malenovský] Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 6/27

Kódování II. - aplikace CELP, Kódování v GSM: GSM, GSM-EFR, GSM-HR, další. [Vláďa Malenovský] Úvod do rozpoznávání úkol, klasifikace: isolated/connected/lvcsr, speaker dep/indep. Rozpoznávání založené na vzdálenostech řečových rámců - různé definice vzdáleností. lineární úprava, dynamické programování (Dynamic Time Warping DTW). Statistické rozpoznávání: Jednoduché detekční úlohy úvod, GMM a jeho učení, vyhodnocení. Co chceme od parametrů. Skryté Markovovy modely (Hidden Markov models HMMs): proč to děláme a vztah s DTW, modelování, Gaussova rozložení, sekvence stavů. Pravděpodobnost promluvy podle sekvence stavů, Baum Welchova a Viterbiho pravděpodobnost. Trénování modelů: Baum Welch, rozpoznávání - Viterbi. Token passing. Spojená slova. HMM II. Plynulá řeč s velkým slovníkem: Rozpoznávání pomocí menších jednotek - fonémy, Finite state transducers, & comp. [Karel Beneš] Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 7/27

Rozpoznávání mluvčího a jazyka [Pája Matějka a Olda Plchot] Syntéza řeči: Struktura syntezátoru. Převod textu do mluvené podoby: text-to-speech. Text normalization. Prozodie (melodie, přízvuky, časování) v syntéze řeči. Jednotky pro syntézu - ruční a automatický výběr (corpus-based). Generování signálu v časové a frekvenční oblasti. [doufám, že Jindra Matoušek] N1 Numerika 2hodiny pro všechny: číslicový filtr, LPC - výpočet filtru, DTW, HMM. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 8/27

Labs L1 Zpracování řeči v Matlabu: čtení/zápis zvukových souborů, základní operace, ukládání, nahrávání. Spektrogram. Segmentace, základní parametry. L2 LPC a vektorová kvantizace, výpočet chyby. L3 Detekce základního tónu a jednoduchý kodér. L4 Gaussian Mixture model a jednoduchý klasifikátor něčeho. L5 DTW a HMM Matlab. L6 HMM - HTK - Číslovky. Old labs viz www... pár, které by Vás mohly zajímat (real-time zpracování zvuku, syntéza). Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 9/27

HODNOCENÍ co za kolik 2 projekty: po 15 a 14 bodů 29 půlsemestrálka 14 semestrálka 51 laboratoře 6 celkem 100 Obě zkoušky bez materiálů, ale s cheat-sheets bodování počítačových cvik ano. budou se hodnotit projekty. WIS: soubor s výsledky (automatické hodnocení) + zdrojové kódy a základní dokumentace (korelační analýza, aby to jeden nenapsal všem. Soutěž o flašku o nejlepší dekódovaný zvuk! možnost přijít s vlastním projektem, který bude nahrazovat jeden nebo oba standardní (dle složitosti). Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 10/27

LITERATURA Studijní opora na http://www.fit.vutbr.cz/study/courses/zre/public/ Psutka J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995 [knihovna] Psutka J., Muller, L: Mluvíme s počítačem česky, Academia, 2006. [knihovna] Gold B., Morgan. N.: Speech and audio signal processing, John Wiley & Sons, 2000 [knihovna] S. Young, J. Jansen, J. Odell, D. Ollason, P. Woodland: The HTK book, Entropics Cambridge Research Lab., 1996, Cambridge, UK. Výborný úvod do HMM, ke stažení na http://htk.eng.cam.ac.uk/ Superlectures http://www.superlectures.com/fit-zre/ Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 11/27

ZRE je pro Vás! Něco, co Vám v programu přednášek nebo labin chybí? Něco, co už není in a být by tam nemělo? Připomínky k hodnocení? Podělte se o ně s přednášejícím na kterékoliv přednášce nebo pošlete mail. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 12/27

ÚVOD DO AUTOMATICKÉHO ZPRACOVÁNÍ ŘEČI Definice Automatické zpracování řeči umožňuje hlasovou komunikaci mezi lidmi navzájem (kódování) nebo mezi člověkem a strojem. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 13/27

Vědy ve zpracování řeči Zpracování řeči je pluri-disciplinární obor, využívající poznatků věd přírodních, technických i humanitních. fysiologie: porozumění funkci hlasového a sluchového ústrojí, pomoc při tvorbě různých modelů. akustika: studuje fyzikální mechanismy tvorby a slyšení řeči. zpracování signálu: mnoho zúčastněných oblastí: modelování, parametrisace, identifikace, spektrální analýza, kódování, teorie informace, klasifikace vzorů, atd. humanitní vědy fonetika o tvoření a slyšení zvukové stránky řeči. fonologie o fonémech a jejich systému v daném jazyce. Foném je hláska, která je v jazyce významotvorná, její změna může tedy měnit význam slova. prosodie o zvukové stránce jazyka (melodie, trvání hlásek, přízvuk ve slovech a ve větách). Zpracování řečových signálů program kursu, úvod 14/27 Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno

lexikologie o slovní zásobě jazyka, jejím vývoji z vztazích mezi slovy (synonyma: 2 různá slova, stejný význam, antonyma: opačný význam, homonyma: stejné slovo, více významů). Napomáhá tvorbě slovníků a to i počítačových, důležité pro rozpoznávání řeči. gramatika (mluvnice) soubor pravidel o obměnách slov a o jejich spojování ve věty. Důležité pro syntézu. syntaxe část gramatiky zabývající se větou a souvětím. sémantika o významu jazykových jednotek. Vychází obvykle od slova, důležitá pro porozumění řeči. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 15/27

Různé úrovně zpracování řečového signálu příklad na větě Přišel jsem pozdě. 1. akustická - signál, spektrogram, parametry. 2. fonetická - p ř i š e l j s... 3. lexikální - sloveso: tvar přijít, sloveso: tvar být, příslovce. 4. syntaktická - (nevyjádřený podmět) přísudek příslovečné určení času. 5. sémantická - sdělení, že jsem přišel pozdě. 6. pragmatická - co jsem svým sdělením sledoval - omluva, prosté oznámení? Pragmatická úroveň musí vzít v úvahu význam slov vzhledem k záměru člověka. V aut. zpracování řeči je to zatím neřešená otázka. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 16/27

INFORMAČNÍ OBSAH ŘEČI snažíme se kvantifikovat informační rychlost (v bitech za sekundu, ve zkratce bit/s nebo bps), nutnou k popisu řeči v různých formách. Pro srovnání uvedeme formu fonetickou a akustickou s číslicovým vyjádřením signálu. Fonetická forma počet fonémů v češtině: 36. Pro vyčíslení množství informace budeme uvažovat zdroj generující na sobě navzájem nezávislé prvky x i z množiny X = {x 1,...,x S }, kde S je konečný počet prvků. Každý z prvků má určitou pravděpodobnost p(x i ) a prvky tvoří úplnou soustavu, takže: S p(x i ) = 1. (1) i=1 Informační obsah i-tého prvku je dán počtem bitů, které potřebujeme k jeho vyjádření: I(x i ) = log 2 p(x i ) [bit]. (2) Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 17/27

Entropie zdroje (střední hodnota informace) je pak dána: H(X) = S p(x i )log 2 p(x i ). (3) i=1 Pro české fonémy, předpokládáme-li zjednodušeně stejnou pravděpodobnost jejich výskytu, je tato entropie H(X)=5.2 bit. Vezmeme-li v úvahu jejich pravděpodobnost, je to H(X)=4.6 bit. Vezmeme-li navíc ještě v úvahu vzájemné závislosti mezi fonémy (bigramy: p(x j x i ), trigramy: p(x k x i x j ), atd.), dosahuje entropie hodnoty H(X)=3 3.5 bit. V běžném českém hovoru produkuje člověk cca 80 130 slov za minutu, tedy asi 10 fonémů za sekundu. Informační rychlost je tedy asi C phn = 30 40 bit/s. Psychoakustické testy ukázaly, že člověk je schopen zpracovat příchozí informace do rychlosti asi 50 bit/s. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 18/27

Akustická forma Je-li řeč representována číslicovým signálem, musí být splněn Nyquistův Shannonův Kotelnikovův teorém: F s > 2F m, (4) kde F s je vzorkovací kmitočet a F m je nejvyšší kmitočet obsažený ve spektru signálu. Každý vzorek je kvantován jednou m možných kvantovacích hladin, k jejich vyjádření potřebujeme N = log 2 m bitů. Odstup signálu od šumu v db je úměrný hodnotě 6N. Vyjádříme-li pomocí těchto veličin informační rychlost, dostaneme: C ak = I t = log 2m T s = NF s. (5) Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 19/27

Příklady: 1. Signál s Hi-Fi kvalitou, F s =44.1 khz, N=16 bit. Výsledná informační rychlost je C ak = 705 kbit/s. 2. Signál s telefonní kvalitou (pásmo omezeno od 300 do 3400 Hz): F s =8 khz, N=8 bit. Výsledná informační rychlost je C ak = 64 kbit/s. Ponaučení? Z příkladů je patrné, že akustická forma má oproti fonetické formě obrovskou redundanci (nadbytečnost). Mimo informace obsažené ve fonetické formě nese totiž informaci o osobnosti mluvčího, o barvě jeho hlasu, náladě, prostředí, atd. Mozek posluchače pak provádí dekódování a separaci různých typů informací Bohu žel, nevíme přesně jak. Přesto je vhodné využít alespoň základních informací o tvorbě řeči k omezení této informační rychlosti. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 20/27

APLIKAČNÍ OBLASTI ZPRACOVÁNÍ ŘEČI kódování: pro přenos a ukládání. Cíl: vyjádření řeči co nejmenším počtem bitů. Požadavky: náročnost, zpoždění, srozumitelnost, přirozenost, odolnost proti chybám v kanálu. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 21/27

...to, co máte v kapse Short term LPC analysis Reflection coefficients coded as Log. - Area Ratios (36 bits/20 ms) Input signal Preprocessing Short term analysis filter (1) (2) + (3) - RPE grid selection and coding RPE parameters (47 bits/5 ms) Long term analysis filter (4) (5) + RPE grid decoding and positioning LTP analysis LTP parameters (9 bits/5 ms) (1) Short term residual (2) Long term residual (40 samples) (3) Short term residual estimate (40 samples) (4) Reconstructed short term residual (40 samples) (5) Quantized long term residual (40 samples) To radio subsystem Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 22/27

Co to umí a kdy to bylo vyvinuté? Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 23/27

syntéza: počítač má za úkol říci text, který nikdy předtím neslyšel (tj. který nebyl předem namluven člověkem). Nejsložitější je syntéza z textu (TTS text-to-speech). demos: http://www.cs.indiana.edu/rhythmsp/asa/contents.html Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 24/27

Další aplikace... medicína: zkoumání anomálíı a chorob hlasového traktu. psychologie a kriminalistika: detektor lži, identifikace alkoholu v krvi, detekce stresu či únavy,... pomoc handicapovaným (učení hluchých dětí správné výslovnosti, atd.) Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 25/27

Dolování informací z řeči... viz samostatná barevná presentace, protože toto se u nás na 100% dělá. Zpracování řečových signálů program kursu, úvod Igor Szöke a Honza Černocký, ÚPGM FIT VUT Brno 26/27