Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Podobné dokumenty
7 Další. úlohy analýzy řeči i a metody

4 HMM a jejich trénov

Speciální struktury číslicových systémů ASN P12

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE


Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Pavel Cenek, Aleš Horák

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Klasifikace Landau-Kleffnerova syndromu

Umělá inteligence a rozpoznávání

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

ŘEČOVÉ TECHNOLOGIE v PRAXI

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Markovovy modely v Bioinformatice

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Implementace rozpoznávače řeči na bázi TANDEM architektury

BAKALÁŘSKÁ PRÁCE EVALUACE TRÉNOVACÍCH DAT K TVORBĚ SPORTOVNÍCH AKUSTICKÝCH MODELŮ ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA APLIKOVANÝCH VĚD

MODERNÍ METODY MULTIMEDIÁLNÍHO VYUČOVÁNÍ

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

SRE 03 - Skryté Markovovy modely HMM

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Úvod do praxe stínového řečníka. Úvod

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

Úloha - rozpoznávání číslic

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

Co chcete udělat? Přepis nahrávek. Přepis URL. Korekce přepisů. Vyhodnocení přepisů. Ukládání přepisů. Přidávání slov do slovníku

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Fakulta aplikovaných věd

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Kybernetika a umělá inteligence, cvičení 10/11

Základy umělé inteligence

Lombardův efekt v řečové databázi CLSD

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu II

Asistivní technologie

NEWTON Dictate Úvodní školení testovací skupiny. Oblastní inspektorát Brno 23. listopadu 2010

EXPERIMENT S VYUŽITÍM GRAFICKÉHO ZOBRAZENÍ ŘEČI PŘI VÝUCE SPRÁVNÉ VÝSLOVNOSTI U SLUCHOVĚ POSTIŽENÝCH OSOB

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

jednotky + Projekty Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

A2M31RAT- Řečové aplikace v telekomunikacích

Úloha: Verifikace osoby pomocí dynamického podpisu

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jarmila Kuchařová Týdenní dotace hodin: 9 hodin Ročník: druhý

Simultánní přepis mluvené češtiny pro osoby se sluchovým postižením

UČENÍ BEZ UČITELE. Václav Hlaváč

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Využití metod strojového učení v bioinformatice David Hoksza

Procesy a vlákna (Processes and Threads)

LS 2013 Teorie skrytých Markovových modelů. Tino Haderlein, Elmar Nöth

Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

Implementace Bayesova kasifikátoru

Rozpoznávání řeči s malým slovníkem s nástroji KALDI

FONETIKA A FONOLOGIE II.

6.1 I.stupeň. Vzdělávací oblast: Cizí jazyk Vyučovací předmět: ANGLICKÝ JAZYK. Charakteristika vyučovacího předmětu 1.

ÚSTAV AUTOMATIZACE A MĚŘICÍ TECHNIKY Fakulta elektrotechniky a komunikačních technologií Vysoké učení technické v Brně OBSAH

PROGRAMY PRO DIKTOVÁNÍ DO POČÍTAČE A MOŽNOSTI JEJICH VYUŽITÍ OSOBAMI SE SPECIÁLNÍMI POTŘEBAMI'

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Teorie rozhodování (decision theory)

Creation of Lexicons and Language Models for Automatic Broadcast News Transcription

Algoritmy a algoritmizace

Klasifikace a rozpoznávání. Lineární klasifikátory

Programování II. Modularita 2017/18

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

METODICKÝ LIST K TECHNICKÉMU KROUŽKU:

Úvod do praxe stínového řečníka. Proces vytváření řeči

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Konvoluční model dynamických studií ledvin. seminář AS UTIA

Trénování sítě pomocí učení s učitelem

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Konference UČÍME PRE ŽIVOT Místo: Kysucké Nové Město Datum: Záštita konference: Dr. h. c. Prof. Ing. Ferdinand Devínsky, DrSc. pred

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

Zpracování digitalizovaného obrazu (ZDO) - Segmentace II

Ukázka charakteristiky předmětu Komunikační dovednosti (pro neslyšící) z pracovní verze ŠVP ZŠ pro sluchově postižené, Liberec.

INFORMATIKA MS WORD ODRÁŽKY A ČÍSLOVÁNÍ

Transkript:

Pokročil ilé metody rozpoznávánířeči Vyučující: Prof. Ing. Jan Nouza, CSc., ITE Cíl předmětu: Seznámit se s nejmodernějšími metodami rozpoznávánířeči s využitím modulové stavebnice HTK (Hidden Model Markov Toolkit) a prakticky si vyzkoušet celý návrh systému pro rozpoznávánířeči Forma výuky: Předchozí znalosti: a) Přednášky b) cvičení většinou domácí práce (jinak A8) c) malý závěrečný projekt Nutnost předchozího absolvování PZR Literatura: I. Nouza J. (editor): Počítačové zpracovánířeči. TUL Liberec 2009. II. Psutka J., Müller L., Matoušek J., Radová V.: Mluvíme s počítačem česky. Academia Praha, 2006 III. Huang X., Acero A., Hon H.-W.: Spoken Language Processing. A Guide to Theory, Algorithm and System Development. Prentice Hall. New Jersey 2001 IV. HTK book http://htk.eng.cam.ac.uk/ V. Přednášky na webu: http://itakura.ite.tul.cz/jan/pmr/

Obsah předmp edmětu 1. Problémy a výzvy moderního počítačového rozpoznávánířeči. 2. Fonémově orientované rozpoznávání. Nástroj G2P. 3. Principy a metody parametrizace řečového signálu, kepstrum a kepstrální příznaky 4. Skryté markovské modely (HMM), nástroj HTK, trénování a testování. 5. Trénování fonémových modelů, tvorba trénovací databáze. 6. Využití HMM pro rozpoznávání slov a sekvence slov. Viterbiho dekodér. 7. Gramatiky. Pravděpodobnostní jazykový model pro rozpoznávánířeči a jeho tvorba. 8. Metody dalšího zlepšování úspěšnosti systémů rozpoznávání řeči. 9. Neuronové sítě, nástroj Kaldi. 10. Základy rozpoznávání mluvčího 11.-14. Práce na samostatném projektu.

Předchozí znalosti IWR a metoda DTW Recognised word (or its index) Word Templates or Models Lexicon Classification x 1, x 2,.. x f... x F Feature vectors Parameterization Separated speech Endpoint detection Segmented signal Segmentation Microphone Sampled signal Acoustic signal A/D conversion

Metoda DTW pro a proti Výhody DTW: snadno pochopitelná metoda snadná příprava systému (stačí pouze nahrát referenci pro každé slovo) snadná implementace i na nevýkonném HW (např. embedded systems) Nevýhody: reference jsou závislé na mluvčím (SD) SI system vyžaduje reference od mnoha osob každé slovo ve slovníku musí být předem nahráno (nelze přidávat nová slova pouze tím, že bychom je napsali a vložili do seznamu) SI systém s velkým slovníkem by zákonitě byl příliš pomalý (smyčky pro každé slovo, pro každou jeho referenci, pro každý frame) Řešení: místo referencí - modely slov HMM

Od DTW k HMM Metoda HMM (Hidden Markov Model skryté Markovovy modely) reprezentuje slovo stavovým modelem s pravděpodobnostními parametry Typická struktura slovního HMM takzvaný levo-pravý model a 11 a 22 a S-1S-1 a SS Q 1 a 12.... Q 2 a 23 Q S-1 a S-1S Q S b 1 b 2 b S-1 b S Q s... stavy (šipky naznačují možné přechody mezi nimi) a ij... přechodová pravděpodobnost pravděpodobnost, že (v aktuálním framu) model přejde ze stavu i do stavu j b s (x)...výstupní pravděpodobnostní rozložení funkce určující pravděpodobnost, že příznakový vektor x patří ke stavu s

Jak rozpoznávat pomocí HMM? Základní princip: Všechna slova ve slovníku jsou reprezentována modely se stejnou strukturou (a stejným počtem stavů) ale různými parametry. Při rozpoznávání hledáme model s nejvyšší pravděpodobností. Lexicon Model of word 1 Index of most probable word Decision probability Model of word 2 Matching Model of word N Sequence of feature vectors

Hláskov skové HMM cesta k neomezenému mu slovníku Až dosud probírané metody vyžadovaly nahrání každého slova, které bylo ve slovníku a natrénování jeho modelu. Pro velké slovníky by toto nebylo možné. Většina současných systémů rozpoznávánířeči používá HMM, které ovšem modelují jednotky menší než slova. Jejich počet je omezený a malý. Nejvhodnějšími jednotkami jsou fonémy. V mluvenéřeči hrají podobnou roli jako písmena v psaném jazyce. (Na rozdíl od grafémů jsou však závislé na řečníkovi a na kontextu.) Fonémy jsou jazykově závislé. Ve většině evropských jazyků se jejich počet pohybuje v rozmezí 25 50.

Rozpoznávání s fonémovými HMM 1. Pro daný jazyk je třeba definovat fonémovou sadu. 2. Pro každé slovo ve slovníku musíme určit jeho fonetický přepis (sekvenci fonémů). 3. Je nutné nahrát velké množství záznamůřeči a pro každou nahrávku vytvořit její fonetickou transkripci. (Je třeba několik desítek hodin, stovky mluvčích). 4. Je třeba natrénovat HMM pro všechny fonémy. 5. Před rozpoznáváním se sestaví slovní HMM z hláskových modelů. 6. Pro vlastní rozpoznávání se použije standardní Viterbiho algoritmus.

Slovní modely z hláskových HMM Inventář fonémů a, á, b, X z, ž Akustické modely a á Slovník a až robot sud Zürich Výslovnost a aš robot sut cirix a a š

Od izolovaných slov ke spojitéřeči Přirozená plynulářeč je mnohem složitější pro rozpoznávání 1) V běžnéřeči neexistují oddělovače (pauzy) mezi slovy. Jedno slovo navazuje na druhé. Pauzy vznikají většinou jen při nádechu. 2) V plynuléřeči je výslovnost slov významně ovlivňována kontextem. Př. zavolejnačíslopječesedum 3) Záznam běžnéřeči obsahuje i neřečové zvuky, např. ticho, nádech a výdech, zvuky rtů, kašel, smích, ehm 4) V mnoha situacích mářeč nespisovný a spontánní charakter, např. Ano, ano máte pravdu, ale, ale, když vo tom tak pře přemejšlím 5) Rychlost řeči může být velmi různá, závisí na mluvčím, situaci, atd. 6) Pokud nahrávka řeči nevzniká ve studiu, kvalita a srozumitelnost řeči může být dále výrazně ovlivněna hlukem prostředí.

Základní problémy spojitéřeči Ukázka záznamu řeči: Co bylo řečeno a v jakých časových okamžicích? - zavolá - premiéra předseda - - za vola premiéra předsedá - - zvolá prima éra před sebou - - zavolej premiéra předsedo - - z vola prima tévé přesedá - - zavolá - premiér a předseda - Při rozpoznávání spojitéřeči není apriori známo: - Kolik slov bylo řečeno? - Jaká sekvence slov byla řečena? - Byla všechna vyřčená slova ze slovníku? - Byla to skutečně jenom řeč nebo i další zvuky a hluky? - V jakých časových okamžicích začínala jednotlivá slova?

Řešení úlohy spojitéřeči Principy 1) Sestavit co nejreprezentativnější slovník pro danou aplikační oblast 2) Pro každé slovo mít co nejreprezentativnější akustický model (HMM) 3) Vytvořit také modely neřečových zvuků 4) Vzít v úvahu statistiky výskytu slov (a jejich kombinací) v dané aplikační oblasti a vytvořit vhodný tzv. jazykový model. 5) Navrhnout strategii, která pro daný signál najde nejpravděpodobnější sekvenci slov s využitím kombinace akustického i jazykového modelu. Řešíme úlohu nalézt sekvenci slov w 1, w 2,. w N takovou, že je ze všech možných kombinací slov (a neřečových zvuků) nejpravděpodobnější z hlediska akustického i jazykového. Neznámé je:číslo N, sekvence slov a zvuků, a časy jejich začátků.

Základní koncepce rozpoznávání spoj. řeči s využit itím m akustického, lexikáln lního a jazykového modelu Fonetický inventář a, á, b, c, č, X, z, ž, Akustické modely Inventář hluků ticho, nádech, klik, a á Lexikon ticho ať robot už Zürich Výslovnost - ať robot uš cirix Jazykový model Pozn.: Síť všech modelů slov je nyní zacyklena, tj. z posledního stavu každého slova vede cesta na počáteční stavy všech slov.