7 Další. úlohy analýzy řeči i a metody

Podobné dokumenty
Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE


4 HMM a jejich trénov

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Co chcete udělat? Přepis nahrávek. Přepis URL. Korekce přepisů. Vyhodnocení přepisů. Ukládání přepisů. Přidávání slov do slovníku


Speciální struktury číslicových systémů ASN P12

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

NEWTON Technologies a.s. Jaroslava Schmidtová Project manager

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Technologie počítačového zpracování řeči

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

NEWTON Technologies a.s.

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

Jak zpřesnit HMM? Pomocí přesnější výstupní pravděpodobnostní funkce. Až dosud uvažováno klasické gaussovské rozložení

Efektivní práce s Excelem (středně pokročilí uživatelé)

Pavel Cenek, Aleš Horák

ŘEČOVÉ TECHNOLOGIE v PRAXI

6.1 I.stupeň. Vzdělávací oblast: Cizí jazyk Vyučovací předmět: ANGLICKÝ JAZYK. Charakteristika vyučovacího předmětu 1.

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

Úvodem... 4 Co je to vlastně formulář Co je to šablona dokumentu Jak se šablona uloží Jak souvisí formulář se šablonou...

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

NLP & strojové učení

Lombardův efekt v řečové databázi CLSD

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Klasifikace Landau-Kleffnerova syndromu

Úloha: Verifikace osoby pomocí dynamického podpisu

Úvod do zpracování signálů

Úvod do praxe stínového řečníka. Úvod

TESTOVÁNÍ UŽIVATELSKÉHO ROZHRANÍ

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Učící se klasifikátory obrazu v průmyslu

edu-learning Výukový program přímo v aplikacích Microsoft Offi ce Word, Excel a PowerPoint

Předmět: ANGLICKÝ JAZYK Ročník: 6.

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Charakteristika vyučovacího předmětu 1. stupeň

NEWTON Dictate Úvodní školení testovací skupiny. Oblastní inspektorát Brno 23. listopadu 2010

A2M31RAT- Řečové aplikace v telekomunikacích

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

Modul 2. Druhá sada úkolů:

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

ZAČÍNÁME 11 LEKCE 1 HRUBÝ STŘIH 19

Němčina druhý jazyk

Umělá inteligence pro zpracování obrazu a zvuku

ŠVP Gymnázium Ostrava-Zábřeh Španělský jazyk

Doporučení pro nahrání zvuku

Počítače a grafika. Ing. Radek Poliščuk, Ph.D. Přednáška č.7. z předmětu

Microsoft Office Word 2003

escribe: Online přepisovací centrum pro neslyšící

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Přednáška 13 Redukce dimenzionality

OBSAH ADOBE PREMIERE PRO OFICIÁLNÍ VÝUKOVÝ KURZ

ANGLICKÝ JAZYK - I. období (1. 2. ročník)

PhD. Milan Klement, Ph.D. Použití systému studijní agendy STAG

Příprava dat v softwaru Statistica

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Nabídky spolupráce pro průmysl

VÝPOČETNÍ TECHNIKA OBOR: EKONOMIKA A PODNIKÁNÍ ZAMĚŘENÍ: PODNIKÁNÍ FORMA: DENNÍ STUDIUM

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

Inspekce tvaru součásti

Přístupové body v systému DigiArchiv. Ing. Martin Hankovec, Státní oblastní archiv v Třeboni

Zpráva pro školu z evaluačního nástroje Strategie učení se cizímu jazyku

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

Hot Spot stupeň

Pokročilé funkce. Průvodce systémem Moodle ČZU. Pokročilé funkce. Středisko podpory elektronického vzdělávání

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Angličtina a němčina pod rozhraním Lingea EasyLex2 Ing. Miroslav HEROLD, CSc.

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

Testování operačního systému Windows Phone 8

Očekávané výstupy z RVP Učivo Přesahy a vazby. znaky (pasivně), základní výslovnostní návyky, vztah mezi zvukovou a grafickou podobou slov

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

Obrázek 1: Struktura programu z hlediska zapojení

THEOPHILOS. (návod k použití)

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

NAKI - ČRo archiv - Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání

Charakteristika předmětu Anglický jazyk

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Simultánní přepis mluvené češtiny pro osoby se sluchovým postižením

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

INFORMATIKA. Libovolná učebnice k MS OFFICE 200x (samostatné učebnice k textovému procesoru MS Word 200x, tabulkovému procesoru MS Excel 200x).

XERXES Portál informačních zdrojů. Ing. Lukáš Budínský PhDr. Ondřej Fabián

Vývoj sběru intenzit dopravy. Ing. Petr Neuwirth Centrum dopravního výzkumu, v. v. i.

LS 2013 Teorie skrytých Markovových modelů. Tino Haderlein, Elmar Nöth

Vzdělávací obor Německý jazyk

Transkript:

Pokročilé metody rozpoznávánířeči Přednáška 7 Další úlohy analýzy řeči i a metody jejich řešení

Výsledky rozpoznávání (slovník k 413k) frantisek_vlas 91.92( 90.18) [H= 796, D= 10, S= 60, I= 15, N=866, (OOV= 14)] jan_hybs 83.37( 81.51) [H= 807, D= 28, S=133, I= 18, N=968, (OOV= 10)] lukas_mateju 4.77( 4.34) [H= 33, D=455, S=204, I= 3, N=692, (OOV= 23)] martin_kaiser 85.30( 81.81) [H= 708, D= 14, S=108, I= 29, N=830, (OOV= 10)] Martin_Paroubek 87.16( 85.56) [H= 869, D= 21, S=107, I= 16, N=997, (OOV= 10)] pavel_rada 82.49( 80.71) [H= 603, D= 45, S= 83, I= 13, N=731, (OOV= 9)] radek_safarik 90.95( 88.89) [H= 663, D= 6, S= 60, I= 15, N=729, (OOV= 15)] zdenek_kybl 87.48( 85.97) [H= 636, D= 20, S= 71, I= 11, N=727, (OOV= 6)]

Časové zarovnání textového přepisu p (1) Úloha: K dispozici je nahrávka řeči a její přepis (automatický, ruční, stenozáznam, atd.) Jak k sobě přesně přiřadit audio a text? - dobrý den - vítám vás u večerních zpráv - Řešení: Nucené zarovnání (Forced Alignment) Idea: Donutit rozpoznávač, aby pracoval pouze se slovy obsaženými v textu a pouze v tomto pořadí.

Časové zarovnání textového přepisu p (2) Řešení v HTK (HTKbook str. 207) - Je potřeba slovník, soubor s přepisem ve formátu MLF, zparametrizovaný audiosoubor Úlohu vyřeší program HVite se switchem a Výsledkem jsou přesnéčasové značky u každého slova

Časové zarovnání textového přepisu p (3) Použití: 1. Tvorba prolinkovaných multimediálních databází 2. Full-text search v multimediálních databázích (hledá se v textu a z textu vedou časové značky do audio stopy) 3. Upřesňování výslovnosti v přepisech slovník obsahuje u každého slova více výslovností, rozpoznávač si v režimu nuceného rozpoznávání vybere tu nejsprávnější (použití při upřesňování trénovací databáze)

Fonémový rozpoznáva vač (1) Úloha: Zjistit nejpravděpodobnější sekvenci fonémů v nahrávce řeči Účel: - identifikovat/upřesnit fonémy v přepisu nahrávky - pokus o fonetický přepis promluvy v cizím jazyce - metoda (omezeně) použitelná pro vyhledávání klíčových slov Idea řešení: Slovník je tvořen všemi fonémy (+ticho a hluky), gramatika umožňuje libovolný přechod mezi nimi

Fonémový rozpoznáva vač (2) Problém: rozpoznávač mívá tendenci vkládat více hlásek, často opakovaně za sebou (místo a je to může rozpoznat aaa jee too, místo šumů v tichu některé hlásky, atd.) Řešení: V HVite specifikovat parametry -s (násobitel jazykového modelu) -p (penále za každé rozpoznané slovo) Přesnost fonémového rozpoznávače: - výrazně nižší než při rozpoznávánířeči (schází kontext) - cca 60 až 70 %

Detekce klíčových slov (1) Úloha: Nalézt (pokud možno rychle) pouze vybraná klíčová slova v záznamu řeči angl. zkratka KWS (Key-Word Spotting) Řešení: 1. Provést rozpoznávání (s dostatečně rozsáhlým slovníkem) a u každého slova určit časové značky. Pak provést full-search a najít časovou pozici hledaných slov. Nevýhody: pomalé, výpočetně náročné, hledaná slova nemusí být ve slovníku pro spontánnířeč nemusí platit použitý jazykový model ani standardní výslovnost 2. Provést rozpoznávání pouze s hledanými slovy a s fillery (výplňovými jednotkami)

Jednoduchý KWS s fillery Detekce klíčových slov (2) Slovník systému obsahuje hledaná slova (často raději s více výslovnostmi) a jako fillery slouží všechny fonémy (včetně ticha a hluků) Klíčová slova Fillery

Detekce klíčových slov (3) Problém: Jak docílit, že místo hledaných slov nebudou nalezeny příslušné sekvence fonémů? Řešení: nastavení parametrů s a p v programu Hvite Je potřeba je experimentálně vyladit tak, aby hledaná slova nebyla nahrazena sekvencemi fonémů (pomocí penále p) Příliš velké penále zase způsobí, že slova jsou nacházena i tam, kde řeč zní podobně Omezení: Metoda nebere v úvahu kontext. Např. slovo auto může být nalezeno i v ve větě jau to bolí.

Rozpoznávání mluvčího (1) Úloha: Rozpoznat identitu mluvící osoby Typy úloh: - identifikace mluvčího z uzavřené sady (1 z N osob) - identifikace mluvčího z otevřené sady (1 nebo žádná z N osob) - verifikace mluvčího (je hlas přisuzovaný osobě A opravdu od ní) Přístupy: - textově závislé rozpoznávání mluvčího (lze použít např. DTW) - textově nezávislé rozpoznávání mluvčího (používají se GMM)

Rozpoznávání mluvčího (2) Jednoduché rozpoznávání mluvčích v HTK Řešení: - natrénovat pro každou osobu její HMM (stačí 1 stav, naopak je třeba hodně mixtur) - jednotkami abecedy zde nebudou fonémy, ale symboly mluvčích - pro rozpoznávání se použije Hvite, slovníkem budou symboly mluvčích #!MLF!# train-jan-1.lab" jan. train-jan-2.lab" jan. train-petr-1.lab" petr. train-petr-2.lab" petr.

Do příšp íštího týdne Připravit si řešení úlohy rozpoznávání mluvčího - Vzájemně si nasdílejte data používaná pro trénování HMM - Malou část nahrávek (cca 10 od každého mluvčího) vyjměte z trénování a použijte jako testovací set - Natrénujte modely všech studentů - Proveďte rozpoznávací test mluvčích. - Určete skóre.