A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

Podobné dokumenty
7 Další. úlohy analýzy řeči i a metody

A2M31RAT- Řečové aplikace v telekomunikacích

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu II

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

SRE 03 - Statistické rozpoznávání

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

Speciální struktury číslicových systémů ASN P12

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu II

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Kybernetika a umělá inteligence, cvičení 10/11


Učící se klasifikátory obrazu v průmyslu

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Úloha: Verifikace osoby pomocí dynamického podpisu

Klasifikace a rozpoznávání. Lineární klasifikátory

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Pavel Cenek, Aleš Horák

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Algoritmy a struktury neuropočítačů ASN - P11

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Úloha - rozpoznávání číslic

Klasifikace a rozpoznávání. Extrakce příznaků

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY

Aplikace obrazové fúze pro hledání vad

Přednáška 13 Redukce dimenzionality

UČENÍ BEZ UČITELE. Václav Hlaváč

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Jasové transformace. Karel Horák. Rozvrh přednášky:

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Efektivní komunikace díky inovativním hlasovým technologiím. Praha, Call centrum ve finančních službách


Dynamický podpis. vycházející z přednášek Dr. Andrzej Drygajlo,

ANALÝZA A KLASIFIKACE DAT

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Rosenblattův perceptron

Klasifikace Landau-Kleffnerova syndromu

Lombardův efekt v řečové databázi CLSD

Úvod do optimalizace, metody hladké optimalizace

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Pravděpodobnost, náhoda, kostky

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Moderní systémy pro získávání znalostí z informací a dat

Technická univerzita v Liberci

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Analytické metody v motorsportu

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

Zpracování digitalizovaného obrazu (ZDO) - Segmentace II

Pravděpodobnost, náhoda, kostky

Analytické metody v motorsportu

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Umělé neuronové sítě

Analýza dat v GIS. Dotazy na databáze. Překrytí Overlay Mapová algebra Vzdálenostní funkce. Funkce souvislosti Interpolační funkce Topografické funkce

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Umělá inteligence pro zpracování obrazu a zvuku

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

MODELOVÁNÍ DYNAMIKY PROSODIE

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Algoritmy a struktury neuropočítačů ASN P3

Strojové učení se zaměřením na vliv vstupních dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ROZ1 CVIČENÍ VI. Geometrická registrace (matching) obrazů

Úvodem Dříve les než stromy 3 Operace s maticemi

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Rozpoznávání v obraze

Pokročilé operace s obrazem

Analýza obrazu II. Jan Macháček Ústav skla a keramiky VŠCHT Praha

Měření dat Filtrace dat, Kalmanův filtr

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Apriorní rozdělení. Jan Kracík.

oddělení Inteligentní Datové Analýzy (IDA)

Dynamický podpis. vycházející z přednášek Dr. Andrzej Drygajlo,

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Fakulta aplikovaných věd

Úvod do zpracování signálů

Zvýrazňování řeči pomocí vícekanálového zpracování

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Automatická adaptace akustického modelu

DISERTAČNÍ PRÁCE OPRAVENÁ VERZE

Statistická teorie učení

Strojové učení a dolování dat. Vybrané partie dolování dat 2016/17 Jan Šimbera

Využití metod strojového učení v bioinformatice David Hoksza

Měření dat Filtrace dat, Kalmanův filtr

NEURONOVÉ SÍTĚ PŘI KLASIFIKACI MLUVČÍCH NEURAL NETWORKS IN SPEAKER CLASSIFICATION

Transkript:

A2M31RAT- Řečové aplikace v telekomunikacích Aplikační úlohy rozpoznávání řeči a speciální techniky. Doc. Ing. Petr Pollák, CSc. 12.května2011-16:7

Obsah přednášky Adaptační techniky Teoretický základ Adaptace na mluvčího Adapatace na prostředí Příklady systémů Rozpoznávání řečníka Typy úloh rozpoznávání řečníka Základní charakteristiky používané při rozpoznávání řečníka Základní přístupy Rozpoznávání jazyka Princip a základní použití Fonotaktický přístup Fonetická segmentace Základní aplikace Popis segmentace na bázi HMM Význam volby jednotlivých parametrů rozpoznávače

I. část Adaptační techniky v systémech rozpoznávání řeči

Motivace a specifikace problému Adaptace = postupná(mírná) úprava natrénovaných modelů možno adaptovat jen vybrané parametry akustických modelů Použití adaptačních technik Přizpůsobení rozpoznávače nezávislého na mluvčím jednomu uživateli Selektivní výběr akustických modelů při přepisu zpravodajství, apod. Adaptace na podmínky prostředí

Typy adaptačních technik pro adaptace akustických modelů Podle znalosti obsahu(přepisu) adaptační promluvy Řízená adaptace- je k disposici fonetický přepis promluvy Neřízená adaptace- fonetický přepis promluvy musí být rozpoznán Podle obsahu promluvy Adaptace závislá na textu- vždy stejná promluva Adaptace nezávislá na textu Podle způsobu použití adaptačních dat Inkrementální(postupná) adaptace Bloková(dávková) adaptace Podle typu adaptovaných parametrů Adaptace akustického modelu Transformace vektoru příznaků

MAP- Maximum Aposteriori Probability metoda maximální aposteriorní pravděpodobnosti známé rozložení apriorních pravděpodobností parametrů (z natrénovaných dat, tj. starý model) nejčastěji se adaptují jenom střední hodnoty, tj. např. µ new im = τ imµ old im + T t=1 ζ t(i,m)x(t) τ im + T t=1 ζ t(i,m) - τ im -adaptačníváha - adaptace i-tého stavu m-tého akustického modelu -adaptačnídatax,tj.x(1)...x(t) - T t=1 ζ t(i,m)jeokupačnívěrohodnosti-téhostavum-tého modeluvčaset teoreticky nejlépe konverguje pro velké množství dat(+) adaptují se pouze modely elementů, které se vyskytly v adaptační množině(-)

MLLR- Maximum Likelihood Linear Regression maximálně věrohodná lineární regrese technika založená na lineární transformaci parametrů µ new im =Aµ old im +b adaptuje se transformační vztah třeba pro daný parametr výpočet transformační matice na bázi EM (Expectation-Maximization) algoritmu, odhad parametrů statistického modelu pro nepozorované realizace(jako trénování HMM) je možná bloková adaptace, použitelné i pro data, která nebyla v trénovací množině použití regresních tříd(automatické či expertní klastrování)

Techniky adaptace na známého a neznámého mluvčího Adaptace na známého mluvčího obvykle řízená adaptace přečtení jasně definovaného textu přizpůsobení(diktovacího) systému jednomu stálému uživateli Adaptace na neznámého mluvčího identifikace mluvčího a selektivní výběr modelu kombinace modelů v obecných transkripčních systémech

Výběr adaptačních dat Při on-line aplikaci na neznámého mluvčího či prostředí není speciální výběr používají se aktuálně zpracovávaná data Při aplikaci na známého mluvčího- selektivní výběr dat (přizpůsobení vlastního diktovacího či ovládacího systému) pokrytí nejčastěji se vyskytujícíh se slov co nejlepší zastoupení fonémů zastoupení důležitých řídících resp. klíčových slov zastoupení obtížně rozpoznatelných slov vybraná slova musí být jednoduše vyslovitelná VHODNÝ ROZSAH ADAPTAČNÍCH DAT

Vliv adaptace na mluvčího v LVCSR Srovnání úspěšnosti technik MAP a MLLR pro různé délky adaptačních dat Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.

Ilustrativní vliv adaptace a předzpracování na WER v systému LVCSR Experiment 100 adaptačních a 100 testovacích vět (náhodný výběr, fonetické vyvážení) Close-talk mikrofon- kvalitní signál SIsystém-18,9% SI systém, zvýrazňování řeči- 18,5% SDsystém,adaptacenamluvčího-9,7% SDsystém,adaptace+zvýraňování-9,5% Far-talk mikrofon(cca 1m), realtivně běžné prostředí kanceláře SIsystém-61,3% SI systém, zvýrazňování řeči- 36,1% SDsystém,adaptacenamluvčího-22,8% SDsystém,adaptace+zvýraňování-18,7%

Dvoufázová adaptace na neznámého mluvčího Dvoufázová adaptace na mluvčího a komplexní systém automatického přepisu televizního zpravodajství Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.

Ilustrativní výsledky adaptace na neznámého mluvčího Automatická transkripce televizních či rozhlasových zpráv(wer) Rozhlasové zprávy SIsystém-19,45% SDsystém-15,03% Televizní zpravodajství SIsystém-22,96% SDsystém-19,04% Vliv rozsahu slovníku v 1. fázi rozpoznávání WER po 1. fázi rozpoznávání(pro adaptaci) -300tis.slov-23,34%,200tis.slov-27,28% -100tis.slov-29,01%,50tis.slov-32,84% -10tis.slov-55,26% WER po 2. fázi rozpoznávání(finální skóre) -300tis.slov-18,73%,200tis.slov-18,76% -100tis.slov-19,00%,50tis.slov-19,08% -10tis.slov-19,03%

MLLR adaptace na prostředí MLLR adaptace na prostředí(a mluvčího) pro rozpoznávání v jedoucím automobilu Převzato z: Josef Rajnoha, Petr Pollák: ASR Systems in Noisy Environment: Analysis and Solutions for Increasing Noise Robustness. Radioenginnering, Vol. 20, No. 1, April 2011.

II. část Rozpoznávání řečníka

Aplikační oblasti úlohy rozpoznávání mluvčího ověření totožnosti mluvčího z hlediska bezpečnosti identifikace pro přístup k zabezpečeným systémům (bankovní účty, vstupy do chráněných objektů) kriminalistická praxe (dosud subjektivní fonetická analýza) identifikace mluvčího s největší podobností hlasu rozpoznávače řeči závislé na mluvčím - modely závislé na pohlaví mluvčího - skupinové modely (transkripční systémy pro přepis rozhlasových/tv zpravodajství)

Blokové schéma a základní úlohy rozpoznávání mluvčího filtrace digitalizace výpočet příznaků Podle typu rozhodování- 2 základní úlohy 1 Verifikace mluvčího porovnání rozhodnutí modely mluvčích ověření předpokládané totožnosti mluvčího VÝSLEDEK = přijetí/ odmítnutí 2 Identifikace mluvčího rozpoznání neznámého mluvčího největší podobnost hlasu VÝSLEDEK = ID mluvčího/ skupiny

Používané příznaky pro rozpoznávání mluvčího Obecné požadavky pro příznaky resp. systémy identifikace Vysoká variabilita pro různé mluvčí Nízká variabilita pro jednoho mluvčího odolnost vůči šumu a zkreslení odolnost proti hlasovým imitátorům Používané příznaky LPC kepstrální příznaky (variabilita mezi mluvčími, malá robustnost vůči šumu) PLP, MFCC- obecně používané Speciální příznaky pro komplexnější rozhodování

Speciální příznaky pro rozpoznávání mluvčího F2v n F3v u F2v i délka trvání k...obecnějšíformulace... hodnota formantu ve vybrané hlásce šířka pásma vybraného formantu ve vybrané hlásce směrnice poklesu formantu ve vybrané hlásce Průběh F0 ve vybrané větě(slově) průměrná hodnota F0 ve větě(slově)...apod...

Používané klasifikační metody při rozpoznávání řečníka statistické modelování na bázi GMM- Gaussian Mixture Models (směsi Gaussovských funkcí modelujících typickou reprezentaci příznaků pro daného řečníka) klasifikace na bázi VQ (měření kumulované vzdálenosti aktuálních příznakových vektorů od uložených typických reprezentantů) Rozpoznávání na základě časových funkcí příznakových vektorů (v principu se počítá vzdálenost mezi vzorovým průběhem a verifikovanou promluvou- princip DTW)

Rozhodování při verifikaci mezi dvěma mluvčími na bázi GMM p(d h i ) p(d h 1 ) TA TR p(d h 2 ) FA d T FR Rozhodnutí pro mluvčího 1: pdh1 > pdh2 (mluvčí s nejvyšší emitovanou pravděpodobností) Vyhodnocování klasifikace: TA- True acceptance FA- False acceptance TR- True rejection FR- False rejection EER-EqualErrorRate FR=FA d

Obecné závěry použitelnosti systémů rozpoznávání mluvčího řečník se nesmí pokoušet měnit hlas podmínky nahrávání jsou známé nebo je lze ovlivnit obdobná data jsou k disposici pro trénování(či pro referenční promluvy) verifikační práh je experimentálně stanoven pro každou konkrétní aplikaci řečník musí se systémem spolupracovat je nutné minimalizovat možnost podvodného ovlivnění nesmí být možné použít syntezátory identifikační promluva obsahuje pouze známá slova dosahovaná chybovost 0.5% pro textově závislou verifikaci (2%potelefonu) dosahovaná chybovost 2% pro textově nezávislou verifikaci (10%potelefonu) dosahovaná chybovost 60-99% pro rozpoznávání mluvčího

III. část Rozpoznávání jazyka

Motivace a specifikace problému rozpoznávání jazyka Aplikační oblast LRE(Language Recognition) Multilingvální jazykové informační systémy Charakter jazyka určují následující rysy fonetický obsah sled fonémů(fonotaktické charaktersitiky) prosodie(f o ) slovní zásoba, morfologie slovní jazykový model

Základní principiální struktura LRE systému Extrakce příznaků MFCC resp. možné modifikace speciálnípříznakyjakoenergie,f o,rytmickécharakteristiky Klasifikace v několika stupních základem často fonémový rozpoznávač klasifikátory: GMM, ANN, SVM, RBF apod. prahování v různých stupních rozhodování Statistické modely v subsystémech akustické modely jazykové modely(na úrovni fonémů či slov) Fůze dílčích rozhodnutí(modely více jazyků) (ANN, GMM, apod.)

Rozpoznávání jazyka Základní principiální model systému rozpoznávání jazyka Fonotaktický systém rozpoznávání jazyka z FIT VUT Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.

Rozpoznávání jazyka Základní principiální model systému rozpoznávání jazyka Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.

Dosahované výsledky LRE velmi závislé na konfiguraci- mnoho různých přístupů závislé na množství testovacích dat testovacídata30s EERcca5% testovacídata10s EERcca10% testovacídata3s EER20-30%

IV. část Fonetická segmentace na bázi HMM

Motivace použití fonetické segmentace Nejvýznamnější aplikace fonetické segmentace - pre-segmentace před následným manuálním labelováním - trénování rozpoznávačů řeči, -definicetřídproalgoritmynabázilda, - trénování neuronových sítí - semi-automatická VAD reference, Nejčastěji používané techniky: - na bázi korelace sousedních segmentů - Bayessovská detekce změn - zarovnání natrénovaných HMM modelů

Princip segmentačního algoritmu na bázi HMM Vstup algoritmu- signál& ortografická transkripce & natrénovaný akustický model Vlastní segmentace- zarovnání natrénovaných modelů tj. rozpoznávání fonémů(monofónů, trifónů) na bázi HMM Varianty: zarovnání u známé resp.. neznámé promluvy Základní přístup labelování známé promluvy je založen na použití generované kanonické(pravidelné) fonetické transcripce. 1 podle výslovnostních pravidel nástroj transc 2 použití speciální syntaxe pro vstup skutečné výslovnosti (Shakespeare/šejkspír) (včera/čera)(jsem/s@m) dal tři góly 3 výslovnostní lexikon může obsahovat více výslovnostních variant

Dosažitelná přesnost základní segmentace na bázi HMM SPB- angl. Shift of Phone Beginning, SPE-angl.ShiftofPhoneEnd CPL-angl.ChangeofPhoneLength Typicky dosahované výsledky: -průměrnéhodnoty:spb 8.5,SPE 16.5,CPL 7[ms] -standardníodchylky:spb 25,SPE 20,CPL 30[ms] silná závislost na použité segmentaci krátkodobé Fourierovy analýzy: - optimální volba 25/10 ms -16/8lepšíproCPL, -32/16lepšíproSPBaSPE

Příklad realizované fonetické segmentace v prostředí Praat

Závěry a diskuse k fonetické segmentaci na bázi HMM nejčastější zdroje chyb: - jako u rozpoznávání(nepřizpůsobení dat, nedostatečné natrénování) - specifické chyby v úloze segmentace: krátkéhláskyvs.3stavyhmm modelování speciálních hlásek gst práce s ortoepickou(kanonickou) fonetickou transkripcí speciální modelování- přeskoky, kratší či delší modely, apod. problémy s trénováním výslovnostní varianty pro zachycení variant výslovnosti - akceptovatelné pro neformální styl promluvy - výslovnostní varianty generovat výčtem v lexikonu - obecnější definice možných záměn výslovnosti (otázka přesnosti následného modelování- obtížné hodnocení)

Děkuji vám za pozornost!