VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
|
|
- Radka Vávrová
- před 6 lety
- Počet zobrazení:
Transkript
1 VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF RADIO ELECTRONICS Jednoduchý textově nezávislý hlasový zámek - Softwarový systém pro verifikaci mluvčích Simple text independent voice lock - speaker verification software system DIPLOMOVÁ PRÁCE MASTER S THESIS AUTOR PRÁCE AUTHOR VEDOUCÍ PRÁCE SUPERVISOR Bc. Milan Kotulek Ing. Miroslav Staněk BRNO, 2015
2
3 ABSTRAKT V této diplomové práci jsou představeny různé formy biometriky a následně řešena problematika verifikace osob prostřednictvím hlasu. Nejprve je provedena analýza nahrávek řeči, vyhledání samohláskových úseků, ze kterých jsou následně získány spektrální charakteristiky pro jednotlivé samohlásky a mluvčí. Výsledkem této práce je vytvořená aplikace, disponující grafickým uživatelským prostředím, pro rozpoznání konkrétních mluvčí rozhodující se na základě získaných charakteristik z vytvořené databáze mluvčích. Vytvořená aplikace byla otestována, a dosažená úspěšnost korektního rozpoznání nabývá hodnoty přibližně 54 % pro krátké testovací nahrávky, a cca 88 % pro dlouhé záznamy řeči. KLÍČOVÁ SLOVA zpracování signálu, řečový signál, biometrika, verifikace, MFCC, LPC, formanty ABSTRACT A brief introduction into biometrics is described in this thesis leading to description and to design a solution of verification system using speech analysis. The designed system provides firstly basic signal processing, then vowel recognition in fluent Czech speech. For each found vowel, observed speech features are calculated. The created GUI application was tested on created speaker database and its efficiency is approximately 54 % for short testing utterances, and approx. 88 % for long testing utterances respectively. KEYWORDS signal processing, speech signal, biometrics, verification, MFCC, LPC, formants
4 Kotulek, M. Jednoduchý textově nezávislý hlasový zámek - Softwarový systém pro verifikaci mluvčích. Brno: Vysoké učení technické v Brně, Fakulta elektrotechniky a komunikačních technologií, Ústav radioelektroniky, s. Diplomová práce. Vedoucí práce: Ing. Miroslav Staněk.
5 PROHLÁŠENÍ Prohlašuji, že svou diplomovou práci na téma Jednoduchý textově nezávislý hlasový zámek - Softwarový systém pro verifikaci mluvčích jsem vypracoval samostatně pod vedením vedoucího diplomové práce a s použitím odborné literatury a dalších informačních zdrojů, které jsou všechny citovány v práci a uvedeny v seznamu literatury na konci práce. Jako autor uvedené diplomové práce dále prohlašuji, že v souvislosti s vytvořením této diplomové práce jsem neporušil autorská práva třetích osob, zejména jsem nezasáhl nedovoleným způsobem do cizích autorských práv osobnostních a/nebo majetkových a jsem si plně vědom následků porušení ustanovení 11 a následujících zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon), ve znění pozdějších předpisů, včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavy VI. díl 4 Trestního zákoníku č. 40/2009 Sb. V Brně dne (podpis autora) PODĚKOVÁNÍ Děkuji vedoucímu mé diplomové práce Ing. Miroslavu Staňkovi za přínosné a cenné rady při zpracování diplomové práce.
6 OBSAH Seznam obrázků Seznam tabulek viii ix Úvod 1 1 Rozpoznání osob 2 2 Biometrické identifikátory Duhovka Otisk prstu Hlas ŘEČ - teoretické podklady Charakteristika řeči Lineární predikce Formanty MFCC Klasifikátory Rozhodovací úroveň (treshold) Vzdálenost (Euklidova a Mahalanobisova vzdálenost) Rozhodovací stromy Maticové klasifikátory (k-soused) Smíšené modely (Gaussovské atd.) Skryté Markovovy modely/řetězce Neuronové sítě (probalistic, deep, feed-forward...) detekce samohlásek z řeči Těžba spektrálních parametrů Databáze mluvčích Neuronová síť Rozpoznání mluvčích Neuronová síť vi
7 7 Výsledek 25 8 Interface 27 9 Diskuse Závěr 30 Literatura 31 vii
8 SEZNAM OBRÁZKŮ Obrázek 3.1 Formanty vyznačené kroužkem a LPC spektrum samohlásky /u/ Obrázek 3.2 Tvary váhovacích oken Obrázek 3.3 Princip výpočtu LPC [8] Obrázek 4.1 Ilustrace rozhodovací úrovně Obrázek 4.2 Příklad rozhodovacího stromu pro fiktivní formant Obrázek 4.3 Třídění dat do klastrů s Gaussovskou pravděpodobností [13] Obrázek 4.4 Jednoduchý diskrétní Markovův řetězec se dvěma stavy [15] Obrázek 5.1 Vlevo vypočtené formanty pro /a/, vpravo následně upravené podle rozhodovacích úrovní Obrázek 5.2 Formanty před (nahoře) a po (dole) přeskládání Obrázek 5.3 Příklad reálně vytěžených formantů Obrázek 5.4 Výsledky analýzy slova /padesátikoruna/ Obrázek 5.5 Ukázka trénovacích dat Obrázek 5.6 Matice confusion pro 6 vstupů /á/, /é/, /í/, /ó/, /ú/, / / Obrázek 5.7 Matice confusion pro 5 vstupů /á/, /é/, /í/, /óú/, / / Obrázek 6.1 Ukázka výstupu funkce pro trénování neuronových sítí Obrázek 7.1 Ukázka výstupu programu pro prvního mluvčího (Ja) Obrázek 7.2 Ukázka výstupu programu pro druhého mluvčího (Babi) Obrázek 7.3 Ukázka neúspěšné identifikace třetího mluvčího (Deda) Obrázek 8.1 Ukázka uživatelského rozhraní a výběru záznamů z databáze Obrázek 8.2 Výsledek rozpoznání mluvčího prezentovaný uživatelským rozhraním. 27 viii
9 SEZNAM TABULEK Tabulka 3.1 Přehled obvyklého frekvenčního rozmístění formantů jednotlivých samohlásek [21] Tabulka 5.1 Formanty samohlásek ve slově /padesátikoruna/ Tabulka 5.2 Formanty pro separátně vyslovené samohlásky Tabulka 5.3 Ukázka rozpoznání samohlásek- přepis reálných výsledků Tabulka 6.1 Korelační matice pro samohlásku /á/, resp. druhý LPC koeficient Tabulka 6.2 Korelační matice pro samohlásku /á/, resp. třetí LPC koeficient Tabulka 6.3 Maximální hodnoty korelace mezi mluvčími pro jednotlivé samohlásky Tabulka 6.4 Výsledné pravděpodobnosti správného rozpoznání jednotlivých mluvčích pro tři neuronové sítě na základě vstupních dat Tabulka 7.1 Výsledky rozpoznání mluvčích ix
10 ÚVOD V současné době se stále větší počet firem snaží implementovat v nějaké podobě hlasové ovládání svých zařízení. Každý, kdo dnes vlastní chytrý mobilní telefon, si sám může vyzkoušet, jak takový systém funguje. Systémy rozpoznání mluvčího jsou taktéž jednou z částí Biometrie. Metody, jež se snaží na základě jedinečných fyziologických vlastností každého z nás o identifikaci. Stejně jako otisk prstu je jedinečným podpisem, je i záznam hlasu stejně jedinečný a lze ho tak využít i v bezpečnostní praxi. Jak napovídá název tématu této práce, jejím cílem je rozpoznání mluvčího na základě řečového záznamu. Výsledný program tedy bude sloužit jako hlasový zámek, který umožní na základě identifikace mluvčího zpřístupnění dalších vhodně zvolených aplikací. Je však nezbytné přihlédnout ke skutečnosti, že cílem této práce není vytvoření robustního programu schopného vypořádat se s ruchy prostředí či snad odolat snaze o jeho obejití, ale o jednoduchý program, který bude identifikovat osoby na základě vytvořené databáze o malém počtu mluvčích za využití běžně dostupných prostředků. Všechny vzorové nahrávky budou pořízeny běžným mikrofonem, který se nevyznačuje nijak kvalitními vlastnostmi, a následně budou zpracovány v programovacím prostředí MATLAB, ve kterém bude vytvořena i finální aplikace. 1
11 1 ROZPOZNÁNÍ OSOB V dnešní době se člověk stále častěji může setkat s požadavkem na ověření jeho identity. Při tomto ověřování je vždy srovnáván nějaký parametr s údaji uloženými v databázi systému. Podstatné je, zda je tento parametr fyziologický, nebo jde pouze o kontrolu některého z průkazů totožnosti. Často se lze setkat s přístupovými systémy do zaměstnání, kde se používají čipové karty. Mobilní telefony chtějí po svých majitelích PIN kódy, k ovému účtu si každý musí pamatovat heslo atd. V dnešní době spousta lidí využívá internetové bankovnictví. To taktéž využívá ověření, zda k účtu přistupuje oprávněná osoba (přes bankou zaslanou SMS na telefon majitele účtu), což je příklad nefyziologické formy ověření totožnosti [1]. Rozpoznávání osob lze dělit do dvou základních kategorií: Identifikace je proces, při kterém má systém za úkol rozpoznat fyzickou identitu neboli totožnost uživatele. Získané vzorky se porovnávají se vzorky z databáze [1]. Verifikace je proces porovnávání. Uživatel systému prokazuje svou elektronickou identitu pomocí hesla či identifikační karty [1]. 2
12 2 BIOMETRICKÉ IDENTIFIKÁTORY Jde o techniky identifikace lidí na základě jejich osobních charakteristik. Navzájem se odlišují různou mírou spolehlivosti, ceny a v neposlední řadě i společenské přijatelnosti. Hledáme charakteristiky, které jsou dostatečně variabilní pro jednotlivé jedince a zároveň jsou stálé při jejich opakování. Kvalitu biometrických identifikátorů lze charakterizovat na základě četnosti nesprávných odmítnutí autorizovaného jedince [2]. 2.1 Duhovka Duhovka je barevnou částí oka s otvorem ve svém středu zornicí, která se využívá pro regulaci světla vstupujícího do oka a dopadajícího na sítnici. Barvu duhovky určuje míra barevného pigmentu melaninu. Je tvořena kolagenovými vlákny, ve kterých lze detekovat určité obrazce. Ty se po dobu života nemění a zachovávají podobnost i po mechanickém poškození rohovky (vrstvy kryjící oko). Duhovky jsou jedinečné i pro jednovaječná dvojčata a dokonce každý z nás má levou a pravou duhovku různou. Ve vlastním obrazu duhovky lze rozeznat až 260 příznaků, jedná se tak o vhodnou metodu. Další výhodou je snadná kontrola, zda není snímaná duhovka umělou, díky její reakci na osvětlení, při kterém se duhovka chová jako clona a mění velikost zornice ve svém středu. Jasnou nevýhodou dnešních systémů snímání duhovky je nutnost zastavit se a podívat do snímače. Přičemž musí být oko nanejvýš do půl metru od kamery, aby byla schopna sejmout dostatečně kvalitní obraz duhovky [3]. 2.2 Otisk prstu Každý člověk má na povrchu prstů papilární linie (plastické reliéfy na pokožce), jejichž tvar je unikátní (od počátku používání této biometriky nebyly zjištěny dvě osoby se stejnou sadou otisku prstů). Na základě obrazce, který vytvářejí, můžeme jednoznačně identifikovat konkrétního jedince. V dnešní době jsou elektronické snímače otisku prstu levné a dostupné, jsou součástí čím dál většího počtu přístrojů (mobilní telefony, notebooky ), kde slouží jako ekvivalentní způsob přihlášení do systému. V komerční sféře se často používají jako vstupní systémy do chráněných prostor. Mezi výhody metody patří vysoká míra přijatelnosti mezi lidmi. Dále její spolehlivost a nenáročnost na testovanou osobu. Lze taktéž ověřit živost prstu (na základě měření teploty a srdečního pulsu) což přispívá k bezpečnosti. Nevýhodou je nutnost fyzického kontaktu. Ani ne tak z pohledu nepříjemnosti pro testovaného, jako spíše neustálého znečišťování snímače, na které je citlivý [3]. Pro identifikaci člověka lze použít celou řadu dalších fyziologických znaků, které každý z nás má. Je to například Geometrie dlaně, která se zaměřuje na proporční velikost jak celé dlaně, tak i prstů. Na stejném principu se dají porovnávat i obličeje lidí. Dalším způsobem může být žilný systém dlaně, který snímá žily nebo cévy v ruce. 3
13 Přístroj vysílá elektromagnetické záření v oblasti infračerveného spektra a snadno rozpozná prokrvené cesty v ruce [3]. 2.3 Hlas Pro tuto práci zásadní je další jedinečná vlastnost každého z nás, hlas. Hlasová verifikace je často zaměňována s rozpoznáním řeči. Při rozpoznání řeči je cílem převedení mluveného projevu na psaný text. Hlasová verifikace má naproti tomu za úkol zjistit a porovnat vzorky hlasu s databází a určit kdo je řečníkem. Dnes se začíná tohoto způsobu stále více využívat, přičemž lze vidět trend v zavádění tohoto systému ověření u bank. Při telefonickém kontaktu s bankou je možné ověřit identitu volajícího, aniž by si musel pamatovat hesla či jinak potvrzovat svou identitu. Těchto systémů využívají i zákaznické linky a telefonní poskytovatelé nejrůznějšího zboží. Využívají přitom, pro identifikaci nepříjemné vlastnosti hlasu, který se se změnou psychického stavu řečníka mění. Dále se může hlas měnit se zdravotním stavem (ať už je to nachlazení nebo intoxikace atd.) a věkem. Pro někoho výhoda této technologie, tedy absence nutnosti fyzického kontaktu se senzorem, se může v budoucnosti proměnit v nevýhodu. Díky všem těmto systémům se může stát, že budeme neustále pod dohledem. Sledováni Velkým bratrem bez možnosti vyhnutí se záznamu. 4
14 3 ŘEČ - TEORETICKÉ PODKLADY Jak již bylo řečeno, tato práce se zabývá rozpoznáním osob na základě řečového signálu. Řeč je vytvářena člověkem jako časově proměnný proces. Vzniklé zvukové vlny se dají rozdělit na hlásky jakožto nejmenší úsek řeči. Hlásky se dělí na neznělé (souhlásky) a znělé (samohlásky), jež jsou periodické a soustřeďují energii do určitých frekvencí. Při tvorbě hlásek, vzduch je vytlačován z plic, prochází přes hlasivky dále do artikulačních orgánů (nosní dutina, jazyk, měkké a tvrdé patro, dásně, zuby a rty). Souhlásky vznikají překážkou umístěnou v proudu vzduchu, způsobující vytvoření souhláskového šumu. Neznělé souhlásky jsou tak ke studiu dosti nevhodné, jelikož obsahují šum, resp. jsou tvořeny neharmonickými složkami. Naproti tomu, samohlásky jsou složením znělých tónů a jednotlivě se liší jejich barvou. Každá samohláska má základní frekvenci a k tomu několik vedlejších frekvencí Formanty - vznikají rezonancí dutin a odpovídají rezonančním kmitočtům jednotlivých dutin hlasového traktu člověka. Jejich rozložení pro samohlásku /u/ lze vidět v LPC spektru na obrázku 3.1. Obrázek 3.1 Formanty vyznačené kroužkem a LPC spektrum samohlásky /u/. 5
15 3.1 Charakteristika řeči Řečový signál je zpracováván metodami tzv. krátkodobé analýzy. Tyto metody vycházejí z kvazistacionární podstaty řečového signálu, tj. předpokládá se, že vlastnosti signálu se v čase mění pomalu, protože hlasové ústrojí člověka je schopno změnit své parametry minimálně za 10 ms. Proto je řečový signál rozdělen na segmenty o délce N vzorků a každý segment se poté zpracovává samostatně. Délka segmentu se pohybuje v intervalu 10 až 25 ms, což souvisí se změnami nastavení lidského hlasového ústrojí [4]. Každý takový segment N vzorků je váhován oknem. Lze použít více druhů, jejichž ukázky jsou na obrázku 3.2. Při pravoúhlém okně se signál prakticky jen vykrojí. Tento způsob je nejjednodušší, ale disponuje špatnými frekvenčními vlastnostmi. Nejčastěji využívaným typem okna je Hammingovo okno, potlačující svým tvarem postranní laloky ve spektru, které u obdélníkového okna výrazně zkreslují jeho skutečnou podobu [4]. Obrázek 3.2 Tvary váhovacích oken. Formanty jsou nejdůležitějším rysem v mluvené řeči. Formanty jsou rezonanční frekvence vokálního traktu, které se objeví v spektru řeči jako jasné vrcholy. Jako příklad, tři různé formanty pro samohlásku /u/, lze vidět na obrázku 3.1. Obecně se v projevu vyskytuje více formantů (resp. vrcholů ve frekvenční oblasti) a jejich umístění se v průběhu času i projevu mění. Velký vliv mají například souzvuky. Hlásky vyslovené v rychlém sledu za sebou. Vliv na umístění formantů má i jedinečný hlas každého z nás. Nejdůležitější formanty jsou na nejnižších frekvencích a obvykle se používají pouze první tři, jež významně přispívají k srozumitelnosti řeči. V českém jazyce se pro rozpoznání jednotlivých samohlásek nejvíce využijí první dva formanty. První formant odpovídá dutině hrdelní a druhý dutině ústní. Třetí formant odpovídá dutině nosní, která však nemá u češtiny takový význam [5]. 6
16 3.2 Lineární predikce Lineární predikce slouží pro odhad vzorků signálu ze vzorků předešlých. Opírá se o vlastnosti řeči a skutečnost že řeč je vytvářena lidským svalovým systémem, který má své možnosti. Ty zaručují, že i když se řeč ve svém průběhu mění tak po dobu kratší než 30 ms zůstává pseudo-stacionární. Signál je tedy na tyto úseky rozdělen - segmentován a je analyzován. Výsledkem jsou koeficienty prediktoru, který pak umí předpovědět vzorky následující [6]. Koeficienty lineární predikce jsou generátorové polynomy pro digitální filtr, který, pokud jsou stimulovány vstupním signálem, obnoví vlastnosti původních vzorků tohoto signálu. V časové oblasti se možná nebude shodovat, ale jeho frekvenční odezva bude odpovídat původní. Lineární prediktivní kódování (LPC) se úspěšně používá, pro kódování řeči [6]. LPC kódování řeči je metoda parametrického zdrojového kódování. LPC kodér tak převádí reálný řečový signál na bitový tok, ve kterém jsou obsaženy všechny důležité parametry pro jeho zpětnou rekonstrukci (LSF koeficienty, perioda základního tónu, úroveň buzení, detekce znělosti) [7]. Lineární prediktor je adaptivní FIR filtr, jenž nastavuje své koeficienty tak, aby na výstupu predikoval (předpovídal) hodnoty následující. Obrázek 3.3 Princip výpočtu LPC [8]. Celý proces je ukázán na obrázku 3.3 a dále zapsán do rovnice (3.1), kde a jsou koeficienty filtru, kterými se násobí vzorky vstupního signálu zpožděné o p, což je řád predikčního filtru polynomu 7
17 3.3 Formanty Poloha formantů je pro jednotlivé vokály v daném jazyce omezena na jistá frekvenční pásma, nejde tedy o jediný tón. Tradiční fonetika označovala jednotlivé formanty podle předpokládaného místa vzniku termíny odvozenými z artikulační fonetiky: mluvilo se pak o formantu ústním, hrdelním. Dnes se dává přednost označení číslicemi vycházejícími z výšky formantů, jak ji zachycují objektivní metody analýzy zvuku řeči. Jejich přehled je uveden v tabulce 3.1. Tabulka 3.1 Přehled obvyklého frekvenčního rozmístění formantů jednotlivých samohlásek [21]. F1 [Hz] F2 [Hz] F3 [Hz] /a/ /e/ /i/ /o/ /u/ Formanty jednotlivých vokálů jsou navzájem odlišeny. Zřetelně se liší rezonance vznikající v ústní dutině, rezonance vznikající v dutině hrdelní jsou odlišeny méně. Pro identifikaci vokálů však jsou důležité nikoli absolutní hodnoty formantů, nýbrž vzájemný poměr F 1 a F 2 : pro vokály, které hodnotíme jako i-ové, je to např. velký výškový rozdíl mezi oběma formanty, a-ové zvuky mají oba formanty blízko sebe a jsou umístěny přibližně ve středu výškového pásma, u-ové vokály mají oba formanty nízké atd. Na základě toho hodnotíme i uměle vytvořené složené tónové zvuky jako podobné tomu či onomu vokálu. Kombinace neodpovídající modelu formantové struktury vokálů známého jazyka sice označíme také za samohlásku, ale nejsme s to ji identifikovat; podobné potíže můžeme mít při identifikaci zvláštních typů vokálů jazyka cizího. Důležité je, že formantová struktura vokálu je typická pouze v jeho vrcholové fázi, v místech napojení k sousedním segmentům se mění a neodpovídá předpokladům [9]. Poloha formantů lze určit dvěma způsoby. Zobrazením spektrogramu, který dává informaci o výskytu frekvencí v závislosti na měnícím se čase a následným zjištěním lokálních maxim, které se v něm zobrazují. Nebo druhým způsobem je vypočítání LPC pro jednotlivé segmenty řeči. Výsledkem jsou koeficienty filtru, jež jsou komplexně sdruženy. Položením reálných částí rovných nule se zjistí kořeny z i. Výsledné frekvence formantů F se získají podle rovnice (3.2), kde f s je vzorkovací kmitočet 8
18 3.4 MFCC Mel-frekvenční kepstrální koeficienty (MFCC) jsou široce využívané příznaky pro automatické rozpoznání řeči a mluvčího. Před zavedením MFCC bylo hlavní funkcí pro automatické rozpoznání řeči lineární prediktivní kódování (LPC) a lineární prediktivní kepstrální koeficienty (LPCC). Výsledkem MFCC jsou spektrální vlastnosti pro daný segment, neboli kepstrum, což je časově frekvenční analýza [10]. Melovské vyjádření frekvencí bere v úvahu fyziologické vnímání zvuku, tj. jak člověk vnímá rozdílné frekvence a jejich vzdálenosti k dalším v signálu obsaženým. Lidé jsou mnohem vnímavější k malým změnám v rozteči na malých kmitočtech než při vyšších. Vyjádřením v této škále je výsledná reprezentace blíže tomu co skutečně slyšíme. Důvodem proč se zabývat LPC a MFCC je jejich zpracování v diplomové práci programem, který bude realizován v návaznosti na tento semestrální projekt. Ten bude vyhledávat samohlásky z řeči na základě polohy formantu, které zjistí díky LPC koeficientům. Dále pak ze samohláskových úseků získá MFCC, které budou sloužit k rozpoznání mluvčích. 9
19 4 KLASIFIKÁTORY V předchozím textu bylo vysvětleno, jak se získají formanty pro jednotlivé úseky řeči. Rozhodnutí o tom, co představují výsledná data, závisí na klasifikátorech. Klasifikátor je algoritmus provádějící třídění dat. Má za úkol z množiny předložených dat rozhodnout, která patří do které předdefinované skupiny. Tyto algoritmu mohou být různě složité od počítání základních statistických veličin až po složité funkce využívající mechanismů strojového učení. Přičemž jejich využití je stejně tak pestré od procházení databází až po rozpoznávání obrazů ve videu. 4.1 Rozhodovací úroveň (treshold) Nejjednodušším příkladem je rozhodovací úroveň (treshold). V případě že sledovaná veličina překročí námi stanovenou mez, změní se výstup z například vypnutého stavu na zapnutý. V tomto případě se uplatňuje pouze porovnávání větší než, menší než, jak je vidět na obrázku 4.1. Obrázek 4.1 Ilustrace rozhodovací úrovně. 10
20 4.2 Vzdálenost (Euklidova a Mahalanobisova vzdálenost) Mezi nejznámější klasifikátory patří i Euklidova vzdálenost. Její výhodou je názornost výsledku. Máme-li dva body, každý se souřadnicemi ( x, y), pak jejich vzdálenost D je dána následujícím vztahem Kromě střední hodnoty shluku, lze brát v úvahu také rozptyl, který nemusí být ve všech směrech stejný, ale může mít například tvar elipsy. V takovém případě se využije Mahalanobisova vzdálenost M reprezentovaná následujícím vztahem: [11] kde i zastupuje odhad shluku. Mahalanobisova vzdálenost je zajímavá tím, že zohledňuje vzájemné vztahy mezi proměnnými, neboli bere v úvahu jejich korelovanost. Pokud jsou proměnné nekorelovány, pak Mahalanobisova vzdálenost odpovídá čtverci euklidovské vzdálenosti [12]. 4.3 Rozhodovací stromy Jsou dalším způsobem jak třídit data. Tato metoda byla taktéž vyzkoušena při snaze rozlišit, ke které samohlásce se vztahuje daný segment. Princip metody je naznačen na obrázku 4.2. Jak je vidět snahou je vzít data a postupně projít celý strom, přičemž pro rozhodnutí o větvení se nejčastěji využije rozhodovací úrovně zmíněné výše. Obrázek 4.2 Příklad rozhodovacího stromu pro fiktivní formant. 11
21 4.4 Maticové klasifikátory (k-soused) K nejbližší soused využívá pro rozdělení dat do skupin trénovací množiny. Je taktéž zástupcem klasifikátorů snažících se o minimální vzdálenost mezi vzorkem a tříděnými daty. Jeho cílem je rozřadit data do několika předdefinovaných skupin, přičemž se definují tím co je obsahem trénovacích množin, které tak tvoří centroidy ke kterým se zjišťuje vzdálenost od jednotlivých prvků. Výpočet vzdálenosti může probíhat na základě Euklidovské metriky. Ne vždy je to nejlepší možnost proto se používá i Mahalanobisova, Minkowského či tangentová metrika, jenž je invariantní vůči geometrickým transformacím jako posun nebo rotace. Zásadní pro správnou klasifikaci tak je použití vhodného centroidu. Nejjednodušším je zjištění střední hodnoty používaných vstupů. 4.5 Smíšené modely (Gaussovské atd.) Gaussovské modely jsou často používány pro třídění do datových klastrů. Prvky do klastrů jsou přiřazovány výběrem dat na základě maximální pravděpodobnosti, že patří právě sem. Stejně jako k-soused přiřazování, Gaussovské modely používají iterační algoritmus, který konverguje k lokálnímu minimu. Tyto gaussovské modely mohou být vhodnější než k -soused v případě, že shluky dat mají různé velikosti a korelace mezi sebou. Jak název napovídá je využita Gaussova křivka pravděpodobnosti, s kterou daný bod patří právě do tohoto klastu. Toto přiřazení s pravděpodobností ilustruje i obrázek 4.3. Třídění pomocí Gaussových modelů je někdy považováno za měkkou metodu shlukování [13]. Obrázek 4.3 Třídění dat do klastrů s Gaussovskou pravděpodobností [13]. 12
22 4.6 Skryté Markovovy modely/řetězce Jejich největší výhodou je silné podložení statistikou, které je velmi vhodné pro úlohy zpracování přirozeného jazyka a umožňuje robustní a rychlé zpracování dat. Jejich nevýhodou je předem nutná znalost topologie modelu a stejně jako u ostatních statistických metod, potřeba velkého množství trénovacích dat [14]. Markovův řetězec popisuje obvykle diskrétní náhodný (stochastický či pravděpodobnostní) proces, pro který platí, že pravděpodobnosti přechodu do následujícího stavu závisejí pouze na současném stavu, ne na předchozích stavech. Tato tzv. Markovovská vlastnost dovoluje proces znázornit stavovým diagramem na obrázku 4.4, kde z každého stavu (uzlu grafu) vycházejí hrany možných přechodů do dalšího stavu s připsanou pravděpodobností [15]. Obrázek 4.4 Jednoduchý diskrétní Markovův řetězec se dvěma stavy [15]. 4.7 Neuronové sítě (probalistic, deep, feed-forward...) Představují velmi zjednodušené matematické modely nervových systémů živých organismů. Je tak tvořena modely neuronů společně propojených v jednu síť. V rámci učení je pak těmto spojením přiřazována různá váha. Počítačové simulace neuronových sítí vykazují prvky inteligentního chování, např. schopnost učit se a zobecňovat z tréninkových dat [16]. Neuronová síť si dokáže zapamatovat postupy a vzory, které ji dovedli k výsledku. Později tak již na základě svých zkušeností dokáže i z dat, která nebyly součástí trénovacích souborů, dojít ke správným výsledkům. Může se i stát, že nedokážeme zjistit proč je výsledek takový jaký je. Na základě čeho se tak síť rozhodla. 13
23 5 DETEKCE SAMOHLÁSEK Z ŘEČI V rámci diplomové práce byl napsán program, jehož cílem je detekce samohlásek z řeči (slova) a pro nejen budoucí využití i získání spektrálních parametrů řeči. Program je celý napsán v programovacím prostředí MATLAB. Tato kapitola popisuje, jakým způsobem bylo v rámci diplomové práce řešeno hledání samohlásek. Program načetl a zpracoval externě zaznamenaný soubor *.wav. Tím se má na mysli nalezení samohlásek, jejich určení a zjištění jejich spektrálních parametrů. Své výsledky pak ukládá v přehledné databázi k-soused Jak již bylo naznačeno dříve, samohlásky mají formanty neboli znělé tóny, díky kterým se dají snadno rozpoznávat. Ty se počítají z LPC analýzy, ale jak je vidět na obrázku 5.1 tak jsou v jednotlivých segmentech přeházeny. Formanty F1 pro jednotlivé segmenty nejsou vždy na stejném řádku, což by znesnadňovalo pozdější rozpoznávání. V průběhu práce bylo vyzkoušeno více způsobů jak formanty přeskládat do použitelné formy. Jako první byla vyzkoušena metoda stromu s rozhodovacími úrovněmi, ale vzhledem k velké proměnlivosti polohy formantů od ní bylo upuštěno. Pro jednotlivé dlouhé samohlásky /á/, /é/, /í/, /ó/, /ú/ byly výsledky uspokojivé jak je vidět na obrázku 5.1. Při jejich současné analýze v jednom souboru se však hodnoty formantů natolik překrývaly, že jakákoliv jejich klasifikace nebyla možná. Obrázek 5.1 Vlevo vypočtené formanty pro /a/, vpravo následně upravené podle rozhodovacích úrovní. Pro správné uspořádání formantů tak je využito funkce k-soused. Na obrázku 5.2 je vidět, že jednotlivé formanty byly poskládány, tak aby ty se shodnými, respektive podobnými velikostmi byly na stejných řádcích. Funkce k-soused přiřadí předaná data do klastrů podle definovaných centroidů. Vrátí tedy vektor říkající, ke kterému centroidu má daný prvek nejblíže, což spočítá minimalizací střední vzdálenosti. Vrácená data tak bylo nutné ještě podle příslušnosti k jednotlivým centroidům přeskládat. 14
24 Obrázek 5.2 Formanty před (nahoře) a po (dole) přeskládání knnclasify Nyní přicházejí na řadu zmíněné klasifikátory. Jejich úkolem je na základě polohy formantu rozhodnout, která samohláska se v daném segmentu nachází. Pro výsledný program se používá metoda nejbližšího souseda (v prostředí MATLAB označená jako knnclasify ). Vzhledem k jejím výsledkům odpovídajícím požadavkům a ne až takové výpočetní náročnosti, oproti jiným možná i výsledkově lepším metodám, se jeví jako nejvhodnější. Její funkcí v programu je klasifikovat řádky matice do skupin, na základě výcvikových dat jak je ukázáno na zdrojovém kódu níže. Této funkci se předkládá matice dat Ksoused, kterou je třeba analyzovat a trénovací matice A, E, I, O, U, X, obsahující vzorky formantů pro dané samohlásky. Úkolem funkce je zjistit, se kterou z trénovacích matic se předložená data nejvíce shodují. Výstupem je hodnota předaná jako vzor. Jak je na uvedené části kódu vidět, pro lepší odhad výsledku bylo přidáno více trénovacích dat. A = [ ]; E = [ ]; I = [ ]; O = [ ]; U = [ ]; X = [ ]; A2 = [ ];... % "A" % "E" % "I" % "O" % "U" % "A2" TRmAt=[A; E; I; O; U; X; A2; E2; I2; O2; U2...]; Vzor={'A';'E';'I';'O';'U';' '; 'A2';'E2';'I2';'O2';'U2'...}; knn=knnclassify(ksoused(1:6,:)',trmat,vzor); 15
25 5.2 Těžba spektrálních parametrů Formanty z LPC Obecně většina audio algoritmů, MATLAB není výjimkou, pracuje efektivněji na delších úsecích signálu. To jde proti snaze vybrat co nejkratší úsek řeči, aby se nevybraly do jednoho rámce dvě hlásky. Vstupní, vhodně upravený, signál je rozdělen do segmentů o délce 20 ms, což při vzorkovacím kmitočtu f s = 8 khz odpovídá 160 vzorkům řečového signálu obsažených v každém segmentu. V případě, že zpracovávaný signál není dělitelný sto šedesáti, pak je konec signálu oříznut a zahozen. Samotný výpočet je vidět na přiloženém zdrojovém kódu. seg=fix(length(insignal)/krok); for i=1:seg-1 Aaa(i,:)=(lpc(InSignal(i*krok-krok+1:i*krok),RadFiltr)); Aa(i,:)=real(Aaa(i,:)); koreny(i,:)=roots(aa(i,:))'; end; FA=angle(koreny)*8000/(2*pi); Fo=sort((FA.*(FA>0))'); % výsledné formanty Výsledkem výše uvedeného kódu jsou formanty uložené v proměnné Fo. Tento postup byl nejdříve zkoušen na dlouhých samohláskách a výsledek ukazuje obrázek 5.3. Je vidět, že hlavně formanty F1 mají jasně dané hodnoty, ve kterých se nachází. Obrázek 5.3 Příklad reálně vytěžených formantů. 16
26 Stejně tak byl analyzován i signál slova /padesátikoruna/, ve kterém se nachází všech pět samohlásek, čímž se zdá být výhodné jako maximálně informativní. U něj už bylo využito i funkce knnclasify pro hledání samohlásek. Jak je ukázáno na obrázku 5.4, je i výsledek uvedený pod grafem přesný. Jediné co ještě schází, je takto dobře vyselektovat výsledek. Stále totiž analyzuje i některé segmenty, u kterých na obrázku 5.4 není nic uvedeno. Obrázek 5.4 Výsledky analýzy slova /padesátikoruna/ MFCC Tato funkce vrací hodnoty kepstrálních koeficientů počítané z nahraného vzorku signálu předávaného jako vektor speech s vzorkovací frekvencí fs [Hz]. Tento řečový signál prochází filtrem FIR prvního řádu s preemfází alpha. Ta má za úkol zesílit složky signálu na vyšších frekvencích, které díky vlastnostem lidského hlasového ústrojí klesají. Tím sjednotí amplitudy harmonických složek a výsledné spektrum je vyrovnané. Tento signál je dále zdrojem pro short-time Fourierovu transformaci prováděnou s délkou rámce Tw [ms], posunem rámce Ts [ms]. Přičemž na každý rámec je aplikováno okno předávané funkci jako parametr window. Následuje výpočet velikosti spektra a návrh filtračního designu s M trojúhelníkovými filtry rovnoměrně rozmístěnými v mel-frekvenčním měřítku mezi dolním a horním mezním kmitočtem uvedeným v parametru R [Hz]. Banka filtrů se aplikuje na spektrum a vznikají energie banky filtrů (FBE) (M na rámec). Následnou korelací FBE pomocí diskrétní kosinové transformace dochází k finálnímu získání MFCC koeficientů [17]. [ CC, FBE, frames ] = mfcc ( speech, fs, Tw, Ts, alpha, window, R, M, N, L ) 17
27 5.3 Databáze mluvčích S takto připraveným programem pro analýzu hlasových záznamů bylo možno postoupit k vytvoření databáze mluvčích. K natrénování vytvořených klasifikátorů a získání referenčních hodnot řečových parametrů jednotlivých mluvčích, byly pořízeny nahrávky celkem osmi lidí (včetně autora), které obsahují dlouhé samohlásky /á/, /é/, /í/, /ó/, /ú/. Pro pozdější využití bylo zaznamenáno slovo /padesátikoruna/ spolu s libovolným hlasovým projevem mluvčího představujícím jeho slova pronášená k zámku při jeho odemknutí. Pro větší objem dat, přesnost a porovnání je vše zaznamenáno pětkrát. U každého mluvčího byly výše představeným způsobem analyzovány úseky dlouhých samohlásek a zjištěny průměrné hodnoty formantů pro mluvčího a samohlásku. Tyto hodnoty byly přidány k těm, jež jsou používány pro určení konkrétní samohlásky a jsou vstupními daty funkce knnclassify. Výsledek nedopadl podle očekávání. Zjistilo se například, že hodnoty formantů pro /á/ jsou si velmi podobné s formanty pro /é/ jiného mluvčího. Bylo potřeba najít jiný způsob rozhodování, o jakou samohlásku se jedná než je euklidovská vzdálenost mezi vzorovými a porovnávanými hodnotami. Provedené postupy selekce samohlásek v řeči je popsán v následující části práce. 5.4 Neuronová síť Jak již bylo zmíněno, neuronové sítě jsou inspirovány biologickými neuronovými sítěmi. Tato vlastnost určitým způsobem předurčuje, že uměle vytvořené neuronové sítě by měly být schopny, z hlediska základních principů, se chovat stejně nebo alespoň podobně jako jejich biologické vzory. Učení je základní a podstatná vlastnost neuronových sítí. Tento fakt zjevně vyjadřuje základní rozdíl mezi dosud běžným použitím počítačům a použitím prostředků na bázi neuronových sítí. Jestliže jsme doposud veškeré své úsilí při tvorbě uživatelských programů soustředili na vytvoření algoritmů, které transformují vstupní množinu dat na množinu dat výstupních, pak neuronové sítě již tuto náročnou fázi nepotřebují. Jakým způsobem se budou vstupní data transformovat na data výstupní, určuje právě fáze učení založená na již dříve uvedené expozici vzorků (příkladů) popisující řešenou problematiku - trénovací množina. Odpadá tedy nutnost algoritmizace úlohy, které je nahrazena předložením trénovací množiny neuronové síti a jejím učením [18]. Neuronová síť by tedy měla být ze své podstaty schopna se naučit, že daný vzor patří k definované podmnožině, i když se podobá i jinému vzoru. To vše na základě předložených trénovacích dat, kde je jasně specifikováno, jak má vypadat výsledek. Po naučení jsou pak schopny odhalit i silně nelineární závislosti v testovaných datech. MATLAB obsahuje několik typů neuronových sítí. Jsou to sítě pro hledání shody, rozpoznání vzoru, shlukování a analýzy časových řad. Pro vyhledání samohlásek v předloženém souboru bylo použito vícevrstvé sítě pro rozpoznání vzoru (Pattern recognition network). 18
28 5.4.1 Trénování Pro trénovaní sítě Pattern recognition network je zapotřebí poskládat trénovací data ve formě nastíněné na obrázku 5.5. Prvních padesát čtyři segmentů reprezentuje formanty samohlásky /á/, které jsou následovány daty pro /é/. Tato informace je síti předávána maticí Vzor. Ta obsahuje nuly a jedničky pro rozlišení výstupů, jež má síť být schopna ve výsledku sama rozpoznat. Matice kmeansy obsahující formanty má pouze tři hodnoty na segment. Tato skutečnost vyplynula v průběhu vylepšování programu, kdy nejdříve byly odstraněny nuly a posléze i zredukován počet hodnot. Vyšší formanty již nejsou natolik specifické pro rozpoznávání samohlásek, a tím spíše vnášejí do rozhodování chybu. Tento krok o něco zlepšil i funkci knnclassify, ale ne dostatečně. Stejně tak by tyto odstraněné hodnoty nijak nepřispívaly k přesnosti výsledků neuronové sítě, jelikož pro nejlepší výkon jsou potřeba nekorelovaná data. Obrázek 5.5 Ukázka trénovacích dat. Matice Confusion ukazuje výsledek trénování. První řádek matice reprezentuje vstup /á/. Zelené pole je správně vybraná samohláska. V řádku jsou pak /á/, která byla špatně rozpoznána a tudíž chybně přiřazena ostatním vstupům, jak je ukázáno na obrázku 5.6. Čtvrtý řádek reprezentuje vstup /ó/ a následující pátý pak /ú/. Je vidět, že oba mají významný počet chybně identifikovaných segmentů. Navíc významná část těchto chyb je v jejich vzájemné záměně. Tato skutečnost není až tak překvapivá, při pohledu na obrázek 5.4 je jasně vidět, že formanty těchto dvou samohlásek jsou si více než podobné. To vedlo k rozhodnutí o sloučení těchto dvou samohlásek do jedné /ou/. Také je nutné říci, že při detekci samohlásek v řeči nezáleží na jejich trvání, neboť např. /e/ a /é/ jsou vyslovovány v češtině stejně, a tak jsou detekci samohlásek v řeči zaměnitelné. 19
29 Obrázek 5.6 Matice confusion pro 6 vstupů /á/, /é/, /í/, /ó/, /ú/, / /. Tímto krokem se podstatně zlepšila výsledná úspěšnost. Z 83,2% při šesti vstupech na 92,0% po spojení samohlásek /o/ a /u/ jak ukazuje obrázek 5.7. Obrázek 5.7 Matice confusion pro 5 vstupů /á/, /é/, /í/, /óú/, / /. Nicméně tyto hodnoty jsou výsledkem trénování pro jediného mluvčího. Při použití hodnot od všech mluvčích se celková úspěšnost klasifikace mírně zhorší. Důvodem pro použití neuronové sítě však bylo zlepšení výsledků identifikace samohlásek v zvukovém záznamu. Tento cíl se nepodařilo splnit. Výsledek vyhledávání samohlásek ve slově /padesátikoruna/ se nezlepšil v porovnání s předchozím způsobem. Podrobnějším prozkoumáním se objevil ještě jeden problém. Hodnoty formantů pro jednotlivé samostatně vyslovené samohlásky se liší od hodnot, které se získají, jsouli samohlásky součástí vysloveného slova. Tento jev je ukázán v tabulce 5.1, která obsahuje formanty u samostatně vyslovených samohlásek a v tabulce 5.2 kde jsou 20
30 formanty získané ze slova /padesátikoruna/. Bylo tedy nutné změnit testovací data poskytované neuronové síti v rámci učení. Tabulka 5.1 Formanty samohlásek ve slově /padesátikoruna/. /a/ /a/ /e/ /e/ /i/ /i/ /o/ /o/ /u/ /u/ F1 [Hz] F2 [Hz] F3 [Hz] Tabulka 5.2 Formanty pro separátně vyslovené samohlásky. /a/ /a/ /e/ /e/ /i/ /i/ /o/ /o/ /u/ /u/ F1 [Hz] F2 [Hz] F3 [Hz] Nová testovací data bylo třeba vybrat z nahrávek slov /padesátikoruna/. Byly tedy vybrány segmenty s jednotlivými samohláskami pro každou nahrávku a u každého mluvčího. Tato data se pak použila jako trénovací. Tento krok již vedl k výraznému zlepšení výsledku hledání konkrétních samohlásek v nahrávkách napříč mluvčími. Jak je vidět v tabulce 5.3. První řádek je hledán pomocí funkce knnclassify a průměrných hodnot dlouze řečených samohlásek. Druhý řádek je najit pomocí neuronové sítě, přičemž se již používá sloučení samohlásek /o/, /u/ označené jako /Ou/. Na třetím řádku jsou vidět úpravy, jež se provádějí s výslednými samohláskami. Každá zde uvedená samohláska představuje segment řeči na kterém je určena v délce trvání 20 ms. Délka s jakou je člověk schopen vyslovit jednu samohlásku a následovat ji druhou se člověk od člověka různí, ale podle [19] se doba trvání samohlásky pohybuje od 110 ms. Z této skutečnosti je patrné, že lze upravit jednotlivé odchylky, které se vyskytnou ve výsledném rozpoznání neuronové sítě. Programově je ošetření těchto nesprávně určených samohlásek provedeno "plovoucím oknem" o délce tří po sobě jdoucích segmentů. Vyskytne-li se tak na konci bloku o dvou a více stejných samohláskách chyba je opravena. Stejně tak je-li mezi shodnými segmenty odchylka je opravena a taktéž pokud se v místě, kde nejsou samohlásky, najednou nějaká najde je eliminována. Tento princip vychází ze samoopravného algoritmu, popsaném v [20]. Na posledním řádku je pak výsledek rozpoznání samohlásek, přičemž se jedná o začátek slova /padesátikoruna/. Tabulka 5.3 Ukázka rozpoznání samohlásek- přepis reálných výsledků.. knnclassify E E A A O E E O O O E E A O A A A O O O U U NET A A A A A E E E A A I A A A A A A A E Ou I I Oprava E A A A - Výsledek A A A A A E E E E A A A A A A A A A A A I I 21
31 6 ROZPOZNÁNÍ MLUVČÍCH Pro rozpoznání mluvčího se využije spektrálních parametrů získaných výpočtem LPC a MFCC u jednotlivých samohlásek a jedinečných pro každého mluvčího. Byly vybrány úseky samostatně, dlouze řečených samohlásek. Jejich zpracováním se získalo po čtrnácti LPC a třinácti MFCC koeficientech pro každý segment, neboli 20 ms záznamu. Při jejich zhlédnutí je zřejmé, že například první koeficient LPC nebude možno využít pro jeho přílišnou podobnost, jelikož vždy obsahuje jedničku nehledě na mluvčího. Tato skutečnost se projevila po jejich použití a bylo potřeba zjistit, které z nich lze využít a které nikoliv a ty pak z rozhodování vyřadit. Tato selekce byla provedena ještě před sloučením samohlásek /o/ a /u/ v dvojhlásku /ou/, viz část Za tímto účelem byly vypočítány vzájemné korelace mezi mluvčími pro každou samohlásku a každý LPC a MFCC koeficient. Vzniklo tak deset trojrozměrných (koeficient, mluvčí, samohláska) matic. V tabulce 6.1 a 6.2 je ukázka korelační matice pro /á/, druhý a třetí LPC koeficient. Tabulka 6.1 Korelační matice pro samohlásku /á/, resp. druhý LPC koeficient. val(:,:,2) Speaker1 Speaker2 Speaker3 Speaker4 Speaker5 Speaker6 Speaker7 Speaker8 Speaker1 1,0000 0,1911 0,4587 0,3709 0,2261 0,3388 0,0630 0,6362 Speaker2 0,1911 1,0000 0,1001 0,0859 0,2663 0,0966 0,2601 0,1228 Speaker3 0,4587 0,1001 1,0000 0,0115 0,3677 0,3632 0,1446 0,6121 Speaker4 0,3709 0,0859 0,0115 1,0000 0,3496 0,5713 0,4434 0,4726 Speaker5 0,2261 0,2663 0,3677 0,3496 1,0000 0,6610 0,7277 0,2801 Speaker6 0,3388 0,0966 0,3632 0,5713 0,6610 1,0000 0,6908 0,4599 Speaker7 0,0630 0,2601 0,1446 0,4434 0,7277 0,6908 1,0000 0,2921 Speaker8 0,6362 0,1228 1,6121 0,4726 0,2801 0,4599 0,2921 1,0000 Tabulka 6.2 Korelační matice pro samohlásku /á/, resp. třetí LPC koeficient. val(:,:,3) Speaker1 Speaker2 Speaker3 Speaker4 Speaker5 Speaker6 Speaker7 Speaker8 Speaker1 1,0000 0,0601 0,1492 0,0132 0,0412 0,0038 0,3179 0,0725 Speaker2 0,0601 1,0000 0,0201 0,1627 0,3738 0,1310 0,2163 0,0948 Speaker3 0,1492 0,0201 1,0000 0,1098 0,2109 0,2957 0,1238 0,3430 Speaker4 0,0132 0,1627 0,1098 1,0000 0,6291 0,6464 0,6247 0,3943 Speaker5 0,0412 0,3738 0,2109 0,6291 1,0000 0,7513 0,8492 0,2826 Speaker6 0,0038 0,1310 0,2957 0,6464 0,7513 1,0000 0,7210 0,5505 Speaker7 0,3179 0,2163 0,1238 0,6247 0,8492 0,7210 1,0000 0,4241 Speaker8 0,0725 0,0948 0,3430 0,3943 0,2826 0,5505 0,4241 1,
32 V těchto maticích bylo následně vyhledáno maximum a uloženo do tabulky 6.3. Ta je tak přehledem korelací mezi mluvčími pro každou samohlásku a koeficient. Následně bylo vybráno po šesti s nejnižší maximální korelací pro daný koeficient. Těchto dvanáct vybraných koeficientů je pak používáno k rozpoznání mluvčího. Červeně vyznačené koeficienty v tabulce 6.3 tedy nejsou dále používány k identifikaci mluvčích, neboť je u nich vysoká pravděpodobnost záměny mezi jednotlivými mluvčími. Tabulka 6.3 Maximální hodnoty korelace mezi mluvčími pro jednotlivé samohlásky. LPC /a/ /e/ /i/ /o/ /u/ corr MFCC /a/ /e/ /i/ /o/ /u/ corr 2 0,66 0,39 0,55 0,39 0,31 0,66 1 0,90 0,81 0,83 0,76 0,53 0,90 3 0,75 0,46 0,58 0,38 0,28 0,75 2 0,76 0,58 0,65 0,53 0,57 0,76 4 0,74 0,63 0,50 0,40 0,19 0,74 3 0,79 0,48 0,57 0,65 0,30 0,79 5 0,51 0,53 0,48 0,48 0,48 0,53 4 0,90 0,72 0,69 0,42 0,46 0,90 6 0,67 0,59 0,46 0,33 0,58 0,67 5 0,73 0,53 0,54 0,60 0,33 0,73 7 0,73 0,67 0,58 0,34 0,60 0,73 6 0,78 0,35 0,52 0,53 0,34 0,78 8 0,58 0,55 0,42 0,44 0,20 0,58 7 0,54 0,43 0,49 0,34 0,42 0,54 9 0,78 0,48 0,35 0,41 0,38 0,78 8 0,70 0,66 0,56 0,70 0,33 0, ,72 0,60 0,49 0,21 0,44 0,72 9 0,82 0,42 0,62 0,57 0,30 0, ,71 0,57 0,53 0,40 0,51 0, ,73 0,39 0,48 0,73 0,37 0, ,68 0,35 0,46 0,36 0,34 0, ,60 0,50 0,46 0,58 0,36 0, ,59 0,23 0,75 0,32 0,19 0, ,81 0,48 0,57 0,47 0,36 0, ,47 0,34 0,47 0,48 0,37 0, ,59 0,70 0,59 0,64 0,52 0, Neuronová síť Následuje podobný problém jako v předešlém případě u rozpoznání samohlásek. K jeho řešení tak bylo využito obdobného postupu - vytvoření neuronové sítě. Pro trénování sítě byly vybrány koeficienty LPC a MFCC z úseků slova /padesátikoruna/, které byly spočítány jako nejméně korelované. Jsou vybrány na stejných úsecích, jako byly použity pro trénování předchozí neuronové sítě určené k výběru samohlásek. V rámci snahy o co nejlépe natrénovanou síť byly vyzkoušeny celkem tři varianty. V první variantě je jako vstupní data vybráno šest koeficientů LPC s tím, že pro každou samohlásku je vytvořena nová síť s hodnotami LPC vybraných z odpovídajícího úseku dané samohlásky. Druhá varianta je obdobná s tím, že jsou použity hodnoty MFCC. U poslední třetí varianty jsou hodnoty LPC a MFCC seskládány do jedné matice. Tím byla vytvořena matice o 12 vstupních parametrech, ale stejně jako předchozí dvě má za úkol se v předložených datech naučit rozpoznat 8 mluvčích. Při vytváření výše popsaných neuronových sítí byla vytvořena vlastní funkce pro jejich trénování, která byla volána skriptem v rámci cyklu for. Ten je určen k zajištění optimálního počtu skrytých neuronů. Jako vstupní parametry jsou neuronové síti 23
33 předávány trénovací data a počet skrytých neuronů, jenž se postupně s každým voláním zvyšuje. Při trénování se občas vyskytne anomálie způsobující, že výsledné pravděpodobnosti jsou naprosto mimo předpokládané schopnosti neuronové sítě, která tak obsahuje nepřiměřené množství chybných výběrů. Z toho důvodu je trénování spouštěno dvakrát a dále v rámci snahy o lepší výsledek jsou výsledné neuronové sítě ještě jednou přetrénovány. Celkem se tak v jednom volání vytvoří čtyři neuronové sítě. Jejich pravděpodobnosti se průběžně vypisují, jak ukazuje obrázek 6.1. Před ukončením skriptu se z vytvořených sítí vyberou ty nejlepší pro jednotlivé samohlásky, jejich výsledné pravděpodobnosti jsou vypsány a na závěr je vše uloženo do souboru pro další využití. Obrázek 6.1 Ukázka výstupu funkce pro trénování neuronových sítí. Výsledky tréninku jednotlivých variant jsou uvedeny v následující tabulce 6.4. Tabulka 6.4 Výsledné pravděpodobnosti správného rozpoznání jednotlivých mluvčích pro tři neuronové sítě na základě vstupních dat. LPC MFCC LPC + MFCC max( /a/ ) max( /e/ ) max( /i/ ) max( /ou/ ) Jak je vidět, všechny tři způsoby dosahují vysokých pravděpodobností. Z toho důvodu nebyla předem zavrhnuta žádná z nich, ale naopak všechny byly zároveň použity a jejich výsledky porovnány. Ukázalo se, že žádná z nich nedává sama o sobě nejlepší výsledky. Po několika pokusech se nakonec ukázalo jako nejvýhodnější použití všech tří a porovnání pravděpodobností s jakou vychází simulace jejích výsledků pro celkovou identifikaci mluvčích na základě zaznamenané řeči. V programu je tedy použito všech těchto dvanáct neuronových sítí. Nejdříve se vezme výstup předchozí části, neboli rozlišení o jakou samohlásku se v testovaném záznamu jedná, a podle toho se následně využijí tři sítě pro ni trénované. Po projití celého záznamu se zjistí, který výsledek je nejvhodnější. 24
34 7 VÝSLEDEK Následující obrázky ukazují, jak vypadají výsledky, které byly dosaženy výše popsaným algoritmem. Každý z mluvčích namluvil pětkrát slovo /padesátikoruna/ a stejně tak pětkrát pronesl svou řeč k otevření zámku. Data ze slova /padesátikoruna/ však byla použita pro natrénování neuronových sítí a je tak očividné, že výsledky v jeho případě dosahují vysoké úspěšnosti %. Níže prezentované výsledky jsou tak z analýzy promluv jednotlivých mluvčí, kteří neměli žádný předem stanovený text. Zároveň je to jen část ze získaných a vyzkoušených nahrávek. Jako výsledek je kromě určené osoby ještě vypisována informace o počtu segmentů přiřazených jednotlivým mluvčím a to pro všechny tři neuronové sítě používané k rozhodnutí i výsledné porovnání. Obrázek 7.1 Ukázka výstupu programu pro prvního mluvčího (Ja). Obrázek 7.2 Ukázka výstupu programu pro druhého mluvčího (Babi). 25
35 Obrázek 7.3 Ukázka neúspěšné identifikace třetího mluvčího (Deda). Celkový přehled o úspěšnosti rozpoznání hlasu mluvčích dává následující tabulka 7.1. Ta v druhém a třetím sloupci obsahuje výsledky rozpoznání pro nahrávky o délce maximálně šesti slov. Ty byli každým z mluvčích nahrány opakovaně, alespoň čtyřikrát. V posledním sloupci je pak úspěšnost, použije-li se pro určení mluvčího všech promluv najednou. Z výsledku je patrné, že s delším úsekem řeči se úspěšnost značně zvýšila. Tabulka 7.1 Výsledky rozpoznání mluvčích. Krátká nahrávka Dlouhá nahrávka správná identifikace / počet nahrávek Úspěšnost [ % ] správná identifikace / počet nahrávek Úspěšnost [ % ] Speaker1 2/4 50 1/1 100 Speaker2 4/ /1 100 Speaker3 3/5 60 1/1 100 Speaker4 2/5 40 1/1 100 Speaker5 2/5 40 0/1 0 Speaker6 3/6 50 1/1 100 Speaker7 1/5 20 1/1 100 Speaker8 4/5 80 1/1 100 průměr 53,84 % 87,50 % 26
36 8 INTERFACE Celý algoritmus sloužící k rozpoznávání mluvčích, který je popsán v této práci, byl po úspěšném sestavení a otestování implementován do vytvořené aplikace obsahující grafické uživatelské rozhraní GUI (Graphic User Interface) pro lepší manipulaci s výsledným programem. Ukázka vytvořené aplikace je na obrázku 8.1. Obrázek 8.1 Ukázka uživatelského rozhraní a výběru záznamů z databáze. Jak je vidět, vytvořená aplikace umožňuje vybrání hlasového záznamu z databáze a jeho následnou analýzu. Vybírání záznamu je rozděleno jednak na trénovací slova /padesátikoruna/ a libovolný mluvený projev. Dále je pak na výběr mezi jednotlivými mluvčími a jejich konkrétním projevem. Po stisku tlačítka Zjistit se provede výše představený algoritmus a výsledek v podobě jména mluvčího určeného programem je zobrazen v okně spolu s počtem segmentů přiřazených jednotlivým osobám jak je vidět na obrázku 8.2. Obrázek 8.2 Výsledek rozpoznání mluvčího prezentovaný uživatelským rozhraním. Nebyl by problém přidat i funkci pro nahrání nového záznamu, jež by se dal zpracovat. Dotyčný by však musel být z okruhu již analyzovaných mluvčích, nebo by bylo nutné aplikaci rozšířit o algoritmus umožňující přetrénování a adaptaci aplikace na nové přidávané mluvčí, což může být otázkou úpravy dalších uživatelů pracujících s vytvořeným programem v rámci této diplomové práce. 27
ADA Semestrální práce. Harmonické modelování signálů
České vysoké učení technické v Praze ADA Semestrální práce Harmonické modelování signálů Jiří Kořínek 31.12.2005 1. Zadání Proveďte rozklad signálu do harmonických komponent (řeč, hudba). Syntetizujte
Úvod do praxe stínového řečníka. Proces vytváření řeči
Úvod do praxe stínového řečníka Proces vytváření řeči 1 Proces vytváření řeči člověkem Fyzikální podstatou akustického (tedy i řečového) signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí.
Pokročilé operace s obrazem
Získávání a analýza obrazové informace Pokročilé operace s obrazem Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 (BFÚ LF MU) Získávání
STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA
STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the
5. Umělé neuronové sítě. Neuronové sítě
Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně
Úvod do zpracování signálů
1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování
Neuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15
Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních
Využití neuronové sítě pro identifikaci realného systému
1 Portál pre odborné publikovanie ISSN 1338-0087 Využití neuronové sítě pro identifikaci realného systému Pišan Radim Elektrotechnika 20.06.2011 Identifikace systémů je proces, kdy z naměřených dat můžeme
Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš
KVANTOVÁNÍ ZVUKOVÝCH SIGNÁLŮ NÍZKÉ ÚROVNĚ Abstrakt Quantization of acoustic low level signals David Bursík, Miroslav Lukeš Při testování kvality A/D převodníků se používají nejrůznější testovací signály.
vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291
Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Semestrální práce: Rozpoznání hláskované řeči a převedení na text
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav mechaniky těles, mechatroniky a biomechaniky Technická 2, Brno 616 69 RSZ Základy zpracování signálu Semestrální práce: Rozpoznání hláskované
Klasifikace Landau-Kleffnerova syndromu
Klasifikace Landau-Kleffnerova syndromu malých dětí 1. Abstrakt Petr Zlatník ČVUT FEL, K13131 Katedra teorie obvodů Tento příspěvěk pojednává o klasifikaci Landau-Kleffnerova syndromu, který se projevuje
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
Algoritmy a struktury neuropočítačů ASN - P11
Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Semestrální projekt Vyhodnocení přesnosti sebelokalizace Vedoucí práce: Ing. Tomáš Jílek Vypracovali: Michaela Homzová,
Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného) 1 Obecný popis metody Particle Image Velocimetry, nebo-li zkráceně PIV, je měřící
Grafika na počítači. Bc. Veronika Tomsová
Grafika na počítači Bc. Veronika Tomsová Proces zpracování obrazu Proces zpracování obrazu 1. Snímání obrazu 2. Digitalizace obrazu převod spojitého signálu na matici čísel reprezentující obraz 3. Předzpracování
Návrh frekvenčního filtru
Návrh frekvenčního filtru Vypracoval: Martin Dlouhý, Petr Salajka 25. 9 2010 1 1 Zadání 1. Navrhněte co nejjednodušší přenosovou funkci frekvenčního pásmového filtru Dolní propusti typu Bessel, která bude
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík,, CSc. NEURONOVÉ SÍTĚ otázky a odpovědi 1 AKD_predn4, slide 8: Hodnota výstupu závisí na znaménku funkce net i, tedy na tom, zda bude suma
Využití tabulkového procesoru MS Excel
Semestrální práce Licenční studium Galileo srpen, 2015 Využití tabulkového procesoru MS Excel Ing Marek Bilko Třinecké železárny, a.s. Stránka 1 z 10 OBSAH 1. ÚVOD... 2 2. DATOVÝ SOUBOR... 2 3. APLIKACE...
Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
Teorie náhodných matic aneb tak trochu jiná statistika
Teorie náhodných matic aneb tak trochu jiná statistika B. Vlková 1, M.Berg 2, B. Martínek 3, O. Švec 4, M. Neumann 5 Gymnázium Uničov 1, Gymnázium Václava Hraběte Hořovice 2, Mendelovo gymnázium Opava
U Úvod do modelování a simulace systémů
U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení
Klasifikace hudebních stylů
Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů
13 Barvy a úpravy rastrového
13 Barvy a úpravy rastrového Studijní cíl Tento blok je věnován základním metodám pro úpravu rastrového obrazu, jako je např. otočení, horizontální a vertikální překlopení. Dále budo vysvětleny různé metody
DOKUMENTACE Identifikace pomocí otisků prstů
DOKUMENTACE Identifikace pomocí otisků prstů Lukáš Rajský, RAJ029 Aleš Seifert, SEI041 1. února 2003 1 1 Úvod První známý systém klasifikace otisku prstů byl zaveden v Indii na počátku minulého století
GIS Geografické informační systémy
GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu
Signál v čase a jeho spektrum
Signál v čase a jeho spektrum Signály v časovém průběhu (tak jak je vidíme na osciloskopu) můžeme dělit na periodické a neperiodické. V obou případech je lze popsat spektrálně určit jaké kmitočty v sobě
Kepstrální analýza řečového signálu
Semestrální práce Václav Brunnhofer Kepstrální analýza řečového signálu 1. Charakter řečového signálu Lidská řeč je souvislý, časově proměnný proces. Je nositelem určité informace od řečníka k posluchači
8. PŘÍSTUPOVÉ SYSTÉMY
Přístupový systém: Přístupové systémy 8. PŘÍSTUPOVÉ SYSTÉMY Systém řízení přístupu umožní osobě na základě prokázání oprávněnosti vstup nebo vjezd do objektu, případně do střežené části objektu. V literatuře
Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004
Dokumentace k projektu č. 2 do IZP Iterační výpočty 24. listopadu 2004 Autor: Kamil Dudka, xdudka00@stud.fit.vutbr.cz Fakulta Informačních Technologií Vysoké Učení Technické v Brně Obsah 1. Úvod...3 2.
NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY
TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY V PROSTŘEDÍ MATLAB K. Nováková, J. Kukal FJFI, ČVUT v Praze ÚPŘT, VŠCHT Praha Abstrakt Při rozpoznávání D binárních objektů z jejich diskrétní realizace se využívají
Statistické zpracování naměřených experimentálních dat za rok 2012
Statistické zpracování naměřených experimentálních dat za rok 2012 Popis dat: Experimentální data byla získána ze tří měřících sloupů označených pro jednoduchost názvy ZELENA, BILA a RUDA. Tyto měřící
MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ
MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ Aneta Coufalíková, Markéta Smejkalová Mazálková Univerzita obrany Katedra Komunikačních a informačních systémů Matlab ve výuce V rámci modernizace výuky byl
Neuronové sítě v DPZ
Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě
GIS Geografické informační systémy
GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu
Automatické rozpoznávání dopravních značek
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ Jiří Hofman Automatické rozpoznávání dopravních značek Semestrální práce z předmětu ITS 2012 Obsah 1. Automatické rozpoznávání dopravních značek (ATSR)...
PRODUKTY. Tovek Tools
jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.
xrays optimalizační nástroj
xrays optimalizační nástroj Optimalizační nástroj xoptimizer je součástí webového spedičního systému a využívá mnoho z jeho stavebních bloků. xoptimizer lze nicméně provozovat i samostatně. Cílem tohoto
Direct Digital Synthesis (DDS)
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Direct Digital Synthesis (DDS) Přímá číslicová syntéza Tyto materiály vznikly za podpory
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
ANALÝZA LIDSKÉHO HLASU
ANALÝZA LIDSKÉHO HLASU Pomůcky mikrofon MCA-BTA, LabQuest, program LoggerPro (nebo LoggerLite), tabulkový editor Excel, program Mathematica Postup Z každodenní zkušenosti víme, že každý lidský hlas je
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY
ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY V. Moldan, F. Rund Katedra radioelektroniky, fakulta elektrotechnická České vysoké učení technické v Praze, Česká republika Abstrakt Tento článek
Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).
Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ
VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ Markéta Mazálková Katedra komunikačních a informačních systémů Fakulta vojenských technologií,
Úvod do biometrie. Vladimír Lieberzeit vladimir.lieberzeit@upek.com UPEK Inc.
Úvod do biometrie Vladimír Lieberzeit vladimir.lieberzeit@upek.com UPEK Inc. Obsah Úvod do biometrie, základy Přehled biometrických metod Otisky prstů trochu podrobněji Úvod do biometrie Úvod do biometrie
Zvuková stránka jazyka
Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.00009 Zvuková stránka jazyka Zvukovou stránkou jazyka se zabývají dva vědní obory - fonetika a fonologie. Fonetika
PRODUKTY. Tovek Tools
Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních
UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Algoritmy a struktury neuropočítačů ASN P3
Algoritmy a struktury neuropočítačů ASN P3 SOM algoritmus s učitelem i bez učitele U-matice Vektorová kvantizace Samoorganizující se mapy ( Self-Organizing Maps ) PROČ? Základní myšlenka: analogie s činností
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY. MRBT Robotika
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
FONETIKA A FONOLOGIE I.
FONETIKA A FONOLOGIE I. AUTOR Mgr. Jana Tichá DATUM VYTVOŘENÍ 7. 9. 2012 ROČNÍK TEMATICKÁ OBLAST PŘEDMĚT KLÍČOVÁ SLOVA ANOTACE METODICKÉ POKYNY 3. ročník Český jazyk a literatura Český jazyk Fonetika,
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů
Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle
Teorie systémů TES 3. Sběr dat, vzorkování
Evropský sociální fond. Praha & EU: Investujeme do vaší budoucnosti. Teorie systémů TES 3. Sběr dat, vzorkování ZS 2011/2012 prof. Ing. Petr Moos, CSc. Ústav informatiky a telekomunikací Fakulta dopravní
Kontingenční tabulky v MS Excel 2010
Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data
fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který
BIOLOGICKÉ A LÉKAŘSKÉ SIGNÁLY VI. VARIABILITA SRDEČNÍHO RYTMU VARIABILITA SRDEČNÍHO RYTMU VARIABILITA SRDEČNÍHO RYTMU, tj. fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot okamžité
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby
Algoritmy a struktury neuropočítačů ASN P4 Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Vrstevnatá struktura - vícevrstvé NN (Multilayer NN, MLNN) vstupní vrstva (input layer)
Akustika. 3.1 Teorie - spektrum
Akustika 3.1 Teorie - spektrum Rozklad kmitů do nejjednodušších harmonických Spektrum Spektrum Jedna harmonická vlna = 1 frekvence Dvě vlny = 2 frekvence Spektrum 3 vlny = 3 frekvence Spektrum Další vlny
Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
Samoučící se neuronová síť - SOM, Kohonenovy mapy
Samoučící se neuronová síť - SOM, Kohonenovy mapy Antonín Vojáček, 14 Květen, 2006-10:33 Měření a regulace Samoorganizující neuronové sítě s učením bez učitele jsou stále více využívány pro rozlišení,
Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)
Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Petr Zlatník České vysoké učení technické v Praze, Fakulta elektrotechnická zlatnip@fel.cvut.cz Abstrakt:
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
Přejímka jedním výběrem
Přejímka jedním výběrem Menu: QCExpert Přejímka Jedním výběrem Statistická přejímka jedním výběrem slouží k rozhodnutí, zda dané množství nějakých výrobků vyhovuje našim požadavkům na kvalitu, která je
doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1
doc. Dr. Ing. Elias TOMEH e-mail: elias.tomeh@tul.cz Elias Tomeh / Snímek 1 Frekvenční spektrum Dělení frekvenčního pásma (počet čar) Průměrování Časovou váhovou funkci Elias Tomeh / Snímek 2 Vzorkovací
A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I
A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu I Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:16 Obsah přednášky Úvod Aplikace hlasové biometrické verifikace Základní princip
Učící se klasifikátory obrazu v průmyslu
Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:
11MAMY LS 2017/2018. Úvod do Matlabu. 21. února Skupina 01. reseni2.m a tak dále + M souborem zadané funkce z příkladu 3 + souborem skupina.
11MAMY LS 2017/2018 Cvičení č. 2: 21. 2. 2018 Úvod do Matlabu. Jan Přikryl 21. února 2018 Po skupinách, na které jste se doufám rozdělili samostatně včera, vyřešte tak, jak nejlépe svedete, níže uvedená
Simulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
[1] samoopravné kódy: terminologie, princip
[1] Úvod do kódování samoopravné kódy: terminologie, princip blokové lineární kódy Hammingův kód Samoopravné kódy, k čemu to je [2] Data jsou uložena (nebo posílána do linky) kodérem podle určitého pravidla
ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14
ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
Modifikace algoritmu FEKM
Modifikace algoritmu FEKM Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 9. 14. září 2012 Němčičky Motivace Potřeba metod
ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE AUTOREFERÁT DISERTAČNÍ PRÁCE 2005 JOSEF CHALOUPKA
KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ
KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ Marie Richterová 1, David Juráček 2 1 Univerzita obrany, Katedra KIS, 2 PČR MŘ Brno Abstrakt Článek se zabývá rozpoznáváním analogových a diskrétních
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
CW01 - Teorie měření a regulace
Ústav technologie, mechanizace a řízení staveb CW01 - Teorie měření a regulace ZS 2014/2015 tm-ch-spec. 1.p 2014 - Ing. Václav Rada, CSc. Ústav technologie, mechanizace a řízení staveb Teorie měření a
Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.
Komprese dat Radim Farana Podklady pro výuku Obsah Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese videa Velký objem přenášených dat Typický televizní signál - běžná evropská norma pracuje
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam
UČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení