Speciální struktury číslicových systémů ASN P12

Podobné dokumenty
Algoritmy a struktury neuropočítačů ASN - P11

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Pavel Cenek, Aleš Horák

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

7 Další. úlohy analýzy řeči i a metody

Vytěžování znalostí z dat

Algoritmy a struktury neuropočítačů ASN P6

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Roviny analýzy jazyka. Fonetika

Úvod do praxe stínového řečníka. Úvod

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Klasifikace Landau-Kleffnerova syndromu

5. Umělé neuronové sítě. Neuronové sítě

ZČU v Plzni Fakulta aplikovaných věd Katedra kybernetiky

3. Vícevrstvé dopředné sítě

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Trénování sítě pomocí učení s učitelem

Řečové technologie pomáhají překonávat bariéry

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Algoritmy a struktury neuropočítačů ASN - P1

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

Umělé neuronové sítě

MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE

ití empirických modelů při i optimalizaci procesu mokré granulace léčivl ková SVK ÚOT

ŘEČOVÉ TECHNOLOGIE v PRAXI

Učící se klasifikátory obrazu v průmyslu

Umělá inteligence pro zpracování obrazu a zvuku

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Neuronové sítě v DPZ

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

StatSoft Úvod do neuronových sítí

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Optimalizace rychlosti výběru řečových jednotek v konkatenační syntéze řeči. Ing. Jiří Kala

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

LS 2013 Teorie skrytých Markovových modelů. Tino Haderlein, Elmar Nöth

Vyučovací předmět ruský jazyk vychází ze vzdělávacího oboru Další cizí jazyk, který je součástí vzdělávací oblasti Jazyk a jazyková komunikace.

Podporováno Technologickou agenturou České republiky, projekt TE

Neuronové časové řady (ANN-TS)

NAKI - ČRo archiv - Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání

Algoritmy a struktury neuropočítačů ASN P3

Emergence chování robotických agentů: neuroevoluce

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Zpracování biologických signálů umělými neuronovými sítěmi

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

Lombardův efekt v řečové databázi CLSD

Moderní systémy pro získávání znalostí z informací a dat

PV021 Vícevrstvá neuronová síť pro rozeznávání mikroteček. Matúš Goljer, Maroš Kucbel, Michal Novotný, Karel Štěpka 2011

Školní vzdělávací program

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Neuronové sítě. 1 Úvod. 2 Historie. 3 Modely neuronu

Neuronové sítě Ladislav Horký Karel Břinda

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Algoritmy a struktury neuropočítačů ASN - P13

Algoritmy a struktury neuropočítačů ASN - P2. Topologie neuronových sítí, principy učení Samoorganizující se neuronové sítě Kohonenovy mapy

Asistivní technologie

ANALÝZA SIGNÁLŮ SPOJITÉ AKUSTICKÉ EMISE

6.1 I.stupeň. Vzdělávací oblast: Cizí jazyk Vyučovací předmět: ANGLICKÝ JAZYK. Charakteristika vyučovacího předmětu 1.

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Univerzita Pardubice Fakulta-ekonomicko správní

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

Umělá inteligence a rozpoznávání

A2M31RAT- Řečové aplikace v telekomunikacích

O projektu Speech Laboratory. O projektu DB

4. Francouzský jazyk

Algoritmy a struktury neuropočítačů ASN P8b

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

OSA. maximalizace minimalizace 1/22

Využití neuronové sítě pro identifikaci realného systému

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Předmět: Český jazyk a literatura

PŘEDMLUVA 11 FORMÁLNÍ UJEDNÁNÍ 13

LOKALIZACE ZDROJŮ AE NEURONOVÝMI SÍTĚMI NEZÁVISLE NA ZMĚNÁCH MATERIÁLU A MĚŘÍTKA

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Český jazyk a literatura

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

7. Geografické informační systémy.

Klasifikace hudebních stylů

NEURONOVÉ SÍTĚ PŘI KLASIFIKACI MLUVČÍCH NEURAL NETWORKS IN SPEAKER CLASSIFICATION

Kybernetika a umělá inteligence, cvičení 10/11

Už bylo: Učení bez učitele (unsupervised learning) Kompetitivní modely

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Základy umělé inteligence

Využití metod strojového učení v bioinformatice David Hoksza

Úvod do optimalizace, metody hladké optimalizace

METODIKA ZPRACOVÁNÍ EKONOMICKÝCH ČASOVÝCH ŘAD S VYUŽITÍM SIMULÁTORŮ NEURONOVÝCH SÍTÍ

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Předmět: Konverzace v ruském jazyce

Transkript:

Aplikace UNS v syntéze řeči modelování prozodie druhy syntezátorů Umělé neuronové sítě pro modelování prozodie Rozdíly mezi přirozenou a syntetickou řečí Požadavky: zlepšování srozumitelnosti zlepšování kvality prozodie snížení monotónnosti Aplikace NN Úlohy k řešení: jaký je vliv vstupních parametrů jaký je vliv volby vět pro trénování a testování jaká je míra závažnosti při výběru vlastností jazyka volba metodiky Architektura NN: vícevrstvá síť s učitelem, BPG algoritmus 1 resp. 2 skryté vrstvy sigmoida ve skrytých vrstvách lineární funkce ve výstupní vrstvě Software: MATLAB, (verze 6.5, 7.0), NN-toolbox

malá databáze : - 25 krátkých vět (18 trénovacích + 7 testovacích) oznamovací věty, varování, otázky trénovací: 18 vět, 78 slov, 465 vstupních vektorů (po transkripci) testovací: 7 vět, 19 slov, 136 vstupních vektorů (po transkripci) - 15 dlouhých vět (sport, kultura, všeobecné) počet slabik ve větách: 2-38 segmentace na fonémy 1 profesionální mužský mluvčí ruční segmentace velká databáze: - 112 dlouhých vět (103 trénovacích + 9 testovacích) oznamovacích vět (zprávy o počasí) trénovací: 103 vět, 978 slov, 6212 vstupních vektorů (po transkripci) testovací: 9 vět, 127 slov, 861 vstupních vektorů (po transkripci)

jazyk je složitý komplex jevů jedná se o otevřený systém, který se vyvíjí nelze vytvořit skutečně reprezentativní množinu pro trénování korpus je třeba sestavovat z namluvených vět se známým textem rozdělení na množinu vstupních vektorů používaných v procesu trénování validačních vektorů používaných pro průběžnou kontrolu (monitorování) trénovacího procesu. Hledání relevantních charakteristických vlastností češtiny dříve - na základě konzultací s fonetickými experty dnes - pomocí logicko-statistické metody GUHA (původní metoda vyvinutá v UI AV ČR) slouží jako vstup do NN ( 1 vlastnost = 1 neuron) počet skrytých neuronů - optimální počet pomocí klestění Vyhodnocení: grafické výsledky jsou doplňovány poslechovými testy

Druhy syntézátorů NETTalk - USA, 1986 (T.Sejnowski & Ch. Rosenberg) třívrstvá NN s BPG konvertující text na řeč - TTS nelineární aktivační funkce spojité vstupy pro střední skupinu 3+3 kontext Architektura: 203-80 - 26 vlastnosti fonému 7 skupin po 29 jednotkách 23 písmen+2 hranice slov (později 5) - skupin=okno + znamínko (přízvuk) 1 písmeno vstupního textu posouvá se po oknech, změna vah po přivedení celého slova Učení : 2 texty pro trénování spojitá řeč + 20 012 slov ze slovníku + 1000 nejužívanějších slov Inicializace: náhodná čísla, unipolární rozložení, (-0.3; +0.3) moment 0.9 learning rate 2.0 chyba 0.1 Úspěšnost: 95% pro 50 000 slov (perfektně 55%) test 78% pro 439 slov (perfektně 35 %), stejný mluvčí

Schematický obrázek architektury NETtalku okno s anglickým textem je přivedeno na vstup UNS vícevrstvá UNS (1 skrytá vrstva) struktura 203-80-26 text anglické hlásky počet vah a prahů: 18 629 / k / výstup učitel skrytá vrstva 80 neuronů ( c a t ) Vstup 28 čtveřic

SVOX - Švýcarsko, 1995 (Ch.Traber & M.Riedi & B.Pfister) TTS systém, pro syntézu a rozpoznání LPC (dnes TD-PSOLA) (Time-domain pitch-synchronous-overlap- add) syntaktická a morfologická analýza hardware: SUN/SPARC software: UNIX segmentace 15 ms, poloslabiky (semisyllabels) 186 vět, 11 textů z novin pomocí NN F 0 a trvání (odděleně) trénovací soubor: 100 vět testovací soubor: 86 vět labelování: kombinovaně (automaticky i ručně) Architektura: Elmanova síť (se zpětnou vazbou)

SSC - P11 Architektura systému SVOX:

Rekurentní TDNN - Motorola, USA, Speech Processing Laboratory pro TTS 1 mluvčí (muž) z oblasti Chicago, 36 let (doplněno po 2 letech) 480 vět z Harwardské databáze (otázky, izolovaná slova, právnická tématika, dramata nahráno ve speciální zvukové komoře fonetické labelování (viz TIMIT), přídavné informace: označení slabiky, slova, věty, hranic, význam slov, primární a sekundární přízvuková prominence NN-Fuzzy + HMM - France-Télecom- CNET, Francie pro automatickou segmentaci 3 databáze, 800 mluvčích, po telefonu, 10 fr.číslic, Tregor databáze (36 fr. slov), databáze číslovek (každá databáze se dělí na tréninkovou a tëstovací) Architektura: 48 vstupů (charakteristiky pro HMM)

Target = 1 pro existenci fonetického vzorku 0 pro neexistenci fonetického vzorku Hybridní HMM / ANN Belgie, Mons (francouzština) syntezátor MBRola - difónové řetězení F 0, trvání 18 kepstrálních koeficientů z LPC 12. stupně 18 delta-kepstrálních koef. 38 koef. energie delta-energie Segmentace - DTW (dynamic time warping) - minimalizace vzdálenosti databáze francouzštiny BREF-80 Le Monde, 80 mluvčích 3 737 vět, 56 mluvčích (trénovací) 144 vět, 8 mluvčích (4+4) LPC, řád 10 26 dimenzionální vektor koef. 9 vzorků pro kontextové informace fonetické labelování Architektura: MLP, 234 vstupů úspěšnost: 63.8% - 82% (nejčastější chyby: přechod vokál/vokál, vokál/nasal, přechody s plosivy)

České syntezátory Hlasové informační technologie Hlasová počítačová syntéza, počítačové rozpoznávání mluvené řeči, hlasové dialogové systémy (informace po telefonu). Přístup k informacím odkudkoliv (pevný telefon, mobil), používání rukou a očí není nutné (vhodné pro handicapované), automatické zpravodajské, informační a spojovací služby, řízení počítače a robotů hlasem, jazykové překladače, automatický přepis diktátu). DEMOSTHENES FI MU Brno TTS systém se základní jednotkou slabikou Otevřený systém, přenositelný, modulární, flexibilní Jazyk: čeština http://www.fi.muni.cz/~kopecek/demosthenes.htm v současné době už není funkční velmi nízká kvalita dat ukázka: Dobrý den přeje syntetizer DEMOSTHENES

EPOS - ÚRE AV ČR Systém pro TTS syntézu (otevřený). Je téměř nezávislý na jazyce a na způsobu jeho zpracování. Je nezávislý na metodách lingvistického popisu. Je nezávislý na výpočetním prostředí. Umožňuje paralelně zpracovávat více úloh (různé jazyky) Začátek v roce 1996, poslední verze 2-4-85 prosinec 2009 určeno pro výzkum, výuku a osobní používání (nekomerční) jazyk: čeština, slovenština (výhledově němčina, latina) založen na bázi LPC a zpracování řeči v časové oblasti, mužské a ženské hlasy modelování prozodie: podle pravidel původní na základě prozodických modelů a UNS

ARTIC FAV ZČU Plzeň TTS syntéza Modulární systém (zpracování textu a syntéza řeči) Řetězení trifónů Automatické vytváření řečové databáze http://www.kky.zcu.cz/cs/video Produkuje firma SpeechTech, s.r.o. (spin-off firma ZČU) pod názvem ERIS TTS Engine. Jazyk: čeština, slovenština, angličtina Ukázka: Lze napsat vlastní text nebo použít automatický (zprávy.idnes.cz, sport.idnes.cz) Výběr hlasu: čeština 4 ženy, 4 muži slovenština 2 ženy angličtina 2 ženy Monotónní hlas, prozodie (podle pravidel, laboratorně ve vývoji pomocí UNS a HMM) Volba (relativní) F0 a rychlosti promluvy