transkribovaný text Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam.
|
|
- Břetislav Bárta
- před 9 lety
- Počet zobrazení:
Transkript
1 Syntéza řeči z psaného textu 1 Úvod 1.1 Základní schéma Text-To-Speech systému Struktura nějakého abstraktního TTS systému vypadá následovně: text normalizace fonetický přepis transkribovaný text modelování prozódie syntéza řeči vaweform 1.2 Základní termíny Text je většinou nějaký spec. případ, např. y atp., text i transkripce většinou v nějaké formě obsahuje značky pro suprasegmentální fonémy. Syntéza řeči je jen jedna z částí TTS systému, to je nutné rozlišovat. Jde možná o nejsložitější a nejdůležitější součást, ale její vstup není text. Normalizace je někdy nutá provádět, někdy ne. Obsahuje např. vyházení hlaviček z ů, příp. přidání spec. prozódie pro ně atd. Používá se, aby stejný TTS systém mohl být použit k různým věcem (předpřipravení textu podle jeho očekávaného typu). Grafém, písmeno, letter je nejmenší jednotka psané podoby jazyka. S některými jsou problémy, zda je považovat za jediný grafém (např. písmena s diakritikou), ale nám to většinou bude jedno. Hláska, sound je nejmenší jednotka zvukové podoby jazyka. Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam. Fonetický přepis je přepis zvukové podoby textu, zaznamenávající hlásky, příp. suprasegmentální jevy. Může být postavená na pravidlech nebo na slovníku (ale vždy se používají oba komponenty, jeden slouží jako doplněk). Největší problém dělá přepis v jazycích, které např. neznačí samohlásky. 2 Fonetika a fonologie Potřebujeme jednak popis výslovnosti, jednak popis akustiky (zvukových vln, jimiž se jednotlivé hlásky projevují). Můžu mít i popis vnímání (percepce) hlásek, ale ten pro naše účely není nezbytný. Hlavní rozdíl mezi fonetikou a fonologií je ten, že fonetice jde o víceméně fyzikální akustický popis všech zvuků a hlásek, kdežto fonologii zajímá systém, struktura jazyka. Pro fonologický výzkum narozdíl od fonetiky potřebujeme alespoň nějaké základní informace o daném jazyce. 2.1 Akustika Jednotlivé hlásky jsou složené zvuky (vlnění vzduchu), obsahující tónové (periodické) a šumové (neperiodické) složky. Rozlišujeme je právě podle složení jejich zvuku, např. konsonanty mají větší podíl šumových a vokály tónových složek, konsonanty se dále liší svou znělostí či neznělostí jako přítomností tónových složek. Hlasové ústrojí se dá zjednodušeně představit jako zdroj zvuku (hlasivky) a rezonanční prostor (nadhrtanové dutiny). Hlasivky kmitají na nějaké základní frekvenci (F 0, pro muže cca 100 Hz, pro ženy přibližně dvojnásobná) a v nadhrtanových dutinách se podle jejich tvaru zesilují některé harmonické frekvence. Rezonance probíhá stejně jako ve z jedné strany otevřeném prostoru, tedy zesílená je frekvence f 2, 3f 2, 5f 2... pro nějaké f. Zvuk můžeme rozložit na frekvenční spektrum a zkoumat sílu zastoupení jednotlivých frekvencí v čase. Provádí se to běžně na počítači pomocí Fourierovy analýzy, výsledkem je spektrogram (trojrozměrný diagram, kde osy jsou Syntéza řeči z psaného textu 1
2 čas a frekvence a síla zastoupení je vyznačena barevně). Záznam nikdy není přesný frekvenční rozlišení je omezené. Přepočítáváním nahrávky na frekvence v čase vznikají artefakty (chyby). Formanty Výrazně zesílené frekvence číslujeme F 1, F 2 atd., a nazýváme formanty. Prvních několik je zastoupených v signálu vlivem výslovnosti, příliš vysoké frekvence ale už clověk neovlivní. Proto při záznamu zvuku snímáme úmyslně, jen úzké pásmo (např. do 5 nebo 9 khz), čímž ztratíme maximálně čistotu zvuku, ne už informaci o vyslovených hláskách. Frekvence, které jsou na spektru zvuku úmyslně potlačeny, nazývame antiformanty. Některé hlásky se dají odlišit právě absencí některých frekvencí, např. u nosových hlásek dochází vlivem průchodu vzduchu nosem k fázovému posunu vlnění a některé frekvence jsou právě tím potlačeny. Formanty se výrazně změní i při malé výšce hlasu (jde o to, jak dobře vyšší harmonické frekvence F 0 odpovídají rezonančně zesilovaným frekvencím v hlasovém ústrojí). U konsonantů (hlavně u neznělých) většinou nehledáme formanty, ale transienty jde o přechody ve spektru, na místě, kde začínají nebo končí formanty okolních samohlásek. Místo, kam transienty ukazují (tedy hypotetický bod na spektru) pro danou souhlásku nazýváme locus. Bod locu je důležitý pro rozpoznání neznělých hlásek, považuje se za centrum jejich šumu. Analýza spektrogramů Samohlásky mají nejvýraznější formanty (F 1, F 2,... ). Pokud není u nějaké hlásky přítomna F 0 (a tedy ani výrazné vyšší formanty), jedná se o neznělou hlásku. Podle šumu (nekoncentrovaný signál po velké části spektra) se poznají frikativy (šumové hlásky). Explozivy (závěrové hlásky) se poznají okamžikem ticha a následným šumem exploze. 2.2 Fonetická abeceda IPA Abeceda IPA slouží pro fonetickou transkripci, hlavně v jazykově nezávislém prostředí. Některé jazyky ji používají i pro zápis své výslovnosti, v některých se používají jiné abecedy, protože jsou pro ně šikovnější (např. v češtině). Hlásky, kterým je přiřazena jedna značka, se mohou napříč jazyky lišit jde jen o aproximaci. Pro odlišení hlásek v rámci jednoho jazyka ale většinou plně dostačuje. 2.3 Vokalický systém Vokály Extremální hlásky jsou [i] (jazyk je nahoře vepředu), [u] (nahoře vzadu), [a] (dole uprostřed). Některé zvuky si v různých jazycích více či méně odpovídají, některé jazyky rozlišují více vokálů než jiné. Rozlišení může být podle několika různých vlastností najednou (a některé jejich kombinace nemusí být povolené). Existuje jazyk, který má jen 2 vokály, hodně jazyků má jen 3 (právě ty extremální). Akustický popis Používáme tak krátké zvuky, že se nezmění pozice jazyka ( statický zvuk ), ale už se můžou analyzovat frekvence, ze kterých se zvuk skládá. Zajímáme se o lokální maxima frekvencí. Tím nalezneme nejnižší lokální maximum základní frekvenci F 0 a některé její vyšší harmonické frekvence. Jedná se vždy o rezonanční maxima, vlastnosti rezonančního prostoru se pro jednotlivé vokály mění (mění se jeho tvar posouváním jazyka), takže se mění i zesílené frekvence. Syntéza řeči z psaného textu 2
3 Vezmeme-li první a druhé zesílené maximum (formanty) F 1 a F 2, dostaneme následující schéma: F 2 i (Hz) e u o a F 1 (Hz) Vypadá úplně analogicky k artikulačním pozicím, protože se posouváním jazyka mění právě výška a délka rezonančního prostoru (přibližně). Na prvních dvou formantech vokálů je tedy toho dost poznat o jejich barvě. Hodnoty samozřejmě nevycházejí vždy stejně, a to ani pro toho samého mluvčího, ale přibližné umístění odpovídá. 2.4 Konsonantický systém Tvoření hlásek Základní dělení konsonantů je na znělé, voiced a neznělé, voiceless. Ty se liší přítomností základního hlasového tónu (tj. kmitáním hlasivek při jejich tvorbě). Pro neznělé hlásky jsou hlasivky v klidové poloze, nekmitají, jsou od sebe oddáleny (při šeptání pro všechny hlásky). Při vyslovování znělých hlásek jsou hlasivky těsně u sebe a kmitají. Zjistit, která hláska je znělá a která ne, je docela jednoduché: stačí si podržet prst na hrtanu. Podle místa artikulace rozlišujeme: labiály, obouretné [p, b, m, B] labiodentály, retozubné [f, v, M] dentály, zubné [T, D] prealveoláry [t, d, s, z, > ts, > dz, r] postalveoláry [S, Z] palatály, tvrdopatrové [c, é, ñ, ç] 1. veláry, měkkopatrové [k, g, x] uvuláry, čípkové [R, K, X] glotály, hlasivkové [P, h, H] Podle způsobu tvoření rozlišujeme: plozivy, závěrové: nejdřív se nastaví jazyk jako překážka a úplně uzavře cestu výdechovému proudu (onset). Potom nastává exploze, závěr se uvolní. Exploze je nejvýraznější část hlásky. Jde např. o [p, b, t, d, k, g, c, é, h]. Příkladem plozivy je i hlasivkový ráz (úplné uzavření hlasivkové štěrbiny, následné explozivní otevření) [P]. nasální, nosové plozivy: mají stejně závěr a explozi jako obyčejné, ale celou dobu probíhá vzduch i nosem, takže během závěru není ticho. To je např. [m, n, ñ, N]. frikativy, šumové: nasazení jazyka (onset) už je slyšitelný, mezi jazykem a patrem zůstává stále nějaká štěrbina, která propouští vzduch (nastává tření friction), exploze není přítomna. Frikativy začínají a končí postupně. Např. [s, z, S, Z, ç, x, f, v]. afrikáty, polozávěrové: jsou podobné kombinaci plozivy a frikativy, v IPA fonetickém zápisu se tak píšou. Exploze se ale vynechá, uvolnění napětí přechází do frikce (šumu se štěrbinou). Podle nepřítomnosti exploze se dají poznat od kombinace ploziva + frikativa. V češtině je to [ > ts, > ts, > dz, > dz]. 1 Ve fonetické abecedě IPA jsou pro české hlásky ť, ď, ň používány znaky c, é, ñ Syntéza řeči z psaného textu 3
4 vibranty, trills: jsou podobné frikativám, jen jazyk nezůstává na jednom místě, nýbrž kmitá. Pohyby jazyka přitom nejsou ovládány vůlí, jsou velmi rychlé. Většina jazyků používá 2-3 kmity, někde se počtem kmitů odlišují různé hlásky (např. ve slovenštině). Příkladem jsou [r, R, K]. bokové hlásky, laterály: v češtině máme jen jednu: [l]. Princip je ten, že uprostřed ústní dutiny dochází k úplnému závěru, ale po krajích jazyka může vzduch dál proudit. Existuje spousta jiných, i neznělých laterálů (např. ve velštině). aproximanty: jsou podobné frikativám, ale mají mnohem méně šumu, všechen jejich zvuk je v podstatě vytvářen hlasivkami a rezonancí, jsou velmi blízké samohláskám. Jde např. o [j, w]. U neznělých hlásek se obvykle projevuje větší síla svalového napětí, tj. hlásky se nazývají fortisové. U znělých je síla menší, nazývají se pak lenisové. S velkým svalovým napětím souvisí u ploziv i přídechy, aspirace, které se někdy zejmena u neznělých hlásek vyslovují. Jde o prodloužení závěru a exploze, aspirace vzniká vždy v místě artikulace. Přístup k aspiracím se však jazyk od jazyka liší, např. v češtině aspirace nemáme, angličtina a němčina aspirují neznělé hlásky, některé jazyky mohou mít i aspirované znělé hlásky. Hlásky je možné rozlišovat i podle postavení jazyka při jejich tvoření: apikální artikulace je výslovnost špičkou jazyka tj. překážku vytváří špička jazyka, jako např. u [t, l]. laminální artikulace je výslovnost horní ploškou jazyka, např. u [c]. retroflexní artikulace je výslovnost spodní ploškou jazyka jazyk je otočený vzhůru nohama. Tento způsob vyslovování je běžný pro indické jazyky. Akustický popis Pro popis konsonantů jsou určující transienty a bod locu. Locus se dá zhruba odhadnout podle místa tvoření čím zadnější hláska (čím blíž je místo tvoření hlasivkám), tím vyšší je locus. To je tedy přesně opačně, než F 2 u samohlásek. Předpokládá se, že F 2 je vyjádřeno místem největšího rozšíření výdechové cesty, kdežto locus právě místem překážky; přesný důvod tohoto jevu ale znám není. Pro nosovky je charakteristický nasální komponent na frekvenci cca Hz (tedy pro vysoké hlasy nevýrazný) a potlačení formantu F 1 (vzniká antiformant). Proto někdy vzniká zdání, že F 1 se u nosovek snižuje, ale není tomu tak, jde o jiný zvuk. 2.5 Prozódie Prozódie zahrnuje všechny vlastnosti, které se projevují nad hranicemi segmentů. Sestává z: F 0 základní tón hlasu, voice pitch časování, timing intenzita Intenzita není totéž, co hlasitost narozdíl od ní jde o produkční veličinu, která je měřitelná objektivně. Hlasitost je percepční dojem, kromě amplitudy vlnění (tedy intenzity) je ovlivňován i časováním (prodloužení vzbuzuje dojem vyšší hlasitosti). Pro TTS systémy zas tak podstatná intenzita není. Vždy tu pracujeme jen s relativními hodnotami a prominencí (zvýrazněním) v některé z nich. Prozodická struktura textu Hlásky existují až ve slabikách. Slabika je nejmenší část mluveného textu, která se dá zopakovat izolovaně konsonant je vždy závislý na vokálu své slabiky a naopak. Vyšší jednotka je přízvukový takt, fonologické slovo, stress unit. To je skupina slabik, z nichž na jedné je přízvuk. Na to, na které, existují pravidla dělení stress unit je jednoduché, horší je definovat, co to je vlastně přízvuk. To závisí na konkrétním jazyku a jedná se o kombinaci timingu, intonace i intenzity (prominence v některé z těchto hodnot). Syntéza řeči z psaného textu 4
5 Přízvuk není totéž, co zvýraznění (emphasis), nezávisí vůbec na sémantice. Je to věc syntaxe, pomáhá lidem dělit slova. Nad úrovní slov rozlišujeme intonační jednotky, intonation contours. Ty jsou relativně nezávislé, mezi nimi má člověk tendenci dělat pauzu v řeči. Jejich rozlišení ale není úplně přesné. Nejvyšší jednotkou je celé vyjádření, utterance. Např. v dialogu odpovídá větě, ale může být i delší. Finální intonace vyjádření je terminální. Přízvuk v různých jazycích Existují dva druhy jazyků, co se přízvuku týče: stress-timed v takových jazycích mají mluvčí tendenci dělat stejně dlouhé přízvukové takty. syllable-timed v těchto jazycích je tendence k vyslovování slabik stejně dlouze. Mám-li dlouhé slovo, tedy hodně slabik na jeden přízvuk, budou u stres-timed jazyků slabiky krátké, kdežto u syllabletimed bude prostě přízvukový takt trvat déle. Příkladem prvního typu je angličtina, k druhému např. čeština. Slabičná melodie Melodie má v některých jazycích distinktivní funkci stejné slabiky s jinou melodií mají jiný význam. Takové jazyky se nazývají tónové. Větná melodie ale může mít zároveň jinou funkci. Mikroprozódie Mikroprozódie zahrnuje všechno, co se děje v rámci jedné hlásky, ale je ovlivňováno okolím. Má vliv na velkou prozódii. Je podvědomá, záleží i na konkrétních hláskách. Mikroprozodickým fenoménem je např. délka hlásky (záleží ale na tom, jestli délka hlásky rozlišuje význam, jestli dlouhá a krátká hláska jsou samostatné fonémy). Další je např. změna tónu hlasu v rámci jedné hlásky. Běžný TTS systém se mikroprozodií nezabývá, protože ji má nahranou ve svém korpusu segmentů; prozódií se ale zabývat musí. 2.6 Problémy fonologického popisu Jedním z problémů je popis diftongů (dvojhlásek) jako jednotlivých segmentů. Buď je můžeme považovat za dva fonémy (dvě hlásky), nebo za foném jediný. Potom např. anglické slovo fire [fai@] mohou být dva, tři nebo čtyři fonémy. V češtině se s tím setkáváme taky, někdo neuznává žádné diftongy, někdo jen domácí [ ou], > jiní i přejaté [ au], > [ eu]. > S tím se setkám při vytváření korpusu, když chci kombinaci všech hlásek. Problém je i vnímání slabik to je jazykově závislé. Když definuju slabiku jako peak in sonority, bude slovo lžu sestávat ze 2 slabik. Další problém jsou aproximanty [ ou] > a [ ow] > se vlastně zvukově neliší, záleží jen na interpretaci a převládajícím popisu jazyka. 3 Stavba Text-To-Speech systému 3.1 Normalizace Někdy se dohromady s normalizací dělá chunking, tj. rozdělení textu na dostatečně malé kousky pro zpracování, někdy je jako samostatný krok. Data se musí rozdělit někde, kde je to možné (ne např. uprostřed věty). 3.2 Fonetický přepis Jde o přepis letter-to-sound, tedy přepisujeme grafémy na hlásky. Odlišují se dva přístupy: založený na pravidlech, rule-based založený na slovníku, dictionary-based Syntéza řeči z psaného textu 5
6 V dnešních systémech jsou v podstatě vždy přítomna i pravidla i slovník, ale jedna metoda je vždy primární, druhá doplňková. Mám-li totiž slovník, nemůže zahrnovat všechna slova (problémem je např. flexe). Pravidla také nepostihnou vše, vždy se vyskytnou výjimky (možností je ovšem napsat slovník přímo do syntaxe pravidel). Pro pravidla se de facto dají použít regulární výrazy, tj. přepisy se zapojením kontextu na obě strany. Většinou neoperují přímo nad textem, ale nad nějakými speciálně vytvořenými datovými strukturami. Ty nemusí být vůbec lineární, používají se např.: multi-level data structures vrstevnaté s konečným počtem vrstev, odpovídajících např. hlásce, slabice, morfému, přízvukovému taktu, promluvovému úseku nebo větě. Dostanu tak strom s konečným počtem vrstev, se kterým je snadné pracovat, mohu mít transformační pravidla pro různé úrovně feature structures je založeno na distinktivních rysech (např. znělost, místo artikulace atd.) jednotl. hlásek (ze kterých se hlásky dají skládat). Jsou také na různých úrovních, jejichž počet není fixní. Některými pravidly musí dojít k zjednoznačnění (disambiguization) textu, např. různou diakritika apod. je nutné správně interpretovat tečka např. může mít spoustu významů. Někdy se hodí víc (jazykově závislá) pravidla, někdy zas slovník, např. na interpretaci anglického členu the se hodí hlavně pravidla, ale bez slovníku to také nejde (srov. the oak proti the one ). Rozhodnutí pravidla versus slovník můžu dělat pro každý jednotlivý problém zvlášť. Pravidla můžu taky aplikovat buď jedním průchodem, nebo opakovaně. Typický postup pravidel je následující:2 1. morfosyntaktická pravidla Jedná se hlavně o určování slovních druhů apod. Používá se přitom hlavně slovník a statistické četnosti naměřené v nějakém korpusu. Někdy se provádí morfosyntaktické parsování věty, ale to je dost složité; většinou přitom nějaké nejednoznačnosti ponechávám, pokud mi nevadí pro další práci, nezískávám víc informací, než kolik je nutné. Příkladem takových pravidel může být i doplňování samohlásek v textech psaných souhláskovým písmem. 2. kontextová pravidla Tato pravidla např. rozvíjejí zkratky, přibližují text čtené podobě. 3. strukturální pravidla Výstup těchto pravidel se používá pro modelování prozódie jde např. o identifikaci druhů vět, což umožní jejich správnou intonaci. Zjišťování struktury textu (pro vytváření prozódie) se (i lidem) dělá lépe na něčem, co je bližší textu než řeči. Např. zde neztrácíme v češtině informaci o mě a mně, která se může ještě hodit (druhé má mnohem spíš přízvuk). 4. pravidla fonetického přepisu (letter-to-sound) Tady se převádí pravopis na výslovnost, mohou se používat různá pravidla pro výjimky (např. angl. sh přepíšu [S], ale předtím oddělím morfémy spec. znakem, abych vyloučil slova jako hogshead, nebo česky diagram změním na dyagram, abych se vyhnul měkčení). Text přechází plynule z ortografického do fonetického zápisu. 3.3 Modelování prozódie Prozódie je vlastně ovlivňovaná syntaxí (ve skutečnosti přímo významem věty, ale ten se syntaxí souvisí), případně nějakými emocemi, jednotlivostmi mluvčího, ale ty se vystihnout nedají. Mělo by se dávat pozor i na mikroprozódii tedy vystihnout prozodické fenomény, ale nenechat se zmást mikroprozodickými. Fudžisakiho intonační model Intonace během řeči odpovídá změnám základní hlasové frekvence (F 0 ), na ostatních prozodických veličinách je víceméně nezávislá. Pro modelování intonace je nejznámější Fudžisakiho model. Ten sestává z phrase commands a accent commands. První typ pravidel je trvanlivější, působí v podstatě na celou větu, vždy od daného času a s danou amplitudou (zvednutím nebo snížením F 0 ) a postupně doznívá. Druhý typ má kratší trvání, má definovaný čas začátku i konce a zase amplitudu. Výsledná F 0 v daném časovém bodě se (v logaritmické podobě) dá vyjádřit jako 2 Tohle samozřejmě závisí na jazyce, pro některé řeči nemusí být některé kroky potřeba. Pořadí provádění jednotlivých druhů pravidel taky může záviset na jazyce. Syntéza řeči z psaného textu 6
7 nějaká suma všech commandů, které působí, plus základní frekvence. Tímto způsobem můžu modelovat F 0 v podstatě s libovolnou přesností, je nutné najít ale vhodný poměr počtu commandů na slovo k velikosti chyby, protože jinak neúměrně rostou náklady na data i výpočet. Vytváření prozodického inventáře Prozodické modely je ale nutné nejprve zprovoznit (dodat správné hodnoty), a to naučením dat z korpusu např. mám-li v jazykových datech na některých místech důrazy, musím zjistit, kde a kam je podle toho dávat, příp. jak souvisí s trváním a intenzitou slabik. Potřebuji tedy prozodický korpus, automatické nástroje na zpracování a prozodický model. Postup vytváření prozodického inventáře vypadá pak následovně: korpus detekce F 0 model trénování / pravidla (inventory) rule extraction K mluvenému korpusu můžu počítat i s jeho textovou reprezentací a strukturálními informacemi např. informace o hranicích slov a přízvučných slabikách atp., které se dají zjistit automatickými nástroji. De facto by mělo být možné i použít stejné algoritmy na trénování a následné generování. Krok trénování, extrakce pravidel probíhá buď automaticky za pomoci neuronové sítě (trénování), nebo úplně ručně, kdy někdo prostě odhadne, jak struktura věty (podle interpunkce, hranice slov apod.) souvisí s prozódií (extrakce pravidel). Vždy je nutné mít nějaké náhodné faktory nebo více kontur, ze kterých si pro větu vybrat, aby zněl výsledek přirozeně. Ruční popis je velice složité získat, vhodné je mít nějakou teorii už předem. Můžu se taky dostat do stavu, kdy pravidla ručně už vylepšit nejdou a výsledek pořád není optimální; je také velice nákladné změny testovat. Ruční extrakce pravidel taky tíhne k determinismu, těmito problémy automatické učení netrpí. Pro trénování neuronové sítě mám nejen samotná data, ale i ony strukturální informace, takže využívám další informace navíc. Dokonce se může stát, že neuronová síť mi dá lepší výsledek i pro úplně irelevantní vstupy, člověk totiž náhodnou prozódii vnímá lépe než žádnou. S rozumnými informacemi navíc se ale lze dobrat relativně přirozenému výsledku. Na začátku trénování mám zadaný vstup a požadované výsledky a nějakou síť, kterou postupně upravuju a zkouším, dokud mi nezačne dávat výstupy podobné požadovaným. Pro modelování prozódie mi stačí síť o neuronech. Výsledkem procesu by měl být prosodic inventory, tedy sada pravidel, jak upravovat prozodicky signál ve výstupu z TTS. Je to většinou malá množina nějakých hodnot třeba informací o neuronové síti. 3.4 Syntéza řeči Pro generování řeči ze zápisu hlásek se používá nějaký zjednodušený popis artikulace, podložený jistými předpoklady, tzv. řečový model. Pro syntézu existují dva hlavní druhy buď copy synthesis, konkatenační syntéza, tedy syntéza na základě kopírování a slepování částí řečového inventáře, nebo rule-based synthesis, formant synthesis, syntéza založená na vytváření složeného zvuku za pomoci (frekvenčních) pravidel. Syntéza založená na pravidlech Tento typ syntézy se používá většinou jenom v akademickém prostředí, až na pomůcky pro hyperrychlé čtený ů. Projev většinou není příliš přirozený. Předpokládáme tu matematický model zjednodušeného artikulačního ústrojí a pravidla, popisující jeho změny (tedy změny v nastavování artikulace). Ta pak zahrnují formanty samohlásek, transienty konsonantů, přítomnost základního tónu apod., všechno je v pravidlech relativně přímočaře. Získávají se z parametrického korpusu, postupným zkoušením se vylepšují, upravují, slaďují apod. podle výsledků. Velice záleží na interpretaci parametrů z korpusu (např. když si špatně vyložím, co je formant, výsledek zní divně). Pro debugování je většinou lepší přidávat kompenzační pravidla, než měnit stávající. Model parametrů, používaný v korpusu, musí být dost jednoduchý, abych dostal relevantní pravidla např. je vhodné předem odfiltrovat pro řeč irelevantní frekvence (čímž samozřejmě ztrácím na přirozenosti) a téměř bezpodmínečně nutné normalizovat ho na stejnou F 0. Záleží samozřejmě i na člověku, jak podle korpusu pravidla vyrobí. Syntéza řeči z psaného textu 7
8 b u (i) + i Pro kvalitu jsou tak významné jak vnitřní (intrinsic) chyby (chyba vyrobeného modelu), tak vnější (extrinsic, chyba provedená při analýze). Syntéza založená na kopírování Tady kvalitu ovlivňuje hlavně kvalita nahrávek v řečovém korpusu a také jejich reprezentativita (velikost, ale i relevance). Korpus můžu získat dvěma způsoby buď nahrávat televizní pořady (to se ale nedělá příliš často, není to úplně reprezentativní), nebo výběrem vět, které někdo potom do korpusu přečte. Druhým způsobem můžu lépe pokrýt inventář cílového jazyka. Chci mít výsledný korpus malý, aby ho mluvčí mohl přečíst najednou a bez změny podmínek (např. únavy hlasu). Navíc pro jistotu se většinou celý nahrává dvakrát. Postup je potom následující 3 : 1. identifikace hlásek Vyberu si, které hlásky potřebuji pro reprezentaci řeči v daném jazyce, tj. např. jestli budu dvojhlásky považovat za jednotlivé fonémy apod. 2. identifikace fonotaktiky Zjistím, které kombinace vybraných hlásek se v jazyce vůbec můžou vyskytovat, mnoho kombinací nebude přípustných, tj. zmenším si množinu potřebných dat. Toto souvisí např. s pravidly asimilace znělosti. Vždy se ale 10% času stráví na 90% kombinacích a zbytek na nějakých v jazyce velmi neobvyklých. 3. kompozice korpusu Ze všech možných kombinací hlásek, nalezených v předchozím kroku, složím psanou verzi korpusu. 4. nahrávání korpusu Mluvčí přečte všechny věty, vložené do korpusu. Přitom by měl používat monotónní prozódii, navíc začátky a konce vět se musí beztak vyhodit. Po nahrávání se vzorky normalizují na stejnou F 0. Při nahrávání musí někdo dohlížet na nežádoucí šumy v pozadí a nechat mluvčího případně věty opakovat. 5. vytvoření řečového inventáře Protože pro každou kombinaci hlásek nepotřebuji více verzí, srovnám všechny dostupné a např. podle toho, jak moc se jejich F 0 blížila průměru, si vyberu tu nejlepší. Získám v podstatě to, co jsem měl po identifikaci fonotaktiky, jen se zvukovým doprovodem. Pro výstup syntézy se nikdy nepoužívají samostatné hlásky, ale vždy kombinace dvou, tří nebo více hlásek, dvojhlásky apod. Projevuje se tu totiž důležitost koartikulace, navíc konsonanty jen parazitují na vokálech, samy stát nemohou, tedy samotné je extrahovat ani nemůžu. Pro konkatenaci zvuků potřebuji hlásky stabilní, navíc vždy je potřeba nějaké vyhlazování zvuku. Tradičně se v konkatenační syntéze používají tzv. diphones, dvojzvuky druhá polovina první, první polovina druhé hlásky. Někdy se kombinují s vybranými často se vyskytujícími trojvuky (hláska a poloviny okolních), kde není třeba použít tolik vyhlazování. Pro některé jazyky se používají disyllables, tedy celé dvojice slabik, ale většinou by počet kombinací byl příliš veliký. Kvůli neobvyklým případům se také kombinuje s kratšími úseky. Algoritmy výběru jednotky U složitějších systémů konkatenační syntézy nemám v řečovém inventáři pro každý diphone nebo triphone jen jednu zvukovou podobu, ale vybírám si z několika možností pomocí tzv. unit selection algorithm tu nejlepší pro dané místo v řeči. Přitom se zohledňuje prozódie, diskvalifikují se chyby výslovnosti apod., někdy se tak mohou použít i části slov úplně vcelku (na základě výběru). Pravidla výběru samozřejmě taky ovlivňují kvalitu generované řeči. Většinou se používá výběr na základě podobné F 0, chybách výslovnosti, intenzitě a prozódii, existují i parametry specifické pro určité konkrétní jednotky. Na základě toho mohu spočítat badness (penalizaci) jednotky b u i badness spojení b c 4. Potom celkové badness řetězu jednotek odpovídajícího celému textu je suma: B = i b c (i, i + 1) 3 Pro získání parametrického korpusu platí podobná pravidla. 4 Pro jednotky v řečovém inventáři, které byly původně součástí stejného slova a navazovaly na sebe, mám tady 0. Tak můžu i celá slova, v inventáři rozsekaná, zase slepit. Syntéza řeči z psaného textu 8
9 Algoritmus, který by hodnotil každou jednotku z celého textu a vybíral nejlepší kombinaci, by byl velmi náročný. Levnější postup, který navíc neobsahuje žádné vnější chyby (tj. jeho výsledek je stejně dobrý jako projití všech možností) je Viterbyho algoritmus. Ten spočívá v tom, že pro každou pozici si postupně spočteme nejlepší možnost, za předpokladu, že předchozí možnost je fixovaná (zkouším všechny pozice, spočítané v předchozím kroku). Budujem tak vlastně matici postupných výpočtů, jde o techniku dynamického programování. Pamatovat si ale musíme jen dva její poslední sloupce dvě iterace. Algoritmus pak má složitost O(n s 2 ), kde s je velikost řečového inventáře a n délka textu. Dostaneme tak nejlepší řešení, až na vnitřní chybu zvoleného modelu badness. 3.5 Techniky zpracování řečového korpusu, tvorby inventáře Automatická segmentace korpusu Pro dělení korpusu na segmenty a jejich rozpoznání vzhledem k textové podobě a tedy vyrovnání se s různými hlasovými frekvencemi a rychlostí řeči se používá technika Dynamic Time Warping algoritmus pro měření podobnosti signálů. Používá se to ke značkování vět z korpusu podle už označkovaných. Na signal postupně mapuju nějakou šablonu a měřím odlišnosti, vzniká přímka blízká diagonále. Pro zkoušení šablon je potřeba relativně hodně kroků, používá se dynamické programování. Výsledek je ale vždy jen přibližný, zpracování musí beztak vždy zkontrolovat člověk. Tvorba prozodického korpusu Pro vytvoření korpusu na prozódii je třeba detekovat hranice slabiky, výšku hlasu, jejich trvání a intenzitu. Potom podle druhů vět, ke kterým tyto parametry přísluší, mohu určovat pattern přízvukových taktů. Tohle všechno musím získat přímo z řečového korpusu a většinou se to používá jako vstup do trénování neuronové sítě pro modelování prozódie. Typicky se tyto vlastnosti měří v centru slabiky. Dělení slabik pomáhá hlavně předchozí segmentace korpusu (centrum slabiky poznám podle sonority, ale okolí už ne; problémem jsou také pobočné slabiky (např. rty ). Detekce výšky hlasu Ke zjištění frekvence F 0 (výšky hlasu) se používá technika autokorelace (autokonvoluce), kdy se vezme signál a provede se jeho konvoluce se sebou samým, posunutým o nějaký časový interval: R ff (T ) = f(t)f(t τ)dt Pokud se v signálu vyskytuje periodicita (jako je F 0 ), naleznu ji tak, že pro její periody jsou hodnoty autokorelace maximální. Autokorelace je vždy na kladných číslech klesající funkce s maximem v nule. Ve zpracování signálu se zpravidla počítá přes Fourierovu transformaci. Vezmou se z ní výsledky jako kandidáti a vybere se ten, který nejlépe odpovídá vyšším harmonickým frekvencím (formantům). Někdy se signál na nějakém průběhu otočí v čase a analýza s ním probíhá úplně stejně. Problém s autokorelací nastává pro neznělé segmenty je nutné je detekovat, protože jinak mi autokorelační analýza nalezne vyšší formanty; je tedy nutné zakázat přechod nalezené F 0 o příliš velké kroky v krátkém čase. Výsledek autokorelace pro bílý šum je typický (maximum v nule a nulová hodnota v každém jiném bodě), což také pro nalezení neznělých segmentů pomáhá. Žádný detektor výšky hlasu ale nepracuje na 100% (vnější chybou je nenalezení F 0, vnitřní chyba je vydávání výsledků, ač F 0 není přítomna vůbec). Detekce intenzity a trvání segmentů řeči Detekce intenzity je dost triviální, stačí se podívat na amplitudy. Pro trvání je situace složitější, nestačí jen přepůlit vzdálenosti mezi vrcholy slabik. Trvání slabiky závisí na délce vokálu (pokud ta je součástí vokalického systému), takže tady míchám velkou prozódii s mikroprozódií jednotlivých slabik, tím můžu potom neuronovou síť při trénování úplně zmást. Buď musím tento fakt nějak kompenzovat, nebo porovnávat jen stejně dlouhé vokály mezi sebou. Syntéza řeči z psaného textu 9
10 4 Druhy Text-To-Speech Systémů 4.1 Time-Domain Pitch-Synchronous Overlap Add (TD-PSOLA) Tento systém je příkladem konkatenativní syntézy, jde vlastně o velmi jednoduchý případ (dnes už relativně zastralý, používaný hlavně v 90. letech). Spočívá v tom, že každá hláska (jednotka řeči) je rozdělena na framy, krátké zvukové úseky během kterých se nemění F 0. V každém framu lze pozorovat pitch-periody, tedy jednotlivé kmity hlasu. Ty dávají možnost, jak měnit F 0 bez ohledu na kvality zvuku. Mohu totiž jednotlivé framy skládat přes sebe a natahovat, pokud je upravím pomocí tzv. windowing funkce (funkce, která zesílí jen jednu pitch-periodu a postupně signál zeslabuje v jejím okolí až do ticha). Po použití windowing funkce na každou pitch-periodu pak výsledky můžu sečíst přes sebe i s nějakým posunutím. Tím dostanu signál, který může mít jinou F 0, ale jen neznatelně změněné vyšší frekvence (např. formanty). Někdy pitch-periods nesedí úplně přesně, ale díky windowing-funkci dojde k vyhlazení. Frekvence blízké F 0 budou poškozeny, proto nelze takhle signál zrychlovat o tolik, že by výsledek zasahoval až do formantového pásma. Pokud si přeju např. dvakrát rychlejší řeč a stejnou výšku hlasu, stačí vyhodit každou druhou pitch-periodu. Opačně pokud periody zduplikuju přes sebe, dostanu vyšší hlas se stejnou rychlostí. Když vyhazuju některé pitchperiody, zbavuju se i informací o kvalitě hlásky, takže to nesmím udělat mockrát (jinak sousední segmenty přestanou být podobné). Vyhodit můžu zhruba maximálně každou druhou. Pokud budu naopak moc duplikovat, výsledný zvuk bude působit bzučivým, nepřirozeným dojmem bude v něm periodicita, která tam nepatří, tj. víc tónových komponentů, než je záhodno. Je tedy vhodné nedělat více než dvojnásobné kopírování; přehráním každé druhé pitch-periody pozpátku se lze dostat až na čtyřnásobné. Problémy TD-PSOLA Princip TD-PSOLA vypadá sice jednoduše, nutnou podmínkou jeho použití je ale spolehlivý detektor hlasové frekvence, jinak dochází k chybě fáze, phase mismatch hlasu (pitch-periody se netrefí přesně doprostřed kmitů). Ve výsledku se tedy pracuje v korpusu s algoritmy jako při rozpoznávaní řeči, případně se pitch-periody dělí úplně manuálně. Největší problém ale nastává u neznělých hlásek, tam lze dělat jen nějaké interpolace, nejvíce se chyba projevuje na hranicích segmentů. Na hranicích jednotlivých diphonů může dojít i k chybě spektra, spectral mismatch. Mám-li totiž dvě poloviny stejné samohlásky, které se trochu liší pod vlivem okolí, nedají se slepit úplně přesvědčivě. To se dá odstraňovat postupným doplňováním dalších diphonů s pomocí manuální kontroly je nutné poslouchat, kde syntéza dělá chyby, a ta místa pak jednotlivě ošetřovat. Poslední chybou, která se může v TD-PSOLA objevit, je chyba výšky hlasu, pitch mismatch. K té dojde, pokud dva přiléhající segmenty mají příliš odlišné F 0 (nesedí přesně na sebe). Té se dá vyhnout normalizací řečového inventáře na stejnou F 0, většinou pak rušení klesne pod vnímatelné hodnoty. 4.2 Linear Prediction Coder (LPC) Speech Synthetizer Proti předchozímu není vůbec triviální, vychází z modelu artikulačního ústrojí. LPC syntetizátory jsou relativně stará technika, jejich výsledek ale nevypadá příliš přesvědčivě. Implementace v hardwaru ale není složitá, zvuk je srozumitelný i s minimálním inventářem. Výstupní signál má většinou nějakou relativně nízkou vzorkovací frekvenci, např. 8 khz, protože vyšší se modelují velmi obtížně. Hlasové ústrojí si totiž lze představit jako na jedné straně otevřenou rezonační trubici (tube), ve které je na uzavřené straně zdroj zvuku (buzzer), který vytváří periodický signál. Když se nemění parametry tube ani buzzeru, pak vychýlení výsledné zvukové vlny v každém okamžiku (podle potřeb vzorkovací frekvence, kromě několika počátečních vzorků) se dá predikovat z určitého počtu předchozích vzorků. Potom záleží na zjednodušení modelu, z kolika. Např. LPC Order 8 předpokládá, že lze predikovat z 8 předchozích vzorků. Pro praxi jde samozřejmě o zjednodušení, taková periodicita ve zvuku řeči rozhodně neexistuje. Pro syntézu tedy vezmu řečový inventář a každou potřebnou jednotku rozdělím na framy, tedy časové úseky, kde jsou změny artikulace minimální (ale zas úseky dost dlouhé, aby se rozběhla predikce přes počáteční kroky a bylo možné dopočítat co nejvíc dalších). Pro každý frame potom odhadnu několik počátečních (např. právě 8) samplů, aby Syntéza řeči z psaného textu 10
11 predikce vycházela s co nejmenší chybou. Tyto počáteční parametry se nazývají LPC coefficients. Odhad se typicky provádí metodou nejmenších čtverců. Celý tento proces odhadování je velmi obtížné provádět pro neznělé hlásky v takovém případě v modelu artikulačního ústrojí nemám buzzer, ale jen bílý šum. Typicky se pro každou hlásku provádí detekce základního tónu a spolu se všemi ostatními parametry se ukládá i údaj o znělosti. Modelování pak provádím separátním ovládáním vlastností trubice i zdroje zvuku. Naměřené koeficienty nepoužívám pro generování zvuku přímo, protože mezi segmenty by vznikaly ostré předěly zvuk se předem ještě vyhlazuje. Pro znělost a neznělost se používá také několik mezistupňů, protože i v reálu hlasivky z naprostého klidu do nejintenzivnější činnosti přecházejí postupně. Problém je se simulací nosových hlásek, protože na to aproximace artikulačního ústrojí prostou trubicí nefunguje. Pokud bych chtěl trubici po části délky rozdělit, budu mít problém s nalezením počátečních LPC koeficientů. Podobná technika (LPC komprese) se používá i v mobilních telefonech, protože aproximace parametrů je de facto druh ztrátové komprese. V signálu telefonu se pak odesílají jednak koeficienty LPC, jednak chybový signál, error signal. Ten obsahuje dodatečné informace o průběhu zvukových vln řeči, které se ale dají téměř libovolně omezovat a posilovat, podle toho, zda záleží víc na velikosti datového toku, nebo na přirozenosti výsledku (malé ztrátě komprese). Hlavní rozdíl oproti TTS systémům je ten, že tady je kompresi nutné provádět v reálném čase, takže nejde až tak o přesnost odhadu parametrů jako o rychlost. I LPC syntetizátory (včetně těch nejjednodušších) ale také používají chybový signál, který se získává obráceným aproximačním filtrem. To spočívá v tom, že od skutečných dat řeči se odečtou odhadnuté parametry. Aproximace nikdy nebude přesná, i kdybych měl modelovat jednoduché tóny (to je vnější chyba). Chybovým signálem je také možné ovládat zdroj zvuku v modelu artikulačním ústrojí a výsledek bude dobrý (v závislosti na datovém toku chybového signálu). Syntéza řeči z psaného textu 11
Algoritmy a struktury neuropočítačů ASN P8b
Algoritmy a struktury neuropočítačů ASN P8b Úvod - přirozená řeč jako zvukový signál Základní pojmy z fonetiky Charakteristiky mluvené řeči Přirozená řeč jako zvukový signál Řeč (speech) - komplex technických,
Úvod do praxe stínového řečníka. Proces vytváření řeči
Úvod do praxe stínového řečníka Proces vytváření řeči 1 Proces vytváření řeči člověkem Fyzikální podstatou akustického (tedy i řečového) signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí.
1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce
1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce 3. TVOŘENÍ, PŘENOS A PERCEPCE ŘEČI 3.1. Tvoření řeči 3.1.1 Ústrojí dýchací 3.1.2 Ustrojí hlasové 3.1.3 Ústrojí
Zvuková stránka jazyka
Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.00009 Zvuková stránka jazyka Zvukovou stránkou jazyka se zabývají dva vědní obory - fonetika a fonologie. Fonetika
Konsonanty. 1. úvod. 2. frikativy. - zúžením v místě artikulace vzniká sloupec vzduchu, směrodatná je délka předního tubusu
Konsonanty 1. úvod - kontakt nebo úzké přiblížení dvou artikulačních orgánů - tranzient - pohyb vokalických formantů z / do cílového stavu nazýváme 2. frikativy neznělé frikativy - zdrojem zvuku je turbulentní
Akustika. 3.1 Teorie - spektrum
Akustika 3.1 Teorie - spektrum Rozklad kmitů do nejjednodušších harmonických Spektrum Spektrum Jedna harmonická vlna = 1 frekvence Dvě vlny = 2 frekvence Spektrum 3 vlny = 3 frekvence Spektrum Další vlny
Okruhy pojmů ke zkoušce, podzim 2016
Okruhy pojmů ke zkoušce, podzim 2016 obecné věci a problémy vztah mluvené a psané řeči funkce mluvené formy řeči v komunikaci přístupy k poznávání zvukové stavby řeči (stupně abstrakce a příslušné vědecké
FONETIKA A FONOLOGIE I.
FONETIKA A FONOLOGIE I. AUTOR Mgr. Jana Tichá DATUM VYTVOŘENÍ 7. 9. 2012 ROČNÍK TEMATICKÁ OBLAST PŘEDMĚT KLÍČOVÁ SLOVA ANOTACE METODICKÉ POKYNY 3. ročník Český jazyk a literatura Český jazyk Fonetika,
Šablona: I/2Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti
STŘEDNÍ ODBORNÁ ŠKOLA A STŘEDNÍ ODBORNÉ UČILIŠTĚ NERATOVICE Školní 664, 277 11 Neratovice, tel.: 315 682 314, IČO: 683 834 95, IZO: 110 450 639 Ředitelství školy: Spojovací 632, 277 11 Neratovice tel.:
STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA
STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the
SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha
SYNTÉZA ŘEČI Petr Horák horak@ufe.cz Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha Obsah Úvod a historie Zpracování textu Modelování prozodie Metody syntézy řeči Aplikace syntézy řeči Petr Horák SYNTÉZA
Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno
Fonetika, rozpoznávání řeči HMM II. Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno Rozpoznávání řeči HMM Jan Černocký, ÚPGM FIT VUT Brno 1/20 Plán Něco z fonetiky fonetické abecedy.
ADA Semestrální práce. Harmonické modelování signálů
České vysoké učení technické v Praze ADA Semestrální práce Harmonické modelování signálů Jiří Kořínek 31.12.2005 1. Zadání Proveďte rozklad signálu do harmonických komponent (řeč, hudba). Syntetizujte
Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).
Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý
Úvod do zpracování signálů
1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování
doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1
doc. Dr. Ing. Elias TOMEH e-mail: elias.tomeh@tul.cz Elias Tomeh / Snímek 1 Frekvenční spektrum Dělení frekvenčního pásma (počet čar) Průměrování Časovou váhovou funkci Elias Tomeh / Snímek 2 Vzorkovací
JAK VZNIKÁ LIDSKÝ HLAS? Univerzita Palackého v Olomouci
JAK VZNIKÁ LIDSKÝ HLAS? JAN ŠVEC Katedra biofyziky, ik Př.F., Univerzita Palackého v Olomouci HLAS: Všichni jej každodenně používáme, ale víme o něm v podstatě jen málo Studium lidského hlasu Je založeno
Segmentální struktura čínské slabiky Segmental Structure of Mandarin Syllable
Univerzita Karlova v Praze Filozofická fakulta Ústav Dálného východu studijní obor: jazyky zemí Asie a Afriky filologie PhDr. Hana T ř í s k o v á Segmentální struktura čínské slabiky Segmental Structure
SIGNÁLY A LINEÁRNÍ SYSTÉMY
SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cziba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické
Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti
Komunikační a slohová výchova plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti porozumí písemným nebo mluveným 4. pečlivě vyslovuje, opravuje svou nesprávnou nebo nedbalou výslovnost 9.
Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie
Syntéza a rozpoznávání řeči Obsah: Související technologie Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Text to Speech, TTS Konverze textu do mluvené podoby V ideálním
B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza
B2M31SYN 9. PŘEDNÁŠKA 7. prosince 2016 Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza Granulační syntéza Jako alternativu k popisu pomocí sinusovek při úvahách o zvuku navrhl
Pavel Cenek, Aleš Horák
Syntéza a rozpoznávání řeči Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Rozpoznávání řeči Související technologie Úvod do počítačové lingvistiky 3/11 1 / 20
SIGNÁLY A LINEÁRNÍ SYSTÉMY
SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické či jiné
Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
Speciální struktury číslicových systémů ASN P12
Aplikace UNS v syntéze řeči modelování prozodie druhy syntezátorů Umělé neuronové sítě pro modelování prozodie Rozdíly mezi přirozenou a syntetickou řečí Požadavky: zlepšování srozumitelnosti zlepšování
Systém českých hlásek
Systém českých hlásek Při vnímání mluvené řeči můžeme projev dělit na menší celky věty, slova, slabiky, hlásky. V psaném projevu odpovídá hláskám vždy nějaký grafický symbol = grafém. Hlásky Samohláska
Zvuk. 1. základní kmitání. 2. šíření zvuku
Zvuk 1. základní kmitání - vzduchem se šíří tlakové vzruchy (vzruchová vlna), zvuk je systémem zhuštěnin a zředěnin - podstatou zvuku je kmitání zdroje zvuku a tím způsobené podélné vlnění elastického
AKUSTICKÁ MĚŘENÍ Frekvenční spektrum lidského hlasu
AKUSTICKÁ MĚŘENÍ Frekvenční spektrum lidského hlasu Stáhněte si z internetu program Praat a Madde (viz seznam pomůcek) a přineste si vlastní notebook. Bez tohoto nelze praktikum absolvovat (pokud budete
DIACHRONNÍ VÝVOJ JAZYKŮ JAKO ZMĚNA SYSTÉMU
DIACHRONNÍ VÝVOJ JAZYKŮ JAKO ZMĚNA SYSTÉMU ZMĚNA V JAZYCE Základním předmětem diachronní lingvistiky je diference. Jedním z možných českých překladů tohoto slova je rozdíl, což nám říká prostě to, že se
(4) Samohlásky a souhlásky
(4) Samohlásky a souhlásky Brno MU, sinologie, LS 2014 Fonetika souvislé řeči (H.Třísková) Mluvidla mohou v principu tvořit hlásky dvojího typu: samohlásky (vokály) a souhlásky (konsonanty). Jejich výslovnost
Mechanické kmitání a vlnění
Mechanické kmitání a vlnění Pohyb tělesa, který se v určitém časovém intervalu pravidelně opakuje periodický pohyb S kmitavým pohybem se setkáváme např.: Zařízení, které volně kmitá, nazýváme mechanický
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák rozlišuje zvukovou a grafickou podobu slova, člení slova na hlásky, odlišuje dlouhé a krátké samohlásky. Žák rozlišuje počet slabik a písmen ve slovech Postupné rozšiřování slovní zásoby Učí se užívat
10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
Předmět: Český jazyk a literatura
Komunikační a slohová výchova 1.plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti správné čtení slabik, slov a krátkých vět hlasité čtení, ZÁŘÍ / 3 4. pečlivě vyslovuje, opravuje svou nesprávnou
Akustika pro posluchače HF JAMU
Akustika pro posluchače HF JAMU Zvukové vlny a kmity (1) 2 Vnímání zvuku (3) 2 Akustika hudebního nástroje (2) 2 Akustika při interpretaci (2) 3 Záznam hry na hudební nástroje (2) 4 Seminární a samostatné
Klasifikace hudebních stylů
Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů
Klasifikace Landau-Kleffnerova syndromu
Klasifikace Landau-Kleffnerova syndromu malých dětí 1. Abstrakt Petr Zlatník ČVUT FEL, K13131 Katedra teorie obvodů Tento příspěvěk pojednává o klasifikaci Landau-Kleffnerova syndromu, který se projevuje
Semestrální práce: Rozpoznání hláskované řeči a převedení na text
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav mechaniky těles, mechatroniky a biomechaniky Technická 2, Brno 616 69 RSZ Základy zpracování signálu Semestrální práce: Rozpoznání hláskované
FONETIKA A FONOLOGIE II.
FONETIKA A FONOLOGIE II. AUTOR Mgr. Jana Tichá DATUM VYTVOŘENÍ 7. 9. 2012 ROČNÍK TEMATICKÁ OBLAST PŘEDMĚT KLÍČOVÁ SLOVA ANOTACE METODICKÉ POKYNY 3. ročník Český jazyk a literatura Český jazyk Fonetika,
Předmět: Český jazyk. hlasité čtení, praktické čtení. hlasité i tiché čtení s porozuměním
1.plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti 4. pečlivě vyslovuje, opravuje svou nesprávnou nebo nedbalou výslovnost 7. na základě vlastních zážitků tvoří krátký mluvený projev 8.
Kepstrální analýza řečového signálu
Semestrální práce Václav Brunnhofer Kepstrální analýza řečového signálu 1. Charakter řečového signálu Lidská řeč je souvislý, časově proměnný proces. Je nositelem určité informace od řečníka k posluchači
Mluvní orgány se skládají z ústrojí respiračního (dýchací), fonačního (hlasové) a artikulačního
Anatomie a fyziologie mluvních orgánů Mluvní orgány se skládají z ústrojí respiračního (dýchací), fonačního (hlasové) a artikulačního Dýchací ústrojí Primární funkcí tohoto ústrojí je dýchání, sekundární
Akustika pro posluchače HF JAMU
Akustika pro posluchače HF JAMU Zvukové vlny a kmity (1)! 2 Vnímání zvuku (3)! 2 Akustika hudebního nástroje (2)! 2 Akustika při interpretaci (2)! 3 Záznam hry na hudební nástroje (2)! 4 Seminární a samostatné
Direct Digital Synthesis (DDS)
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Direct Digital Synthesis (DDS) Přímá číslicová syntéza Tyto materiály vznikly za podpory
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
říjen září Žák rozlišuje zvukovou a grafickou podobu slova, člení slova na hlásky, odlišuje dlouhé a krátké samohlásky. Zvuková stránka jazyka Slovní zásoba a tvoření slov Skladba Sluchové rozlišení hlásek
- analogická úprava podnět dal Josef Dobrovský, 1819, zavedl psaní i/y v koncovkách podle analogie (po c pouze i, po s, z i/y podle analogie)
POJMY K SAMOSTATNÉMU STUDIU Pravopis - primitivní počátek 9. století; Konstantin a Metoděj používání hlaholice, později 10. - 11. století díla psána latinsky, vpisována česká slova (bohemika, glosy); první
Zvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti
Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti Zvuková karta Počítač řady PC je ve své standardní konfiguraci vybaven malým reproduktorem označovaným jako PC speaker. Tento reproduktor je součástí skříně
pracovní list studenta
Výstup RVP: Klíčová slova: pracovní list studenta Funkce kvadratická funkce Mirek Kubera žák načrtne grafy požadovaných funkcí, formuluje a zdůvodňuje vlastnosti studovaných funkcí, modeluje závislosti
4.1.5 Jedna a jedna může být nula
4.1.5 Jedna a jedna může být nula Předpoklady: 040104 Pomůcky: reproduktory, Online tone generator, papírky s vlněním Př. 1: Ze dvou reproduktorů je puštěn jednoduchý sinusový zvukový signál a stejné frekvenci.
VY_32_INOVACE_E 15 03
Název a adresa školy: Střední škola průmyslová a umělecká, Opava, příspěvková organizace, Praskova 399/8, Opava, 746 01 Název operačního programu: OP Vzdělávání pro konkurenceschopnost, oblast podpory
ANALÝZA LIDSKÉHO HLASU
ANALÝZA LIDSKÉHO HLASU Pomůcky mikrofon MCA-BTA, LabQuest, program LoggerPro (nebo LoggerLite), tabulkový editor Excel, program Mathematica Postup Z každodenní zkušenosti víme, že každý lidský hlas je
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Prohledávání do šířky = algoritmus vlny
Prohledávání do šířky = algoritmus vlny - souběžně zkoušet všechny možné varianty pokračování výpočtu, dokud nenajdeme řešení úlohy průchod stromem všech možných cest výpočtu do šířky, po vrstvách (v každé
Měření dat Filtrace dat, Kalmanův filtr
Měření dat Filtrace dat, Matematické metody pro ITS (11MAMY) Jan Přikryl Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní 3. přednáška 11MAMY čtvrtek 28. února 2018 verze: 2018-03-21 16:45 Obsah
7 Další. úlohy analýzy řeči i a metody
Pokročilé metody rozpoznávánířeči Přednáška 7 Další úlohy analýzy řeči i a metody jejich řešení Výsledky rozpoznávání (slovník k 413k) frantisek_vlas 91.92( 90.18) [H= 796, D= 10, S= 60, I= 15, N=866,
Markovské metody pro modelování pravděpodobnosti
Markovské metody pro modelování pravděpodobnosti rizikových stavů 1 Markovský řetězec Budeme uvažovat náhodný proces s diskrétním časem (náhodnou posloupnost) X(t), t T {0, 1, 2,... } s konečnou množinou
MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA ELEKTROTECHNICKÁ MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE Dizertační práce Vědní obor: Telekomunikační technika Školitel: Prof. Ing.
Lineární a adaptivní zpracování dat. 3. SYSTÉMY a jejich popis ve frekvenční oblasti
Lineární a adaptivní zpracování dat 3. SYSTÉMY a jejich popis ve frekvenční oblasti Daniel Schwarz Osnova Opakování: systémy a jejich popis v časové oblasti Fourierovy řady Frekvenční charakteristika systémů
Signál v čase a jeho spektrum
Signál v čase a jeho spektrum Signály v časovém průběhu (tak jak je vidíme na osciloskopu) můžeme dělit na periodické a neperiodické. V obou případech je lze popsat spektrálně určit jaké kmitočty v sobě
OBECNÉ VĚCI A PROBLÉMY VZTAH MLUVENÉ A PSANÉ ŘEČI:
OBECNÉ VĚCI A PROBLÉMY VZTAH MLUVENÉ A PSANÉ ŘEČI: - jazyky existují ve dvou zákl. realizacích-mluvené a psané. V zobecněné míře můžeme říct, že jednomu jazyk. systému odpovídají 2 typy realizací v řeči,
Univerzita Pardubice Fakulta-ekonomicko správní
Univerzita Pardubice Fakulta-ekonomicko správní Testování softwarových nástrojů pro převod textu na mluvenou řeč Ivana Linhartová Bakalářská práce 2009 - 1 - - 2 - Prohlašuji: Tuto práci jsem vypracovala
AKUSTIKA. Barva tónu
AKUSTIKA Barva tónu Tón můžeme objektivně popsat pomocí těchto čtyř vlastností: 1. Výška 2. Délka 3. Barva 4. Hlasitost, hladina intenzity Nyní se budeme zabývat barvou tónu. Barva tónu Barva tónu nám
KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni
KTE/TEVS - Rychlá Fourierova transformace Pavel Karban Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni 10.11.011 Outline 1 Motivace FT Fourierova transformace
SIGNÁLOVÁ ANALÝZA MLUVENÝCH SOUHLÁSEK
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF
NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém
NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém 37. setkání AUČCJ Praha 19. 5. 2012 Jaroslav Šimek jarasimek@centrum.cz Hláska foném
Změny v akustických charakteristikách řeči související s věkem. Age-related changes in acoustic characteristics of speech
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Změny v akustických charakteristikách řeči související s věkem Age-related changes in acoustic characteristics of speech Diplomová práce Studijní
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Algoritmy a struktury neuropočítačů ASN - P11
Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova
31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014
3ZZS 9. PŘEDNÁŠKA 24. listopadu 24 SPEKTRÁLNÍ ANALÝZA Fourierovy řady Diskrétní Fourierovy řady Fourierova transformace Diskrétní Fourierova transformace Spektrální analýza Zobrazení signálu ve frekvenční
Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
Stavový model a Kalmanův filtr
Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Klasické a inovované měření rychlosti zvuku
Klasické a inovované měření rychlosti zvuku Jiří Tesař katedra fyziky, Pedagogická fakulta JU Klíčová slova: Rychlost zvuku, vlnová délka, frekvence, interference vlnění, stojaté vlnění, kmitny, uzly,
5. Umělé neuronové sítě. Neuronové sítě
Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně
Přechodné děje 2. řádu v časové oblasti
Přechodné děje 2. řádu v časové oblasti EO2 Přednáška 8 Pavel Máša - Přechodné děje 2. řádu ÚVODEM Na předchozích přednáškách jsme se seznámili s obecným postupem řešení přechodných dějů, jmenovitě pak
SYNTÉZA AUDIO SIGNÁLŮ
SYNTÉZA AUDIO SIGNÁLŮ R. Čmejla Fakulta elektrotechnická, ČVUT v Praze Abstrakt Příspěvek pojednává o technikách číslicové audio syntézy vyučovaných v předmětu Syntéza multimediálních signálů na Elektrotechnické
Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo
Pravděpodobnostní usuzování v čase Markovské procesy příklad: diabetický pacient, hladina inzulinu, léky, jídlo předpokládáme, že se množina možných stavů S nemění v průběhu času předpokládáme diskrétní
UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
český jazyk a literatura
1 český jazyk a literatura český jazyk a literatura Učivo Praktické čtení - pozorné, plynulé, přiměřeně rychlé, čtení hlasité i tiché, s porozuměním Zdokonalování techniky čtení Porozumění přiměřeným textům
Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce
Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/07.0018 2. Množiny, funkce MNOŽIN, ZÁKLDNÍ POJMY Pojem množiny patří v matematice ke stěžejním. Nelze jej zavést ve formě definice pomocí
Akustika. Teorie - slyšení. 5. Přednáška
Akustika Teorie - slyšení 5. Přednáška Sluchové ústrojí Vnitřní a vnější slyšení Zpěv, vlastní hlas Dechové nástroje Vibrace a chvění Ucho Ucho je složeno z ucha vnějšího, středního a vnitřního. K vnějšímu
X31EO2 - Elektrické obvody 2. Kmitočtové charakteristiky
X3EO - Elektrické obvody Kmitočtové charakteristiky Doc. Ing. Petr Pollák, CSc. Letní semestr 5/6!!! Volné šíření není povoleno!!! Fázory a spektra Fázor harmonického průběhu Û m = U m e jϕ ut) = U m sinωt
3.1.5 Složené kmitání
315 Složené kmitání Předpoklady: 3104 Pokus: Dvě pružiny zavěsíme vedle sebe, na obě dáme závaží Spodní konce obou pružin spojíme gumovým vláknem (velmi pružným, aby ho bylo možno prodloužit malou silou)
KVADRATICKÁ FUNKCE URČENÍ KVADRATICKÉ FUNKCE Z PŘEDPISU FUNKCE
KVADRATICKÁ FUNKCE URČENÍ KVADRATICKÉ FUNKCE Z PŘEDPISU FUNKCE Slovo kvadrát vzniklo z latinského slova quadratus které znamená: čtyřhranný, čtvercový. Obsah čtverce se vypočítá, jako druhá mocnina délky
( ) ( )( ) ( x )( ) ( )( ) Nerovnice v součinovém tvaru II. Předpoklady: Př.
.. Nerovnice v součinovém tvaru II Předpoklady: 0 Př. 1: Řeš nerovnici x x 0. Problém: Na levé straně není součin musíme ho nejdříve vytvořit: x x x x x x x x x x + 0. ( ( ( = = + řešíme nerovnici: ( (
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák rozlišuje zvukovou a grafickou podobu slova, člení slova na hlásky, odlišuje dlouhé a krátké samohlásky. Zvuková stránka jazyka Pravopis Slovní zásoba a tvoření slov Skladba Rozlišení hlásek koordinace
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 2. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti čte
Fyzikální podstata zvuku
Fyzikální podstata zvuku 1. základní kmitání vzduchem se šíří tlakové vzruchy (vzruchová vlna), zvuk je systémem zhuštěnin a zředěnin podstatou zvuku je kmitání zdroje zvuku a tím způsobené podélné vlnění
Techniky práce s hlasem
Mluvený verbální projev Techniky práce s hlasem paralingvistika o intenzita (hlasitost) o výraz o modulace o intonace o rychlost řeči JAZYKOVÝ PROJEV mluvený psaný Jazyková kultura jazyková správnost v
3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU
3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace,
Vstupní signál protne zvolenou úroveň. Na základě získaných údajů se dá spočítat perioda signálu a kmitočet. Obrázek č.2
2. Vzorkovací metoda Určení kmitočtu z vzorkovaného průběhu. Tato metoda založena na pozorování vstupního signálu pomocí osciloskopu a nastavení určité úrovně, pro zjednodušování považujeme úroveň nastavenou
Základní komunikační řetězec
STŘEDNÍ PRŮMYSLOVÁ ŠKOLA NA PROSEKU EVROPSKÝ SOCIÁLNÍ FOND Základní komunikační řetězec PRAHA & EU INVESTUJEME DO VAŠÍ BUDOUCNOSTI Podpora kvality výuky informačních a telekomunikačních technologií ITTEL
Operace s obrazem II
Operace s obrazem II Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 Osnova Matematická morfologie Segmentace obrazu Klasifikace objektů
Studium tranzistorového zesilovače
Studium tranzistorového zesilovače Úkol : 1. Sestavte tranzistorový zesilovač. 2. Sestavte frekvenční amplitudovou charakteristiku. 3. Porovnejte naměřená zesílení s hodnotou vypočtenou. Pomůcky : - Generátor
Neuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz. FIT VUT Brno
Určování základního tónu řeči Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno Určování základního tónu řeči Jan Černocký, ÚPGM FIT VUT Brno 1/37 Plán Charakteristiky základního tónu
Elektromagnetický oscilátor
Elektromagnetický oscilátor Již jsme poznali kmitání mechanického oscilátoru (závaží na pružině) - potenciální energie pružnosti se přeměňuje na kinetickou energii a naopak. T =2 m k Nejjednodušší elektromagnetický
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Číslicové filtry. Honza Černocký, ÚPGM
Číslicové filtry Honza Černocký, ÚPGM Aliasy Digitální filtry Diskrétní systémy Systémy s diskrétním časem atd. 2 Na co? Úprava signálů Zdůraznění Potlačení Detekce 3 Zdůraznění basy 4 Zdůraznění výšky