transkribovaný text Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam.

Syntéza řeči z psaného textu 1 Úvod 1.1 Základní schéma Text-To-Speech systému Struktura nějakého abstraktního TTS systému vypadá následovně: text normalizace fonetický přepis transkribovaný text modelování prozódie syntéza řeči vaweform 1.2 Základní termíny Text je většinou nějaký spec. případ, např. e-maily atp., text i transkripce většinou v nějaké formě obsahuje značky pro suprasegmentální fonémy. Syntéza řeči je jen jedna z částí TTS systému, to je nutné rozlišovat. Jde možná o nejsložitější a nejdůležitější součást, ale její vstup není text. Normalizace je někdy nutá provádět, někdy ne. Obsahuje např. vyházení hlaviček z e-mailů, příp. přidání spec. prozódie pro ně atd. Používá se, aby stejný TTS systém mohl být použit k různým věcem (předpřipravení textu podle jeho očekávaného typu). Grafém, písmeno, letter je nejmenší jednotka psané podoby jazyka. S některými jsou problémy, zda je považovat za jediný grafém (např. písmena s diakritikou), ale nám to většinou bude jedno. Hláska, sound je nejmenší jednotka zvukové podoby jazyka. Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam. Fonetický přepis je přepis zvukové podoby textu, zaznamenávající hlásky, příp. suprasegmentální jevy. Může být postavená na pravidlech nebo na slovníku (ale vždy se používají oba komponenty, jeden slouží jako doplněk). Největší problém dělá přepis v jazycích, které např. neznačí samohlásky. 2 Fonetika a fonologie Potřebujeme jednak popis výslovnosti, jednak popis akustiky (zvukových vln, jimiž se jednotlivé hlásky projevují). Můžu mít i popis vnímání (percepce) hlásek, ale ten pro naše účely není nezbytný. Hlavní rozdíl mezi fonetikou a fonologií je ten, že fonetice jde o víceméně fyzikální akustický popis všech zvuků a hlásek, kdežto fonologii zajímá systém, struktura jazyka. Pro fonologický výzkum narozdíl od fonetiky potřebujeme alespoň nějaké základní informace o daném jazyce. 2.1 Akustika Jednotlivé hlásky jsou složené zvuky (vlnění vzduchu), obsahující tónové (periodické) a šumové (neperiodické) složky. Rozlišujeme je právě podle složení jejich zvuku, např. konsonanty mají větší podíl šumových a vokály tónových složek, konsonanty se dále liší svou znělostí či neznělostí jako přítomností tónových složek. Hlasové ústrojí se dá zjednodušeně představit jako zdroj zvuku (hlasivky) a rezonanční prostor (nadhrtanové dutiny). Hlasivky kmitají na nějaké základní frekvenci (F 0, pro muže cca 100 Hz, pro ženy přibližně dvojnásobná) a v nadhrtanových dutinách se podle jejich tvaru zesilují některé harmonické frekvence. Rezonance probíhá stejně jako ve z jedné strany otevřeném prostoru, tedy zesílená je frekvence f 2, 3f 2, 5f 2... pro nějaké f. Zvuk můžeme rozložit na frekvenční spektrum a zkoumat sílu zastoupení jednotlivých frekvencí v čase. Provádí se to běžně na počítači pomocí Fourierovy analýzy, výsledkem je spektrogram (trojrozměrný diagram, kde osy jsou Syntéza řeči z psaného textu 1

čas a frekvence a síla zastoupení je vyznačena barevně). Záznam nikdy není přesný frekvenční rozlišení je omezené. Přepočítáváním nahrávky na frekvence v čase vznikají artefakty (chyby). Formanty Výrazně zesílené frekvence číslujeme F 1, F 2 atd., a nazýváme formanty. Prvních několik je zastoupených v signálu vlivem výslovnosti, příliš vysoké frekvence ale už clověk neovlivní. Proto při záznamu zvuku snímáme úmyslně, jen úzké pásmo (např. do 5 nebo 9 khz), čímž ztratíme maximálně čistotu zvuku, ne už informaci o vyslovených hláskách. Frekvence, které jsou na spektru zvuku úmyslně potlačeny, nazývame antiformanty. Některé hlásky se dají odlišit právě absencí některých frekvencí, např. u nosových hlásek dochází vlivem průchodu vzduchu nosem k fázovému posunu vlnění a některé frekvence jsou právě tím potlačeny. Formanty se výrazně změní i při malé výšce hlasu (jde o to, jak dobře vyšší harmonické frekvence F 0 odpovídají rezonančně zesilovaným frekvencím v hlasovém ústrojí). U konsonantů (hlavně u neznělých) většinou nehledáme formanty, ale transienty jde o přechody ve spektru, na místě, kde začínají nebo končí formanty okolních samohlásek. Místo, kam transienty ukazují (tedy hypotetický bod na spektru) pro danou souhlásku nazýváme locus. Bod locu je důležitý pro rozpoznání neznělých hlásek, považuje se za centrum jejich šumu. Analýza spektrogramů Samohlásky mají nejvýraznější formanty (F 1, F 2,... ). Pokud není u nějaké hlásky přítomna F 0 (a tedy ani výrazné vyšší formanty), jedná se o neznělou hlásku. Podle šumu (nekoncentrovaný signál po velké části spektra) se poznají frikativy (šumové hlásky). Explozivy (závěrové hlásky) se poznají okamžikem ticha a následným šumem exploze. 2.2 Fonetická abeceda IPA Abeceda IPA slouží pro fonetickou transkripci, hlavně v jazykově nezávislém prostředí. Některé jazyky ji používají i pro zápis své výslovnosti, v některých se používají jiné abecedy, protože jsou pro ně šikovnější (např. v češtině). Hlásky, kterým je přiřazena jedna značka, se mohou napříč jazyky lišit jde jen o aproximaci. Pro odlišení hlásek v rámci jednoho jazyka ale většinou plně dostačuje. 2.3 Vokalický systém Vokály Extremální hlásky jsou [i] (jazyk je nahoře vepředu), [u] (nahoře vzadu), [a] (dole uprostřed). Některé zvuky si v různých jazycích více či méně odpovídají, některé jazyky rozlišují více vokálů než jiné. Rozlišení může být podle několika různých vlastností najednou (a některé jejich kombinace nemusí být povolené). Existuje jazyk, který má jen 2 vokály, hodně jazyků má jen 3 (právě ty extremální). Akustický popis Používáme tak krátké zvuky, že se nezmění pozice jazyka ( statický zvuk ), ale už se můžou analyzovat frekvence, ze kterých se zvuk skládá. Zajímáme se o lokální maxima frekvencí. Tím nalezneme nejnižší lokální maximum základní frekvenci F 0 a některé její vyšší harmonické frekvence. Jedná se vždy o rezonanční maxima, vlastnosti rezonančního prostoru se pro jednotlivé vokály mění (mění se jeho tvar posouváním jazyka), takže se mění i zesílené frekvence. Syntéza řeči z psaného textu 2

Vezmeme-li první a druhé zesílené maximum (formanty) F 1 a F 2, dostaneme následující schéma: F 2 i (Hz) e u o a F 1 (Hz) Vypadá úplně analogicky k artikulačním pozicím, protože se posouváním jazyka mění právě výška a délka rezonančního prostoru (přibližně). Na prvních dvou formantech vokálů je tedy toho dost poznat o jejich barvě. Hodnoty samozřejmě nevycházejí vždy stejně, a to ani pro toho samého mluvčího, ale přibližné umístění odpovídá. 2.4 Konsonantický systém Tvoření hlásek Základní dělení konsonantů je na znělé, voiced a neznělé, voiceless. Ty se liší přítomností základního hlasového tónu (tj. kmitáním hlasivek při jejich tvorbě). Pro neznělé hlásky jsou hlasivky v klidové poloze, nekmitají, jsou od sebe oddáleny (při šeptání pro všechny hlásky). Při vyslovování znělých hlásek jsou hlasivky těsně u sebe a kmitají. Zjistit, která hláska je znělá a která ne, je docela jednoduché: stačí si podržet prst na hrtanu. Podle místa artikulace rozlišujeme: labiály, obouretné [p, b, m, B] labiodentály, retozubné [f, v, M] dentály, zubné [T, D] prealveoláry [t, d, s, z, > ts, > dz, r] postalveoláry [S, Z] palatály, tvrdopatrové [c, é, ñ, ç] 1. veláry, měkkopatrové [k, g, x] uvuláry, čípkové [R, K, X] glotály, hlasivkové [P, h, H] Podle způsobu tvoření rozlišujeme: plozivy, závěrové: nejdřív se nastaví jazyk jako překážka a úplně uzavře cestu výdechovému proudu (onset). Potom nastává exploze, závěr se uvolní. Exploze je nejvýraznější část hlásky. Jde např. o [p, b, t, d, k, g, c, é, h]. Příkladem plozivy je i hlasivkový ráz (úplné uzavření hlasivkové štěrbiny, následné explozivní otevření) [P]. nasální, nosové plozivy: mají stejně závěr a explozi jako obyčejné, ale celou dobu probíhá vzduch i nosem, takže během závěru není ticho. To je např. [m, n, ñ, N]. frikativy, šumové: nasazení jazyka (onset) už je slyšitelný, mezi jazykem a patrem zůstává stále nějaká štěrbina, která propouští vzduch (nastává tření friction), exploze není přítomna. Frikativy začínají a končí postupně. Např. [s, z, S, Z, ç, x, f, v]. afrikáty, polozávěrové: jsou podobné kombinaci plozivy a frikativy, v IPA fonetickém zápisu se tak píšou. Exploze se ale vynechá, uvolnění napětí přechází do frikce (šumu se štěrbinou). Podle nepřítomnosti exploze se dají poznat od kombinace ploziva + frikativa. V češtině je to [ > ts, > ts, > dz, > dz]. 1 Ve fonetické abecedě IPA jsou pro české hlásky ť, ď, ň používány znaky c, é, ñ Syntéza řeči z psaného textu 3

vibranty, trills: jsou podobné frikativám, jen jazyk nezůstává na jednom místě, nýbrž kmitá. Pohyby jazyka přitom nejsou ovládány vůlí, jsou velmi rychlé. Většina jazyků používá 2-3 kmity, někde se počtem kmitů odlišují různé hlásky (např. ve slovenštině). Příkladem jsou [r, R, K]. bokové hlásky, laterály: v češtině máme jen jednu: [l]. Princip je ten, že uprostřed ústní dutiny dochází k úplnému závěru, ale po krajích jazyka může vzduch dál proudit. Existuje spousta jiných, i neznělých laterálů (např. ve velštině). aproximanty: jsou podobné frikativám, ale mají mnohem méně šumu, všechen jejich zvuk je v podstatě vytvářen hlasivkami a rezonancí, jsou velmi blízké samohláskám. Jde např. o [j, w]. U neznělých hlásek se obvykle projevuje větší síla svalového napětí, tj. hlásky se nazývají fortisové. U znělých je síla menší, nazývají se pak lenisové. S velkým svalovým napětím souvisí u ploziv i přídechy, aspirace, které se někdy zejmena u neznělých hlásek vyslovují. Jde o prodloužení závěru a exploze, aspirace vzniká vždy v místě artikulace. Přístup k aspiracím se však jazyk od jazyka liší, např. v češtině aspirace nemáme, angličtina a němčina aspirují neznělé hlásky, některé jazyky mohou mít i aspirované znělé hlásky. Hlásky je možné rozlišovat i podle postavení jazyka při jejich tvoření: apikální artikulace je výslovnost špičkou jazyka tj. překážku vytváří špička jazyka, jako např. u [t, l]. laminální artikulace je výslovnost horní ploškou jazyka, např. u [c]. retroflexní artikulace je výslovnost spodní ploškou jazyka jazyk je otočený vzhůru nohama. Tento způsob vyslovování je běžný pro indické jazyky. Akustický popis Pro popis konsonantů jsou určující transienty a bod locu. Locus se dá zhruba odhadnout podle místa tvoření čím zadnější hláska (čím blíž je místo tvoření hlasivkám), tím vyšší je locus. To je tedy přesně opačně, než F 2 u samohlásek. Předpokládá se, že F 2 je vyjádřeno místem největšího rozšíření výdechové cesty, kdežto locus právě místem překážky; přesný důvod tohoto jevu ale znám není. Pro nosovky je charakteristický nasální komponent na frekvenci cca 200-300 Hz (tedy pro vysoké hlasy nevýrazný) a potlačení formantu F 1 (vzniká antiformant). Proto někdy vzniká zdání, že F 1 se u nosovek snižuje, ale není tomu tak, jde o jiný zvuk. 2.5 Prozódie Prozódie zahrnuje všechny vlastnosti, které se projevují nad hranicemi segmentů. Sestává z: F 0 základní tón hlasu, voice pitch časování, timing intenzita Intenzita není totéž, co hlasitost narozdíl od ní jde o produkční veličinu, která je měřitelná objektivně. Hlasitost je percepční dojem, kromě amplitudy vlnění (tedy intenzity) je ovlivňován i časováním (prodloužení vzbuzuje dojem vyšší hlasitosti). Pro TTS systémy zas tak podstatná intenzita není. Vždy tu pracujeme jen s relativními hodnotami a prominencí (zvýrazněním) v některé z nich. Prozodická struktura textu Hlásky existují až ve slabikách. Slabika je nejmenší část mluveného textu, která se dá zopakovat izolovaně konsonant je vždy závislý na vokálu své slabiky a naopak. Vyšší jednotka je přízvukový takt, fonologické slovo, stress unit. To je skupina slabik, z nichž na jedné je přízvuk. Na to, na které, existují pravidla dělení stress unit je jednoduché, horší je definovat, co to je vlastně přízvuk. To závisí na konkrétním jazyku a jedná se o kombinaci timingu, intonace i intenzity (prominence v některé z těchto hodnot). Syntéza řeči z psaného textu 4

Přízvuk není totéž, co zvýraznění (emphasis), nezávisí vůbec na sémantice. Je to věc syntaxe, pomáhá lidem dělit slova. Nad úrovní slov rozlišujeme intonační jednotky, intonation contours. Ty jsou relativně nezávislé, mezi nimi má člověk tendenci dělat pauzu v řeči. Jejich rozlišení ale není úplně přesné. Nejvyšší jednotkou je celé vyjádření, utterance. Např. v dialogu odpovídá větě, ale může být i delší. Finální intonace vyjádření je terminální. Přízvuk v různých jazycích Existují dva druhy jazyků, co se přízvuku týče: stress-timed v takových jazycích mají mluvčí tendenci dělat stejně dlouhé přízvukové takty. syllable-timed v těchto jazycích je tendence k vyslovování slabik stejně dlouze. Mám-li dlouhé slovo, tedy hodně slabik na jeden přízvuk, budou u stres-timed jazyků slabiky krátké, kdežto u syllabletimed bude prostě přízvukový takt trvat déle. Příkladem prvního typu je angličtina, k druhému např. čeština. Slabičná melodie Melodie má v některých jazycích distinktivní funkci stejné slabiky s jinou melodií mají jiný význam. Takové jazyky se nazývají tónové. Větná melodie ale může mít zároveň jinou funkci. Mikroprozódie Mikroprozódie zahrnuje všechno, co se děje v rámci jedné hlásky, ale je ovlivňováno okolím. Má vliv na velkou prozódii. Je podvědomá, záleží i na konkrétních hláskách. Mikroprozodickým fenoménem je např. délka hlásky (záleží ale na tom, jestli délka hlásky rozlišuje význam, jestli dlouhá a krátká hláska jsou samostatné fonémy). Další je např. změna tónu hlasu v rámci jedné hlásky. Běžný TTS systém se mikroprozodií nezabývá, protože ji má nahranou ve svém korpusu segmentů; prozódií se ale zabývat musí. 2.6 Problémy fonologického popisu Jedním z problémů je popis diftongů (dvojhlásek) jako jednotlivých segmentů. Buď je můžeme považovat za dva fonémy (dvě hlásky), nebo za foném jediný. Potom např. anglické slovo fire [fai@] mohou být dva, tři nebo čtyři fonémy. V češtině se s tím setkáváme taky, někdo neuznává žádné diftongy, někdo jen domácí [ ou], > jiní i přejaté [ au], > [ eu]. > S tím se setkám při vytváření korpusu, když chci kombinaci všech hlásek. Problém je i vnímání slabik to je jazykově závislé. Když definuju slabiku jako peak in sonority, bude slovo lžu sestávat ze 2 slabik. Další problém jsou aproximanty [ ou] > a [ ow] > se vlastně zvukově neliší, záleží jen na interpretaci a převládajícím popisu jazyka. 3 Stavba Text-To-Speech systému 3.1 Normalizace Někdy se dohromady s normalizací dělá chunking, tj. rozdělení textu na dostatečně malé kousky pro zpracování, někdy je jako samostatný krok. Data se musí rozdělit někde, kde je to možné (ne např. uprostřed věty). 3.2 Fonetický přepis Jde o přepis letter-to-sound, tedy přepisujeme grafémy na hlásky. Odlišují se dva přístupy: založený na pravidlech, rule-based založený na slovníku, dictionary-based Syntéza řeči z psaného textu 5

V dnešních systémech jsou v podstatě vždy přítomna i pravidla i slovník, ale jedna metoda je vždy primární, druhá doplňková. Mám-li totiž slovník, nemůže zahrnovat všechna slova (problémem je např. flexe). Pravidla také nepostihnou vše, vždy se vyskytnou výjimky (možností je ovšem napsat slovník přímo do syntaxe pravidel). Pro pravidla se de facto dají použít regulární výrazy, tj. přepisy se zapojením kontextu na obě strany. Většinou neoperují přímo nad textem, ale nad nějakými speciálně vytvořenými datovými strukturami. Ty nemusí být vůbec lineární, používají se např.: multi-level data structures vrstevnaté s konečným počtem vrstev, odpovídajících např. hlásce, slabice, morfému, přízvukovému taktu, promluvovému úseku nebo větě. Dostanu tak strom s konečným počtem vrstev, se kterým je snadné pracovat, mohu mít transformační pravidla pro různé úrovně feature structures je založeno na distinktivních rysech (např. znělost, místo artikulace atd.) jednotl. hlásek (ze kterých se hlásky dají skládat). Jsou také na různých úrovních, jejichž počet není fixní. Některými pravidly musí dojít k zjednoznačnění (disambiguization) textu, např. různou diakritika apod. je nutné správně interpretovat tečka např. může mít spoustu významů. Někdy se hodí víc (jazykově závislá) pravidla, někdy zas slovník, např. na interpretaci anglického členu the se hodí hlavně pravidla, ale bez slovníku to také nejde (srov. the oak proti the one ). Rozhodnutí pravidla versus slovník můžu dělat pro každý jednotlivý problém zvlášť. Pravidla můžu taky aplikovat buď jedním průchodem, nebo opakovaně. Typický postup pravidel je následující:2 1. morfosyntaktická pravidla Jedná se hlavně o určování slovních druhů apod. Používá se přitom hlavně slovník a statistické četnosti naměřené v nějakém korpusu. Někdy se provádí morfosyntaktické parsování věty, ale to je dost složité; většinou přitom nějaké nejednoznačnosti ponechávám, pokud mi nevadí pro další práci, nezískávám víc informací, než kolik je nutné. Příkladem takových pravidel může být i doplňování samohlásek v textech psaných souhláskovým písmem. 2. kontextová pravidla Tato pravidla např. rozvíjejí zkratky, přibližují text čtené podobě. 3. strukturální pravidla Výstup těchto pravidel se používá pro modelování prozódie jde např. o identifikaci druhů vět, což umožní jejich správnou intonaci. Zjišťování struktury textu (pro vytváření prozódie) se (i lidem) dělá lépe na něčem, co je bližší textu než řeči. Např. zde neztrácíme v češtině informaci o mě a mně, která se může ještě hodit (druhé má mnohem spíš přízvuk). 4. pravidla fonetického přepisu (letter-to-sound) Tady se převádí pravopis na výslovnost, mohou se používat různá pravidla pro výjimky (např. angl. sh přepíšu [S], ale předtím oddělím morfémy spec. znakem, abych vyloučil slova jako hogshead, nebo česky diagram změním na dyagram, abych se vyhnul měkčení). Text přechází plynule z ortografického do fonetického zápisu. 3.3 Modelování prozódie Prozódie je vlastně ovlivňovaná syntaxí (ve skutečnosti přímo významem věty, ale ten se syntaxí souvisí), případně nějakými emocemi, jednotlivostmi mluvčího, ale ty se vystihnout nedají. Mělo by se dávat pozor i na mikroprozódii tedy vystihnout prozodické fenomény, ale nenechat se zmást mikroprozodickými. Fudžisakiho intonační model Intonace během řeči odpovídá změnám základní hlasové frekvence (F 0 ), na ostatních prozodických veličinách je víceméně nezávislá. Pro modelování intonace je nejznámější Fudžisakiho model. Ten sestává z phrase commands a accent commands. První typ pravidel je trvanlivější, působí v podstatě na celou větu, vždy od daného času a s danou amplitudou (zvednutím nebo snížením F 0 ) a postupně doznívá. Druhý typ má kratší trvání, má definovaný čas začátku i konce a zase amplitudu. Výsledná F 0 v daném časovém bodě se (v logaritmické podobě) dá vyjádřit jako 2 Tohle samozřejmě závisí na jazyce, pro některé řeči nemusí být některé kroky potřeba. Pořadí provádění jednotlivých druhů pravidel taky může záviset na jazyce. Syntéza řeči z psaného textu 6

nějaká suma všech commandů, které působí, plus základní frekvence. Tímto způsobem můžu modelovat F 0 v podstatě s libovolnou přesností, je nutné najít ale vhodný poměr počtu commandů na slovo k velikosti chyby, protože jinak neúměrně rostou náklady na data i výpočet. Vytváření prozodického inventáře Prozodické modely je ale nutné nejprve zprovoznit (dodat správné hodnoty), a to naučením dat z korpusu např. mám-li v jazykových datech na některých místech důrazy, musím zjistit, kde a kam je podle toho dávat, příp. jak souvisí s trváním a intenzitou slabik. Potřebuji tedy prozodický korpus, automatické nástroje na zpracování a prozodický model. Postup vytváření prozodického inventáře vypadá pak následovně: korpus detekce F 0 model trénování / pravidla (inventory) rule extraction K mluvenému korpusu můžu počítat i s jeho textovou reprezentací a strukturálními informacemi např. informace o hranicích slov a přízvučných slabikách atp., které se dají zjistit automatickými nástroji. De facto by mělo být možné i použít stejné algoritmy na trénování a následné generování. Krok trénování, extrakce pravidel probíhá buď automaticky za pomoci neuronové sítě (trénování), nebo úplně ručně, kdy někdo prostě odhadne, jak struktura věty (podle interpunkce, hranice slov apod.) souvisí s prozódií (extrakce pravidel). Vždy je nutné mít nějaké náhodné faktory nebo více kontur, ze kterých si pro větu vybrat, aby zněl výsledek přirozeně. Ruční popis je velice složité získat, vhodné je mít nějakou teorii už předem. Můžu se taky dostat do stavu, kdy pravidla ručně už vylepšit nejdou a výsledek pořád není optimální; je také velice nákladné změny testovat. Ruční extrakce pravidel taky tíhne k determinismu, těmito problémy automatické učení netrpí. Pro trénování neuronové sítě mám nejen samotná data, ale i ony strukturální informace, takže využívám další informace navíc. Dokonce se může stát, že neuronová síť mi dá lepší výsledek i pro úplně irelevantní vstupy, člověk totiž náhodnou prozódii vnímá lépe než žádnou. S rozumnými informacemi navíc se ale lze dobrat relativně přirozenému výsledku. Na začátku trénování mám zadaný vstup a požadované výsledky a nějakou síť, kterou postupně upravuju a zkouším, dokud mi nezačne dávat výstupy podobné požadovaným. Pro modelování prozódie mi stačí síť o 20-30 neuronech. Výsledkem procesu by měl být prosodic inventory, tedy sada pravidel, jak upravovat prozodicky signál ve výstupu z TTS. Je to většinou malá množina nějakých hodnot třeba informací o neuronové síti. 3.4 Syntéza řeči Pro generování řeči ze zápisu hlásek se používá nějaký zjednodušený popis artikulace, podložený jistými předpoklady, tzv. řečový model. Pro syntézu existují dva hlavní druhy buď copy synthesis, konkatenační syntéza, tedy syntéza na základě kopírování a slepování částí řečového inventáře, nebo rule-based synthesis, formant synthesis, syntéza založená na vytváření složeného zvuku za pomoci (frekvenčních) pravidel. Syntéza založená na pravidlech Tento typ syntézy se používá většinou jenom v akademickém prostředí, až na pomůcky pro hyperrychlé čtený e-mailů. Projev většinou není příliš přirozený. Předpokládáme tu matematický model zjednodušeného artikulačního ústrojí a pravidla, popisující jeho změny (tedy změny v nastavování artikulace). Ta pak zahrnují formanty samohlásek, transienty konsonantů, přítomnost základního tónu apod., všechno je v pravidlech relativně přímočaře. Získávají se z parametrického korpusu, postupným zkoušením se vylepšují, upravují, slaďují apod. podle výsledků. Velice záleží na interpretaci parametrů z korpusu (např. když si špatně vyložím, co je formant, výsledek zní divně). Pro debugování je většinou lepší přidávat kompenzační pravidla, než měnit stávající. Model parametrů, používaný v korpusu, musí být dost jednoduchý, abych dostal relevantní pravidla např. je vhodné předem odfiltrovat pro řeč irelevantní frekvence (čímž samozřejmě ztrácím na přirozenosti) a téměř bezpodmínečně nutné normalizovat ho na stejnou F 0. Záleží samozřejmě i na člověku, jak podle korpusu pravidla vyrobí. Syntéza řeči z psaného textu 7

b u (i) + i Pro kvalitu jsou tak významné jak vnitřní (intrinsic) chyby (chyba vyrobeného modelu), tak vnější (extrinsic, chyba provedená při analýze). Syntéza založená na kopírování Tady kvalitu ovlivňuje hlavně kvalita nahrávek v řečovém korpusu a také jejich reprezentativita (velikost, ale i relevance). Korpus můžu získat dvěma způsoby buď nahrávat televizní pořady (to se ale nedělá příliš často, není to úplně reprezentativní), nebo výběrem vět, které někdo potom do korpusu přečte. Druhým způsobem můžu lépe pokrýt inventář cílového jazyka. Chci mít výsledný korpus malý, aby ho mluvčí mohl přečíst najednou a bez změny podmínek (např. únavy hlasu). Navíc pro jistotu se většinou celý nahrává dvakrát. Postup je potom následující 3 : 1. identifikace hlásek Vyberu si, které hlásky potřebuji pro reprezentaci řeči v daném jazyce, tj. např. jestli budu dvojhlásky považovat za jednotlivé fonémy apod. 2. identifikace fonotaktiky Zjistím, které kombinace vybraných hlásek se v jazyce vůbec můžou vyskytovat, mnoho kombinací nebude přípustných, tj. zmenším si množinu potřebných dat. Toto souvisí např. s pravidly asimilace znělosti. Vždy se ale 10% času stráví na 90% kombinacích a zbytek na nějakých v jazyce velmi neobvyklých. 3. kompozice korpusu Ze všech možných kombinací hlásek, nalezených v předchozím kroku, složím psanou verzi korpusu. 4. nahrávání korpusu Mluvčí přečte všechny věty, vložené do korpusu. Přitom by měl používat monotónní prozódii, navíc začátky a konce vět se musí beztak vyhodit. Po nahrávání se vzorky normalizují na stejnou F 0. Při nahrávání musí někdo dohlížet na nežádoucí šumy v pozadí a nechat mluvčího případně věty opakovat. 5. vytvoření řečového inventáře Protože pro každou kombinaci hlásek nepotřebuji více verzí, srovnám všechny dostupné a např. podle toho, jak moc se jejich F 0 blížila průměru, si vyberu tu nejlepší. Získám v podstatě to, co jsem měl po identifikaci fonotaktiky, jen se zvukovým doprovodem. Pro výstup syntézy se nikdy nepoužívají samostatné hlásky, ale vždy kombinace dvou, tří nebo více hlásek, dvojhlásky apod. Projevuje se tu totiž důležitost koartikulace, navíc konsonanty jen parazitují na vokálech, samy stát nemohou, tedy samotné je extrahovat ani nemůžu. Pro konkatenaci zvuků potřebuji hlásky stabilní, navíc vždy je potřeba nějaké vyhlazování zvuku. Tradičně se v konkatenační syntéze používají tzv. diphones, dvojzvuky druhá polovina první, první polovina druhé hlásky. Někdy se kombinují s vybranými často se vyskytujícími trojvuky (hláska a poloviny okolních), kde není třeba použít tolik vyhlazování. Pro některé jazyky se používají disyllables, tedy celé dvojice slabik, ale většinou by počet kombinací byl příliš veliký. Kvůli neobvyklým případům se také kombinuje s kratšími úseky. Algoritmy výběru jednotky U složitějších systémů konkatenační syntézy nemám v řečovém inventáři pro každý diphone nebo triphone jen jednu zvukovou podobu, ale vybírám si z několika možností pomocí tzv. unit selection algorithm tu nejlepší pro dané místo v řeči. Přitom se zohledňuje prozódie, diskvalifikují se chyby výslovnosti apod., někdy se tak mohou použít i části slov úplně vcelku (na základě výběru). Pravidla výběru samozřejmě taky ovlivňují kvalitu generované řeči. Většinou se používá výběr na základě podobné F 0, chybách výslovnosti, intenzitě a prozódii, existují i parametry specifické pro určité konkrétní jednotky. Na základě toho mohu spočítat badness (penalizaci) jednotky b u i badness spojení b c 4. Potom celkové badness řetězu jednotek odpovídajícího celému textu je suma: B = i b c (i, i + 1) 3 Pro získání parametrického korpusu platí podobná pravidla. 4 Pro jednotky v řečovém inventáři, které byly původně součástí stejného slova a navazovaly na sebe, mám tady 0. Tak můžu i celá slova, v inventáři rozsekaná, zase slepit. Syntéza řeči z psaného textu 8

Algoritmus, který by hodnotil každou jednotku z celého textu a vybíral nejlepší kombinaci, by byl velmi náročný. Levnější postup, který navíc neobsahuje žádné vnější chyby (tj. jeho výsledek je stejně dobrý jako projití všech možností) je Viterbyho algoritmus. Ten spočívá v tom, že pro každou pozici si postupně spočteme nejlepší možnost, za předpokladu, že předchozí možnost je fixovaná (zkouším všechny pozice, spočítané v předchozím kroku). Budujem tak vlastně matici postupných výpočtů, jde o techniku dynamického programování. Pamatovat si ale musíme jen dva její poslední sloupce dvě iterace. Algoritmus pak má složitost O(n s 2 ), kde s je velikost řečového inventáře a n délka textu. Dostaneme tak nejlepší řešení, až na vnitřní chybu zvoleného modelu badness. 3.5 Techniky zpracování řečového korpusu, tvorby inventáře Automatická segmentace korpusu Pro dělení korpusu na segmenty a jejich rozpoznání vzhledem k textové podobě a tedy vyrovnání se s různými hlasovými frekvencemi a rychlostí řeči se používá technika Dynamic Time Warping algoritmus pro měření podobnosti signálů. Používá se to ke značkování vět z korpusu podle už označkovaných. Na signal postupně mapuju nějakou šablonu a měřím odlišnosti, vzniká přímka blízká diagonále. Pro zkoušení šablon je potřeba relativně hodně kroků, používá se dynamické programování. Výsledek je ale vždy jen přibližný, zpracování musí beztak vždy zkontrolovat člověk. Tvorba prozodického korpusu Pro vytvoření korpusu na prozódii je třeba detekovat hranice slabiky, výšku hlasu, jejich trvání a intenzitu. Potom podle druhů vět, ke kterým tyto parametry přísluší, mohu určovat pattern přízvukových taktů. Tohle všechno musím získat přímo z řečového korpusu a většinou se to používá jako vstup do trénování neuronové sítě pro modelování prozódie. Typicky se tyto vlastnosti měří v centru slabiky. Dělení slabik pomáhá hlavně předchozí segmentace korpusu (centrum slabiky poznám podle sonority, ale okolí už ne; problémem jsou také pobočné slabiky (např. rty ). Detekce výšky hlasu Ke zjištění frekvence F 0 (výšky hlasu) se používá technika autokorelace (autokonvoluce), kdy se vezme signál a provede se jeho konvoluce se sebou samým, posunutým o nějaký časový interval: R ff (T ) = f(t)f(t τ)dt Pokud se v signálu vyskytuje periodicita (jako je F 0 ), naleznu ji tak, že pro její periody jsou hodnoty autokorelace maximální. Autokorelace je vždy na kladných číslech klesající funkce s maximem v nule. Ve zpracování signálu se zpravidla počítá přes Fourierovu transformaci. Vezmou se z ní výsledky jako kandidáti a vybere se ten, který nejlépe odpovídá vyšším harmonickým frekvencím (formantům). Někdy se signál na nějakém průběhu otočí v čase a analýza s ním probíhá úplně stejně. Problém s autokorelací nastává pro neznělé segmenty je nutné je detekovat, protože jinak mi autokorelační analýza nalezne vyšší formanty; je tedy nutné zakázat přechod nalezené F 0 o příliš velké kroky v krátkém čase. Výsledek autokorelace pro bílý šum je typický (maximum v nule a nulová hodnota v každém jiném bodě), což také pro nalezení neznělých segmentů pomáhá. Žádný detektor výšky hlasu ale nepracuje na 100% (vnější chybou je nenalezení F 0, vnitřní chyba je vydávání výsledků, ač F 0 není přítomna vůbec). Detekce intenzity a trvání segmentů řeči Detekce intenzity je dost triviální, stačí se podívat na amplitudy. Pro trvání je situace složitější, nestačí jen přepůlit vzdálenosti mezi vrcholy slabik. Trvání slabiky závisí na délce vokálu (pokud ta je součástí vokalického systému), takže tady míchám velkou prozódii s mikroprozódií jednotlivých slabik, tím můžu potom neuronovou síť při trénování úplně zmást. Buď musím tento fakt nějak kompenzovat, nebo porovnávat jen stejně dlouhé vokály mezi sebou. Syntéza řeči z psaného textu 9

4 Druhy Text-To-Speech Systémů 4.1 Time-Domain Pitch-Synchronous Overlap Add (TD-PSOLA) Tento systém je příkladem konkatenativní syntézy, jde vlastně o velmi jednoduchý případ (dnes už relativně zastralý, používaný hlavně v 90. letech). Spočívá v tom, že každá hláska (jednotka řeči) je rozdělena na framy, krátké zvukové úseky během kterých se nemění F 0. V každém framu lze pozorovat pitch-periody, tedy jednotlivé kmity hlasu. Ty dávají možnost, jak měnit F 0 bez ohledu na kvality zvuku. Mohu totiž jednotlivé framy skládat přes sebe a natahovat, pokud je upravím pomocí tzv. windowing funkce (funkce, která zesílí jen jednu pitch-periodu a postupně signál zeslabuje v jejím okolí až do ticha). Po použití windowing funkce na každou pitch-periodu pak výsledky můžu sečíst přes sebe i s nějakým posunutím. Tím dostanu signál, který může mít jinou F 0, ale jen neznatelně změněné vyšší frekvence (např. formanty). Někdy pitch-periods nesedí úplně přesně, ale díky windowing-funkci dojde k vyhlazení. Frekvence blízké F 0 budou poškozeny, proto nelze takhle signál zrychlovat o tolik, že by výsledek zasahoval až do formantového pásma. Pokud si přeju např. dvakrát rychlejší řeč a stejnou výšku hlasu, stačí vyhodit každou druhou pitch-periodu. Opačně pokud periody zduplikuju přes sebe, dostanu vyšší hlas se stejnou rychlostí. Když vyhazuju některé pitchperiody, zbavuju se i informací o kvalitě hlásky, takže to nesmím udělat mockrát (jinak sousední segmenty přestanou být podobné). Vyhodit můžu zhruba maximálně každou druhou. Pokud budu naopak moc duplikovat, výsledný zvuk bude působit bzučivým, nepřirozeným dojmem bude v něm periodicita, která tam nepatří, tj. víc tónových komponentů, než je záhodno. Je tedy vhodné nedělat více než dvojnásobné kopírování; přehráním každé druhé pitch-periody pozpátku se lze dostat až na čtyřnásobné. Problémy TD-PSOLA Princip TD-PSOLA vypadá sice jednoduše, nutnou podmínkou jeho použití je ale spolehlivý detektor hlasové frekvence, jinak dochází k chybě fáze, phase mismatch hlasu (pitch-periody se netrefí přesně doprostřed kmitů). Ve výsledku se tedy pracuje v korpusu s algoritmy jako při rozpoznávaní řeči, případně se pitch-periody dělí úplně manuálně. Největší problém ale nastává u neznělých hlásek, tam lze dělat jen nějaké interpolace, nejvíce se chyba projevuje na hranicích segmentů. Na hranicích jednotlivých diphonů může dojít i k chybě spektra, spectral mismatch. Mám-li totiž dvě poloviny stejné samohlásky, které se trochu liší pod vlivem okolí, nedají se slepit úplně přesvědčivě. To se dá odstraňovat postupným doplňováním dalších diphonů s pomocí manuální kontroly je nutné poslouchat, kde syntéza dělá chyby, a ta místa pak jednotlivě ošetřovat. Poslední chybou, která se může v TD-PSOLA objevit, je chyba výšky hlasu, pitch mismatch. K té dojde, pokud dva přiléhající segmenty mají příliš odlišné F 0 (nesedí přesně na sebe). Té se dá vyhnout normalizací řečového inventáře na stejnou F 0, většinou pak rušení klesne pod vnímatelné hodnoty. 4.2 Linear Prediction Coder (LPC) Speech Synthetizer Proti předchozímu není vůbec triviální, vychází z modelu artikulačního ústrojí. LPC syntetizátory jsou relativně stará technika, jejich výsledek ale nevypadá příliš přesvědčivě. Implementace v hardwaru ale není složitá, zvuk je srozumitelný i s minimálním inventářem. Výstupní signál má většinou nějakou relativně nízkou vzorkovací frekvenci, např. 8 khz, protože vyšší se modelují velmi obtížně. Hlasové ústrojí si totiž lze představit jako na jedné straně otevřenou rezonační trubici (tube), ve které je na uzavřené straně zdroj zvuku (buzzer), který vytváří periodický signál. Když se nemění parametry tube ani buzzeru, pak vychýlení výsledné zvukové vlny v každém okamžiku (podle potřeb vzorkovací frekvence, kromě několika počátečních vzorků) se dá predikovat z určitého počtu předchozích vzorků. Potom záleží na zjednodušení modelu, z kolika. Např. LPC Order 8 předpokládá, že lze predikovat z 8 předchozích vzorků. Pro praxi jde samozřejmě o zjednodušení, taková periodicita ve zvuku řeči rozhodně neexistuje. Pro syntézu tedy vezmu řečový inventář a každou potřebnou jednotku rozdělím na framy, tedy časové úseky, kde jsou změny artikulace minimální (ale zas úseky dost dlouhé, aby se rozběhla predikce přes počáteční kroky a bylo možné dopočítat co nejvíc dalších). Pro každý frame potom odhadnu několik počátečních (např. právě 8) samplů, aby Syntéza řeči z psaného textu 10

predikce vycházela s co nejmenší chybou. Tyto počáteční parametry se nazývají LPC coefficients. Odhad se typicky provádí metodou nejmenších čtverců. Celý tento proces odhadování je velmi obtížné provádět pro neznělé hlásky v takovém případě v modelu artikulačního ústrojí nemám buzzer, ale jen bílý šum. Typicky se pro každou hlásku provádí detekce základního tónu a spolu se všemi ostatními parametry se ukládá i údaj o znělosti. Modelování pak provádím separátním ovládáním vlastností trubice i zdroje zvuku. Naměřené koeficienty nepoužívám pro generování zvuku přímo, protože mezi segmenty by vznikaly ostré předěly zvuk se předem ještě vyhlazuje. Pro znělost a neznělost se používá také několik mezistupňů, protože i v reálu hlasivky z naprostého klidu do nejintenzivnější činnosti přecházejí postupně. Problém je se simulací nosových hlásek, protože na to aproximace artikulačního ústrojí prostou trubicí nefunguje. Pokud bych chtěl trubici po části délky rozdělit, budu mít problém s nalezením počátečních LPC koeficientů. Podobná technika (LPC komprese) se používá i v mobilních telefonech, protože aproximace parametrů je de facto druh ztrátové komprese. V signálu telefonu se pak odesílají jednak koeficienty LPC, jednak chybový signál, error signal. Ten obsahuje dodatečné informace o průběhu zvukových vln řeči, které se ale dají téměř libovolně omezovat a posilovat, podle toho, zda záleží víc na velikosti datového toku, nebo na přirozenosti výsledku (malé ztrátě komprese). Hlavní rozdíl oproti TTS systémům je ten, že tady je kompresi nutné provádět v reálném čase, takže nejde až tak o přesnost odhadu parametrů jako o rychlost. I LPC syntetizátory (včetně těch nejjednodušších) ale také používají chybový signál, který se získává obráceným aproximačním filtrem. To spočívá v tom, že od skutečných dat řeči se odečtou odhadnuté parametry. Aproximace nikdy nebude přesná, i kdybych měl modelovat jednoduché tóny (to je vnější chyba). Chybovým signálem je také možné ovládat zdroj zvuku v modelu artikulačním ústrojí a výsledek bude dobrý (v závislosti na datovém toku chybového signálu). Syntéza řeči z psaného textu 11