MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE



Podobné dokumenty
Algoritmy a struktury neuropočítačů ASN P8b

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Speciální struktury číslicových systémů ASN P12

Úvod do praxe stínového řečníka. Proces vytváření řeči

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

Pavel Cenek, Aleš Horák

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

ADA Semestrální práce. Harmonické modelování signálů

Klasifikace Landau-Kleffnerova syndromu

Konsonanty. 1. úvod. 2. frikativy. - zúžením v místě artikulace vzniká sloupec vzduchu, směrodatná je délka předního tubusu

Zvuk. 1. základní kmitání. 2. šíření zvuku

Úvod do zpracování signálů

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Akustika. 3.1 Teorie - spektrum

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Kepstrální analýza řečového signálu

Úvod do praxe stínového řečníka. Úvod

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

7. Rozdělení pravděpodobnosti ve statistice

U Úvod do modelování a simulace systémů

Algoritmy a struktury neuropočítačů ASN P09. Analýza emocionální řeči neuronovými sítěmi Proč?

Rozvoj tepla v betonových konstrukcích

FONETIKA A FONOLOGIE II.

31SCS Speciální číslicové systémy Antialiasing

A7B31ZZS 10. PŘEDNÁŠKA Návrh filtrů 1. prosince 2014

Signál v čase a jeho spektrum

Roviny analýzy jazyka. Fonetika

Návrh frekvenčního filtru

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

SYNTÉZA AUDIO SIGNÁLŮ

Univerzita Pardubice Fakulta-ekonomicko správní

Asistivní technologie

Předmět: Český jazyk. hlasité čtení, praktické čtení. hlasité i tiché čtení s porozuměním

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

český jazyk a literatura

Klasifikace hudebních stylů

5. Umělé neuronové sítě. Neuronové sítě

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Okruhy pojmů ke zkoušce, podzim 2016

Mechanické kmitání a vlnění

Akustika. Teorie - slyšení. 5. Přednáška

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Direct Digital Synthesis (DDS)

Středoškolská technika SCI-Lab

SIGNÁLY A LINEÁRNÍ SYSTÉMY

ANALÝZA LIDSKÉHO HLASU

Aplikovaná numerická matematika

ŘEČOVÉ TECHNOLOGIE v PRAXI

PSK1-5. Frekvenční modulace. Úvod. Vyšší odborná škola a Střední průmyslová škola, Božetěchova 3 Ing. Marek Nožka. Název školy: Vzdělávací oblast:

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Šum AD24USB a možnosti střídavé modulace

Německý jazyk - Kvinta

Systém českých hlásek

Vlastnosti a modelování aditivního

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

elektrické filtry Jiří Petržela filtry založené na jiných fyzikálních principech

Jasové transformace. Karel Horák. Rozvrh přednášky:

EXPERIMENTÁLNÍ METODY I 10. Měření hluku

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Zvuková stránka jazyka

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Český jazyk a literatura

Akustika pro posluchače HF JAMU

Neubauer, K. a kol. NEUROGENNÍ PORUCHY KOMUNIKACE U DOSPĚLÝCH (Praha, Portál, r. vydání 2007).

Segmentální struktura čínské slabiky Segmental Structure of Mandarin Syllable

Stonožka jak se z výsledků dozvědět co nejvíce

ZČU v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Typy kompozičních programů

Fyzikální podstata zvuku

Základní komunikační řetězec

AKUSTICKÁ MĚŘENÍ Frekvenční spektrum lidského hlasu

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

[1] samoopravné kódy: terminologie, princip

Spektrální charakteristiky

Ročník II. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

Jana Dannhoferová Ústav informatiky, PEF MZLU

Teorie náhodných matic aneb tak trochu jiná statistika

Komplexní obálka pásmového signálu

český jazyk a literatura

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

I. Současná analogová technika

Vývojové diagramy 1/7

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

Řečové technologie pomáhají překonávat bariéry

Příloha č. 1. amplitudová charakteristika filtru fázová charakteristika filtru / frekvence / Hz. 1. Určení proudové hustoty

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

CW01 - Teorie měření a regulace

INFORMAČNÍ SYSTÉMY PRO KRIZOVÉ ŘÍZENÍ GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY A JEJICH VYUŽITÍ V KRIZOVÉM ŘÍZENÍ ING. JIŘÍ BARTA, RNDR. ING.

Využití neuronové sítě pro identifikaci realného systému

Transkript:

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA ELEKTROTECHNICKÁ MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE Dizertační práce Vědní obor: Telekomunikační technika Školitel: Prof. Ing. Jan Uhlíř, CSc. Vypracoval: Ing. Petr Horák Praha, 2002

Rád bych na tomto místě poděkoval Ústavu radiotechniky a elektroniky AV ČR za to, že mi svým vstřícným přístupem umožnil vytvořit tuto dizertační práci, a dále kolektivu oddělení Číslicového zpracování signálů a kolektivu Fonetického ústavu FF UK, jmenovitě pak Ing. Robertu Víchovi, DrSc., Mgr. Betty Slavíkové- Hesounové, Dr. Janě Mejvaldové, Dr. Tomáši Dubědovi a Mgr. Jiřímu Hanikovi za podporu při vzniku této práce. Děkuji také své ženě Jitce a synům Kryštofovi a Prokopovi za to, že se na mne nezlobí, že se občas také věnuji jiným koníčkům, než rodině. 2

Obsah Obsah... 3 Seznam obrázků... 5 Seznam tabulek... 7 1 Úvod... 9 2 Shrnutí současného stavu problematiky... 13 2.1 Co je to řeč?... 14 2.1.1 Akustická rovina řeči... 14 2.1.2 Fonetická rovina řeči... 15 2.2 Syntéza řeči z psaného textu... 16 2.2.1 Fonetická transkripce... 17 2.2.2 Prozodie řeči... 18 2.2.3 Modelování řečového signálu... 18 2.3 Způsoby realizace fonetické transkripce... 19 2.4 Vlastnosti prozodie řeči... 19 2.4.1 Suprasegmentální vrstvy... 20 2.4.2 Suprasegmentální charakteristiky v časové oblasti... 21 2.4.3 Suprasegmentální charakteristiky v melodické oblasti... 22 2.4.4 Suprasegmentální charakteristiky v intenzitní oblasti... 24 2.4.5 Superpozice vlivů jednotlivých vrstev tvoření řeči... 24 2.5 Metody popisu řečových jednotek... 24 2.5.1 Popis řečových jednotek v časové oblasti... 25 2.5.2 Popis řečových jednotek ve kmitočtové oblasti... 25 2.6 Metody popisu suprasegmentálních rysů řeči... 25 2.6.1 Úrovně reprezentace prozodických jevů... 25 2.6.2 Intonační modely... 26 2.6.3 Pierrehumbertové intonační model... 26 2.6.4 Systém pro notaci prozodie ToBI... 26 2.6.5 Intonační model INTSINT... 26 2.6.6 Intonační model IPO... 27 2.6.7 Fujisakiho intonační model... 27 2.7 Parametrická analýza signálů... 29 2.7.1 Parametrické modely signálů... 30 2.7.2 Lineární predikce... 30 2.7.3 Metody řešení normálních rovnic predikce... 31 2.7.4 Modelování řečového signálu pomocí lineární predikce... 32 3 Cíle práce... 33 4 Lineární predikce průběhu základního tónu řeči... 37 4.1 Návrh LPC analyzátoru základního tónu řeči... 37 4.2 Použité metody detekce průběhu základního tónu řeči... 41 4.2.1 Detekce základního tónu řeči autokorelační metodou... 41 4.2.2 Detekce pitchpulsů v řečovém signálu s označením znělosti... 41 4.3 Návrh LPC syntezátoru základního tónu řeči... 42 4.4 Ověření funkčnosti LPC kodéru/dekodéru průběhu základního tónu... 43 5 Vlastnosti zbytkového signálu lineární predikce... 45 5.1 Aproximace zbytkového signálu lineární predikce... 45 5.1.1 Aproximace zbytkového signálu obdélníkovým signálem... 47 5.1.2 Aproximace zbytkového signálu impulsovým signálem... 53 5.1.3 Možnosti aproximace zbytkového signálu... 55 5.2 Závislost zbytkového signálu lineárního prediktoru na stavbě věty... 55 5.3 Využití zbytkového signálu lineární predikce pro tvorbu prozodických pravidel... 55 6 Experimentální část... 59 6.1 Databáze řečového materiálu pro modelování prozodie... 59 6.2 Automatická segmentace řeči... 59 6.2.1 Použitý syntezátor řeči... 59 6.2.2 Vlastní segmentace... 59 6.2.3 Testování automatické segmentace... 63 6.3 Porovnání vlastností LPC intonačního modelu s Fujisakiho modelem... 67 3

6.4 Implementace LPC a Fujisakiho intonačního modelu do systému SpeechStudio... 68 6.5 Implementace rozšířeného klienta pro systém Epos... 70 6.6 Implementace ladícího modulu pro systém Epos... 71 6.7 Syntéza řeči s použitím generování základního tónu pomocí lineární predikce... 73 6.7.1 Návrh pravidel pro buzení lineárně predikčního intonačního modelu... 73 6.7.2 Realizace lineárně predikčního intonačního modelu v syntezátoru... 74 7 Celkový přínos práce... 77 8 Přílohy... 79 8.1 Seznam příloh... 79 8.2 Příloha A Seznam namluvených vět... 80 8.3 Příloha B Tabulka fonetického přepisu češtiny... 83 8.4 Příloha C Přehled transkripčních a prozodických pravidel systému Epos... 85 8.4.1 Pravidla využívající slovníky... 85 8.4.2 Obsahem řízená pravidla... 85 8.4.3 Strukturovaná pravidla... 86 8.4.4 Pravidla modelující prozodii... 86 8.4.5 Skládání pravidel... 86 8.4.6 Podmíněná pravidla... 87 8.4.7 Speciální pravidla... 87 Příloha D Přehled vytvořených programů, procedur a funkcí... 88 8.5 Příloha E Výpisy některých podprogramů a funkcí... 89 8.6 Příloha F Výpis kódu TD-PSOLA syntezátoru s modelováním prozodie pomocí lineární predikce. 94 8.7 Příloha G Fonetická transkripce češtiny pro systém Epos... 97 8.8 Příloha H Modelování prozodie češtiny pro systém Epos podle pravidel Prof. Palkové... 100 8.9 Příloha I Modelování prozodie češtiny pro systém Epos pomocí lineárně predikčního modelu... 105 8.10 Příloha J Popis přiloženého disku CD-ROM... 110 9 Přehled literatury... 111 10 Rejstřík... 115 4

Seznam obrázků Kapitola 2. Shrnutí současného stavu problematiky Obr. 2.1 Schéma hlasového ústrojí. 14 Obr. 2.2 Časový průběh a spektrogram řečového signálu (věta Vědci pracují s virgulí ). 15 Obr. 2.3 Blokové schéma TTS systému. 16 Obr. 2.4 Lingvistická část syntezátoru řeči. 16 Obr. 2.5 Lineární model produkce řeči. 17 Obr. 2.6 Modelování prozodie podle pravidel. 17 Obr. 2.7 Modelování základního tónu řeči neuronovou sítí. 18 Obr. 2.8 Ukázka mikrointonace spojení hlásek éza ze slova syntéza. 20 Obr. 2.9 Fujisakiho model produkce základního tónu řeči. 26 Obr. 2.10 Impulsní odezva úsekového systému Fujisakiho prozodického modelu pro vstupní pulsy 27 o velikosti A p = 0.1, 0.25, 0.4, 0.6, 0.8 a 1.0 při α = 2 s -1. Obr. 2.11 Odezva přízvukového systému Fujisakiho prozodického modelu na vstupní jednotkové pulsy 28 trvání T = 50, 100, 150, 200 a 250 ms při β = 20 s -1. Obr. 2.12 Odezva přízvukového systému Fujisakiho prozodického modelu na vstupní pulsy o délce 250 29 ms a amplitudě A a = 0.2, 0.4, 0.6, 0.8 a 1.0 při β = 20 s -1. Obr. 2.13 Inverzní (chybový) lineárně predikční filtr. 31 Obr. 2.14 Filtr pro syntézu pomocí lineární predikce. 31 Kapitola 4. Lineární predikce průběhu základního tónu řeči Obr. 4.1 Charakteristiky filtru pro decimaci průběhu základního tónu řeči. 38 Obr. 4.2 Ukázka interpolace průběhu základního tónu řeči. 39 Obr. 4.3 Ukázka filtrace interpolovaného průběhu základního tónu řeči. 39 Obr. 4.4 a) Ukázka decimace průběhu základního tónu řeči, 40 b) Vypočtený zbytkový signál včetně vypočtených koeficientů filtru. Obr. 4.5 a) Blokové schéma LPC analyzátoru. 40 b) Blokové schéma vlastního bloku LPC analýzy z obr. 4.5a. Obr. 4.6 Blokové schéma inverzního filtru. 41 Obr. 4.7 Struktura rekonstrukčního filtru syntezátoru základního tónu řeči. 42 Obr. 4.8 Blokové schéma LPC syntezátoru základního tónu řeči. 42 Obr. 4.9 a) Signál průběhu základního tónu řeči po LPC resyntéze a interpolaci, 43 b) Budící signál rekonstrukčního filtru včetně 4 LPC koeficientů. Obr. 4.10 Ukázka průběhu základního tónu řeči po resyntéze metodou lineární predikce. 43 Obr. 4.11 Blokové schéma řečového LPC vokodéru s LPC analýzou / syntézou průběhu základního tónu. 44 Kapitola 5. Vlastnosti zbytkového signálu lineární predikce Obr. 5.1 Statistické vyhodnocení LP koeficientů 144 vět ze souboru machač1 a machač2. 45 Obr. 5.2 Odezva rekonstrukčního filtru na jednotkový skok a jednotkový impuls (LP koeficienty ze 46 souboru vět machač1 a machač2 ). Obr. 5.3 Statistická analýza lineárně predikčních koeficientů pro jednotlivé mluvčí. 46 Obr. 5.4 Aproximace zbytkového signálu lineárního prediktoru pro větu o1d3a, w = 1, 2, 3; ε = 4. 49 Obr. 5.5 Aproximace zbytkového signálu lineárního prediktoru pro větu o1d3a, w = 4, 5, 6; ε = 4. 49 Obr. 5.6 Aproximace zbytkového signálu lineárního prediktoru pro větu d3k3a, w = 1, 2, 3; ε = 4. 50 Obr. 5.7 Aproximace zbytkového signálu lineárního prediktoru pro větu d3k3a, w = 4, 5, 6; ε = 4. 50 Obr. 5.8 Aproximace zbytkového signálu lineárního prediktoru pro větu d3k3a, w = 2; ε = 1, 3, 5. 51 Obr. 5.9 Aproximace zbytkového signálu lineárního prediktoru pro větu d3k3a, w = 2; ε = 2, 4, 8. 51 Obr. 5.10 Histogramy středních kvadratických chyb pro jednotlivé soubory vět (w = 2; ε = 4). 53 Obr. 5.11 Aproximace zbytkového signálu lineárního prediktoru pro větu o1d3a, ε = 2. 54 5

Kapitola 6. Experimentální část Obr. 6.1 TTS systém upravený pro účely automatické segmentace. 60 Obr. 6.2 Blokové schéma automatického segmentátoru řeči. 61 Obr. 6.3 Váhovací koeficienty w pro symetrickou formu bortící funkce. 62 Obr. 6.4 Ukázka DTW algoritmu na matici akumulovaných vzdáleností. 63 Obr. 6.5 Průměrné délky hlásek v jednotlivých kategoriích pro mužský a ženský hlas při automatické 66 a manuální segmentaci (viz tab. 6.6). Obr. 6.6 Ukázka automatické segmentace. Nahoře je syntetická řeč s vyznačenými hranicemi hlásek, 66 dole pak přirozená promluva s automaticky vyznačenými hranicemi hlásek. Obr. 6.7 Blokové schéma nástroje na transplantaci průběhu základního tónu z jedné promluvy na 67 druhou. Obr. 6.8 Grafické uživatelské rozhraní systému SpeechStudio. 68 Obr. 6.9 Implementace Fujisakiho intonačního modelu v systému SpeechStudio. 69 Obr. 6.10 Implementace lineárně predikčního intonačního modelu v systému SpeechStudio. 70 Obr. 6.11 Grafický klient TTS systému Epos. 71 Obr. 6.12 Nástroj pro výpis a modifikaci vnitřní datové struktury systému Epos. 72 Obr. 6.13 TTS systém s použitím generování základního tónu pomocí lineární predikce. 73 6

Seznam tabulek Kapitola 2. Shrnutí současného stavu problematiky Tab. 2.1 Závislost trvání pauz za větami na interpunkčních znacích dle [PTÁ93 Kapitola 4. Lineární predikce průběhu základního tónu řeči Tab 4.1 Výpočet decimačního filtru v prostředí Matlab Kapitola 5. Vlastnosti zbytkového signálu lineární predikce Tab. 5.1 Statistické vyhodnocení LP koeficientů 144 vět ze souboru Machač1 a Machač2 Tab. 5.2 Analýza střední kvadratické chyby pro věty o1d3a (a) a d3k3a (b) od mluvčího Machač Tab. 5.3 Statistika středních kvadratických chyb pro 72 vět souboru Machač1 Tab. 5.4 Statistika středních kvadratických chyb pro 72 vět souboru Machač2 Tab. 5.5 Statistika středních kvadratických chyb pro 72 vět souboru Záruba Tab. 5.6 Statistika středních kvadratických chyb pro 72 vět souboru Jana Tab. 5.7 Statistika středních kvadratických chyb pro různé prahové úrovně aproximace Tab. 5.8 Statistika středních kvadratických chyb pro slabiky a přízvukové takty Kapitola 6. Experimentální část Tab. 6.1 Rozdělení českých hlásek pro účely testování automatické segmentace Tab. 6.2 Procentuální výskyt chyb segmentace začátků hlásek pro mužský hlas Tab. 6.3 Procentuální výskyt chyb segmentace trvání hlásek pro mužský hlas Tab. 6.4 Počet výskytů hlásek v jednotlivých kategoriích Tab. 6.5 Procentuální výskyt chyb segmentace začátků hlásek pro ženský hlas Tab. 6.6 Procentuální výskyt chyb segmentace trvání hlásek pro ženský hlas Tab. 6.7 Průměrné délky hlásek v jednotlivých kategoriích pro mužský a ženský hlas při automatické a manuální segmentaci Tab. 6.8 Přednastavené druhy značek v systému SpeechStudio Tab. 6.9 Uspořádání úrovní TSR pro češtinu Tab. 6.10 Deklarace proměnných pro lineárně predikční intonačnmí model v souboru tdpsyn.cc Kapitola 8. Přílohy Tab. A.1 Kategorie vět prozodického korpusu Tab. A.2 Věty prozodického korpusu Tab. B.1 Fonetický přepis českých hlásek 7

Přehled použitých symbolů Kapitola 2. Shrnutí současného stavu problematiky B T t F 0 (t) F b A pi A aj G p G a T 0i T 1j T 2j α β γ n x(n) x (n) e(n) a m M N... prodloužení hlásky [dc... doba trvání hlásky [ms... čas... průběh základního tónu v závislosti na čase... základní kmitočet Fujisakiho modelu... amplituda i-tého úsekového impulsu Fujisakiho modelu... amplituda j-tého přízvukového pulsu Fujisakiho modelu... úseková složka Fujisakiho modelu... přízvuková složka Fujisakiho modelu... čas i-tého úsekového impulsu Fujisakiho modelu... čas počátku j-tého přízvukového pulsu Fujisakiho modelu... čas konce j-tého přízvukového pulsu Fujisakiho modelu... koeficient časové konstanty úsekového systému Fujisakiho modelu... koeficient časové konstanty přízvukového systému Fujisakiho modelu... mezní hodnota přízvukového systému Fujisakiho modelu... pořadové číslo vzorku signálu... n-tý vzorek signálu... predikce signálu x(n)... zbytkový signál lineární predikce... m-tý koeficient predikčního filtru... řád parametrického modelu (řád lineární predikce)... počet vzorků signálu Kapitola 4. Lineární predikce průběhu základního tónu řeči Wp Ws Rp Rs Fs r i rc i a i... hraniční kmitočet propustného pásma filtru... hraniční kmitočet nepropustného pásma filtru... útlum filtru v propustném pásmu... útlum filtru v nepropustném pásmu... vzorkovací kmitočet... i-tý autokorelační koeficient... i-tý reflexní koeficient... i-tý koeficient filtru Kapitola 5. Vlastnosti zbytkového signálu lineární predikce e j y i w k ε F 0i F 0i n V MSE... j-tá hodnota zbytkového signálu lineárního prediktoru... i-tá hodnota aproximovaného zbytkového signálu lineárního prediktoru... šířka aproximačního okna... počáteční index aproximačního okna pro i-tou hodnotu zbytkového signálu... prahová úroveň aproximace... hodnota základního tónu i-tého rámce analyzované promluvy na výstupu pitchdetektoru... hodnota základního tónu i-tého rámce po resyntéze pomocí lineární predikce... počet hodnot průběhu základního tónu řeči (počet rámců promluvy)... počet nenulových hodnot základního tónu řeči v promluvě (počet znělých rámců)... střední kvadratická chyba průběhu základního tónu po resyntéze pomocí lineární predikce Kapitola 6. Experimentální část c 0 c n α c j (i) μ w f D... nultý kepstrální koeficient... n-tý kepstrální koeficient... koeficient zisku lineárního prediktoru... j-tý kepstrální koeficient i-tého rámce... koeficient překrytí rámců... váhovací funkce... obecná funkce... distanční matice 8

1 Úvod Lidská řeč je základním komunikačním prostředkem mezi lidmi a v dnešní době, kdy se mnoho věcí nedávno ještě neskutečných stává realitou díky stále většímu výpočetnímu výkonu současných počítačů, se syntetická řeč stává běžnou součástí každodenního života. Pokusy o umělou řeč jsou zaznamenány již ve druhé polovině 18. století, kdy Kratzenstein reprodukoval zvuk samohlásek spojením jazýčkové píšťaly s trubicemi rozmanitých tvarů a velikostí (1780) a von Kempelen sestavil mechanický syntezátor řeči (1791). První elektronické syntezátory, které generují rovněž pouze samohlásky, se objevují až v první polovině dvacátého století. Výraznější výsledky v této oblasti jsou datovány až v období po II. světové válce a zejména po r. 1960, kdy byla uveřejněna Fantova práce o modelování hlasového traktu [FAN60. Bouřlivý rozvoj v oblasti syntézy řeči nastal však až s rozvojem osobních počítačů v 80. a zejména pak v 90. letech. V současné době, kdy syntetickou řeč můžeme slyšet každý den v nejrůznějších telekomunikačních či informačních systémech, se kladou stále větší požadavky na její kvalitu a přirozenost. Přestože se syntetická řeč již prakticky používá, její kvalita stále není dokonalá. Jsme schopni produkovat syntetickou řeč s velmi dobrou srozumitelností, ale s malou přirozeností. Rozdíl mezi syntetickou a přirozenou řečí je stále propastný, a to jak z hlediska modelování vlastního řečového signálu, tak z hlediska modelování prozodie řeči. Na mém pracovišti v Ústavu radiotechniky a elektroniky AV ČR se syntetickou řečí zabýváme od počátku devadesátých let. První v praxi používaný řečový syntezátor, založený na principu lineárně prediktivního kódování, pochází z roku 1992 [VÍC94a,b[VÍC95a,b[VÍC96a,b. Syntezátory vyvinuté na našem pracovišti používají modelování prozodických rysů podle pravidel definovaných ve Fonetickém ústavu Filozofické fakulty Karlovy univerzity. V letech 1996 až 1998 probíhala spolupráce mezi naším pracovištěm a TU Drážďany na společné česko-německé syntéze řeči [HEL96. Hledáním lepšího způsobu modelování řečového signálu se na našem pracovišti zabývá Dr. Přibil ve svých pracích o kepstrálním modelování řeči [PŘI95[PŘI97. Od roku 1996 se provádí výzkum v oblasti modelování prozodie syntetické řeči pomocí umělých neuronových sítí (UNS), který však zatím nepřinesl praktické výsledky [VÍC96c[TUČ96[TUČ97a,b,c,d,e[TUČ98[KRK98. Prozodii řeči jsem se začal věnovat v r. 1995, kdy jsem vytvořil nástroj pro modelování prozodie ModProz, který se používá převážně ve Fonetickém ústavu Filozofické fakulty pro tvorbu nových prozodických pravidel. Tento nástroj byl založen na syntéze řeči z psaného textu s možností měnit prozodické parametry pro jednotlivé hlásky nebo řečové jednotky (difony) [HOR96a,b,c,d. Z hlediska přirozenosti řeči, zejména při poslechovém testování nových prozodických pravidel, vyvstala potřeba modelování prozodie na přirozeném řečovém signálu. Z tohoto důvodu jsem v r. 1996 začal pracovat na programovém systému SpeechStudio umožňujícím manuální segmentaci a popisování úseků signálu a resyntézu řečového signálu s pozměněnými prozodickými hodnotami [HOR97a,b,d. Systém SpeechStudio byl využíván při experimentech popisovaných v této práci a byl pro její potřeby průběžně zdokonalován a rozšiřován [HOR98b,c,e,f[HOR99a,b,c,f[HOR00c[HOR01c. Při definování nových prozodických pravidel vznikla také potřeba jejich pružného testování. V dosavadních syntezátorech bylo nutno prozodická pravidla psát přímo do zdrojového kódu syntezátoru, což byl v našem případě assembler 8086. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru (doc. Ptáček). Na základě této situace byl v r. 1996 prof. Dohalskou motivován vývoj otevřeného systému pro převod psaného textu na řeč, jehož jsem se ujal společně s mgr. Hanikou z Karlovy univerzity. Ve spolupráci s mgr. Hanikou jsme vytvořili systém, ve kterém se jak transkripční, tak prozodická pravidla mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a kompilace. Tento systém později dostal jméno Epos a byl rovněž rozšiřován pro potřeby této práce, zejména pak o možnost automatické segmentace řečového signálu [HOR98d[HAN98a,b. V této práci se zabývám vedle stručného úvodu do problematiky prozodie češtiny především možnostmi parametrického popisu prozodie řeči, zejména pak průběhu základního tónu řeči, a jeho využitím pro automatickou syntézu řeči z psaného textu. Cílem práce nebyla tvorba celého nového systému pro modelování prozodie pomocí prozodických modelů, neboť tak rozsáhlý cíl je možné splnit pouze v rámci širšího kolektivu spolupracovníků v časovém horizontu několika let. Tato práce by měla ukázat výhody prozodických modelů pro modelování prozodie a možné směry dalšího výzkumu. 9

10

Část I Teoretická část 11

12

2 Shrnutí současného stavu problematiky První prakticky použitelný systém pro převod psaného textu na mluvenou řeč (Text-to-Speech TTS System), pocházející z našeho ústavu, byl vyvinut ve spolupráci s Fonetickým ústavem Filozofické fakulty Karlovy univerzity (FF UK) v letech 1990 až 1993. Tento TTS systém byl založen na časovém spojování modelů jednotek řeči popsaných pomocí lineárně prediktivního kódování (LPC Linear Predictive Coding) [ITA69[VÍC95a. Inventář řečových jednotek se skládal celkem ze 441 difonu a těl samohlásek vyskytujících se v češtině a ve slovenštině. Syntéza řeči pracovala se vzorkovacím kmitočtem 8 khz při použitém osmém řádu lineární predikce. Prozodie byla v tomto syntezátoru generována pomocí pravidel sestavených fonetiky z FF UK. Tato pravidla byla zapsána přímo ve zdrojovém kódu TTS systému, a nebylo je tedy možné během používání měnit. Tento původní TTS systém vycházel z předchozí dlouholeté práce doc. Ptáčka z FF UK v oboru syntézy řeči a zkušeností kolektivu Dr. Vícha z ÚRE AV ČR s lineárně prediktivním kódováním řeči. Popisovaný TTS systém se dodnes prakticky používá především jako pomůcka pro nevidomé a slabozraké, dále pak v telekomunikačních a informačních systémech. Vývoj našeho TTS systému probíhal od r. 1990 v několika směrech současně na pracovištích ÚRE AV ČR a Fonetického ústavu FF UK. Ve Fonetickém ústavu se pracovalo především na návrhu nového inventáře řečových prvků foneticky lépe popisujícího mluvenou češtinu a na návrhu lepších pravidel pro modelování prozodie [HOR97c. Odchodem doc. Ptáčka z Fonetického ústavu práce na nových inventářích ve Fonetickém ústavu ustaly, přičemž žádný z do této doby vytvořených inventářů nebyl lepší, než původní, dosud používaný, inventář, jehož autorkou je E. Víchová z ÚRE a jehož poslední verze je z r. 1993. Díky příchodu nové pracovnice do ÚRE v r. 1999 pracujeme nyní na novém inventáři přímo v ÚRE. Tento nový inventář, založený na použití trifonů, obsahuje 1856 řečových jednotek [HOR01b. V současné době jsou před dokončením trifonové inventáře pro mužský i ženský hlas. Od března 1999 je v činnosti plně automatizovaný informační systém INFOCITY vyvinutý na TU v Liberci Prof. Nouzou, ve kterém je použita syntéza řeči vyvinutá v ÚRE (možno vyzkoušet na telefonním čísle 048/5353100). Vývoj v oblasti generování prozodie probíhal v letech 1993 až 1998 ve Fonetickém ústavu pod vedením doc. Ptáčka. Prozodická pravidla, vycházející z předchozích výzkumů, definovaná v r. 1998 prof. Palkovou z FÚ, byla zapracována také do systému Epos. Od r. 1996 do r. 2000 jsme se ve spolupráci s doc. Tučkovou z ČVUT FEL snažili najít lepší způsob generování prozodie syntetické řeči s využitím umělých neuronových sítí (UNS) [TUČ97a,b,c,d,e[TUČ98. Tato spolupráce bohužel nepřinesla žádné prakticky použitelné výsledky. To však neznamená, že by modelování prozodie pomocí UNS nebylo perspektivní, je však potřeba hledat nové přístupy k řešené problematice. V současné době pracuje na syntéze češtiny z psaného textu několik na sobě nezávislých pracovišť. V akademické sféře je to především kolektiv z Fakulty informatiky z Masarykovy univerzity v Brně pod vedením doc. Kopečka vyvíjející syntezátor Demosthenes založený na použití poloslabik a syntézy v časové oblasti. Na Katedře kybernetiky Západočeské univerzity v Plzni pracuje kolektiv pod vedením prof. Psutky na syntéze řeči založené na automatické segmentaci jednotek pomocí skrytých Markovových modelů (Hidden Markov Models HMM). Jako jednotka je použit foném závislý na svém pravém i levém okolí; složitostí se tedy jedná v podstatě o trifonovou syntézu, kde počet řečových jednotek je cca 5000. Na Drážďanské univerzitě je vyvíjena syntéza češtiny ve spolupráci s FÚ Filozofické fakulty. Z komerční sféry lze zmínit např. firmu FROG Systems a její TTS systém CSVoice. Jak již bylo v úvodu řečeno, byla v prvních TTS systémech pravidla pro fonetickou transkripci a pro modelování prozodie zapsána přímo v programovém kódu TTS systému, a proto bylo obtížné tato pravidla vyvíjet a měnit. Z tohoto důvodu se v roce 1996 započalo ve spolupráci s FÚ FF UK s vývojem nové koncepce TTS systému, ve kterém by byla všechna transkripční i prozodická pravidla konfigurovatelná bez nutnosti rekompilace kódu. Tento systém byl posléze nazván Epos a dnes je i prakticky používán a je možné jej bezplatně získat na internetu na adrese http://epos.ure.cas.cz/ včetně zdrojových kódů [HOR98a,d[HAN01[EPOS. Na této internetové stránce je možné tímto systémem ozvučit libovolný text. Výhodou systému Epos je plná kontrola uživatele nad procesem fonetické transkripce a modelování prozodie. Z tohoto důvodu se na Epos budu odvolávat při popisu problematiky fonetické transkripce a modelování prozodie a také při vlastních experimentech využívajících TTS systém Epos. Systém Epos používá architekturu klient/server s komunikací prostřednictvím speciálního autory navrženého protokolu pracujícího na TCP vrstvě [HAN99. Díky tomu je Epos nezávislý na hardwarové platformě i na použitém operačním systému. Tím, že byly ze zdrojových kódů všechny jazykové závislosti přesunuty do konfiguračních souborů, stal se systém Epos nezávislý na jazyku. Přidání dalšího jazyka je pak v podstatě otázkou vytvoření konfiguračních souborů a hlasových inventářů pro daný jazyk [HAN00. 13

2.1 Co je to řeč? Jazyk nám umožňuje předávat myšlenky prostřednictvím souboru znaků ať už grafických (latinka, řecká abeceda, azbuka, čínské ideogramy apod.), akustických (např. pomocí řeči), anebo jiných. Řeč je jedním z nejstarších a nejpřirozenějších prostředků komunikace mezi lidmi a je také jako prostředek komunikace nejčastěji užívána. Není divu, že se lidé snaží vytvářet zařízení umožňující automatické vytváření, příp. i rozpoznávání řeči. Informaci, kterou lidská řeč přenáší, můžeme analyzovat mnoha způsoby. Vědci zabývající se řečí obvykle rozlišují několik vzájemně překrývajících se úrovní popisu řeči, a to: akustická, fonetická, morfologická, syntaktická, sémantická a pragmatická. Pro vlastní syntézu řeči jsou nejdůležitější úrovně akustická a fonetická. 2.1.1 Akustická rovina řeči Řečový akustický signál je speciálním případem akustického signálu nesoucím řečovou informaci. Podstatou akustického signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí vznikající kontrolovanými pohyby struktur hlasového ústrojí patrných na obr. 2.1. Hlasové ústrojí lze z akustického hlediska považovat za soustavu zvukových zdrojů a rozvětveného zvukovodu. Jedna z větví tohoto zvukovodu (větev nazální) má prakticky stálý tvar (průřezovou funkci) a mění se pouze v oblasti svého vstupu (lze ji otevřít nebo uzavřít, eventuálně nastavit mezi těmito dvěma stavy). Druhá větev (orální) může svůj tvar v určitých mezích měnit (má časově proměnnou průřezovou funkci). Obě větve vyúsťují do vnějšího prostoru v těsné blízkosti a jejich výstupní signály se skládají do signálu jediného. Původní spektra zvukových zdrojů se modifikují filtračními účinky zvukovodů (vokálního traktu). Obr. 2.1 Schéma hlasového ústrojí. Akustická soustava vokálního traktu je buzena dvěma druhy akustického signálu. Jednak je to kvaziperiodický signál, vznikající přerušováním výdechového proudu vzduchu kmitajícími hlasivkami, jednak signál šumový, vznikající turbulentním prouděním výdechového proudu vzduchu úžinami. Hlasivkový tón má bohaté kmitočtové spektrum, které lze s určitou nepřesností považovat za čárové (ve skutečnosti je hlasivkový tón nutno považovat za zvuk kvaziperiodický). Filtračním účinkem jedné nebo obou větví zvukovodu se určitá spektrální pásma (formanty) zesilují, případně se mohou i zeslabovat (antiformanty při nazalizaci). Dalším zvukovým zdrojem, budícím orální větev mluvidel, je zdroj šumový. Šum vzniká turbulentním prouděním vzduchu úžinami, které mění svou polohu podle druhu artikulované hlásky. Nejblíže vstupu do orální větve (přímo v hlasivkách) vzniká šum při artikulaci souhlásky h, nejdále od vstupu šum souhlásky f. Pokud je šumový zdroj umístěn mimo začátek orální větve, je pro něj filtrační účinek zvukovodu (vlastně již jen jeho části směrem 14

k výstupu z úst) jiný, než pro hlasivkový tón, který prochází celým zvukovodem. Spektrum šumu je však ovlivněno i prostorem, který šumovému zdroji předchází, a to obvykle tak, že jsou určitá kmitočtová pásma šumu potlačena. Spojitý artikulační pohyb mluvidel (koartikulace) při tvorbě souvislé řeči se projevuje modifikací charakteristických zvuků jednotlivých hlásek zvuky hlásek sousedících. Tuto modifikaci pozorujeme nejen v oblasti spektrálních tranzientů (přechodových oblastí mezi stacionárními úseky hlásek), ale někdy i ve středních hláskových oblastech záleží na typu hlásek, na tempu řeči a na artikulačních schopnostech mluvčího. Obr. 2.1 2.2 Časový průběh a spektrogram řečového signálu (věta Vědci pracují s virgulí ). Akustická skladba jednotlivých hlásek souvislé řeči je dále modifikována v rámci delších časových úseků (slova, taktu, větného úseku, věty) tzv. modulačními faktory, jimiž se vytvářejí prozodické rysy promluvy. Jde o modifikace časové, intenzitní a melodické. Změny v těchto parametrech se přičítají ke změnám daným vlastnostmi jednotlivých hlásek a koartikulací. Ukázku řečového signálu vidíme na obr. 2.2. V horní části je časový průběh řečového signálu a pod ním spektrogram tohoto průběhu. Spektrogram je zobrazení časových změn intenzit jednotlivých spektrálních složek řečového signálu. V tomto zobrazení čas odpovídá vodorovné ose, kmitočet spektrálních složek svislé ose a hladina zvuku (tj. logaritmická míra intenzity) stupni zčernání příslušné plochy. 2.1.2 Fonetická rovina řeči Na spektrogramu na obr. 2.2 dole lze rozlišit spektrum periodického signálu od spektra signálu šumového. U periodického signálu je většina energie rozložena v nižší části spektra a je zde patrné zřetelné vertikální šrafování způsobené periodicitou hlasivkových pulsů. Spektrum šumového signálu toto šrafování nemá a většina energie je u šumového signálu rozložena ve vyšší části spektra. Dobře odlišitelné jsou i oblasti bez signálu (např. okluzní pauzy). Ve vodorovném směru se táhnou výrazné pruhy s vertikálně kolísajícími polohami. Jsou to oblasti spektrálních maxim formanty. Časové změny formantových poloh se nazývají formantovými tranzienty. 15

Počet samohláskových formantů je závislý na tvaru vlny hlasivkového buzení (na způsobu kmitání hlasivek). Hlasy, které mají velký počet formantů, znějí většinou plně a jasně, na rozdíl od hlasů s menším počtem formantů, které znějí zastřeně a chudě. Kmitočty formantů se u jednotlivých samohlásek odlišují a jsou pro ně charakteristické. Kromě formantů lze na spektrogramech ještě nalézt (obvykle slaběji vyjádřená) spektrální maxima, která přispívají k individuální charakteristice mluvčího (k barvě hlasu). V souvislé řeči se vlivem koartikulace polohy samohláskových formantů mohou odlišovat od poloh, odpovídajících samostatně vyslovované samohlásce (od tzv. cílových hodnot). Při rychlé mluvě formanty v samohláskových polohách ani nemusejí dosáhnout svých cílových hodnot, a přesto posluchač samohlásky (v daném kontextu) považuje za správně vyslovené. Pokud se však pomocí počítače ozvučí odpovídající samohláskové úseky bez kontextu, jsou vnímány jako chybně vyslovené. 2.2 Syntéza řeči z psaného textu Pro syntézu řeči z psaného textu je třeba zvládnout fonetickou transkripci, tj. přepis psaného textu na posloupnost hlásek (zvuků), a následné přiřazení zvolených jednotek řeči (difony, trifony apod.) transkribovanému textu. První syntezátory z psaného textu nepracovaly s prozodií a produkovaly tedy monotónní, poslechově nepříjemnou řeč. Pro přijatelnější kvalitu syntetické řeči bylo nezbytné přidat modelování prozodie. Zpočátku se používalo pouze modelování průběhu základního tónu, které je z prozodického hlediska nejdůležitější. Pro dosažení lepší přirozenosti řeči je však nezbytné pracovat také s modelováním rychlosti (časového členění) a intenzity řeči. Řada dnešních syntezátorů však vůbec neprovádí modelování intenzity řeči, nebo intenzitu modeluje značně zjednodušeně. I když výzkumy prokázaly význam modelování intenzity pro přirozenost syntetické řeči, je tento význam menší v porovnání s modelováním průběhu základního tónu a časového členění [WIT82[KEL94. Obr. 2.3 Blokové schéma TTS systému. Každý systém pro syntézu řeči z psaného textu se skládá z několika vzájemně více či méně provázaných částí, které můžeme rozdělit do dvou skupin. První skupina, zabývající se zpracováním textu, provádí převod psaného textu na vnitřní fonetickou reprezentaci syntezátoru spolu s generováním prozodických informací. Tato část TTS systému sestává z analýzy textu, fonetické transkripce, modelování prozodie a příp. generování posloupnosti řečových jednotek. Druhá část TTS systému pak převádí vnitřní fonetickou reprezentaci spolu s prozodií na posloupnost řečových jednotek z řečové databáze, ze které se pak tvoří řečový signál modelováním řeči v časové nebo kmitočtové oblasti, popř. modelováním hlasového traktu. Základní blokové schéma TTS systému můžeme nalézt na obr. 2.3. Lingvistická část syntézy řeči z psaného textu je znázorněna na obr. 2.4, Obr. 2.4 Lingvistická část syntezátoru řeči. 16

vlastní produkce řeči založená na principu modelování hlasového traktu v kmitočtové oblasti je znázorněna na obr. 2.5. Obr. 2.5 Lineární model produkce řeči. 2.2.1 Fonetická transkripce Fonetická transkripce je určena ke schematickému zápisu hlásek mluvené řeči odpovídající dané konvenci. K zápisu fonetické transkripce se užívá mezinárodní fonetická abeceda IPA [IPA96. Pro počítačové zpracování se používá SAMPA (Speech Assessment Methods Phonetic Alphabet) [WEL92[WEL00. Pro počítačové zpracování fonetického přepisu češtiny byl definován zápis Doc. Ptáčkem (viz Příloha B), později byl definován zápis ve společné práci Prof. Nouzy, Prof. Uhlíře a Prof. Psutky [NOU97. Pro fonetický přepis češtiny vznikly v minulosti dva různé návrhy SAMPA notace pro češtinu. Jeden pochází z ČVUT a slouží pro potřeby rozpoznávání, druhý pochází z Fakulty informatiky v Brně a slouží především pro potřeby syntézy řeči. Z těchto návrhů vznikl později návrh kompromisní, který se zřejmě stane standardem SAMPA notace pro češtinu [HNŽ01. Je známo, že výslovnost slov se často liší od jejich pravopisu, i když v češtině není tento rozdíl tak velký jako např. ve francouzštině nebo v angličtině. Fonetická transkripce češtiny se dá až na malé výjimky popsat pomocí pravidel bez nutnosti použití rozsáhlých slovníků. Z tohoto důvodu používají všechny české TTS systémy pouze pravidla, která mohou být doplněna slovníky výjimek. Složitějším problémem pro fonetickou transkripci jsou číslovky, především pak řadové. V systému Epos je čtení číslovek realizováno pomocí regulárních výrazů, které představují velmi výkonný nástroj pro práci s textem. Obr. 2.6 Modelování prozodie podle pravidel. 17

2.2.2 Prozodie řeči Prozodie řeči nese informaci o melodii (průběhu základního tónu F0), intenzitě a časovém členění jednotlivých řečových jednotek na suprasegmentální úrovni. Původní české řečové syntezátory nepracovaly s prozodií, a proto byla jejich řeč nepříjemně monotónní. Současné řečové syntezátory pracují většinou pouze s modelováním průběhu základního tónu, jenž je z prozodického hlediska nejdůležitější. Řečové syntezátory vyvíjené v ÚRE pracují se všemi třemi základními prozodickými parametry. V teoretické oblasti je stav prozodie češtiny poměrně neuspokojivý. Existují zde sice práce Romportla a Daneše, ty se však zabývají popisem pravidel, které byly dále propracovány Palkovou. V současné době neexistuje žádný moderní pohled na teorii prozodie češtiny. V praktických aplikacích prozodie češtiny, tj. u syntézy české řeči, je stav obdobný jako u teorie existuje několik syntezátorů používajících modelování prozodie pomocí pravidel, která je pro běžného posluchače většinou nepřijatelná. Bohužel lepší prozodické vlastnosti mají dnes spíše syntezátory pocházející z komerční sféry. Při modelování prozodie řeči pomocí pravidel se na základě analýzy textu přiřazuje jednotlivým řečovým jednotkám pomocí pevně stanovených pravidel jejich základní tón, intenzita a trvání. Prozodická pravidla doposud používaná ve Fonetickém ústavu a v ÚRE jsou výsledkem dlouholetého výzkumu ve Fonetickém ústavu Univerzity Karlovy pod vedením doc. Ptáčka. Blokové schéma syntézy řeči s modelováním prozodie pomocí pravidel je na obr. 2.6. Při použití neuronových sítí pro modelování prozodie je hodnota základního tónu (popř. i intenzity a trvání) jednotlivých řečových jednotek získána pomocí umělé neuronové sítě, na jejíž vstupy jsou přivedeny výsledky analýzy textu. Modifikace TTS systému pro modelování průběhu základního tónu řeči pomocí neuronové sítě, vyvíjeného ve spolupráci ÚRE a ČVUT FEL, je zobrazena na obr. 2.7. Obr. 2.7 Modelování základního tónu řeči neuronovou sítí. V tomto TTS systému je vstupní text analyzován a relevantní informace jsou předávány do umělé neuronové sítě (UNS), která potom na jejich základě generuje prozodické hodnoty pro jednotlivé hlásky. Výsledky této metody zatím nejsou uspokojivé nejspíše proto, že UNS je nucena generovat přímo absolutní hodnoty základního tónu řeči, čímž je v podstatě zahlcena. Lepších výsledků by se jistě dosáhlo použitím nějakého intonačního modelu či použitím více jednodušších neuronových sítí kombinovaných s prozodickými pravidly. Zajímavou aplikací by také bylo použití neuronové sítě pro modelování prozodie pomocí lineární predikce, kdy by UNS generovala průběh buzení syntetizujícího filtru namísto přímého generování průběhu základního tónu. Průchodem generovaného budícího signálu syntetizujícím filtrem by se odstranila hlavní nevýhoda UNS nepřirozené chvění výstupního průběhu základního tónu. 2.2.3 Modelování řečového signálu Z hlediska objemu inventáře řečových jednotek je čeština také poměrně jednoduchý jazyk, neboť obsahuje jen 5 základních samohlásek. Poměrně dobrých výsledků lze pro češtinu dosáhnout s použitím inventáře o rozsahu cca 300 řečových jednotek obsahujícího těla samohlásek, iniciální a finální části hlásek, difony samohláska souhláska (VC) a difony souhláska samohláska (CV). Ve Fonetickém ústavu FF UK byl T. Dubědou definován difonový inventář o rozsahu cca 1300 jednotek obsahující navíc difony souhláskových skupin. Na Fakultě informatiky Masarykovy univerzity v Brně používají inventář obsahující cca 3000 18

poloslabik. Na Katedře kybernetiky ZČÚ v Plzni vytvořili trifonový inventář (spíše než o trifonech by bylo vhodnější mluvit o monofonech závislých na svém pravém a levém okolí) s využitím automatického definování trifonové databáze a automatické segmentace na bázi skrytých Markovských řetězců (HMM Hidden Markov Models). Takto automaticky definovaný inventář obsahuje cca 5000 jednotek. Nejnovější inventář definovaný v ÚRE je založen rovněž na použití trifonů a obsahuje cca 1850 řečových jednotek. Ve světě jsou stále více populární TTS systémy pracující s rozsáhlými databázemi, kde mohou řečové jednotky tvořit celé slabiky i slova, popř. slovní spojení. Pro syntézu tónových jazyků (např. japonština) se začínají používat inventáře obsahující každou řečovou jednotku v několika intonačních variantách. Nejstarší české TTS systémy používaly pro modelování řečového signálu formantovou syntézu (známý je např. Ptáčkův dvouformantový syntezátor používající Baumwollspinerovu metodu). TTS systémy vyvinuté v ÚRE používají modelování řečového signálu v kmitočtové oblasti buď pomocí lineární predikce, nebo pomocí kepstrální syntézy. Největší předností modelování řečového signálu v kmitočtové oblasti je plynulá změna prozodických parametrů ve velkém rozsahu. Většina konkurenčních produktů je dnes založena na modelování řečového signálu v časové oblasti metodou PSOLA, popř. jejími modifikacemi, které mají oproti modelování řeči v kmitočtové oblasti nevýhody v oblasti modelování prozodie a spektrální nevyváženosti na přechodech jednotek, poskytují však řeč s vyšší přirozeností. Jako spojení výhod obou přístupů se dnes začíná prosazovat syntéza řeči využívající harmonické modelování. Pro možnost porovnání kvality nových inventářů používajících vzorkovací kmitočet 16 a 32 khz byla v ÚRE rovněž implemetována metoda PSOLA v časové oblasti. 2.3 Způsoby realizace fonetické transkripce Pro automatický převod psaného textu na posloupnost hlásek se používají buď metody založené na použití slovníků, nebo metody založené na použití transkripčních pravidel. Zvláštní kapitolu pak tvoří fonetická transkripce pomocí umělých neuronových sítí. Transkripční systémy používající pravidla se pak dělí na expertní na pravidlech založené systémy a na učící se na pravidlech založené systémy. V prvním případě jsou fonetická pravidla definovaná skupinou expertů z oblasti fonetiky nebo lingvistiky, v druhém případě bývají systémy, založené většinou na použití skrytých Markovských řetězců, trénovány na příkladech. Není tudíž nutné spolupracovat s vyškolenými fonetickými experty, kterých může být pro konkrétní jazyk nedostatek, což je zvlášť důležité při vývoji multilingválních TTS systémů. Čeština je z hlediska fonetické transkripce ve srovnání např. s angličtinou nebo francouzštinou výrazně jednodušší jazyk. Zde by nasazení neuronových sítí nemělo takový smysl jako při fonetické transkripci již zmiňované francouzštiny či angličtiny. Fonetická transkripce češtiny se dá uspokojivě vyřešit pomocí pravidel doplněných o slovník výjimek. Jak již bylo řečeno, používají řečové syntezátory vyvíjené v ÚRE pro přepis psaného textu na posloupnost hlásek transkripční pravidla doplněná o slovníky výjimek. 2.4 Vlastnosti prozodie řeči Termín prozodie postihuje jisté vlastnosti řečového signálu jako jsou slyšitelné změny základního tónu, hlasitosti a časového členění. Jelikož se prozodické změny aplikují na jednotky vyšší, než jednotlivé segmenty řeči (krátkodobé úseky řeči o délce řádově desítek ms), mluvíme o prozodii jako o suprasegmentálním jevu. Prozodie tedy postihuje větší jednotky, jako jsou slabiky, přízvukové takty, a také celé věty nebo souvětí. Změny v časové, intenzitní a melodické oblasti, ke kterým dochází na segmentální úrovni (např. ve spojení souhláska samohláska), nazýváme mikrointonací, změny ve stejných dimenzích, které jsou výsledkem suprasegmentálních vlivů (např. přízvukového taktu, větného úseku, věty) nazýváme intonací [PTÁ93. Ukázku mikrointonace můžeme vidět na obr. 2.8. Jedná se o spojení hlásek éza ze slova syntéza. Z obrázku je zřejmé, že u hlásky z dochází k lokálnímu poklesu základního tónu o cca 10 Hz. Termín intonace používají někteří autoři jako synonymum pro prozodii, jiní jím označují pouze melodickou stránku prozodie. V této práci budu intonací označovat melodický průběh řeči. Rozdělení suprasegmentálních účinků do tří nezávislých popisů v časové, kmitočtové a intenzitní oblasti je prakticky nemožné. Suprasegmentální rysy souvislé řeči se realizují ve všech třech oblastech současně, na sobě závisle a s možností vzájemné zastupitelnosti jednotlivých složek. Např. časové členění řeči je výrazně ovlivňováno melodií. 19

Obr. 2.8 Ukázka mikrointonace spojení hlásek éza ze slova syntéza. 2.4.1 Suprasegmentální vrstvy Přízvukový takt je lineární jednotka, která váže jednu slabiku nesoucí slovní přízvuk a jistý počet slabik nepřízvučných. V krajním případě tvoří přízvukový takt přízvučná slabika sama. Zvukovou charakteristiku taktu určují především dvě složky: přízvukový vrchol a umístění mezitaktové hranice. V rámci hiearchické jazykové stavby je přízvukový takt jednotkou na úrovni slova a je realizován buď jen jedním slovem, nebo primární předložkou a slovem, nebo slovem a jemu následujícím jedním monosylabem či několika monosylaby, nebo samostatnou skupinou monosylab, apod. Zde je třeba podotknout, že zacházení s monosylaby je většinou záležitostí sémantickou nebo fakultativní. V systému Epos je pro přízvukový takt použito označení word a pro slabiku označení syll. Slovní přízvuk je v češtině pevný a váže se na první slabiku slova. Z toho plyne, že není fonologicky účinný, není možno ho využít pro rozlišení slovních významů. Je však považován za signál mezislovní hranice. Výjímečně však může před slovem s přízvukem v rámci téhož přízvukového taktu předcházet jednoslabičné slovo bez přízvuku nebo s přízvukem slabším. Pak mluvíme o předrážce (předtaktí) - např. pan Novák, A nestůjte. Akustickým základem slovního přízvuku je kontrast dané slabiky vzhledem k slabikám sousedním, ne však nějaká absolutní hodnota zvukových kvalit. Množství variant, jimiž může být přízvuk realizován, se zatím nepodařilo uspokojivě zobecnit. V češtině se při realizaci slovního přízvuku může uplatnit melodický průběh, intenzitní proporce a trvání. V kmitočtové oblasti vyvolává dojem přízvučnosti slabiky jak zvýšení, tak snížení tónu. Přijatelná či optimální velikost výškových změn je závislá na kontextu a pohybuje se kolem 1 2 čtvrttónu [PTÁ93. Větší melodické změny jsou vnímány na úrovni větné melodie V intenzitní oblasti odpovídá přízvučné slabice, dle [PTÁ93, zvýšení intenzity cca o 3 db, což je na hranici subjektivního vnímání. V přirozeném signálu však často nacházíme i přízvučné slabiky, intenzitně nevyjádřené, nebo dokonce slabší, než jejich okolí. V komplexu zvukových kvalit zřejmě není intenzita přízvučné slabiky kvalitou určující. V časové oblasti není zřetelné prodloužení samohlásky jako signál přízvuku přijatelné, protože rozdíl trvání dlouhých a krátkých samohlásek je fonologicky funkční. V malých mezích, cca 1 dc - decichron, pro který platí definiční vztah: B = 10 log T 1 /T 2 = 1 dc, (2.1) kde T 1 a T 2 jsou srovnávané doby trvání [BOR67, se však může i prodloužení nebo zkrácení samohlásky stát faktorem, podporujícím hodnocení přízvučnosti. Pro názornost lze uvést, že změna trvání o velikosti 1 dc je právě percepčně postřehnutelná. 20

Promluvový (intonační) úsek je podle Palkové [PAL94 lineární jednotka souvislé řeči nadřazená taktu. Je to jednotka v první řadě zvuková. O její existenci rozhoduje především intonační průběh řeči. Z hlediska jazykové stavby je intonační úsek jednotkou fakultativní. Prosazuje se jak při produkci, tak i při percepci řeči. Z hlediska posluchače si lze intonační úsek představit jako skupinu taktů, které jsou svým intonačním průběhem vázány do určitého celku. Posluchač má dojem, že mluvčí vytvořil tento úsek řeči jakoby "jedním tahem". Předěl mezi sousedními intonačními úseky může být tvořen pauzou, nebo jen intonační linií, nebo oběma těmito způsoby najednou. Nadále budu o promluvovém úseku hovořit jako o úseku intonačním (v systému Epos colon ). Pauza je důležitým faktorem pro členění souvislé řeči na menší jednotky (frázování). Správné umístění pauzy je mnohdy zásadně důležité pro správné pochopení promluvy. Předěl, který je vyznačován pauzou, však obvykle nevyznačuje pauza sama, nýbrž společně s melodickým tvarem podle druhu úseku. Důležité je rovněž správné rozložení přízvuků a důrazů. Velmi často vnímáme pauzu i tam, kde není řeč ve skutečnosti vůbec přerušena, ale kde je zachován melodém, vyznačující předěl. K vytvoření předělu (u nedbalé mluvy) přispívá i protažení koncové slabiky před pauzou (cca o 50 až 100%). Trvání pauzy je velmi proměnlivé a záleží na mnoha faktorech (především na umístění pauzy v promluvě a na tempu). Tempo mluvené řeči obvykle vyjadřujeme počtem slabik za vteřinu. Kromě počtu a délky slabik jsou však pro celkové tempo projevu důležité pauzy, jejich distribuce a délka. Při větších změnách tempa (zvl. při jeho zrychlování), se nemění délky všech hlásek stejně. Ke kvantitativnímu popisu tohoto jevu však doposud chybí potřebné údaje. Větný přízvuk je prozodický prostředek, jímž se zvýrazňuje určitá informace, obsažená v posledním přízvukovém taktu. Větný přízvuk může nebo nemusí tvořit součást meziúsekové hranice. Pro počet větných přízvuků v intonačním úseku neexistuje žádný apriorní předpoklad. V akustické oblasti se větný přízvuk realizuje stejnými prostředky jako přízvuk slovní, ale většinou ve zvýšené míře (výjimku tvoří např. větný přízvuk v posledním přízvukovém taktu posledního intonačního úseku před interpunkčním znakem, kde může být realizován jako přízvuk slovní). Věta v češtině představuje stabilní zvukovou jednotku. Rozhodujícím z tónového průběhu v české větě je obvykle melodie závěrečné části většinou počínající přízvučnou slabikou jádra výpovědi, tedy nejčastěji posledního slova (přízvukového taktu), popř., je-li tzv. větný přízvuk (resp. důraz) přenesen na jiné než poslední slovo, celé části od přízvučné (důrazné) slabiky tohoto slova. Pro označení této části melodického průběhu, která se pokládá za melodický jazykový prostředek, se užívá často označení kadence [DAN57. Romportl zavedl ve svých novějších pracích [ROM85 pro funkční melodické schéma termín melodém, aby se vyhnul víceznačnosti termínu kadence [PAL94. Namísto termínu kadence Romportl používá termín intoném. Palková užívá termínu melodém pro základní typ melodického průběhu, určený na základě jeho gramatické funkce, tedy pro soubor melodických schémat, která se v jazyce uplatňují ve stejném typu vět, a termín kadence ponechává pro tato melodická schémata sama. V této práci budu rovněž používat pro vlastní melodická schémata termín kadence. Pro větu je v systému Epos použito označení sent. 2.4.2 Suprasegmentální charakteristiky v časové oblasti Popis vychází z předpokladu, že na realizaci promluvy se podílí několik hierarchicky rozlišitelných úrovní. Oddělení vlivů těchto úrovní na výsledný signál je největším problémem popisu. Vliv přízvukového taktu: V rámci přízvukového taktu má počet hlásek v přízvukovém taktu vliv na průměrné trvání hlásky, a to zvlášť pro izolovaná slova, pro finální přízvukové takty a pro přízvukové takty v ostatních pozicích věty (nebo intonačního úseku). Pro izolovaná slova a finální (předpauzové) přízvukové takty věty (větného úseku) bylo zjištěno, že hledanou závislost lze přibližně popsat vztahem: T(m)/T(n) = (n/m) 0,405 (2.2) kde m, n znamenají počty hlásek ve dvou srovnávaných přízvukových taktech a T(m) a T(n) průměrná trvání hlásek v odpovídajících přízvukových taktech [PTÁ95. Pro ostatní (tj. nefinální) přízvukové takty nebyla nalezena žádná výrazná změna v průměrném trvání hlásek v závislosti na počtu hlásek, což je v souladu se všeobecně uváděným izosylabickým mluvním rytmem češtiny [PAL94. Úroveň přízvukového taktu se v časovém členění řeči dále uplatňuje změnou délky hlásek přízvučné slabiky. V přirozené řeči se hlásky prodlužují o 1 až 2 dc. Poslechové testy se syntetickým signálem však ukázaly, že prodloužení samohlásky o více než 1 dc se již může vnímat jako dlouhá samohláska. Vjem přízvuku u tohoto signálu lze však vyvolat i zmenšením trvání hlásek přízvučné slabiky asi o 1 dc. 21

Vliv intonačního úseku: Úsek promluvy, zakončený pauzou, se může při nedbalé výslovnosti uplatit prodloužením finální hlásky o cca 1,7 dc (50%) a předcházející hlásky finální slabiky o 0,4 až 1,1 dc (10 až 30%). Po meziúsekové pauze obvykle dochází ke zkrácení některých iniciálních hlásek následujícího větného úseku. Kvantitativní údaje k tomuto jevu lze nalézt v již zmíněné publikaci Borovičkové a Maláče [BOR67. Trvání pauzy mezi intonačními úseky je v přirozené řeči velmi proměnné. U syntetického signálu neutrálních výpovědí je percepčně tolerovatelná pauza o trvání asi 100 ms. Střídání různých délek pauz ve větě může neutralitu výpovědi narušit. Vliv úrovně věty: Úroveň věty se projevuje prodloužením trvání hlásek slabiky s větným přízvukem na začátku tzv. jádra výpovědi o cca 1,5 dc. V přirozené řeči toto jádro většinou leží v posledním taktu věty a větný přízvuk se pak v časové oblasti nerealizuje. Trvání pauzy mezi větami je v přirozené řeči značně proměnné. Podle poslechových testů se u syntetického signálu osvědčilo trvání pauz za větami v závislosti na interpunkčních znacích podle tab. 2.1 [PTÁ95. Tab. 2.1 Závislost trvání pauz za větami na interpunkčních znacích dle [PTÁ93 Interpunkční znak za větou (intonačním úsekem) Percepčně přijatelné trvání pauzy u syntetického signálu.!? 420 ms ; : - 280 ms, ( ) 140 ms 2.4.3 Suprasegmentální charakteristiky v melodické oblasti Hledání zákonitostí, jimiž se suprasegmentální rysy uplatňují v melodii řeči, je vzhledem ke vzájemným souvislostem a komplexnosti problému velmi obtížné. Zvláště těžké je tyto zákonitosti popsat kvantitativně v rovině akustické, neboť akustické realizace suprasegmentálních rysů mohou být velmi variabilní. Vliv přízvukového taktu: Slovní přízvuk v češtině je v melodické oblasti realizován zvýšením nebo snížením základního tónu přízvučné slabiky (podle kadence, ve které je umístěna) asi o 1/4 tónu. Překročením hodnoty 1/2 tónu ztrácí příslušná akustická realizace charakter přízvuku. Vliv intonačního úseku: Intonační úsek se skládá buď ze skupiny přízvukových taktů, nebo může být tvořen i taktem jediným. Členění věty na úseky je v hlavní míře ovlivňováno délkou promluvy, syntaktickou stavbou promluvy, sémantikou a kontextem. Předěl mezi jednotlivými úseky je (může být) tvořen pauzou, před níž předchází kadence zvukově realizovaná tzv. větným přízvukem (obvykle na přízvučné slabice závěrečného taktu úseku, jinak na tzv. jádru výpovědi) a příslušnou melodickou formou. Melodií intonačního úseku ve funkci sdělovací se zabýval Daneš [DAN57. Podle Daneše je pro tuto funkci relevantní směr pohybu melodie, rozložený po slabikách (nebo v rámci slabiky); vytvářejí se tak jistá melodická schémata s vlastní fonologickou strukturou. Daneš jimi nechce popsat melodii celé věty, ale snaží se postihnout průběh melodie posledního taktu věty, jehož funkční důležitost zdůrazňuje. Z hlediska významové výstavby výpovědi Daneš rozlišuje východisko a jádro výpovědi. Rozeznává ukončené a neukončené oddíly promluvy. Ukončené dělí na ukončené uspokojivě a neuspokojivě. Intonační schémata oddílů uspokojivě ukončených nazývá kadencemi konkluzívními, schémata oddílů neuspokojivě ukončených jako antikadence. Pro oddíly neukončené má termín polokadence. Kadence konkluzívní je charakterizována klesavým pohybem melodie po přízvuku. Vyskytuje se ve dvou variantách: příznakové a nepříznakové. Tyto varianty se liší polohou přízvučné slabiky, na níž je umístěno intonační centrum. Antikadence (tj. kadence v oddílech promluv ukončených neuspokojivě) má ve spisovné češtině dvě podoby, tvarově samostatné: Antikadence stoupavá - lze ji najít v taktech jednoslabičných i víceslabičných. Charakteristické pro ni je to, že začíná na slabice přízvučné nízkým tónem a končí tónem vysokým. V podobě jednoslabičné se objevuje setrvávání v nízké poloze, po něm následuje výrazné stoupnutí. 22