SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Podobné dokumenty
B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

Úvod do praxe stínového řečníka. Úvod

ZČU v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Univerzita Pardubice Fakulta-ekonomicko správní

Speciální struktury číslicových systémů ASN P12

Algoritmy a struktury neuropočítačů ASN P8b

MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE

ŘEČOVÉ TECHNOLOGIE v PRAXI

Univerzita Karlova v Praze Filozofická fakulta

Optimalizace rychlosti výběru řečových jednotek v konkatenační syntéze řeči. Ing. Jiří Kala

Pavel Cenek, Aleš Horák

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Kepstrální analýza řečového signálu

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Roviny analýzy jazyka. Fonetika

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

Akustika. 3.1 Teorie - spektrum

DIPLOMOVÁ PRÁCE. Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

ADA Semestrální práce. Harmonické modelování signálů

Úvod do praxe stínového řečníka. Proces vytváření řeči

Řečové technologie pomáhají překonávat bariéry

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky DIPLOMOVÁ PRÁCE

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

7. listopadu 2018 Hlas a řeč. Hudební nástroje. Formantové syntézy. Číslicové pásmové propusti. Aplikace

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Základní komunikační řetězec

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Asistivní technologie

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

ŘEČOVÁ SYNTÉZA PRO HLASOVĚ POSTIŽENÉ

Komunikace člověk počítač v přirozeném jazyce

Základy umělé inteligence

Signál v čase a jeho spektrum

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24

7 Další. úlohy analýzy řeči i a metody

transkribovaný text Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam.

Zvýrazňování řeči pomocí vícekanálového zpracování

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Obsah. Rozpoznávání emočních stavů pomocí analýzy řečového signálu. 1.Úvod 1.1. Model hlasového traktu

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace

Syntéza řeči 4. Jindřich Matoušek

elektrické filtry Jiří Petržela filtry založené na jiných fyzikálních principech

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

Dílčí zpráva o řešení grantového projektu za rok 2002.

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Formální jazyky a gramatiky Teorie programovacích jazyků

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

JAK VZNIKÁ LIDSKÝ HLAS? Univerzita Palackého v Olomouci

Rozpoznávání hlasových vstupů

Zpráva k semestrální práci z B2M31SYN Syntéza audio signálů

Algoritmy a struktury neuropočítačů ASN P09. Analýza emocionální řeči neuronovými sítěmi Proč?

České vysoké učení technické v Praze Fakulta elektrotechnická DIPLOMOVÁ PRÁCE. Pitch-synchronní segmentace řečového

FONETIKA A FONOLOGIE I.

Univerzita Karlova v Praze. Počítačové zpracování textu a řeči a jeho využití v informačním prostředí

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Úvod do zpracování signálů

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Soupis výzkumných zpráv řazený podle roku vydání

Vlastnosti a modelování aditivního

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

Konsonanty. 1. úvod. 2. frikativy. - zúžením v místě artikulace vzniká sloupec vzduchu, směrodatná je délka předního tubusu

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

3. MĚŘICÍ A ZÁZNAMOVÉ ZAŘÍZENÍ

kursu, úvod 2017/18 Igor Szöke a Honza Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Klasické metodiky softwarového inženýrství I N G M A R T I N M O L H A N E C, C S C. Y 1 3 A N W

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

Pokročilé operace s obrazem

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx

LPC. Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39

1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce

Multimediální systémy

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Univerzita Karlova v Praze Filozofická fakulta Fonetický ústav. Diplomová práce. Kristian Urban

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Virtuální elektrody v kochleárních implantátech Nucleus 24

Fyziologická akustika. fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí

Otázky ke státní závěrečné zkoušce

Akustika pro posluchače HF JAMU

Zpráva k semestrální práci z předmětu Syntéza audio signálů. Vypracoval: Jakub Krista Zimní semestr 2016/2017 Datum odevzdání:

Architektury počítačů

NEURONOVÉ SÍTĚ PŘI KLASIFIKACI MLUVČÍCH NEURAL NETWORKS IN SPEAKER CLASSIFICATION

Multimediální systémy

Václav Syrový: Hudební akustika, Praha 2003, s. 7

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

Podporováno Technologickou agenturou České republiky, projekt TE

Základy Hudební Akustiky. 1. Úvod

Neuronové sítě. Vlasta Radová Západočeská univerzita v Plzni katedra kybernetiky

Simultánní přepis mluvené češtiny pro osoby se sluchovým postižením

Transkript:

SYNTÉZA ŘEČI Petr Horák horak@ufe.cz Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Obsah Úvod a historie Zpracování textu Modelování prozodie Metody syntézy řeči Aplikace syntézy řeči Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 2

Komunikace mezi lidmi Písmo psaná podoba komunikace věty, slova, písmena Řeč mluvená podoba komunikace akustika vytváření a vnímání řeči akustické vlastnosti řeči (formanty) fonetika a fonologie lingvistika prozodie Fonetická informace Prozodická informace Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 3

Syntéza řeči z psaného textu Řeč nejpřirozenější forma komunikace Syntéza řeči proces umělého vytváření řeči Cíl: vyvářet řeč v takové formě a kvalitě, aby nebyla rozpoznatelná od přirozené řeči Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 4

Syntéza řeči z psaného textu Nejobecnější úloha: na vstupu text, na výstupu řeč Dělí se na dva základní moduly modul pro zpracování textu řečový syntetizér Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 5

Zpracování textu Zpracování textu = zpracování přirozeného jazyka (Natural Language Processing, NLP) - Analýza textu - Fonetická transkripce - Generování prozodických charakteristik Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 6

Zpracování textu Příkladmodulu pro zpracování textu Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 7

Řečový syntetizér Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 8

Historie syntézy řeči Mechanické syntetizéry Kratzenstein (1779) (první pokusy samohlásky) Kempelen (1791) (mluvící stroj) Elektronické syntetizéry Stewart (1922) (dva rezonátory) Dudley (1939) (Voder první syntetizér souvislé řeči) Fant (1953) (OVE I kaskádní formantový syntetizér) Digitální syntetizéry Klatt (1979) (MITalk, Klattalk nejlepší formantová syntéza) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 9

Kempelenův syntezátor Jednalo se o mechanické zařízení napodobující artikulační orgány člověka Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 10

Klatt Blokové schéma Klattova syntezátoru Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 11

Historie české syntézy řeči Kaňka první pokusy (20. léta 20. století) Janota první český syntetizér řeči (1964) Ptáček, Borovičková, Maláč OVED 1 první syntetizér souvislé řeči (1968) HO2 první český TTS systém (1977) ÚRE AV ČR, Ptáček PCVOX první český LPC TTS systém (1990) Epos první český open source TTS (1996) ZČU Plzeň ARTIC první český Unit Selection TTS (2000) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 12

Janota (1964) Jednoduchý paralelní formantový syntetizér češtiny Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 13

LPC TTS - Vích, Ptáček (1990-1992) První český LPC TTS systém (1990-1992) 1992) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 14

LPC TTS - Vích, Ptáček (1990-1992) Komerční podoba českého LPC systému pro převod psaného textu na řeč Vyráběno 1992 až 2000 Výrobním družstvem nevidomých SPEKTRA Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 15

Modelování prozodie Pomocí pravidel Umělé Neuronové Sítě Prozodické modely Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 16

Intonační modely Pierrehumbertová (1983) ToBI (1992) IPO (1990) INTSINT (1991) Fujisaki (1984) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 17

Fujisakiho intonační model I () = + ( ) ( ) ( ) i p i + j j j lnf t ln Fb ApG t T Aa Ga t T Ga t T, 0 0 1 2 i= 1 j= 1 J Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 18

Fujisakiho intonační model I J () = + i p( i) + j ( j) ( j) lnf t ln Fb ApG t T Aa Ga t T Ga t T, kde 0 0 1 2 i= 1 j= 1 () Gp t ( α ) α 2 t exp t K pro t = 0, 0 Kpro t< 0, () Gat ( ) ( ) min 1 1+ βt exp βt, γ Kpro t 0, = 0 Kpro t< 0. Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 19

LP intonační model Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 20

TTS systém s LP intonačním modelem Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 21

Metody syntézy řeči Artikulační syntéza Modelovaní kompletního hlasového traktu Výpočetně náročné, špatná kvalita Prakticky se zatím nevyužívá, pouze ve výuce Formantová syntéza Zjednodušené modelování hlasového traktu pomocí formantů a antiformantů Praktické aplikace nejpoužívanější v 60.- 80. letech Konkatenační syntéza Řetězení segmentů řeči z inventáře řečových jednotek Používá většina současných TTS Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 22

Akustická teorie vytváření řeči Spojení dvou navzájem nezávislých složek Zdroj buzení (kvaziperiodický sled hlasivkových pulzů pro znělé zvuky, šum pro neznělé zvuky) Lineární filtr (reprezentuje kmitočtovou odezvu hlasového traktu) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 23

Formantová syntéza Založena na akustické teorii vytváření řeči Zjednodušená simulace vytváření řeči člověkem Zdroj buzení generátor impulsů pro znělé zvuky a šum nebo smíšené buzení pro neznělé zvuky Hlasový trakt modelování pomocí filtru, jehož parametry odpovídají formantům a antiformantům hlasového traktu Syntéza podle pravidel parametry se nastavují podle manuálně nalezených pravidel Dříve velmi úspěšná a používaná metoda Dnes se téměř nepoužívá (výjimka: DECTalk) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 24

Formantová syntéza Výhody: Jednoduchý model Snadné řízení prozodických charakteristik Konstantní kvalita Změny hlasu a emoce možno řídit podle pravidel Schopnost vytvářet plynulou kvalitní řeč Nevýhody: Pracné hledání a nastavování pravidel Vzájemná interakce mezi hodnotami parametrů Složité vytváření některých zvuků (explozívy) Nízká přirozenost řeči Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 25

Konkatenační syntéza Používá přímo části přirozeného řečového signálu Předpokládá, že se řeč skládá z řečových (akustických) jednotek Řeč je možné rozdělit na segmenty odpovídající těmto jednotkám a uložit je do inventáře řečových jednotek Řeč se vytváří řetězením (konkatenací) řečových segmentů uložených v inventáři řečových jednotek Syntetická řeč napodobuje řečníka z inventáře Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 26

Konkatenační syntéza Generování posloupnosti řečových jednotek Výběr vhodné realizace řečové jednotky Vlastní řetězení (konkatenace) Syntéza řízená daty parametry syntetizéru se nastavují automaticky z řečových dat Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 27

Konkatenační syntéza Vytváření inventáře řečových jednotek Ruční vytváření Automatické vytváření Způsob reprezentace řečových jednotek Neparametrická (přímo vzorky řeči) Parametrická (LPC, kepstrální, HNM) spektrální/prozodické modifikace jednotek Bez modifikací (pouze řetězení) S modifikacemi (snaha o minimalizaci nespojitostí na hranicích řetězených jednotek) Možnosti generování řeči S omezeným slovníkem (věty ze specifické oblasti) S neomezeným slovníkem (libovolné věty) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 28

Vytvoření databáze řečových jednotek Volba typu řečových jednotek Vytváření řečového korpusu Segmentace řečového korpusu Předvybrání zástupců řečových jednotek Parametrizace řečových jednotek Kódování řečových jednotek Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 29

Vytvoření databáze řečových jednotek Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 30

Konkatenační syntéza Posloupnost fonémů + prozodie Odvození posloupnosti řečových jednotek Výběr zástupce řečové jednotky z databáze Dekódování řečové jednotky Prozodické modifikace řečových jednotek Spektrální vyhlazování řečových jednotek Vytváření řeči na signálové úrovni Vlastní konkatenace Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 31

Konkatenační syntéza Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 32

Korpusově orientovaná syntéza Zvláštní případ konkatenační syntézy Využití rozsáhlých a prozodicky pečlivě anotovaných řečových korpusů Více realizací každé řečové jednotky (v rozdílných fonetických, spektrálních i prozodických kontextech) Plně automatická konkatenační syntéza Všechny parametry se určují automaticky na základě dat z řečového korpusu Často tzv. neuniformní řečové jednotky (jednotky různého typu) během syntézy se vybere typ a realizace jednotky => syntéza výběrem jednotek Unit Selection Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 33

Korpusově orientovaná syntéza Hledání optimálních posloupnosti řečových jednotek (resp. Jejich realizací) v řečovém korpusu v rámci syntetizované promluvy Čím přesnější najdeme posloupnost jednotek,tím menší modifikace původního řečového signálu budeme muset provést => výsledkem je vyšší kvalita syntetické řeči Dvě hodnotící funkce Cena cíle C t Cena konkatenace C c Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 34

Korpusově orientovaná syntéza Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 35

Prozodické a spektrální modifikace Přiblížení prozodických a spektrálních vlastností vybraných zástupců řeč. jednotek vlastnostem požadovaných v syntetické řeči Prozodické modifikace Úprava spektrálních vlastností řeč. jednotek z inventáře přiblížení k požadovaným vlastnostem syntetické řeči Plně v režii konkrétní metody Spektrální modifikace Úprava spektrálních vlastností syntetické řeči Dostačující většinou prostá lineární interpolace spektrálních parametrů (LPC, HNM) Žádné modifikace teoreticky nejvyšší kvalita žádná degradace řeč. signálu potřeba gigantických inventářů S modifikacemi větší pružnost systému možno použít menší inventáře Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 36

Prozodické a spektrální modifikace Metody Přímá syntéza LP syntéza PSOLA Kepstrální syntéza Harmonický a šumový model vytváření řeči (HNM) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 37

Hodnocení kvality syntetické řeči Kvalita Srozumitelnost,přirozenost, plynulost, příjemnost, přijatelnost uživatelem Vzhledem ke komplexnosti řeči neexistují objektivní testy Poslechové testy subjektivní hodnocení kvality Testy srozumitelnosti Testy přirozenosti Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 38

Aplikace syntézy řeči Pomůcky pro nevidomé a slabozraké Telekomunikační služby Automatické čtení (SMS, e-maily...) Hlasové monitorování Výuka jazyků Multimédia, komunikace člověk-počítač Mluvící hračky pro děti Výzkum (fonetika, lingvistika, akustika) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 39

České řečové syntezátory Komerční ARTIC ZČU Plzeň http://www.speechtech.cz/ Acapela Group Eliška RealSpeek -Zuzana OpenSource Epos http://epos.ufe.cz/ (zde jsou i zajímavé odkazy) Festival (s podporou češtiny od Brailcomu) Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 40

Literatura J. Psutka, L. Müller, J. Matoušek, V. Radová: Mluvíme s počítačem česky. Academia 2006 Ukázky k přednášce: http://epos.ufe.cz/ //epos.ufe.cz/ukazkyukazky Petr Horák SYNTÉZA ŘEČI ÚFE AV ČR 41