Úvod Moivace Synéza Jindřich Maoušek řeč nejpřirozenější forma komunikace mezi lidmi, činnos člověku vlasní a přirozená synéza důležiá oblas zpracování řečového signálu synéza = proces umělého vyváření (počíačem) počíačová synéza si klade za cíl zpřirozeni komunikaci člověka s počíačem konečný cíl: vyváře řeč v akové formě a kvaliě, aby nebyla rozpoznaelná od člověka Synéza 2 Úvod Lidská komunikace Úvod Syneizér písmo psaná podoba komunikace věy, slova, písmena řeč mluvená podoba komunikace akusika vyváření a vnímání akusické vlasnosi (formany, způsob a mísa voření, ) foneika a fonologie (promluvy, slova, hlásky,, alofóny) lingvisika (věy, gramaika, synaxe, sémanika, ) (melodie/inonace, rvání/rychlos, hlasios/energie) foneická informace (posloupnos hlásek) jakářeč se má vyvoři (význam) prozodická informace (melodie, rvání/rychlos, hlasios promluvy) jak se má řeč vyvoři (věa oznamovací, ázací, ) zařízení pro umělé vyváření jádro každého sysému konverze exu na řeč (ex-o-speech TTS) sysém na základě vsupní informace vyváří řeč vsup: foneická a prozodická informace výsup: řeč Syneizér řeč Synéza 3 Synéza 4
Úvod Základní přísupy k synéze Akusická eorie vyváření arikulační synéza komplexní řešení, modelování celého procesu vyváření prakicky se zaím nevyužívá formanová synéza zjednodušené modelování hlasového raku pomocí formanů prakické aplikace TTS (60-80. léa) konkaenační synéza (řeězení) řeězení segmenů, využívá invenář současné TTS Synéza 5 vyváření modelováno 2 navzájem nezávislými složkami (source-filer heory) zdroj buzení: kvaziperiodický sled hlasivkových pulsů pro znělé zvuky náhodný šum pro neznělé zvuky možnos smíšeného buzení lineární akusický filr reprezenující frekvenční odezvu hlasového raku T 0 G( z) zdroj buzení A z x x A n V( z) R( z) akusický filr Synéza 6 Formanová synéza Princip Formanová synéza Výhody a nevýhody založena na akusické eorii vyváření zjednodušená simulace procesu vyváření člověkem: zdroj buzení: generáor impulsů pro znělé zvuky a šum pro neznělé zvuky ( smíšené buzení) hlasový rak: modelování pomocí filru, jehož paramery jsou spjay zejména s formany hlasového raku synéza podle pravidel paramery se nasavují na základě manuálně nalezených pravidel dříve úspěšná a používaná meoda synézy dnes se éměř nepoužívá (výjimka: DECalk) (OVE, Fan 1953) Pravidla... konura F 0... formany... Formanový syneizér malý poče paramerů (40 60) jednoduchý, jasný koncepční model snadné řízení prozodických charakerisik konsanní kvalia ± spjaos s procesem vyváření člověkem ± koarikulační jevy zachyceny v pravidlech (obížné!) ± závislos i nezávislos na konkréním hlasu (pro změnu hlasu pravidla!) ± změny hlasu a emoce možno řídi podle pravidel (pravidla!) ± schopnos vyváře plynulou kvaliní řeč (ale: pravidla!) pracné hledání a nasavování pravidel (koarikulace, dynamické zvuky) pravidla jsou závislá na realizaci fonému (alofónová pravidla) vzájemná inerakce mezi hodnoami paramerů časová náročnos vývoje sysému složié vyváření někerých zvuků podle pravidel (např. plozivy) nízká přirozenos syneické (vyšší kvalia vyžaduje složiější pravidla y je však éměř nemožné urči) Synéza 7 Synéza 8
Princip Vlasnosi používá přímo čási přirozeného řečového signálu předpokládá, že řeč se skládá z (akusických) řeč je pak možné rozděli na segmeny odpovídající ěmo jednokám a uloži je do invenáře řeč se vyváří řeězením (konkaenací) segmenů uložených v invenáři syneická řeč napodobuje řečníka z invenáře vyváření invenáře : ruční vyváření auomaické vyváření způsob reprezenace : neparamerická (přímo vzorky ) paramerická (LPC, kepsrální, HNM) spekrální/prozodické modifikace : bez modifikací (pouhé řeězení) s modifikacemi (snaha o minimalizaci nespojiosí na hranici řeězených ) možnosi generování : s omezeným slovníkem věy ze specifické oblasi s neomezeným slovníkem libovolné věy Synéza 9 Synéza 10 Základní schéma Ukázka generování posloupnosi výběr vhodné realizace řečové jednoky vlasní řeězení (konkaenace) synéza řízená day paramery syneizéru se na nasavují auomaicky z da slova slabiky demislabiky vánoce vá no ce #vá ván áno noc oce ce# Generování posloupnosi Výběr realizace jednoky Konkaenace difóny #-v v-á á-n n-o o-c c-e e-# v á n o c e Invenář rifóny půlfóny #-vá v1 v-án á-no n-oc o-ce c-e# v2 á1 á2... o1 o2 c1 c2 e1 e2 Synéza 11 Synéza 12
Vyvoření daabáze řeč. 1. volba ypu 2. vyváření řečového korpusu 3. segmenace řečového korpusu 4. předvybrání zásupců řeč. 5. paramerizace řeč. 6. kódování řeč. Kódování Konkaenace 1. posloupnos fonémů 2. odvození posloupnosi řeč. 3. výběr zásupce řeč. jednoky z daabáze 4. dekódování řeč. jednoky 5. prozodické modifikace řeč. 6. spekrální vyhlazování řeězených (závislé na paramerizaci) 7. vyváření na signálové úrovni deparamerizace a vlasní konkaenace Řečový korpus Segmenace Invenář Předvýběr realizací Daabáze segmenů Generování posloupnosi Výběr realizace jednoky Prozodické modifikace Řeězení segmenů Analýza Daabáze segmenů Dekódování Synéza Synéza 13 Synéza 14 Korpusově orienovaná synéza Korpusově orienovaná synéza Obecná úloha výběru zvlášní případ konkaenační synézy využií rozsáhlých foneicky a prozodicky pečlivě anoovaných korpusů (řádově sovky MB) více realizací každé řečové jednoky v rozdílných foneických, spekrálních i prozodických konexech plně auomaická konkaenační synéza všechny paramery se určují auomaicky na základě da z řeč. korpusu (včeně invenáře řeč. ) časo zv. neuniformnířečové jednoky (jednoky různého ypu) během on-line synézy se vybere yp a realizace jednoky = synéza výběrem hledání opimální posloupnosi řeč. (resp. jejich realizací) v řeč. korpusu v rámci syneizované promluvy čím přesnější posloupnos najdeme, ím menší modifikace původních řeč. signálů budeme muse provés výsledkem je vyšší kvalia syneické # #-pj p-je j-e e-# # ceny cíle # c C (#, p 2 ) C (p, p i) p 1 p 2 ceny konkaenace C c (p 2,j 3) specifikace cíle C (j, j i) j 1 j 2 j 3 C (e, e i) 2 hodnoící funkce cena cíle C cena konkaenace C c e 1 e 2 e 3 e 4 jednoky v invenáøi C (, i) 1 2 # C c ( 2,#) realizace Synéza 15 Synéza 16
Prozodické a spekrální modifikace přiblížení prozodických a spekrálních vlasnosí vybraných zásupců řeč. vlasnosem požadovaných v syneické prozodické modifikace úprava prozodických vlasnosí řeč. z invenáře => přiblížení k požadovaným prozodickým vlasnosem syneické plně v režii konkréní meody spekrální modifikace úprava spekrálních vlasnosí syneické (v mísech řeězení) za účelem vyhladi přechody mezi jednokami dosačující věšinou prosá lineární inerpolace spekrálních paramerů (LPC, HNM) žádné modifikace eoreicky nejlepší kvalia (žádná degradace řeč. signálu pořeba giganických invenářů s modifikacemi věší pružnos sysému možno použí menší invenáře přímá synéza LP synéza PSOLA kepsrální synéza Prozodické a spekrální modifikace Meody harmonický a šumový model vyváření (HNM) Synéza 17 Synéza 18 Výhody a nevýhody Arikulační synéza nepořebuje deailnější znalos procesu vyváření žádné ruční nasavování složiých pravidel pracuje přímo s reálným řečovým signálem problemaické zvuky může zachyi v segmenech (koarikulace) lepší kvalia syneické (věší přirozenos) rychlejší a jednodušší návrh syneizéru (oproi formanové synéze) ± kopíruje hlas řečníka z řečového korpusu ěžkopádné změny hlasu (nová daabáze) mísa řeězení vždy poencionálním zdrojem problémů věší paměťové a výpočení nároky (zejména v případě korpusově orienované synézy) komplexní modelování sysému vyváření člověkem arikulační model zahrnuje modely jednolivých orgánů (arikuláorů) člověka hlasivky, ry, čelisi, jazyk, měkké paro, maemaická simulace šíření řečové vlny v hlasovém raku arikulační paramery velikos a var rení šěrbiny, poloha jazyka, paramery pro buzení sav hlasivek, velikos ovoru mezi hlasivkami, napnuí hlasivek, nedosaek reálných da vysoká složios zaím prakicky nerealizovaelné synéza budoucnosi??? Synéza 19 Synéza 20
Synéza z exu (TTS) nejobecnější úloha synézy : na vsupu ex, výsupem řeč cíl: generova řeč z libovolného exu není možné uloži všechna slova (věy) do počíače, a pak je jen přehráva! 2 základní moduly: modul pro zpracování exu syneizér Synéza z exu Zpracování exu zpracování exu = zpracování přirozeného jazyka (Naural Language Processing, NLP) analýza exu foneická ranskripce generování prozodických charakerisik Zpracování přirozeného jazyka sysém TTS ex Analyzér exu ex Zpracování exu hlásky a Produkce řeč Modul foneické ranskripce hlásky () Generáor ěsná foneická ranskripce (hlásky ) Synéza 21 Synéza 22 Synéza z exu Hodnocení kvaliy syneické Synéza z exu Aplikace TTS sysémů kvalia: srozumielnos, přirozenos, plynulos, příjemnos, přijaelnos uživaelem vzhledem ke komplexnosi neexisují objekivní esy poslechové esy subjekivní hodnocení kvaliy (hodně posluchačů objekivnos) esy srozumielnosi MRT (Modified Rhyme Tes) 50 skupin slov po 6, slova se liší v počáečním nebo koncovém fonému např.: pes les ves bez děs rez SUS (Semanically Unpredicable Senences) gramaicky správné, ale nesmyslné věy nesrozumielné slovo nelze odvodi z konexu okolních slov např.: Ušaí komáři šěkali mokré diváky. esy přirozenosi (celkové kvaliy) MOS (Mean Opinion Score) hodnocení kvaliy : 5-vynikající,..., 1-španý CCR (Comparison Caegory Raing) porovnání sejné věy generované 2 syneizéry pomůcky pro handicapované lidi elekomunikační služby auomaické čení (email, SMS, ) hlasové moniorování výuka jazyků mulimédia, komunikace člověkpočíač mluvící hračky pro děi výzkum (foneika, lingvisika, akusika) Synéza 23 Synéza 24