Syntéza řeči 4. Jindřich Matoušek

Podobné dokumenty
SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

IMPULSNÍ A PŘECHODOVÁ CHARAKTERISTIKA,

Laplaceova transformace Modelování systémů a procesů (11MSP)

PLL. Filtr smyčky (analogový) Dělič kmitočtu 1:N

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika přednášky LS 2006/07

ecosyn -plast Šroub pro termoplasty

Analýza časových řad. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Měření výkonnosti údržby prostřednictvím ukazatelů efektivnosti

transformace Idea afinního prostoru Definice afinního prostoru velké a stejně orientované.

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

SBĚRNICOVÝ ŘÍDICÍ SYSTÉM SOMFY IB. Technická specifikace

5. MĚŘENÍ FÁZOVÉHO ROZDÍLU, MĚŘENÍ PROUDU A NAPĚTÍ

FINANČNÍ MATEMATIKA- ÚVĚRY

Matematika v automatizaci - pro řešení regulačních obvodů:

Katedra obecné elektrotechniky Fakulta elektrotechniky a informatiky, VŠB - TU Ostrava 4. TROJFÁZOVÉ OBVODY

Zobrazování černobílých snímků v nepravých barvách

Pasivní tvarovací obvody RC

Výkonnost a spolehlivost číslicových systémů

VYUŽITÍ MATLABU PRO ČÍSLICOVÉ ZPRACOVÁNÍ SIGNÁLU PŘI ZJIŠŤOVÁNÍ OKAMŽITÉ FREKVENCE SÍTĚ

ZPŮSOBY MODELOVÁNÍ ELASTOMEROVÝCH LOŽISEK

5. Využití elektroanalogie při analýze a modelování dynamických vlastností mechanických soustav

JAN JUREK. Jméno: Podpis: Název měření: OVĚŘOVÁNÍ ČINNOSTI GENERÁTORU FUNKCÍ Číslo měření: 6. Třída: E4B Skupina: 2

4. MĚŘENÍ PROUDU, MĚŘENÍ KMITOČTU A FÁZE

Elektronická měření pro aplikovanou fyziku

Vliv funkce příslušnosti na průběh fuzzy regulace

REGULACE ČINNOSTI ELEKTRICKÝCH ZAŘÍZENÍ

STATICKÉ A DYNAMICKÉ VLASTNOSTI ZAŘÍZENÍ

Speciální struktury číslicových systémů ASN P12

1. Vzorkování, A/D převodníky, číslicový osciloskop.

Pilové pásy PILOUS MaxTech

1/77 Navrhování tepelných čerpadel

INDIKÁTORY HODNOCENÍ EFEKTIVNOSTI VÝDAJŮ MÍSTNÍCH ROZPOČTŮ DO OBLASTI NAKLÁDÁNÍ S ODPADY

UNIVERZITA PARDUBICE Fakulta elektrotechniky a informatiky STAVOVÁ REGULACE SOUSTAVY MOTOR GENERÁTOR. Bc. David Mucha

HAWLE-OPTIFIL AUTOMATICKÝ SAMOČISTÍCÍ FILTR

Přednáška kurzu MPOV. Klasifikátory, strojové učení, automatické třídění 1

4. Střední radiační teplota; poměr osálání,

( ) Základní transformace časových řad. C t. C t t = Μ. Makroekonomická analýza Popisná analýza ekonomických časových řad (ii) 1

Číslicový lineární filtr prvého řádu se statisticky optimálně nastavovanými parametry

Volba vhodného modelu trendu

Porovnání způsobů hodnocení investičních projektů na bázi kritéria NPV

ZČU v Plzni Fakulta aplikovaných věd Katedra kybernetiky

APLIKACE INDEXU DAŇOVÉ PROGRESIVITY V PODMÍNKÁCH ČESKÉ REPUBLIKY

Reaktor s exotermní reakcí. Reaktor s exotermní reakcí. Proč řídit provoz zařízení. Bezpečnost chemických výrob N111001

FREQUENCY SPECTRUM ESTIMATION BY AUTOREGRESSIVE MODELING

ROTORŮ TURBOSOUSTROJÍ

Algoritmy a struktury neuropočítačů ASN P8b

Využití programového systému MATLAB pro řízení laboratorního modelu

5. MĚŘENÍ KMITOČTU a FÁZOVÉHO ROZDÍLU

Studie proveditelnosti (Osnova)

1 - Úvod. Michael Šebek Automatické řízení Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

213/2001 ve znění 425/2004 VYHLÁŠKA. Ministerstva průmyslu a obchodu. ze dne 14. června 2001,

MCS 3500 Modulární stropní reproduktorový systém

Simulační schemata, stavový popis. Petr Hušek

ADA Semestrální práce. Harmonické modelování signálů

9 Viskoelastické modely

Měrné teplo je definováno jako množství tepla, kterým se teplota definované hmoty zvýší o 1 K

1 - Úvod. Michael Šebek Automatické řízení

Analogový komparátor

MULTIFUNKČNÍ ČASOVÁ RELÉ

Univerzita Tomáše Bati ve Zlíně

2. ZÁKLADY TEORIE SPOLEHLIVOSTI

Schéma modelu důchodového systému

Teorie obnovy. Obnova

MENDELOVA ZEMĚDĚLSKÁ A LESNICKÁ UNIVERZITA V BRNĚ

73-01 KONEČNÝ NÁVRH METODIKY VÝPOČTU KAPACITU VJEZDU DO OKRUŽNÍ KOMENTÁŘ 1. OBECNĚ 2. ZOHLEDNĚNÍ SKLADBY DOPRAVNÍHO PROUDU KŘIŽOVATKY

3. Charakteristika školního vzdělávacího programu

4. Kroucení prutů Otevřené a uzavřené průřezy, prosté a vázané kroucení, interakce, přístup podle Eurokódu.

7. Měření kmitočtu a fázového rozdílu; 8. Analogové osciloskopy

PRAKTIKA z FOTOVOLTAIKY

TECHNICKÁ UNIVERZITA V LIBERCI

Numerická integrace. b a. sin 100 t dt

2. Ze sady 28 kostek domina vytáhnu dvě. Kolika způdoby to mohu provést tak, aby ony dvě kostičky šly k sobě přiložit podle pravidel domina?

Seznam parametrů Vydání 04/03. sinamics SINAMICS G110

SROVNÁNí APROXIMAČNíCH METOD V TEORII RIZIKA

Skupinová obnova. Postup při skupinové obnově

Demografické projekce počtu žáků mateřských a základních škol pro malé územní celky

Bipolární tranzistor jako

Demonstrace principů NMR

PROGRAMOVÝ SYSTÉM SYNREG V PROSTREDÍ MATLAB ver.5.3

Maxwellovy a vlnová rovnice v obecném prostředí

ODHADY VARIABILITY POSLOUPNOSTÍ

Využijeme znalostí z předchozích kapitol, především z 9. kapitoly, která pojednávala o regresní analýze, a rozšíříme je.

Jan Jersák Technická univerzita v Liberci. Technologie III - OBRÁBĚNÍ. TU v Liberci

KIV/PD. Sdělovací prostředí

3B Přechodné děje v obvodech RC a RLC

JAN JUREK MĚŘENÍ NA IMPULSNÍCH OBVODECH. AKO v tranzistorovém zapojení AKO s časovačem NE 555. Jméno: Podpis: Název měření: Třída: E4B Skupina: 2

4EK211 Základy ekonometrie

Univerzita Pardubice Fakulta-ekonomicko správní

Klíčová slova: Astabilní obvod, operační zesilovač, rychlost přeběhu, korekce dynamické chyby komparátoru

Jakost, spolehlivost a teorie obnovy

EU PENÍZE ŠKOLÁM NÁZEV PROJEKTU : MÁME RÁDI TECHNIKU REGISTRAČNÍ ČÍSLO PROJEKTU :CZ.1.07/1.4.00/

5. MĚŘENÍ FÁZOVÉHO ROZDÍLU, MĚŘENÍ PROUDU A NAPĚTÍ

Energetický audit. Energetický audit

LS Příklad 1.1 (Vrh tělesem svisle dolů). Těleso o hmotnosti m vrhneme svisle

Metodika zpracování finanční analýzy a Finanční udržitelnost projektů

Vstupní tok požadavků

4. MĚŘICÍ PŘEVODNÍKY ELEKTRICKÝCH VELIČIN 1, MĚŘENÍ KMITOČTU A FÁZOVÉHO ROZDÍLU

Pavel Cenek, Aleš Horák

System models and water power plant turbine-generator unit automatic control

4EK211 Základy ekonometrie

Transkript:

Úvod Moivace Synéza Jindřich Maoušek řeč nejpřirozenější forma komunikace mezi lidmi, činnos člověku vlasní a přirozená synéza důležiá oblas zpracování řečového signálu synéza = proces umělého vyváření (počíačem) počíačová synéza si klade za cíl zpřirozeni komunikaci člověka s počíačem konečný cíl: vyváře řeč v akové formě a kvaliě, aby nebyla rozpoznaelná od člověka Synéza 2 Úvod Lidská komunikace Úvod Syneizér písmo psaná podoba komunikace věy, slova, písmena řeč mluvená podoba komunikace akusika vyváření a vnímání akusické vlasnosi (formany, způsob a mísa voření, ) foneika a fonologie (promluvy, slova, hlásky,, alofóny) lingvisika (věy, gramaika, synaxe, sémanika, ) (melodie/inonace, rvání/rychlos, hlasios/energie) foneická informace (posloupnos hlásek) jakářeč se má vyvoři (význam) prozodická informace (melodie, rvání/rychlos, hlasios promluvy) jak se má řeč vyvoři (věa oznamovací, ázací, ) zařízení pro umělé vyváření jádro každého sysému konverze exu na řeč (ex-o-speech TTS) sysém na základě vsupní informace vyváří řeč vsup: foneická a prozodická informace výsup: řeč Syneizér řeč Synéza 3 Synéza 4

Úvod Základní přísupy k synéze Akusická eorie vyváření arikulační synéza komplexní řešení, modelování celého procesu vyváření prakicky se zaím nevyužívá formanová synéza zjednodušené modelování hlasového raku pomocí formanů prakické aplikace TTS (60-80. léa) konkaenační synéza (řeězení) řeězení segmenů, využívá invenář současné TTS Synéza 5 vyváření modelováno 2 navzájem nezávislými složkami (source-filer heory) zdroj buzení: kvaziperiodický sled hlasivkových pulsů pro znělé zvuky náhodný šum pro neznělé zvuky možnos smíšeného buzení lineární akusický filr reprezenující frekvenční odezvu hlasového raku T 0 G( z) zdroj buzení A z x x A n V( z) R( z) akusický filr Synéza 6 Formanová synéza Princip Formanová synéza Výhody a nevýhody založena na akusické eorii vyváření zjednodušená simulace procesu vyváření člověkem: zdroj buzení: generáor impulsů pro znělé zvuky a šum pro neznělé zvuky ( smíšené buzení) hlasový rak: modelování pomocí filru, jehož paramery jsou spjay zejména s formany hlasového raku synéza podle pravidel paramery se nasavují na základě manuálně nalezených pravidel dříve úspěšná a používaná meoda synézy dnes se éměř nepoužívá (výjimka: DECalk) (OVE, Fan 1953) Pravidla... konura F 0... formany... Formanový syneizér malý poče paramerů (40 60) jednoduchý, jasný koncepční model snadné řízení prozodických charakerisik konsanní kvalia ± spjaos s procesem vyváření člověkem ± koarikulační jevy zachyceny v pravidlech (obížné!) ± závislos i nezávislos na konkréním hlasu (pro změnu hlasu pravidla!) ± změny hlasu a emoce možno řídi podle pravidel (pravidla!) ± schopnos vyváře plynulou kvaliní řeč (ale: pravidla!) pracné hledání a nasavování pravidel (koarikulace, dynamické zvuky) pravidla jsou závislá na realizaci fonému (alofónová pravidla) vzájemná inerakce mezi hodnoami paramerů časová náročnos vývoje sysému složié vyváření někerých zvuků podle pravidel (např. plozivy) nízká přirozenos syneické (vyšší kvalia vyžaduje složiější pravidla y je však éměř nemožné urči) Synéza 7 Synéza 8

Princip Vlasnosi používá přímo čási přirozeného řečového signálu předpokládá, že řeč se skládá z (akusických) řeč je pak možné rozděli na segmeny odpovídající ěmo jednokám a uloži je do invenáře řeč se vyváří řeězením (konkaenací) segmenů uložených v invenáři syneická řeč napodobuje řečníka z invenáře vyváření invenáře : ruční vyváření auomaické vyváření způsob reprezenace : neparamerická (přímo vzorky ) paramerická (LPC, kepsrální, HNM) spekrální/prozodické modifikace : bez modifikací (pouhé řeězení) s modifikacemi (snaha o minimalizaci nespojiosí na hranici řeězených ) možnosi generování : s omezeným slovníkem věy ze specifické oblasi s neomezeným slovníkem libovolné věy Synéza 9 Synéza 10 Základní schéma Ukázka generování posloupnosi výběr vhodné realizace řečové jednoky vlasní řeězení (konkaenace) synéza řízená day paramery syneizéru se na nasavují auomaicky z da slova slabiky demislabiky vánoce vá no ce #vá ván áno noc oce ce# Generování posloupnosi Výběr realizace jednoky Konkaenace difóny #-v v-á á-n n-o o-c c-e e-# v á n o c e Invenář rifóny půlfóny #-vá v1 v-án á-no n-oc o-ce c-e# v2 á1 á2... o1 o2 c1 c2 e1 e2 Synéza 11 Synéza 12

Vyvoření daabáze řeč. 1. volba ypu 2. vyváření řečového korpusu 3. segmenace řečového korpusu 4. předvybrání zásupců řeč. 5. paramerizace řeč. 6. kódování řeč. Kódování Konkaenace 1. posloupnos fonémů 2. odvození posloupnosi řeč. 3. výběr zásupce řeč. jednoky z daabáze 4. dekódování řeč. jednoky 5. prozodické modifikace řeč. 6. spekrální vyhlazování řeězených (závislé na paramerizaci) 7. vyváření na signálové úrovni deparamerizace a vlasní konkaenace Řečový korpus Segmenace Invenář Předvýběr realizací Daabáze segmenů Generování posloupnosi Výběr realizace jednoky Prozodické modifikace Řeězení segmenů Analýza Daabáze segmenů Dekódování Synéza Synéza 13 Synéza 14 Korpusově orienovaná synéza Korpusově orienovaná synéza Obecná úloha výběru zvlášní případ konkaenační synézy využií rozsáhlých foneicky a prozodicky pečlivě anoovaných korpusů (řádově sovky MB) více realizací každé řečové jednoky v rozdílných foneických, spekrálních i prozodických konexech plně auomaická konkaenační synéza všechny paramery se určují auomaicky na základě da z řeč. korpusu (včeně invenáře řeč. ) časo zv. neuniformnířečové jednoky (jednoky různého ypu) během on-line synézy se vybere yp a realizace jednoky = synéza výběrem hledání opimální posloupnosi řeč. (resp. jejich realizací) v řeč. korpusu v rámci syneizované promluvy čím přesnější posloupnos najdeme, ím menší modifikace původních řeč. signálů budeme muse provés výsledkem je vyšší kvalia syneické # #-pj p-je j-e e-# # ceny cíle # c C (#, p 2 ) C (p, p i) p 1 p 2 ceny konkaenace C c (p 2,j 3) specifikace cíle C (j, j i) j 1 j 2 j 3 C (e, e i) 2 hodnoící funkce cena cíle C cena konkaenace C c e 1 e 2 e 3 e 4 jednoky v invenáøi C (, i) 1 2 # C c ( 2,#) realizace Synéza 15 Synéza 16

Prozodické a spekrální modifikace přiblížení prozodických a spekrálních vlasnosí vybraných zásupců řeč. vlasnosem požadovaných v syneické prozodické modifikace úprava prozodických vlasnosí řeč. z invenáře => přiblížení k požadovaným prozodickým vlasnosem syneické plně v režii konkréní meody spekrální modifikace úprava spekrálních vlasnosí syneické (v mísech řeězení) za účelem vyhladi přechody mezi jednokami dosačující věšinou prosá lineární inerpolace spekrálních paramerů (LPC, HNM) žádné modifikace eoreicky nejlepší kvalia (žádná degradace řeč. signálu pořeba giganických invenářů s modifikacemi věší pružnos sysému možno použí menší invenáře přímá synéza LP synéza PSOLA kepsrální synéza Prozodické a spekrální modifikace Meody harmonický a šumový model vyváření (HNM) Synéza 17 Synéza 18 Výhody a nevýhody Arikulační synéza nepořebuje deailnější znalos procesu vyváření žádné ruční nasavování složiých pravidel pracuje přímo s reálným řečovým signálem problemaické zvuky může zachyi v segmenech (koarikulace) lepší kvalia syneické (věší přirozenos) rychlejší a jednodušší návrh syneizéru (oproi formanové synéze) ± kopíruje hlas řečníka z řečového korpusu ěžkopádné změny hlasu (nová daabáze) mísa řeězení vždy poencionálním zdrojem problémů věší paměťové a výpočení nároky (zejména v případě korpusově orienované synézy) komplexní modelování sysému vyváření člověkem arikulační model zahrnuje modely jednolivých orgánů (arikuláorů) člověka hlasivky, ry, čelisi, jazyk, měkké paro, maemaická simulace šíření řečové vlny v hlasovém raku arikulační paramery velikos a var rení šěrbiny, poloha jazyka, paramery pro buzení sav hlasivek, velikos ovoru mezi hlasivkami, napnuí hlasivek, nedosaek reálných da vysoká složios zaím prakicky nerealizovaelné synéza budoucnosi??? Synéza 19 Synéza 20

Synéza z exu (TTS) nejobecnější úloha synézy : na vsupu ex, výsupem řeč cíl: generova řeč z libovolného exu není možné uloži všechna slova (věy) do počíače, a pak je jen přehráva! 2 základní moduly: modul pro zpracování exu syneizér Synéza z exu Zpracování exu zpracování exu = zpracování přirozeného jazyka (Naural Language Processing, NLP) analýza exu foneická ranskripce generování prozodických charakerisik Zpracování přirozeného jazyka sysém TTS ex Analyzér exu ex Zpracování exu hlásky a Produkce řeč Modul foneické ranskripce hlásky () Generáor ěsná foneická ranskripce (hlásky ) Synéza 21 Synéza 22 Synéza z exu Hodnocení kvaliy syneické Synéza z exu Aplikace TTS sysémů kvalia: srozumielnos, přirozenos, plynulos, příjemnos, přijaelnos uživaelem vzhledem ke komplexnosi neexisují objekivní esy poslechové esy subjekivní hodnocení kvaliy (hodně posluchačů objekivnos) esy srozumielnosi MRT (Modified Rhyme Tes) 50 skupin slov po 6, slova se liší v počáečním nebo koncovém fonému např.: pes les ves bez děs rez SUS (Semanically Unpredicable Senences) gramaicky správné, ale nesmyslné věy nesrozumielné slovo nelze odvodi z konexu okolních slov např.: Ušaí komáři šěkali mokré diváky. esy přirozenosi (celkové kvaliy) MOS (Mean Opinion Score) hodnocení kvaliy : 5-vynikající,..., 1-španý CCR (Comparison Caegory Raing) porovnání sejné věy generované 2 syneizéry pomůcky pro handicapované lidi elekomunikační služby auomaické čení (email, SMS, ) hlasové moniorování výuka jazyků mulimédia, komunikace člověkpočíač mluvící hračky pro děi výzkum (foneika, lingvisika, akusika) Synéza 23 Synéza 24