Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Podobné dokumenty
Pavel Cenek, Aleš Horák

Speciální struktury číslicových systémů ASN P12

Roviny analýzy jazyka. Fonetika

Úvod do praxe stínového řečníka. Úvod

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

7 Další. úlohy analýzy řeči i a metody

Algoritmy a struktury neuropočítačů ASN P8b

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Univerzita Pardubice Fakulta-ekonomicko správní

Technologie počítačového zpracování řeči

Úvod do praxe stínového řečníka. Proces vytváření řeči

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

ADA Semestrální práce. Harmonické modelování signálů

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

ZČU v Plzni Fakulta aplikovaných věd Katedra kybernetiky

ŘEČOVÉ TECHNOLOGIE v PRAXI

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Asistivní technologie

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Klasifikace Landau-Kleffnerova syndromu

Řečové technologie pomáhají překonávat bariéry

JAK VZNIKÁ LIDSKÝ HLAS? Univerzita Palackého v Olomouci

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Rozpoznávání hlasových vstupů

Umělá inteligence pro zpracování obrazu a zvuku

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE

Efektivní komunikace díky inovativním hlasovým technologiím. Praha, Call centrum ve finančních službách

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Úloha: Verifikace osoby pomocí dynamického podpisu

Akustika. 3.1 Teorie - spektrum

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

Kepstrální analýza řečového signálu

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY

Úvod do zpracování signálů

A2M31RAT- Řečové aplikace v telekomunikacích

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

jaro 2015 Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno VoiceXML informace Struktura aplikace pomocí VoiceXML

FONETIKA A FONOLOGIE I.

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

český jazyk a literatura

Optimalizace rychlosti výběru řečových jednotek v konkatenační syntéze řeči. Ing. Jiří Kala

Klasifikace hudebních stylů

JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI

transkribovaný text Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam.

kursu, úvod 2017/18 Igor Szöke a Honza Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Akustika pro posluchače HF JAMU

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

DIPLOMOVÁ PRÁCE. Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Jasové transformace. Karel Horák. Rozvrh přednášky:

UNIVERZITA PARDUBICE

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ

LIDSKÝ HLAS JAN ŠVEC. Oddělení biofyziky, Katedra experimentální fyziky, Př.F., Univerzita Palackého v Olomouci

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Úroveň využití hlasového uživatelského rozhraní

LS 2013 Teorie skrytých Markovových modelů. Tino Haderlein, Elmar Nöth

Příloha č. 1 ke Školnímu vzdělávacímu programu základního vzdělávání pro žáky s mentálním postižením a poruchami komunikace

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Akustika pro posluchače HF JAMU

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.


Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Základní komunikační řetězec

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx

VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ

Hlasové vypínání elektrických přístrojů 1 ÚVOD. 11

Anotace. Abstract. Keywords: Automatic testing, voice dialogue systems, automatic speech recognition, speech synthesis, digital character recognition.

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Využití metod strojového učení v bioinformatice David Hoksza

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Voice portál. Pavel Cenek OptimSys, s.r.o.

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky DIPLOMOVÁ PRÁCE

Software pro pořizování a popis zvukových nahrávek

Předmět: Český jazyk. hlasité čtení, praktické čtení. hlasité i tiché čtení s porozuměním

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

ŘEČOVÁ SYNTÉZA PRO HLASOVĚ POSTIŽENÉ

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

Předmět: Český jazyk a literatura

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24

Univerzita Karlova v Praze. Počítačové zpracování textu a řeči a jeho využití v informačním prostředí

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

Okruhy pojmů ke zkoušce, podzim 2016

Transkript:

Syntéza a rozpoznávání řeči Obsah: Související technologie Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Text to Speech, TTS Konverze textu do mluvené podoby V ideálním případě by měla syntetizovaná řeč znít tak, jako kdyby daný text přečetl člověk Probíhá obvykle ve 4 fázích Normalizace textu Fonetický přepis Prozodický přepis První 3 fáze = NLP modul, čtvrtá fáze = DSP modul Normalizace textu Úvod do počítačové lingvistiky 3/11 1 / 21 Normalizace textu Rozčlenění textu na věty Rozvinutí zkratek, měrných jednotek, čísel apod. číslo telefonní číslo 130895 datum... Fonetický přepis Úvod do počítačové lingvistiky 3/11 2 / 21 Fonetický přepis Převede předzpracovaný text do fonetické podoby (tj. do tvaru, který popisuje výslovnost daného textu) Mezinárodní fonetická abeceda (IPA) v češtině cca 40 fonémů Fonetický přepis češtiny musí zohlednit např. Spodoba znělosti (včela/fčela, dub/dup) Krajové zvyky (např. shoda/zhoda nebo schoda) Problémy přináší přepis cizích vlastních jmen a cizích slov obecně (např. faux pas nebo francouzská vlastní jména) Dvě základní metody Fonetický přepis založený na pravidlech (např. pro češtinu funguje dobře) Fonetický přepis pomocí výslovnostních lexikonů Obě metody lze kombinovat Úvod do počítačové lingvistiky 3/11 3 / 21 Úvod do počítačové lingvistiky 3/11 4 / 21

Prozodický přepis SSML Prozodický přepis Speech Synthesis Markup Language (SSML) tzv. suprasegmentální rysy popisuje řečový proud spolu s přepisem do fonémů obohacení textu o informace (viz SSML dále) o lokálních fyzikálních charakteristikách výsledné zvukové vlny: délka fonému tempo řeči, pauzy intonace věty vzor pro hladinu základní frekvence (pitch) tón v některých (tzv. tónových) jazycích určuje význam lexikální přízvuk v přízvukových jazycích ovlivňuje délku, hlasitost a tón slov kvalitní výpočet prozodie = přirozenost syntetizované řeči např. u tonálních jazyků silně ovlivní i porozumění Emoce člověk je při projevu používá výzkum syntézi s emocemi je o dost složitější Doporučení W3C (jako HTML, XML,...) standardní způsob pro doplnění fonetiky a prozodie do textu Pokrývá první 3 fáze syntézy řeči (normalizace, fonetický přepis, prozodie) <say-as> explicitní určení typu dat (např. Type="Acronym", viz Normalizace) <phoneme> fonetický přepis textu <voice> změna hlasu (atributy věk, muž/žena,... ) <emphasis> přidání/odebrání důrazu <break> vložení/zrušení pauzy <prosody> ovlivnění prozodie (výška hlasu, kontura, rychlost, hlasitost atd.) Úvod do počítačové lingvistiky 3/11 5 / 21 SSML Speech Synthesis Markup Language (SSML) příklad <?xml version="1.0" encoding="utf-8"?> <vxml version="2.0" xmlns="http://www.w3.org/2001/vxml"> <form> <block> <prompt> <voice gender="male"><emphasis>hello</emphasis> Jane.</voice> <voice gender="female"><emphasis>hello</emphasis> Mike, how <emphasis>are</emphasis> you?</voice> <voice gender="male">i am fine. And how are <emphasis>you</emphasis> Jane?</voice> <voice gender="female">not bad.</voice> <voice gender="male">ok, Goodbye.</voice> <voice gender="female"><emphasis>goodbye</emphasis> Mike.</voice> </prompt> </block> </form> </vxml> Úvod do počítačové lingvistiky 3/11 7 / 21 Úvod do počítačové lingvistiky 3/11 6 / 21 Generování výsledného akustického signálu z předzpracovaného textu (řeší DSP modul) Dva základní přístupy syntéza řeči v časové oblasti syntéza řeči ve frekvenční oblasti v posledních letech i modelování pomocí hlubokých neuronových sítí (WaveNet) prozatím příliš výpočetně náročné pro aplikace v reálném čase Úvod do počítačové lingvistiky 3/11 8 / 21

v časové oblasti Semiautomatická tvorba difónové databáze = konkatenativní syntéza Výsledná řeč se skládá z vybraných, dopředu namluvených segmentů řeči (difónů, trifónů, slabik apod.) Relativně jednoduché na implementaci Nutnost vytvoření rozsáhlé databáze segmentů (koartikulace, např. á zní jinak v táta a máma): difóny t á t a trifóny t á t a kombinace heterogenní segmenty (někdy difóny, trifóny i celá slova) Dochází k deformaci segmentů jejich spojováním a aplikací prozodických pravidel tajemství komerčních aplikací Úvod do počítačové lingvistiky 3/11 9 / 21 ve frekvenční oblasti 2 hlavní přístupy: Modelování hlasového ústrojí generovaný zvuk závisí na parametrech tohoto hlasového ústrojí. velká flexibilita (nový hlas lze vytvořit pouhou změnou parametrů) velmi náročné výpočty (řeší se fyzikální rovnice modelující situaci ve vokálním traktu, diferenciální rovnice, větš. degradují na válce/koule, ale stejně moc náročné) v praxi se téměř nepoužívá Formantová syntéza modelování (jen) hlavních akustických rysů řečového signálu model zdroj/filtr zdroj generuje základní tón pro znělé části řeči a šum pro neznělé části řeči a filtry modifikují zvukové spektrum a napodobují tak hlavní funkce lidského vokálního traktu zdroj i filtr jsou řízeny množinou fonetických pravidel syntéza založená na pravidlech lze počítat v reálném čase mnohem menší data než u konkatenativní syntézy vhodné i pro embedded devices espeak open source projekt espeak.sourceforge.net Úvod do počítačové lingvistiky 3/11 11 / 21 TTS systémy ve světě Úvod do počítačové lingvistiky 3/11 10 / 21 TTS systémy nejčastější použití telefonní systémy c Nuance (http://www.nuance.com/) c Loquendo nyní Nuance c Acapela group (http://www.acapela-group.com/) založena v roce 2004 třemi společnostmi, jedna z nich autor MBROLA c IBM (http://www.research.ibm.com/tts/) c AT&T (http://www.research.att.com/) Festival (http://www.cstr.ed.ac.uk/projects/festival/) MBROLA (http://tcts.fpms.ac.be/synthesis/mbrola.html) FreeTTS (http://freetts.sourceforge.net/) Úvod do počítačové lingvistiky 3/11 12 / 21

TTS systémy České TTS systémy EPOS TTS (http://sourceforge.net/projects/epos) Česká akademie věd + Karlova univerzita Demosthenes, Popokatepetl LSD FI ERIS TTS (http://www.speechtech.cz/), heterogenní segmenty DEMO SpeechTech, s.r.o. + katedra kybernetiky FAV ZČU c verze je nejlepší český Český hlas pro MBROLA Mikuláš Piňos, NLP lab FI DEMO Automatic Speech Recognition, ASR Konverze řeči na text Výstupem je většinou množina hypotéz spolu s pravděpodobností správnosti dané hypotézy. K výběru správné hypotézy se běžně využívají jazykové modely Lze zhruba rozdělit na Rozpoznávání izolovaných slov slyšitelná pauza mezi slovy Rozpoznávání kontinuální řeči plynulá řeč (řeč školeného mluvčího nebo čtený text) Rozpoznávání spontánní řeči přeřeky, pauzy, začátky vět (false-starts) Úvod do počítačové lingvistiky 3/11 13 / 21 pokrač. Diktovací stroje (např. Dragon Naturally Speaking) Schopné rozpoznat cokoliv N-gramové statistické jazykové modely Závislé na mluvčím (je potřeba je natrénovat) Rozpoznávače založené na gramatikách Rozpoznají jen fráze popsané (regulární) gramatikou (gramatika = jazykový model) S Jedu do MESTO MESTO Prahy Brna Nezávislé na mluvčím telefonní aplikace Speech Recognition Grammar Specification (SRGS) standard W3 konzorcia, à la BNF existují 2 notace XML a šipková pro čtení dá se do ní dát i význam vstupu Úvod do počítačové lingvistiky 3/11 14 / 21 pokrač. Probíhá obvykle ve 3 fázích: 1. Vstup signálu Amplituda akustického vlnění je snímána v pravidelných intervalech a uložena ve formě celého čísla (digitalizace a vzorkování signálu) 2. Vytvoření akustických charakteristik signálu (akustické vektory) Snižuje variabilitu a odstraňuje redundanci (řeč 300 000 redundantní) Počítají se rozdělením na segmenty 10 40 ms, ze kterých se odečítají charakteristiky, jako je počet průchodů nulou nebo prvních 12 koeficientů FFT (cca 40 čísel, není přesně dané které, ale výběr velice ovlivní výsledek) 3. Porovnávání vektorů parametrů K získané sekvenci vektorů parametrů se hledá co nejpodobnější sekvence známých, předem naučených, vektorů reprezentující např. fonémy, trifóny, slabiky, celá slova apod. Úvod do počítačové lingvistiky 3/11 15 / 21 Úvod do počítačové lingvistiky 3/11 16 / 21

Porovnávání vektorů parametrů ASR systémy Porovnávání vektorů parametrů ASR systémy ve světě Algoritmus borcení časové osy (dynamic time warping, DTW) odstraňuje časové nerovnoměrnosti v akustickém signálu Skryté Markovovy modely (Hidden Markov Models, HMM) Pravděpodobnostní konečné automaty V každém okamžiku je hlasové ústrojí v určitém stavu a může s určitou pravděpodobností přejít do jednoho z následujících stavů Jako doplněk se mohou využít neuronové sítě Je nejprve potřeba natrénovat za pomocí dat z řečového korpusu c Nuance (http://www.nuance.com/) c Loquendo (http://www.loquendo.com/) nyní Nuance c LumenVox (http://www.lumenvox.com/) c IBM ViaVoice nyní Nuance Dragon Naturally Speaking http://www.nuance.com/dragon/ Sphinx (http://cmusphinx.sourceforge.net/) České ASR systémy Úvod do počítačové lingvistiky 3/11 17 / 21 ASR systémy Úvod do počítačové lingvistiky 3/11 18 / 21 ASR systémy Mozilla Common Voice Laboratoř počítačového zpracování řeči na Fakultě mechatroniky Technické univerzity v Liberci (http://www.ite.tul.cz/speechlab/) ERIS ASR (http://www.speechtech.cz/) SpeechTech, s.r.o. + katedra kybernetiky FAV ZČU Speech@FIT VUT Brno (http://speech.fit.vutbr.cz/) keyword spotting jestli se vyskytlo dané slovo v běžné řeči voice.mozilla.org iniciativa Mozilly pro vytvoření komunitního ASR můžete sami přispět k dostupnosti rozpoznávání řeči pro váš jazyk uživatelé: vybírají věty (je potřeba > 5, 000 vět/jazyk) kontrolují věty nahrávají věty (za všechny jazyky je nyní nahráno 2,000 hodin) kontrolují nahrávky vět www.mozilla.cz/zpravicky/stav-cestiny-v-projektu-common-voice/ Úvod do počítačové lingvistiky 3/11 19 / 21 Úvod do počítačové lingvistiky 3/11 20 / 21

Související technologie Související technologie Dialogové systémy Počítačové systémy komunikující s uživatelem pomocí přirozeného jazyka Využívají ASR a TTS jako své komponenty Rozpoznávání mluvčího identifikace mluvčího určení, který z registrovaných mluvčích pronesl danou větu verifikace mluvčího akceptování nebo odmítnutí identity mluvčího Identifikace mluveného jazyka fonémicko-fonetický rozpoznávač pro každý rozpoznávaný jazyk sledují se fonémy specifické pro každý jazyk daná promluva je zpracována všemi rozpoznávači a jako jazyk dané promluvy je zvolen jazyk, jehož rozpoznávač dosáhl nejvyššího skóre Úvod do počítačové lingvistiky 3/11 21 / 21