A2M31RAT- Řečové aplikace v telekomunikacích



Podobné dokumenty
ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Nabídky spolupráce pro průmysl

Lombardův efekt v řečové databázi CLSD

Creation of Lexicons and Language Models for Automatic Broadcast News Transcription

Asistivní technologie

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

Metodika měření a hodnocení sociálních služeb a jejich sledování prostřednictvím aplikace on-line katalogu

Rozšířený datový model pro handicapované osoby a metodika jeho interpretace při navigaci. Jan Kufner, Eva Mulíčková

7 Další. úlohy analýzy řeči i a metody

Technologie počítačového zpracování řeči

Ing. Martin Šindelář. Téma disertační práce: SLEDOVÁNÍ TECHNICKÉHO STAVU ZÁVĚSU KOLA VOZIDLA. Školitel: Doc. Ing. Ivan Mazůrek CSc.

Speciální struktury číslicových systémů ASN P12

ACASYS-KS Komunikace v systému ACASYS

Výzkum zaměřený na domácí cestovní ruch Vyhodnocení etapy zima 2010

Nové publikace s problematikou radiační ochrany a jejich dostupnost. zkušenosti s realizací online publikací v ČR

Gymnázium Vincence Makovského se sportovními třídami Nové Město na Moravě

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

KONFIGURAČNÍ SOFTWARE ELDES CONFIGURATION TOOL

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Elektrická informační zařízení pro cestující

escribe: Online přepisovací centrum pro neslyšící

Sémantický web a extrakce

Jazykové technologie. Karel Oliva Ústav pro jazyk český Akademie věd ČR

NEWTON Dictate 4. Software pro převod hlasu do textu. Katalog příslušentví.




TransPraha: Hlasová navigace pro MHD

escribe: Online přepisovací centrum pro neslyšící

Analýza vlivu televizních debat na volební chování. Daniel Prokop, MEDIAN

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

- technologická úroveň - snímače a akční členy (sběr dat-ovládání technologie)

erotor Návod k obsluze erotor erotor ovládací terminál elektronické sirény

Vývoj sběru intenzit dopravy. Ing. Petr Neuwirth Centrum dopravního výzkumu, v. v. i.

ELEKTRONICKÁ PORODNÍ KNIHA POPIS APLIKACE Michal Huptych, Petr Janků, Lenka Lhotská

Knihovna informační centrum obce (on-line zdroje ve veřejné knihovně)

jednotky + Projekty Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno

Pavel Cenek, Aleš Horák

Anglický jazyk 3.období 6. ročník

Obsah. Seznámení s prostředím Excelu. Poděkování 25 O přiloženém CD 26 Co je na CD 26 Použití CD 26 Systémové požadavky 26 Podpora 27

SEKCE J INFORMAČNÍ A KOMUNIKAČNÍ ČINNOSTI

Zpracování zvuku v prezentacích

TRAIN TRANSPORT SOLUTION

KATALOG malospotřebitelský sortiment dům, byt, zahrada, auto a kolo

17. září 2008 I Zasedací sál Svazu průmyslu a dopravy ČR (Palác Lighthouse, 14. patro, Jankovcova 1569/2c, Praha 7)

STANDARDY PRO ZÁKLADNÍ VZDĚLÁNÍ Doplněné učivo pro 1. a 2. stupeň (M, Čj, Aj)

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

PROBLEMATIKA STANOVENÍ MINIMÁLNÍ CENY DOPRAVNÍHO VÝKONU

R-5602 DYNBAL_V1 - SOFTWARE PRO VYHODNOCENÍ DYNAMICKÉ NEVÝVAHY V JEDNÉ ROVINĚ ING. JAN CAGÁŇ ING. JINDŘICH ROSA

PROGRAMOVÁNÍ ROBOTŮ LEGO MINDSTORM S VYUŽITÍM MATLABU


ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Rekonstrukce standardizovaného textu z mluvené řeči

Možnosti integrace uměleckých postupů do vzdělávání na technicky zaměřených vysokých školách. Mgr. et MgA. Anna Ronovská

Technická specifikace předmětu veřejné zakázky Zhotovení interaktivního webového portálu a mobilních aplikací

.:: YAMADA DTV-1300 ::. uživatelská příručka

Úvod do databázových systémů. Lekce 1

INFORMAČNÍ A ŘÍDÍCÍ SYSTÉMY PRO TECHNOLOGICKÉ PROCESY (Soudobé vážicí systémy se zaměřením na zemědělskou výrobu)

Seminární práce obecné a technické pokyny

Výsledky úspěšné výuky ovládání počítače hlasem

KLÍČOVÉ PROMĚNNÉ OVLIVŇUJÍCÍ PLÁNOVÁNÍ TRASY: KONCEPT MAAS OČIMA UŽIVATELŮ

DUM 02 téma: Úvod do textového editoru MS Word a výběr klávesových zkratek

Přehled průmyslu pro užívání filtrů v ČR - reference

Dynamický podpis. vycházející z přednášek Dr. Andrzej Drygajlo,

ISSS Národní architektura ehealth

Informační systém banky

MP4 ipulse 5. Uživatelský manuál

Datec News 2012/1. Moderní marketingové technologie v řešení Datec Retail Solutions. OBSAH Datum vydání:

Základní škola pro žáky s vadami řeči v Praze 8

ZADÁVACÍ DOKUMENTACE K VEŘEJNÉ ZAKÁZCE ZADÁVANÉ DLE ZÁKONA Č. 137/2006 SB., O VEŘEJNÝCH ZAKÁZKÁCH, VE ZNĚNÍ POZDĚJŠÍCH PŘEDPISŮ (DÁLE JEN ZÁKON )

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

Zvyšování výkonnosti firmy na bázi potenciálu zlepšení

VÝSTRAHA PŘI NEDOVOLENÉM PROJETÍ NÁVĚSTIDLA...

Zadávací dokumentace

Základní sada pomůcek pro SCLPX - Sound Card Laser Pointer experiments

EUROPEAN CONSORTIUM FOR THE CERTIFICATE OF ATTAINMENT IN MODERN LANGUAGES. ... Date / Datum 35 minut Hodnotitel 2.


Obsah. Úvod 15. Vše potřebné o psaní a plánování 27. Oddíl I Preprodukce

Software laktát technická a funkční specifikace

Porovnání korelátorů dodávaných firmou Halma Water Management

Specializovaný korpus BANÁT a jeho využití

3-komorový hrudní drenážní systém

Střední odborná škola a Střední odborné učiliště, Hořovice

PROBLEMATIKA ENÍ EKONOMICKÉ EFEKTIVNOSTI SANACE

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. Jak citovat. Zpracovala: Mgr. Ilona Trtíková ÚSTŘEDNÍ KNIHOVNA ČVUT. - Prosinec

227,90 AKKU BAR-160 RGBA. Obj. č.:

Stanislav Hejna 18. března 2010, Praha

Název DUM: VY_32_INOVACE_2B_15_Základy_práce_v_tabulkovém_editoru_EXCEL_2007

INFORMATIKA. Jindřich Kaluža. Ludmila Kalužová

Organizační směrnice Q 7 Zálohování a archivace e-dat

DIAGNOSTICS OF A HYDRAULIC PUMP STATUS USING ACOUSTIC EMISSION

Příloha 2. Vážená uchazečko / Vážený uchazeči o studium na. fakultě Ostravské univerzity,

Organizace a marketing turismu

VYUŽITÍ KNIHOVNY SWING PROGRAMOVACÍHO JAZYKU JAVA PŘI TVORBĚ UŽIVATELSKÉHO ROZHRANÍ SYSTÉMU "HOST PC - TARGET PC" PRO ŘÍZENÍ POLOVODIČOVÝCH MĚNIČŮ

EVIDENČNÍ FORMULÁŘ. FTVS-UK evidence VaV výsledků nepodléhající řízení o zápisu u ÚPV v Praze

Ceník reklamy v 2GIS

Transkript:

A2M31RAT- Řečové aplikace v telekomunikacích Záznam a zpracování hlasových signálů pro potřeby výzkumu a aplikací hlasových technologií. Textové korpusy Doc. Ing. Petr Pollák, CSc. 17.května2011-15:44

I. část Tvorba řečových databází

Motivace pro tvorbu řečových databází Proč vytvářet řečové databáze? Zdroj charakteristik řečových signálů(řečové databáze) Trénování rozpoznávačů řeči(hmm) Charakteristiky hlasu mluvčího při syntéze Zdroj informací o jazyce(textové databáze) Textové korpusy Jazykové modely Zdroj fonetické informace (slovníky) Testování vyvíjených algoritmů Potlačování řeči v šumu Kódování řečového signálu

Základní kategorie řečových databází Akustické(řečové) DB testovací DB- není součástí systému Potlačování řeči v šumu, kódování řečového signálu trénovací DB- ovlivňuje vlastnosti systému trénování HMM(rozpoznávání řeči či řečníka), trénování neuronových sítí, průměrování charakteristik(syntéza, DTW) Lexikální(textové) DB Lexikony tvorba gramatiky rozpoznávače(seznam známých slov), získání fonetického přepisu promluvy(výslovnostní lexikon) Textové korpusy souvislých textů Zdroje nahrávaných promluv, trénování jazykových modelů, zdroje pro tvorbu lexiconů

Zdroje a dostupnost řečových databází Základní zdroje řečových databází LDC(Linguistic data consortium) http://www.ldc.upenn.edu ELRA(European Language Recources Agency) http://www.elra.info Privátní zdroje Finanční náklady na pořízení řečových databází Číslovky-ELRA,10000EUR CzechSpeechDat-ELRA,16000EUR(6500EUR) databázeřadyspeecon-vícenež60000eur databázeřadyspechdat-car-60000-90000eur LexiconyřadyLC-Star-cca20000EUR ČlenstvívLDC-2000USD/rok NUTNO ČASTO TVOŘIT VLASTNÍ ŘEČOVÉ DATABÁZE

Požadavky na rozsah a obsah řečové DB DB pro trénování rozpoznávačů řeči velký počet mluvčích(5000 Polyphone DB) (pro základní SI rozpoznávač- 200 mluvčích) pokrytí textů k rozpoznávání definice korpusu DB pokrytí variability prostředí DB pro syntézu řeči pokrytí možných vzorků řečových úseků pro syntézu extrakce charakteristik daného mluvčího (obecná syntéza- ne hlášení poskládaná z celých slov) DB pro rozpoznávání resp. identifikaci řečníka pokrytí variability promluvy jednoho mluvčího Nelze vytvořit zcela univerzální DB!!

Pokrytí mluvčích a prostředí v DB pro rozpoznávání Požadavky na zastoupení mluvčích: pohlaví(50%-50%) věk(zastoupení všech věkových kategorií) dialekt(5 regionů: Čechy 2, Morava 3) Typická prostředí využívající hlasové ovládání: telefonní kanál- pro hlasové služby v pevných resp. mobilních telekomunikačních sítích, prostředí automobilu- ovládání různých zařízení v automobilu hlasem bez ztráty koncentrace na řízení je velmi žádaná, kancelář, domácí prostředí, veřejná prostranství- ovládání řady běžných spotřebitelských zařízení, zejména elektronických, Internet- roustoucí zájem s rozšiřující se komunikací v sítích VoIP.

Základní konfigurace nahrávacího zařízení 1 On-line záznam s přímou digitalizací na PC - optimální volba nahrávací zařízení (případ řešení hlasového vstupu ve funkčním systému) -snímanádatasepřímodigitalizujíamohouseukládatdo výsledné struktury - lze použít běžně dostupné přenosné počítače (Pozor, standardní vstupy nemusí zaručovat požadovanou podporu či kvalitu) -NatrhujsoudostupnékartydoPC(notebooků)ipro vícekanálové nahrávání 2 Off-line digitální záznam - kvalitní digitální záznam na standardním audio zařízení (diktafony, mp3-wav recordery) -zvukovýzáznambymělbýtuchovánvplnékvalitě(nes kompresí nahraných dat) - zařízení typu DAT pásky, standardní audio kazeta = historie význam snad jen pro zpracování existujících záznamů(archivů)

Software pro nahrávání řečových signálů 1 Realizace jednotlivých nahrávek - komerčně dostupné produkty: Adobe Audition(původně CoolEdit), SoundForge - volně šiřitelné nástroje WaveSurfer z KTH ve Stockholmu, Praat z University v Amsterdamu, Audacity apod. 2 Nahrávání rozsáhlejších databází - nutný vhodně přizpůsobený nahrávací software - SpeechRecorder volně dostupný produkt skupiny z univerzity vmnichově - obtížné přizpůsobování univerzálních nástrojů, jazykovým zvláštnostem, apod.

Speech Recording Studio- SPEECON

Volba počtu nahrávaných kanálů Pro rozpoznávač řeči lze vystačit s jednokanálovým řečovým signálem. Více kanálů je potřeba v okamžiku zahrnutí algoritmu zvýrazňování řečového signálu snímaného v hlučném prostředí. Vícekanálový sběr se realizuje často i za účelem získání signálů současně z několika různých vstupních kanálů(např. použitím mikrofonů různé kvality). - SpeechDat-Car(pole 3 mikrofonů, close-talk, GSM) - SPEECON(4 různé kanály)

Volba a umístění mikrofonů Výběru vhodných mikrofonů: kvalitní mikrofon vs. cenová dostupnost?? Směrová charakteristika Použití vysoce směrových mikrofonů(zvyšují SNR snímaného signálu, ale problém při pohybu mluvčího) Všesměrové mikrofony v hlučném pozadí snímají příliš mnoho rušivého pozadí Pozice mikrofonů close-talk resp. head-set middle-talk far-talk

Příklad umístění blízkých mikrofonů- SPEECON

Příklad umístění vzdálených mikrofonů- SPEECON

Příklad umístění mikrofonů v automobilu- SPEECON

Nahrávací schéma pro databázi s Lombardovým efektem Lombardův efekt Posun charakteristik produkované řeči vlivem hlučného pozadí: -intenzita - základní tón - posice formantů

Nahrávání DB s Lombardovým effektem

Definice nahrávaného korpusu Základní požadavky = pokrytí dané rozpoznávání úlohy hlasové vytáčení telefonního čísla ovládání různých funkcí v telekomunik. službách ovládání zařízení v automobilu ovládání různých zařízení v domácím prostředí Typické položky v řečových DB číslovky: izolované(0-9), spojené, přirozená čísla povely(aplikačně závislé) jména osob(křestní i příjmení) názvy měst, ulic, firem, atd. datum, čas, peněžní částky hláskovaná písmena foneticky bohaté věty a slova (NEJVÝZNAMĚJŠÍ TRÉNOVACÍ DATA)

Výběr foneticky bohatých vět Algoritmus 1 Shromáždění vstupního textového korpusu (Internet, novinové texty, elektronické knihy) 2 Předzpracování vstupního korpusu (vyčištění textu) 3 Základní výběr foneticky vyváženého korpusu (přednostní výběr řídkých fonémů a následné dovažování) 4 Kontrola foneticky vyváženého korpusu NEZBYTNÝ MANUÁLNÍ ZÁSAH! 5 Finální vyvážení (opakování vyvažovacího algoritmu) 6 Výběr podmnožiny pro jednoho mluvčího (subkorpus by měl být též vyvážený)

Anotace řečových dat- transkripce obsahu promluvy Ortografická transkripce Klasická psaná forma promluvy podle pravidel českého pravopisu šestnáctsettřicetdevět Nutno ručně vytvořit!(zkorigovat rozpoznaný obsah) Ortoepická transkripce Regulerní fonetická forma dané promluvy šestnáctsettřycetdevjet Automaticky generovatelná z ortografické transkripce! Fonetická transkripce Skutečně vyslovená varianta dané promluvy šesnácettřycedevjet Nutno ručně vytvořit!(zkorigovat)

Generování ortoepické transkripce 1 Výslovnostní lexikon - typická součást řečových databází i rozpoznávačů - možné varianty výslovnosti 2 Generování podle pravidel - vhodné pro češtinu(problém pro angličtinu) - ortografická transkripce musí být ve slovní podobě - problém s cizími slovy resp. s nepravidelnou výslovností Rozšířená ortografická transkripce Ortografická transkripce s vyznačenou nepravidelnou výslovností (James/džejms)měl(panický/panycký)strach.

Anotace neřečových událostí Anotace neřečových událostí - přeřeknutí, useknutí promluvy - neřečové události od řečníka - neřečové události reprezentující prostředí Informace o mluvčím a nahrávacích podmínkách Časové značky hranic fonémů(fonetická segmentace) - pro trénování HMM není tato informace nutná - pro trénování ANN jsou hranice elementů nezbytné - velmi pracné nutno automaticky generovat

Anotační software Požadavky na software: - snadná manipulace s labelovacím souborem - přehrávání signálu - další specifické funkce zefektivňující anotační proceduru Příklady: - WWWTranscribe(TU Muenchen) - Transcriber(http://trans.sourceforge.net) - další volně šiřitelné obecnější nástroje(praat, WaveSurfer)

FTP Transcriber(VUT& ČVUT)

Transcriber

XTrans Obrázek převzatý z M. L. Glenn, S. M. Strassel, H. Lee. XTrans: A Speech Annotation and Transcription Tool. In Interspeech 2009, Brighton, UK.

Dostupné české databáze na ČVUT FEL Český SpeechDat- ID databáze: FIXED3CS -telefonnídatabázezpevnésítě,f s =8000Hz,8bitů,a-law - 1052 mluvčích, cca 15 minut od jednoho mluvčího - obsahuje foneticky bohatý materiál i aplikačně orientované položky Dostupnost: ELRA(číslo v katalogu S0094) Číslovky- ID databáze: FIXED2CS -telefonnídatabázezpevnésítě,f s =8000Hz,8bitů,a-law -1227mluvčích,cca5minutodjednohomluvčího - obsahuje aplikačně orientované položky(především základní číslovky) Dostupnost: ELRA(číslo v katalogu S0077) Český SPEECON- ID databáze: ADULT1CS, CHILD1CS - databáze z různých prostředí(kancelář, domov, auto, veřejné prostory), -f s =16000Hz,16bitů,lineárníPCM,4různékanály -590dospělýcha50dětí,cca30minutodjednohomluvčího - obsahuje foneticky bohatý materiál i aplikačně orientované položky pro ovládání různých zařízení Dostupnost: ELRA(číslo v katalogu S0298)

Dostupné české databáze na ČVUT FEL Databáze z automobilu- ID databáze: CAR2ECS - databáze nahrávek z automobilu, -f s =16000Hz,16bitů,lineárníPCM,2kanály -118mluvčích,pouze2minutynamluvčího,cca3,5hodinycelkem - obsahuje číslovky, povely a věty(věty nejsou foneticky vyvážené) Dostupnost: ČVUT(http://noel.feld.cvut.cz/speechlab) Databáze z automobilu- ID databáze: CZKCC - databáze nahrávek z automobilu, -f s =48000Hz,44100Hz,16bitů,lineárníPCM,2kanály -1000mluvčích,cca30minutnamluvčího,cca500hodincelkem - obsahuje číslovky, povely a foneticky vyvážené věty Dostupnost: firemní DB, ČVUT(pro výzkum a výuku)

Dostupné české databáze na ČVUT FEL Databáze řeči s Lombardovým efektem- ID databáze: CLSD05 - databáze nahrávek s vyvolaným Lombardovým efektem (obsahuje paralelní nahrávky neutrální a Lombardovy řeči), -f s =16000Hz,16bitů,lineárníPCM,2kanály - aktuálně 26 mluvčích, cca 60 minut na mluvčího, - obsahuje foneticky bohatý materiál i aplikačně orientované položky Dostupnost: ČVUT(http://noel.feld.cvut.cz/speechlab)

Další dostupné databáze pro češtinu VOA- Voice of America Broadcast News Czech - databáze českých zpráv stanice Hlas Ameriky, -f s =16000Hz,16bitů,lineárníPCM,1kanál -cca30hodinřečicelkem - obsah lze pokládat za foneticky bohatý materiál Dostupnost: LDC(LDC2000S89, LDC2000T53) Czech Broadcast News Speech - databáze českých zpráv z rozhlasu a televize -f s =22050Hz,16bitů,lineárníPCM,1kanál -cca50hodinřečicelkem - obsah lze pokládat za foneticky bohatý materiál Dostupnost: LDC(LDC2004S01, LDC2004T01)

Databáze pro další jazyky TIMIT- TIMIT základní širokopásmová databáze americké angličtiny, NTIMIT je varianta pro řeč v telefonním pásmu, CTIMIT je varianta pro mobilní telekomunikační sítě. WSJ0,WSJ1 -čtenétextyzdeníkuwallstreetjournal. TIDIGITS- Vývoj a testování rozpoznávače s malým slovníkem (modely celých slov) SpeechDat, SPEECON- řada databází se stejnou strukturou a obsahem pro většinu evropských a světových jazyků AURORA- databáze pro srovnávací experimenty parametrizací řeči řečová data + trénovací a testovací skripty + referenční etalon AURORA2-English(TIDIGITS+umělýšum) AURORA 3- German, Finish, Spanish, Italian, Danish (reálné prostředí automobilu) AURORA4-English(WSJ-spojitářeč,umělýšum)