Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

Podobné dokumenty
Základní škola Nový Bor,

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Questions

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Materiál slouží k procvičení znalosti přítomného času prostého, tvorbě vět a otázek.

Anglický jazyk 5. ročník

EU peníze středním školám digitální učební materiál

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

PŘEDPŘÍTOMNÝ průběhový ČAS (PRESENT PERFECT continuous TENSE) - cvičení

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Kód DUM : VY_22_INOVACE_CJ_III/2. 19 Základní škola a Mateřská škola Dobronín, příspěvková organizace, Polenská 162 / 4, Dobronín

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Náhradník Náhradník 5.A

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

VY_22_INOVACE_84. P3 U3 Revision

Mut goes shopping VY_22_INOVACE_27. Vzdělávací oblast: Jazyk a jazyková komunikace. Vzdělávací obor: Anglický jazyk. Ročník: 6

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce pro 5. ročník z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A19 Pořadové číslo: 19.

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Verb + -ing or infinitive

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

Digitální učební materiál

Náhradník Náhradník 5.A

Název projektu: Multimédia na Ukrajinské

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. Test

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

PŘÍTOMNÝ ČAS PROSTÝ PRESENT SIMPLE

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

VY_22_INOVACE_CJ_III/2.21

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Střední průmyslová škola stavební Pardubice

Projekt MŠMT ČR: EU peníze školám

POSLECH. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t :

POSLECH. Mona has got her eleventh birthady on Sathurday, she she is planning a big party for her friends. She met her friend John.

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

Cestování Obecné. Obecné - Základy. Obecné - Konverzace. Pro zeptání se na pomoc. Pro zeptání se, zda člověk mluví anglicky

Cestování Obecné. Obecné - Základy. Obecné - Konverzace. Pro zeptání se na pomoc. Pro zeptání se, zda člověk mluví anglicky

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

POSLECH. What do you know about these professions (occupations)? Reporter Susan visited a director of a company John on Tuesday at 9 o clock.

PŘEDPŘÍTOMNÝ prostý ČAS - procvičení

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Project 3 Unit 7B Kelly s problem

WORKSHEET 1: LINEAR EQUATION 1

VY_INOVACE_61 MODAL VERBS

Anglický jazyk. Souslednost časů. Anglický jazyk. Vytvořil: Eva Burianová. Souslednost. DUM číslo: 9. Souslednost časů.

20/ Řeč přímá a nepřímá


VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A20 Pořadové číslo: 20.

Future. V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous

CZ.1.07/1.5.00/

Náhradník Náhradník 5.A

Anglický jazyk 5. ročník

5. Učebnice str. 74, cvičení 5. Vybíráme podle jídelního lístku.

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Anglický jazyk - 1. a 2. ročník Očekávané výstupy z RVP Učivo Přesahy a vazby Osobnostní a sociální

seznamu nepravidelných sloves, osvojuje si správnou výslovnost, vede jednoduchý rozhovor

Angličtina pro každého posloucháte - rozumíte - mluvíte

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Present Simple and Continuous Přítomný čas prostý a průběhový Pracovní list

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Metodický list. Radmila Válková

Project 1. My projects

Ukázka knihy z internetového knihkupectví

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Angličtina pro radost I. Začátečníci

7 Další. úlohy analýzy řeči i a metody

MONTHLY PROGRAM MAY 2017

ve strojovém překladu

Angličtina O-06 A 1. Označte správnou variantu. (10x1 bod)

Instrukce: Cvičný test má celkem 3 části, čas určený pro tyto části je 20 minut. 1. Reading = 6 bodů 2. Use of English = 14 bodů 3.

Předmět: Anglický jazyk

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

The form of the verb in past simple is the same for all persons. In questions and negatives we use did/didn t auxiliary verb and the base form.

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

AJ 3_08_Shopping.notebook. November 08, úvodní strana

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

Transkript:

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu Ondřej Cífka, Ondřej Bojar Ústav formální a aplikované lingvistiky, MFF UK Korpusová lingvistika Praha, 17. září 2016 1 / 18

Obsah Motivace: Alex Translate, tlumočník pro turisty Překlad mluvené řeči obecně Problémy v našem kontextu a jejich řešení Nedostatek dat v doméně Rozpoznání českých slov anglickým ASR Empirické vyhodnocení 2 / 18

Alex Translate systém pro automatický překlad mluvené angličtiny do češtiny (speech-to-speech translation) zaměření na cestovní ruch (služba pro anglofonní turisty) použit ke sběru dat malý mluvený korpus ukázka: 277 278 178 3 / 18

Překlad mluvené řeči zvukový signál ve zdrojovém jazyce (angličtina) text v cílovém jazyce (čeština) hlavní podúlohy: rozpoznání řeči (ASR) strojový překlad (MT) + popř. syntéza řeči (TTS) Speech recognition (ASR) where is the nearest tram stop Machine translation (MT) kde je nejbližší zastávka tramvaje 4 / 18

Rozpoznání řeči (ASR) 5 / 18

Statistické rozpoznání řeči akustický model (AM): zvukový signál hlásky trénovací data: mluvený korpus výslovnostní lexikon: hlásky slova ručně sestavený nebo generovaný pravidly jazykový model (LM): pravděpodobnosti řetězců slov trénovací data: textový korpus, ideálně specializovaný pro konkrétní úlohu 6 / 18

Problémy potřebujeme korpus specializovaný pro danou doménu (konverzační věty z oblasti cestovního ruchu) nasbíraná data zdaleka nestačí k natrénování modelů použití českých místních názvů v anglické řeči (druh code-switchingu) Does this tram go to Vítězné náměstí? ASR toto zpravidla neřeší chybí data zachycující tento jev 7 / 18

Nahrávky a přepisy hovorů 1 14 minut 35 hovorů 364 promluv použito pro ladění a testování systému could you call my hotel and tell them that i m coming late good morning what s the weather in the city of ústí nad labem are you from prague is this food gluten free 1 http://hdl.handle.net/11234/1-1735 8 / 18

Trénování ASR výběr vět z korpusu Common Crawl výběr hesel z Wikipedie souvisejících s Českem část nahraných hovorů použita k ladění vah jazykového modelu referenční text phrasebook sentences referenční LM vybraný text z Common Crawl interpolovaný LM korpus Common Crawl další korpusy části CzEngu a Wikipedie how do you pronounce that do you have any meatless dishes does this tram go to the prague castle i don t have a boyfriend thank you so much it s surprising what you don t know i love to go out and have a good time he is that person to me you have been busy ladicí text přepisy hovorů could you call my hotel and tell them that i'm coming late good morning what's the weather in the city of ústí nad labem is this food gluten free ASR model výslovnostní lexikon akustický model 9 / 18

Rozpoznání českých slov v anglické řeči vybereme množinu českých slov, která chceme umět rozpoznat (v našem případě názvy ulic a obcí), přidáme je do výslovnostního lexikonu problém: akustický model pro angličtinu používá sadu hlásek, která není vhodná pro češtinu známé přístupy: rozšířit sadu hlásek o specificky české hlásky, např. kombinací s českým akustickým modelem (Stemmer et al., 2001; Modipa Davel, 2010) přepsat česká slova pomocí výslovnostních pravidel pro angličtinu (Modipa Davel, 2010) přepsat českou výslovnost pomocí anglických hlásek (Wang Tong, 2014) 10 / 18

Rozpoznání českých slov přepis hlásek přepis české výslovnosti pomocí anglických hlásek nevýhoda: nelze přesně zachytit specificky české hlásky (ale ty cizinec stejně nemusí vyslovit správně) výhoda: není nutné měnit akustický model souhlásky samohlásky/dvojhlásky Czech ex. English ex. Czech ex. English ex. > ts cár t s tsunami o oko O ought > c ťapka ts cheese au auto au cow > é ďábel dz jeans eu euro æ u ñ ňadra n need ou ouško ou oat r rád ô read rfi řád Z vision r fi křáp S she 11 / 18

Rozpoznání českých slov trénovací korpus věty z anglické Wikipedie obsahující jména českých ulic a obcí 90 031 vět, 2 360 589 slov (134 625 českých) The Technical University of Liberec is a medium-sized institution. In 1946, Baron Georg Beess, the last nobleman from the Beess family to own properties in Hnojník, was expelled from the country and was deprived of his property according to the Beneš decrees affecting the Germans in Czechoslovakia. In May 1975, the 1968 Constitutional Law of Federation was further amended to allow Gustáv Husák to take over the presidency from the ailing Ludvík Svoboda. 12 / 18

Testovací mluvený korpus 1 54 předepsaných vět obsahujících jména míst v Česku, zejména v Praze How can i get from Malostranské náměstí to Anděl? I need to get to Troja, can you drive me there? What is the weather like in Pardubice? přečteno 5 mluvčími studujícími v Praze 256 nahraných vět různé národnosti (Rusko, Sýrie, Írán) různé úrovně znalosti češtiny (žádná až velmi vysoká) odstraněny nahrávky, které se neshodovaly s předlohou 1 http://hdl.handle.net/11234/1-1735, https://drive.google.com/open?id=0b_nnboxzxx0uoxzyqmlzrenustq 13 / 18

Výsledky varianty systému: adaptovaný lexikon: přidány výslovnosti českých slov adaptovaný LM: do jazykového modelu přimíchán výběr z Wikipedie v poměru 1 : 9 testovací korpusy: calls2: nahrávky uživatelů cstest: nahrávky připravených vět s českými jmény Systém % WER % poznaných jmen calls2 cstest cstest baseline 22,0 64,8 0,0 adaptovaný lexikon 21,9 61,9 6,4 adaptovaný lexikon + LM 22,9 58,2 13,5 14 / 18

Další kroky dokončení adaptace jazykového modelu prozkoumání výslovnosti českých slov nerodilými mluvčími 15 / 18

Shrnutí sestaven malý řečový korpus (nerodilí mluvčí v anglické promluvě užívají česká slova) http://hdl.handle.net/11234/1-1679 sestaven textový korpus anglických vět s českými jmény návrh přepisu českých hlásek pomocí anglických pro ASR experimenty dokládají zlepšení rozpoznávání českých slov 16 / 18

277 278 178 17 / 18

Literatura Modipa, T. Davel, M. H. Pronunciation modelling of foreign words for Sepedi ASR. 2010. Stemmer, G. Nöth, E. Niemann, H. Acoustic modeling of foreign words in a German speech recognition system. In INTERSPEECH, s. 2745 2748, 2001. Wang, L. Tong, R. Pronunciation modeling of foreign words for Mandarin ASR by considering the effect of language transfer. In INTERSPEECH, s. 1443 1447, 2014. 18 / 18