Jazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha



Podobné dokumenty
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Strukturovaný životopis

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

CSCI 599 MACHINE TRANSLATION

NLP & strojové učení

On the Structure of Constituent Negation in Czech

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Indexace audiovizuálních archivů s využitím metod automatického rozpoznávání řeči a obrazu

Životopis Duben 2008

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Anglický jazyk. Souslednost časů. Anglický jazyk. Vytvořil: Eva Burianová. Souslednost. DUM číslo: 9. Souslednost časů.

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK

Faktorované překladové modely. Základní informace

Automatická post-editace výstupů frázového strojového překladu (Depfix)

PSANÍ. I am looking 4 to seeing you and please let me know if you are going to come.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

ve strojovém překladu

EU peníze středním školám digitální učební materiál

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

POSLECH. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t :

Rekonstrukce standardizovaného textu z mluvené řeči

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

POSLECH. Kate and Jim are friends. It's Thursday afternoon and they are talking about their free time activities.

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

NLP zpracování přirozeného jazyka

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Depfix: Jak dělat strojový překlad lépe než Google Translate

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Common Language Resources and Their Applications

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation

Předmět:: Anglický jazyk

The Czech education system, school

Umělá inteligence pro zpracování obrazu a zvuku

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Primární modální slovesa CAN COULD (modál) I could play the piano. You could play the piano. He/She could play the piano. We could play the piano.

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

vydáno 1. června 2015 Součásti SZZK podle výběru studenta se koná na jednom, nebo na druhém oboru

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

IA161 Pokročilé techniky zpracování přirozeného jazyka

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : My family, my hobbies Present simple and continuous, Wh- questions

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. Test

Going to aneb Pl anuji, ˇ ze seknu s pl anov an ım. Luk aˇs R uˇ ziˇ cka 2013 Luk aˇ s R uˇ ziˇ cka Going to

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

Obsah: Organizace předmětu IB030. Situace na FI MU

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Náhradník Náhradník 5.A

VY_22_INOVACE_CJ_III/2.21

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová


Mzdy na ÚFALu

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Zachycení (nejen) koordinací v závislostních stromech

11/ Podmínkové věty. ( 1st Conditional) VY_32_INOVACE_AJ_UMA11,Podmínkové věty (1st Conditional).notebook. January 28, 2014

Malach: zpracování audiovizuálního archívu svědectví přeživších holocaustu

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

PSANÍ. My room is a mess. Anglický jazyk. Hana Vavřenová

Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny

20/ Řeč přímá a nepřímá

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

kolektiv Anglictina.com Angličtina pro samouky

Hodnocení výukového programu tlumočnictví znakového jazyka na HiOA. Metodika připravovaného výukového programu tlumočnictví znakového jazyka na MU

Compression of a Dictionary

Social Media a firemní komunikace

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

VY_12_INOVACE_ / Vyprávíme a překládáme příběh

Archiv vizuální historie Institutu USC Shoah Foundation a možnosti jeho využití

Střední škola obchodní, České Budějovice, Husova 9, VY_INOVACE_ANJ_741. Škola: Střední škola obchodní, České Budějovice, Husova 9

Chit Chat 2 - Unit 7. Lekce: STRANA KNIHOVNA. Cvičení: SLOVÍČKA naučit. Cvičení: SLOVÍČKA rozumět

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

WELCOME TO THE CZECH REPUBLIC, SUMMER JOB

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Chit Chat 2 - Lekce 1

Revision P4 U8 VY_32_INOVACE_79

Info schůzka. 16-Jan-16 Open Day - Dept. of English 1

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Transkript:

Jazyky a počítač: překážky a možnosti Eva Hajičová MFF UK Praha

Historický pohled 1947: Warren Weaver, dekódování 1949: memorandum Translation 1952: první konference o SP, USA 1954: Georgetown Univ., R A, 250 slov, Paul Garvin 1955: začátek výzkumu SP v Evropě i v Rusku

Warren Weaver v dopise Norbertovi Wienerovi: When I look at an article in Russian I say: This is really written in English but it has been coded in some strange symbols. I will now proceed to decode it. Březen 1947

Historický pohled 1949: memorandum Translation 1947: Warren Weaver, dekódování 1952: první konference o SP, USA 1954: Georgetown Univ., R A, 250 slov, Paul Garvin 1955: začátek výzkumu SP v Evropě i v Rusku

Historický pohled (pokr.) 1957: Noam Chomsky: Syntactic Structures 1959: vznik O(AL)TSP na FF UK, Praha 1960: A Č, SAPO 1960: Yoshua Bar-Hillel: FAHQMT not possible 1963: Funkční generativní popis (Petr Sgall) 1965: ALPAC Report 1976: METEO, Montréal

SAPO přeložil první českou větu 1957: SAPO, A. Svoboda, VÚMS 1960: The consonants have not by far been investigated to the same extent as the vowels. Souhlásky zdaleka nebyly prozkoumány do stejné míry jako samohlásky.

Historický pohled (pokr.) 1957: Noam Chomsky, Syntactic Structures 1959: vznik O(AL)TSP na FF UK, Praha 1960: A Č, SAPO 1960: Yoshua Bar-Hillel: FAHQMT not possible 1963: Funkční generativní popis (Petr Sgall) 1965: ALPAC Report 1976: METEO, Montréal

Černá kniha 1965: Automatic Language Processing Advisory Committee Doporučení: Nesledovat utilitární přístup, ale soustředit se na vědecké otázky (computational linguistics), které mohou dát dobrý podklad pro budoucí engineering enterprises (např. SP)

Historický pohled (pokr.) 1957: Noam Chomsky, Syntactic Structures 1959: vznik O(AL)TSP na FF UK, Praha 1960: A Č, SAPO 1960: Yoshua Bar-Hillel: FAHQMT not possible 1963: Funkční generativní popis (Petr Sgall) 1965: ALPAC Report 1976: METEO, Montréal

Počítačové zpracování PJ význam analýza syntéza vstup výstup

Zpracování mluvené řeči 1969: izolované rozpoznávání slov porovnávání vzorových obrazů 1975: souvislá řeč, statistické metody - IBM Tangora, Sphinx 1995: úspěšné komerční aplikace Dragon Naturally Speaking, technologie pro ViaVoice Po roce 2000: TU Liberec, ZČU Plzeň

Souvislá mluvená řeč a statistické metody Jelinek F., Bahl L.R., Mercer R.L.: Design of a Linguistic Statistical Decoder for the Recognition of Continuous Speech by Statistical Methods, IEEE Transactions 1975 Baker J.K.: The DRAGON System An Overview. IEEE Transactions, 1975 Jelinek F.: Continuous Speech Recognition by Statistical Methods, Proc. of IEEE, 1976

Zpracování mluvené řeči 1969: izolované rozpoznávání slov porovnávání vzorových obrazů 1975: souvislá řeč, statistické metody - IBM Tangora, Sphinx Po roce 2000: TU Liberec, ZČU Plzeň 1995: úspěšné komerční aplikace Dragon Naturally Speaking, technologie pro ViaVoice

Potřebujeme lingvistiku? Whenever I fire a linguist our system performance improves Fred Jelinek, 1988 Some of my best friends are linguists Fred Jelinek, Zampolli Award speech, 2004

Co je počítačová lingvistika? Martin Kay, schůzka v Rand Corporation 1965: Computational linguistics Mechanolinguistics Automatic language data processing Natural language processing

Co je počítačová lingvistika? (2) Computational linguistics is trying to do what linguists do in a computational manner, not trying to process text, by whatever methods, for practical purposes Martin Kay, 2006 Ale vědní obory ( komputační ) mají své aplikace good engineering requires good science

Lingvistické aspekty počítačové lingvistiky Formální popis přirozeného jazyka Strukturní lingvistika nabízí dva modely: Frázový (americký deskriptivismus) N. Chomsky, generativní (transformační) gramatika Závislostní ( kontinentální ) v Evropě už od 1836, Becker, Tesnière (PLK) Funkční generativní popis (P. Sgall)

Porovnání základních syntaktických koncepcí Dnes zasedá Valné shromáždění Učené společnosti celý den. <Dnes {zasedá [(Valné shromáždění) (Učené společnosti)] (celý den)}>

Závislostní struktura věty zasedá dnes shromáždění den Valné společnosti celý Učené

Závislostní struktura věty vrcholový strom podmínka projektivity

Pražská škola: funkční pohled Aktuální členění věty je relevantní pro význam věty: Česky se mluví na Moravě. Na Moravě se mluví česky. O víkendech pracuji na své dizertaci. Na své dizertaci pracuji o víkendech. Dobrá zpráva: Češi udělali revoluci. Špatná zpráva: Revoluci udělali Češi.

Hloubková (podkladová) struktura věty Podobnosti mezi jazyky v hloubkové stavbě nápadnější i důležitější než jejich odlišnosti studium hloubkové struktury N. Chomsky: language acquisition Principy vrozené, parametry nastavené podle okolí

Jádro a periferie Jádro: projektivní strom s jedním vrcholem Predikát a jeho argumenty Blízko k lineárnímu řetězu Struktura pro člověka zřejmě přirozená

Jádro a periférie (2) Periférie složitá, velká oblast Jednotlivé vrstvy periférie např. od různých vzorů ve skloňování apod. až po jednotlivé výjimky jít, jdu, šel víceslovná pojmenování (vysoká škola) slovosledné varianty i porušení projektivity v povrchové podobě věty

Víceznačnost jazyka (a) homonymie (jeden výrazový prostředek odpovídá více významům, funkcím) (b) vágnost (jeden význam, ale vágní) (a) Nemocnice obviňuje ministerstvo z toho, že (b) Teď se už můžeme radovat. (v tomto okamžiku?, v naší době?)

Příklady homonymie Nemocnice obviňuje ministerstvo, že (i) nedostala včas příslušné finance. (ii) čerpají prostředky nehospodárně. kdo koho obviňuje? Pravopis: Slepice honily holuby. Slepice honili holubi. kdo koho honil?

Příklady homonymie komentoval spisovatel Arnošt Lustig skutečnost, že mu Karel Gott odmítl schválit text už hotového knižního rozhovoru a navrhl, aby celou knihu napsali od začátku. komentoval spisovatel Arnošt Lustig skutečnost, že mu Karel Gott odmítl schválit text už hotového knižního rozhovoru, a navrhl, aby celou knihu napsali od začátku.

Víceznačnost v mluvené řeči

Víceznačnost v mluvené řeči Student: I didn t sleep all week, but I finished the paper for that conference in Italy Prof. Smith: HUH??? What conference? Student: UM I-I thought you said if I finished these texts early you would pay for fees, passage and room in Pisa for the meeting Prof. Smith: Uh, no I said I d pay for a cheese, sausage and mushroom pizza for eating.

Možnosti Velké naděje na počátku (tisk!) 2001: Vesmírná Odysea, HAL: I m sorry, Dave, I m afraid I can t do that. Vědci, lingvisté rezervovaní Hledání metod: metody založené na pravidlech nevedly rychle k cíli statistické metody

Statistické metody jako východisko Warren Weaver v Memorandu 1949: ruský text vidí jako zakódovaný anglický text, překlad jako vyluštění kódu Claude Shannon (1948) engineering perspective : kritickou charakteristikou sdělení je pravděpodobnost, s jakou je sdělení vybráno z různých množin alternativ, nikoliv vlastní obsah sdělení

Aplikace v automatickém rozpoznávání souvislé řeči Najít posloupnost slov w 1,n, která maximalizuje součin P(a w 1,n ). P(w 1,n ) P(a w 1,n ) = pravděpodobnost toho, že akustický signál je a, jestliže tou posloupností je w 1,n (akustický model) P(w 1,n ) = pravděpodobnost posloupnosti w 1,n (jazykový model)

Pro a proti: Saffran et al., Science 1996: osmiměsíční dítě je schopno naučit se rozčleňovat plynulý tok řeči na slovní segmenty ACL 1990: 39 přednášek o parsingu, z toho 1 statistický ACL 2003: 62 ku 48 Problém nedostatečných dat (sparse data) Zkušenost lingvistů: přirozený jazyk je komplexní systém a realizace v textech nedává postačující informaci, abychom textům rozuměli

Názorový vývoj: Od bigramů a trigramů ke struktuře věty, dokonce i k hloubkové struktuře Lingvistická intuice spojená se schopností extrahovat informaci z textů určí strukturu modelů a jejich parametrizaci Spolehnutí na radu lingvistů při vytváření jazykových zdrojů

Vytváření jazykových korpusů 1967: Brown Corpus, Henry Kučera 1970: Lancaster-Oslo-Bergen Corpus 1982: morfologické značkování (Lancaster) 1983-1986: treebank (syntaktické struktury), Lancaster 1992: UPenn treebank 1991-95: British National Corpus

Vytváření korpusu češtiny Od 2. pol. 80. let: Počítačový fond češtiny 1994: založen Ústav Českého národního korpusu (FF UK, Fr. Čermák) 1997: projekt Prague Dependency Treebank 2000: zveřejněn SYN2000 (100 mil.slov) Dnes: k dispozici PDT 2.0 (3 úrovně, 3 168 dokumentů, 49 442 vět, 833 357 (výskytů) slov) v bance ČNK k dispozici texty o 300 mil. slov Pražský mluvený korpus, Brněnský mluvený korpus aj.

Příklad na závěr: Multilingual Access to Large Spoken Archives (MALACH) od r. 2000 Řešitelé projektu: IBM Thomas J. Watson Research Center University of Maryland Johns Hopkins University, Baltimore, USA Karlova univerzita v Praze (ÚFAL MFF UK) Západočeská univerzita v Plzni

Základ projektu: Shoa Visual History Foundation (dnes: Univ. of South California Shoa Foundation Institute for Visual History) Kulturní dědictví, Steven Spielberg 116.000 hodin digitalizovaných interviews 32 jazyků 52.000 mluvčích (přeživších, zachránců, svědků) Česko 566, Slovensko 656, USA 19.841, Israel 8.504, Ukrajina 3.433, Polsko 1.438,

Cíl projektu: (a) automatické rozpoznávání řeči (b) počítačem podporovaný překlad (tezaurus) (c) prostředky pro zpracování přirozeného jazyka k automatické tvorbě metadat (d) podpora pro účinnou katalogizaci (e) podpora pro vyhledávání a využití informace

Dobrý příklad spojení vědeckého výzkumu s konkrétními úkoly! Doklad, že V. Jamek (Vesmír, únor 2006) nemá pravdu, když píše, že: názorovou absencí, alibismem a hodnotovou rozbředlostí se vyznačují vědy, které mají člověka a společnost přímo v popis práce, obory společenské a humanitní. Lingvistika (nejen počítačová) si je vědoma své odpovědnosti za budoucnost země a lidstva