Počítačové zpracování přirozeného jazyka. Daniel Zeman

Podobné dokumenty
Korpusová lingvistika a počítačové zpracování přirozeného jazyka

NLP & strojové učení

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Automatická post-editace výstupů frázového strojového překladu (Depfix)

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová

ZÁŘÍ. Náprava - používání pomůcek: Přípravné období pro výuku čtení a psaní, odstraňování symptomů provázejících dyslexii

Všestranný jazykový rozbor (VJR)

5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte:

Český jazyk - Jazyková výchova

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jarmila Kuchařová Týdenní dotace hodin: 9 hodin Ročník: druhý

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

ČESKÝ JAZYK - 2. ROČNÍK

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.

Poř. Číslo materiálu Předmět Ročník Téma hodiny Ověřený materiál Program 1 VY_32_INOVACE_04_09 Český jazyk 1. ČJ - ověření učiva za 1.

Český jazyk a literatura

Kde hledat odborné články?

Systém pro poloautomatické propojení textů se zdroji

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Výuka IVT na 1. stupni

Předmět speciálně pedagogické péče

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Depfix: Jak dělat strojový překlad lépe než Google Translate

Předmět: Český jazyk a literatura

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Vyhledávání na portálu Knihovny.cz

ČESKÝ JAZYK 5. TŘÍDA

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Český jazyk Název Ročník Autor

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

INTERNETOVÉ VYHLEDÁVAČE

Digitální knihovny některých zemí

Kam s ní? O interpunkční čárce v souvětí Jana Svobodová

qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjkl zxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiop asdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqw

Výuka IVT na 1. stupni

Nástroj pro monitorování a analýzu českého internetu a sociálních médií

L A TEX Korektura textu

Název materiálu SLOVNÍ DRUHY PODSTATNÁ JMÉNA. Metodika. Pořadové číslo III-2-ČJ-III- 1-9.r.

Jak dělat strojový překlad lépe než Google Translate

VY_32_INOVACE_CH8SA_01_01_01. VY_32_INOVACE_CJ678JO_09_03_17 materiál č. šablony/č. sady/č. materiálu: Hana Johánková Vzdělávací oblast předmět:

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

VY_12_INOVACE_32_ZAKLAD_VETY. Časová dotace: 45 min Datum ověření:

Autor: Jan Hošek

Popis morfologických značek poziční systém

Základní škola ve Vamberku. Tematický plán učiva ČESKÝ JAZYK PRO 9. ROČNÍK. Václav Strážnický 2012/13

Jazyk a jazyková komunikace Německý jazyk

Jazyk a jazyková komunikace Český jazyk 1. období 2. ročník

Český jazyk a literatura - jazyková výchova

Školní vzdělávací program pro základní vzdělávání - VLNKA Učební osnovy / Jazyk a jazyková komunikace / RJ

Český jazyk a literatura

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Český jazyk v 5. ročníku

Přehled vzdělávacích materiálů

ZŠ ÚnO, Bratří Čapků 1332

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

SADA VY_32_INOVACE_CJ1

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Gramatické rozbory češtiny Výklad a cvičení s řešeními. Robert Adam a kol. Recenzovaly: PhDr. Jasňa Pacovská, CSc. PhDr. Jana Bílková, Ph.D.

SYNTAX LS Úvod

Příloha č. 13 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Zvyšování kvality výuky technických oborů

ČESKÝ JAZYK A LITERATURA 5. ROČNÍK

Olympiáda v českém jazyce 44. ročník, 2017/2018

SPECIÁLNĚ PEDAGOGICKÁ PÉČE. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Petr Nevrlý

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Český jazyk Ročník: 6. Průřezová témata Mezipředmětové vztahy.

Český jazyk 1.ročník str. učivo - témata jazyková výchova slohová výchova literární výchova

Registrační číslo projektu: Škola adresa:

Jazyk a jazyková komunikace 1. ročník a kvinta

Zvyšování kvality výuky technických oborů

Zahraniční zdroje šedé literatury 3. PhDr. Martina Machátová Moravská zemská knihovna v Brně Tel.:

Učební osnovy vyučovacího předmětu český jazyk a literatura se doplňují: 2. stupeň Ročník: šestý. Tematické okruhy průřezového tématu

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

Očekávané výstupy podle RVP ZV Učivo Přesahy a vazby. JAZYKOVÁ VÝCHOVA hláska, písmeno, slabika, slovo slovní přízvuk určování počtu slabik

Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Dataprojektor, jazykové příručky, pracovní listy

Vzdělávací obor Německý jazyk

Microsoft Office. Excel vyhledávací funkce

Školní vzdělávací program pro základní vzdělávání - VLNKA Učební osnovy / Jazyk a jazyková komunikace / RJ

NLP zpracování přirozeného jazyka

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

VY_32_INOVACE_IKTO2_0460 PCH

Umělá inteligence pro zpracování obrazu a zvuku

Český jazyk a literatura Prostě-sdělovací funkční styl

Olympiáda v českém jazyce 45. ročník, 2018/2019

model arabské morfologie Otakar Smrž

Aktivizace poznatků z 1. ročníku. Psací písmo opis, přepis. Věta, slovo, slabika. Pravopis věty. Jazyková výchova Věta. Věta, pořádek slov ve větě

Tematický plán Český jazyk pro 4. ročník

Vzdělávací obsah vyučovacího předmětu

Transkript:

Počítačové zpracování přirozeného jazyka Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ zeman@ufal.mff.cuni.cz

Předpoklady Žádné (téměř) Pouze: Základní znalost programování v některém programovacím jazyku Středoškolské znalosti mluvnice (ne nutně české) Pasivní znalost angličtiny výhodou 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 2

Zápočet Zápočet za domácí úkoly (Perl, Python, Java ; práce s cizími nástroji pro NLP) Dva možné modely: 1. Jeden větší úkol pro jednotlivce na semestr. Krátká prezentace před ostatními v prosinci. 2. Několik drobnějších úkolů v průběhu semestru. Součást společného projektu? 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 3

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza). 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 4

Vyhledání slova ve všech tvarech Lze nechat vyhledat jen část slova, ale: - Internetové vyhledávače mají v indexu slova, ne jejich části. - Ovšem mnohé z nich už morfologii zvládají (Google). - Povolíme-li hledání částí, dostaneme i texty, které nás nezajímají: hledáme hodit, zadáme hod, dostaneme nejen hodit, hodím, hodil, nejen hod, hody, hodování, nejen přehodit, náhoda, přehodnotit, ale dokonce i chodit nebo schody. - Navíc nedostaneme hoď, hoďme, hoďte to bychom museli hledat jenom ho, a to by bylo vůbec katastrofální. Zadat dotazy pro každý tvar zvlášť nejde, jsou jich desítky až stovky. - Některá slova mění i kmen (stůl stolu; brát beru bral). 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 5

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza). Kontrola pravopisu (spell checking). Inteligentní pro češtinu: např. kontrola tvrdého a měkkého i v příčestí minulém. Kontrola gramatiky (grammar checking) a stylu. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 6

Kontrola pravopisu - Prohledávání slovníku je jednoduché, jediná lingvistika je ten slovník. - Problém je rozumně vybrat podobná slova, která nabídneme jako náhradu. Jak měřit podobnost slov? Odhadnout podle kontextu, které z nich uživatel myslel? Gramatika může na daném místě požadovat sloveso, význam ostatních slov zase může napovědět, které sloveso je nejpravděpodobnější. - V češtině je prohledávání slovníku málo účinné, existuje řada koncovek, ale jen některé jsou možné v dané větě, chyby v tvrdém a měkkém i. Viz též kontrolu gramatiky. - Co zatím chybí: přepínač stylu (rozhodnu-li se pro koncovky typu ej, je to jiná varianta jazyka a mělo by být vyžadováno držení jedné linie). - Zákaz dvou stejných slov za sebou: obecně ano, ale jsou výjimky, které by mohla rozpoznat kontrola gramatiky: Nesnese se se sestrou, snědl jí tu tu buchtu a teď jí jí její koláč. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 7

Kontrola gramatiky a stylu - Ideální stav: kompletní syntaktická analýza vztahů ve větě. To je ale těžké. - Současná kontrola gramatiky v angličtině ve Wordu v sobě má i kontrolu stylu (bouří se proti dlouhým větám apod.) - Univerzální úkoly: velké písmeno na začátku věty, zakázat dvě mezery za sebou apod. - Úkoly v češtině: shoda podmětu s přísudkem (tvrdé a měkké i), shoda přívlastků s rozvíjenými podstatnými jmény, čárky kolem vnořených klauzí, interpunkce v uvozovkách. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 8

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza). Kontrola pravopisu (spell checking). Inteligentní pro češtinu: např. kontrola tvrdého a měkkého i v příčestí minulém. Kontrola gramatiky (grammar checking) a stylu. Háčkování: vrátit diakritiku do textu, ze kterého byla odstraněna. Obdobný úkol: doplnit samohlásky do arabského nebo hebrejského textu. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 9

Háčkování - Háčkování a doplňování samohlásek, doplňování hranic slov (Asie) - Pouhé hledání ve slovníku nestačí, jak ukazují následující příklady: horka cokolada (horká / hořká), mala (malá / mála), udelana (udělána / udělaná), uspi (uspi / uspí), mami (mami / mámí), zadejte uhel (zadejte úhel / žádejte uhel), cesky (česky / český / Češky / čéšky), rad (rad / raď / rád / řad / řaď / řád) - Stejné problémy mají v řadě dalších jazyků, někde dokonce občas znaménka vynechávají, aniž by je k tomu tlačila neschopnost techniky (francouzština, rumunština). 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 10

Problémy podobné háčkování Rozlišování malých a velkých písmen Ve statistickém strojovém překladu bývá výhodné převést vstupní text na malá písmena. Pak je ale nutné na výstupu odhadnout, kam patří velké písmeno. T9 v mobilech Např. 852536 může znamenat tlakem, vlakem, vláken, vlčkem. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 11

Doplňování krátkých samohlásek v arabštině a hebrejštině - Krátké samohlásky v semitských jazycích jsou podobný problém jako naše háčkování. - V dialektech se navíc samohlásky (ale i souhlásky) liší, přestože zápis arabským písmem je jen ten jeden! - ة - HWHhQ HTh LTh YL BYJ - jyb ly vlavp qhwp (Buckwalterův přepis) - Jīb lī thlīthah qaħwah. (spisovná arabština) - žib lí tléta dil qahwa (mar) - žib lí thlétha qahwa (tun) - gib lí taláta ahwa (egy) - žib lí tléte ahwe (syr) - džib lí theláthe gahwe (irq) - přineste mi tři kávy (čsk) 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 12

Arabské samohlásky: nejednoznačnosti - Nejednoznačnosti: nejen v dialektech, ale i v mluvnici. (kniha) = kitáb ب - - = katab (psát), kutub (knihy) - = katabt (napsal jsem, napsala jsem, napsal jsi), katabti (napsala jsi), katabit (napsala) - Arabština umí zapisovat samohlásky pomocí diakritiky, ale Arabové to nedělají, vyskytuje se snad pouze v Koránu. - Zapisují se dlouhé samohlásky (Á =, Í = Y, Ú = W), proto cizí slova mívají všechny samohlásky dlouhé, aby Arab poznal, jak se vyslovují (Československo = Tšíkúslúfákijá). - Totéž platí pro hebrejštinu: v tóře bývají samohlásky zapsány, aby židé roztroušení po světě a hovořící jinými jazyky nezapomněli výslovnost, ale po Izraeli nic takového nenajdeme. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 13

Segmentace - Doplňování hranic slov (asijské jazyky, zejména čínština). I to je trochu analogie k doplňování samohlásek či diakritiky. - Číňané nemají pojem slova, ale pro počítačové zpracování jazyka se tento pojem hodí. Znak (slabika) není vždy ideální ekvivalent. - 这个多少钱? - zhè ge duō shǎo qián? (če ke tuo šao čchien?) - tenhle kus mnoho málo peníze? - Zhège duōshǎo qián? - Tohle kolik peněz?... Kolik to stojí? 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 14

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza). Kontrola pravopisu (spell checking). Inteligentní pro češtinu: např. kontrola tvrdého a měkkého i v příčestí minulém. Kontrola gramatiky (grammar checking) a stylu. Háčkování: vrátit diakritiku do textu, ze kterého byla odstraněna. Obdobný úkol: doplnit samohlásky do arabského nebo hebrejského textu. Rozpoznávání naskenovaného písma (optical character recognition, OCR). Rozpoznávání řeči (speech recognition). Diktát se vrací ve smartphonech. Vyhledávání v nahrávkách (speech Google?) Strojový překlad z jednoho (přirozeného) jazyka do druhého. Generování textů (např. manuálů) v různých jazycích. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 15

Přehled aplikací a problémů počítačové lingvistiky 2 Rozpoznat (převažující) jazyk, ve kterém je určitý dokument. Nalézt relevantní dokumenty v textové databázi (Google!). Nebo třeba: rozpoznat spam v mailu. Vytáhnout informace ze zpráv nebo článků s jistým tématem (např. všechny obchody s akciemi v daný den) Sumarizace textů (např. vytvořit třístránkové shrnutí tisícistránkového dokumentu). Dotazy na databázi v přirozeném jazyce (např. rezervace letenek). Automatická komunikace se zákazníkem po telefonu: 800 899 998. Hlasové řízení stroje. Generování řeči strojem. Výukové systémy interagující se studentem, obecné systémy pro řešení konkrétních problémů. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 16

Dílčí problémy Tokenizace (hranice slov a vět) Morfologická analýza (slovník + ohýbání) Zjednoznačňování, značkování (tagging), lemmatizace Rozlišení významu slov (word sense disambiguation) Zařazení slov do tříd podle použití (clustering) Synchronizace různojazyčných verzí téhož, párování vět a odst. Syntaktická analýza (parsing). Hledání základních jmenných frází (base noun phrase chunking) Zavěšování předložkových frází (prepositional phrase (PP) attachment) Slovesné rámce Hloubková analýza Základ a ohnisko (topic and focus), hloubkový slovosled. Doplnění chybějících členů Koreference Analýza diskurzu, anafora. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 17

Předložkové skupiny Přišel ten pán se sousedem odnaproti. Přišel. Přišel. Přišel. pán se odnaproti pán odnaproti pán ten sousedem ten se ten se Přišel. sousedem sousedem pán se odnaproti ten sousedem 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 18 odnaproti

Předložkové skupiny Anglický příklad: I saw the man with a telescope. 1. Viděl jsem ho dalekohledem. 2. Viděl jsem ho s dalekohledem. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 19

Předložkové skupiny V období, kdy prudce poklesl zájem na domácím trhu, dokázala továrna část výroby exportovat. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 20

Předložkové skupiny a syntaktické nejednoznačnosti V letech 1991 1993 jsem absolvovala kurzy řízení a marketingu na Collège Bart v kanadském Québecu. absolvovala na Collège Bart kurzy na Collège Bart řízení a marketingu na Collège Bart marketingu na Collège Bart Collège Bart v Québecu marketingu v Québecu... 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 21

Předložkové skupiny a syntaktické nejednoznačnosti říjnové jednání OSN o klimatických změnách v Kodani (Události ČT, 27.2.2009) Otázka: Došlo ke klimatickým změnám v Kodani? 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 22

Webové služby: Majka http://nlp.fi.muni.cz/projekty/wwwajka/ww wajkaskripty/morph.cgi?jazyk=0 Český morfologický analyzátor Masarykovy univerzity v Brně 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 23

Hajičova morfologie https://lindat.mff.cuni.cz/services/morph/ind ex.html Český morfologický analyzátor + tagger na MFF UK v Praze 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 24

Morfo: generátor tvarů http://quest.ms.mff.cuni.cz/cgibin/zeman/morfo/index.pl Opačné rozhraní k morfologickému slovníku: zadejte lemma (základní tvar slova) a nechte si vygenerovat všechny tvary. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 25

Literatura James Allen: Natural Language Understanding. Benjamin/Cummings 1994, ISBN 0-8053-0334-0 Adolf Erhart: Základy jazykovědy. Státní pedagogické nakladatelství; Praha, 1990 Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. The MIT Press 1999, ISBN 0-26213-360-1 Mé prezentace a další odkazy na webu. 7.10.1999 http://ufal.mff.cuni.cz/course/popj1 26