Jak lze v korpusech hledat doklady pro výzkum morfologie?

Podobné dokumenty
Popis morfologických značek poziční systém

Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0).

Workshop o paralelním korpusu InterCorp

Dotazy v CQL (pro Sketch Engine)

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

1 Substantiva. 2 Adjektiva. Obsah. Lekce Obsah Cvičení

VY_12_INOVACE_26_MLUVNICKE_KATEGORIE_PODSTATNYCH_ JMEN. Předmět: Český jazyk Ročník: 4. Časová dotace: 45 min Datum ověření:

Morfologie odborných textů

DUM č. 5 v sadě. 34. Inf-10 Praktická typografie s LO Writer/MS Word

Dotazy tvorba nových polí (vypočítané pole)

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Student: NEJČASTĚJŠÍ CHYBY A JAK SE JIM VYHNOUT Uvozovky a palce

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Didaktický test Na co se mě vlastně ptají?

Úvod do logiky (VL): 7. Ekvivalentní transformace

diferencované - nelze volně zaměnit (přijel na jaře/ hovořili jsme o posledním vlhkém jaru)

PODSTATNÁ JMÉNA (SUBSTANTIVA) - PÁD

Predikátová logika Individua a termy Predikáty

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

Každé formuli výrokového počtu přiřadíme hodnotu 0, půjde-li o formuli nepravdivou, a hodnotu 1, půjde-li. α neplatí. β je nutná podmínka pro α

IMPORT DAT DO DATABÁZE

Slovníky a morfologická analýza

Co je HTML. 1. Párový tag má začátek a konec: 2. Nepárový tag nemá ukončovací značku:

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

VY_12_INOVACE_29_TEMER_VSE_O_PODSTATNYCH_JMENECH_ NA_1_ST_ZS. Téměř vše o podstatných jménech na 1. stupni ZŠ. Předmět: Český jazyk Ročník: 4.

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Řazení tabulky, dotazu nebo formuláře

Kolísání rodu substantiv

Čtvrtek 3. listopadu. Makra v Excelu. Obecná definice makra: Spouštění makra: Druhy maker, způsoby tvorby a jejich ukládání

HELP Rešerše průmyslových vzorů

Operátory. Základy programování 1 Martin Kauer (Tomáš Kühr)

text, hladká sazba, typografická pravidla

JEDNODUCHÉ LINEÁRNÍ A KVADRATICKÉ FUNKCE V GEOGEBŘE

1. lekce. do souboru main.c uložíme následující kód a pomocí F9 ho zkompilujeme a spustíme:

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

Jak vyhledávat. Vyhledávače KAPITOLA 3

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Nápověda k pokročilému vyhledávání

INFORMATIKA WORD 2007

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

1.4.6 Negace složených výroků I

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

Informatika 8. třída/6

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

L A TEX Korektura textu

Algoritmizace a programování

ZÁKLADY POŘIZOVÁNÍ TEXTU

Práce se styly 1. Styl

Základy XML struktura dokumentu (včetně testových otázek)

Formulace dotazu. Práce s online katalogy a bázemi dat v knihovnách

1. lekce. do souboru main.c uložíme následující kód a pomocí F9 ho zkompilujeme a spustíme:

Gabriela Janská. Středočeský vzdělávací institut akademie J. A. Komenského

Jednofaktorová analýza rozptylu

Automatické rozpoznávání substantivního dativu při morfologické disambiguaci českých textů 1

GENEALOGIE v praxi. 5. přednáška Archivy, digitalizace archiválií

Sada 2 Microsoft Word 2007

Microsoft Word základní úpravy textu

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Struktura seminární práce

Výrazy a operátory. Operátory Unární - unární a unární + Např.: a +b

1. Manuál ke Sketch Engine

Úvod do filtrace, Quick filtr

POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

Hromadná korespondence

Absolutní hodnota I. π = π. Předpoklady: = 0 S nezápornými čísly absolutní hodnota nic nedělá.

Úvod do logiky (VL): 11. Ověřování, zda je formule tautologií metodou protipříkladu

Příručka uživatele systému Museion. Quick filtr


PSANÍ ODBORNÉHO TEXTU (např. SOČ, seminární práce)

Výroková a predikátová logika - II

ROČNÍKOVÁ PRÁCE Z název předmětu. Název práce

Operátory. Základy programování 1 Tomáš Kühr

Oddělení autora


Použití filtrů v Museionu


MODAM Popis okna. 2 Jana Bělohlávková, Katedra matematiky a deskriptivní geometrie, VŠB - TU Ostrava

Registrační číslo projektu: Škola adresa: Šablona: Ověření ve výuce Pořadové číslo hodiny: Třída: Předmět: Název: MS Excel I Anotace:

Analýza staročeské morfologie v Excelu

PŘEDMĚT: PEK. 2.část. (opakování ke státní zkoušce) TÉMA: TVORBA OBCHODNÍHO DOPISU. Zpracováno: prezentace powerpoint Ing. Hana Augustinová 2012

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

8 Makra Příklad 4 Excel 2007

Booleovská algebra. Booleovské binární a unární funkce. Základní zákony.

Učební plán (sylabus) pro intenzivní kurz úroveň B1 středně pokročilí 1 (60 vyučovacích jednotek)

II. Elektronická pošta

Regulární výrazy. jemný úvod. Miloslav Brada

KAPITOLA 4 ZPRACOVÁNÍ TEXTU

Morfologie. Gramatika gramatické tvary a konstrukce a jejich sémantické funkce - obecný úvod

Příručka uživatele systému Museion. Fulltext

( ) ( ) Negace složených výroků II. Předpoklady:

PŘEDMĚT: PEK TÉMA: TVORBA TABULEK U SZ. Zpracováno: prezentace powerpoint Ing. Hana Augustinová 2012

Normalizovaná úprava písemností v MS Word

Protokol č. 8. Stanovení zásoby relaskopickou metodou

bin arn ı vyhled av an ı a bst Karel Hor ak, Petr Ryˇsav y 23. bˇrezna 2016 Katedra poˇ c ıtaˇ c u, FEL, ˇ CVUT

deklinace Pád Deklinační systém pozdní psl. si lze představit následovně: zájmenná složená

ODRÁŽKY A ČÍSLOVÁNÍ. Odrážky

Základní principy vyhledávání firem

for (i = 0, j = 5; i < 10; i++) { // tělo cyklu }

Transkript:

Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy Jak? (můžete použít funkci vložit tag). Seznam lc (slovní tvary bez ohledu na velikost písma)

Copak jsou v češtině vokativy jenom u substantiv, která nemají homonymní tvary vokativu?

Je desambiguace spolehlivá? Ne tak docela. Jak můžeme obejít chyby v desambiguaci? Shrňme pozorování: Seznam obsahoval převážně tvary vokativu, které v češtině nejsou homonymní s jinými pádovými formami. Které to jsou? Vokativ některých substantiv vzorů pán, hrad, muž a všech substantiv vzorů předseda a žena v sg. Všechna ostatní substantiva mají v češtině vokativ homonymní s nominativem (v plurálu). V sg. se homonymie liší u jednotlivých vzorů.

Pokusme se najít chyby v desambiguaci u tvarů vokativu substantiv maskulin životných. Vzor pán: má vokativ na e (není homonymní) a vokativ na u, který se vyskytuje zpravidla u lemmat končících na veláru [kgh] s výjimkou substantiv Bůh, člověk a u substantiva syn. Tvar na u je ovšem homonymní, vyskytuje se totiž nejen ve vokativu, ale může stát také v lokále a dativu sg. Vyhledejme v korpusu tvary vlku, zobrazme lemma a tag a podívejme se na chyby v desambiguaci Úkol: Vyhledejte v korpusu SYN2010 všechny tvary končící na u maskulin životných, jejichž lemma končí na k, g, h, ch.

Budeme používat jazyk cql (Corpus Querry Language). Budeme používat zadání pomocí regulárních výrazů a logických operátorů pro konjunkci. [tag="n.m.*" & lc=".*u" & lemma=".*[kgh]"] Dotaz na každou pozici je v jazyce cql v hranatých [] závorkách. Můžeme se ptát na lemma, tag, word, lc, pos, tedy na základní tvar, gramatické vlastnosti kódované ve značce/tagu, slovní tvar, slovní tvar bez ohledu na to, jakými písmeny je napsán a na slovní druh (1. pozici ve značce pos PART OF SPEECH). Do hranatých závorek napíšeme typ dotazu, tj. na jaký typ se ptáme, bez mezery následuje znak = a v úvozovkách "" je slovní tvar/základní tvar/značka atd., na který/kterou se ptáme. Pokud chceme kombinovat v rámci jednoho dotazu více podmínek, můžeme je spojit znaky pro logické operace (např. konjunkce, disjunkce, negace). Uvnitř dotazu můžeme také pracovat s disjunkcemi. Nyní slovně popíšu výše uvedený dotaz: [tag="n.m.*" & lc=".*u" & lemma=".*[kgh]"] vyhledej všechna substantiva maskulina : tag="n.m.*" pro něž platí: & že tvary bez ohledu na velikost písma končí na u: lc=".*u" a pro něž platí: & že základní tvar končí na k, nebo na g, nebo na h (tím zahrneme i případy, kdy končí na ch): lemma=".*[kgh]" ([kgh] je v jazyce cql za disjunkce jednotlivých znaků/písmen)

Sledujeme chyby v desambiguaci Dotaz vylepšíme, abychom nevyhledali tvary Bohu, bohu, člověku, které nemohou být vokativy. Jak? Použijeme operátor negace a do dotazu zahrneme podmínku, že nechceme tvary lemmat bůh a člověk. [tag="n.m.*" & lc=".*u" & lemma=".*[kgh]" & lemma!="(bůh) (člověk)"]

Všimněme si, kde se nacházejí chyby. Pokuste se formulovat nějakou vlastnost, jíž se liší (morfosyntakticky) tvar vokativu od tvaru dativu a lokálu. Např.: před tvarem lokálu/dativu je jméno ve stejném pádě, nebo předložka pojící se se stejným pádem. Nebo: Tvary vokativu bývají v češtině odděleny čárkou nebo koncovou interpunkcí. Nebo: před tvarem vokativu se bezprostředně nachází jiný tvar ve vokativu (pane poručíku, můj miláčku). Nebo: Před tvarem vokativu stojí osobní zájmeno ty (ty hlupáku). Na základě takovýchto vlastností můžeme odfiltrovat řádky, které s velkou mírou pravděpodobnosti budou obsahovat tvary se správnou značkou. Z následujícího seznamu lemmat vybereme řádky, na nichž je tvar miláčku.

Všimněme si, jak vypadá okolí chybně označkovaných tvarů. Tvary vokativu bývají v češtině odděleny čárkou, nebo koncovou interpunkcí.

Jak odstraníme řádky, na nichž budou v pozici KWIC tvary oddělené interpunkcí (<, miláčku, > nebo <, miláčku.> nebo <. Miláčku,> )? Použijeme pozitivní filtr a zadáme, že chceme vyhledat v intervalu -1,1 příslušné interpunkční znaky: [lemma="[,\.:!?]"] Získáme seznam 1507 řádků, které patrně budou obsahovat chyby. Pro jistotu je projdeme. Můžeme se také podívat, zda některé tvary nejsou označkovány správně.

Všimněme si, že podíl lokálů je menší, než podíl dativů. A zkontrolujme, zda existují řádky, na nichž by se v levém kontextu vyskytoval tvar v dativu. Všimněme si, že tento aspekt je pro desambiguaci nerelevantní. Jména v dativu nerozvíjejí tvar substantiva v pozici KWIC (svému miláčku), ani s ním nejsou koordinovány (Rosťovi, miláčku svému, Vlastíkovi, drahoušku mému,...). Nicméně můžeme se pokusit ještě více specifikovat dotaz. Vrátíme se zpět a zadání zpřesníme:

Všimněme si, jak chyby v disambiguaci vzájemně souvisejí:

Vrátíme se a odfiltrujeme všech 1507 řádků z 1557 a 50 řádků uložíme, projdeme a označíme chyby v lemmatizaci. Správně tagované jsou pouze 3 doklady, ve všech ostatních případech jde o chybně otagované vokativy. https://kontext.korpus.cz/view?q=~d4i02ci0;fromp=1;corpname=omezeni%2fsyn2010 &viewmode=kwic&pagesize=40&attrs=word%2clemma%2ctag&attr_allpos=kw&ctx attrs=word&structs=p%2cg%2cerr%2ccorr&refs=doc%2c%3dopus.nazev

ÚKOL na 8. 4. 2015 Ze seznamu Dle abecedy si každý student vybere jeden tvar (začneme s tvarem duchu a budeme pokračovat). Odstraní případy mezi interpunkcí a zbytek konkordančních řádků projde a vyznačí chyby v lemmatizaci (uloží seznam konkordančních řádků a vyznačí je). Seznam s vyznačenými chybami odevzdá do 14. 4. 2015.