Dotazy v CQL (pro Sketch Engine)

Podobné dokumenty
Jak lze v korpusech hledat doklady pro výzkum morfologie?

ZŠ ÚnO, Bratří Čapků 1332

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Slovní druhy. Ohebné i neohebné

Dataprojektor, kodifikační příručky

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Základy latiny II

Popis morfologických značek poziční systém

II. Nástroje a metody, kterými ověřujeme plnění cílů

Školní vzdělávací program Základní školy a mateřské školy Sdružení

VY_32_INOVACE_ / IQ cesta

Dataprojektor, jazykové příručky, pracovní listy

Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0).

Olympiáda v českém jazyce 45. ročník 2018/2019

Workshop o paralelním korpusu InterCorp

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

ČESKÝ JAZYK 3. ROČNÍK Slovní druhy ohebné ROZLIŠUJEME DESET SLOVNÍCH DRUHŮ.

SADA VY_32_INOVACE_CJ1

1. Podstatná jména (substantiva)

Morfologie odborných textů

2. přivlastňovací můj, tvůj, jeho, její, náš, váš, jejich, zvratné svůj - přivlastňujeme jimi něco 1., 2., 3. osobě nebo podmětu v kterékoli osobě

1 Substantiva. 2 Adjektiva. Obsah. Lekce Obsah Cvičení

Výukový materiál zpracován v rámci projektu EU peníze školám

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

Český jazyk a literatura - jazyková výchova

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

ANOTACE K VÝUKOVÉ SADĚ

Počítač, dataprojektor, interaktivní tabule, smartphone, plány měst, mapy, slovníky

TVAROSLOVÍ Mgr. Soňa Bečičková

Počítač, dataprojektor, interaktivní tabule, smartphone, plány měst, mapy, slovníky

PŘÍDAVNÁ JMÉNA, ZÁJMENA, ČÍSLOVKY

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Český jazyk - Jazyková výchova

2AA TIME TO TALK (začátek od Unit 4) prof. Volfová Po 17:30 uč. 27

Cviení PÍZVUK - VÝSLOVNOST - 1. Oznate pízvuk: - - / - 2. Rozdlte íslovky do skupin podle místa pízvuku: - / / - - / - -

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

4. ročník (Click 2) 5. ročník (Project 1 4th edition)

Manuál pro značkování a desambiguaci slovních tvarů v jazykových korpusech

Školní výstupy Učivo (pojmy) Poznámka

Olympiáda v českém jazyce 45. ročník, 2018/2019

Programování. Bc. Veronika Tomsová


Nástroj pro monitorování a analýzu českého internetu a sociálních médií

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

Úvod do UNIXu. Okruh č. 4 - vi, regulární výrazy, grep a sed. Jakub Galgonek. verze r2. inspirováno materiály Davida Hokszy

Všestranný jazykový rozbor (VJR)

Očekávané výstupy RVP Školní výstupy Učivo Poznámky (průřezová témata, mezipředmětové vztahy apod.) Řečové dovednosti

SLOVNÍ DRUHY- KVÍZ. Zakroužkuj správnou odpověď.

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Marta Klimecká Týdenní dotace hodin: 8 hodin Ročník: třetí

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

Počítač, dataprojektor, interaktivní tabule, audio a video technika, plány měst, mapy, slovníky

Zájmena Pronomina Číslovky Numeralia Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

Nápověda k pokročilému vyhledávání

Klíčová slova: lexikologie, zájmena, číslovky, slovesa, synonyma, větné členy...

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

Český jazyk a literatura

Školní výstupy Učivo (pojmy) Poznámka

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, Praha 1. Olympiáda v českém jazyce, 42. ročník, 2015/2016 okresní kolo

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

Počítač, dataprojektor, interaktivní tabule, audio a video technika, plány měst, mapy, slovníky

NÁZEV: ŠKOLY: ČÍSLO PROJEKTU:

pro základní vzdělávání platné od

Číslo projektu: CZ.1.07/1.4.00/ Název materiálu: Slovesný rod, jazykový rozbor

Vzdělávací obor Německý jazyk

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jitka Vlčková Týdenní dotace hodin: 8 hodin Ročník: čtvrtý

Olympiáda v českém jazyce 44. ročník, 2017/2018

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Nové orgány na postupu

Střední odborná škola a Střední odborné učiliště, Hustopeče, Masarykovo nám. 1 Autor

Slovesa. Český jazyk 9. ročník ZŠ Mgr. Iveta Burianová

HELP Rešerše průmyslových vzorů

Počítač, dataprojektor, interaktivní tabule, audio a video technika, plány měst, mapy, slovníky

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Student: NEJČASTĚJŠÍ CHYBY A JAK SE JIM VYHNOUT Uvozovky a palce

IV. Gramatika A. Tvarosloví 1. Slovní druhy

RVP ZV CIZÍ JAZYK. 1. stupeň 2. období (5. ročník) UČIVO (slouží ke specifikaci obsahu a rozsahu očekávaných výstupů nebo indikátorů)

Vzdělávací oblast Vyučovací předmět Ročník. Výstupy žáka Učivo Průřezová témata, mezipředmětové vztahy

Tematický plán Český jazyk 3. třída

Regulární výrazy. jemný úvod. Miloslav Brada

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 5. Průřezová témata Mezipředmětové vztahy.

Vzdělávací obor Německý jazyk

Základní škola Náchod Plhov: ŠVP Klíče k životu

Němčina druhý jazyk

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Slovníky a morfologická analýza

Název Písemná práce vyjm. sl., rod stř. a jeho vzory

Olympiáda v českém jazyce 44. ročník, 2017/2018

Přípravné kurzy k nové maturitě německý jazyk /základní úroveň/

Slovní druhy. Masarykova ZŠ a MŠ Velká Bystřice projekt č. CZ.1.07/1.4.00/ Název projektu: Učení pro život

Anglický jazyk vyšší úroveň. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

Projekt IMPLEMENTACE ŠVP


Základní škola Náchod Plhov: ŠVP Klíče k životu

Název materiálu SLOVNÍ DRUHY PODSTATNÁ JMÉNA. Metodika. Pořadové číslo III-2-ČJ-III- 1-9.r.

Ukázkový test. Otázka číslo: 1. Text k otázkám 1-15: Nevzpomínám si, kdo přišel s nápadem, abychom si opatřili do bytu nějaké přítulné zvířátko.

Transkript:

Masarykova univerzita Filozofická fakulta Dotazy v CQL (pro Sketch Engine) PLIN021: Sémantická analýza v praxi Daniela Chalupníková Nikol Volková 2013

Obsah Úvod... 3 I. Co je to CQL... 4 II. Pojmy... 4 III. Vyhledávání v CQL... 5 III.I. Regulární výrazy... 6 III.II. Morfologické značky pro češtinu... 11 IV. Zdroje... 18

Úvod Tématem naší práce je vyhledávání v CQL se zaměřením na české korpusy. Můžete se dočíst, co vlastně CQL znamená nebo kde a jak ho používat. Naleznete zde i krátkou exkurzi do tohoto vyhledávání, která by pro vás mohla být přínosná a užitečná, pokud se s touto problematikou teprve seznamujete. Naším cílem je tedy přiblížit vám význam CQL a jeho využití. 3

I. Co je to CQL CQL je zkratkou pro Corpus Query Language, což je formální jazyk umožňující složité dotazy. Tento jazyk byl vyvinut v roce 1990 na univerzitě ve Stuttgartu a jeho rozšířená verze z května 2013 je použita ve Sketch Engine. II. Pojmy token = pozice v korpusu (slovo i interpunkce) atribut = rozlišovací rys řetězec = posloupnost znaků regulární výraz = řetězec popisující celou množinu řetězců operátor = metaznak, který má svoji specifickou funkci v regulárním výrazu kvantifikátor = speciální operátor, který definuje určitý způsob opakování 4

III. Vyhledávání v CQL Základní dotazy v CQL se skládají z atributu a hodnoty ve tvaru [atribut = hodnota ]. V korpusech lze zvolit implicitní atribut i samostatně: IMPLICITNÍ ATRIBUT word lemma tag lc VÝZNAM IMPLICITNÍHO ATRIBUTU hledáme zadaný výraz, kterým je slovo v jakémkoli tvaru hledáme základní slovní tvar hledáme výraz pomocí morfologických značek a regulárních výrazů hledáme výraz bez ohledu na velikost písmen V korpusu vyhledáváme například výskyty slovního tvaru auto, kde word je atributem a auto hodnotou tohoto atributu: [word = auto ] - vyhledá pouze výskyty slovního tvaru auto. Pokud ovšem zvolíme implicitní atribut word, stačí pak zadat jen hledaný výraz do uvozovek: auto - vyhledá totéž, co předchozí příklad. 5

III. I. Regulární výrazy Při hledání v CQL nám často usnadňuje práci zapsání dotazu jako regulární výraz. Pro správné používání regulárních výrazů je nejprve třeba seznámit se s jejich speciálními znaky (tzv. metaznaky). Přehled speciálních znaků: OPERÁTORY. libovolný znak ( ) skupina znaků (např. při opakování) KVANTIFIKÁTORY * opakovat nejméně 0krát, nejvíce neomezeno + opakovat nejméně jednou, nejvíce neomezeno? opakovat 0krát nebo 1krát {A} opakovat právě Akrát {A,B} DALŠÍ OPERÁTORY (?i) a b [ ] [abc] - [a-d] opakovat nejméně Akrát, nejvíce Bkrát nezáleží na velikosti znaku (např. a/a) alternativa k atributu lc nebo vybírá buď a nebo b nebo (zapsáno jinak) vybírá buď a, b nebo c od do a, b, c nebo d ^ [^ab] negace (na klávesnici: AltGr + š, Alt + 94) vybírá cokoliv kromě a, b <s> začátek struktury/věty </s> konec struktury/věty <s/> celá struktura/věta & konjunkce (a zároveň)! negace meet speciální typ kontextu union spojí výsledky vyhledané pomocí meet containing struktura obsahující zadaný dotaz within vyhledávání uvnitř zvolené struktury 1:[] 2:[] & 1.c=2.c shoda podle morfologické značky (c pád) 6

Prvním takovým základním metaznakem je tečka., která nahrazuje právě jeden libovolný znak (písmena, číslice i různé další znaky): l.p - vyhledá např. slova lup, líp, lep. Je důležité si předem uvědomit, že vyhledávání v korpusu neoperuje s konkrétními písmeny a čísly, ale obecně se znaky zabírajícími právě jednu pozici. Proto písmeno ch (charakteristické pro češtinu) zastupuje znaky dva, stejně tak například číslo 12345 je znaků pět. Tečku je možné použít i několikrát za sebou. Např. pokud zadáme mezi písmena p a t pět teček: p..t - vyhledá např. pořídit, proudit, projekt, produkt. Abychom tečky nemuseli počítat, je možné použít tzv. kvantifikátory a určit tak jejich počet. Pokud chceme zadat konkrétní množství, použijeme za tečkou (obecně za znakem či skupinou znaků, které chceme násobit) číslo ve složených závorkách: p.{5}t - vyhledá totéž co předešlý příklad p..t. Je také možné zadat opakování pomocí intervalu. Například pokud chceme, aby bylo slovo 5 až 7 písmen dlouhé, tedy aby začínalo na p, končilo na t a uprostřed se vyskytovalo 3 až 5 libovolných znaků, dotaz zapíšeme takto: p.{3,5}t - vyhledá např. pocit, použít, projekt. Pro skupinu znaků: (ko){1,2}s - vyhledá slova kos nebo kokos. V případě, že nechceme určit přesný počet opakování znaku či skupiny znaků, použijeme speciální kvantifikátory. Pro názorný příklad si jako základ zvolme sloveso jít. Kvantifikátor *, tzv. Kleeneho hvězdičku, použijeme ve chvíli, kdy nám nezáleží na množství, stejně tak na tom, jestli se (libovolný) znak vůbec objeví..*jít - vyhledá např. jít, ujít, vyjít, sejít, přijít, odejít, vzejít, nenajít, předejít. Pokud potřebujeme, aby se znak objevil alespoň jednou, použijeme speciální kvantifikátor +:.+jít - vyhledá např. ujít, vyjít, sejít, přijít, odejít, vzejít, nenajít, předejít. 7

Do třetice máme k dispozici speciální kvantifikátor?, kterým jakýkoli znak nebo skupinu znaků vyhledáváme buď právě jednou, nebo vůbec:.?jít - vyhledá např. jít, ujít. Při vyhledávání v korpusu často usnadní práci využití různých způsobů dotazů, vyjadřujících disjunkci. Tedy existuje několik způsobů, jak zapsat v rámci jednoho dotazu více variant. Napomůžou nám k tomu speciální znaky nebo [ ]. Pro hledání dvou či více zcela odlišných slov, použijeme svislé znaménko: muž žena - vyhledá výskyty slov muž, žena, já ty on - vyhledá výskyty slov já, ty, on. Hledáme-li varianty uvnitř slova, pak je třeba použít závorky: - v případě jednotlivých hlásek závorky hranaté: muž[ie] - vyhledá výskyty slovních tvarů muži a muže, dám[ayu] - vypíše výskyty slov: dáma, dámy a dámu, - v případě skupin hlásek závorky kulaté: muž(ovi ům) - vyhledá výskyty slovních tvarů mužovi a mužům, muž(i ovi ům em) - vyhledá výskyty slovních tvarů muži, mužovi, mužům, mužem. Dotazování na více variant je možné zadávat i obecněji, a to v případě, chceme-li vybrat jedno písmeno z určité části abecedy anebo použitím negace vypsat pouze znaky, které jako jediné nevyhledáváme. Operátorem - vymezíme rozsah písmen v abecedě (nebo rozsah číslic). Použijeme jej uvnitř hranatých závorek: [b-d]o - vyhledá např. bo, co, do (ale už ne např. ho, jo, po). Pro negaci použijeme znak ^ na začátku řetězce uvnitř hranatých závorek. Názorným příkladem nám mohou být slova nezačínající na tvrdý konsonant (souhlásku), za kterými se vyskytuje y : [^hkrdtn].* - vyhledá např. byt, systém, myslím, využití. Můžeme také vyhledávat slovní spojení, mezi nimiž je určitý počet dalších tokenů: 8

auto.* [] {2} stojí - vyhledá slova začínající na auto a slova stojí, mezi kterými jsou přesně dva tokeny, např.:...jedním z autorů, které stojí za to Nebo můžeme zadat dotaz tak, aby se mezi dvěma zadanými výrazy nacházely nula až dva další tokeny: auto.* [] {0, 2} stojí - vyhledá to samé co předchozí příklad + výsledky s žádným nebo jedním dalším tokenem, např.:...osobní automobily stojí ve ; rychlostí automatického ošetření stojí algoritmus Chceme-li hledat slova v určitém kontextu, použijeme takovéto zadání dotazu: (meet [tag="k1.*"] [tag="k5.*"] -3 3) - vyhledá podstatná jména, která jsou v kontextu +-3 tokeny od slovesa (atribut tag). Pomocí union můžeme takto hledané výsledky spojovat: (union (meet [tag="k1.*"] [tag="k5.*"] -3 3) (meet [tag="k2.*"] [tag="k5.*"] -2 2)) - vyhledá všechna podstatná jména v kontextu +-3 tokeny od slovesa a zároveň všechna přídavná jména v kontextu +-2 tokeny od slovesa. Pokud chceme vyhledat slovní spojení v rámci jedné struktury, můžeme použít například zadání dotazu v podobě: "auto.*" []* "stojí" within <s/> - vyhledá řetězec slov začínající slovem na auto a končící slovem stojí v rámci jedné věty, mezi nimiž je libovolný počet dalších tokenů (atribut word). Hledáme-li strukturu/větu, obsahující námi zadaná slova (tokeny), použijeme operátor containing: <s/> containing "auto.*" []* "stojí" - vyhledá celou strukturu/větu obsahující slovo začínající na auto, po kterém mohou (ale nemusí) následovat tokeny libovolného množství, a slovo stojí. V korpusu je možné vyhledávat tokeny, které se určitým jevem shodují: 9

1:[word ="pane"] 2:[] & 1.c =2.c - vyhledá slovní spojení shodující se v pádě, kde prvním výrazem je slovo pane, např. pane ministře, pane kolego Shodu zajišťuje c v části dotazu 1.c =2.c, (vizte následující kapitola III.II. Morfologické značky pro češtinu), 1:[word = "d.*"] 2:[] & 1.c=2.c - vyhledá slovní spojení shodujícím se v pádě, kde prvním výrazem je slovo začínající na písmeno d, např. dosahuje jen, druhé příčce, duchovní hudbu. Negaci pomocí vykřičníku! využijeme v případě, chceme-li negovat jiný operátor. Např. within!, containing! nebo!=. V tomto případě se význam a funkce těchto operátorů neguje. 10

III. II. Morfologické značky pro češtinu Morfologické značky vyjadřují gramatické kategorie slovních tvarů. Při zadávání dotazů pomocí morfologických značek volíme atribut tag a dotaz pak zapíšeme do uvozovek, např. k1gmnpc4. Nebo do dotazového řádku napíšeme dotaz v celé podobě, a to [tag = k1gmnpc4 ]. Poziční systém morfologických značek pro češtinu podle slovního druhu: POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k1 substantivum 2. pozice Speciální vzor xp xf půl rodina (příjmení) 3. pozice Rod gm gi gn gf mužský životný mužský neživotný střední ženský 4. pozice Číslo ns np nd 5. pozice Pád c1 c2 c3 c4 c5 c6 c7 6. pozice Stylistický příznak tvaru wb wh wn wr wz 7. pozice Typ tvaru zs zy za jednotné množné duál první druhý třetí čtvrtý pátý šestý sedmý básnicky hovorově nářečně řidčeji zastarale tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka Příklad morfologické značky pro substantivum psy : k1gmnpc4 - substantivum rodu mužského životného v množném čísle 4. pádu, k1gmnpc7 - substantivum rodu mužského životného v množném čísle 7. pádu. 11

POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k2 adjektivum 2. pozice Negace ea en afirmace negace 3. pozice Rod gm gi gn gf gr mužský životný mužský neživotný střední ženský rodina (příjmení) 4. pozice Číslo ns jednotné np 5. pozice Pád c1 c2 c3 c4 c5 c6 c7 6. pozice Stupeň d1 d2 d3 množné první druhý třetí čtvrtý pátý šestý sedmý pozitiv komparativ superlativ 7. pozice Stylistický příznak tvaru wb wh wn wr wz 8. pozice Typ tvaru zs zy za básnicky hovorově nářečně řidčeji zastarale tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka Příklad morfologické značky pro adjektivum dobří : k2eagmnpc1d1 - adjektivum afirmační rodu mužského životného čísla množného 1. pádu pozitiva, k2eagmnpc5d1 - adjektivum afirmační rodu mužského životného čísla množného 5. pádu pozitiva. POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k3 zájmeno 2. pozice Druh zájmena xp xo xd xt osobní přivlastňovací ukazovací vymezovací 12

3. pozice Druh zájmena yf yq yr yn yi 4. pozice Osoba p1 p2 p3 5. pozice Rod gm gi gn gf gr 6. pozice Číslo ns np 7. pozice Pád c1 c2 c3 c4 c5 c6 c7 8. pozice Stylistický příznak tvaru wb wh wn wr wz 9. pozice Typ tvaru zs zy za reflexivní tázací vztažné záporné neurčité první druhá třetí mužský životný mužský neživotný střední ženský rodina (příjmení) jednotné množné první druhý třetí čtvrtý pátý šestý sedmý básnicky hovorově nářečně řidčeji zastarale tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka Příklad morfologické značky pro zájmeno toto : k3gnnsc1 - zájmeno středního rodu čísla jednotného 1. pádu, k3gnnsc4 - zájmeno středního rodu čísla jednotného 4. pádu. POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k4 číslovka 2. pozice Druh číslovky xc xo xr základní řadová druhová 3. pozice Druh číslovky yn záporná yi 4. pozice Rod gm gi gn gf neurčitá mužský životný mužský neživotný střední ženský 13

5. pozice Číslo ns np 6. pozice Pád c1 c2 c3 c4 c5 c6 c7 7. pozice Stylistický wb příznak tvaru wh wn wr 8. pozice Terminál v gramatice wz ta tb tc td te tf ti tj tk tl tm tn to tp tq tr ts tt tu tv tw tx ty tz 9. pozice Typ tvaru zs zy za jednotné množné první druhý třetí čtvrtý pátý šestý sedmý básnicky hovorově nářečně řidčeji zastarale terminál A (vyjadřuje zřetel) terminál B terminál C (vyjadřuje příčinu) terminál D (příslovce modální) terminál E terminál F terminál I terminál J terminál K terminál L (vyjadřuje místo) terminál M (vyjadřuje způsob) terminál N terminál O terminál P terminál Q (vyjadřuje míru) terminál R odpovídá Q@ (příslovce stavové) odpovídá O@ (vyjadřuje čas) odpovídá L@ odpovídá jedno odpovídá sto odpovídá dvě odpovídá stě odpovídá tři/čtyři tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka Příklad morfologické značky pro číslovku několik : k4c1 - číslovka v 1. pádě, k4c4 - číslovka ve 4. pádě. 14

Příklad morfologické značky pro číslovku stí : k4gmnpc1 - číslovka rodu mužského životného množného čísla v 1. pádě, k4gmnpc5 - číslovka rodu mužského životného množného čísla v 5. pádě. POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k5 sloveso 2. pozice Negace ea en afirmace negace 3. pozice Vid ap ai perfektivum (= dokonavé) imperfektivum (= nedokonavé) 4. pozice Typ (Mód) mf mi mr ma mn ms md mb infinitiv indikativ prézentu imperativ příčestí činné (minulé) příčestí trpné přechodník přítomný (současnost) přechodník minulý (dřívější děj) indikativ futura 5. pozice Osoba p1 p2 p3 6. pozice Rod gm gi gn gf 7. pozice Číslo ns np 8. pozice Stylistický příznak tvaru wb wh wn wr wz 9. pozice Typ tvaru zs zy za první druhá třetí mužský životný mužský neživotný střední ženský jednotné množné básnicky hovorově nářečně řidčeji zastarale tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka Příklad morfologické značky pro sloveso rob : k5eaaimrp2ns - sloveso afirmační nedokonavé v imperativu 2. osoby čísla jednotného. 15

POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k6 příslovce 2. pozice Negace ea en afirmace negace 3. pozice Druh zájmenného příslovce xd xt ukazovací vymezovací 4. pozice Druh zájmenného příslovce yq yr yn yi 5. pozice Stupeň d1 d2 d3 6. pozice Stylistický příznak tvaru wb wh wn wr wz 7. pozice Typ tvaru zs zy za tázací vztažné záporné neurčité pozitiv komparativ superlativ básnicky hovorově nářečně řidčeji zastarale tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka Příklad morfologické značky pro příslovce nemálo : k6end1 - příslovce negované pozitivu. POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k7 předložka 2. pozice Pád c1 c2 c3 c4 c5 c6 c7 první druhý třetí čtvrtý pátý šestý sedmý Příklad morfologické značky pro předložku kolem : k7c2 - předložka v 2. pádě. Příklad morfologické značky pro předložku při : k7c6 - předložka v 6. pádě. 16

POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k8 spojka 2. pozice Druh spojky xc xs souřadící podřadící 3. pozice Typ tvaru zs zy za tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka Příklad morfologické značky pro spojku ani : k8xc - spojka souřadící. POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k9 částice 2. pozice Typ tvaru zs zy za tvar s příklonným -s kondicionál ( aby, kdyby, by ) zkratka POZICE KATEGORIE ZNAČKA VYSVĚTLIVKA 1. pozice Slovní druh k0 citoslovce POZICE ZNAČKA VYSVĚTLIVKA 1. pozice ki interpunkce 2. pozice x. x, x x( x) x~.!?, : ; " ( { [ < ) } ] > ~ $ % ^ & - _ + = \ / # atd. 17

IV. Zdroje LEXICAL COMPUTING, Ltd. Sketch Engine [online]. 2003 2013 [cit. 2014-01-12]. Dostupné z: http://www.sketchengine.co.uk/documentation/wiki/wikistart Regulární výrazy: Corpus Querying: Corpus Query Language (CQL). LEXICAL COMPUTING, Ltd. Sketch Engine [online]. 2003 2013 [cit. 2014-01-11]. Dostupné z: https://www.sketchengine.co.uk/documentation/wiki/ske/corpusquerying Základy regulárních výrazů. PECKA, Miroslav. Regulární výrazy [online]. 2005 2013 [cit. 2014-01-11]. Dostupné z: http://www.regularnivyrazy.info/regularni-vyrazy-zaklady.html Morfologické značky: JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ a Pavel ŠMERK. Czech Morphological Tagset Revisited. In Horák, Rychlý. Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, 2011. s. 29-42, 14 s. ISBN 978-80-263-0077-9. Morfologický analyzátor ajka interaktivní režim [online]. [cit. 2014-1-11]. Dostupné z: http://nlp.fi.muni.cz/projekty/wwwajka/wwwajkaskripty/morph.cgi?jazyk=0 18