Pragmatický lematizátor českých slov

Podobné dokumenty
Dataprojektor, kodifikační příručky

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

SADA VY_32_INOVACE_CJ1

Český jazyk - Jazyková výchova

Český jazyk a literatura - jazyková výchova

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Dataprojektor, jazykové příručky, pracovní listy

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

VY_32_INOVACE_ / IQ cesta

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

1. Podstatná jména (substantiva)

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Český jazyk v 5. ročníku

Slovní druhy. Ohebné i neohebné

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Český jazyk Ročník: 7. Průřezová témata Mezipředmětové vztahy.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

ČESKÝ JAZYK 5. TŘÍDA

Učební osnovy vyučovacího předmětu český jazyk a literatura se doplňují: 2. stupeň Ročník: sedmý. Tematické okruhy průřezového tématu

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

TEMATICKÝ PLÁN. Literatura: Český jazyk - Z. Krausová, R. Teršová, Fraus 2012, pracovní sešit Český jazyk pro 6. ročník - V.

Vzdělávací obsah vyučovacího předmětu

Český jazyk ve 4. ročníku

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

Školní vzdělávací program Základní školy a mateřské školy Sdružení

TEMATICKÝ PLÁN 6. ročník

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.

ČESKÝ JAZYK A LITERATURA 4.ROČNÍK

Přídavná jména Střední průmyslová škola a Obchodní akademie Uherský Brod Český jazyk a literatura

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49. Výukový materiál zpracovaný v rámci projektu Výuka moderně

Jednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Základy latiny II

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

ČESKÝ JAZYK 3. ROČNÍK

Český jazyk a literatura

Příloha č. 13 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Předmět speciálně pedagogické péče

Předmět: Český jazyk a literatura

RVP ŠVP UČIVO - samostatně pracuje s Pravidly českého pravopisu, se Slovníkem spisovné češtiny a s dalšími slovníky a příručkami

ZŠ ÚnO, Bratří Čapků 1332

Učební osnovy vyučovacího předmětu český jazyk a literatura se doplňují: 2. stupeň Ročník: šestý. Tematické okruhy průřezového tématu

Jazyková výchova Opakování. Věta, souvětí. Význam slov, hlásková podoba slova. Jednoznačná a mnohoznačná slova

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Český jazyk Ročník: 6. Průřezová témata Mezipředmětové vztahy.

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

IV. Gramatika A. Tvarosloví 1. Slovní druhy

Tam, kde anglické příklady neodpovídají českému jazykovému systému, se český překlad neuvádí.

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

JAZYKOVÁ VÝCHOVA. Tvarosloví. Pravopis. Jazyk a jazyková komunikace - Český jazyk - 7. ročník. POZNÁMKY (průřezová témata, mezipředmětové vztahy)

Název materiálu SLOVNÍ DRUHY PODSTATNÁ JMÉNA. Metodika. Pořadové číslo III-2-ČJ-III- 1-9.r.

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

Český jazyk a literatura

Český jazyk Název Ročník Autor

Příklad rozpracování minimální doporučené úrovně pro úpravu. očekávaných výstupů v rámci podpůrných opatření. do učebních osnov vyučovacího předmětu

Specifikace požadavků pro školní část přijímací zkoušky (anglický jazyk) Šestiletý obor vzdělávání

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

MLUVNICE. Seznam otázek k závěrečným zkouškám z českého jazyka a literatury v 9. ročníku

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

Všestranný jazykový rozbor (VJR)

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Projekt: Multimediální prezentace vzdělávacích oblastí školního vzdělávacího programu

RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov

Český jazyk a literatura

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

2 Lexikální jednotka. 2.1 Obecné kategorie

Základní škola ve Vamberku. Tematický plán učiva ČESKÝ JAZYK PRO 9. ROČNÍK. Václav Strážnický 2012/13

Jazyk a jazyková komunikace Seminář z českého jazyka 2. 7.

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Předmět - Český jazyk a literatura Ročník: 5. RVP - ZV Výstup Učivo Průřezová témata

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

SLOVNÍ DRUHY. Vytvořeno dne: druhů, vymezuje tři základní kritéria členění. Závěr prezentace slouží k procvičení osvojených poznatků.

Dataprojektor, jazykové příručky, pracovní listy

PŘÍDAVNÁ JMÉNA (ADJEKTIVA)

Výukový materiál zpracován v rámci projektu EU peníze školám

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 3.. Průřezová témata Mezipředmětové vztahy.

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Stonožka jak se z výsledků dozvědět co nejvíce

Český jazyk a literatura

Pravopis i-y. MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/

Projekt IMPLEMENTACE ŠVP

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jitka Vlčková Týdenní dotace hodin: 8 hodin Ročník: čtvrtý

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Český jazyk a literatura

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas

VY_12_INOVACE_26_MLUVNICKE_KATEGORIE_PODSTATNYCH_ JMEN. Předmět: Český jazyk Ročník: 4. Časová dotace: 45 min Datum ověření:

Jazyk a jazyková komunikace 2. ročník a sexta

A JEHO VÝZNAM SLOVO A POJMENOVÁNÍ

Zájmena Pronomina Číslovky Numeralia Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

Český jazyk a literatura. 6. ročník. Komunikační a slohová výchova. Vypravování osnova

Transkript:

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství Studijní program: Aplikovaná informatika Obor: Podniková informatika Pragmatický lematizátor českých slov DIPLOMOVÁ PRÁCE Student: Bc. Matěj Vacek Vedoucí: doc. RNDr. Petr Strossa, CSc. 2014

Prohlášení Prohlašuji, že jsem vypracoval samostatně diplomovou práci na téma Pragmatický lematizátor českých slov. Použitou literaturu a další podkladové materiály uvádím v přiloženém seznamu literatury. V Praze dne 31. listopadu 2014... podpis diplomanta

Poděkování Rád bych poděkoval doc. RNDr. Petru Strossovi, CSc. za vedení mé diplomové práce, cenné rady a odborný dohled. Děkuji také PhDr. Marii Rút Křížkové za odborné rady a pomoc při gramatické kontrole práce. V neposlední řadě děkuji své rodině, která mi byla oporou po celou dobu vytváření této práce.

Abstrakt Tato práce se zabývá lemmatizací podstatných a přídavných jmen na základě morfologie českého jazyka. Cílem práce je vytvořit lemmatizátor, který bude lemmatizovat slova s úspěšností alespoň 90%. Zároveň by měl být lemmatizátor co nejjednodušší, tj. měl by mít co nejméně pravidel. Lemmatizátor bude vytvářen pro oblast realitních inzerátů na prodej domů. V práci budou analyzovány specifika této oblasti a lemmatizátor bude přizpůsoben této oblasti, tak aby při lemmatizaci vytvářel co nejlepší výsledky. Lemmatizátor byl vytvořen v jazyce Java. Bylo použito velmi málo pravidel (pouze tři typy) a celkově byl lemmatizátor úspěšný v 96,4% případech. Klíčová slova: lemma, český jazyk, morfologie, realitní inzeráty

Abstract This thesis is focused on lemmatizing of nouns and adjectives. It is based on morphology of Czech language. The goal is to create a lemmatizer which can stem words with success rate 90% (at least). At the same time the lemmatizer should be very easy, it should consist as little rules as possible. Lemmatizer will be created to work with real estate adverts, especially houses for sale. In this thesis there will be made an analysis of specific characters of this area. Lemmatizer will be created according to results of this analysis. Lemmatizer was written in Java. Only three types of rules were used and generally the lemmatizer created correct stems in 96.4% of all words. Keywords: lemma, Czech language, morphology, real estate advert

Obsah Přehled použitých zkratek... 4 Seznam tabulek... 5 Seznam obrázků... 5 Úvod... 6 1. Zpracování dokumentu... 8 1.1. Intelektuální indexování... 8 1.2. Zdrojová data... 9 1.3. Lexikální analýza... 9 1.4. Stop-slova... 11 1.5. Lemmatizace... 12 1.6. Vážení termínů... 12 1.7. Tezaurus... 13 2. Charakteristika českého jazyka... 15 2.1. Typologická klasifikace jazyků... 15 2.1.1. Morfologická typologie... 16 2.1.2. Dělení a informační obsah slovních druhů... 17 2.1.3. Charakteristika slovních druhů... 19 2.2. Frekvence výskytu slovních druhů... 24 2.3. Homonymie... 25 2.3.1. Lexikální homonymie... 26 2.3.2. Morfologická homonymie... 26 2.3.3. Významná a nevýznamná slova... 26 2.3.4. Úplná a částečná homonyma... 27 3. Lemmatizace... 28 1

3.1. Algoritmy... 28 3.1.1. Brute Force algoritmy... 28 3.1.2. Suffix stripping... 29 3.1.3. Lemmatizační algoritmy... 29 3.1.4. Stochastické algoritmy... 29 3.1.5. Analýza N-gramů... 30 3.1.6. Hybridní algoritmy... 30 3.1.7. Under-stemming a over-stemming... 30 3.2. Jednoprůchodový a rekurzivní lemmatizátor... 31 3.3. Vyhledávání informací... 31 4. Aplikační část... 32 4.1. Komponenty použité pro vývoj... 32 4.1.1. Java... 32 4.1.2. IntelliJ IDEA... 33 4.1.3. Open CSV knihovna... 34 4.2. Omezení a specifika vstupních textů... 34 4.3. Lemmatizace... 35 4.3.1. Omezení... 35 4.3.2. Parametry vstupního souboru... 36 4.3.3. Úprava vstupu... 36 4.3.4. Stop-slova... 37 4.3.5. Nepravidelná a dvoupísmenná slova... 38 4.3.6. Průběh lemmatizace... 38 4.3.7. Lemmatizace přídavných jmen... 40 4.3.8. Lemmatizace podstatných jmen... 41 2

4.3.9. Lemmatizace ostatních slovních druhů... 42 4.3.10. Výstup... 42 4.3.11. Typ lemmatizátoru... 42 5. Výsledky a zhodnocení řešení... 44 5.1. Velikost výběrového souboru... 44 5.2. Počet pravidel, přípon a koncovek... 44 5.3. Úprava výstupního souboru... 45 5.3.1. Označení slovních druhů... 45 5.3.2. Označení korektních lemmat... 46 5.4. Způsob vyhodnocení korektních lemmat... 47 5.4.1. Korektní lemma pro substantiva a adjektiva... 47 5.4.2. Korektní lemma pro pronomia, numeralia a verba... 47 5.4.3. Korektní lemma pro adverbia... 48 5.4.4. Korektní lemma pro ostatní slovní druhy... 48 5.5. Zavlečená homonymie... 49 5.6. Velikost csv souborů... 50 5.7. Úspěšnost lemmatizátoru... 50 5.8. Zhodnocení výsledků... 52 Závěr... 54 Použitá literatura... 56 Příloha A... 59 3

Přehled použitých zkratek JIT Just In Time JVM Java Virtual Machine API Application Programming Interface SE Standard Edition 4

Seznam tabulek Tabulka 1: Výskyt slovních druhů... 24 Tabulka 2: Výskyt slovních druhů s podstatnou informací... 25 Tabulka 3: Označení slovních druhů... 46 Tabulka 4: Výsledky lemmatizace... 52 Seznam obrázků Obrázek 1: Přehled slovních druhů... 18 5

Úvod Vyhledávání informací je jedním z charakteristických rysů dnešní doby. V souvislosti s rozmachem internetu a se stále větší dostupností této technologie i na odlehlejších místech nabývá tato technologie stále většího významu. Nicméně pokud člověk hledá určitou informaci a chce využít např. fulltextový vyhledávač, musí formulovat dotaz, který bude následně vyhledávačem zpracován. Aby mohl vyhledávač porovnat zadaný dotaz a informace obsažené v databázi dokumentů, musí mít algoritmus, který převede slova v různých tvarech na určitý formalizovaný tvar. Následně na základě porovnání formalizovaných tvarů dotazu a takto upraveného dokumentu vrací vyhledávač určité výsledky. Cílem této diplomové práce je vytvořit lemmatizátor, tedy program, který bude upravovat slova na určitá lemmata, tedy formalizované tvary slov. Protože se jedná o velmi složitou a obsáhlou problematiku, bude lemmatizace omezena pouze na podstatná a přídavná jména. Vstupem pro lemmatizátor budou realitní inzeráty týkající se prodeje nemovitostí, konkrétně pak domů. Ty mají určité specifické vlastnosti. Velmi často jsou v nich používána přídavná jména, neboť inzerce realit je ze své podstaty popisná. Snaží se právě pomocí přídavných jmen co nejlépe představit čtenáři prodávanou nemovitost. Protože se jedná o texty určené pro běžnou část populace, nevyskytují se v textech složité nebo málo užívané gramatické konstrukce. Lemmatizátor by měl být co nejjednodušší, ideálně by měl pracovat především na principu odebírání přípon a koncovek. Ty budou specifikovány na základě morfologie českého jazyka. Lemmata vytvořená tímto způsobem mohou být i umělá, tj. že bude vytvořen neexistující tvar daného slova. Podstatné je, aby bylo stejné lemma vytvořeno pro všechny tvary daného slova a aby bylo dané lemma unikátní a nedocházelo k vytváření homonymie. Úspěšnost lemmatizátoru by vzhledem k nastaveným omezením měla být poměrně vysoká. Nekorektně by mělo být vytvořeno maximálně jedno lemma z deseti, úspěšnost lemmatizace by měla být minimálně 90%. V rámci této práce bude nejprve analyzován celý postup zpracování dokumentu, od indexování až po vážení termínů. V další kapitole bude provedena morfologická analýza českého 6

jazyka, především pak podstatných a přídavných jmen. Také je zapotřebí určit, které slovní druhy jsou z hlediska informační hodnoty podstatné. Ve třetí kapitole bude popsán proces lemmatizace včetně analýzy různých typů algoritmů, které jsou k lemmatizaci používány. Popis vytvořeného lemmatizátoru bude uveden ve čtvrté kapitole této práce. Stručně bude zmíněn programovací jazyk i prostředí použité pro vývoj lemmatizátoru. Detailně bude popsána konstrukce algoritmu, jeho omezení, samotný průběh lemmatizace i konkrétní pravidla pro lemmatizaci podstatných a přídavných jmen. V poslední kapitole budou vyhodnoceny výsledky lemmatizátoru. Popsány budou jak souhrnné výsledky, tak i informace o lemmatizaci jednotlivých slovních druhů. Také bude představen počet použitých pravidel a počet výjimečných slov uložených v externích souborech. 7

1. Zpracování dokumentu K tomu, aby bylo dosaženo výsledku v podobě indexovaného dokumentu, ve kterém je možné vyhledávat a porovnávat relevantnost vybraného dokumentu s jinými dokumenty, je nezbytné projít několika kroky. V jejich průběhu se nejprve dokument načte a rozdělí na jednotlivá slova. Poté se odstraní výrazy, které nejsou podstatné z informačního hlediska a nemá význam je uchovávat ani pro přesnější, ani pro úplnější výsledek vyhledávání. Následně se provede lemmatizace, která má za cíl převést slova vyskytující se v různých tvarech na jejich základní tvar. Po tomto kroku je k dispozici seznam relevantních slov a je zapotřebí provést výběr takových, která jsou klíčová a charakterizují daný dokument a jednotlivá slova seřadit dle jejich významnosti. Teprve v tento okamžik je dokument připraven k zařazení do katalogu, ve kterém uživatel může vyhledávat. 1.1. Intelektuální indexování Intelektuální indexování je možné definovat jako proces indexace realizovaný pomocí intelektuálních postupů ve všech jeho fázích, tj. při výběru relevantních výrazů z textu v přirozeném jazyce a přiřazování termínů řízeného slovníku. 1 Definice automatického indexování je pochopitelně odlišná, neboť se jedná o proces indexace realizovaný pomocí automatických postupů ve všech jeho fázích, tj. při výběru relevantních výrazů z textu v přirozeném jazyce a přiřazování termínů řízeného slovníku. 2 Automatické indexování se potýká s celou řadou problémů, které jsou uvedeny v této práci. Intelektuální indexování tyto problémy nemá a je považováno za kvalitnější. Jeho nevýhodou však je, že se do indexování promítají zkušenosti a znalosti člověka, který indexování provádí. Také se mohou objevit chyby způsobené špatným soustředěním nebo únavou. 3 Automatické indexování je však ve srovnání s intelektuálním indexováním principiálně rychlejší. To se projevuje i na nákladech spojených s touto činností, které jsou nižší než 1 BLAŽEK, Jakub. Srovnání automatické a intelektuální indexace. InFlow [online]. 2008 [cit. 2014-05-14]. Dostupné z: http://www.inflow.cz/srovnani-automaticke-intelektualni-indexace 2 KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. 2014 [cit. 2014-06-22]. Praha : Národní knihovna České republiky, 2014. Dostupné z: http://sigma.nkp.cz/cze/ktd 3 BLAŽEK, Jakub. Srovnání automatické a intelektuální indexace. InFlow [online]. 2008 [cit. 2014-05-14]. Dostupné z: http://www.inflow.cz/srovnani-automaticke-intelektualni-indexace 8

u intelektuálního procesu. Navíc (z technických důvodů) umožňuje přiřazení mnohem většího počtu klíčových slov a tím pádem vytvoření rozsáhlejšího (širšího) selekčního obrazu. I přesto, že výsledky intelektuálního indexování jsou lepší, rozvoj automatického indexování neustále probíhá a jeho zlepšování zmenšuje rozdíly mezi kvalitou výsledku. Navíc vzhledem k množství textových dokumentů a časové náročnosti intelektuálního indexování není jiná možnost než využívat indexování automatické. V některých případech se využívá kombinované (hybridní) indexování, kdy pomocí automatického indexování vznikne návrh, který je potom člověkem upraven. 1.2. Zdrojová data Dokument, který se objeví na vstupu zpracování, může mít různou formu. Pro účely této práce budeme uvažovat pouze o dokumentech textových (nebudou tedy uvažovány dokumenty ani jeho části, které jsou zvukové, obrazové, audiovizuální a další, ani jejich převod do textové formy). Zdrojový text může mít různé formátování (nadpisy, zvýraznění textu ). Tyto informace by sice mohly usnadnit lemmatizaci a výběr klíčových slov, neboť lze předpokládat, že slova uvedená v nadpisu nebo jinak zvýrazněná v textu mají vyšší informační hodnotu, ale v rámci této práce nebude prováděna analýza formátování textu a na všechna slova tak bude pohlíženo stejně. Text ve vstupním dokumentu může být v různých jazycích, ať už přirozených nebo umělých. Jak vyplývá z ostatních kapitol, vstupní text bude omezen pouze na český jazyk ve spisovné formě. 1.3. Lexikální analýza Jednou z fází zpracování dokumentu je lexikální analýza. Ta identifikuje jednotlivá slova a sousloví v plném textu dokumentu. 4 Jedná se o velmi důležitou část zpracování dokumentů, neboť výsledky této analýzy mohou do velké míry ovlivnit celkový výsledek procesu. Již ve fázi lexikální analýzy se totiž identifikují slovní spojení, která mají ze své podstaty výrazně vyšší selektivní sílu než jednotlivá slova. 4 SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie [online]. Praha, 2003. Dostupný z: http://full.nkp.cz/nkdb/docs/studie/maiobsah.html 9

K rozdělení textu na slova se nejčastěji používá mezera. Pokud se vyskytne více mezer za sebou, jsou obvykle ostatní mezery ignorovány. Dělení pomocí mezer však není dostačující. Jako další pomocné znaky při analýze slouží tečka, která označuje konec věty. (Dalšími znaky, které mohou označovat konec věty, jsou otazník a vykřičník.) Je však třeba zohlednit také zkratky, které v sobě obvykle mívají obsažené tečky, a přitom se o konec věty nejedná. V takovém případě mohou částečně pomoci velká písmena, která se vyskytují na začátku každé věty, ale nemusí se vyskytovat po každé zkratce. Tečku na konci věty však nemusí být nutné vždy správně rozpoznat. Pokud je využito pouze indexování jednotlivými slovy, pak jejich příslušnost k jednotlivým větám není pro indexování důležitá. Velká písmena mohou kromě začátku věty pomoci při analýze vlastních jmen a názvů. V českém jazyce existují podrobná pravidla, kdy se píše v názvu velké a kdy malé písmeno. Bližší informace o těchto podmínkách jsou v publikaci Pravidla českého pravopisu. 5 Dalšími znaky, které je nutné brát na zřetel, jsou pomlčka a spojovník (příp. rozdělovník). Pomlčka je obvykle z obou stran oddělena mezerou. Může být použita místo čárek a oddělovat od sebe různé části věty. Také se využívá při psaní intervalů. 6 Spojovník/rozdělovník spojuje dva výrazy a není oddělen mezerou (ani z jedné strany). Používá se např. k rozdělení slova, pokud přesahuje řádek, nebo ke spojení složených výrazů. Pokud se v textu vyskytne rozdělovník, který dělí slovo na dva různé řádky, měl by být odstraněn a rozdělené slovo spojeno v jedno. Pokud se spojovník objeví na konci řádku, musíme ho napsat i na začátek řádku následujícího. 7 Pomlčka a spojovník by měly být v textu odlišené (spojovník je kratší, pomlčka delší). Pokud to rozlišené není, jedná se o chybu textu a ten tak není v souladu s pravidly českého pravopisu, kde jsou jednotlivé znaky rozlišeny a definovány. 8 Speciálním problémem při lexikální analýze jsou číslice. Ty jsou sice nositelem významné informace (viz kapitola Dělení a informační obsah slovních druhů), nicméně samy o sobě mohou významně snížit přesnost vyhledávání. Například při výskytu určitého letopočtu je 5 Pravidla českého pravopisu. Vyd. 2. Praha: Academia, 2005, 391 s. ISBN 80-200-1327-X. 6 Nejčastější chyby a jak se jim vyhnout. TypografieNaPočítači [online]. 2004 [cit. 2014-07-06]. Dostupné z: http://typografie.wz.cz/chyby.html 7 TAHOVSKÝ, Pavel. Spojovník a pomlčka Jak na to. KorekturaČeštiny.cz [online]. 2010 [cit. 2014-07-05]. Dostupné z: http://www.korekturacestiny.cz/pavel-tahovsky-bloguje/spojovnik-pomlcka.htm 8 Pravidla českého pravopisu. Vyd. 2. Praha: Academia, 2005, 391 s. ISBN 80-200-1327-X. 10

nutné tento letopočet spojit s událostí, ke které se váže, neboť jinak bude při výsledcích vyhledávání zobrazeno mnoho výsledků, které se sice váží k danému roku, ale ze zcela jiného důvodu. Při analýze číslic je tedy zapotřebí rozhodnout, zda bude dané číslo uchováno samostatně (stejně jako ostatní slova), nebo bude spojeno s jiným slovem. Poslední možností je číslo z analýzy úplně vypustit (čímž však může dojít ke ztrátě důležité informace, a proto je třeba tento krok dělat s potřebnou opatrností). 9 Samostatnou kapitolu by vyžadovala analýza sousloví. Ta mají sice značně vyšší selektivní sílu, nicméně jejich analýza (statistická, syntaktická, normalizace, pomocné slovní druhy) je složitá a přesahuje rámec této práce. 10 Navíc tato analýza není nezbytným krokem v rámci indexování. I bez identifikace slovních spojení lze dosáhnout kvalitních výsledků v procesu indexování. 1.4. Stop-slova V každém textu se vyskytují slova, která nejsou nositelem důležité informace (viz kapitola Dělení a informační obsah slovních druhů). Tato slova je vhodné z indexování vynechat a snížit tím tak šum, který při indexování vzniká. I přesto se však (z důvodu rychlosti a objemu dat) můžeme setkat s tím, že jeden z největších internetových vyhledávačů Google.com indexuje stránky celé včetně předložek, spojek a dalších nevýznamných slov. 11 Pokud chceme vybraná slova vynechat, musí existovat algoritmus nebo slovník, který je schopen daná slova určit. Jednou z možností je použití tzv. negativního slovníku. Ten obsahuje seznam slov, která nejsou nositelem informace a neměla by být indexována. Zde je však třeba dávat pozor na případnou homonymii některých slov (předložka při a třetí, čtvrtý a šestý pád slova pře, viz kapitola Homonymie). Další možností je využití analýzy textu a na základě určitých pravidel vybrat slova, která budou označena jako stop-slova a vyřazena. To může být provedeno na základě frekvenční analýzy, kdy slovo s velkou frekvencí výskytu je s určitou pravděpodobností právě stop-slovo. 9 SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů: přehledová studie. Národní knihovna České republiky [online]. Praha, říjen 2002 [cit. 2014-06-20]. Dostupné z: http://full.nkp.cz/nkdb/docs/studie/cr.html 10 SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů: přehledová studie. Národní knihovna České republiky [online]. Praha, říjen 2002 [cit. 2014-06-20]. Dostupné z: http://full.nkp.cz/nkdb/docs/studie/typy.html 11 Jak na bezproblémovou indexaci google 1. Cn130.com [online]. 2010 [cit. 2014-06-21]. Dostupné z: http://cn130.com/2010/05/jak-na-bezproblemovou-indexaci-google-1 11

Zde je však třeba eliminovat možnou chybu, kdy by bylo vyřazeno klíčové slovo, které se často vyskytuje a výstižně charakterizuje dokument. Další možností je analýza na základě délky slov. Extrémně krátká slova (složená např. ze dvou znaků) obvykle mohou být označena jako stop-slova. Při použití tohoto postupu by ale měl existovat slovník, ve kterém budou naopak slova, která jsou extrémně krátká, ale přesto jsou nositeli informace a měla by být ponechána pro další zpracování. 12 1.5. Lemmatizace Lemmatizace je proces, jehož výstupem je normalizovaná forma slova. Tato činnost je v rámci této práce velmi podstatná, a proto je jí věnována samostatná kapitola Lemmatizace. 1.6. Vážení termínů Poslední fází zpracování dokumentu je přiřazení váhy (významnosti) jednotlivým lemma, případně určení klíčových slov. Tento krok vychází z poznatku, že různá slova jsou schopna různou mírou charakterizovat obsah vybraného dokumentu (mají různou selektivní sílu). Selektivní síla slouží pro stanovení míry, do jaké jsou schopny indexační termíny efektivně vyhledávat dokumenty. Nízká hodnota znamená malou selektivní sílu, vysoká hodnota znamená vysokou selektivní sílu. 13 Selektivní sílu je možné vyjádřit pomocí vztahu: N vyjadřuje počet dokumentů v databázi, n(t) počet dokumentů, které jsou charakterizovány znakem t, w(t) selektivní sílu znaku t. 14 Je možné využít různá kritéria (nebo i jejich kombinaci) k určení váhy jednotlivých slov. Na základě poznatků o českém jazyce je možné preferovat určité slovní druhy jako slova s větší 12 SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů: přehledová studie. Národní knihovna České republiky [online]. Praha, říjen 2002 [cit. 2014-06-20]. Dostupné z: http://full.nkp.cz/nkdb/docs/studie/cr.html 13 KŠÁRA, Martin. Extrakce informací z lékařských textů [online]. Praha, 2008 [cit. 2014-05-21]. Dostupné z: https://dip.felk.cvut.cz/browse/pdfcache/ksaram1_2008dipl.pdf. Diplomová práce. České vysoké učení technické, Fakulta elektrotechnická. Vedoucí práce Ing. Monika Žáková. 14 STROSSA, Petr. Zpracování informačních fondů. 2., přeprac. a rozš. vyd. Praha: Vysoká škola ekonomická, 2000, 175 s. ISBN 80-245-0090-6. 12

váhou. Podstatná a přídavná jména mají největší váhu, ostatní slovní druhy mají váhu buď menší, nebo jsou úplně vynechaná (viz kapitola Stop-slova). 15 Dalším kritériem je frekvence a místo výskytu vybraného termínu. Čím častěji se slovo v dokumentu vyskytuje, tím relevantnější a váženější by mělo být. Tato podmínka se samozřejmě netýká stop-slov (viz kapitola Stop-slova). Výskyt určitého slova v nadpisu, názvu nebo třeba v abstraktu dokumentu zvyšuje jeho váhu. Pro použití tohoto kritéria však musí být při analýze určena alespoň částečná struktura dokumentu, aby bylo možné rozeznat, co je název dokumentu, co je nadpis atd. Zajímavé je také zjistit, jak často se slovo objevuje v charakteristikách jiných dokumentů. Pokud je určitý termín často používaný, bude sice charakterizovat vybraný dokument, nicméně jeho selektivní síla bude nízká. Naopak slovo, které se u ostatních dokumentů nevyskytuje, bude mít vysokou selektivní sílu. Pokud je jeho hodnota extrémně vysoká, je nutné prozkoumat, zda se nejedná o velmi odborné nebo specifické slovo a zda by nebylo vhodnější nahradit ho jiným, obecnějším výrazem. 16 1.7. Tezaurus Pojem tezaurus označuje slovník (nebo slovní zásobu), které obsahují seznam synonym k hledanému výrazu. 17 Tezaurus může být řazen buď abecedně, nebo využívat tzv. hnízdového řazení. Tento způsob byl využit i ve slovníku Tezaurus jazyka českého (Klégr, Aleš), který je rozdělen na 885 kategorií (hnízd). Toto dělení dle významu usnadňuje nalezení pojmů, kterými lze určitý význam vyjádřit. Hledání je však nutné rozdělit na dvě části nejprve v rejstříku a až poté ve vlastním slovníku. 18 Obvykle se však nejedná pouze o seznam výrazů a jejich synonym. Nejvýznamnějším rozšířením z hlediska indexování je zachycení vztahů mezi výrazy. Díky tomu je možné při indexování nahrazovat nebo doplňovat určitá slova (např. se širším nebo naopak užším 15 KŠÁRA, Martin. Extrakce informací z lékařských textů [online]. Praha, 2008 [cit. 2014-05-21]. Dostupné z: https://dip.felk.cvut.cz/browse/pdfcache/ksaram1_2008dipl.pdf. Diplomová práce. České vysoké učení technické, Fakulta elektrotechnická. Vedoucí práce Ing. Monika Žáková. 16 SCHWARZ, Josef. Současné trendy v selekčních jazycích. [online]. 2007 [cit. 2014-07-06]. Dostupné z: is.muni.cz/el/1421/jaro2007/vikma05/um/tsj1.ppt 17 Pojem tezaurus. ABZ slovník cizích slov [online]. 2014 [cit. 2014-07-11]. Dostupné z: http://slovnik-cizichslov.abz.cz/web.php/slovo/tezaurus-thesaurus 18 KLÉGR, Aleš. Tezaurus jazyka českého: slovník českých slov a frází souznačných, blízkých a příbuzných. Vyd. 1. Praha: NLN, Nakladatelství Lidové noviny, 2007, 1189 s. ISBN 978-80-7106-920-1. 13

významem). Stejně tak lze využít strukturu výrazů k lepšímu sestavení dotazu a k jeho upřesnění. 19 19 HELLEBRAND, David. Nalezení slovních kořenů v češtině. Brno, 2010. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií, Ústav informačních systémů. Vedoucí práce Ing. Petr Chmelař. 14

2. Charakteristika českého jazyka Jestliže je cílem této práce vytvořit lemmatizátor, který bude určitým způsobem využívat gramatická pravidla českého jazyka, je nejprve nutné porozumět způsobu, jakým je jazyk používán. U každého jazyka jsou patrné rozdíly mezi ústní a písemnou formou. V rámci této diplomové práce se zaměřím pouze na jazyk psaný. Ten lze považovat za přesnější a úplnější formu používání jazyka. V mluvené podobě se totiž některé hlásky zaměňují za jiné (z důvodu snazší výslovnosti) a některé hlásky nebo i celé slabiky jsou buď úplně vynechávány, nebo v proudu slov zanikají. Zvukovými vlastnostmi jazyka, výslovností jednotlivých hlásek a jejich funkcí se podrobně zabývá vědní disciplína zvaná fonologie. 20 Jazyk (nejen český) se obvykle liší podle geografické oblasti, kde se používá. Na takto vzniklá nářečí pak nelze aplikovat všechna pravidla jako na spisovnou formu jazyka, protože se mohou měnit různé vlastnosti jazyka. V češtině se mohou měnit některé afixy, ale i celá slova. 2.1. Typologická klasifikace jazyků Obecně je možné dělit jazyky do různých skupin podle odlišných hledisek. Při dělení se využívá vlastností jazyka, které jsou pro něho charakteristické a které v daném jazyce převažují. Nelze však vyloučit výskyt prvků i z jiné skupiny jazyků (jsou však zastoupeny poměrně méně než prvky skupiny, do které je jazyk zařazen). Zařazení jazyka se také může měnit díky přirozenému vývoji, kdy se v konkrétním jazyku začíná objevovat stále více prvků jiné jazykové skupiny. Typologií, podle kterých lze klasifikovat jazyky, je více, např. fonologická (zabývá se přízvukem, slabikami) nebo syntaktická (předmětem zkoumání je slovosled), pro potřeby této diplomové práce je však nejpodstatnější typologie morfologická. 21 20 KARLÍK, Petr, Marek NEKULA a Jana PLESKALOVÁ. Encyklopedický slovník češtiny. Praha: Lidové noviny, 2002, 604 s. ISBN 80-710-6484-X. 21 ČERMÁK, František. Jazyk a jazykověda: přehled a slovníky. Vyd. 3., dopl. Praha: Karolinum, 2001, 340 s. Učební texty Univerzity Karlovy v Praze. ISBN 978-802-4601-540. 15

2.1.1. Morfologická typologie Dělení jazyků dle morfologické typologie je založeno na základních vlastnostech gramatické stavby. Podle toho, do které skupiny je jazyk zařazen, je následně zapotřebí zvolit vhodný způsob lemmatizace. Rozdělení je obvykle prováděno do těchto skupin: 22 syntetické o flexivní o introflexivní o aglutinační o polysyntetické analytické Analytické jazyky, nazývané též izolační (někdy je tato skupina ještě dále dělená na jazyky analytické a amorfní, což není z hlediska zaměření této práce podstatné), nepoužívají ve svém stavebním jazykovém systému předpony, přípony ani koncovky. Gramatika je tvořena především pomocnými slovy (např. předložkami) a pořadím slov ve větě. Důležitou roli hrají příslovce. Představiteli této jazykové skupiny jsou barmština, vietnamština a z určitého hlediska také angličtina. 23 Mezi polysyntetické jazyky patří čínština, turečtina nebo finština. Tyto jazyky jsou založené na složených slovech, která vznikají spojením různých plnovýznamových slov. Tuto charakteristiku lze vysledovat i u některých slov v českém jazyce (např. uměleckoprůmyslový). 24 Aglutinační jazyky využívají ve velké míře předpony a přípony spojené s kořenem jiného slova. V jednom slově se může vyskytovat i více afixů najednou. Na rozdíl od flexivních jazyků však jeden afix vyjadřuje obvykle pouze jeden gramatický tvar. Navíc každý gramatický tvar je vždy vyjádřen stejným afixem. Jazyky zařazené do této skupiny jsou korejština, japonština nebo maďarština. 25 Introflexivní jazyky jsou charakteristické změnou hlásek přímo v kořeni slova. Tento jev lze pozorovat v afroasijských jazycích, ale částečně se vyskytuje i v jazycích germánských (např. 22 ČERMÁK, František. Jazyk a jazykověda: přehled a slovníky. Vyd. 3., dopl. Praha: Karolinum, 2001, 340 s. Učební texty Univerzity Karlovy v Praze. ISBN 978-802-4601-540. 23 ČERNÝ, Jiří. vod do studia jazyka. 1. vyd. Olomouc: Rubico, 1998, 248 s. ISBN 80-858-3924-5. 24 ERHART, Adolf. vod do jazykovědy. Brno: Masarykova Univerzita, 2001, 200 s. 25 POKORNÝ, Jan a Juraj HANULIAK. Lingvistická antropologie: jazyk, mysl a kultura. 1. vyd. Praha: Grada, 2010, 346 s. ISBN 978-802-4728-438. 16

der Bruder bratr, die Brüder bratři) nebo v jazyce českém (druhý pád jednotného čísla od slova nůž je nože). 26 Flexivní jazyky se vyznačují bohatým využíváním afixů, skloňováním a časováním. Do této skupiny jazyků patří většina slovanských jazyků včetně češtiny, a je tak z hlediska této práce nejzajímavější. Na rozdíl od aglutinačních jazyků, kde jsou přípony ke slovu připojeny, mohou ve flexivních jazycích přípony se slovem splývat, což ztěžuje jejich následnou identifikaci. Pokud je zapotřebí vyjádřit více gramatických kategorií najednou, ve flexivních jazycích není pevně daný počet afixů, a tak se může vyskytnout pouze jeden afix vyjadřující několik gramatických kategorií (na rozdíl od aglutinačních jazyků, kde každou gramatickou kategorii představuje právě jeden afix). Zároveň s tím však flexivní jazyky mají i opačnou verzi tohoto pravidla, kdy je jedna gramatická kategorie vyjádřena různými afixy podle slova, ke kterému se váže (toto pravidlo je opět v kontrastu s aglutinačními jazyky). Poslední, avšak neméně důležitou vlastností flexivních jazyků je možná změna kořene slova podle gramatické kategorie. 27 2.1.2. Dělení a informační obsah slovních druhů Český jazyk obsahuje celkem deset slovních druhů. Zařazení slov ve větě do jednotlivých slovních druhů je podstatné pro určení toho, zda dané slovo může nést podstatnou informaci nebo ne. Při správném určení slovního druhu je také možné určit, co vše lze se slovem dělat (tj. zda se jedná o slovo ohebné nebo neohebné a zda je možné ho skloňovat, časovat nebo stupňovat). 26 POKORNÝ, Jan a Juraj HANULIAK. Lingvistická antropologie: jazyk, mysl a kultura. 1. vyd. Praha: Grada, 2010, 346 s. ISBN 978-802-4728-438. 27 KARLÍK, Petr, Marek NEKULA a Jana PLESKALOVÁ. Encyklopedický slovník češtiny. Praha: Lidové noviny, 2002, 604 s. ISBN 80-710-6484-X. 17

Za slovní druhy, které mohou nést hlavní informaci, lze považovat prvních šest slovních druhů, tj. podstatná jména, přídavná jména, zájmena, číslovky, slovesa a příslovce. Zbylé čtyři druhy (předložky, spojky, částice a citoslovce) se nepovažují za nositele podstatné informace. Dělení na ohebné a neohebné slovní druhy odpovídá předchozímu dělení, neboť předložky, spojky, částice a citoslovce jsou neohebné, ostatní jsou ohebné. V rámci ohebných slovních druhů je ještě nutné odlišit slovesa, která lze časovat, příslovce, která lze stupňovat, ostatní slovní druhy je možné skloňovat. Přehled jednotlivých slovních druhů je uveden na obrázku Přehled slovních druhů. Slovní druhy Ohebné Neohebné Skloňované Časované Stupňované Předložky Podstatná jména Přídavná jména Slovesa Příslovce Spojky Zájmena Číslovky Částice Citoslovce Obrázek 1: Přehled slovních druhů Zdroj: Autor I přesto, že zájmena patří mezi nositele hlavní informace, obvykle není možné jejich potenciál využít. Odkazují totiž sice na určitý konkrétní termín, ale nepřímo, např. odkazem na jiné jméno. Pokud by měla být odhalena informace ukrytá v zájmenu, musela by být provedena analýza, na jaké jméno zájmeno odkazuje. Tato obtížná disciplína je však mimo rozsah této práce. 18

2.1.3. Charakteristika slovních druhů V rámci této práce bude probíhat pouze lemmatizace podstatných a přídavných jmen. Proto budou detailněji popsány tyto dva slovní druhy. Popis ostatních slovních druhů bude o něco stručnější. Tato podkapitola bude využita v praktické části této práce, kde budou jednotlivé vlastnosti slovních druhů aplikovány ve vytvořeném lemmatizátoru. Podstatná jména Podstatná jména označují činnosti a stavy a dále názvy zvířat, věcí a osob. Tyto názvy mohou být buď vlastní, nebo obecné. Obecná jména jsou taková, která nepopisují konkrétní osobu nebo věc, např. strom. Vlastní jména jsou taková, která označují konkrétní osobu (osobní jména), nebo popisují určité zvíře nebo určité místo (místní, zeměpisná jména). Většina podstatných jmen je odvozených. Odvození probíhá za pomoci předpon a přípon, skládáním slov, nebo naopak jejich zkracováním. 28 Podstatná jména se dělí na životná (označují osoby a zvířata) a neživotná. Mluvnicky se však tento rozdíl projevuje pouze u substantiv mužského rodu. V některých případech mohou mít neživá podstatná jména v mužském rodě (především v prvním pádě množného čísla) tvar životný i neživotný (např. koníčci a koníčky). 29 Každé podstatné jméno patří do jednoho ze tří rodů, a to buď mužského, ženského nebo středního. Pokud se jedná o osoby nebo zvířata, obvykle je mluvnický rod shodný s rodem přirozeným. Středním rodem je pak možné označovat oba přirozené rody (např. kuře, dítě). U věcí se rod řídí zpravidla zakončením podstatného jména. 30 Substantiva mají obvykle jednotné a množné číslo. Některá z nich mají pouze číslo jednotné. Mezi ně patří podstatná jména popisující vlastnosti a děje (např. mladost, píle), podstatná jména hromadná (např. kamení, listí, obyvatelstvo) a podstatná jména látková (např. krev, mouka). V českém jazyce se vyskytují i substantiva, která mají pouze tvary množného čísla, tzv. pomnožná (např. dveře, ústa). 31 28 HAVRÁNEK, Bohuslav a Alois JEDLIČKA. Česká mluvnice. Praha: Státní pedagogické nakladatelství, 1960, 561 s. 29 KOMÁREK, Miroslav, Jan KOŘENSKÝ a Jan PETR. Mluvnice češtiny 2: Tvarosloví. Praha: Academia, 1986, 536 s. 30 tamtéž 31 HAVRÁNEK, Bohuslav a Alois JEDLIČKA. Česká mluvnice. Praha: Státní pedagogické nakladatelství, 1960, 561 s. 19

Skloňování podstatných jmen se vyjadřuje pomocí různých pádů. Český jazyk jich má sedm. Skloňování se dělí podle rodu daného slova a následně podle prvního pádu jednotného čísla, příp. druhého pádu jednotného čísla (pokud první pád jednotného čísla nemá koncovku). Mužský rod obsahuje vzory pán, hrad, muž, stroj, předseda a soudce, ženský rod žena, růže, píseň a kost a střední rod město, moře, kuře a stavení. Některé z těchto vzorů mají ještě podvzory, která se využívají pouze v některých pádech určitých slov (např. podvzor les vzoru hrad, podvzor sluha vzoru předseda). 32 Přídavná jména Přídavná jména jsou slova, která upřesňují význam podstatných jmen nebo popisují jejich vlastnosti. Většina přídavných jmen je vytvořena odvozením od jiných slovních druhů, v menšině pak stojí adjektiva neodvozená. V případě odvozených slov se obvykle k základu původního slova připojují přípony, méně často předpony. V nízkém zastoupení lze také nalézt přídavná jména vytvořená skládáním. Odvozená přídavná jména mohou vzniknout vytvořením slova od základu podstatného jména (bolest bolestný), slovesa (léčit léčivý) nebo i od jiného přídavného jména (veliký velikánský). Neodvozená přídavná jména nejčastěji vyjadřují vlastnost popisovaného slova v užším smyslu (tvrdý, zlý). 33 Adjektiva je možné dělit ještě jiným, pro lemmatizaci vhodnějším způsobem. Podle morfologické stavby lze rozlišit dlouhé a krátké tvary přídavných jmen. Mezi adjektiva s dlouhými tvary patří přídavná jména tvrdého podtypu A (skloňují se podle vzoru mladý) a měkkého podtypu B (podle vzoru jarní). Krátké tvary jsou typické pro přídavná jména jmenná a individuálně přivlastňovací (skloňují se podle vzorů otcův a matčin). Skloňování jednotlivých typů adjektiv je popsané především pomocí přípon a koncovek. Jejich detailní popis je možné najít v knihách specializovaných na morfologii českého jazyka. Mezi nejčastější přípony přídavných jmen patří ní (jarní), ný (smutný), ský a cký (elektrický), ový (kachlový), ecí (zvířecí) nebo pouze í (psí). 34 32 KOMÁREK, Miroslav, Jan KOŘENSKÝ a Jan PETR. Mluvnice češtiny 2: Tvarosloví. Praha: Academia, 1986, 536 s. 33 HAVRÁNEK, Bohuslav a Alois JEDLIČKA. Česká mluvnice. Praha: Státní pedagogické nakladatelství, 1960, 561 s. 34 KOMÁREK, Miroslav, Jan KOŘENSKÝ a Jan PETR. Mluvnice češtiny 2: Tvarosloví. Praha: Academia, 1986, 536 s. 20

Charakteristickou vlastností přídavných jmen je stupňování. K němu dochází pouze u adjektiv podtypu A a B. Zájmena Název tohoto slovního druhu je odvozen od skutečnosti, že tento slovní druh se využívá za jména (= místo jmen). Z toho je patrné, že se jedná o slova, která se používají jako zastupující výrazy za příslušná podstatná a přídavná jména. Zájmena vyjadřují vztah mluvčího k určité nebo neurčité osobě, vlastnosti nebo věci. Svými tvary specifikují pád a číslo, některá i mluvnický rod. 35 Zájmena se dělí na sedm základních skupin, a to zájmena osobní (a zvratná), přivlastňovací, ukazovací, tázací, vztažná, neurčitá a záporná. Podle tvaru je možné určit pád a číslo, až na výjimky, jako jsou zájmena kdo, co nebo každý, která mají význam a tvar pouze jednotného čísla. Další výjimkou je zvratné zájmeno sebe, jehož tvary jsou ve všech pádech i v obou číslech stejné. Některá zájmena specifikují i rod podstatného jména, na které odkazují. Nazývají se rodová a u mužského rodu vyjadřují i životnost a neživotnost (např. ti, ty, ten, ta, to ). Skloňování těchto zájmen může být buď zájmenné (vzory ten a náš), nebo se řídí podle skloňování přídavných jmen (podle vzorů mladý a jarní). Zájmena bezrodá mají vlastní způsob skloňování. 36 Číslovky Číslovky mají již ze svého názvu povahu číselného slova. Označují pořadí, počet apod. Podle jejich významu se dělí na základní, řadové, druhové, násobné a neurčité. 37 Morfologie číslovek je velmi různorodá, neboť vychází z podstatných jmen, z přídavných jmen i z příslovcí. Minoritní část číslovek navíc přejímá určité morfologické vlastnosti zájmen. Navíc jsou jednotlivé gramatické prostředky (pád, číslo, rod a životnost) mezi číslovkami zastoupeny nerovnoměrně. U některých z nich některá kategorie zcela chybí (častěji číslo a životnost, řidčeji rod), nebo kategorie je zastoupena, ale nevýrazně. Číslovky jsou většinou 35 HAVRÁNEK, Bohuslav a Alois JEDLIČKA. Česká mluvnice. Praha: Státní pedagogické nakladatelství, 1960, 561 s. 36 tamtéž 37 tamtéž 21

slova sklonná (i když někdy neúplně), nicméně pokud jsou plně odvozena od příslovcí, řadí se mezi slova nesklonná. 38 Aby měly číslovky pro příjemce informace vypovídající hodnotu, je nezbytné jejich spojení s jiným slovním druhem, jehož počet nebo pořadí vyjadřují. Slovesa Slovesa jsou slova, která nesou informaci o ději, který je přisuzován podmětu v dané větě. Popisují buď činnost podmětu (běžím), jeho stav (žiji), změnu jeho stavu (stárnu), nebo děj obecně bez vztahu k podmětu (sněží). Méně často se mohou slovesa vázat také k předmětu. 39 Dělení sloves je poměrně obsáhlé vzhledem k velkému množství různých typů. Protože cílem této práce není vytvoření lemmatizátoru pro slovesa, bude jejich popis pouze povrchní. U sloves se rozeznávají následující kategorie: osoba, číslo, čas, slovesný způsob, slovesný rod a vid. Některé kategorie (např. slovesný rod) nemusí být rozlišený u všech sloves. Dalším způsobem dělení sloves je vyjádření pomocí jednoduchého nebo složeného tvaru. Pro lemmatizaci je velmi významným dělícím kritériem významovost. Slovesa se podle toho dělí na plnovýznamová, pomocná a sponová. Dle vidu se tento slovní druh dělí na slova dokonavá a nedokonavá, podle slovesného rodu na činná a trpná. 40 Příslovce Prvním zmíněným slovním druhem, který není ohebný, jsou příslovce. Jejich funkcí je přibližování různých okolností nebo označování míry předmětu. Tento slovní druh se dělí na příslovce času, způsobu, míry, místa a příčiny. 41 Pokud se ve větě vyskytují jako přívlastek, jsou svázány s podstatným jménem. Pokud jsou to příslovečná určení, jsou spojena s jinými příslovci, přídavnými jmény nebo se slovesy. 38 KOMÁREK, Miroslav, Jan KOŘENSKÝ a Jan PETR. Mluvnice češtiny 2: Tvarosloví. Praha: Academia, 1986, 536 s. 39 HAVRÁNEK, Bohuslav a Alois JEDLIČKA. Česká mluvnice. Praha: Státní pedagogické nakladatelství, 1960, 561 s. 40 tamtéž 41 KOMÁREK, Miroslav, Jan KOŘENSKÝ a Jan PETR. Mluvnice češtiny 2: Tvarosloví. Praha: Academia, 1986, 536 s. 22

Většina příslovcí je odvozena od přídavných jmen, a to pomocí přípony ě (nebo e), méně často pak příponami y nebo o. 42 Předložky Předložky jsou slova, která (stejně jako příslovce) určují okolnosti, jako jsou např. místo nebo čas. Dělí se na předložky vlastní a nevlastní. Rozdíl mezi nimi spočívá v tom, že vlastní předložky mají pouze význam předložek (např. v, pro, do), zatímco nevlastní předložky mohou mít i význam jiného slovního druhu, obvykle příslovce nebo podstatného jména (např. kolem, místo). Předložky se dále dělí na neslabičné (v, s, k) a slabičné (nad, pod, do). 43 Každá předložka, bez ohledu na předchozí dělení, se pojí s určitým pádem, a to buď s jedním, nebo s několika. 44 Spojky Spojky spojují jednotlivé věty nebo větné členy v jeden celek a zároveň vyjadřují poměr mezi těmito členy (větami). Samy o sobě však nejsou větnými členy. Pokud je poměr mezi větami spojenými spojkou souřadný, jedná se o spojky souřadicí, pokud se jedná o poměr řídící (s podřadným připojením), nazývají se spojky podřadicí. 45 Zmíněné dělení je podstatné i z hlediska psaní čárek před spojkami, nicméně při lemmatizaci jsou interpunkční znaky nahrazovány. Z hlediska cíle této práce se tedy nejedná o významné informace. Částice Částice jsou také neohebným slovním druhem, který se využívá k uvozování samostatné věty. U použité věty (případně i větného členu) vyjadřují odstín nebo citové zabarvení, nebo mohou určovat charakter věty (např. zvolání, rozkaz). Samy o sobě nejsou větnými členy. 46 42 KOMÁREK, Miroslav, Jan KOŘENSKÝ a Jan PETR. Mluvnice češtiny 2: Tvarosloví. Praha: Academia, 1986, 536 s. 43 HAVRÁNEK, Bohuslav a Alois JEDLIČKA. Česká mluvnice. Praha: Státní pedagogické nakladatelství, 1960, 561 s. 44 tamtéž 45 tamtéž 46 tamtéž 23

Citoslovce Citoslovce jsou posledním popisovaným slovním druhem. Vyjadřují city a nálady mluvčího a označují hlasy a zvuky. Jejich výskyt v realitních inzerátech je vzhledem k jejich charakteru naprosto ojedinělý. 2.2. Frekvence výskytu slovních druhů V textu se slovní druhy vyskytují v různé frekvenci. Pro český jazyk existuje několik frekvenčních slovníků, které se zabývaly frekvencí výskytu jednotlivých slov v textu (ČERMÁK, František a kol.: Frekvenční slovník češtiny; Jelínek, Jaroslav, Josef V. Bečka a Marie Těšitelová: Frekvence slov, slovních druhů a tvarů v českém jazyce). Pro lemmatizaci není až tak významný výskyt jednotlivých slov. Zajímavějším ukazatelem je výskyt jednotlivých slovních druhů. Ten je uveden v následující tabulce Výskyt slovních druhů. Pořadí Slovní druh Frekvence výskytu 1. Podstatná jména 27,77 % 2. Slovesa 18,15 % 3. Přídavná jména 11,16 % 4. Zájmena 10,91 % 5. Příslovce 10,29 % 6. Předložky 10,12 % 7. Spojky 9,78 % 8. Číslovky 1,61 % 9. Citoslovce 0,21 % Tabulka 1: Výskyt slovních druhů Zdroj: Jelínek, Jaroslav, Josef V. Bečka a Marie Těšitelová: Frekvence slov, slovních druhů a tvarů v českém jazyce Z uvedené tabulky je zřejmé, že pro lemmatizaci jsou nejpodstatnější podstatná jména, následovaná slovesy a přídavnými jmény. Pokud by se úspěšně vyřadily slovní druhy, které nenesou podstatnou informaci (viz kapitola Dělení a informační obsah slovních druhů) a byla by přepočtena frekvence výskytu zbylých slovních druhů, vznikne následující tabulka 24

Pořadí Slovní druh Frekvence výskytu 1. Podstatná jména 34,76 % 2. Slovesa 22,72 % 3. Přídavná jména 13,97 % 4. Zájmena 13,66 % 5. Příslovce 12,88 % 6. Číslovky 2,01 % Tabulka 2: Výskyt slovních druhů s podstatnou informací Zdroj: Autor Z této tabulky vyplývá, že podstatná a přídavná jména společně tvoří téměř polovinu všech slov (48,73%) a jsou pro lemmatizaci velmi významná. Frekvence výskytu sloves je sice také vysoká (dokonce vyšší než přídavných jmen), nicméně pro lemmatizaci jsou zajímavá pouze slovesa plnovýznamová, která netvoří většinu z uvedeného procenta výskytu. 47 2.3. Homonymie Při vytváření lemmatizátoru českého jazyka je zapotřebí zohlednit tzv. homonymii, tj. jev, který se v českém jazyce vyskytuje a bohužel tím lemmatizaci komplikuje. Homonymii je možné definovat jako jev, kdy jedna jazyková forma (např. lexém, morfém) je nositelkou dvou nebo více jazykových funkcí (významů). 48 Praktickým příkladem jsou slova jako los (zvíře nebo loterijní tiket), vlna (na vodní hladině nebo zvířecí srst) nebo kolej (vlaková nebo studentská ubytovna). Víceznačnost se nemusí omezovat pouze na jednotlivá slova, ale může být obsažena i v delších výrazech. Homonymie (obvykle více jejích výskytů najednou) může způsobit, že správný význam slov (nebo i celých vět) lze určit jen na základě analýzy širšího kontextu nebo i na základě předpokladu vzhledem k obsahu okolních vět. Pak je ale nutné počítat i s určitou mírou chybovosti. 47 JELÍNEK, Jaroslav, Josef BEČKA a Marie TĚŠITELOVÁ. Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha: Státní pedagogické nakladatelství, 1961. ISBN -. 48 Diblík, Ondřej a Simona Kukučová. 2012. Homonymie. Encyklopedie lingvistiky, ed. Kateřina Prokopová. Olomouc: Univerzita Palackého v Olomouci. http://oltk.upol.cz/encyklopedie/index.php5/homonymie 25

2.3.1. Lexikální homonymie Lexikální homonymii chápeme jako běžný jev lexikálního systému každého národního jazyka. Vyznačuje se identitou psané a mluvené (zvukové) podoby dvou nebo více slov. 49 Obvykle jsou tato homonymní slova v jiném než základním tvaru (např. tancích od slova tank nebo od slova tanec), ale mohou se vyskytovat i v prvním pádě. Příkladem je již zmíněný los. Tento případ je pro lemmatizaci obtížnější, protože je nutné rozhodnout, které tvary se budou generovat (zda bude druhý pád jednotného čísla losa zvíře nebo losu tiket). Je také možné vygenerovat všechny tvary, což však může mít negativní vliv na přesnost vyhledávání. 50 2.3.2. Morfologická homonymie Morfologická homonymie je jakákoli totožnost formy ( ) v rámci jednoho, popř. dvou i více tvarových systémů. 51 V praxi se tak může jednat například o problematiku spojenou s koncovkami a skloňováním, kdy jedna koncovka je pro dané slovo platná ve více pádech. Např. slovo žena má stejný tvar v prvním, čtvrtém a pátém pádě množného čísla (ženy). Tento problém je možný alespoň částečně řešit syntaktickou analýzou věty, tedy takovým rozborem, aby byla věta bez gramatických chyb. Tento způsob však nemusí být vždy úspěšný, neboť v některých větách může existovat více korektních interpretací. Např. ve větě Auto míjí autobus. jsou slova auto a autobus v prvním nebo čtvrtém pádě a není možné určit, která interpretace je správná. Podmětem totiž může být auto (a předmětem autobus) i autobus (a předmětem auto). 52 2.3.3. Významná a nevýznamná slova Zajímavým problémem je homonymie, kdy slovo může, ale nemusí nést podstatnou informaci (viz kapitola Dělení a informační obsah slovních druhů). Příkladem takového slova je slovo při. Pokud se jedná o předložku, pak toto slovo nenese hlavní informaci a mělo by být vyřazeno z indexování (zařazeno do seznamu stop-slov, viz kapitola Stop-slova). Může se však jednat i o šestý pád jednotného čísla slova pře. Toto slovo by určitě nemělo být vyřazeno, neboť 49 KARLÍK, Petr, Marek NEKULA a Jana PLESKALOVÁ. Encyklopedický slovník češtiny. Praha: Lidové noviny, 2002, 604 s. ISBN 80-710-6484-X. 50 STROSSA, Petr. Válka s homonymií. ComputerWorld [online]. 2003 [cit. 2014-05-08]. Dostupné z: http://computerworld.cz/archiv/valka-s-homonymii-19796 51 TĚŠITELOVÁ, Marie. O morfologické homonymii v češtině. Praha: Academia, 1966, 94 s. ISBN -. 52 STROSSA, Petr. Válka s homonymií. ComputerWorld [online]. 2003 [cit. 2014-05-08]. Dostupné z: http://computerworld.cz/archiv/valka-s-homonymii-19796 26

je nositelem důležité informace. Rozlišení mezi tím, kdy slovo vyřadit a kdy ne, je však poměrně obtížné. Některé indexační algoritmy dokonce ponechávají všechna rozhodnutí tohoto typu na člověku (indexování tedy není plně automatické a vyžaduje vstup od uživatele). 53 2.3.4. Úplná a částečná homonyma Homonyma je možné dělit na úplná a částečná. Rozdíl mezi nimi spočívá v tom, zda jsou všechny tvary vybraných slov stejné, nebo se z nějakého důvodu odlišují. Slovo vlna (na hladině i zvířecí) má bez ohledu na vybraný význam všechny tvary stejné. Naopak již zmíněný los (zvíře a tiket) má některé tvary různé, protože slovo samotné se liší v životnosti. Tento rozdíl má vliv na komplikovanost indexování a případně i na přesnost vyhledávání. 54 53 STROSSA, Petr. Válka s homonymií. ComputerWorld [online]. 2003 [cit. 2014-05-08]. Dostupné z: http://computerworld.cz/archiv/valka-s-homonymii-19796 54 Diblík, Ondřej a Simona Kukučová. 2012. Homonymie. Encyklopedie lingvistiky, ed. Kateřina Prokopová. Olomouc: Univerzita Palackého v Olomouci. http://oltk.upol.cz/encyklopedie/index.php5/homonymie 27

3. Lemmatizace Lemmatizace je proces, jehož výsledkem by mělo být nalezení normalizované formy slova. 55 Pojem lemmatizace je často zaměňován s termínem stemming. Tyto pojmy sice mají společný základ, ale přesto výstupy těchto procesů mohou být různé. Výsledkem lemmatizace je tzv. lemma, tedy normalizovaná forma daného slova. Ta může, ale nemusí odpovídat kmenu nebo kořenu slova. V rámci zjednodušení této diplomové práce se dokonce může jednat i o tvar slova, který v přirozeném jazyce neexistuje. Výsledkem stemmingu je nalezení stemu, tedy kmenu slova. Tato metoda je používána např. u anglických textů, které jsou z velké části založeny na předponách a příponách, po jejichž odstranění je výsledkem kmen daného slova. 3.1. Algoritmy Při provádění lemmatizace jsou používány algoritmy, které jsou založeny na různých principech. Lemmatizace tak probíhá na základě porovnávání se slovníkem, odstraněním přípon, na základě lemmatizačních algoritmů, stochastických algoritmů nebo kombinací některých z nich. 3.1.1. Brute Force algoritmy Tento typ algoritmů je založený na využívání slovníku. V překladu by se mohl nazývat algoritmus využívající hrubou sílu. Princip spočívá v obrovské tabulce, kde jsou uvedeny všechny stemy (nebo lemma) a všechny jejich možné tvary. Převedení na správný stem (nebo lemma) pak probíhá přes nalezení slova v tabulce a nahrazením odpovídajícím výrazem v druhém sloupci tabulky. 56 55 HELLEBRAND, David. Nalezení slovních kořenů v češtině. Brno, 2010. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií, Ústav informačních systémů. Vedoucí práce Ing. Petr Chmelař. 56 KARÁSEK, Jan, Pavel ŠANDA, Radim BURGET a Ondřej MORSKÝ. Strojové učení základem pro hybridní lemmatizační algoritmus. Elektro revue [online]. 2012, roč. 2012, 14/5, 10 s. [cit. 2014-06-22]. Dostupné z: http://www.elektrorevue.cz/cz/download/strojove-uceni-zakladem-pro-hybridni-lemmatizacni-algoritmus/ 28

Nevýhodou tohoto algoritmu je velikost slovníku. Je prakticky nemožné vytvořit databázi všech slov a všech jejich tvarů pro určitý jazyk. Kromě problémů s velikostí a výkonem tento princip naráží také na přirozený vývoj jazyka. Slovník by tak musel být neustále aktualizován. 57 3.1.2. Suffix stripping Tento typ algoritmu je založen na úplně jiném principu než Brute Force algoritmy. Jejich podstata spočívá v identifikaci přípon, které jsou následně odebrány, a tím se docílí základního tvaru slova. Tato metoda bude použita v praktické části této práce. 58 Problémem této metody mohou být neuspokojivé výsledky v případě nepravidelností nebo změn v kořeni slova. Mezi představitele tohoto typu algoritmů patří Lovinsův nebo Porterův algoritmus. 59 3.1.3. Lemmatizační algoritmy Lemmatizační algoritmy jsou (obecně vzato) založeny na předpokladu, že čím více informací je možné zjistit o daném slově ještě před jeho úpravou, tím lepšího výsledku lze dosáhnout. Proto se nejprve snaží určit slovní druh a teprve poté se na slovo aplikují různé algoritmy. Tyto algoritmy mohou být specifické právě pro vybraný slovní druh, ale bývají často podobné jako pravidla v Suffix stripping algoritmech (viz kapitola Suffix stripping). 60 3.1.4. Stochastické algoritmy Stochastické algoritmy jsou postaveny na principu učení se. Obsahují testovací množinu, do které vloží zpracovávané slovo, a na základě určitých pravidel uvnitř této množiny je vrácen kořen slova. Vedle tabulky slov v testovací množině obsahují ještě pravděpodobnostní tabulku, 57 KARÁSEK, Jan, Pavel ŠANDA, Radim BURGET a Ondřej MORSKÝ. Strojové učení základem pro hybridní lemmatizační algoritmus. Elektro revue [online]. 2012, roč. 2012, 14/5, 10 s. [cit. 2014-06-22]. Dostupné z: http://www.elektrorevue.cz/cz/download/strojove-uceni-zakladem-pro-hybridni-lemmatizacni-algoritmus/ 58 ŠANDA, Pavel. Určení základního tvaru slova. Brno, 2011. Dostupné z: https://www.vutbr.cz/www_base/zav_prace_soubor_verejne.php?file_id=37140. Diplomová práce. Vysoké učení technické v Brně, Fakulta elektrotechniky a komunikačních technologií, Ústav telekomunikací. Vedoucí práce Ing. Jan Karásek. 59 tamtéž 60 HELLEBRAND, David. Nalezení slovních kořenů v češtině. Brno, 2010. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií, Ústav informačních systémů. Vedoucí práce Ing. Petr Chmelař. 29