Automatická extrakce sémanticky příbuzných slov
|
|
- Květa Procházková
- před 8 lety
- Počet zobrazení:
Transkript
1 MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY Automatická extrakce sémanticky příbuzných slov BAKALÁŘSKÁ PRÁCE Petr Haken Brno, jaro 2008
2 Prohlášení Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj. Vedoucí práce: Mgr. Pavel Rychlý, Ph.D. ii
3 Poděkování Děkuji Pavlovi Rychlému za odborné a trpělivé vedení práce. Za rady, které mi dával, při mých nesčetných otázkách. Také děkuji své rodině a přátelům za důvěru a podporu při psaní práce. iii
4 Shrnutí Práce pojednává o principech automatického vyhledávání sémanticky blízkých slov, jako jsou synonyma a podobně, jejich získávání z textových korpusů. Popisuje existující metody, které jsou navrženy pro anglický jazyk, a porovnává jejich úspěšnost pro češtinu. Poté zde jsou navrženy a aplikovány nové metody. Práce dále popisuje potíže přirozeného jazyka, snižující jejich schopnosti. Všechny principy jsou zhodnoceny a popsány jejich silné a slabé stránky. iv
5 Klíčová slova synonymum, antonymum, hyponymum, hyperonymum, víceznačnost, korpus, syntaktická analýza, morfologie, sémantická orientace, podobnost, thesaurus, kontext v
6 Obsah 1 Úvod Popis práce Sémantické vztahy Synonyma Antonyma Hyperonyma a hyponyma Další relace Zdroje slov Slovníky WORDNET Thesaurus Korpusy Použitý automatický přístup Pojmy a přístupy Morfologické značkování v korpusech Sémantická orientace SVOMPT vs. volný slovosled Rozsah významu slova v textu Existující metody Okénkové metody (Window methods) Metody založené na využití větných vztahů CASS SEXTANT MINIPAR a RASP Vlastní metody Vyhledávání antonym a synonym pomocí sémantické orientace Příbuznost na základě společných slov thesauru Fráze, určující sémantickou příbuznost a orientaci vi
7 4.4 Příbuzenské vztahy pomocí Sketch Diff Testování a výsledky Vybraná slova Měření podobnosti Výsledky a zhodnocení Rozbor měření Porovnání Zdokonalení přesnosti Závěr Literatura A Seznam vzorových slov a slov k nim příbuzných B Morfologické značky pro češtinu C Ohodnocení předložek pro sémantickou orientaci D Seznam použitých frází pro metodu vii
8 Kapitola 1 1 Úvod V současném světě plném počítačů a výpočetní techniky se stále častěji setkáváme s pojmy umělá inteligence a zpracování přirozeného jazyka (natural language processing NLP). Snažíme se udělat techniku chytřejší, podobnější lidskému myšlení. Mluvíme na ni a chceme, aby nám rozuměla a odpovídala. Čím dál více lidí ve svých zaměstnáních musí pracovat s počítači a velkou část jejich času pro odpočinek tráví opět u počítače. V elektronické podobě se nachází obrovské množství dat a informací. Lidé si chtějí práci ulehčit a tak stále více ji nechávají dělat automaticky a roste poptávka po aplikacích, jako jsou dialogové systémy, vyhledávání dokumentů, překlad čí extrakce dat z textů. Ale v oblasti výzkumu stále nacházíme problémy, které nejsou dobře vyřešeny. Za současného stavu mohou lidé dávat hlasové příkazy, nechat si přečíst určitý text, na Internetu vyhledávat stránky v relativně přirozeném jazyce a mnoho podobných úkonů. Ale současná kvalita není ještě taková, o jaké sní. A jeden z důvodů je ten, že technika ještě nerozumí významu slov a vět. Proto když lidé hledají určité slovo, stroj už jej dokáže morfologicky skloňovat, ale pořád je to jen text, ale ne slovo. Sémantická analýza je důležitou součástí porozumění jazyku, kdy získáváme význam z výrazů přirozeného jazyka. Výzkum sémantiky je stále v počátcích, a proto se snažíme hledat možnosti, jak význam získat i jinými způsoby, kdy je možno použít analýzy nižších stup ňů, jako je syntaktická či morfologická. Můžeme k tomu také využít velké množství textů, jaké se nyní shromažďují (korpusy). Během posledních let vzniklo několik metod, jak z korpusů získat příbuzná slova. Týkalo se to především anglického jazyka a úspěšnost byla relativně vysoká. Otázkou je, zda tyto metody fungují i pro češtinu. Práce se zabývá vyzkoušením těchto metod na český jazyk a porovnáním jejich úspěšností. V další části se pokusíme navrhnout nové metody a přístupy, jež budou tvořeny přímo pro češtinu, a prostudujeme, jak si stojí při aplikaci na jiný jazyk. 1
9 1.1 Popis práce Kapitola první uvádí do problematiky sémantické příbuznosti slov a jejich vyhledávání. Popisuje možné vztahy mezi slovy, jako jsou synonyma a podobně. Ukazuje teoretické a praktické problémy při jejich definování. Uvádí do ručně tvořených zdrojů, které slouží v oblasti zpracování přirozeného jazyka. Na jejím konci se naznačuje, jak mohou pomoci v automatickém získávání sémantické podobnosti mezi slovy. Druhá kapitola slouží k ujasnění mnoha pojmů, které budou uvedeny v následujících kapitolách a opírají se o ně mnohé metody. Také zde nalezneme popis problémů, které se objevují při převodu metod z anglického jazyka pro český. Třetí kapitola se zaměřuje na existující metody, které se v současnosti používají převážně na angličtinu. Stručně je popisuje. Slovy naznačuje princip jejich implementace a předvídá jejich úspěšnost na nasazení pro český jazyk. Kapitola čtvrtá ukazuje problémové oblasti při nasazení automatických nástrojů, přidává návrhy na zlepšení jejich činnosti. Jsou zde navrženy nové metody pro vyhledávání slovních vztahů. Jejich aplikace na různé jazyky. V páté kapitole je obsaženo samotné testování metod. Vypsána testovaná slova, jejich výběr. Znázorňuje průběh testu a použité ohodnocovací funkce. Jsou zde rozepsány výsledky jednotlivých metod a poté jsou metody porovnány mezi sebou. Po zhodnocení výsledků jsou naznačeny další možnosti, které by mohly vest ke zvýšení přesnosti určování vztahů. 1.2 Sémantické vztahy Sémantické vztahy mezi slovy jsou velmi těžké na definování. Jednotlivá slova mívají několik stupňů chápání a samotné vztahy také. Například synonymie může být úplná, částečná a podobně. Jedno slovo mívá určitý vztah k jednomu výrazu, ale u jiného je chápán jinak. Sestavit jednotnou hierarchii není jednoduché. Samotný subjektivní pocit člověka mívá velký vliv na jeho posuzování. Co se někomu může zdát, že je totéž, není pro dalšího totéž. V této podkapitole bude popsáno co nejuniverzálnější rozdělení, jak jej uvádí různé slovníky a encyklopedie Synonyma Klasická definice říká, že synonymum je slovo stejného, nebo podobného významu [1]. Ale za touto definicí se skrývá mnoho nejasností. Například ve Slovníku českých synonym [2] se píše: Patrně jedním z hlavních důvodů, proč u nás již dříve nevznikl prakticky orientovaný slovník, který by beze zbytku mohl nést přívlastek synonymický, jsou mj. vážné teoretické problémy, jež lze shrnout do stručné otázky: které výrazy jazyka lze pokládat za synonyma a jak prezentovat jejich popis? Na tuto otázku není jednoduchá odpověď, a proto není divu, že úlohu synonymického slovníku dnes stále často supluje osmidílný Slovník 2
10 spisovného jazyka českého ( ), v němž se významy slov často objasňují pomocí synonym či podobných výrazů. nebo dále: Ne vždy lze dosáhnout zaměnitelnosti stoprocentní, v každém případě však platí možnost substituce ve vztahu heslového slova k jednotlivým členům synonymické řady s ohledem na možné kontexty. Je nicméně třeba vzít v úvahu, že plná synonyma se ve skutečnosti téměř nevyskytují a že i mezi velmi blízkými synonymy lze najít sémantický nebo pragmatický ( stylový) rozdíl.. Příklady na ukázku mohou být: kluk hoch chlapec (1) manželka choť žena (2) U příkladu (2) si můžeme všimnout problému víceznačnosti slova žena. Jedním smyslem je právě ona manželka, dalším a ne posledním je obecně osoba ženského pohlaví. Proto jen v určitých případech se jedná o synonymii, v dalších se může jednat o hypero hyponymii mezi žena a vdaná žena. Synonyma lze rozdělit na úplná a částečná. Jak již bylo zmíněno, úplná synonyma lze libovolně nahrazovat a jsou velmi vzácná. Mnohem častěji se lze setkat s částečnými, kde rodilý řečník cítí rozdíl mezi nimi, a jejich význam se liší v kontextech a významech. Někdy se výraz může chovat jako hyperonymum, jindy u sloves například vid mění celý význam. [3] Antonyma Jak uvádí definici Wikipedie [4] nebo Urban Dictionary [5] antonymum označuje slovo opačného nebo protikladného významu. Někdy se také nazývá opozitum. Jedno slovo může mít více antonym s různými významy, podle toho, o který druh antonymie jde a v ja kém kontextu a na jaké významové škále k antonymii dochází, popřípadě ke kterému z více významů slova se vztahuje. Existuje několik druhů antonymie: Polární antonyma (kontrastní) vyjadřují protilehlé body na pomyslné škále. Mezi výrazem a antonymem se ještě nachází mnoho výrazů. Příkladem může být: velký malý teplý studený sever jih Již zde se naskýtá otázka, zda antonymum ke slovu malý není i obrovský, nebo ke slovu studený > horký. Jsou to slova na ose poměrně blízko a v určitých kontextech mohou být vhodnými slovy opačného významu. Komplementární antonyma svými významy rozdělují rozsah nadřazeného pojmu na dvě poloviny. Jde zejména o dvojice slov, z nichž druhé je z prvního odvozeno předponou ne. Příklad je: přítomný nepřítomný 3
11 Podobně jako v předchozím rozdělení zůstává otázkou, zda i slovo nezúčastněný nepatří ke slovu přítomný. Úplně nebo částečně (například jen v některých kontextech) komplementární mohou být i některá další antonyma, například: život smrt muž žena den noc Proto může nastat, že k některým slovům často podstatným jménům nenalezneme antonymum. Další kategorií jsou paralelní (případová). Mohou to být dvojice slov, která v určitém kontext u jsou vnímána jako protiklady, ačkoliv obecně jsou dvěma z více pojmů téže kategorie. Pro přiklad uveďme: jablko hruška mluvit zpívat mluvit být zticha Reverzní antonyma popisují proces opačný. Snadno pochopitelné na příkladech jako: vejít vyjít nakládka vykládka sestavit rozebrat Vhodné je si všimnout, že často se m ění smysl na opačný (nebo podobný) změnou předpony. Zajímavou kategorií jsou antonyma vztahová, kde jedno slovo vyjadřuje vztah z hlediska jednoho subjektu a druhé slovo tentýž vztah z hlediska druhého subjektu. rodič dítě učitel žák prodávat kupovat Zvláštní kategorii tvoří autoantonyma. Tato nejsou tak častá v českém jazyce, ale spíše v jazycích archaických, jako je čínština, řečtina či latina. Principem je vícevýznamové slovo, které je samo k sobě antonymem. Český příklad může být zřejmě (pravděpodobně i zjevně), řecký příklad farmakon (lék i jed) Hyperonyma a hyponyma Mějme skupinu slov, které leží v sémanticky blízkém okruhu. Také mějme slovo, které je nadřazené této skupině slov. Hyponyma jsou slova nebo fráze, podřazená jinému slovu. Například hyponymum ke slovu nábytek je stůl, židle, skříň, Hyperonymum je opak hyponyma. Je to slovo nadřazené určitému slovu, slovům nebo frázi. Příklad hyperonyma je tedy ke slovu stůl nábytek. Nebo ke slovu kabriolet je hyperonymum auto nebo vozidlo. Hypero hyponymická struktura tvoří strom. Taxonomické rozdělení živočichů a rostlin v biologii je jeden z možných příkladů. Jak již bylo ukázáno na příkladu, každý výraz může 4
12 mít několik hyponym, ale může mít i více hyperonym (díky tranzitivitě, znázorněno na obrázku 1.1). Tato hyperonyma jsou mezi sebou také hierarchicky uspořádána. Někdy je toto uspořádání zřejmé, ale jindy se tvoří hůře. Problémem je zde víceznačnost slov. Byl vytvořen systém, který zachycuje právě tuto strukturu. Ale na WORDNET bude zaměřena pozdější kapitola. (čerpáno nebo inspirováno z [6], [7], [8]) hyperonymum vozidlo hyponymum hyperonymum auto letadlo hyponymum kabriolet limuzína Obrázek 1.1 Hypero hyponymická hierarchie Další relace Meronyma a holonyma Meronymie a holonymie je vztah popisující část celku nebo člen něčeho a samotným celkem. Rozšiřuje základní hierarchii, za kterou se považuje hypero hyponymický strom. Tedy například ke slovu dům je okno meronymum a město holonymum. Celková struktura již nemá mít podobu stromu (jako hypero hyponymie), nýbrž obecného grafu, jelikož jedno slovo může mít více holonym i meronym. (inspirováno [9], [10]) Homonyma Homonymum neboli slovo souzvučné označuje slovo, které zní stejně jako jiné slovo jiného významu i původu. Vznik homonym bývá nahodilý, třeba odvozením slov od podobných základů (vinný) nebo přijímáním z cizích jazyků (kolej). Pokud se shodují pouze v některých tvarech, jsou to homonyma částečná (pila, los). Nepravá homonyma jsou pouze výslovnostní neboli homofonní (bít a být) nebo pouze pravopisná neboli homografní (baby). V češtině jsou homonyma poměrně řídká a jejich užívání většinou nezpůsobuje nedorozumění; k jazykům s hojným výskytem homonym patří např. angličtina, francouzština nebo čínština. (částečně převzato z [11]) Příklad: Stopky (měření času a část ovoce) správa/zpráva (péče o věc a sdělení) 5
13 Ač homonyma v přirozené řeči nedělají příliš problémů, neboť v kontextu se nalezne správný význam, snižují přesnost při automatickém vyhledávání, neboť sémantická analýza textu není na takové úrovni, aby kontext správně určila. Mnohoznačnost (polysémie) Polysémie je úplně něco jiného než homonymie, ač si to mnoho lidí plete. Spojení polysémie pochází ze dvou řeckých základů: poly, tj. mnoho, více a sémie, čili proces odvozování významu (přechod od nějakého znaku k jeho významu). Při jazykové mnohoznačnosti můžeme popsat několik zřetelně odlišných významů slova (nejprve základních, posléze i druhotných). Polysém je slovo nebo fráze, které má několik zřetelně odlišných významů. To znamená, že šlo původně o jedno jediné základové slovo. Ale naopak u homonymie v žádném případě o původní společné slovo (popř. o společný základ) nešlo. [12], [13], [14] 1.3 Zdroje slov Během mnoha století, ale hlavně v současnosti díky rozvoji informačních technologií lidé vytvořili mnoho zdrojů, které slouží k uchování a studování jazyka. Pomáhají mnoha lidem k vytvoření vhodných slovních spojení a dopomáhají k pestrosti literárních výtvorů. Všechny tyto zdroje lze využít k vyhledání příbuznosti mezi slovy. Některé k tomu byly přímo tvořeny, jiné uchovávají širší informace. Tato kapitola zkusí jednotlivé zdroje stručně popsat a nastíní, jak je v nich informace o příbuznosti uchována Slovníky Slovník je dílo, které se určitým způsobem zabývá slovy. Pracuje s jejich významem a nějak jej popisuje. Jedním druhem slovníků jsou i thesaury, o kterých se zmíníme později. Další jsou výkladové jednojazyčné. Sem patří například Slovník spisovného jazyka českého, novější Slovník spisovné češtiny, z anglických je zde Collins Cobuild, Webster či Oxford. Slovníky vícejazyčné překladové souží k propojení dvou jazyků a hlavně tedy k překladu. Problém těchto slovníků je víceznačnost slov a tudíž výběr vhodného výrazu druhého jazyka. Ukázku tvoří různé slovníky česko anglické, anglicko české. Další sekci tvoří slovníky frazeologické a idiomů, jako je Slovník české frazeologie a idiomatiky. Ještě existují různé slovníky terminologické, slangové a podobně. [16] Pro oblast sémantiky jsou nejzajímavější výkladové slovníky. Lidé je používají k pochopení významu slova. Některé jednotlivé významy jsou popsány synonymy (SSJČ), další tvoří definice pro každý význam (SSČ), jiné jsou rozlišeny pomocí primitivních výrazů jazyka. Historie (českých) slovníků sahá už několik století zpět. Jejich hlavní účel byl ustálení jazyka. Pro češtinu nejstarší jsou z 16. Století, kdy je vydával knižně Daniel Adam z Veleslavína. Vydal dva. První byl řazen abecedně, druhý věcně. Český výraz byl přeložen 6
14 do latiny, němčiny a řečtiny. Ze stejného století je také překladový latinsko český a českolatinský překladový Tomáše Rešela. (Informace čerpány z [20]) Velký rozvoj byl také v 19. století. V dřívějších dobách si nemohli pomoci počítači, a proto většina slovníků je přejímání z jiných děl a jejich doplňování z děl dalších. Tuto úlohu dnes usnadňují korpusy, ve kterých se snadno mohou objevit jednotlivé významy slov. Obrázek 1.2 DEBDict Prohlížeč slovníků 7
15 1.3.2 WORDNET WORDNET, neboli v překladu síť slov není klasický slovník, jaký známe. Slova zde nejsou řazena podle abecedy. Pokud se pohybujeme v hledání jednoho tématu, v abecedně řazených slovnících musíme často listovat a hledání je pomalejší, i když počítače nyní umožňují prohlížení zrychlit. Obrázek 1.3 DEBVisDic [15] český WordNet 8
16 Nejvýraznější rozdíl mezi WORDNETEM a standardními slovníky je mj. v tom, že WORDNET člení slovník do pěti kategorií: substantiva, verba, adjektiva, adverbia a funkční slova (synsémantika). Dále se WORDNET liší od standardních slovníků v tom, že jednotlivé slovní druhy jsou v něm organizovány rozdílně přihlíží se důsledně k jejich odlišné sémantické povaze: - substantiva jsou ve WORDNETU organizována jako tematické hierarchie, - slovesa jsou organizována na základě různých vztahů vyplývání (entailment, troponymie), - adjektiva a adverbia jsou organizována jako n dimenzionální hyperprostory Výrazným rysem WORDNETU je též pokus organizovat lexikální informace v termínech slovních významů, a nikoli slovních tvarů. V tomto ohledu se WORDNET blíží více thesaurům než standardním slovníkům. Lexikální paměť lze tedy chápat jako organizovanou stromově, kde základním vztahem ve stromové struktuře je transitivní a antisymetrický významový vztah ISA (is a kind of, je druhu) nebo jinými slovy vztah hypero hyponymie vedoucí od specifického ke generickému, tj. vztah generalizace, k němuž opakem je vztah specializace. Substantiva mají obvykle jedno hyperonymum a řadu hyponym, která se ve standardních slovnících zpravidla neuvádějí. Proto je vhodné navrhnout lexikální databázi tak, že v ní jsou zakódovány oba vztahy, jak vztah generalizace, tak i vztah specializace. Výsledkem pak je lexikální databáze typu WORDNET, která se vyznačuje hierarchickou strukturou a umožňuje prohledávání shora dolů i zdola nahoru stejnou rychlostí. [16] Nyní je WORDNET dostupný pro obrovské množství jazyků. Jsou propojené (obzvlášť na anglický), proto není obtížné rychle přecházet mezi jazyky a používat jej jako slovník. Toto propojení ale v mnoha jazycích ještě chybí. Vznikal postupně ve vlnách pro různé jazyky a je stále rozšiřován. DEBVisDic Nástroj pro prohlížení WORDNETU. Vznikl na FI MU. Umožňuje zobrazit stromovou strukturu, vzdáleně jej editovat a upravovat. Také snadno přecházet mezi jazyky (např. češtinou a angličtinou). [17]. Viz obrázek 1.1 a obrázek
17 Obrázek 1.4 DEBVisDic Stromová struktura Thesaurus Typické zdroje k poskytování informace o sémantické podobnosti slov jsou manuálně konstruované zdroje. Velice rozšířeny jsou pro angličtinu, obzvlášť tři. Roget s thesaurus, WORDNET a Moby thesaurus. O WORDNETu již bylo psáno v předcházející kapitole. Roget s thesaurus poskytuje hierarchii synsetů. Synsety se stejným (velmi podobným) hlavním smyslem a slovním druhem jsou sloučeny do odstavců. Každý odstavec je označen souhrnným pojmenováním kategorie. A kategorie do tříd, kde na vrcholu je hlavní pojem. 10
18 Pokud má slovo několik významů, objeví se v několika různých synsetech. První thesaurus se objevil už v roce Postupně byl podle vývoje jazyka upravován až do současnosti. Obsahuje asi 30 tisíc podstatných jmen, 15 tisíc sloves, 13 tisíc přídavných jmen a 3 tisíce příslovcí. V porovnání s WordNetem (verze 2.1): 120 tisíc podstatných jmen, 11,5 tisíc sloves, 22 tisíc přídavných jmen a 4,5 tisíc příslovcí je mnohem menší, ale pouze u podstatných jmen. Obrázek 1.5 Collins Paperback Thesaurus [18] Moby thesaurus poskytuje seznam synonym pro více než 30 tisíc hesel s celkovým počtem slov 320 tisíc. Nejsou rozděleny podle slovních druhů. Pokud by se to přepočetlo podle WordNetu, nalezli bychom 43 tisíc podstatných jmen, 12 tisíc sloves, 17 tisíc přídavných jmen a 3,5 tisíc příslovcí. [3] Obrázek 1.6 English Synonyms & Antonyms [19] Čeština je v této oblasti teprve na počátcích. V letech vznikal Český slovník věcný a synonymický, který nemá charakter příručky a prakticky není kompletní. V 1978 vznikl Slovník synonym a frazeologismů. Až v roce 1996 byl vydán slovník českých synonym [2]. Obsahuje přes 20 tisíc hesel. U každého hesla je odstavec vypsaných slov, která jsou rozdělena podle jejich významu, někdy obsahují i antonyma (vyznačeno). Místy 11
19 se lze setkat i s hyperonymy a hyponymy. Je vhodný pro rodilé mluvčí, kteří dokážou odlišit jemné významové a stylistické rozdíly. Obrázek 1.7 Slovník českých synonym Korpusy Protože většina dnes dostupných jazykových dat má podobu textů (psaných nebo písemně zachycených mluvených), je možnost mít je pohromadě v elektronické podobě tato možnost je klíčová pro další rozvoj lingvistiky a zpracování přirozeného jazyka vůbec. Korpusová lingvistika v současnosti představuje novou větev lingvistiky, v níž se pracuje s korpusy uloženými v počítačích. Už dnes se na základě korpusových dat budují nové a přesnější elektronické slovníky a robustní počítačové gramatiky. Korpusy jsou dnes v jazykovém inženýrství velice důležitým zdrojovým materiálem. (čerpáno z [16], zdroj využit i dále) V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný. Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů: - jazyková data jsou v korpusu uložena ve své přirozené textové podobě, proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generalizace - velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít třeba i náhodou k převaze okrajových jevů nad základními a typickými - velký rozsah dat v korpusu je podmínkou dostatečné reprezentativnosti, což např. při budování slovníků vůbec nemusí být jednoduchá záležitost Kolem korpusů se setkáváme s několika důležitými výrazy: Token: rozumíme tím samotný výskyt slova v korpusu. Pomocí tohoto pojmu se počítá rozsáhlost korpusu. Např. BNC (British National Corpus) má přes 110 milionů tokenů. Lemma: slovo v základním tvaru. Např. pro slovo stolem je lemma stůl Tag: mnoho korpusů je značkovaných, to znamená, že každé slovo je morfologicky analyzováno a právě tagem se rozumí morfologická značka v určitém formátu. V prostředí češtiny se setkáváme s dvěma druhy značek. Brněnskými a pražskými. (více v kapitole 2.1) 12
20 Word: tímto pojmem se rozumí samotný tvar slova v korpusu. Pro ukázku uvedu zpěvem nebo spali Historie Přestože korpusová lingvistika je nové lingvistické odvětví, pojem korpus existoval již před 2. světovou válkou (byl však manuální a mnohonásobně menší). V 50. letech minulého století někteří američtí lingvisté (Hartus, Hill) dospěli k názoru, že korpus dostatečně velký soubor přirozeně se vyskytujících jazykových dat je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky). Počátkem 60. let minulého století začala vznikat korpusová lingvistika. Ve stejné době začal na Brown University v USA pod vedením H. Kučery a N. Francise vznikat první počítačový korpus současné americké angličtiny [21]. Od té doby postupně vznikalo mnoho korpusů. Z dalších anglických korpusů jmenujme BNC (British National Corpus) z první poloviny devadesátých let a BoE (Bank of English) který obsahuje texty z let 1990 a novějších. Byl několik let rozšiřován, ale v současné době je toto rozšiřování ukončeno. V prostředí češtiny je významný SYN2000 a jeho novější varianty. Stará se o něj Ústav Českého národního korpusu. V prostředí Masarykovy univerzity vznikl DESAM. Obsahuje články z novin a časopisů. Důležitý je zejména tím, že byl morfologicky označkován a toto značkování bylo ručně zjednoznačněno (odtud i jeho název DESAMbiguovaný korpus). [22] Nástroj pro správu korpusu Pro počítač je tedy korpus jen posloupnost slov. Aby byl snadno přístupný uživatelům, je potřeba korpus uložit ve vhodném formá tu a mít program nebo nějaké rozhraní, které umožní jej prohlížet, vyhledávat v něm a podobně. Jedním z nejpoužívanějších nástrojů současnosti je nástroj, vytvořený na Fakultě informatiky Masarykovy univerzity Pavlem Rychlým Manatee Bonito [23]. Manatee je část, která dělá potřebné výpočty, vyhledávání a podobně. Bonito je naopak uživatelské rozhraní, které komunikuje s Manatee. Umožňuje různé vyhledávací dotazy i na bázi regulárních výrazů v jazyce CQL (Corpus Query Language), zobrazuje různé konkordanční seznamy, výskyty slov i s jejich kontexty, počítá statistické údaje a pokud je korpus morfologicky značkován, umožňuje i hledat podle těchto značek. 13
21 Obrázek 1.8 Sketch Engine Korpusový manažer Ukázka Syn Použitý automatický přístup Počítače poskytují velký výpočetní výkon, který lze využít prakticky kdekoliv. Práce, která jim před deseti lety zabrala týden, je nyní hotova během několika hodin. Proto se výborně hodí na procházení obrovských množství dat a provádění výpočtů nad nimi. V prostředí anglického jazyka existuje řada kvalitních metod, honosící se vysokou úspěšností, některé vysokou rychlostí. Jejich činnost, i když dělají totéž, je často založena na úplně odlišných přístupech. Některé jsou zaměřeny více matematicky a statisticky, jiné se snaží vydolovat maximum jazykové informace. Většina těchto metod je zaimplementována do větších balíků, které zpracovávají všechno od vstupního textu až po výstupní thesaurus. Proto z těchto implementací bude vytažena základní myšlenka a ta aplikována na češtinu na existující korpus s již vytvořeným kvalitním značkováním. 14
22 Poté budou vytvořeny a popsány nové metody. Některé budou víceméně podobné anglickým, některé se budou specializovat na odlišnosti českého jazyka, jiné rozliší pouze určité vztahy. Nebudou někdy tak komplexní, budou se více zaměřovat na hlubší problematiku. Proto výsledné srovnání metod bude poněkud obtížnější, protože některé metody si žádají už předpřipravený vstup. 15
23 Kapitola 2 2 Pojmy a přístupy Před tím, než popíšu samotné metody, měli bychom si vyjasnit určité pojmy a podklady, na kterých budu stavět mnoho metod a budu je hojně zmiňovat. 2.1 Morfologické značkování v korpusech Korpus není jen sbírka textů, ale skrývá se za ním i mnoho přidaných informací. Jedno z nejdůležitějších a nejužitečnějších je kromě lemmatizace morfologické značkování. To je silně závislé na jazyku. Jazyky jako angličtina, kde je smysl slov řízen jejich pořadím ve větě, si vystačí s necelou stovkou značek. Pokrývají slovní druhy a jejich rozdělení. Pokud se analyzátor nemůže rozhodnout, vytvoří se dvojznačky (AJ0 AV0: adjective or adverb). Naopak u jazyků jako je čeština, které mají volný slovosled, je význam věty v mnohém dán ohýbáním slov a tudíž mnoha tvary slov. Proto se dostáváme k tisícovkám značek. Je proto nutné se dohodnout v imp lementaci těchto značek. Musí být například strojově čitelné a jejic h struktura musí být vhodně složitelná. V prostředí českých korpusů se setkáváme s dvojím značkováním. Pražským a brněnským, které se od sebe naprosto liší. Vhodné je zmínit, že tyto značky mezi sebou nejsou jednoznačně převoditelné. Brn ěnské značky Vznikly na FI MU. Každá část značky má dva znaky. První uvádí typ gramatické kategorie a druhý hodnotu. Výhoda těchto značek je v jejich snadné rozšiřitelnosti o další druhy kromě velikosti abecedy maximálním počtem pozic. Druhá výhoda je, že stačí popsat pouze to, co potřebujeme, proto pokud chceme pouze slovní druh, má značka pouze 2 znaky. Je jimi označkován například korpus all, na kterém jsem prováděl průzkum vhodnosti frází a jiné předběžné výpočty, neboť je více než pětkrát vetší. 16
24 Pražské znač ky Již podle neoficiálního názvu tyto značky vznikly a používají se v Praze. Je jimi označkován korpus SYN2000, na kterém budu vykonávat všechna měření. Jsou to poziční značky, což znamená, že značka má pevnou délku a každá pozice označuje jeden atribut. Pevná délka znamená potíž s přidáváním dalších kategorií v případě potřeby. V současné době jsou dvě pozice vyhrazeny a ostatní obsazeny. Výhodou je rychlé nalezení požadovaného atributu snadno se automatizuje. Podrobný popis těchto značek se nachází v příloze B. 2.2 Sémantická orientace Peter D. Turney se ve svých pracích mnohokrát opírá o sémantickou orientaci. V [24] a [25] ji definuje jako hodnocení charakteru slova. Pozitivní orientace indikuje chválu a velebení (poctivý, nebojácný) a negativní zase kritiku (rušivý, zbytečný). Sémantická orientace se mění v obou směrech (kladný, záporný) a stupních (slabý, silný). Proto může dobře sloužit například pro odlišení synonym a antonym. Obojí, synonyma i antonyma jsou typicky silně významově spojené, ale synonyma mají obecně stejnou sémantickou orientaci, zatímco antonyma mají orientaci opačnou. Například slova milovat a nenávidět jsou silně významově sdružené, ale mají opačnou sémantickou orientaci. 2.3 SVOMPT vs. volný slovosled Současné metody vychází často z faktu, že slovosled anglické věty je pevný. Proto je u nich mnohem snazší nalézt závislost mezi větnými členy. U češtiny je v tomto mnohem větší problém. Pokud tedy máme implementovat metodu pracující se závislostmi mezi větnými člen y, tak už v samotné (syntaktické) analýze narážíme na velký problém s nejednoznačností a tím i nižší úspěšnosti této metody. V angličtině lze docela snadno odhadnout větný člen na znalosti a pozice ve větě. Existuje několik šablon, do kterých se věta vloží a podle toho se relativně přesně rozhodne. Tento přístup na češtinu nelze použít. Musíme tedy jinak zjistit větné členy. Zde se budeme hodně opírat o morfologické značky. Především to budou pády, shoda osoby a čísla a tak podobně. Podmět budeme hledat slovo v prvním pádě. Oproti angličtině se ve větě někdy nenachází. Přísudek sloveso, které není infinitiv, mající vyjádřenou osobu, číslo a podobně Přívlastek nalezneme buď přídavné jméno před slovem, ke kterému patří, nebo podstatné jméno často v druhém pádě za určitým slovem 17
25 Předmět či příslovečné určení bude nás zajímat hlavně pád. Mezi sebou rozlisovat nemusíme. Prakticky vše, co není přísudek, podmět nebo přívlastek, tak můžeme zařadit sem. V konečném důsledku při hledání pomocí CQL do dotazu přidáme další (and, or) podmínky. Můžeme očekávat to razantní prodloužení času výpočtu, neboť se budou procházet i morfologické značky. 2.4 Rozsah významu slova v textu Řada současných metod pracuje s kontextem slova. Platí, že slovo určuje jeho okolí a naopak. Proto i v rozpoznání přirozeného jazyka se využívá technika, že pokud je na vstupu posloupnost p, bude s určitou pravděpodobností následovat slovo w. Častá otázka proto zní, kolik slov do kontextu zvolit, aby se neztratila důležitá informace a zároveň se nepracovalo se zbytečně dlouhými slovy. Vezměme to od extrémních případů. Slovo je závislé na celém textu. Toto je pravda, neboť pokud se bavíme o určitém tématu, tak se tam vyskytne s mnohem větší pravděpodobnosti a pokud provedeme opět porovnání s rozpoznáním řeči, doslechneme se o pojmu topic recognition. Tento extrémní případ má ale jeden háček. Velmi nízká (mizivá) pravděpodobnost s jakou s jakou se tento úsek vyskytne víckrát v korpusu. Pokud snížíme rozsah kontextu na jednu větu (souvětí nebo pouze výsek souvětí), pravděpodobnost se nám již zvýší, ale nezískáme žádné podstatné zlepšení obzvlášť u slov, které nepatří mezi nejpoužívanější. Často se tedy zmiňuje jmenná nebo slovesná fráze. Zde získáme úsek slov, která na sobě zřejmě (podle větného rozboru) závisí. Kolik to tedy může být asi slov, pokud se chceme oprostit od syntaktické analýzy věty. V jednoduchých větách se dostáváme k jedinému slovu ( Políbil milenku. ). U rozvinutých vět se můžeme dostat i desítkám slov ( Významní sovětští delegáti se šli podívat v úterý dopoledne na výrobu nových nákladních automobilů v moderně vybavené továrně na kraji města Neřestín. ). Jako vhodný průměr vychází využít tři slova před výrazem a tři (nebo méně) slova za ním. Může se i lišit podle slovních druhů. Přídavná jména hrající často roli přívlastků stojí často přímo před slovem, na němž závisí, zatímco vzdálenost mezi podstatným jménem (předmět) a slovesem (přísudek) je často větší. 18
26 Kapitola 3 3 Existující metody V současnosti existuje řada metod v měření podobnosti. Mnoho metod se používá v různých odvětvích, ale v této kapitole se zaměříme na jejich využití při hledání sémantické podobnosti slov. Každá metoda používá různé techniky, které v sobě ukrývají různě důmyslné metody. Některé se snaží být jednoduché bez lingvistické informace (Okénkové metody), některé se do lingvistiky zanořují (CASS, SEXTANT, MINIPAR, RASP). Sofistikovanější metody budou využívat více kontextové informace, syntaktické struktury vět a morfologie slov. Ale čím jsou tyto metody složitější, tím se snižuje dramaticky jejich rychlost práce. Mnoho z nich má také své různé varianty ať již ve funkcionalitě nebo v implementaci (rychlost vyhledávání apod.). Zde budou vypsány jejich základní principy, neboť implementace se v mnohých pro jiný jazyk musí naprosto změnit. Někdy lze zachovat právě jen základní myšlenku. 3.1 Okénkové metody (Window methods) Je to metoda, která zkoumá kontext hledaného slova. Jsou pro ni nejdůležitější okolní slova do určité limitované vzdálenosti. Toto okno pevné délky se posouvá s ohledem k hledanému slovu a slouží k hledání slov, jaká se často vyskytují s hlavním slovem. Metody založené na principu okénka malí velmi nízkou složitost a tak jsou velice jednoduché na implementaci a jejich činnost probíhá velice rychle. Ve svém principu jsou jazykově nezávislé. Ale tato nezávislost zabraňuje využití jakékoliv lingvistické informace. Toto může dělat problémy často v angličtině, neboť se nerozliší, zda určité slovo je sloveso nebo podstatné jméno (například check, kiss ). Je samozřejmě možné využít morfologického značkování (POS tagger), ale tím se sníží jednoduchost, rychlost a hlavně jazyková nezávislost této metody. Podstatnou roli v úspěšnosti tohoto přístupu hrají parametry okénka. Rozlišuje se jeho šířka, symetrie a hranice. 19
27 Šířka Symetrie Hranice kolik slov nebo znaků bude okénko pokrývat zde se uvažuje levý a pravý kontext a pozice hlavního slova. Zd a bude uprostřed, více vlevo nebo vpravo apod. bude mít okénko pevnou délku bez ohledu na obsah, nebo se budou rozlišovat hranice vět či odstavců Nejjednodušší přístup sbírá pouze počty slov v okně. Běžně se ovšem doplňuje filtrováním určitých slov, často s vysokou frekvencí (pro angličtinu the, a nebo of ). Okénka, využívající znalosti o slovních druzích bývají velice malá. Běžně asi 2 až 3 slova vlevo i vpravo. Nehledá se u nich hranice vět čí odstavců, protože jen zřídkakdy je věta překročena. Byly zkoušeny i velikosti okénka do 10 až 20 slov, jež byly také relativně úspěšné. Ale také na začátku 90. let byly vytvořeny i testy s okénkem používajícím až 500 slov. To je přibližně rozsah článku v současných korpusech. Takto vzdálená slova nemají již příliš informativní charakter. Stávají se paměťově a časově náročnější a dos távají se tam nejčastější slova na úkor těch vyhledávaných. Mnoho okénkových vyhledávačů používá stoplist (stopword list), který obsahuje velmi frekventovaná slova, jako jsou zájmena a předložky, a odstraňuje je z kontextu. Toto mívá jen zřídka negativní dopad na výsledky, ba naopak účinnost metody zvyšuje. [12] V této práci budeme zkoušet verzi, která používá okénko pro malý kontext. Stoplist v rámci češtiny není tak podstatný, neboť zájmena nejsou tak častá a vzhledem k tomu, že se omezíme na rozlišování slovních druhů, tak nehraje podstatnou úlohu. 3.2 Metody založené na využití větných vztahů Pro anglický jazyk vzniklo několik systémů, které slouží k analýze textů a na mnohých z nich se zkoušela extrakce sémanticky příbuzných slov. Bývají to velké balíky, jejichž činnost spočívá v nalezení na sobě závislých slov v textu. Popíšeme si některé z nich. Velký problém ale může dělat volný slovosled a tím velká mnohoznačnost syntaktické analýzy věty, jak se píše v [26]. Musí silně využívat podrobných korpusových značek. Pouhé rozlišení slovních druhů nepostačí. Naštěstí korpusy, jako SYN2000 mají morfologické značky podrobné (viz kapitola 2.1 a příloha B). Předpokládá se taky velká výpočetní náročnost tohoto přístupu. Na průběhu Sextantu si ukážeme, jak po krocích tyto metody pracují [27]: I Morfologická analýza každé slovo je morfologicky analyzováno a vyhledáno ve slovníku 100 tisíc slov aby se našel správný slovní druh II Gramatické značkování pravděpodobnostní analyzátor označí každé slovo v textu jednou gramatickou kategorii III Rozdělení na jmenné a slovesné části každá věta je rozdělena na jmennou část a část slovesnou pomocí jednoduché regulární gramatiky (NP a VP) IV Extrakce syntagmatických vztahů vytvoří se označkované fráze z podstatných jmen, přídavných jmen, sloves a podobně. Vytvoří se seznam těchto frází. 20
28 V (nebývá součástí metod) Porovnání podobnosti kontexty jsou porovnány použitím podobnostních měření. Dostáváme seznamy podobné obrázku 3.1. Nástroje v prostředí českých korpusů jako je SYN2000 je osvobozen od bodu I a II. Naopak od bodu 3 má velice ztíženou práci díky volnému slovosledu a obrovské syntaktické víceznačnosti. Pokud se tento problém vyřeší, může mít nástroj vysokou úspěšnost v extrakci slov. Obrázek 3.1 Sketch Engine Word Sketch Použití slova ve větě CASS CASS parser je součástí systému SCOL [28]. Ve zpracování přirozeného jazyka se používá velice široce. Je zaměřen čistě na angličtinu a anglickou gramatiku. Vyhledává slova, jako podstatná jména, slovesa a přídavná jména a určuje vztahy mezi nimi (větné členy, gramatické relace). Nejčastější jsou například podmět, předmět (v angličtině první předmět za přísudkem), předmět2 (další za přísudkem) ale i předložky. Tento algoritmus je velice efektivní, protože využívá lexikální informaci a správně určuje vztahy mezi slovy a tím odstraňuje šum z výsledků. V angličtině mu dělají problém některé vztahy, jako nepřímé objekty. 21
29 3.2.2 SEXTANT SEXTANT (Semantic EXtraction from Text via Analysed Networks of Terms) byl přímo navržen pro automatickou tvorbu thesauru. Skládá se z několika součástí. Jedna část extrahuje gramatické vztahy, další slouží k lexikální a morfologické analýze, jiná ke značkování slovních druhů a rozdělení věty na sémanticky souvislé části (chunkování, chunking). Hlavní předností tohoto přístupu je jeho rychlost. Existuje více variant implementace metody a s výsledkově srovnatelnými metodami je tato nejrychlejší (pro angličtinu). Proto dokáže pracovat s velmi velkými korpusy, které dávají obvykle přesnější výsledky. Mívá opět v angličtině problémy se syntaktickou analýzou shluku podstatných jmen (př. civil rights activist ), které nedokáže správně analyzovat MINIPAR a RASP MINIPAR a RASP (Robust Accurate Statistical Parsing) jsou rozsáhlé balíky, které zpracovávají holý text. Ten tokenizují, značkují, lemmatizují a poté v něm hledají gramatické relace. Nejsou to nástroje na extrakci příbuzných vztahů. Ale rozsáhlé parsery, které analyzují každé slovo textu a přiřadí mu určitou značku založenou na jeho roli ve větě. Teprve na jejich výstupu je možno postavit nějakou metodu na extrakci sémanticky příbuzných slov. 22
30 Kapitola 4 4 Vlastní metody Čeština má od angličtiny obrovské množství odlišností, proto nemusí být někdy nejvhodnější přejímat metody. Vyzkoušet je ale rozhodně není na škodu, protože přináší obrovské množství nápadů vycházející z mnohaleté práce mnoha odborníků. Korpusový nástroj Bonito poskytuje obrovské množství statistik slov, kolokací a výpočtů thesaurů, ze kterých lze vyčíst mnoho informací a na kterých lze postavit široká řádka nových metod. A to nejen pro češtinu. Také jazyk CQL nabízí možnosti hledání i na základě morfologických značek (SYN2000 používá podrobné pražské značkování). Některé metody zde zmíněné mají určitý společný základ i s přístupy z kapitoly třetí. Snaží se ale právě vytěžit maximum z poskytnutých informací a odlišností češtiny. Jsou zde navrženy takové metody, aby pokud možno byly od sebe co nejvíce různorodé a tak ukázali, který směr přístupu je nejvhodnější. Některé neslouží jako rozsáhlé balíky z třetí kapitoly, aby z holého textu vytěžily kompletní thesaurus, ale zaměřují se na jednotlivé oblasti, kdy už máme určité tušení o podobnosti slov, ale neznáme jejich přesný vztah, jako je rozlišení antonym či hyperonym. 4.1 Vyhledávání antonym a synonym pomocí sémantické orientace Jak jsme v kapitole 2.2 zmínili sémantickou orientaci jako jednu z možností rozlišení sémantické příbuznosti, zde ji aplikujeme. Základem je tedy myšlenka, že určitá slova lze rozlišit jako kladná, jiná zase jako záporná. [29] Myšlenka je to dobrá, jen si musíme uvědomit, že tato slova musí být v příbuzenském vztahu. Jinak bychom mohli dostat, že opak k líný je bohatý. Proto tento přístup neumí rozlišit, zda jsou slova příbuzná. Navíc by slova měla být ze stejné třídy, neboť hledáme antonyma a ne hyperonyma a hyponyma. Jak tedy tato metoda pracuje? Máme na vstupu dvě příbuzná slova, o nichž si nejsme jisti, zda jsou synonyma nebo antonyma, či i něco jiného, jak můžeme vidět na obrázku
31 synonyma synonyma synonyma negativní pozitivní neutrální antonyma Obrázek 4.1 Ukázka sémantické orientace na příkladu Kde nalézt v korpusu informaci o orientaci? První možností je využít předložek. Mnoho předložek samo o sobě tvoří dvojice. s / bez, pro / proti, k (ke) / od, před / za, kolem / skrz, Pokud mám dvě slova v podobných kontextech (např. dvě podstatná jména u stejného slovesa) a liší se předložkou, můžeme podle určitých statistik ohodnotit orientaci. Jaké skóre ale přiřadit jednotlivým předložkám a jak hodnotit, pokud se i někdy vyskytují se stejnými, je největší alchymie. Vyžaduje mnoho pozorování a lingvistického zkoumání. Seznam ohodnocení je vypsán v příloze C. Při současném stupni průzkumu a studia je tato metoda vhodná pro přídavná jména. Podstatná jména a slovesa vyžadují mnohem více práce s vyhledáváním závislých slovíček. Na úrovni testů této práce prozkoumáme tuto metodu alespoň pro přídavná jména. 4.2 Příbuznost na základě společných slov thesauru Tato metoda je z velké míry čistě statistická. Skládá se ze dvou fází. První fáze je již předpřipravená. A tou je thesaurus zabudovaný ve Sketch Enginu. Je vypočítán na základě podobných slov v kontextu mezi výrazem a testovanými slovy. Výsledkem je seznam slov seřazených podle vypočítané hodnoty podobnosti. Tento seznam obsahuje příbuzná i nepříbuzná slova a není rozdělen na hyperonyma, synonyma či antonyma. Druhá fáze pracuje na podobnosti thesaurů slov seznamu. Tvoří různé průniky a nakonec vytvoří jeden nový seznam 24
32 Skóre Vhodné je zamyslet se, jak bude skóre vypočítáno. Musíme brát v úvahu dvě různá měření. Pořadí nalezeného slova v thesauru a počet jednotlivých nálezů. V prvním případě můžeme volit například mezi těmito variantami: I Původní ohodnocení thesauru nemusí být objektivní, protože toto číslo vychází z poměru se slovem, o kterém nevíme správný vztah II Nepoužít žádné rozlišení pořadí Vzhledem k předpokladu, že již vybíráme jen zlomek nejúspěšnějších slov, jsou si tato slova dosti podobná. Má to tedy svou logiku. Otázkou může být, jestli i ta trocha informace ukrytá v pořadí nemá svou důležitost. III Použít určitý druh lineární funkce Striktně určuje rozdíly v pořadí. Slovům ze středu stupnice dává také velký vliv. Méně strmá funkce vhodně boduje jak začátek, tak konec thesauru IV Využít ohodnocení pomocí lomené funkce tento způsob dává obrovský význam slovům z počátk u thesauru. Vzdálenějš í již nemají velký význam. Metoda je velmi vhodná, pokud by se limita posunula dál od nuly V Další možnosti existuje i mnoho jiných možností. Zajímavá je například náhodnostní funkce, které se v reálu chová podobně jako konstantní. Další alternativou může být funkce, která se mění podle předchozích hodnot a trochu simuluje neuronovou síť. 0,9 0,8 Porovnání metod ohodnocení Ohodnocení 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 I: thesaurus II: bez hodn, IIIa: lineární IIIb: lineární IV: lomená Pořadí Graf 4.1 Ohodnocovací metody V této práci bude použito lineární ohodnocení s určitým minimálním limitem, aby byly využity všechny získané hodnoty a bylo postihnuto i pořadí. 25
33 Druhé hodnocení postihuje obraz celkového výsledku. Zde se jeví vhodné dvě metody. První je aritmetický průměr všech hodnot (včetně hodnot nenalezených), druhá je prostý součet všech nálezů. Výsledkově ale nejsou prakticky odlišné. Pouze s průměrem se počítá snadněji, neboť u různých testů nabývá podobných výsledků a je tedy přehlednější. Hranice Nyní máme již vypočítány hodnoty jednotlivých slov. Ještě zbývá určit příbuzenský vztah. Přístup dokáže rozlišit mezi těmito skupinami: - hyperonymum - synonymum či antonymum - slovo ve stejné třídě či hyponymum - šum Nejvyšší skóre dosahují hyperonyma, nejmenší naopak šum. Kde ale vhodně zvolit hranici mezi jednotlivými kategoriemi? Buď si předem stanovíme podle dříve vyzkoušených hodnot poměry mezi jednotlivými kategoriemi, nebo podle procentuálního výsledku budeme mít pevně stanovené hranice. Druhý přístup se stává zajímavějším, protože není ovlivněn tolik používáním slova v řeči a zvýšený poměr šumu nikam neposune hranice. Proto jej zde využijeme. 4.3 Fráze, určující sémantickou příbuznost a orientaci Princip funguje na myšlence, že i v samotném textu korpusu je napsáno, jaký vztah platí mezi určitými slovy. Proto poku d se chceme dozvědět vztah dvou slov, stačí si najít kontext, kde se obě nachází relativně u sebe a přečíst si, co je ukryto mezi nimi. Na spodní úrovni se nachází okénková metoda, která rozhoduje, jak velký kontext slova se má prohledat. Zda je užitečné procházet i mezi různými větami. Nad touto vrstvou se bude nacházet několik předem připravených slovních spojení, která určí, zda tato slova maj í něco společně, nebo přímo označí tato slova za příbuzná přesným vztahem. Základem je vybrat vhodný rozsah kontextu. Diamant našel v zamčené skříni; Hordubalová nechtěla k ní vydat klíč, prý jej ztratila. Skříň vypáčil, a i klíč k ní později našel na dně vědra s ovsem. Na ukázkovém příkladu ale můžeme vypozorovat, že souvislosti překračují hranice věty. Tím získáme i větší počet nálezů. Můžeme si pomoci kontrolou morfologické informace, zda tato slova mají určitou míru podobného kontextu. Rozhodujícím faktorem je nalézt velké množství kvalitních frází, které nám řeknou hledaný vztah. Příkladem může být: [lemma="chytrý"] []{0,7} [word="nebo"] []{0,7} [lemma="hloupý"] Ten nám určí, že slova chytrý a hloupý jsou antonyma (s určitou pravděpodobností). Více požitých frází se nachází v příloze D. 26
34 Tato metoda je silně jazykově závislá. Pro jiný jazyk někdy stačí fráze přeložit, ale mnohem vhodnější je od lingvistů vytvořit fráze nové. Metoda je dost výpočetně náročná, neboť se pro každá dvě slova musí procházet celý korpus. Je ale možné tuto metodu přímo implementovat do nástroje spravujícího korpus a nalézt všechny výsledky na jeden průchod korpusem. 4.4 Příbuzenské vztahy pomocí Sketch Diff Současný thesaurus v systému Sketch Engine je sestaven podle vypočítané hodnoty podobnosti mezi slovy. Počítá se z jejich společného kontextu a z množství výskytu slov, která se vyskytují pouze u jednoho ze slov. Čím shodnější mají kontext, tím si jsou podobnější. V thesauru jsou ale nyní obsaženy prakticky všechny druhy vztahů (a často i beze vztahu). My provedeme úpravy ve vyhodnocování a tím budeme schopni rozlišit určité druhy vztahů. Vztah hyperonymum hyponymum Pokud si představíme, že vztah hypero hyponymie tvoří strom, objevuje se zde i určitá vlastnost dědičnosti často se vyskytujících slov. To prakticky může znamenat, že nebude pro nás důležitý průnik, ale vztah nadmnožina podmnožina. I když u hyponyma se objevují vlastnosti, které se u hyperonyma nevyskytují (příliš detailní), povětšinou se ostatní vlastnosti tak neztrácejí. Důsledkem toho je, že hyperonymum má mnoho společného se svým hyponymem, ale u hyponyma se objevuje velké množství jiných slov. Příbuznost Příbuznost je vyjádřením poměrem podobných kontextů. Proto pokud mají velmi malý poměr společných slov, nejedná se o příbuzné pojmy. Krásně je tato situace vidět na porovnání slov kouzlo a kladivo. Sekce kouzlo only a kladivo only jsou mnohonásobně větší, než podobné výskyty. Patří do téže třídy Chová se podobně jako příbuznost, jen musíme být trochu striktnější a zaměřovat se na jednotlivé kategorie. Přídavné jméno velká společná sekce modifies Sloveso významnou roli zde hrají podměty a předměty Podstatné jméno chová se podobně jako podstatné jméno, jen se vyskytuje na opačné straně vztahu (slovo a jeho přívlastek) 27
35 příbuznost třída synonymie a antonymie Obrázek 4.2 Vztahy příbuznosti Synonyma a antonyma Tento přístup neslouží k rozlišování antonym. Hledá spíše společné, než rozdílné. Opět pro rozlišení musíme zpřísnit kategorii třídy. Na Obrázku 4.2 můžeme vidět vztah mezi slovy. Prakticky nám bude vadit různorodost skupin. Každé slovo navíc snižuje pravděpodobnost synonymie. Obrázek 4.3 Sketch Engine Sketch Diff porovnání kontextu dvou slov 28
36 Kapitola 5 5 Testování a výsledky Tato kapitola obsahuje to nejdůležitější, proč tato práce vznikla. Porovnání výsledků a zhodnocení jednotlivých metod. Nejprve popíši, na jakých slovech se budou zkoumat metody, dále podrobně vypíši, jak se bude podobnost zkoumat jednotlivé metriky a porovnání. Poté už jen zhodnotím metody mezi sebou a každou samostatně. Na závěr popíšu slabá místa těchto metod a někdy i navrhnu jejich zkvalitnění. 5.1 Vybraná slova podstatná jména SYN2000 all "SYN" ku "all" auto % bouda % kopec % král % nos % peníze % schopnost % strava % svoboda % vítr % Tabulka 5.1 Testovaná podstatná jména Nejdůležitější při testování různých metod je výběr testovaných slov. Měl by být co nejrůznorodější, aby poskytoval informaci ze všech hledisek. Zastoupení slov by mělo být jak ze slov častějších, tak ze slov vyskytujících se jen zřídka. Volba proto spočívala především na náhodném vybírání slov ze Slovníku českých synonym [2]. Z každého zkoumaného slovního druhu bylo vybráno 10 slov. V tabulkách 5.1, 5.2 a 5.3 jsou tato slova vypsána. Tabulky obsahují také informace o počtu výskytů slov v korpusech 29
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová O jazyce Opakování učiva 3. ročníku Národní jazyk Naše vlast a národní jazyk Nauka o slově Slova a pojmy,
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
září Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová. Žák dokáže rozlišit mluvnické kategorie podstatných jmen (pád, číslo, rod), rozliší větu jednoduchou
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele
Číslo projektu Název školy Autor Tematická oblast CZ.1.07/1.5.00/34.0743 Moravské gymnázium Brno s.r.o. Hana Blaudeová Český jazyk Ročník 2. Datum tvorby 05.05.2013 Anotace -prezentace určena pro učitele
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Stonožka jak se z výsledků dozvědět co nejvíce
Stonožka jak se z výsledků dozvědět co nejvíce Vytvoření Map učebního pokroku umožňuje vyhodnotit v testování Stonožka i dílčí oblasti učiva. Mapy učebního pokroku sledují individuální pokrok žáka a nabízejí
2. Korpusový portál a volně dostupné nástroje
1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska
Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.
Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova - zná pojem mateřský jazyk 1. Čeština jako mateřský jazyk MKV 4.4 - zná základní složky
Dataprojektor, jazykové příručky, pracovní listy
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Tvarosloví *) Český jazyk (CEJ) Jazyková výchova Sekunda 2 hodiny týdně Dataprojektor, jazykové příručky, pracovní listy Určuje slovní druhy, své tvrzení vždy
Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 5. Časová dotace: 7 hodin týdně Komunikační a slohová Zážitkové čtení a naslouchání klíčová slova vyhledávací čtení aktivní naslouchání se záznamem slyšeného Žák při hlasitém čtení vhodně využívá
Aktuální změny v didaktickém testu z češtiny 2015
Aktuální změny v didaktickém testu z češtiny 2015 PhDr. Dana Brdková Lektorka Bankovní akademie a VŠFS Pro použití v rámci projektu ematurity Jak je sestaven didaktický test? Didaktický test obsahuje 10
Jazyk, slovo, slovní zásoba a slovníky. Tomáš Káňa Masarykova univerzita v Brně Katedra německého jazyka a literatury
Tomáš Káňa Masarykova univerzita v Brně Katedra německého jazyka a literatury Jazyk: přirozený dorozumívací systém mezi lidmi systém kódů Jazyky: přirozené dorozumívací systémy různé kódy přirozená jednotka
Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání: 11. dubna 2014 Místo konání: Filozofická fakulta Masarykovy univerzity (učebna G13) Název přednášky: Přednášející: Webové korpusy Aranea
7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků
list 1 / 8 Čj časová dotace: 4 hod / týden Český jazyk a literatura 7. ročník (ČJL 9 1 09) sestaví vypravování v časové posloupnosti s využitím názorných jazykových prostředků sestaví vypravování s využitím
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák rozlišuje zvukovou a grafickou podobu slova, člení slova na hlásky, odlišuje dlouhé a krátké samohlásky. Žák rozlišuje počet slabik a písmen ve slovech Postupné rozšiřování slovní zásoby Učí se užívat
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 8. ročník Zpracovala: Mgr. Marie Čámská Jazyková výchova spisovně vyslovuje běžně užívaná cizí slova umí spisovně vyslovit běžná cizí slova
2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.
TABULKY SLOVÍČEK Už před lety jsem si všiml, že z nějakého důvodu studenti na základní a dokonce i na pokročilejší úrovni často neznají některá úplně základní slovíčka. Nejvíce se to dá pozorovat u sloves,
Český jazyk ve 4. ročníku
Český jazyk ve 4. ročníku září Jazyková Čte s porozuměním přiměřeně náročné texty potichu i nahlas. učebnice strana 3 7 Procvičuje praktické naslouchání při komunikaci s další osobou. pracovní sešit strana
Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 4. Časová dotace: 7 hodin týdně Komunikační a slohová Čtení a naslouchání čtení jako zdroj informací aktivní naslouchání s otázkami Žák čte s porozuměním přiměřeně náročné texty potichu i nahlas.
Projekt IMPLEMENTACE ŠVP
Střední škola umělecká a řemeslná Evropský sociální fond "Praha a EU: Investujeme do vaší budoucnosti" Projekt IMPLEMENTACE ŠVP Evaluace a aktualizace metodiky předmětu Německý jazyk Obory nástavbového
VÝUKOVÝ MATERIÁL. Bratislavská 2166, 407 47 Varnsdorf, IČO: 18383874 www.vosassvdf.cz, tel. +420412372632 Číslo projektu
VÝUKOVÝ MATERIÁL Identifikační údaje školy Vyšší odborná škola a Střední škola, Varnsdorf, příspěvková organizace Bratislavská 2166, 407 47 Varnsdorf, IČO: 18383874 www.vosassvdf.cz, tel. +420412372632
Předmět: Český jazyk a literatura
21 sestaví osnovu vyprávění a na jejím základě vytváří krátký mluvený nebo písemný projev s dodržením časové posloupnosti 30 porovnává významy slov, zvláště slova stejného nebo podobného významu a slova
Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
Český jazyk a literatura - jazyková výchova
Využívá znalostí získaných v předešlých ročnících. OPAKOVÁNÍ OPAKOVÁNÍ Vysvětlí pojmy: sl.nadřazené, podřazené a slova souřadná.uvede příklady. Rozpozná sl. jednoznač.a mnohoznačná. V textu vyhledá synonyma,
Ontologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
Český jazyk v 5. ročníku
Český jazyk v 5. ročníku září Jazyková Při hlasitém čtení vhodně využívá modulace souvislé řeči a různá zabarvení hlasu. Po tichém čtení samostatně reprodukuje text. Odliší podstatné a okrajové informace,
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 4. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova čte s porozuměním přiměřeně náročné texty potichu i nahlas čte s porozuměním
Struktura seminární práce
Struktura seminární práce Úvodní strana Velikost písma zde užíváte podle vlastního uvážení. Důležité je, aby největší byl nadpis pro práci, druhý největší byl název školy a menší písmo je dobré použít
Vyhledávání na Internetu
Tento materiál byl napsán za využití učebních materiálů ke Kurzu práce s informacemi (KPI11) vyučovaném v roce 2007 na Masarykově univerzitě. Autory kurzu jsou: PhDr. Petr Škyřík, Mgr. Petra Šedinová,
Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.
Anglicko český technický slovník Lingea Ing. Miroslav HEROLD, CSc. Na Jeronýmovi 2010 byl ke shlédnutí nový slovníkový titul pod rozhraním LEXICON 5 Anglicko-český technický slovník. Toto rozhraní bylo
Ročník V. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.
Komunikační a slohová výchova Praktické a věcné čtení Praktické a věcné naslouchání Základy mluveného projevu Pozdrav, oslovení, omluva, prosba, vzkaz, zpráva, oznámení, vyprávění, dialog, mimika, gesta
Český jazyk - Jazyková výchova
Prima Zvuková stránka jazyka Stavba slova a pravopis rozlišuje spisovný jazyk, nářečí a obecnou češtinu Jazyk a jeho útvary seznamuje se s jazykovou normou spisovně vyslovuje česká a běžně užívaná cizí
Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)
Český jazyk a literatura - 6. ročník Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky) jazykovými příručkami Odliší spisovný a nespisovný jazykový projev Rozpozná nejdůležitější
RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov
Dodatek č.17 PŘEDMĚT: ČESKÝ JAZYK A LITERATURA ROČNÍK: 8. ročník ČESKÝ JAZYK - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov - rozlišuje
ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,
ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina - 22. 3. 2018, zapsala Revize zápisu Martin Holub, 27. 3. 2018 I. Frekvenční tabulky opakování z minulé hodiny Frekvenční tabulka je nejzákladnější nástroj
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo Přesahy a vazby, průřezová témata rozlišuje spisovný jazyk, nářečí a obecnou češtinu
8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice
9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky
Olympiáda v českém jazyce 45. ročník, 2018/2019
Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, 110 00 Praha 1 Olympiáda v českém jazyce 45. ročník, 2018/2019 Krajské kolo zadání II. kategorie přidělené soutěžní číslo body gramatika
Verbální dovednosti. PaedDr. Mgr. Hana Čechová
Verbální dovednosti PaedDr. Mgr. Hana Čechová Osnova 1. Verbální dovednosti 2. Složky verbální dovednosti 3. Trénink verbální dovednosti 4. Vliv verbální dovednosti 5. Slovní zásoba 6. Obohacování a změna
OPAKOVÁNÍ SLOHOVÝCH ÚTVARŮ I. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje
OPAKOVÁNÍ SLOHOVÝCH ÚTVARŮ I. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje Únor 2011 Mgr. Jitka Riedlová Opakování slohových útvarů I. Vypravování
Jednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky
Učební osnovy Ruský jazyk PŘEDMĚT: Ruský jazyk Ročník: 7. třída 1 rozumí jednoduchým pokynům a otázkám učitele, které jsou pronášeny pomalu a s pečlivou výslovností, a reaguje na ně 1p je seznámen se zvukovou
5 Orientované grafy, Toky v sítích
Petr Hliněný, FI MU Brno, 205 / 9 FI: IB000: Toky v sítích 5 Orientované grafy, Toky v sítích Nyní se budeme zabývat typem sít ových úloh, ve kterých není podstatná délka hran a spojení, nýbž jejich propustnost
POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE
POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE na Fakultě životního prostředí UJEP v Ústí nad Labem. 1. Bakalářská a diplomová práce se odevzdává ve třech výtiscích v pevné vazbě. Práce musí být svázaná
Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku
Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku Škola Testovací škola NÚOV, Praha Třída 3. A Předmět Francouzština Učitel pepa novák Vážená paní učitelko, vážený pane učiteli, v této
Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce
1 JAZYK A JAZYKOVÁ KOMUNIKACE UČEBNÍ OSNOVY 1. 2 Cvičení z českého jazyka Cvičení z českého jazyka 7. ročník 1 hodina 8. ročník 1 hodina 9. ročník 1 hodina Charakteristika Žáci si tento předmět vybírají
Předmět - Český jazyk a literatura Ročník: 5. RVP - ZV Výstup Učivo Průřezová témata
Předmět - Český jazyk a literatura Ročník: 5. čte s porozuměním přiměřeně náročné texty potichu i nahlas rozlišuje podstatné a okrajové informace v textu vhodném pro daný věk, podstatné informace zaznamenává
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.
- plynule čte v porozuměním text přiměřeného rozsahu a náročnosti KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - porozumí písemným nebo mluveným pokynům přiměřené složitosti - respektuje
Školní vzdělávací program Základní školy a mateřské školy Sdružení
Vyučovací předmět: Český jazyk a literatura 3. ročník Měsíc Téma Učivo Očekávaný výstup září říjen OPAKOVÁNÍ Z 2. roč. VĚTA JEDNODUCHÝ PŘÍBĚH OPAKOVÁNÍ Z 2. ročníku PÁROVÉ SOUHLÁSKY ABECEDA JEDNODUCHÝ
E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Rozšiřování a upevňování slovní zásoby a gramatiky Ruský jazyk Helena Malášková 01
VÝBĚR A JEHO REPREZENTATIVNOST
VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:
Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.
Kapitola Reprezentace grafu V kapitole?? jsme se dozvěděli, co to jsou grafy a k čemu jsou dobré. rzo budeme chtít napsat nějaký program, který s grafy pracuje. le jak si takový graf uložit do počítače?
- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.
- plynule čte s porozuměním text přiměřeného rozsahu a náročnosti KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. OSV (komunikace)- specifické komunikační dovednosti - porozumí písemným
Výstupy odpovídající úrovni A1 podle SERR. Dataprojektor, počítač, smartphone, pracovní listy, slovníky. Gymnázium Jiřího Ortena, Kutná Hora
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Německý jazyk (NEJ) Výstupy odpovídající úrovni A1 podle SERR Tercie 4 hodiny týdně Dataprojektor, počítač, smartphone, pracovní listy, slovníky Úvod do studia
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 9. ročník Zpracovala: Mgr. Marie Čámská Jazyková výchova spisovně vyslovuje běžně užívaná cizí slova samostatně pracuje s Pravidly českého
Příklad z učebnice matematiky pro základní školu:
Příklad z učebnice matematiky pro základní školu: Součet trojnásobku neznámého čísla zvětšeného o dva a dvojnásobku neznámého čísla zmenšeného o pět se rovná čtyřnásobku neznámého čísla zvětšeného o jedna.
Vzdělávací obor Německý jazyk
7. ročník Hlavní okruhy Očekávané výstupy dle RVP ZV Metody práce (praktická cvičeni) obor navázání na již zvládnuté 1. POSLECH S Kompetence komunikativní Témata: POROZUMĚNÍM Žák rozumí jednoduchým otázkám
Jak psát bakalářskou či diplomovou práci. Možná úskalí při výběru témat a vedoucích prací:
Jak psát bakalářskou či diplomovou práci Následující text poskytuje základní informace o tom, jak si zvolit téma bakalářské (a také Úvodu k bc. práci) či diplomové práce a jak práci tohoto typu psát. Výchozím
Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.
Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je
Gymnázium Jiřího Ortena, Kutná Hora
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Základy německého jazyka (ZNJ) Výstupy odpovídající úrovni A1 podle SERR 3. ročník a septima 2 hodiny týdně Dataprojektor, počítač, smartphone, pracovní listy,
Jak vyhledávat. Vyhledávače KAPITOLA 3
KAPITOLA 3 Jak vyhledávat Už víme, jak zacházet s programem Microsoft Internet Explorer, a můžeme se pustit do surfování. Ostatně, stejně jsme to při seznamování s funkcemi programu chtíce nechtíce dělali.
Dataprojektor, jazykové příručky, pracovní listy
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Český jazyk (CEJ) Jazyková výchova Tercie 2 hodiny týdně Dataprojektor, jazykové příručky, pracovní listy Skladba *) Ţák vysvětlí pojem aktuální (kontextové)
Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.
Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy
Český jazyk a literatura
1 Výchovné a vzdělávací strategie Kompetence k učení Kompetence komunikativní Kompetence pracovní Kompetence k řešení problémů Kompetence sociální a personální Kompetence občanské RVP výstupy ŠVP výstupy
Biskupské gymnázium Žďár nad Sázavou vyšší stupeň osmiletého gymnázia, čtyřleté gymnázium. Receptivní řečové dovednosti
Předmět: Seminář anglická literatura Ročník: oktáva, 4. ročník Biskupské gymnázium Žďár nad Sázavou vyšší stupeň osmiletého gymnázia, čtyřleté gymnázium Vypracoval: PhDr. Jitka Stráská Očekávaný výstup
Vzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 5. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova čte s porozuměním přiměřeně náročné texty potichu i nahlas vymyslí
Pokyny pro zpracování bakalářských prací
Grafická a multimediální laboratoř Vysoká škola ekonomická v Praze 2014 Pokyny pro zpracování bakalářských prací Obsah Struktura bakalářské práce... 2 Vstupní část práce... 2 Hlavní textová část práce...
ANOTACE nově vytvořených/inovovaných materiálů
ANOTACE nově vytvořených/inovovaných materiálů Číslo projektu Číslo a název šablony klíčové aktivity Tematická oblast CZ.1.07/1.5.00/34.1017 III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT Slovní
2.3 Prezentace statistických dat (statistické vyjadřovací prostředky)
2.3 Prezentace statistických dat (statistické vyjadřovací prostředky) Statistika musí výsledky své práce převážně číselná data prezentovat (publikovat, zveřejňovat) jednoduše, srozumitelně a přitom výstižně.
E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Rozvoj řečových dovedností Ruský jazyk Helena Malášková 01 O spánku a váze - prezentace
1 Linearní prostory nad komplexními čísly
1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)
Algoritmus. Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu.
Algoritmus Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu. Klíčové pojmy: Algoritmus, vlastnosti algoritmu, tvorba algoritmu, vývojový diagram, strukturogram Algoritmus
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
říjen září Žák rozlišuje zvukovou a grafickou podobu slova, člení slova na hlásky, odlišuje dlouhé a krátké samohlásky. Zvuková stránka jazyka Slovní zásoba a tvoření slov Skladba Sluchové rozlišení hlásek
Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky
Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci
Pokročilé typové úlohy a scénáře 2006 UOMO 71
Pokročilé typové úlohy a scénáře 2006 UOMO 71 Osnova Interní model typové úlohy Vazby include a extend Provázanost typových úloh na firemní procesy a objekty Nejčastější chyby 2006 UOMO 72 Interní model
Tematický plán učiva. Předmět : Český jazyk a literatura Školní rok : 2012-2013 Třída-ročník : 4. Vyučující : Věra Ondrová
Tematický plán učiva Předmět : Český jazyk a literatura Školní rok : 2012-2013 Třída-ročník : 4. Vyučující : Věra Ondrová 1.Vyjadřuje se v běžných komunikačních situacích, neskáče do řeči a naslouchá,
Český jazyk a literatura
1 Český jazyk a literatura Český jazyk a literatura Výchovné a vzdělávací strategie Kompetence k učení Kompetence komunikativní Kompetence pracovní Kompetence k řešení problémů Kompetence sociální a personální
V této kapitole si zobecníme dříve probraný pojem limita posloupnosti pro libovolné funkce.
Kapitola 7 Limita funkce V této kapitole budeme studovat pojem ita funkce, který lze zařadit mezi základní pojmy matematiky, speciálně pak matematické analýzy Využití ity funkce je široké Pomocí ity lze
Předmět: Český jazyk a literatura
21. sestaví osnovu vyprávění a na jejím základě vytváří krátký mluvený nebo písemný projev s dodržením časové posloupnosti 30. porovnává významy slov, zvláště slova stejného nebo podobného významu a slova
Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas
21 sestaví osnovu vyprávění a na jejím základě vytváří krátký mluvený nebo písemný projev s dodržením časové posloupnosti 30 porovnává významy slov, zvláště slova stejného nebo podobného významu a slova
Jak pracuje internetový vyhledávač
Rudolf Rosa rosa@ufal.mff.cuni.cz Jak pracuje internetový vyhledávač Univerzita Karlova Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky Den otevřených dveří MFF UK, Praha, 23. 11.
Olympiáda v českém jazyce 45. ročník, 2018/2019
Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, 110 00 Praha 1 Olympiáda v českém jazyce 45. ročník, 2018/2019 Okresní kolo zadání I. kategorie přidělené soutěžní číslo body gramatika
Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 3.. Průřezová témata Mezipředmětové vztahy.
OSV - rozvoj individuálních dovedností pro kooperaci (seberegulace v situaci nesouhlasu, odporu apod., dovednost odstoupit od vlastního nápadu, dovednost navazovat na druhé a rozvíjet vlastní linku jejich
Použití této techniky se v tezaurech nedoporučuje.
3 Sousloví 3.1 Obecně Obecně se má za to, že lexikální jednotky mají vyjadřovat jednoduché popř. jednolité pojmy a že sousloví je třeba rozložit na jednodušší prvky s výjimkou těch případů, kdy by rozklad
Kategorie vytvořené na základě RVP a projektu Evaluace inf. gramotnosti žáků ZŠ.
Specialista Profík Objevitel Průzkumník Začátečník Kategorie vytvořené na základě RVP a projektu Evaluace inf. gramotnosti žáků ZŠ. Dovednost řešit problémy žák teprve získává, zatím neumí řešit bez pomoci
Předmět: Konverzace v ruském jazyce
Vzdělávací oblast: Vzdělávací obor: Jazyk a jazyková komunikace Cizí jazyk Konverzace v ruském jazyce Vyučovací předmět Konverzace v ruském jazyce vychází ze vzdělávacího oboru Další cizí jazyk, který
Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr
StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule
STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti
ZÁKLADNÍ STATISTICKÉ POJMY HROMADNÝ JEV Statistika pracuje s tzv. HROMADNÝMI JEVY cílem statistického zpracování dat je podání informace o vlastnostech a zákonitostech hromadných jevů: velkého počtu jedinců
Zpráva z evaluačního nástroje. Strategie učení se cizímu jazyku Dotazník pro učitele základní školy
Zpráva z evaluačního nástroje Strategie učení se cizímu jazyku Dotazník pro učitele základní školy Škola Základní škola, Třída 6. A Předmět Angličtina Učitel Mgr. Dagmar Vážená paní učitelko, vážený pane
Dataprojektor, kodifikační příručky
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Český jazyk (CEJ) Jazyková výchova Prima 2 hodiny týdně Dataprojektor, kodifikační příručky Slovní druhy Objasní motivaci pojmenování slovních druhů Vysvětlí
POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE
POSUDEK VEDOUCÍHO BAKALÁŘSKÉ PRÁCE Jméno studenta Branný Jan Název práce Jméno vedoucího práce Jméno oponenta práce Realizace modulárního CMS pro digitální agentury Ing. David Hartman Ph.D. Ing. Lukáš
ČESKÝ JAZYK 3. ROČNÍK
VZDĚLÁVACÍ OBLAST: VZDĚLÁVACÍ OBOR: PŘEDMĚT: JAZYK A JAZYKOVÁ KOMUNIKACE ČESKÝ JAZYK A LITERATURA ČESKÝ JAZYK 3. ROČNÍK Téma, učivo Rozvíjené kompetence, očekávané výstupy Mezipředmětové vztahy Aktualizace
Logika a jazyk. filosofický slovník, Praha:Svoboda 1966)
Logika a jazyk V úvodu bylo řečeno, že logika je věda o správnosti (lidského) usuzování. A protože veškeré usuzování, odvozování a myšlení vůbec se odehrává v jazyce, je problematika jazyka a jeho analýza
Struktura e-learningových výukových programù a možnosti jejího využití
Struktura e-learningových výukových programù a možnosti jejího využití Jana Šarmanová Klíčová slova: e-learning, programovaná výuka, režimy učení Abstrakt: Autorská tvorba výukových studijních opor je
ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová
Název projektu ICT podporuje moderní způsoby výuky Číslo projektu CZ.1.07/1.5.00/34.0717 Název školy Gymnázium, Turnov, Jana Palacha 804, přísp. organizace Číslo a název šablony klíčové aktivity III/2
2 Lexikální jednotka. 2.1 Obecné kategorie
2 Lexikální jednotka 2.1 Obecné kategorie Pojmy vyjádřené lexikálními jednotkami patří k těmto obecným kategoriím: a) Konkrétní entity (nositelé vlastností a dějů) b) Abstraktní entity c) Individuální
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní