Automatické vyhledávání nadřazených a podřazených pojmů v textu
|
|
- Ilona Holubová
- před 9 lety
- Počet zobrazení:
Transkript
1 MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY Automatické vyhledávání nadřazených a podřazených pojmů v textu BAKALÁŘSKÁ PRÁCE Petr Uhlíř Brno, 2010
2 Prohlášení Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj. Vedoucí práce: Aleš Horák, Ph.D. ii
3 Poděkování Na tomto místě bych rád poděkoval Aleši Horákovi, Ph.D. za ochotu, trpělivost a pečlivost při odborném vedení této práce. Také děkuji své rodině a přátelům za důvěru a podporu při psaní práce. iii
4 Shrnutí Práce se zabývá možnými postupy při získávání nadřazených a podřazených výrazů z česky psaného textu. Tyto metody byly otestovány na korpusech se stovakami milionů slov. Nalezené chyby byly analyzovány a pomocí vhodného řešení odstraněny, aby výsledné pojmy dosahovaly vysoké přesnosti. Aplikovaná pravidla byla dále zahrnuta do implamentace programu, který automaticky prochází vstupní soubor a pokouší se odhalit existující vztahy mezi slovy. iv
5 Klíčová slova WordNet, korpus, hyperonymum, hyponymum, synonymum, antonymum, morfologická analýza, získávání informací, kontext, synonymní řada v
6 Obsah Úvod...2 Sémantické vztahy Synonyma a antonyma Holonyma a meronyma Hyperonyma a hyponyma Příčina a následek Podudálost Role a podílení se Být ve stavu a stav něčeho Instance a třída Fuzzynyma...9 Zdroje slov Korpus Wikipedie WordNet EuroWordNet...13 Získávání sémantických vztahů Vzory Překlad Hypertextové odkazy Položky seznamu Využití internetových vyhledávačů...19 Problémy Šířka kontextu Několikanásobný větný člen Nežádoucí slova Chyby ve zdroji Vložená vedlejší věta...26 Získávání dat Dolování z Wikipedie Dotazovací jazyk korpusu Výsledky získané z korpusu Výsledky získané programem...33 Závěr...36 Literatura
7 Úvod Oblast počítačového zpracování přirozeného jazyka je vědní obor zabývající se interakcí mezi člověkem a počítačem. Konkrétní aplikace řeší množství důležitých problémů s rozmanitým uplatněním v praxi. Syntéza řeči se věnuje převodu mluveného slova na text a naopak, strojový překlad se snaží zprostředkovat počítačem generovaný překlad, získávání informací se zabývá vyhledáváním konkrétních informací v textu a mnoho dalších aplikací oblasti přirozeného jazyka poskytuje důležité nástroje pro interakci člověka s počítačem. Takové systémy často pracují s textem, je tedy nutné v maximální možné míře porozumět vztahům a významům jednotlivých pojmů. Právě hlavní vztahy v anglickém jazyce sdružuje databáze WordNet [11]. Její ruční vytváření trvalo skupině lingvistů v čele s profesorem psychologie G. A. Millerem přes 20 let. WordNet je lexikální databáze, která na rozdíl od abecedního řazení slovníku uspořádává pojmy způsobem blízkým organizování lidské paměti. Klíčovou strukturou je vztah nadřazenosti a podřazenosti mezi jednotlivými pojmy, který vytváří hierarchické uspořádání mezi slovy stejného slovního druhu na základě množinové inkluze. Například ovoce je nadtřídou jablka a třešně. V současné době existují způsoby automatického rozšíření WordNetu od techniky hledání konkrétních vzorů v textu, až po dolování informací z HTML dokumentů. Techniky automatického vyhledávání nadřazenosti a podřazenosti je nutné rozšířit na český jazyk a vhodně upravit k získání výsledků s maximální možnou přesností. Použijeme k tomu systém hledání vzorů v textu. Přeložíme nejčastěji používané vzory v angličtině a otestujeme počty správných výsledků při procházení českým textem. Kromě samotného vzoru ještě formulujeme podmínky, za kterých budeme považovat dané pojmy jako hyperonyma a hyponyma. Hlavní omezení se budou týkat slovních druhů, popřípadě konkrétních pádů. Naše hypotézy budeme testovat v korpusovém manažeru na dostatečně velkém množství slov, abychom mohli odhalit potencionální komplikace. Výsledky ručně projdeme a na základě nalezených chyb upravíme výchozí hypotézu, kterou znovu otestujeme. Nakonec nejpřesnější způsoby implementuje do počítačové aplikace. Na testovaných datech se ukázalo, že nejsprávnější výsledky garantuje několikanásobný vztah mezi hyponymy, který obvykle vyloučí možnost méně obvyklého použití vzoru. Časté chyby pak budou způsobovat některé metafory, nezvyklé řazení slov ve větě, vedlejší věty vztahující se 2
8 k podstatnému jménu a mnohé další jevy. Vytvořenou aplikaci je možné dále rozšířit o předzpracování vstupních informací tak, že se vyloučí méně frekventované případy použití vět a pojmů, které produkují chybné výsledky. Rovněž vrácené informace obsahují malé procento chyb, které by bylo možné pomocí specifických pravidel dále zpracovat. První kapitola vyjmenovává možné sémantické vztahy mezi pojmy, vlastnosti takových relací i názorné příklady s používaným značením. Klademe důraz především na ty, které obsahuje WordNet nebo EuroWordNet. Druhá kapitola obsahuje možné zdroje slov a doplňkových informací k textu a zhodnocení výhod a nevýhod konkrétního způsobu. Třetí kapitola se týká získávání sémantických vztahů popsaných v literatuře a na internetu. Uvádíme několik možných metod od využití vzorů v textu až po hledání v HMTL dokumentech pomocí seznamu položek. Čtvrtá kapitola uvádí problémy v získávání vzorů z textu na názorných příkladech nalezených vět a pokouší najít způsob, který by dokázal všechny zmíněné problémy eliminovat a nevytvořit přitom nové. Pátá kapitola obsahuje použité postupy s popisem konkrétních dotazů nad texty, udává odhad na maximální množství nalezených výrazů a počty správně klasifikovaných. 3
9 Kapitola 1 Sémantické vztahy Sémantické vztahy tvoří komplexní systém vzájemných významů jednotlivých slov obecně lexikálních jednotek. Rozlišujeme mezi nimi tři základní třídy vztahů [1]. Ekvivalentní vztahy, které tvoří třídu vzájemně substituovatelných pojmů. Obvykle mezi ně řadíme většinu synonym. Hierarchické vztahy odpovídají nadřazenosti/podřazenosti (hyperonyma/hyponyma), v logice také označované jako vztah specifického a obecného nebo užšího a širšího pojmu. Někdy mezi hierarchické vztahy řadíme také celek/část (holonyma/meronyma). Třetí třída obsahuje pojmy, mezi kterými není vztah hierarchie, ani ekvivalence. Nejčastěji se jedná o vztahy typu: příčina/následek, předmět/použití apod. (Tato kapitola čerpá převážně z [2]) 1.1 Synonyma a antonyma Synonyma jsou slova stejného nebo podobného významu, která jsou vzájemně v určitém kontextu zaměnitelná [2]. Platí pro ně: Pokud X je synonymum Y, pak i Y je synonymum X. Vytváří tedy symetrickou relaci. V EuroWordNetu se používá také takzvaná blízko-synonymní relace (nearsynonymy), která zmírňuje podmínku vzájemné substituovatelnosti synonym. Za blízko-synonyma jsou považována slova, která splní následující test: Pokud něco je X, pak je to i Y. Pokud něco je Y, pak je to i X. Přičemž jedna z vět platit musí a druhá je pouze pravděpodobně platná. V angličtině tuto podmínku splní garbage trash. Druhý způsob získání blízko-synonymních pojmů je zúžit platnost testovacích vět pouze v případě některých hyponym z X, ale v takovém případě vyžadujeme nutnou platnost obou vět. V angličtině jsou taková slova tools a instrument, která jsou synonymní pro hammer a další. (čerpáno z [2] i dále) Synonyma existují pro všechny slovní druhy. Antonyma jsou slova opačného významu jako dobro a zlo, přítel a nepřítel nebo příliv a odliv. Jejich vztah je symetrický stejně jako u synonym. Můžeme je rozlišit podle slovní formy a významu. Výrazy přijmout a akceptovat mají stejný význam, ale jejich antonyma se vytvářejí na základě slovní formy: nepřijmout a neakceptovat. Slovníkové databáze typu WordNet pracují s tímto druhem antonymie, kterou EuroWordNet dále rozšiřuje o blízko-antonymní pojmy (nearantonymy) protikladné svými významy. Každá dvojice antonym musí mít svůj nadvýraz (hyperonymum), který udává rámcovou skupinu, v níž jsou pojmy protikladné. Muž a žena jsou svými opaky ve skupině osob. Obecně můžeme říct: X a Y jsou oba druhu Z a X je opakem Y. Vhodně zvolený nadvýraz může zabránit 4
10 porovnávání výrazů jako jablko a kancelář. 1.2 Holonyma a meronyma Holonymie se týká pouze podstatných jmen, jelikož definuje sémantický vztah celku k jeho částem. Obvykle se tento vztah v angličtině označuje jako is part of (je část celku) nebo is member of (je člen něčeho). Francie je například částí Evropy a členem Evropské unie. Holonymie je vztah hierarchie s vlastnostmi uspořádání, tranzitivitu ilustruje následující příklad: dveře jsou částí stěny a ta je částí budovy. Meronyma jsou opakem k holonymům. Jsou to slova označující části celku, tedy parts of (části něčeho). Příkladem meronym ke slovu obličej mohou být oči, ústa a nos. Podobně Evropská unie má za člena (has member) Velkou Británii. EuroWordNet rozšiřuje vztah celek-část do pěti dalších podkategorií: 1. (part) části, které utvářejí celek: ruka prsty 2. (portion) kus a celek, z kterého byl oddělen: ingot kov 3. (location) širší místo, které zahrnuje menší oblast: kontinent stát 4. (member) množina a její prvky: flotila loď 5. (made-of) věc a materiál, z kterého se skládá: kniha papír Existují však i jiné vztahy, které se pro jejich velký počet dále nerozlišují. Navíc můžeme pojmy rozdělit na unikátní a neunikátní. Prsty jsou pouze částí ruky, zatímco okno může být částí auta, budovy a dalších. Bez ohledu na jedinečnost prvku je propojen se všemi celky, které tvoří. 1.3 Hyperonyma a hyponyma Hyperonyma jsou slova nadřazená svým významem, tedy obecnější. Většina pojmů má pouze jedno přímé hyperonymum, které dohromady vytvářejí stromovou strukturu. Nicméně soubor hyperonym vytváří obecně graf, neboť existují i výjimky, které mají více než jeden nadřazený výraz. Příkladem takového pojmu je obec, které je nadřazena obydlená část stejně jako administrativní oblast. Pokud uspořádáme graf tak, že nahoru dáme nejobecnější pojmy a pod ně stále o něco konkrétnější, získáme pohybem v grafu nahoru a dolu vztah generalizace a specializace. Pro hyperonyma platí také vlastnosti uspořádání, zejména tedy tranzitivita. Například pokud víme, že Toyota je auto a auto je vozidlo, můžeme z toho odvodit, že i Toyota je vozidlo. Každé podstatné jméno můžeme zařadit do jedné z kategorií abstraktní entita a konkrétní entita, jejichž společným hyperonymem je entita. Opakem hyperonym jsou hyponyma, neboli podvýrazy. Označují objekt přesněji a konkrétněji. Každý nadvýraz musí obsahovat více než jedno hyponymum, jelikož si nemohou být 5
11 rovny. Jedná se o vlastní podmnožinu nějakého obecnějšího výrazu, jako například pro výraz indoevropské jazyky to může být němčina. V angličtině se obvykle tento vztah označuje jako is kind of (je druh něčeho). Obrázek 1.1: Graf hierarchicky setříděných pojmů podle vztahu hypero-hyponymie V případě, že X je podvýraz a Y je nadvýraz, můžeme říct, že X je Y s určitými vlastnostmi. Ve větě můžeme nahradit hyponymum některým jeho hyperonymem, aniž by se změnil význam, ale ne naopak. Nahradíme-li v následující větě veverku zvířetem, význam zůstane zachován. Při procházce městem zahlédl veverku. Významnou roli v určování vztahů nadřazenosti a podřazenosti hraje také polysémie. Jediné slovo může mít více významů, které vytvářejí rozdílná uspořádání. Obvyklé je to zejména v angličtině. Podle statistik WordNetu je každé osmé slovo polysémní a má průměrně tři významy [3]. V češtině může být vícevýznamové slovo pes, jak uvádí následující příklad: Pes je nejlepší přítel člověka. Cítil jsem se pod psa. V druhé větě nejde o žádnou konkrétní jednotku, ale o abstraktní pocit, takže oba výrazy mají společné pouze jediné hyperonymum. V jazyce se také vyskytuje vertikální polysémie, často označovaná jako autohyperonymie, která popisuje jediné slovo, jehož dva různé významy k sobě mají hyponymický vztah [4]. Mezi taková slova patří pití, které označuje buď libovolnou tekutinu, nebo alkoholický nápoj. Vztah hypero-hyponymie neuvažujeme u přídavných jmen a příslovcí, které pouze dále 6
12 specializují podstatná jména, popř. slovesa. Přidáním přídavného jména typicky vytvoříme další hyponyma k danému pojmu, například přidáním slova "indoevropské" zpřesníme pojem "jazyky". U sloves můžeme nalézt vztah mezi chodit a pohybovat se, podobně jako u odvozených podstatných jmen chůze a pohyb. Slovesa však nemají tak bohatou hierarchickou strukturu. 1.4 Příčina a následek Vztahy vzájemného vyplývání jsou obvyklé zejména u sloves. V angličtině se tato relace označuje X CAUSE Y a Y IS CAUSED BY X. Příkladem takových slov může být zabití, které je příčinou umírání nebo nalezení, které je následkem hledání. Pro vztah příčiny a následku platí, že jedno vyplývá z druhého, ale ne naopak. Nemusí se však týkat pouze dvou sloves, ale jedno může být například nahrazeno podstatným jménem jako u umírání a smrt. 1.5 Podudálost Podudálost (anglicky subevent) označuje vlastnosti sloves mít vlastní podmnožinu (has subevent) nebo být vlastní podmnožinou (is subevent of). Například sloveso spát má podudálost chrápat a naopak chrápat je podudálostí spát. Podobně podudálostí nakupování je placení, ale zároveň i podstatné jméno platba. 1.6 Role a podílení se Mezi některými objekty a činnostmi je velmi těsný vztah. Čtení se silně váže ke knize, novinám, časopisům a dalším. Blízký vztah některých pojmů je vidět i na procesu odvozování nových slov jako běh/běžec, telefon/telefonovat. Pokud je relace z podstatného jména na sloveso, nazýváme ji role (anglicky role), opačným směrem ji označujeme jako podílení se (anglicky involved). Role je relace, kde sloveso označuje nějakou situaci a podstatné jméno v ní hraje zásadní roli. Podobně význam slovesa je silně charakterizován podstatným jménem podílejícím se na jeho významu. V této relaci se často odráží morfologická podobnost mezi podstatným jménem a slovesem. Například práce a pracovník nebo vysílat a vysílač. EuroWordNet rozlišuje podrobně dalších několik rolí: 1. agent 2. pacient 3. lokalita 4. směr 1. zdroj 7
13 2. cíl 1.7 Být ve stavu a stav něčeho Tento vztah spojuje podstatné jméno s nějakým přídavným jménem označujícím jeho stav. Označujeme jej be in state (být ve stavu), když směřuje od podstatného jména k přídavnému, v opačném případě používáme state of (stav něčeho). Například podstatné jméno chudý označuje stav být chudým a naopak přídavné jméno chudý popisuje stav chudáka (člověk, který je chudý). Tento vztah můžeme otestovat pomocí obecné věty, kde X je podstatné a Y přídavné jméno: X je to, co je ve stavu Y. 1.8 Instance a třída Vztah instance a třídy je podobný hyponymii a hyperonymii, ale místo relacemi mezi třídou a jejími entitami se jedná vztah individuálních entit. Pokud X je vlastní jméno a je jedním z Y, které zastupuje podstatné jméno, pak řekneme, že X belongs to class Y (X patří do třídy Y). V opačném směru značíme vztah jako has instance (má instanci). Příkladem může být Manchaster patřící do třídy měst, a tedy i město má instanci Manchaster. WordNet tento vztah řadí přímo k hypero-hyponymii. 8
14 vztah, relace značení příklad synonyma SYNONYM Jitřenka <=> Večernice blízko-synonyma NEAR_SYNONYM antonyma ANTONYM dobro <=> zlo blízko-antonyma NEAR_ANTONYM přijmout <=> akceptovat holonymum HAS_HOLO_PART nos => hlava HAS_HOLO_MADEOF voda => polévka meronymum HAS_MERO_MEMBER tvary => kruh HAS_MERO_LOCATION město => centrum hyperonymum HAS_HYPERONYM dopravní prostředek => auto hyponymum HAS_HYPONYM pizza => jídlo příčina CAUSES kouření => rakovina následek IS_CAUSED_BY vzbuzený => vzbudit mít podudálost HAS_SUBEVENT nakupování => placení být podudálostí IS_SUBEVENT_OF chrápání => spaní role ROLE_AGENT učitel => učit ROLE_PACIENT pacient => léčit podílení se INVOLVED_INSTRUMENT krystalizovat => krystal INVOLVED_LOCATON bojovat => bojiště INVOLVED_TARGET vzlétnout => nebe být ve stavu BE_IN_STATE manžel => ženatý stav (někoho/něčeho) STATE_OF rozvedená => žena instance BELONGS_TO_CLASS Praha => město třída HAS_INSTANCE řeka => Dunaj Tabulka 1.1: Možné vztahy a jejich příklady 1.9 Fuzzynyma Tento vztah zahrnuje všechny dosud nepopsané vztahy, u kterých platí, že X má silný vztah k Y. 9
15 Obrázek 1.2: Náhled různých vztahů mezi pojmy 10
16 Kapitola 2 Zdroje slov V naší práci se zaměříme především na elektronická data, a to z důvodu, že v takovém případě budeme moct využít automatické získávání informací z textu. Jednotlivé zdroje slov se liší velikostí, typem zpracovávaných dat i doprovodnými informacemi, které poskytují. Uvedeme si zejména zdroje slov, které budeme v dalších částech práce často využívat. 2.1 Korpus Korpus je soubor lingvistických dat soustřeďujících se na určité období, autora nebo jazyk a jeho vývoj. Může obsahovat písemné texty určitého jazyka nebo přepis mluveného slova případně doplněný audiovizuální podobou. Kromě jednojazyčných korpusů existují také vícejazyčné takzvané paralelní korpusy, které vedle sebe obsahují texty v různých jazycích. Hlavním účelem korpusu je ověřování hypotéz, vytváření statistické analýzy, zjišťování výskytů a testování lingvistických pravidel [5]. Proto je důležité, aby zdrojové texty co nejvíce popisovaly přirozený jazyk od způsobu používání až po výskyt slov. Asi nejlépe popsal limity a přínosy korpusů Charles J. Fillmore: Učinil jsem dvě pozorování. Za prvé, nemyslím si, že nějaký korpus, jakkoliv velký, obsahuje informace o celé oblasti anglické slovní zásoby a gramatiky, kterou chci prozkoumat; všechny které jsem viděl jsou nedostatečné. Druhé pozorování je, že každý korpus, který jsem měl šanci vyzkoušet, jakkoliv malý, mi ukázal taková fakta, že si nedovedu představit jejich získání jiným způsobem. [6]. Jelikož žádný korpus nemůže postihnout neustále se vyvíjející jazyk úplně, je nutné vhodně zvolit druh, který se pro konkrétní práci hodí nejlépe [7]. Existují korpusy rozlišitelné podle použitého stylu (publicistický, odborný, všeobecný, neformální nebo žánrově vyvážený), podle délky období resp. zachycující proměnu jazyka, které označujeme za diachronní oproti synchronním, které zachycují kratší období, ve kterém může být jazyk považován za neměnný. V dnešní době se využívají především elektronické korpusy obsahující mnoho milionů slov. Jedním z největších je Britský národní korpus, který obsahuje kolekci 100 milionů slov psané a mluvené angličtiny z různých zdrojů po celé Británii [8]. Seznam několika dalších světových korpusů se nachází na adrese V České republice se zabývá budováním korpusu Ústav Českého národního korpusu (dále jen ÚČNK), který spravuje mimo jiné i paralelní korpus InterCop, korpusy mluveného jazyka i korpus SYN2006PUB s
17 miliony slov z textových publikací vydaných mezi roky 1990 a Ústav jazyka českého spravuje korpus DIALOG se stovkou nahrávek a přepisů různých pořadů [9]. Při Masarykově univerzitě existují například korpusy DESAM nebo czes [10]. Velmi důležitou součástí korpusu jsou sémantické značky, které poskytují informace o slovním druhu a podrobnějších kategoriích pojmu. Další zásadní vlastnost je lemmatizace, tedy poskytování všech tvarů slova pomocí jeho základního tvaru. Pomocí libovolného rozhraní pak můžeme klást poměrně pestré množství dotazů, například na infinitiv nekončící na t nebo na všechny tvary jednotného čísla slova pes. Ke specifikování našeho požadavku použijeme regulární výrazy spolu s konkrétním značkováním, které se u různých korpusů může lišit. 2.2 Wikipedie Wikipedie je internetová encyklopedie, která obsahuje řadu definic a pojmů. Česky psaná Wikipedie uchovává přes 150 tisíc článků, které se týkají velkého množství základních výrazů. Celá encyklopedie je propojená hypertextovými odkazy a jednotlivé pojmy jsou dále navázány na cizojazyčné verze. Výhodou je neustálé rozšiřování starých textů a přibývání nových. Hlavní nevýhoda je, že neexistuje přímo zodpovědná redakce, která by garantovala kvalitu obsahu. 2.3 WordNet WordNet je lexikální databáze anglického jazyka vyvíjená na Princeton University ve Spojených státech [11]. Cílem WordNetu bylo navrhnout systém, který by obsahoval znalosti uspořádané způsobem blízkým tomu, jak člověk zpracovává řeč. To vedlo k vytvoření množin synonym nazývané synsety, které se vzájemně propojovaly sémantickými vztahy. Takto definovaná struktura má oproti syntakticky řazeným slovníkům několik výhod. Kromě mnohem intuitivnějšího zacházení nabízí také snadnou podporu automatické analýzy textu a propojení s aplikacemi umělé inteligence. Slova jsou rozdělena na podstatná jména, slovesa, přídavná jména a příslovce, jelikož pro každou skupinu platí různá gramatická pravidla. 12
18 Obrázek 2.1: WordNet 2.1 Browser zobrazující hyperonyma pro pojem "country" V současnosti WordNet obsahuje okolo slov organizovaných do téměř synsetů [3]. Navazuje na něj také množství aplikací, které se zabývají zjednoznačňováním významů slov, získáváním informací, automatickou klasifikace textu, určováním podobnosti slov a dalšími oblastmi. 2.4 EuroWordNet EuroWordNet je vícejazyčná databáze podobná americkému WordNetu pro některé evropské jazyky jako je holandština, italština, španělština, němčina, francouzština, čeština a estonština. Jednotlivé verze jsou propojené pomocí mezijazykového indexu (ILI, Inter-Lingual-Index). Pomocí něj je možné přecházet ze slova v jednom jazyku do korespondujícího výrazu v jiném. (čerpáno z [12]) Základní rozdíl mezi relacemi ve EuroWordNetu oproti americkému WordNetu je možnost 13
19 vytváření vztahů mezi jednotlivými třídami slovních druhů (v angličtině across part of speach označované jako XPOS). Ve WordNetu každý slovní druh vytváří vlastní oddělený systém jazykových relací. Výsledkem je, že koncepčně blízké pojmy jsou úplně separovány pouze kvůli rozdílnému slovnímu druhu. Příkladem mohou být slova ozdobení a ozdobit, které odkazují ke stejné činnosti. (čerpáno z [13]) EuroWordNet rozšiřuje relace WordNetu o vztahy mezi slovními druhy (XPOS), takže obsahuje například synonyma mezi podstatnými jmény a slovesy jako pohyb a pohybovat se. Vztah hypero-hyponymie mezi různými slovními druhy může vypadat takto: závidět je druhem emoce. Také je možné využít negativní relace, které je rozdílná od antonymie, neboť neudává opačný příklad, ale signalizuje, že mezi pojmy se určitá relace nenachází. Klasický příklad z angličtiny je rozdíl mezi výrazy monkey, který odkazuje ke zvířeti obecně, a ape týkající se podtřídy bez ocasu. K vyjádření rozdílu použijeme negativní příznak, který připojíme k výrazu ape HAS MERONYM tail. (čerpáno z [2]) 14
20 Kapitola 3 Získávání sémantických vztahů V této kapitole se budeme zabývat získáváním informací o vztahu nadřazenosti a podřazenosti přímo z textů. Člověk takové vztahy dokáže rozpoznat snadno na základě porozumění textu. Abychom dokázali určit některé vztahy včetně hypero-hyponymie, není dokonce nutné znát význam všech slov, některé informace je možné odvodit pouze z kontextu. Pro stroj je naopak získání těchto dat komplikovaný problém. 3.1 Vzory V angličtině slouží k vyhledávání nadřazených a podřazených výrazů systém častých vzorů, které s vysokou pravděpodobností popisují hledaný vztah. Vzory obsahují různá klíčová slova, na jedné straně od tohoto slovo se nachází nadvýraz a na druhé jeden nebo více podvýrazů oddělených čárkou nebo spojkami and a or. V angličtině se používají tato klíčová slova: such as, and other, including a especially [14]. Tyto výrazy se s různým úspěchem dají aplikovat i na češtinu. Příkladem takového použití může být text: ovoce jako je jablko, který dává smysl i v obecnější formě X jako je Y, z čehož vyplývá, že Y je druhem X. Další klíčová slova se však v české větě dají použít více způsoby a tím se snižuje přesnost výsledku. Opačný efekt má několikanásobný větný člen, který může zastupovat podvýrazy ve větách typu: Koupili jsme skříň, židle, stůl a další nábytek. Kromě překladu stávajících vzorů z angličtiny je možné hledat nové. Použijeme k tomu metody učení využívané v systémech zodpovídání otázek. Například při zjišťování data narození (otázka: Kdy se X narodil? ) je hledaná odpověď typicky: Mozart se narodil nebo Mozart ( )..., z čehož můžeme obecně odvodit vzor <JMÉNO> se narodil <DATUM> a <JMÉNO> (<DATUM>. Algoritmus na nalezení takovýchto vzorů dostane na počátku informaci jako Mozart 1756 a tento řetězec předloží vyhledávači. Z vrácených dokumentů vybere prvních 1000, které rozdělí na jednotlivé věty. Nakonec algoritmus vybere pouze takové části, které obsahují obě hledané fráze a zároveň mezi nimi nejsou více než tři další slova. (čerpáno z [15]) Takovýto způsob získávání vzorů můžeme využít i pro vztah nadřazenosti a podřazenosti. Vezměme si například vztah Francie-stát. Výsledky vyhledávače ukazuje obrázek 3.1. Typicky najdeme výrazy jako: Francie je stát..., zadlužené státy: Itálie, Francie a Anglie... nebo Francie předsedá státům Evropské unie.... Z nalezených částí vět vybereme ty s nejčastějším výskytem. 15
21 Nyní máme vzory, o kterých víme, že mohou popisovat námi hledaný vztah. Zbývá otestovat, jestli nalezený vzor nepokrývá i velké množství jiných vztahů. Tento postup opakujeme s různými příklady, abychom vyloučili způsoby, které se vztahují pouze k určitému okruhu výrazů, např. zemi nebo státu. Tento způsob hledání vzorů nachází především často používaná spojení konkrétních výrazů, která mohou mít i jiné jazykové funkce jako například dvojtečka. Obrázek 3.1: hledání výrazu "stát * Franice" na Překlad Nové pojmy ve vztahu hypero-hyponymie je možné získat také překladem z jiného jazyka. Víme-li například, že apple je druhem fruit, můžeme z toho překladem odvodit, že také jalbko je druhem ovoce. Vztahy nadřazenosti a podřazenosti entit jsou na jazyku nezávislé, protože 16
22 vyjadřují apriorní skutečnost charakterizovanou vlastnostmi entity. Problémy však způsobují pojmy navázané na tyto entity, protože často bez kontextu nedovolují přesně určit, ke které entitě se vztahují (taková slova nazýváme homonyma). Present je klasický příklad z angličtiny, u kterého nevíme, zda se jedná o přítomnost nebo dárek, neboť jsou dvě různé entity navázány na jeden pojem. Každý z významů je přesně určen množinou svých nadvýrazů, avšak samotné slovo nám neumožňuje určit, ke kterému ze svých významů patří. Z WordNetu zjistíme, že present má nadvýrazy gift nebo time, pro správné zařazení tedy musíme vědět, že české slovo přítomnost je podvýrazem času, avšak to je informace, kterou bychom právě chtěli získat. Při překladu může také snadno dojít k záměně slovních druhů. Zmíněné slovo present může v angličtině vystupovat nejen jako podstatné jméno, ale i přídavné jméno nebo sloveso. Poslední kategorií problémů jsou slova, která nemají svůj ekvivalentní protějšek. 3.3 Hypertextové odkazy Internetové stránky mají často velmi podobnou strukturu jako graf hypero-hyponymických vztahů. Obsah zpravidla bývá strukturován od obecného ke konkrétnímu pomocí sítě hypertextových odkazů. Běžné je to zejména na serverech s katalogy produktů, který jsou nějakým způsobem hierarchicky seřazeny. Takovými zástupci jsou vyhledávače založené na katalozích a internetové obchody. Nadvýrazy se vyskytují v menu, které zpravidla nemívá více než dvě úrovně, a podvýrazy se nacházejí v nadpisech produktů. Největší překážkou v získávání těchto informací je nutnost najít pro každý server zvlášť místa, kde se na stránce nacházejí, a malé množství nadvýrazů a podvýrazů v rámci jediného serveru. Někdy také bývají kategorie spojeny nežádoucí způsobem, jako např. elektronika a televize, z čehož by vyplývalo, že oba pojmy jsou na stejné úrovni, a komplikovalo by to další zařazení konkrétních produktů. 3.4 Položky seznamu Pro vyhledávání na webu je možné použít také takzvanou itemizaci, neboli využití položek číslovaného nebo nečíslovaného seznamu a jejich hlaviček, jak je vidět níže. 17
23 Obrázek 3.3: Položky seznamu Výhodou je snadné identifikování obsahu na stránce, které někdy může být zkomplikováno hledáním hlavičky. Z tohoto důvodu se využívá pouze kandidát na hlavičku. Algoritmus pak postupuje ve čtyřech následujících krocích: 1. Získání HTML dokumentu a extrahování seznamových položek utvářejících množinu kandidátů na hyponyma (hyponymy candidate set HCS) 2. Vybrání kandidátů na hyperonyma v blízkosti seznamu a také dvou množin dokumentů. Jednu z nich tvoří velké množství náhodně vybraných dokumentů, nazýváme ji globální množinou G a bude určovat obecné frekvence jednotlivých slov. Poté procedura stáhne dokumenty obsahující kandidáty na hyponyma v HCS pomocí nějakého internetového vyhledávače. Tato množina se nazývá lokální, označíme ji LD(C), kde C je množina hyponym HCS. N je množina podstatných jmen, která mohou být kandidáty na hyperonyma. Hyponymum pak označíme h(c). h C =argmax n N {hs n,c } hs n,c =df n, LD C idf n,g df(n, D) je počet dokumentů z množiny D obsahující podstatná jména n. idf(n, G) je definováno jako log( G /df(n, G)) hs dosahuje velkých hodnot pro podstatná jména objevující se v mnoha dokumentech z lokální množiny a mála z globální množiny. 3. Dosavadní postup nevyloučil silně souvislé výskyty, které nejsou v hyperohyponymním vztahu. Takové pojmy jsou například Toyota a cena, které se často budou vyskytovat společně. Proto se zavádí funkce sémantické podobnosti mezi kandidátskými hyperonymy a hyponymy. 18
24 sim n, C = ho C hy n / ho C hy n ho(c) označuje vektor hyponymních kandidátů, zatímco hy(n) označuje vektor možných hyperonym n. Předpokládejme, že všechny možné argumenty pozic jsou označeny {p 1,...,p l } a {v 1,...v o } označující slovesa. Vektory jsou poté definovány následovně. ho C = f h C, p 1, v 1,..., f h C, p l,v o hy n = f n, p 1, v 1,..., f n, p l, v o f h (C,p,v) udává frekvenci kandidátů na hyponyma v HCS C na pozici p se slovesem v mezi lokálními dokumenty, zatímco f(n,p,v) je počet podstatných jmen n na pozici p se slovesem v mezi globálními dokumenty. Nakonec se ještě aplikují následující pravidla: A) Pokud je počet dokumentů, které obsahují kandidátská hyperonyma, menší než součet počtu dokumentů obsahující položky z HCS, pak obě položky odstraníme z výstupu. B) Pokud se kandidát na hyperonymum objeví v seznamu HCS jako podřetězec a není sufixem, pak se obě položky z výstupu odstraní. V případě, že se kandidát na hyperonymum nachází v pozici sufixu, pak jej musí obsahovat polovina položek z HCS, jinak se hyperonymum i HCS odstraní. C) Pokud je kandidát na hyperonymum název místa, pak je nahrazen řetězcem název místa. Rozpoznání názvů míst provádí morfologický analyzátor. 4. Nakonec se vezme k nejlepších výsledků, které tvoří konečný výstup. Tento přístup dosahuje přesnosti okolo 80 % ještě pro 500 párů hyperonym a hyponym a se vzrůstajícím počtem párů přesnost dále klesá k 60 % pro dvojnásobek a 55 % pro trojnásobek párů. (tato podkapitola čerpá z [16]) 3.5 Využití internetových vyhledávačů Internet je obrovská zásobárna slov s více než 3 miliardami webových stránek a více než jedním milionem nově přidaných denně. K vyhledávání požadovaných dat se používají internetové vyhledávače, které vracejí množinu dokumentů obsahující hledanou frázi v nadpisu, URL nebo těle souboru. Oproti korpusu však internetové vyhledávače nabízejí mnohem slabší dotazovací jazyk. Zpravidla nemůžeme omezit počet hledaných slov, nemůžeme zakázat, aby se před hledanou frází vyskytovala jiná fráze a často nedokážeme vyhledat některé znaky, mezi které patří i interpunkce. 19
25 Například je nemožné vyhledat několikanásobný větný člen pouze na základě položeného dotazu. Dokumenty na internetu rovněž nenesou další sémantické informace, na které bychom se mohli ptát. Podstatné pro nás je, že můžeme pokládat dotazy na souvislou část textu. Obvykle se takové výrazy dávají do uvozovek (Google nebo Seznam), ale nemusí to být vždy pravidlem. K vyhledávání nadřazenosti a podřazenosti použijeme frázi X je Y. Na začátku budeme požadovat slovo, jehož hyperonymum nebo hyponymum hledáme a podle toho položíme dotaz X je * nebo * je Y, přičemž znak (*) zastupuje libovolný výraz. Například do vyhledávače vložíme frázi programovací jazyk je *, některé odpovědi shrnuje následující tabulka. Nejlepší programovací jazyk je C++. Jeho nejoblíbenější programovací jazyk je Visual Basic. Programovací jazyk je kompatibilní s SCPI a IEEE488. Programovací jazyk je prostředek pro zápis algoritmů, jež mohou být provedeny na počítači. Programovací jazyk je jen řemeslný nástroj, nic jiného. Tabulka 3.1: Některé odpovědi vyhledávače Google na dotaz "programovací jazyk je *" Nalezené výsledky budeme dále filtrovat, abychom se zbavili nežádoucích informací. Proces filtrování zahrnuje odstranění vět, které nezačínají hledanou frází nebo nenásledují za spojkami jako že, protože, zatímco, ačkoliv a dalšími. Před získáním hyperonyma určíme slovní druhy ve zbylých větách a následně vybereme první podstatné jméno z výrazu a případné modifikátory ignorujeme. Získaná slova spojíme na základě vzájemné synonymie definované WordNetem do jediného konceptu. Nakonec označíme za hyperonyma takové koncepty, které se vyskytují častěji než ostatní. Pro výraz programovací jazyk bude nalezený nadvýraz nástroj. Podobným způsobem budeme získávat hyponyma. Nejprve zformulujeme dotaz formátu * je Y, který předložíme vyhledávači. V následující tabulce uvedeme příklady výsledků nalezených pomocí vyhledávače na základě otázky: * je programovací jazyk. 20
26 PHP je programovací jazyk a v každém programovacím jazyce vznikají chyby. Makro je programovací jazyk "Microsoft Visual Basic", který je součástí MS Excel. PostScript je programovací jazyk určený ke grafickému popisu tisknutelných dokumentů vyvinutý v roce 1985 firmou Adobe Systems. GNU Octave je programovací jazyk, který umožňuje složité výpočty. Prolog je logický programovací jazyk. Haskell je programovací jazyk s volnějšími pravidly. Java je programovací jazyk, i platforma. Java je programovací jazyk pocházející od firmy Sun Microsystems. Tabulka 3.2: Nalezené odpovědi na dotaz "* je programovací jazyk" vyhledávačem Google Z nalezených záznamů použijeme jako kandidáty na hyponyma takové, kde se možné hyponymum nachází přímo před zadanou frází. Následně kandidátská hyponyma s nízkým počtem výskytů zkontrolujeme opačným směrem. Vezmeme nalezená Y a ověříme, jestli se původní výraz, ze kterého jsme vycházeli, nachází mezi nejčastějšími hodnotami X. Tímto způsobem odstraníme informace, které jsou chybné. Pro uvedený příklad by to znamenalo ověřit, že PostScript je * a tento výraz má mezi vrchními hyperonymy programovací jazyk. To znamená, že PostScript rozpoznáme jako hyponymum a stejně tak Javu, která má vysoký podíl výskytů. K vyhledávání můžeme využít i jiných frází, případně jejich kombinací. Pokaždé je však nutné ověřovat, že nalezené výrazy platí směrem od hyperonyma k hyponymu i naopak. Ačkoliv internet obsahuje obrovské množství textů, jsou často neformální, nestrukturované a nespolehlivé, neboť jejich autorem může být kdokoliv. Tato metoda funguje velmi dobře pro specifické výrazy, zatímco obvykle selhává u obecných podstatných jmen jako student, zvíře a podobné. (tato podkapitola čerpá z [17]) 21
27 Kapitola 4 Problémy V této kapitole se budeme zabývat komplikacemi při vyhledávání nadřazených a podřazených výrazů v textu. U každého typu problému ukážeme možné způsoby jeho řešení spolu s výhodami a nevýhodami takového postupu. Výklad doplníme názornými příklady vět nalezených v korpusu [18] a na české Wikipedii. Omezíme se pouze na hledání podstatných jmen. Ke každému slovesu existuje jeho zpodstatnělá verze, která vytváří stejný druh vztahů nadřazenosti a podřazenosti jako samotné sloveso s výjimkou toho, že ve své hierarchii obsahuje i podstatná jména, která nemají svůj slovesný ekvivalent. Například plavat obsahuje podobné vztahy jako plavání, nadvýrazy jsou sportovat a sportování, avšak sportování je podvýrazem abstraktní entity, která žádný svůj slovesný ekvivalent nemá. 4.1 Šířka kontextu Prvním problémem při získávání dat je otázka šířky vyhledávaného kontextu. V nejužším případě budeme mít pouze dvě podstatná jména v hledaném vztahu, avšak ztrácíme některé upřesňující údaje. Zahrady mohou být někdy kombinovány s dalšími krajinnými prvky jako jsou aleje, anglické parky, lesy apod. Z uvedené věty bychom získali pouze vztah mezi prvky a aleje, který je sice správný, ale zdaleka nepopisuje maximum možného. Výraz prvky není ani přímým hyperonymem krajinných prvků, neboť ty mohou být například druhem výzdoby. Na konci věty se navíc nachází několikanásobný větný člen, který je také možné využít. Výběr nejužšího kontextu můžeme bez obav rozšířit i na zahrnutí několikanásobných větných členů, avšak stále ztrácíme polovinu informace v případě anglických parků, kde vybereme pouze parky. V obou dvou případech jsme měli podstatné jméno rozšířené adjektivem, avšak v druhém z nich jde o vztah přímé hyperohyponymie. To znamená, že pomocí libovolného modifikátoru dostaneme další hyponyma. Proč si tedy pamatovat konkrétně anglické parky místo sady modifikátorů? Přidáním libovolného adjektiva sice získáme jazykově smysluplný výraz, který však nemusí mít empirickou oporu ve světě podobně jako české parky. 22
28 Předchozí případ upozorňuje na potřebu rozšíření kontextu o přídavná jména, ale využijeme rovnou i další podstatná jména a přívlastky o maximální délce výrazu dvou slov. Část muslimů také tvoří přistěhovalci v různých částech světa jako je západní Evropa. V případě krátkého kontextu bychom buď ignorovali slova částech a západní, pak bychom špatně vyvodili, že svět je druhem Evropy (ve skutečnosti je mezi nimi vztah meronymie), nebo bychom tento vztah vypustili úplně. V případě středního kontextu je vyvozený vztah správný, jelikož západní Evropa je částí světa. Zahrnuje také pomocné vědecké a společenské organizace jako jsou knihovny, vydavatelství a nemocnice. Tato situace vedla k tomu, že ruská byrokracie často a jednoduše podléhala blahovůli carského dvora a obecně postrádala některé hlavní charakteristiky moderní byrokracie jako jsou řádné procedury, pevně stanovené institucionální vztahy nebo řádné právní postupy. Dvě výše uvedené věty ukazují nedostatky středního kontextu. V prvním případě je těžké určit, zda mluvčí považuje knihovny, vydavatelství a nemocnice pouze za společenské organizace nebo i pomocné vědecké. Naplno se zde projevuje nejednoznačnost jazyka, kterému chybí jednoznačné uzávorkování. Kdybychom do věty doplnili závorky nejpravděpodobnějším způsobem, vypadala by následovně: Zahrnuje také (pomocné vědecké a společenské) organizace jako jsou (knihovny, vydavatelství a nemocnice). V takovém případě bychom potřebovali využít kontext delší než střední. Druhou variantou je: A a (B jako jsou (C, D a E)) a nejméně pravděpodobnou, avšak možnou, je: A a (B jako jsou (C, D)) a E. Druhá zmíněná věta při zahrnutí pouze středního kontextu ani nepřipouští správnou interpretaci, řádné procedury totiž nejsou druhem moderní byrokracie, ale jsou druhem charakteristiky byrokracie. Rovněž další dvě charakteristiky jsou příliš zkrácené na to, aby poskytly relevantní informaci, neboť právě první část výrazu je pro charakteristiku byrokracie klíčová: pevně stanovené institucionální vztahy nebo řádné právní postupy. Předchozí problémy můžeme odstranit několika způsoby. Tím prvním je další rozšíření kontextu, druhým je kontrola pádu. Nejprve se podíváme na problémy, které vyplývají ze získání nepřerušeného množství podstatných a přídavných jmen, sloves a příslovcí. 23
29 V současnosti členové Hamasu ostřelují z Pásma Gazy raketami Kassám a raketami typu kaťuša Grad izraelská města jako jsou Sderot a Aškelon. Na tomto příkladu je vidět opačný extrém, tedy výběr příliš mnoha slov, která nejsou součástí pojmu. Střední kontext by garantoval nalezení nejlepšího řešení. Jiná možnost je komplikovaný způsob, který by umožnil pouze jeden nepřerušovaný blok podstatných jmen s výjimkou, pokud tento blok obsahuje pouze druhý a třetí pád, pak připustíme další blok podstatných jmen, na které budeme klást stejné podmínky ohledně pádů. Tento způsob by zatím fungoval na všechny zmíněné případy, avšak je nutné kromě slovního druhu znát i pád. Ukážeme si ale případ, kde je nalezený kontext příliš dlouhý na to, aby byl správný. Já jsem napsal svůj text bez použití dalších atributů jako je small. Na tomto příkladě je vidět problém nalezení pojmu, který je hlavní složkou vztahu. Hyponymum small se týká atributu, ačkoliv bychom snadno mohli vymyslet větu, kde by nás zajímal výraz vzdálenější. Například: Kódování bez zavedení speciálních znaků jako je ASCII. V takovýchto příkladech nejsme schopni zjistit, které podstatné jméno ve vztahu vystupuje. Budeme tedy muset vyloučit všechny věty, kde vybereme více než jedno podstatné jméno. Rozvinuté pojmy, které získáme dlouhým kontextem, jsou vhodné především pro specializované účely, když chceme rozlišit nějakou úzkou oblast od jiné jako např. lékařské nástroje používané na pediatrii oproti urologii. 4.2 Několikanásobný větný člen Automaticky určit několikanásobný větný člen nemusí být vždycky úplně snadné. Podíváme se na některé problémy, které při určování mohu nastat. Několikanásobné členy spojují stejné slovní druhy a oddělujeme je spojkami a, nebo, i a čárkou. Na památkovou péči připadá ještě 450 miliónů korun, ale ty se dělí z okresů, a jak říkají svorně starostové, představitelé Sdružení historických sídel Čech, Moravy a Slezska, rozdělování je zcela neprůhledné. Největší problém je nalézt ukončení několikanásobného členu, který končí slučovací spojkou nebo čárkou. Některé komplikace můžeme odstranit vyžadováním stejného pádu, avšak ani 24
30 tato podmínka nebude dostatečná. Budeme proto předpokládat, že poslední člen bude k ostatním připojen libovolnou spojkou, a nikoliv čárkou. Přijdeme tím však o část vět, které mají několikanásobný větný člen spojený pouze čárkami, a také část členu můžeme vynechat. O zkušenostech z práce městských samospráv jednali včera v Košicích na prvním společném setkání primátoři Prahy, Ostravy, Bratislavy, Košic a náměstci primátorů Brna a Plzně. Na zvolené větě je vidět komplikace s určením posledního členu, který nemůže být rozpoznán pomocí spojky. Kromě slovního druhu budeme kontrolovat i pád jednotlivých členů a očekávat, že poslední výraz bude připojen slučovací spojkou nebo se následující slovo bude lišit minimálně pádem. Tím dokážeme rozpoznat, že v naší ukázce spojka a spojuje výrazy primátoři a náměstci. Při tomto postupu je důležité správně určit první slovo členu, jehož pád použijeme pro všechny další. Nabízejí mi aktualizované texty týkající se Brna, fotky a další informace... Na uvedeném příkladě je vidět potřeba projít všechny výrazy z širokého kontextu, které mohou být součástí několikanásobného větného členu. Takto objevíme vztah mezi texty, fotkami a informacemi. V okamžiku, kdy dokážeme správně určit všechny členy, přesuneme se k dalšímu problému se samotným rozdělením na hyperonyma a hyponyma. Existují dva případy, které mohou nastat. První je několikanásobný přívlastek, který hledané slovo rozvijí. Například: Americký, ruský a čínský trh s automobily jsou nejprestižnější trhy světa. Nestačí tedy provést rozdělení, ale musíme také připojit rozvíjené sousloví trh s automobily. Druhý případ nedokážeme rozdělit vůbec, jelikož několikanásobnost nastává na straně hyperonyma. Umím obsluhovat elektrické spotřebiče, internet, telefon (včetně mobilního), WC, defibrilátor, osobní automobil a další předměty denní i noční potřeby. Na základě uvedené věty není možné klasifikovat předměty mezi denní a noční odděleně. Můžeme buď vzít předměty denní i noční potřeby dohromady, nebo se omezit pouze na předměty. Tento stav platí obecně, neboť všechna hyperonyma mají vztah pouze k jedinému 25
31 hyponymu v rámci věty. 4.3 Nežádoucí slova Některá slova mají smysl pouze v rámci větného kontextu, jejich role je syntaktická nebo relativní. Nejčastější nežádoucí slova jsou příslovce jako včetně, především, jen, vždy, dříve, zde, jistou a mnoho dalších. Příslovce nerozvíjejí samostatná podstatná jména, ale pouze přídavná jména a slovesa, takže vytvářejí široký kontext. Jejich důležitost je zejména u vět jako: Yukon je součástí francouzsky mluvící části Kanady. Další nežádoucí slova jsou relativní adjektiva jako velký, podstatný, různý, další, jiný a podobná. Většinou se tato slova opakují poměrně často na to, abychom je mohli snadno určit a zakázat. Avšak i některá relativní přídavná jména mohou objektivně zpřesňovat pojmy, mezi takové patří velké planety označující Jupiter a další tři planety vzdálenější od Slunce. 4.4 Chyby ve zdroji K získávání hypero-hyponymických výrazů používáme reálné texty, ve kterých vždy hrozí možnost chyb. Nás ovšem budou zajímat pouze takové, které mohou negativně ovlivnit výsledek. Mezi takové určitě nepatří chyby v příčestí minulém nebo shodě podmětu s přísudkem, naopak podstatné pro nás budou zejména překlepy a zmatení pádů v několikanásobném větném členu. Důležitou roli hrají i chyby v zacházení přímo s hypero-hyponymickými výrazy samotným autorem textu, neboť se stává, že z věty logicky vyplývá vztah, který mezi pojmy není. Druhou ještě výraznější kategorií chyb jsou špatně určené slovní druhy a pády, které snadno způsobí, že do výrazu zahrneme chybné pojmy. Tomuto problému se můžeme vyhnout pouze minimalizováním potřeby znát slovní druhy a pády. 4.5 Vložená vedlejší věta Vedlejší věta vložená do věty hlavní nám může zvětšit počet pojmů, mezi kterými se potencionálně nachází hledaný vztah. Vložená věta je z obou stran oddělena čárkami a pokud je klíčové slovo použitého vzoru spojka, před kterou se může psát čárka, nepoznáme, zda napojuje další vedlejší větu, nebo čarka pouze ukončuje větu vloženou a dál pokračuje hlavní věta. Klíčové slovo se tedy může vztahovat ke dvou různým výrazům před čárkami. Nejlépe tento problém ilustruje následující příklad....zvyky a vynálezy, které na americkou půdu přinesli teprve Evropané, jako je kolo, 26
32 písmo, koně, křesťanství a tak dále... Obecně nemůžeme určit, zda se kolo vztahuje k Evropanům nebo zvykům a vynálezům. Z hlediska pravděpodobnosti s délkou vedlejší věty roste také šance, že se nejedná o vloženou větu. Naopak některé vložené věty dokážeme poznat bezpečně....pomoc zemím, které ji potřebují, jako je Rusko či Rumunsko....obecné poznatky o moci, které pak neznatelně prostupují i tak odlehlé náměty, jako je Tolstého umírání nebo Kafkův vztah k ženám. První ukázka je vložená věta, která nenabízí žádnou jinou možnost, než určit Rusko a Rumunsko jako země. Druhá ukázka obsahuje obyčejnou vedlejší větu, z které můžeme vyvodit, že Tolstého umírání je druhem námětu podobně jako Kafkův vztah k ženám. 27
33 Kapitola 5 Získávání dat V této kapitole se podíváme na způsoby získávání vztahů nadřazenosti a podřazenosti z textu, analyzujeme výsledky a určíme některé příčiny vzniklých chyb. 5.1 Dolování z Wikipedie Nejprve jsme si stáhli množství článků reprezentované jednotlivými odstavci. Za tímto účelem jsme vytvořili program, který automaticky procházel stránky s požadovanou adresou a hledal na nich další odkazy, které ukládal do databáze spolu s příznakem, zda již byla stránka navštívena. Celkový počet byl navštívených stránek, uložených odstavců v 27 tisíci větách, které tvoří přes 375 tisíc slov a 66 tisíc jich je různých. Získaná data jsme zúžili pouze na určitý kontext okolo vzoru pomocí regulárních výrazů a na určení slovních druhů jsme využili morfologický analyzátor Ajka [19]. Dále už procházíme slovo za slovem a kontrolujeme dodržování dříve formulovaných pravidel ohledně druhů a pádů. 5.2 Dotazovací jazyk korpusu Korpusy ÚČNK využívají dotazovací jazyk založený na regulárních výrazech (CQL Corpora Query Language) kombinovaných s atributy. Nejpodstatnější atributy pro nás jsou word, lemma a tag, které umožňují dotazy na konkrétní slovní tvar, libovolný tvar odvozený od svého základu a morfologické značky. Námi využívaný korpus SYN2006PUB obsahuje šestnáct pevně stanovených pozic, z nichž každá nese určitou informaci a dvě jsou volné. Nejdůležitější je první, která označuje slovní druh, resp. interpunkci, a pátá obsahující číslo pádu [20]. [lemma= chodit ][]{2,4}[tag= N...3.* tag= N...7.* ] Uvedený výraz vybere všechny tvary slovesa chodit následované dvěma až čtyřmi slovy (započítává se i interpunkce) a zakončené podstatným jménem ve třetím nebo sedmém pádě. Pro zkrácení zápisu se dále využívá značky (?) ekvivalentní zápisu {0,1} a [pos= A ] ekvivalentní [tag= A.* ]. [pos="a"]?[pos="n"]?[pos="n"][pos="a"]?[word="jako"][word="je" word="jsou"]([word="," 28
34 word="a" word="nebo"]?[pos="a"]?[pos="n"])+ Výše zmíněný výraz musí obsahovat podstatné jméno, které může být obklopeno jedním dalším spolu s dvěma přídavnými jmény, následuje jedna z frází jako je / jako jsou zakončené minimálně jedním pojmem, další mohou být připojeny pomocí čárky, a a nebo. 5.3 Výsledky získané z korpusu Používáme již zmíněný korpus SYN2006PUB kvůli jeho velikosti, ačkoliv není příliš vyvážený podle roku vydání příslušného textu, ani v počtu zastoupení jednotlivých médií. Nejprve se podíváme, jaké je množství textů, které obsahují klíčové slovo ze vzoru. Tato čísla však netvoří horní odhad na počet hyperonym, neboť za klíčovým slovem může následovat několikanásobný větný člen, který počty hyponym zvýší. klíčová fráze výraz v jazyku CQL počet výskytů jako jsou / jako je [pos="n"][word="jako"][word="je" word="jsou"][pos="n"] 1523 (a / nebo) další [pos="n"][word="a" word="nebo"][word="další"][pos="n"] (a / nebo) jiné [pos="n"][word="a" word="nebo"][lemma="jiný"][pos="n"] 7358 (a / nebo) ostatní [pos="n"][word="a" word="nebo"][word="ostatní"] [pos="n"] (a / nebo) podobné [pos="n"][word="a" word="nebo"][lemma="podobný"] [pos="n"] (a) hlavně [pos="n"][word="a"]?[word="hlavně" & pos="d"][pos="n"] 3585 (a) především jako [pos="n"][word="a"]?[word="především" & pos="d"] [pos="n"] [pos="n"][word="jako"][word!="je" & word!="jsou"] [pos="n"] (,) je / jsou [pos="n"][word!="jako"][word="je" word="jsou"][pos="n"] je / jsou [pos="n"][word!="," & word!="jako"][word="je" word="jsou"][pos="n"] je / jsou (+ další omezení) [tag="n...1.*"][word!="," & word!="jako"][word="je" word="jsou"][tag="n...1.*"] : [pos="n"][word=":"][pos="n"] : (+ další omezení) [tag="n..p1.*"][word=":"][tag="n..s1.*"] Tabulka 5.1: Výrazy a počty odpovídajících výsledků v korpusu SYN2006PUB 29
35 Ačkoliv korpus obsahuje přes sto milionů slov, jen relativně velmi malá část je použitelná pro získávání vztahů nadřazenosti a podřazenosti. Některé hledané fráze se v korpusu objevují častěji než jiné, ale často to může být spíš negativní než pozitivní informace. Výrazně větší výskyt je pravděpodobně způsoben častějším používáním v jazyce, což sebou nese i riziko používání takových pojmů v jiném, než očekávaném kontextu. Nejlepším reprezentantem takových pojmů je slovo jako, které je možné použít nejrůznějšími způsoby. Povahu nalezených výsledků může také výrazně ovlivnit použití spojek a interpunkce. Příkladem takových vět mohou být: Poruchová auta, především zahraniční značky, se často vyrábějí na východě. nebo Líbí se mi americká auta a především Ford. Ještě zásadnější změnu v počtech nalezených výsledků způsobí specifikování konkrétního pádu. Tabulka 5.1 ukazuje výraznou změnu v nalezení slova je nebo jsou pokud bereme v úvahu všechny, nebo pouze první pád. Omezení ohledně pádu hraje významnou roli v případě dvojtečky. Kromě pádu, omezíme i číslo, neboť očekáváme, že požadovanou informaci obsahují věty typu: množina X: A, B, C. Obvykle se jedná o výčet množiny států, sportovních výsledků, lidí určité profese a podobně. Obrázek 5.1: Náhled informací získaných z korpusu Nyní máme představu o možnostech hledání a odpovídajících počtech nalezených shod. Dále potřebujeme určit jaké množství výrazů bylo odhaleno správně jako podvýrazy a nadvýrazy. Nezbývá nám jiná možnost, než projít záznamy a ručně určit, jestli se jedná o hledaný vztah. Projdeme nejprve 100 příkladů pomocí CQL výrazů v předchozí tabulce a spočítáme počty správně určených hypero-hyponym, vedle toho použijeme rozšířený CQL výraz, který bude hledat pouze členy zahrnující několikanásobnost a nakonec projdeme nalezené výsledky a spočítáme počty nalezených vztahů. Druhý CQL dotaz vypadá následovně: [pos="n"]( část s klíčovou frází )[pos="n"]([word="," word="a" word="nebo"] 30
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
Predikátová logika Individua a termy Predikáty
Predikátová logika Predikátová logika je rozšířením logiky výrokové o kvantifikační výrazy jako každý, všichni, někteří či žádný. Nejmenší jazykovou jednotkou, kterou byla výroková logika schopna identifikovat,
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
1. Dědičnost a polymorfismus
1. Dědičnost a polymorfismus Cíl látky Cílem této kapitoly je představit klíčové pojmy dědičnosti a polymorfismu. Předtím však je nutné se seznámit se základními pojmy zobecnění neboli generalizace. Komentář
6 Ordinální informace o kritériích
6 Ordinální informace o kritériích Ordinální informací o kritériích se rozumí jejich uspořádání podle důležitosti. Předpokládejme dále standardní značení jako v předchozích cvičeních. Existují tři základní
Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie. Předmět: PLIN08 Projekty II. Semestr: Jaro 2015
Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie Předmět: PLIN08 Projekty II Semestr: Jaro 2015 Vedoucí projektu: Mgr. Marek Grác, Ph.D. Úkolem tohoto projektu bylo vytvořit
Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.
Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je
Příklad z učebnice matematiky pro základní školu:
Příklad z učebnice matematiky pro základní školu: Součet trojnásobku neznámého čísla zvětšeného o dva a dvojnásobku neznámého čísla zmenšeného o pět se rovná čtyřnásobku neznámého čísla zvětšeného o jedna.
Logika a jazyk. filosofický slovník, Praha:Svoboda 1966)
Logika a jazyk V úvodu bylo řečeno, že logika je věda o správnosti (lidského) usuzování. A protože veškeré usuzování, odvozování a myšlení vůbec se odehrává v jazyce, je problematika jazyka a jeho analýza
Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz
Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem
PRODUKTY. Tovek Tools
Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 12. září 2016 Jiří Dvorský (VŠB TUO) Vyhledávání 201 / 344 Osnova přednášky
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce
Ontologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
2 Lexikální jednotka. 2.1 Obecné kategorie
2 Lexikální jednotka 2.1 Obecné kategorie Pojmy vyjádřené lexikálními jednotkami patří k těmto obecným kategoriím: a) Konkrétní entity (nositelé vlastností a dějů) b) Abstraktní entity c) Individuální
Základy popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová O jazyce Opakování učiva 3. ročníku Národní jazyk Naše vlast a národní jazyk Nauka o slově Slova a pojmy,
Tabulkový procesor. Základní rysy
Tabulkový procesor Tabulkový procesor je počítačový program zpracovávající data uložená v buňkách tabulky. Program umožňuje použití vzorců pro práci s daty a zobrazuje výsledné hodnoty podle vstupních
PRODUKTY. Tovek Tools
jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.
Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky
Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Práce se styly 1. Styl
Práce se styly 1. Styl Styl se používá, pokud chceme, aby dokument měl jednotný vzhled odstavců. Můžeme si nadefinovat styly pro různé úrovně nadpisů, jednotlivé popisy, charakteristiky a další odstavce.
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
září Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová. Žák dokáže rozlišit mluvnické kategorie podstatných jmen (pád, číslo, rod), rozliší větu jednoduchou
ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14
ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence
Cestovní zpráva. Program akce: Průběh akce. O Anopress
Cestovní zpráva Pracovník: Jiří Fišer Akce: Školení o obsluze databází z programu VISK8-A Datum konání: 4. 4. 2016 Místo konání: Praha, Národní knihovna Klíčová slova: Anopress -- vyhledávání -- tisk --
Unární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek
Otázka 06 - Y01MLO Zadání Predikátová logika, formule predikátové logiky, sentence, interpretace jazyka predikátové logiky, splnitelné sentence, tautologie, kontradikce, tautologicky ekvivalentní formule.
Využití tabulkového procesoru MS Excel
Semestrální práce Licenční studium Galileo srpen, 2015 Využití tabulkového procesoru MS Excel Ing Marek Bilko Třinecké železárny, a.s. Stránka 1 z 10 OBSAH 1. ÚVOD... 2 2. DATOVÝ SOUBOR... 2 3. APLIKACE...
Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka
Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce
Naproti tomu gramatika je vlastně soupis pravidel, jak
1 Kapitola 1 Úvod V přednášce se zaměříme hlavně na konečný popis obecně nekonečných množin řetězců symbolů dané množiny A. Prvkům množiny A budeme říkat písmena, řetězcům (konečným posloupnostem) písmen
12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ
56 12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ Těžiště I. impulsová věta - věta o pohybu těžiště II. impulsová věta Zákony zachování v izolované soustavě hmotných bodů Náhrada pohybu skutečných objektů pohybem
Pojem a úkoly statistiky
Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby
6 Organizační aspekty vypracování tezauru (s přihlédnutím k tomu, jak jsem postupoval já)
6 Organizační aspekty vypracování tezauru (s přihlédnutím k tomu, jak jsem postupoval já) 6.1 Metody shromažďování lexikálních jednotek Před samotným shromažďováním lexikálních jednotek by měl mít tvůrce
Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/34.0333 Vzdělávání v informačních a komunikačních technologií
VY_32_INOVACE_33_02 Škola Název projektu, reg. č. Vzdělávací oblast Vzdělávací obor Tematický okruh Téma Tematická oblast Název Autor Vytvořeno, pro obor, ročník Anotace Přínos/cílové kompetence Střední
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
8.2 Používání a tvorba databází
8.2 Používání a tvorba databází Slide 1 8.2.1 Základní pojmy z oblasti relačních databází Slide 2 Databáze ~ Evidence lidí peněz věcí... výběry, výpisy, početní úkony Slide 3 Pojmy tabulka, pole, záznam
Jazyk, slovo, slovní zásoba a slovníky. Tomáš Káňa Masarykova univerzita v Brně Katedra německého jazyka a literatury
Tomáš Káňa Masarykova univerzita v Brně Katedra německého jazyka a literatury Jazyk: přirozený dorozumívací systém mezi lidmi systém kódů Jazyky: přirozené dorozumívací systémy různé kódy přirozená jednotka
Jak vyhledávat. Vyhledávače KAPITOLA 3
KAPITOLA 3 Jak vyhledávat Už víme, jak zacházet s programem Microsoft Internet Explorer, a můžeme se pustit do surfování. Ostatně, stejně jsme to při seznamování s funkcemi programu chtíce nechtíce dělali.
PQ-stromy a rozpoznávání intervalových grafů v lineárním čase
-stromy a rozpoznávání intervalových grafů v lineárním čase ermutace s předepsanými intervaly Označme [n] množinu {1, 2,..., n}. Mějme permutaci π = π 1, π 2,..., π n množiny [n]. Řekneme, že množina S
METODICKÉ LISTY. výstup projektu Vzdělávací středisko pro další vzdělávání pedagogických pracovníků v Sokolově
METODICKÉ LISTY výstup projektu Vzdělávací středisko pro další vzdělávání pedagogických pracovníků v Sokolově reg. č. projektu: CZ.1.07/1.3.11/02.0005 Sada metodických listů: KABINET INFORMATIKY Název
Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele
Číslo projektu Název školy Autor Tematická oblast CZ.1.07/1.5.00/34.0743 Moravské gymnázium Brno s.r.o. Hana Blaudeová Český jazyk Ročník 2. Datum tvorby 05.05.2013 Anotace -prezentace určena pro učitele
MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)
TEMATICKÝ PLÁN (ŠR 2014/15) PŘEDMĚT Český jazyk TŘÍDA/SKUPINA VYUČUJÍCÍ ČASOVÁ DOTACE UČEBNICE (UČEB. MATERIÁLY) - ZÁKLADNÍ POZN. (UČEBNÍ MATERIÁLY DOPLŇKOVÉ aj.) sekunda Mgr. Barbora Maxová 2hod/týden,
Formální úprava bakalářských a diplomových prací Univerzita Karlova, Husitská teologická fakulta
Formální úprava bakalářských a diplomových prací Univerzita Karlova, Husitská teologická fakulta Odevzdání práce Bakalářské a diplomové práce se odevzdávají prostřednictvím webového rozhraní SIS na adrese
Petr Křemen. Katedra kybernetiky, FEL ČVUT. Petr Křemen (Katedra kybernetiky, FEL ČVUT) Sémantické sítě a rámce 1 / 112
Sémantické sítě a rámce Petr Křemen Katedra kybernetiky, FEL ČVUT Petr Křemen (Katedra kybernetiky, FEL ČVUT) Sémantické sítě a rámce 1 / 112 Co nás čeká 1 Úvod do reprezentace znalostí 2 Sémantické sítě
Kontingenční tabulky v MS Excel 2010
Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data
Navigace na webových stránkách
Navigace na webových stránkách Tato kapitola navazuje na kapitoly o přístupnosti, použitelnosti a optimalizaci webových stránek a podrobněji popisuje tvorbu informační architektury webových stránek, zejména
Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.
Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky Ing. Jan Ministr, Ph.D. I. Úvod Agenda II. Customer Intelligence (CI),zpracování dat z Internetu III. Analýza obsahu IV.
Matematická logika. Miroslav Kolařík
Matematická logika přednáška třetí Miroslav Kolařík Zpracováno dle textu R. Bělohlávka: Matematická logika poznámky k přednáškám, 2004. a dle učebního textu R. Bělohlávka a V. Vychodila: Diskrétní matematika
Systém pro poloautomatické propojení textů se zdroji
Masarykova univerzita Fakulta informatiky Systém pro poloautomatické propojení textů se zdroji Bakalářská práce Jindřich Ryšavý Brno, podzim 2016 Masarykova univerzita Fakulta informatiky Systém pro poloautomatické
Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1
Negativní informace Petr Štěpánek S použitím materiálu M.Gelfonda a V. Lifschitze 2009 Logické programování 15 1 Negace jako neúspěch Motivace: Tvrzení p (atomická formule) neplatí, jestliže nelze odvodit
POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE
POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE na Fakultě životního prostředí UJEP v Ústí nad Labem. 1. Bakalářská a diplomová práce se odevzdává ve třech výtiscích v pevné vazbě. Práce musí být svázaná
8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice
9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky
Předmět: Český jazyk a literatura
21 sestaví osnovu vyprávění a na jejím základě vytváří krátký mluvený nebo písemný projev s dodržením časové posloupnosti 30 porovnává významy slov, zvláště slova stejného nebo podobného významu a slova
Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.
Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy
Obsah SLEDOVÁNÍ PRÁCE... 4
Co je nového Obsah SLEDOVÁNÍ PRÁCE...... 4 Konfigurace souboru... 5 Globální konfigurace... 6 Soubory... 6 Projekty... 6 Uživatelské rozhraní... 7 Synchronizace... 7 Typ serveru... 8 Test připojení...
Formální jazyky a gramatiky Teorie programovacích jazyků
Formální jazyky a gramatiky Teorie programovacích jazyků doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Připomenutí základních pojmů ABECEDA jazyk je libovolná podmnožina
Společný evropský referenční rámec pro jazyky (CERF)
Shrnutí obsahu Společný evropský referenční rámec (CERF). Jak nyní probíhá výuka jazyků na 1. LF? Vstupní testy na 1. LF v rámci CERF. Výuka jazyků na jiných LF v ČR. Návrhy pro změnu výuky jazyků na 1.
Dolování v objektových datech. Ivana Rudolfová
Dolování v objektových datech Ivana Rudolfová Relační databáze - nevýhody První normální forma neumožňuje vyjádřit vztahy A je podtypem B nebo vytvořit struktury typu pole nebo množiny SQL omezení omezený
Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Logika pro každodenní přežití Stefan Ratschan Katedra číslicového návrhu Fakulta informačních technologíı České vysoké učení technické v Praze Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Gramatika. Přítomný čas prostý a průběhový. Minulý čas prostý pravidelných i nepravidelných sloves. Počitatelná a nepočitatelná podstatná jména
A B C D E F 1 Vzdělávací oblast: Jazyk a jazyková komunikace 2 Vzdělávací obor: Cizí jazyk 3 Vzdělávací předmět Anglický jazyk 4 Ročník: 7. 5 Klíčové kompetence Průřezová témata Výstupy Učivo (Dílčí kompetence)
Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto
Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Registrační číslo projektu Šablona Autor Název materiálu / Druh CZ.1.07/1.5.00/34.0951 III/2 INOVACE A ZKVALITNĚNÍ VÝUKY PROSTŘEDNICTVÍM ICT
Vyhledávání na Internetu
Tento materiál byl napsán za využití učebních materiálů ke Kurzu práce s informacemi (KPI11) vyučovaném v roce 2007 na Masarykově univerzitě. Autory kurzu jsou: PhDr. Petr Škyřík, Mgr. Petra Šedinová,
Rozdělování dat do trénovacích a testovacích množin
Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném
Logika. Akademie managementu a komunikace, Praha PhDr. Peter Jan Kosmály, PhD.
Akademie managementu a komunikace, Praha PhDr. Peter Jan Kosmály, PhD. Tematické okruhy: 1. Stručné dějiny logiky a její postavění ve vědě 2. Analýza složených výroků pomocí pravdivostní tabulky 3. Subjekt-predikátová
1 Strukturované programování
Projekt OP VK Inovace studijních oborů zajišťovaných katedrami PřF UHK Registrační číslo: CZ.1.07/2.2.00/28.0118 1 Cíl Seznámení s principy strukturovaného programování, s blokovou strukturou programů,
Hromadná korespondence
Kapitola dvanáctá Hromadná korespondence Učební text Mgr. Radek Hoszowski Hromadná korespondence Hromadná korespondence Představíme si jednoduchý nástroj, který nám může ušetřit velké množství práce. Je
Maturitní otázka webové stránky (technologie tvorby webu) Co znamená pojem Web? Web, www stránky, celým názvem World Wide Web,
Maturitní otázka webové stránky (technologie tvorby webu) Co znamená pojem Web? Web, www stránky, celým názvem World Wide Web, v doslovném překladu "světová rozsáhlá síť neboli celosvětová síť, je označení
E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Rozvoj řečových dovedností Ruský jazyk Helena Malášková 01 O spánku a váze - prezentace
Seminární práce obecné a technické pokyny
Seminární práce obecné a technické pokyny Rozsah běžné seminární práce Orientačně 10 normovaných stran skutečného textu (Úvod, Hlavní část, Závěr). Obvyklá struktura seminární práce Vlastní struktura,
VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ
Úvod do problematiky VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ Databáze je uspořádaná množina velkého množství informací (dat). Příkladem databáze je překladový slovník, seznam PSČ nebo telefonní seznam. Databáze
VÝBĚR A JEHO REPREZENTATIVNOST
VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:
Minimalizace KA - Úvod
Minimalizace KA - Úvod Tyto dva KA A,A2 jsou jazykově ekvivalentní, tzn. že rozpoznávají tentýž jazyk. L(A) = L(A2) Názorně lze vidět, že automat A2 má menší počet stavů než A, tudíž našim cílem bude ukázat
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo Přesahy a vazby, průřezová témata rozlišuje spisovný jazyk, nářečí a obecnou češtinu
Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf
Pátek 30. září Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf Nástroje grafu (objeví se při označeném grafu) - 3 záložky návrh, rozložení,
Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura
Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura Martin Krčál Brno, KISK FF MU, 20.3.2013 Náplň hodiny Informační architektura Druhy navigace Informační architektura
Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
Odborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion
Odborný článek Petr Klán, VŠE v Praze, petr.klan@vse.cz Části odborného článku IMRAD Introduction, Material and Method, Results, Discussion NADPIS Do 10 slov Autor (autoři) Jméno, adresa, e-mail Abstrakt
SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu
SEMINÁŘ Z ČESKÉHO JAZYKA Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu Charakteristika vzdělávacího oboru Seminář z českého jazyka Dovednost užívat češtiny jako mateřského jazyka v jeho mluvené i
47 Mapování přístupnosti
47 Mapování přístupnosti Modul Mapování přístupnosti slouží ke správě výsledků mapování architektonických objektů z hlediska přístupnosti a především k evidenci zjištěných skutečností o mapovaných objektech.
Struktura seminární práce
Struktura seminární práce Úvodní strana Velikost písma zde užíváte podle vlastního uvážení. Důležité je, aby největší byl nadpis pro práci, druhý největší byl název školy a menší písmo je dobré použít
Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic
Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je
PHP framework Nette. Kapitola 1. 1.1 Úvod. 1.2 Architektura Nette
Kapitola 1 PHP framework Nette 1.1 Úvod Zkratka PHP (z anglického PHP: Hypertext Preprocessor) označuje populární skriptovací jazyk primárně navržený pro vývoj webových aplikací. Jeho oblíbenost vyplývá
Analýza staročeské morfologie v Excelu
Analýza staročeské morfologie v Excelu B O R I S L E H E Č K A, B O R I S @ D A L I B O R I S. C Z O D D Ě L E N Í V Ý V O J E J A Z Y K A Ú S T A V P R O J A Z Y K Č E S K Ý A V Č R L I N G V I S T I
Aktuální změny v didaktickém testu z češtiny 2015
Aktuální změny v didaktickém testu z češtiny 2015 PhDr. Dana Brdková Lektorka Bankovní akademie a VŠFS Pro použití v rámci projektu ematurity Jak je sestaven didaktický test? Didaktický test obsahuje 10
Stonožka jak se z výsledků dozvědět co nejvíce
Stonožka jak se z výsledků dozvědět co nejvíce Vytvoření Map učebního pokroku umožňuje vyhodnotit v testování Stonožka i dílčí oblasti učiva. Mapy učebního pokroku sledují individuální pokrok žáka a nabízejí
FUNKCE 3. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen 2013. Ročník: sedmý. Vzdělávací oblast: Informatika a výpočetní technika
FUNKCE 3 Autor: Mgr. Dana Kaprálová Datum (období) tvorby: září, říjen 2013 Ročník: sedmý Vzdělávací oblast: Informatika a výpočetní technika 1 Anotace: Žáci se seznámí se základní obsluhou tabulkového
ANOTACE vytvořených/inovovaných materiálů
ANOTACE vytvořených/inovovaných materiálů Číslo projektu Číslo a název šablony klíčové aktivity Tematická oblast Formát Druh učebního materiálu Druh interaktivity CZ.1.07/1.5.00/34.0722 III/2 Inovace a
Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu
Excel - pokračování Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu Př. Analýza prodeje CD základní jednoduché vzorce karta Domů Př. Skoky do dálky - funkce
1 Linearní prostory nad komplexními čísly
1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA ELEKTROTECHNICKÁ A4M39NUR Hierarchické číselníky Část D1: Autoři: Uživatelský průzkum a analýza Martin Hofman hofmama3 Tomáš Markacz markatom 1 Obsah dokumentu Účel
Systém elektronického rádce v životních situacích portálu www.senorady.cz
Systém elektronického rádce v životních situacích portálu www.senorady.cz Obec Senorady Miroslav Patočka 2006 Obsah: 1. Úvodní informace 1.1 Informace pro uživatele 1.1.1 Přístupnost HTML, PDA, WAP, XML
Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 4. Časová dotace: 7 hodin týdně Komunikační a slohová Čtení a naslouchání čtení jako zdroj informací aktivní naslouchání s otázkami Žák čte s porozuměním přiměřeně náročné texty potichu i nahlas.
Český jazyk a literatura - jazyková výchova
Využívá znalostí získaných v předešlých ročnících. OPAKOVÁNÍ OPAKOVÁNÍ Vysvětlí pojmy: sl.nadřazené, podřazené a slova souřadná.uvede příklady. Rozpozná sl. jednoznač.a mnohoznačná. V textu vyhledá synonyma,
Čtvrtek 3. listopadu. Makra v Excelu. Obecná definice makra: Spouštění makra: Druhy maker, způsoby tvorby a jejich ukládání
Čtvrtek 3. listopadu Makra v Excelu Obecná definice makra: Podle definice je makro strukturovanou definicí jedné nebo několika akcí, které chceme, aby MS Excel vykonal jako odezvu na nějakou námi definovanou
a způsoby jejího popisu Ing. Michael Rost, Ph.D.
Podmíněná pravděpodobnost, náhodná veličina a způsoby jejího popisu Ing. Michael Rost, Ph.D. Podmíněná pravděpodobnost Pokud je jev A vázán na uskutečnění jevu B, pak tento jev nazýváme jevem podmíněným
Verbální dovednosti. PaedDr. Mgr. Hana Čechová
Verbální dovednosti PaedDr. Mgr. Hana Čechová Osnova 1. Verbální dovednosti 2. Složky verbální dovednosti 3. Trénink verbální dovednosti 4. Vliv verbální dovednosti 5. Slovní zásoba 6. Obohacování a změna
0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde
xrays optimalizační nástroj
xrays optimalizační nástroj Optimalizační nástroj xoptimizer je součástí webového spedičního systému a využívá mnoho z jeho stavebních bloků. xoptimizer lze nicméně provozovat i samostatně. Cílem tohoto
VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání
VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání Proč nové rozhraní? Integrace zdrojů katalogy, BMČ, autority, MeSH Přizpůsobení