Témata této a předchozí přednášky Důležité pojmy Organizace informací a znalostí Sémantická a lingvistická problematika zpracování informací a znalostí Indexování Selekční jazyky Pojmový model 1 pojem, pojmový model dl kategorie kritérium členění, faseta paradigmatické syntagmatické vztahy ekvivalence hierarchie asociace trojúhelník reference (sémiotický trojúhelník) synonymie homonymie index, indexování lexikální jednotka selekční jazyk řízený slovník 2 Typy systémů organizace znalostí klíčová slova, tagy nabídkový seznam (menu, pick list, vyjmenovaná slova) slovník seznam autorit (authority list/file) seznam synonym seznam morfologických (gramatických) tvarů negativní slovník (stopwords/stop slova, zakázaná slova) předmětový heslář (subject headings) seznamy termínů lineární klasifikace, seznam kategorií (nomenklatury, číselníky) kategorizace hierarchický sezam (klasifikace, taxonomie) tezaurus hierarchické seznamy pojmová mapa, mapa námětů (topic map) vztahů sémantická síť ontologie síťové 3 sémantika sémiotika lingvistika fonetika lexikologie pravopis morfologie syntax jazykové plány matematická lingvistika 4 1
Systémové pojetí jazyka Korpus prvky lexikální subsystém (slovník) pravidla (gramatika, syntaxe) přirozený jazyk v počítači vztahy funkce paradigmatické syntagmatické poznávací komunikační jazyk = skutečnost myšlenky emotivní referenční Český národní korpus http://www.korpus.cz/ 5 6 Kategorizace jazyků Lingvistická kategorizace jazyků přirozený jazyk formální jazyk lingvistická podle slovníku informační přirozené volné selekční technická (ICT) jazyky pro definici dat Kteří sportovci získali zlaté olympijské medaile na olympiádě v roce 1992? formální (umělé) řízené dotazovací jazyky y pro manipulaci s daty jazyky pro řízení dat SELECT (sportovci OR sportovec) AND zlatá medaile AND olympiáda AND 1992 7 8 2
Lingvistická kategorizace jazyků přirozený jazyk formální jazyk přirozený jazyk jazyk, který se vyvíjí a jehož pravidla vyplývají z jeho používání, takže nemusí být explicitně předepsaná (národní jazyky, např. čeština) umělý (formální) jazyk jazyk vytvořený nebo řízený pomocí souboru pravidel předem stanovených s ohledem na jeho použití (jazyk logiky, matematiky, programovací jazyky, esperanto apod.) 9 Přirozený jazyk Systém univerzální (neomezený obsahem sdělení) otevřený, neustále se měnící Vývoj přirozeného jazyka smskovat čanit email 10 Problémy s přirozeným jazykem žena ženou hnát substantivum verbum?? Lexikální jednotka (lexém, lexical unit, token) obecně sekvence písmen, číslic a dalších specifických znaků používaná pro označení určitého pojmu jednotka jazyka, která je nositelem významu nebo funkce z hlediska významového tvoří jeden nedělitelný celek 11 v selekčním jazyce slovo nebo slovní spojení ve formě buď výrazu přirozeného jazyka, nejčastěji substantiva nebo substantivního spojení klasifikačního znaku 12 3
Slovní spojení též sousloví, sdružené pojmenování, fráze (phrase) Jan Neruda, stavební úřad, postavení mimo hru ustálené pojmenování ze dvou nebo více slov, které označuje jednu skutečnost a vstupuje do věty jako hotový celek lexikální jednotka, kterou lze rozčlenit na oddělené složky, přičemž každá z těchto složek může být vyjádřena substantivem a nezahrnuje sloveso ve tvaru určitém 13 Ferdinand de Saussure 1857 1913 Kurs obecné lingvistiky. 1916 langage (řeč) langue (jazyk) parole (promluva nebo mluva) označující označované 14 Ivor Armstrong Richards 1893 1979 Richards, I. A. a Ogden, Ch. K. The meaning of meaning. 1923 Trojúhelník reference (sémiotický trojúhelník) J znak (jazykový výraz) lexikální jednotka referent reference symbol vyjádření označení (denotace) smysl S (koncept, pojem) odraz D denotát (skutečnost, objekt) 15 16 4
Vztah označující (J) označované (D) jazykový jazykový výraz jazykový výraz výraz synonymie denotát jazykový výraz homonymie denotát denotát denotát 17 18 Vzájemně jednoznačná korespondence znak smysl denotát Synonymie kyselina sírová pondělí fotbal kopaná J1 J2 J1 J2 S1 S2 S D1 D2 D 19 20 5
Kvazisynonymie Typy synonymie fotbalista Jan Kovář tvrdý měkký a) lexikální (věcná) J1 S1 D J2 S2 J1 S1 D J2 S2 "pravá" synonymie (ekvivalence) cesta silnice dálnice vozovka stezka pěšina hierarchická nadřazenost podřazenost domácí zvíře kočka Macek asociace nevolnost nemoc b) gramatická (morfologická) 1 slovo ve více tvarech cesta, cesty, cestě, cestu... 21 22 Rekapitulace Hodnocení výsledků vyhledávání relevance informační šum úplnost (recall) přesnost (precision) Problém synonymie snižuje úplnost (recall): hrozí, že nenajdeme všechny relevantní informace řešení: tvorba seznamů synonymních termínů, které se automaticky berou v úvahu při použití jednoho z nich a) věcná (lexikální) synonymie: seznamy synonym např. tezaury, autority b) gramatická synonymie: lematizátor, derivátor 23 c) nouzové řešení zkracování / maskování koncovek 24 6
Řešení problému synonymie báze autorit Řešení problému synonymie Jyxo Zpracování dotazu vyhledávacím serverem jyxo.cz zadán termín lingvistika 25 26 Homonymie mnohovýznamovost (polysémie) Homonymie mnohoznačnost jazyk J jazyk to je pěkné to je pěkné J S1 S2 S D1 D2 D1 D2 27 28 7
Typy homonymie a) lexikální stát stát stát stát zvuková (mít mýt) grafická (email email) b) syntaktická vhazování domácích c) sémantická ironie, metafora to se ti povedlo 29 Problém homonymie snižuje přesnost (precision): hrozí, že najdeme nerelevantní informace řešení: 1. kontext buňka v ČNK 2. řízený slovník a) homonyma vyloučíme z používání balón viz míč b) jednotlivé významy upřesníme poznámkami balón (míč) 30 Kontextové řešení problému s homonymy v dotazech Kategorizace jazyků podle slovníku zámek AND šlechta volně stojící obytná a reprezentativní budova zámek AND dveře zařízení k dočasnému uzavírání, zajišťování a spojování pohyblivých částí zámek AND puška spouštěcí a odpalovací mechanismus ručních palných zbraní zámek AND třetina uzavření bránícího mužstva v jeho vlastní obranné zóně (např. v hokeji) 31 volný jazyk / slovník (free language, natural language) úplnost a specifičnost, přesnost (respektuje se jazyk tvůrce i uživatele) řízený jazyk / slovník (controlled vocabulary/language, vocabulary control) jednoznačná interpretace významu slov vyznačení příbuznosti (vztahů) slov 32 8
Co řídí řízený slovník? Použití řízeného slovníku Zahrnuté / nezahrnuté lexikální jednotky Význam lexikálních jednotek 1. Organizace shromažďovaných informací (třídění informačních objektů) Formát lexikálních jednotek Vztahy mezi lexikálními jednotkami (paradigmatické) 33 2. Popis obsahu shromažďovaných ýh informací 3. Vyjádření obsahu dotazů 34 Index může znamenat: Indexování může znamenat: latinsky: ukazovatel, ukazatel, udavatel, udavač, oznamovatel, nápis digitus index = ukazováček (ang. index finger) vyzvědač, zrádce, prozrazující něco seznam, obsah, katalog, rejstřík ukazatel poměru dvou nebo více hodnot rozlišující, identifikační znak tvorbu indexu (indexového souboru) pořádání (organizaci) informací vyjadřování obsahu (věcný popis / zpracování) informací 35 36 9
Proces indexování Typy indexování vystižení obsahu dokumentu nebo informačního dotazu prostřednictvím slov přirozeného jazyka nebo znaků umělého jazyka přidělování indexačních termínů výběr a přiřazení indexačních termínů (bez ohledu na to, zda se vyskytují v textu) tak, aby reprezentovaly informační zdroje podle určitých pravidel výběr termínů postup vybírání indexačních termínů z indexovaného zdroje 37 38 Selekční jazyk (indexing language) Selekční jazyk jazyk určený k vyjádření obsahu a formy informačního zdroje a dotazu účel: pořádání (indexování) informací vyhledávání informací (výrazy selekčního jazyka slouží jako přístupové body) 39 v širším slova smyslu přístupové body (slovník termínů, podle kterých lze vyhledávat) v užším slova smyslu řízený slovník 40 10
Charakteristiky selekčního jazyka Obecná struktura selekčního jazyka formalizace zvláštní syntaktická pravidla řízená slovní zásoba: řízený slovník používání symbolů (notace) Ale: I přirozený jazyk může plnit funkci selekčního jazyka lexikální jednotky paradigmatické vztahy mezi lexikálními jednotkami nástroje pro vyjádření (syntagmatických) vztahů mezi více lexikálními jednotkami koordinace lexikální subsystém syntaktický subsystém 41 42 Příklady lexikálních jednotek selekčního jazyka Co vyjadřuje lexikální jednotka selekčního jazyka? klíčové slovo, tag nejdůležitější, nejvýznamnější slova a slovní spojení deskriptor lexikální jednotka tezauru předmětové heslo (subject heading) heslo v předmětovém katalogu třídník (znak) MDT např. 666.155 Vrstvené bezpečnostní sklo 43 konkrétní entity předměty, věci a jejich fyzické části materiály abstraktní entity činnosti a události vlastnosti (věcí, materiálů, činností) obory nebo vědní disciplíny měřicí jednotky individuální entity jednotkové třídy vyjádřené vlastními jmény 44 11
Selekčních jazyků je hodně Typy selekčních jazyků paradigmatické vztahy http://www.webarchiv.cz/generator/dc.php abecední (předmětové) hierarchické (systematické) http://info.sks.cz/users/ku/ziz/sjazyky.htm synta agmatické vztahy postkoordinované prekoordinované tezaurus číselník fasetová klasifikace monohierarchická klasifikace 45 46 Tezaurus Roget's Thesaurus Řízený ý slovník uspořádaný tak, že explicitně it ě zachycuje sémantické vztahy mezi lexikálními jednotkami. Deskriptor (preferovaný termín) Lexikální jednotka tezauru užívaná k označení určitého pojmu. Vyjadřuje j sémantickou tik dominantu zastupující celou třídu podmíněné ekvivalence: ostatní podmíněně ekvivalentní slova a slovní spojení se považují za nedeskriptory a jsou odkázána na deskriptory. Main Entry: cat Part of Speech: noun Definition: feline animal, sometimes a pet Synonyms: bobcat, cheetah, cougar, grimalkin, jaguar, kitten, kitty, leopard, lion, lynx, malkin, mouser, ocelot, panther, puma, puss, pussy, tabby, tiger, tomcat Zdroj: Roget's New Millennium Thesaurus, First Edition (v 1.3.1) Copyright 2006 by Lexico Publishing Group, LLC. All rights reserved. 47 48 12
Peter Mark Roget 1779 1869 Ukázky tezaurů Anglický polyhistor: lékař, lexikograf, autor četných publikací z oboru medicíny a optiky, přispěvatel do encyklopedií, vynálezce logaritmického pravítka Thesaurus of English Words and Phrases. 1. vydání 1852 slovník synonym a antonym kategorizace slov a) Tezaurus jazyka českého b) Český zemědělský tezaurus AGROTERM 49 50 Vyjádření paradigmatických vztahů v tezaurech ekviv valence hierar rchie asociace odkaz (vztah) nedeskriptor viz USE deskriptor odkaz (vztah) deskriptor nedeskriptor ekv UF use / used for odkaz na nadřazený deskriptor nd BT B broader term odkaz na podřazený deskriptor pd NT N narrower term odkaz na asociovaný deskriptor ad RT R related term 51 13