Věcné pořádání informací 2 (Selekční jazyky - teoretická východiska) Zpracování dokumentů a informací - realizace určitého procesu (procedury) na prvcích určité množiny s cílem odvodit novou množinu objektů - cíl: pořádek místo chaosu - organizace, uspořádání (za účelem vyhledávání) 1 2 Zpracování dokumentů a informací Dokument 4 metadata (údaje o obsahu a struktuře) obsah (data) sémantická struktura syntaktická struktura (styl, vzhled) 1
Zpracování dokumentů a informací Zpracování dokumentů a informací 5 Účelem je: - identifikace atribut (identifikátor), který odlišuje dokument od všech jiných - popis maximálně úplná množina atributů, které dokument reprezentují (zastupují) nebo doplňují - vyhledávání atributy, podle kterých lze dokument vyhledat 6 Výsledek: - organizovaný soubor dokumentů (fond, sbírka, kolekce) - organizovaný soubor metadat (katalog, soupis, rejstřík) - pomůcky pro tvorbu metadat (standardy, pravidla, řízené slovníky) Selekční jazyky - definice Věcné selekční jazyky Umělý informační jazyk používaný k vyjádření identifikačních nebo obsahových selekčních údajů za účelem pořádání, ukládání a vyhledávání dokumentů. (TDKIV) Tvorba a užívání věcného selekčního jazyka souvisí s obory: - matematika (matematická logika) - sémiotika (sémantika, syntax, pragmatika) - jazykověda 7 8 2
Množiny Hierarchie množin 9 množina - soubor logických individuí, která mají v určité dané souvislosti společnou vlastnost nebo skupinu společných vlastností prvek - je-li logické individuum členem uvažované množiny, nazývá se prvkem této množiny 10 Pro potřeby teorie selekčních jazyků má význam hierarchie množin. V ní rozeznáváme množiny: prvního řádu, jejichž prvky jsou logická individua druhého řádu, jejichž prvky jsou množiny prvního řádu třetího řádu, jejichž prvky jsou množiny druhého řádu... n-téhořádu Hierarchie množin Typy hierarchie mono poly 11 12 strom cyklus 3
Typy hierarchie - stromy Typy hierarchických vztahů hluboká (vysoký) mělká (široký) 1) Generické (genus/rod species/druh) vztah obecné - zvláštní všechny podtypy mají atributy nadtypu dopravní prostředky nákladní vozidla vlaky vlaky 13 14 Typy hierarchických vztahů Typy hierarchických vztahů 2) Partitivní (celek část) část má patřit vždy jen do jednoho celku 3) Kauzální příčina - důsledek ale i třída/entita/typ - instance/případ vlaky budovy vlaky lokomotivy dveře okna hory vlaky 15 16 Krkonoše Pendolino 4
Klasifikace Kategorie = třídění, kategorizace Též: třída, typ, taxon, pojem, entita, množina 17 - jedna z forem analýzy - rozdělení předmětů a jevů do skupin a podskupin podle jejich vzájemné shody a odlišnosti Kritérium členění (principium divisionis) = atribut, na základě jehož hodnot se třídí 18 - skupina materiálních nebo abstraktních objektů, procesů či událostí, jež považujeme z určitého pohledu nebo pro daný účel za ekvivalentní Fasetová klasifikace Fasetová klasifikace faseta - konkrétní použité kritérium členění multikriteriální třídění - 1 téma klasifikované podle více hledisek - více hierarchií pro 1 téma 19 20 účel materiál 5
Vztah kategorie - prvek (instance) Problém 21 Jan Vlk Knihovnictví Věra 3Nová Ekonomie 2 Petra Janků Knihovnictví Adam 1 Dlouhý Právo 1 22 kategorie neexistují objektivně, jejich vymezení se může lišit pro různé účely a pro různé subjekty Typy klasifikací Typy klasifikací 23 Z hlediska věcného zpracování je důležité sledovat, na kolik podmnožin se daná množina rozkládá, tedy kolik členů rozkladu má daná množina. 24 homogenní klasifikace - každá množina je rozkládána na stejný počet podmnožin Homogenní systematické jazyky mají stejný počet tříd a skupin na všech hierarchických úrovních. 6
Typy klasifikací Užití klasifikací heterogenní klasifikace - množiny jsou rozkládány na nestejný počet podmnožin Heterogenní systematické jazyky mají různý počet tříd a skupin na různých hierarchických úrovních. Všechny homogenní klasifikace jsou umělé, odpovídají sice požadavkům formální logiky i klasifikace, ale nejsou objektivním zobrazením reálného světa. 25 26 Užití klasifikací Užití klasifikací 27 Heterogenní klasifikace sice přesněji zobrazují předměty, jevy a procesy reálného světa, ale jejich struktura je nepřehledná a hůře použitelná. 28 Ve věcném zpracování jsou zastoupeny více heterogenní klasifikace. Při klasifikaci celého univerza lidského poznání lze jen těžko předem určit, na kolik podmnožin mají být rozkládány množiny jednotlivých hierarchických úrovní. Heterogenní klasifikace více odpovídají povaze klasifikovaného materiálu. 7
Užití klasifikací Vztahy prvků Homogenní klasifikace si přizpůsobují povahu klasifikovaného materiálu a jimi stanovená pevná hierarchie neodpovídá hierarchii klasifikovaného materiálu. Mohou však snadněji zařadit novou skutečnost, byť ne přesně na hierarchickou úroveň, která jí náleží. Rodo-druhový vztah - uplatnění hierarchie Souřadný vztah - pro druh příslušného konkrétního rodového názvu, stojí na stejné hierarchické úrovni 29 30 sémantika sémiotika lingvistika Sémiotika a lingvistika matematická lingvistika syntax morfologie pravopis lexikologie fonetika jazykové plány 32 Ve věcném pořádání se uplatňují i poznatky ze sémiotiky jakožto obecné vědy o znacích a lingvistiky jakožto vědy o jazyce. 8
Sémiotika Sémiotika Sémiotika - vědecká disciplína, která zkoumá vlastnosti znaků a znakových soustav Sémantika - součást sémiotiky, zkoumá vztah mezi formou a významem znaku Základem je řecké slovo séma F0:" (označení, značka, pomník, hrob) 33 34 Sémiotika Sémiotika z hebrejského šem (jméno, označení) Sema je obráceně ze staroegyptského ames (žezlo, insignie) Termíny znak - přirozený znak, umělý znak jazykové znaky - znaky přirozeného jazyka, znaky umělého jazyka 35 36 pořádací znak - znak selekčního jazyka vyjadřující obsah dokumentu 9
Sémiotika Definice znaku - Charles Sanders Peirce Sémiotika Schéma: Znakem je něco, co zastupuje něco jiného vzhledem k něčemu dalšímu. neboli: a zastupuje b vzhledem c 37 38 Trojúhelník reference (sémiotický trojúhelník) Sémiotika J znak (jazykový výraz) Sémantický trojúhelník vyjádření označení (denotace) smysl S (koncept, pojem) odraz D denotát (skutečnost, objekt) 40 10
Sémiotika Sémiotika Označující je znak, označované jsou předměty, jevy, procesy reálného světa. Označované se nazývá denotát. Denotací (významem) znaku je předmět, jev, proces reálného světa, který je označován. Denotace se nazývá také extenzí znaku. 41 42 Sémiotika Sémiotika Smyslem znaku jsou obsahové charakteristiky. Pro označení jednoho předmětu, jevu, procesu lze použít dva nebo více znaků: např. Jitřenka a Večernice - stejný denotát, ale různý smysl. Smysl znaku se nazývá také intenzí znaku. Kódování a dekódování Proces, jímž mluvčí převádí sdělení do určitého kódu, se nazývá kódování. Proces, kterým interpretuje recipient sdělení, je dekódování. 43 44 11
Sémiotika Indukce a dedukce Každý kód má stránku výrazovou, tj. znakovou (u jazyka je to stránka fonetická a grafická), stránku syntaktickou (pravidla vztahů mezi znaky) a stránku sémantickou (vztahy znaků k označovaným objektům). 45 46 Sémantika v informační činnosti Lingvistika 1. gnoseologický šum 2. sémantický (významový) šum Slova mají zřejmý věcný význam. Jsou pojmenováním předmětů, jevů, dějů, vlastností, okolností a vztahů. 47 3. sémantické problémy přirozeného jazyka (synonymie, homonymie, metafory, vágnost, kontext) 48 význam: obecný konkrétní 12
Lingvistika Systémové pojetí jazyka významové vztahy mezi slovy: prvky lexikální subsystém (slovník) pravidla (gramatika, syntaxe) - jednoznačná slova, např. Krkonoše, kyslík, elektronka - víceznačná slova, např. země, kraj, kohoutek vztahy funkce paradigmatické syntagmatické poznávací komunikační 49 50 jazyk = skutečnost myšlenky Paradigmatické a syntagmatické vztahy Typy paradigmatických vztahů skákal pes přes oves ekvivalence horizontální - shoda, zaměnitelnost (viz) 51 běžela poskakoval šelma psovitá Alík skrz pole s obilím ovesným polem osa kombinace (syntagmatická) osa ekvivalence (paradigmatická) 52 hierarchie vertikální - závislost, podmnožina asociace libovolný sémantický vztah (viz též) 13
Vztah označující (J) označované (D) Jednoznačná korespondence jazykový jazykový výraz jazykový výraz výraz jazykový výraz synonymie homonymie denotát denotát denotát denotát znak smysl denotát kyselina sírová J1 S1 D1 pondělí J2 S2 D2 53 54 Lingvistika Lingvistika Jevy každého přirozeného jazyka: synonymie, kvasisynonymie polysémie, homonymie vágnost jazykových výrazů Synonymie z řec. syn - s, spolu, onoma - jméno různé znaky mají shodný denotát = pro jeden denotát existuje více než jeden znak 55 56 14
Lingvistika - synonymie Lingvistika - synonymie znak smysl fotbal - kopaná J1 J2 S Rozlišuje se: lexikální synonymie - použití dvou nebo více slov s rozdílnými kmeny k označení stejného denotátu, např. zápalky x sirky. 57 denotát D 58 gramatická synonymie - použití slov, která mají stejný kmen, ale rozdílnou morfologii, např. šaty x šatstvo Lingvistika - synonymie Lingvistika - synonymie Lexikální synonyma se dělí na: kontextuální nebo frazeologická synonyma - slova, která mohou nahradit jiné slovo jen v určitém konkrétním větném kontextu tematická synonyma - vztahují se ke slovu označujícímu široké téma, např. "pohybovat se kupředu" - jít, běžet, jet, letět atd.; "dokument" - monografie, kniha, periodikum, videokazeta atd. 59 60 15
Lingvistika - synonymie Lingvistika - synonymie 61 pravá synonyma - lexikální synonyma v užším smyslu; slova různě znějící ale mající stejný denotát, např. hasiči x požárníci, země x půda, stezka x pěšina 62 další typy synonymie: hierarchická nadřazenost: domácí zvíře - kočka - Macek asociace: nevolnost - nemoc gramatická (morfologická): různé tvary slova: kniha, knihy Lingvistika - synonymie Lingvistika - antonymie kvasisynonymie quasi - lat. jako, nepravý antonymie anti -řec. proti - částečná synonymie např. Velká Británie x Anglie - slova opačného významu 63 64 16
Lingvistika - antonymie Lingvistika - synonymie tvrdý - měkký J1 J2 zima - teplo J1 J2 Synonymie jako problém - hrozí, že nenajdeme relevantní dokument S1 D S2 S1 D S2 řešení: tvorba slovníků synonym - přesměrování na autoritní záznam 65 66 Lingvistika - polysémie Lingvistika - homonymie 67 polysémie z řec. poly - více, séma - znamení - mnohoznačnost, víceznačnost slova stejně znějící ale mající různý denotát významy jsou propojeny vztahy metafory a metonymie např. kraj (krajina, okraj stolu) 68 homonymie z řec. homos - stejný, onoma - jméno - souznačnost slova stejně znějící ale mající různý denotát významy už oddělené, původní souvislost není zřetelná např. zámek (budova, zámek u dveří) 17
Lingvistika - homonymie Lingvistika - homonymie znak smysl denotát jazyk - J S1 D1 jazyk S2 D2 typy homonymie - lexikální (stát x stát) - zvuková = homofonie (mít x mýt, plot x plod) - grafická = homografie (panický x panický, email x email) - homoformní (kos x kos, žal x žal) 69 70 Lingvistika - homonymie Lingvistika - homonymie 71 - syntaktická vhazování domácích - sémantická - ironie, metafora to se ti povedlo 72 sní; sní s ní; sní, co s ní sní s pomocí silných lup ukryli svůj lup za houslový lub pro její objetí mu objetí celého města nebylo žádnou obětí 18
Lingvistika - homonymie Lingvistika - homonymie 73 Homonymie jako problém - hrozí, že najdeme irelevantní dokument řešení: rozšíření na víceslovné vyjádření (programy divadelní x programy počítačové) řízený slovník - použití nehomonymního synonyma, tj přesměrování na autoritní záznam (balón viz míč) definování pojmu v poznámce 74 kontextové řešení homonymie zámek AND šlechta zámek AND dveře zámek AND puška zámek AND bránění ve fulltextu Lingvistika Lingvistika - vágnost vágnost z lat. vagari - toulat se, být vrtkavý, nestálý vágní výrazy neužíváme, je nutné převést je na konkrétní význam - neurčitost, nejasnost, nezřetelnost - termíny označující kvalitu - např. malý, velký, tlustý, tenký daleko - 3 km nový - r. 2007 75 76 19
Kategorizace jazyků lingvistická podle slovníku informační technická (ICT) Lingvistická kategorizace jazyků přirozené formální (umělé) volné řízené selekční dotazovací jazyky pro definici dat jazyky pro manipulaci s daty jazyky pro řízení dat 78 Přirozený jazyk Jazyk, který se vyvíjí a jehož pravidla vyplývají z jeho používání, nemusí být explicitně předepsaná národní jazyky, např. čeština = univerzální a otevřený systém, stále se vyvíjející Lingvistická kategorizace jazyků Obecné schéma vyhledávacího systému Umělý (formální) jazyk Jazyk vytvořený nebo řízený pomocí souboru pravidel předem stanovených s ohledem na jeho použití (jazyk logiky, matematiky, programovací jazyky, esperanto, MDT) 79 80 20
Věcné zpracování Vystižení obsahu dokumentu nebo informačního dotazu prostřednictvím slov přirozeného nebo znaků umělého jazyka 82 Selekční jazyk Selekční jazyk 83 Jazyk určený k vyjádření obsahu a formy dokumentu (informace) nebo dotazu uživatele Účel: pořádání dokumentů (informací) vyhledávání dokumentů (informací) 84 Charakteristiky: - formalizace - zvláštní syntaktická pravidla -řízená slovní zásoba (řízený slovník) - používání znaků (symbolů) = notace 21
Obecná struktura selekčního jazyka Lexikální jednotka 85 lexikální jednotky paradigmatické vztahy mezi lexikálními jednotkami nástroje pro vyjádření vztahů mezi více lexikálními jednotkami - koordinace lexikální subsystém syntaktický subsystém 86 obecně - sekvence písmen, číslic a dalších specifických znaků používaná pro označení určitého pojmu - jednotka jazyka, která je nositelem významu nebo funkce - z hlediska významového tvoří jeden nedělitelný celek Lexikální jednotka Lexikální jednotky selekčního jazyka 87 v selekčním jazyce - slovo nebo slovní spojení ve formě buď - výrazu přirozeného jazyka, nejlépe substantiva nebo substantivního spojení - klasifikačního znaku 88 klíčové slovo (klíčová slova) nejdůležitější, nejvýznamnější slova a slovní spojení deskriptor lexikální jednotka tezauru předmětové heslo (subject heading) heslo v předmětovém katalogu třídník (znak) MDT např. 666.155 (vrstvené bezpečnostní sklo) 22
Lexikální jednotky selekčního jazyka Slovní spojení (sousloví) 89 konkrétní entity - předměty, věci a jejich fyzické části abstraktní entity -činnosti a události - vlastnosti (věcí, materiálů, činností) - obory nebo vědní disciplíny - měřicí jednotky individuální entity - jednotkové třídy vyjádřené vlastními jmény 90 Jan Neruda, stavební úřad, postavení mimo hru - ustálené pojmenování ze dvou nebo více slov, které označuje jednu skutečnost a vstupuje do věty jako hotový celek - lexikální jednotka, kterou lze rozčlenit na oddělené složky, přičemž každá z těchto složek může být vyjádřena substantivem a nezahrnuje sloveso ve tvaru určitém 91 Koordinace využití více lexikálních jednotek k vyjádření složených témat při formulaci dotazu prekoordinace - vztahy definovány už při indexování dokumentu (na vstupu) zvyšuje přesnost postkoordinace - vztahy definovány až při formulaci dotazu (na výstupu) zvyšuje úplnost popis dokumentu hodnocení profesorů studenty popis dokumentu hodnocení profesoři studenti prekoordinace postkoordinace popis dotazu hodnocení profesorů studenty popis dotazu hodnocení AND profesoři AND studenti 23
Typy selekčních jazyků prekoordinace postkoordinace paradigmatické vztahy klady přesné vyjádření tématu dokumentu (i velmi specifické vztahy) možnost libovolného skládání pojmů abecední (předmětové) hierarchické (systematické) zápory obtížná formulace dotazu běžným uživatelem nevyhovuje interdisciplinárním dotazům omezení typů vztahů, jež lze použít syntagmatické vztahy postkoordinované prekoordinované slovník (tezaurus) tabulky (číselník) fasetová klasifikace monohierarchická klasifikace Systematické selekční jazyky Systematické selekční jazyky V rámci systematického zpracování dokumentů a informací jsou pořádány předměty, jevy a procesy reálného světa přes jejich odraz v lidském myšlení, tedy pojmenování výrazy přirozeného jazyka. Tyto jazykové výrazy jsou přeloženy do znaků umělého selekčního jazyka. Umělý selekční jazyk je hierarchicky uspořádán na podkladě rozsahu (extenze) a obsahu (intenze) pojmů. 95 96 24
Systematické selekční jazyky Univerzum lidského poznání a praxe určité doby si lze představit jako pyramidu. Předmětové selekční jazyky V rámci předmětového zpracování dokumentů a informací jsou pořádány předměty, jevy a procesy reálného světa přes jejich odraz v lidském myšlení, tedy pojmenování výrazy přirozeného jazyka. 97 98 Předmětový selekční jazyk používá přirozený jazyk, upravený podle určitých pravidel. Předmětové selekční jazyky Předmětové selekční jazyky 99 Hierarchie a rodo-druhové vztahy mezi názvy nejsou důležité při vlastním zpracování, tj. použití konkrétního výrazu pro vyjádření obsahu dokumentu. 10 0 Slovní vyjádření v sobě neobsahuje hierarchické a rodo-druhové vztahy. Proto se jako pomocný prostředek užívají odkazy, které mohou poukazovat na hierarchii a rodo-druhové vztahy. 25
Předmětové selekční jazyky Přirozený jazyk - selekční jazyk - informační zdroj 10 1 Předmětové selekční jazyky deskriptorového typu při užívání přirozeného jazyka kladou důraz na hierarchii a jednotlivé deskritptory jsou v hierarchii uvedeny. Snaží se tak odstranit jistou nevýhodu ztráty systematiky při zachování výhody užívání přirozeného jazyka. 10 2 Informační potřeba - obsah vyjádření Dotaz - přirozený jazyk překlad NLP, fulltext Selekční jazyk Přirozený jazyk překlad zdroj šumu Informační zdroj - obsah vyjádření Vyhledávání s metadaty Vyhledávání bez metadat 10 3 + nezávislost na slovníku autora dokumentu (v metadatech je možné popsat obsah i slovy, jež nejsou v dokumentu) + k dispozici je model (abstrakce) obsahu, zbavený detailů + vyřešená synonymie a homonymie vyžaduje intelektuálně předzpracovat dokumenty i dotazy v bodech zpracování může docházet k šumu 10 4 + dokumenty ani dotazy není třeba předem intelektuálně zpracovat + ubývá bodů zpracování (tj. zdrojů šumu) závislost na slovníku autora dokumentu problémy s přirozeným jazykem (synonymie, homonymie, vágnost) 26