Témata této a příští přednášky Důležité pojmy Organizace informací a znalostí Sémantická a lingvistická problematika zpracování informací a znalostí Indexování Selekční jazyky Pojmový model pojem, pojmový model kategorie kritérium členění, faseta ekvivalence hierarchie asociace 1 2 Modelování a organizace znalostí aneb Systémy organizace informací / znalostí (knowledge organization systems) Věcné pořádání informací Informační architektura Reprezentace znalostí (knowledge representation) Konceptuální (pojmový) model Klasifikace, taxonomie Klasifikace věd Selekční jazyky Ontologie Paradox: Terminologie organizace znalostí je málo organizovaná 3 4 1
Rekapitulace č. 1 Úrovně standardizace (interoperability) dat znakové sady (abeceda) kódování komunikovaných údajů syntaxe (skladba) struktura komunikovaných údajů (formát) sémantika obsah komunikovaných údajů komiks Rekapitulace č. 2 Obsah a forma informace + kontext 1) Informace = data, která mají smysl obsah (content) 2) Informace = znalosti, které jsou sdělitelné komunikace (container, carrier) 3) Informace = data v kontextu 5 6 Rekapitulace č. 3 Problémy řešené při zpracování informací a) s množstvím informací popis Reprezentace datových objektů do nových datových objektů. Data se mění nebo alespoň kopírují. zmenšení objemu dat (surogáty záznamy zastupující původní dokument) zvětšení objemu dat (komentáře...) b) s organizací informací přístupové body Členění (třídění, rozdělení, označování) datových objektů podle stanovených kritérií. Data se spíše reorganizují než mění. Proč organizovat informace? 1) vyhledatelnost (findability) 2) srozumitelnost 7 3) využitelnost 8 2
Rekapitulace č. 4 Typy metadat Co můžeme chtít organizovat identifikační 1) realitu popisná bibliografický (jmenný, identifikační) popis věcný (obsahový) popis vyhledávací (selekční) lidi v podniku, knížky na regále, zboží v obchodě 2) informace 3) znalosti pojmy, slova 9 10 Model též schéma / typ / profil / architektura Rekapitulace č. 5 Což konkrétně znamená 1 : N zjednodušená a zobecněná (abstraktní) reprezentace podstatných prvků modelovaného jevu instance: konkrétní výskyt modelovaného jevu pojmový model, informační architektura 11 Organizované informační objekty, jednotky, entity obsah (abstraktní) znalost informace dílo pojem, myšlenka vědní nebo studijní obor forma (konkrétní artefakty) dokument kniha text (věty, odstavce, slova...) webová prezentace organizační útvar 12 3
Přístupy k organizaci znalostí top downd bottom up hierarchické síťové Aristoteles Jan Amos Komenský Carl von Linné Francouzští encyklopedisté Dimitrij Ivanovič Mendělejev Melvil Dewey Mezinárodní desetinné třídění Wikipedia Open Directory Project (dmoz) folksonomie YouTube Flicker.com del.icio.us Facebook sémantický web Carl von Linné 1707 1778 švédský přírodovědec a lékař, zakladatel systematického třídění v mineralogii, botanice a zoologii Systema naturae. 1735 považováno za nejvýznamnější přírodovědecké dílo od dob Aristotelových 13 14 Typy systémů organizace znalostí Základní princip organizace klíčová slova, tagy nabídkový seznam (menu, pick list, vyjmenovaná slova) slovník seznam autorit (authority list/file) seznam synonym seznam morfologických (gramatických) tvarů negativní slovník (stop slova, zakázaná slova, stopwords) předmětový heslář (subject headings) seznam kategorií (nomenklatury, číselníky) hierarchický seznam (klasifikace, taxonomie) tezaurus pojmová mapa, mapa námětů (topic map) sémantická síť ontologie 15 podobné (stejné, ekvivalentní) věci se seskupují, rozdílné věci se oddělují Které věci jsou ekvivalentní? ty, které jsou složeny ze stejných částí ty, které mají stejnou sadu atributů ty, jejichž atributy mají stejné hodnoty ale i ty, které se stejně jmenují ty, které za ekvivalentní považujeme 16 4
Ekvivalence Jaká ekvivalence? Příklad: srovnávání cen zboží v e-shopech formy prvky mají stejný vzhled nebo stejnou strukturu homonymie obsahu prvky mají stejný význam synonymie 17 18 Způsoby definice množiny (domény) Podmínka organizování poznání (definování) organizovaných entit í náročnost intelektuální Množina je určena, lze-li li stanovit, zda libovolně zvolený objekt je či není jejím prvkem 1. výčet prvků (enumerace) u konečných množin např. Jana, Věra, Petr, Pavel, Honza 2. logické vymezení, definice vzorcem, rozsahem např. A...Ž, a...ž; všechna celá čísla >1 3. sémantické (obsahové) vymezení pojmenováním např. (všechny) KNIHY, (všichni) STUDENTI 19 Možnosti ost definování 1) empirie, extenze výčet (seznam, enumerace) prvků 2) abstrakce, intenze název (slovo) rodina popis, vzorec, definice popis vlastností definovaných entit a jejich kontext (vztah k ostatním entitám) Skupina osob přímo spjatých pokrevními svazky, manželstvím nebo adopcí, jejíž členové jsou spojeni soužitím, odpovědností a vzájemnou pomocí. 20 5
Správná definice Aristoteles: Definitio per (1) genus proximum et (2) differentia specifica (1) nejbližší rod (2) specifické (druhové) rozdíly Rodina je skupina osob přímo spjatých pokrevními svazky, manželstvím nebo adopcí, jejíž členové jsou spojeni soužitím, odpovědností a vzájemnou pomocí. 21 22 Kategorie též: třída, typ, taxon, pojem, entita, množina, klastr, topik (námět, topic), klasifikátor (classifier) skupina materiálních nebo abstraktních objektů, procesů či událostí, jež považujeme z určitého pohledu nebo pro daný účel za ekvivalentní kognitivní a lingvistický model umožňující využít existující znalosti v nových situacích a rozpoznat instance nebo události 23 Kategorizace (třídění, klasifikace) jedna z forem analýzy rozdělení předmětů a jevů do skupin a podskupin podle jejich vzájemné shody a odlišnosti kritérium členění (principium divisionis, order principle, filing criterion / principle, criterion of distinction) atribut, na základě jehož hodnot se třídí 24 6
Typy kategorizace (určování ekvivalence) 1) zevnitř, objektivně, analýzou struktury (co jsme zjistili) atributy a jejich hodnoty náročné na inteligenci 2) zvenčí, subjektivně, ě podle povrchu, formy (co vidíme) názvy, metadata lze automatizovat (svěřit počítači) 25 Názvy nebo vlastnosti? What s in a name? That which we call a rose by any other name would smell as sweet. Co po jméně? Co růží zvou a zváno jinak, vonělo by stejně. William Shakespeare. Romeo a Julie, 1595 26 Vztah kategorie prvek (instance) Ideální kategorie jsou: Jan Vlk Knihovnictví Věra 3Nová Ekonomie Petra 2Janků Knihovnictví Adam 1 Dlouhý Právo 1 27 1) jasně ohraničené 2) nepřekrývající se 3) vzájemně se vylučující 4) vytvořené podle jednotného kritéria členění 28 7
Ale skutečnost není ideální Kategorie neexistují objektivně, jejich vymezení se může lišit pro různé účely a pro různé subjekty Různé přístupy ke kategorizaci hudby http://www.najisto.cz/kultura-a- a zabava/hudebni-sluzby-a-prodej-hudebnin/ http://katalog.seznam.cz/kultura/hudba/ http://psh.cvut.cz/psh/index.html?lang=cs&txt =hudba 29 http://hudba.vltava.cz/ 30 Pragmatický aspekt kategorizace Pragmatický aspekt kategorizace warrant = zdůvodněný, ospravedlněný, oprávněný literary warrant educational warrant user warrant organizational warrant business warrant 31 1. Zvířata podle Linného 2. Zvířata v ZOO 3. Zvířata podle Jorge Luise Borgese 32 8
Fasetová klasifikace Fasetová klasifikace faseta (facet): konkrétní použité kritérium členění 1 téma klasifikované podle více hledisek více hierarchií pro 1 téma multikriteriální třídění 33 účel materiál 34 Znázornění kategorií a jejich vztahů sémantická síť Paradigmatické a syntagmatické vztahy Informační věda a knihovnictví : Výkladový slovník http://vydavatelstvi.vscht.cz/knihy/uid _es-005/ebook.help.htm skákal pes přes oves běžela šelma psovitá poskakoval Alík skrz pole s obilím ovesným polem osa kombinace (syntagmatická) osa ekvivalence (paradigmatická) 35 36 9
Typy paradigmatických vztahů ekvivalence horizontální shoda, zaměnitelnost (viz) tranzitivita, inference Hierarchie je, když abstrakce hierarchie vertikální závislost, podmnožina (ISA, HASA) asociace libovolný sémantický vztah (viz též) drill down Příklad roll up 37 38 Typy hierarchie Typy hierarchie mono poly hluboká vysoký strom mělká široký strom strom cyklus 39 40 10
Typy hierarchických vztahů Typy hierarchických vztahů 1) Generické (genus/rod species/druh) vztah obecné zvláštní všechny podtypy mají atributy nadtypu pomůcky: ISA, je druh/typ, XOR, všichni někteří dopravní prostředky vlaky nákladní vozidla vlaky 41 2) Partitivní (celek část) pomůcky: HASA, AND, část má patřit vždy jen do jednoho celku vlaky budovy vlaky lokomotivy dveře okna 42 Typy hierarchických vztahů Hierarchické vztahy 3) Třída instance ale i entita / typ případ / identifikátor klasifikace hory vlaky jazyky Krkonoše Pendolino SGML 43 celek část rod druh třída instance Maserati Gran Turismo 44 11