Témata této a předchozí přednášky. Důležité pojmy. Typy systémů organizace znalostí



Podobné dokumenty
Zpracování dokumentů a informací. Věcné pořádání informací 2. (Selekční jazyky - teoretická východiska)

víceslovná lexikální jednotka, jejíž základ tvoří substantivum, a to

Věcné zpracování a zpřístupnění informačních zdrojů Marie Balíková Národní knihovna ČR

2 Lexikální jednotka. 2.1 Obecné kategorie

Informační fondy II. předmětové pořádání. Předmětové selekční jazyky

Jazyk, slovo, slovní zásoba a slovníky. Tomáš Káňa Masarykova univerzita v Brně Katedra německého jazyka a literatury

VĚCNÝ POPIS DOKUMENTŮ (VĚCNÁ KATALOGIZACE) Mgr. Dagmar Smékalová

6 Organizační aspekty vypracování tezauru (s přihlédnutím k tomu, jak jsem postupoval já)

ICS ČESKÁ NORMA Leden 1996

Informační zabezpečení studia na Zahradnické fakultě MENDELU. Elektronické informační zdroje

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele

Předmětové selekční jazyky (PSJ)

Tam, kde anglické příklady neodpovídají českému jazykovému systému, se český překlad neuvádí.

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

VIKBA11 Selekční jazyky 1

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

VĚCNÝ POPIS DOKUMENTŮ (VĚCNÁ KATALOGIZACE) s m e k a l o v s v k o s. c z

Téma dnešní přednášky

Workshop k terminologickým otázkám organizace znalostí Motivace a hypotézy projektu. Cíl projektu NAKI DF13P01OVV013

Použití této techniky se v tezaurech nedoporučuje.

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

VĚCNÝ POPIS PRO OBORY ZEMĚDĚLSTVÍ A POTRAVINÁŘSTVÍ TEZAURY AGROVOC A AGROTERM

přednášející: Silvie Kořínková Presová

Věcné zpracování. Souborný katalog - staré tisky, duben

Předmětové pořádání informací

Ontologie. Otakar Trunda

Věcná katalogizace. PhDr.Milada Píšková

Oborové a obecné termíny v univerzálních a oborových databázích

Tezaurus Medical Subject Headings

Verbální dovednosti. PaedDr. Mgr. Hana Čechová

Úvod do problematiky. Mgr. Josef Schwarz Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - podzim 2007

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

NLP & strojové učení

Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015

Vyhledávání literatury pro psaní závěrečných prací oboru rostlinolékařství

Úvod. Účel tezauru. čtenářům přes 8500 svazků knih (monografií, sborníků, absolventských

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

METODIKA MAPOVÁNÍ A HARMONIZACE REJSTŘÍKŮ, ČÍSELNÍKŮ A ŘÍZENÝCH SLOVNÍKŮ APLIKOVANÝCH V PAMĚŤOVÝCH INSTITUCÍCH CERTIFIKOVANÁ METODIKA

Pracovní skupina pro věcné zpracování

Mgr. Petr Šmejkal.

SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

Indexační pravidla pro práci s Polytematickým strukturovaným heslářem (PSH)

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

Očekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Český jazyk a literatura

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

7 UČEBNÍ OSNOVY 7.1 JAZYK A JAZYKOVÁ KOMUNIKACE Český jazyk (ČJ) Charakteristika předmětu 1. stupně

Vybrané klasifikační soustavy ve farmaceutických informačních zdrojích. Mgr. Vladimír Kebza

Elektronické informační zdroje. Dřevařství a příbuzné obory

Český jazyk a literatura

Zásady pro vytváření Polytematického strukturovaného hesláře (PSH)

Český jazyk - Jazyková výchova

Elektronické inf. zdroje

ZPRÁVA O ČINNOSTI NÁRODNÍ KNIHOVNY V PROJEKTU INTERPI ZA ROK 2014

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

RVP ŠVP UČIVO - samostatně pracuje s Pravidly českého pravopisu, se Slovníkem spisovné češtiny a s dalšími slovníky a příručkami

Elektronické informační zdroje na MENDELU

Předmět:: Český jazyk a literatura

Pracovní skupina pro věcné zpracování

Logika a jazyk. filosofický slovník, Praha:Svoboda 1966)

Rešerše....hledáme dokumenty a informace. Martin Krčál

Český jazyk a literatura

SYNTAX LS Úvod

Pravidla pro správu a aktualizaci Polytematického strukturovaného hesláře (PSH)

Věcné zpracování dokumentů Předmětové pořádání informací. Rekvalifikační kurz Školitel: Marcela Mátlová Tel.:

Jednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky

Lenka Maixnerová, Alena Šímová, Helena Bouzková, Filip Kříž, Ondřej Horsák, Marie Votípková. Národní lékařská knihovna, Praha, Česká republika

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

Sociální a lidská komunikace

Podklady pro hodnocení profilové maturitní zkoušky

Informační zdroje v síti ČVUT

Český jazyk a literatura

České internetové medicínské zdroje v Národní lékařské knihovně

Aplikace s odvozováním nad ontologiemi

Český jazyk a literatura

Český jazyk v 5. ročníku

Anglická terminologie v oblasti ICT a moderní edukace

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Management informačních fondů

Otázky k BZK pro studující od akademického roku 2010/2011 Povinný předmět - Informační věda

VY_32_INOVACE_ CJL

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Tematický plán pro školní rok 2016/2017 Předmět: Český jazyk a literatura Vyučující: Mgr. Jana Paličková Týdenní dotace hodin: 9 hodin Ročník: druhý

Aktuální změny v didaktickém testu z češtiny 2015

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Náplň kurzu: Věcné zpracování dokumentů. Literatura a zdroje informací: Věcná katalogizace

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

Formulace dotazu. Práce s online katalogy a bázemi dat v knihovnách

ČESKOSLOVENSKÁ NORMA MDT 002:001.4 Březen 1993 ČSN ISO DOKUMENTACE A INFORMACE. SLOVNÍK Část 1: Základní pojmy

Dobývání znalostí z textů text mining

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

S D Ě L E N Í 1. KRITÉRIA HODNOCENÍ ZKOUŠEK A DÍLČÍCH ZKOUŠEK SPOLEČNÉ ČÁSTI MATURITNÍ ZKOUŠKY

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Transkript:

Témata této a předchozí přednášky Důležité pojmy Organizace informací a znalostí Sémantická a lingvistická problematika zpracování informací a znalostí Indexování Selekční jazyky Pojmový model 1 pojem, pojmový model dl kategorie kritérium členění, faseta paradigmatické syntagmatické vztahy ekvivalence hierarchie asociace trojúhelník reference (sémiotický trojúhelník) synonymie homonymie index, indexování lexikální jednotka selekční jazyk řízený slovník 2 Typy systémů organizace znalostí klíčová slova, tagy nabídkový seznam (menu, pick list, vyjmenovaná slova) slovník seznam autorit (authority list/file) seznam synonym seznam morfologických (gramatických) tvarů negativní slovník (stopwords/stop slova, zakázaná slova) předmětový heslář (subject headings) seznamy termínů lineární klasifikace, seznam kategorií (nomenklatury, číselníky) kategorizace hierarchický sezam (klasifikace, taxonomie) tezaurus hierarchické seznamy pojmová mapa, mapa námětů (topic map) vztahů sémantická síť ontologie síťové 3 sémantika sémiotika lingvistika fonetika lexikologie pravopis morfologie syntax jazykové plány matematická lingvistika 4 1

Systémové pojetí jazyka Korpus prvky lexikální subsystém (slovník) pravidla (gramatika, syntaxe) přirozený jazyk v počítači vztahy funkce paradigmatické syntagmatické poznávací komunikační jazyk = skutečnost myšlenky emotivní referenční Český národní korpus http://www.korpus.cz/ 5 6 Kategorizace jazyků Lingvistická kategorizace jazyků přirozený jazyk formální jazyk lingvistická podle slovníku informační přirozené volné selekční technická (ICT) jazyky pro definici dat Kteří sportovci získali zlaté olympijské medaile na olympiádě v roce 1992? formální (umělé) řízené dotazovací jazyky y pro manipulaci s daty jazyky pro řízení dat SELECT (sportovci OR sportovec) AND zlatá medaile AND olympiáda AND 1992 7 8 2

Lingvistická kategorizace jazyků přirozený jazyk formální jazyk přirozený jazyk jazyk, který se vyvíjí a jehož pravidla vyplývají z jeho používání, takže nemusí být explicitně předepsaná (národní jazyky, např. čeština) umělý (formální) jazyk jazyk vytvořený nebo řízený pomocí souboru pravidel předem stanovených s ohledem na jeho použití (jazyk logiky, matematiky, programovací jazyky, esperanto apod.) 9 Přirozený jazyk Systém univerzální (neomezený obsahem sdělení) otevřený, neustále se měnící Vývoj přirozeného jazyka smskovat čanit email 10 Problémy s přirozeným jazykem žena ženou hnát substantivum verbum?? Lexikální jednotka (lexém, lexical unit, token) obecně sekvence písmen, číslic a dalších specifických znaků používaná pro označení určitého pojmu jednotka jazyka, která je nositelem významu nebo funkce z hlediska významového tvoří jeden nedělitelný celek 11 v selekčním jazyce slovo nebo slovní spojení ve formě buď výrazu přirozeného jazyka, nejčastěji substantiva nebo substantivního spojení klasifikačního znaku 12 3

Slovní spojení též sousloví, sdružené pojmenování, fráze (phrase) Jan Neruda, stavební úřad, postavení mimo hru ustálené pojmenování ze dvou nebo více slov, které označuje jednu skutečnost a vstupuje do věty jako hotový celek lexikální jednotka, kterou lze rozčlenit na oddělené složky, přičemž každá z těchto složek může být vyjádřena substantivem a nezahrnuje sloveso ve tvaru určitém 13 Ferdinand de Saussure 1857 1913 Kurs obecné lingvistiky. 1916 langage (řeč) langue (jazyk) parole (promluva nebo mluva) označující označované 14 Ivor Armstrong Richards 1893 1979 Richards, I. A. a Ogden, Ch. K. The meaning of meaning. 1923 Trojúhelník reference (sémiotický trojúhelník) J znak (jazykový výraz) lexikální jednotka referent reference symbol vyjádření označení (denotace) smysl S (koncept, pojem) odraz D denotát (skutečnost, objekt) 15 16 4

Vztah označující (J) označované (D) jazykový jazykový výraz jazykový výraz výraz synonymie denotát jazykový výraz homonymie denotát denotát denotát 17 18 Vzájemně jednoznačná korespondence znak smysl denotát Synonymie kyselina sírová pondělí fotbal kopaná J1 J2 J1 J2 S1 S2 S D1 D2 D 19 20 5

Kvazisynonymie Typy synonymie fotbalista Jan Kovář tvrdý měkký a) lexikální (věcná) J1 S1 D J2 S2 J1 S1 D J2 S2 "pravá" synonymie (ekvivalence) cesta silnice dálnice vozovka stezka pěšina hierarchická nadřazenost podřazenost domácí zvíře kočka Macek asociace nevolnost nemoc b) gramatická (morfologická) 1 slovo ve více tvarech cesta, cesty, cestě, cestu... 21 22 Rekapitulace Hodnocení výsledků vyhledávání relevance informační šum úplnost (recall) přesnost (precision) Problém synonymie snižuje úplnost (recall): hrozí, že nenajdeme všechny relevantní informace řešení: tvorba seznamů synonymních termínů, které se automaticky berou v úvahu při použití jednoho z nich a) věcná (lexikální) synonymie: seznamy synonym např. tezaury, autority b) gramatická synonymie: lematizátor, derivátor 23 c) nouzové řešení zkracování / maskování koncovek 24 6

Řešení problému synonymie báze autorit Řešení problému synonymie Jyxo Zpracování dotazu vyhledávacím serverem jyxo.cz zadán termín lingvistika 25 26 Homonymie mnohovýznamovost (polysémie) Homonymie mnohoznačnost jazyk J jazyk to je pěkné to je pěkné J S1 S2 S D1 D2 D1 D2 27 28 7

Typy homonymie a) lexikální stát stát stát stát zvuková (mít mýt) grafická (email email) b) syntaktická vhazování domácích c) sémantická ironie, metafora to se ti povedlo 29 Problém homonymie snižuje přesnost (precision): hrozí, že najdeme nerelevantní informace řešení: 1. kontext buňka v ČNK 2. řízený slovník a) homonyma vyloučíme z používání balón viz míč b) jednotlivé významy upřesníme poznámkami balón (míč) 30 Kontextové řešení problému s homonymy v dotazech Kategorizace jazyků podle slovníku zámek AND šlechta volně stojící obytná a reprezentativní budova zámek AND dveře zařízení k dočasnému uzavírání, zajišťování a spojování pohyblivých částí zámek AND puška spouštěcí a odpalovací mechanismus ručních palných zbraní zámek AND třetina uzavření bránícího mužstva v jeho vlastní obranné zóně (např. v hokeji) 31 volný jazyk / slovník (free language, natural language) úplnost a specifičnost, přesnost (respektuje se jazyk tvůrce i uživatele) řízený jazyk / slovník (controlled vocabulary/language, vocabulary control) jednoznačná interpretace významu slov vyznačení příbuznosti (vztahů) slov 32 8

Co řídí řízený slovník? Použití řízeného slovníku Zahrnuté / nezahrnuté lexikální jednotky Význam lexikálních jednotek 1. Organizace shromažďovaných informací (třídění informačních objektů) Formát lexikálních jednotek Vztahy mezi lexikálními jednotkami (paradigmatické) 33 2. Popis obsahu shromažďovaných ýh informací 3. Vyjádření obsahu dotazů 34 Index může znamenat: Indexování může znamenat: latinsky: ukazovatel, ukazatel, udavatel, udavač, oznamovatel, nápis digitus index = ukazováček (ang. index finger) vyzvědač, zrádce, prozrazující něco seznam, obsah, katalog, rejstřík ukazatel poměru dvou nebo více hodnot rozlišující, identifikační znak tvorbu indexu (indexového souboru) pořádání (organizaci) informací vyjadřování obsahu (věcný popis / zpracování) informací 35 36 9

Proces indexování Typy indexování vystižení obsahu dokumentu nebo informačního dotazu prostřednictvím slov přirozeného jazyka nebo znaků umělého jazyka přidělování indexačních termínů výběr a přiřazení indexačních termínů (bez ohledu na to, zda se vyskytují v textu) tak, aby reprezentovaly informační zdroje podle určitých pravidel výběr termínů postup vybírání indexačních termínů z indexovaného zdroje 37 38 Selekční jazyk (indexing language) Selekční jazyk jazyk určený k vyjádření obsahu a formy informačního zdroje a dotazu účel: pořádání (indexování) informací vyhledávání informací (výrazy selekčního jazyka slouží jako přístupové body) 39 v širším slova smyslu přístupové body (slovník termínů, podle kterých lze vyhledávat) v užším slova smyslu řízený slovník 40 10

Charakteristiky selekčního jazyka Obecná struktura selekčního jazyka formalizace zvláštní syntaktická pravidla řízená slovní zásoba: řízený slovník používání symbolů (notace) Ale: I přirozený jazyk může plnit funkci selekčního jazyka lexikální jednotky paradigmatické vztahy mezi lexikálními jednotkami nástroje pro vyjádření (syntagmatických) vztahů mezi více lexikálními jednotkami koordinace lexikální subsystém syntaktický subsystém 41 42 Příklady lexikálních jednotek selekčního jazyka Co vyjadřuje lexikální jednotka selekčního jazyka? klíčové slovo, tag nejdůležitější, nejvýznamnější slova a slovní spojení deskriptor lexikální jednotka tezauru předmětové heslo (subject heading) heslo v předmětovém katalogu třídník (znak) MDT např. 666.155 Vrstvené bezpečnostní sklo 43 konkrétní entity předměty, věci a jejich fyzické části materiály abstraktní entity činnosti a události vlastnosti (věcí, materiálů, činností) obory nebo vědní disciplíny měřicí jednotky individuální entity jednotkové třídy vyjádřené vlastními jmény 44 11

Selekčních jazyků je hodně Typy selekčních jazyků paradigmatické vztahy http://www.webarchiv.cz/generator/dc.php abecední (předmětové) hierarchické (systematické) http://info.sks.cz/users/ku/ziz/sjazyky.htm synta agmatické vztahy postkoordinované prekoordinované tezaurus číselník fasetová klasifikace monohierarchická klasifikace 45 46 Tezaurus Roget's Thesaurus Řízený ý slovník uspořádaný tak, že explicitně it ě zachycuje sémantické vztahy mezi lexikálními jednotkami. Deskriptor (preferovaný termín) Lexikální jednotka tezauru užívaná k označení určitého pojmu. Vyjadřuje j sémantickou tik dominantu zastupující celou třídu podmíněné ekvivalence: ostatní podmíněně ekvivalentní slova a slovní spojení se považují za nedeskriptory a jsou odkázána na deskriptory. Main Entry: cat Part of Speech: noun Definition: feline animal, sometimes a pet Synonyms: bobcat, cheetah, cougar, grimalkin, jaguar, kitten, kitty, leopard, lion, lynx, malkin, mouser, ocelot, panther, puma, puss, pussy, tabby, tiger, tomcat Zdroj: Roget's New Millennium Thesaurus, First Edition (v 1.3.1) Copyright 2006 by Lexico Publishing Group, LLC. All rights reserved. 47 48 12

Peter Mark Roget 1779 1869 Ukázky tezaurů Anglický polyhistor: lékař, lexikograf, autor četných publikací z oboru medicíny a optiky, přispěvatel do encyklopedií, vynálezce logaritmického pravítka Thesaurus of English Words and Phrases. 1. vydání 1852 slovník synonym a antonym kategorizace slov a) Tezaurus jazyka českého b) Český zemědělský tezaurus AGROTERM 49 50 Vyjádření paradigmatických vztahů v tezaurech ekviv valence hierar rchie asociace odkaz (vztah) nedeskriptor viz USE deskriptor odkaz (vztah) deskriptor nedeskriptor ekv UF use / used for odkaz na nadřazený deskriptor nd BT B broader term odkaz na podřazený deskriptor pd NT N narrower term odkaz na asociovaný deskriptor ad RT R related term 51 13