Věcné zpracování v NK ČR Marie.Balikova@nkp.cz M. Balíková, NK ČR UISK duben 2010 1 Stručná charakteristika činnosti oddělení ONVAZ Věcná katalogizace a věcné autority v současném prostředí Projekty metoda Konspektu Konspektové schéma sdílená katalogizace Cluster 1 tematická mapa fondů projekt TOC, slova z obsahů M-CAST, UDC/MDT online kooperace s paměťovými institucemi autority jako nástroj interoperability věcné autority M. Balíková, NK ČR UISK duben 2010 2 1
Cíl: kvalitní popis a zpřístupnění informačních zdrojů Efektivní a kvalitní zpřístupnění informačních zdrojů, jejich částí a jednotlivých informací v nich obsažených standardním způsobem Důraz na zpřístupnění informací prostřednictvím obsahových charakteristik M. Balíková, NK ČR UISK duben 2010 3 Předpoklady věcné katalogizace Standardizace pravidel, metod, nástrojů Správná obsahová analýza identifikace témat Řízená a pojmová indexace Výběr indexačních termínů z předem definovaného jazyka Struktura zápisu věcných selekčních prvků respekt formátů Sdílená katalogizace Kooperace institucí s univerzálním fondem Kooperace institucí se speciálními fondy M. Balíková, NK ČR UISK duben 2010 4 2
Doporučení, principy a zásady věcné katalogizace Všeobecná dostupnost informací Ohled na uživatele katalogu cílový uživatel Běžné použití Výběr termínů, variantní formy jako odkazy Prezentace entit při popisu omezení formalizace, respekt formy názvu, formy termínu Přirozený slovosled Celistvost termínu Správnost popisu informačního zdroje Bibliograficky významné prvky neuvádět vycpávková slova Konzistentní reprezentace tématu M. Balíková, NK ČR UISK duben 2010 5 Věcné pořádání informací součást informačního procesu proces organizace informací získaných obsahovou analýzou dokumentu výsledek procesu - uspořádání obsahových údajů do struktury za účelem jejich vyhledání Informační proces proces zahrnující získávání, zpracování, uchovávání, přenos a využívání informací složky informačního procesu z hlediska věcného zpracování informace, dokument objekt subjekt prostředky=nástroje používané v informačním procesu M. Balíková, NK ČR UISK duben 2010 6 3
Sekundární dokument - záznam o dokumentu souhrn identifikačních a obsahových údajů o primárním dokumentu sloužících k jednoznačné identifikaci po formální i obsahové stránce bibliografický či metadatový záznam struktura selekčních údajů pravidla a standardy M. Balíková, NK ČR UISK duben 2010 7 Subjekt autor, koncový uživatel autor měnitelnost informací šíření informací požadavek na zpřístupnění informací účinný, srozumitelný a snadno aplikovatelný nástroj pro zpřístupnění informací autor Web 2.0 uživatel získat informace primární či sekundární dokument účinný a srozumitelný nástroj pro vyhledání informací formulace dotazu účinná rešeršní strategie podílet se na tvorbě informací - tagování M. Balíková, NK ČR UISK duben 2010 8 4
Informační pracovník pořádací nástroje obsahová analýza dokumentu intelektuální analýza sémantická redukce textu základní a dílčí témata vyjádření vlastními slovy převod do lexikálních jednotek informačního jazyka reprodukce přesného obsahu informace omezit subjektivní přístup (korekce) Selekční jazyky informační jazyky nástroj reprezentace informací prostřednictvím komprimace (redukce) informací faktografické dokumentografické identifikační věcné selekční jazyky přirozený jazyk jako informační jazyk - plnotextové vyhledávání M. Balíková, NK ČR UISK duben 2010 9 Věcné selekční jazyky podle typu používaných selekčních prvků věcné selekční jazyky na bázi přirozeného jazyka lexikální jednotky jsou vybírány z přirozeného jazyka systematické selekční jazyky DDC DDC_OCLC MDT lexikální jednotky představují numerické, případně alfanumerické znaky podle způsobu organizace lexikálních jednotek v procesu indexování a vyhledávání prekoordinované selekční jazyky téma dokumentu vyjádřeno sestavou lexikálních jednotek podle předem stanovených syntagmatických a syntaktických pravidel už v průběhu indexování postkoordinované selekční jazyky téma dokumentu vyjádřeno sestavou izolovaných jednotek, mezi nimiž nejsou syntaktické vztahy explicitně vyjádřeny M. Balíková, NK ČR UISK duben 2010 10 5
Věcné sel. jazyky na bázi přirozeného jazyka jazyk klíčových slov z názvů a podnázvů smysluplná slova v bibliografickém záznamu jazyky předmětového typu jazyk předmětových hesel jazyky deskriptorového typu oborové tezaury polytematické tezaury jazyk neřízených předmětových termínů (klíčových slov tvořených katalogizátorem) izolované lexikální jednotky soubor autorit integrovaný nástroj lexikum - soubor používaných lexikálních jednotek struktura tj. vyjádření vztahů mezi lexikálními jednotkami aplikační syntax soubor pravidel pro spojování lexikálních jednotek při tvorbě selekčního obrazu dokumentu M. Balíková, NK ČR UISK duben 2010 11 Prekoordinace, postkoordinace přiřazení několika indexačních termínů jedné popisné jednotce prekoordinace pořadí lexikálních jednotek je stanoveno, fixní pravidla řetězce předmětových hesel malířství české -- rok 1930-1945 -- náměty protiválečné -- výstava (Olomouc r. 1985) katalogy náměty protiválečné -- malířství české -- rok 1930-1945 -- výstava (Olomouc r. 1985) katalogy postkoordinace dokumentu přiděleny izolované lexikální jednotky, nejsou koordinovány české malířství * česká architektura * náměty, témata a motivy * 18. stol. * české malířství česká architektura náměty, témata a motivy M. Balíková, NK ČR UISK duben 2010 12 6
Charakteristika jazyka předmětových hesel (JPH) předmětové heslo jednoslovné nebo víceslovné formálně upravené vyjádření tematiky, případně formální charakteristiky dokumentu řetězec předmětového hesla heslo + podhesla // vstupní prvek + jednotlivá zpřesnění induktivní metoda adekvátní vyjádření komplexních témat dominantní prvek - prekoordinace detailní vyjádření předmětu dokumentu maximální informační hodnota řetězce předmětového hesla efektivní servis pro uživatele v tradičním prostředí priorita substantiva prostředí lístkových katalogů, OPAC 1. generace, rešeršní systémy 1. generace M. Balíková, NK ČR UISK duben 2010 13 PH Kafka, Franz (1883-1924 spisovatel něm.): dílo - konference r. 1963, Liblice materiály - vyd. něm. MDT 92 Kafka. F. (061.3):830(437)-31.09 Kafka, F. (082)=3 M. Balíková, NK ČR UISK duben 2010 14 7
Nevýhody JPH věcné údaje originální umělecké dílo velikost autoritního souboru komplikovaná údržba 50% pracovní doby je věnováno systematickému dotváření pravidel školení údržbě autoritního souboru po formální stránce (ne sémantické struktury) skluz ve zpracování - nevčasnost informací délka řetězce ztráta koncových údajů při zobrazení (mizí za obrazovkou, případně na druhé řádce) nedostupnost pro většinu vyhledávacích služeb redundantnost informací v bibliografickém záznamu komplikovaná pravidla aplikační syntaxe problematické dodržování těchto pravidel M. Balíková, NK ČR UISK duben 2010 15 Řešení: aplikační syntax zjednodušení aplikační syntaxe v bibliografickém záznamu kompaktnost, nerozložitelnost termínu větší míra postkoordinace redukce informací v komplexní lexikální jednotce = řetězci PH přesun tematických informací do vstupní pozice minimální struktura řetězce předmětového hesla fixní pořadí prvků řetězce předmětového hesla výzkum věcné selekční jazyky v Česku preference izolovaných lexikálních jednotek M. Balíková, NK ČR UISK duben 2010 16 8
Konvertibilita indexačních systémů Prekoordinovaný v postkoordinovaný - automatická konverze Postkoordinovaný v prekoordinovaný intelektuální konverze Předpoklad Standardní postup v jednotlivých systémech M. Balíková, NK ČR UISK duben 2010 17 Prekoordinovaný a postkoordinovaný systém Naše paní profesorka Marie Škaloudová : 29.1.1914-27.1.2002. -- Louny : KDU-ČSL, 2002. -- 8 s. : il., portréty ; 28 cm je v prekoordinovaném systému přiděleno heslo označující kategorii osob Předm.-Os. jméno Škaloudová, Marie, 1914-2002 Předm.-Věc. téma učitelky -- Česko 20. stol. Při konverzi do postkoordinovaného indexačního systému se všechny údaje konvertují do vstupních pozic, protože tyto systémy nepracují s řetězcem předmětového hesla Předm.-Os. jméno Škaloudová, Marie, 1914-2002 Předm.-Věc. téma učitelky Předm.-Geograf. jm. Česko Předm.-Chronol. ter-. 20. stol. M. Balíková, NK ČR UISK duben 2010 18 9
Národní standard pro věcný popis soubor věcných autorit integrovaný pořádací nástroj selekční jazyky jazyk předmětových hesel systematický selekční jazyk MDT (MDT MRF) induktivní metoda dílčí soubory soubor tematických termínů soubor geografických termínů soubor formálních termínů soubor chronologických autorit funkce nástroj standardizace věcných selekčních prvků nástroj usnadňující sdílenou katalogizaci nástroj pro aplikaci metody Konspektu integrovaný univerzální nástroj pro indexování a vyhledávání informací podpora vzniku vícejazyčného pořádacího systému M. Balíková, NK ČR UISK duben 2010 19 Soubor tematických autorit verbální termíny propojeny s notacemi MDT podpora vzniku univerzálního pořádacího nástroje oblast lexikální jednotky lexikální jednotka slovní vyjádření určitého pojmu, pokud možno ve formě substantiva nebo substantivního spojení jednoslovná víceslovná dřívější praxe typická vlastnost- inverze (priorita substantiva) rozklad víceslovných lexikálních jednotek (výchova dítěte děti - výchova) M. Balíková, NK ČR UISK duben 2010 20 10
Jako víceslovné lexikální jednotky se řadí lexikalizovaná ustálená slovní spojení, která plní terminologickou funkci - termíny ustálená slovní spojení typu černá skříňka, černá díra víceslovné lexikální jednotky zařazené na vyšším než posledním hierarchickém stupni (je-li možno utvořit termíny NT) peněžní reforma NT revalvace, devalvace víceslovné lexikální jednotky, jejichž rozklad by vedl k posunu významu (k nesrozumitelnosti) (filozofie - dějiny = filozofie dějin nebo dějiny filozofie) důležitá přesnost znění (právo průmyslového vlastnictví) M. Balíková, NK ČR UISK duben 2010 21 Víceslovné lexikální jednotky - příklady bytové právo čtenářská gramotnost elektronická pošta kulturní antropologie komunikační protokoly veřejný sektor čištění odpadních vod ochrana spotřebitele užívání drog daň z příjmů ze závislé činnosti péče o zdraví právo na sebeurčení rovné postavení mužů a žen děti a mládež konkurs a vyrovnání M. Balíková, NK ČR UISK duben 2010 22 11
Soubor věcných autorit a věcné zpřístupnění ve veřejných knihovnách M. Balíková, NK ČR UISK duben 2010 23 Katalogizační praxe jednotlivých institucí indexační systémy Specifičnost indexace Řízené slovníky, hesláře, tezaury Volně tvořená klíčová slova Izolované lexikální jednotky versus minimální řetězce PH Náročnost procesu integrace Selekční termíny 1. světová válka, 1914-1918 2. světová válka, 1939-1945 Dotaz 311 M. Balíková, NK ČR UISK duben 2010 24 12
M. Balíková, NK ČR UISK duben 2010 25 M. Balíková, Příklady NK ČR UISK duben 2010 26 13
Věcné zpřístupnění vždy zaměřeno na uživatele Výrazná změna prostředí Přístup k informacím prostřednictvím sítě Internet Digitální zdroje Pokročilé způsoby vyhledávání Uživatelé v prostředí Web 2.0 Uživatelé (konsumenti obsahu) a zároveň poskytovatelé obsahu Nutná změna metod věcného zpřístupnění v knihovních katalozích Respektovat požadavky uživatelů Poskytnout informace uživatelsky vstřícným způsobem M. Balíková, NK ČR UISK duben 2010 27 Soubory autorit Klíčová slova: standardizace, centralizace, hierarchie, striktní pravidla, profesionálové Funkce paměťových institucí zpracování a zpřístupnění jednotlivých objektů,sbírek/fondů efektivním, rychlým a komfortním způsobem, tj. pomocí standardizovaných selekčních prvků - garantem standardizace jsou soubory autorit Soubor ověřených a unifikovaných jmenných a/nebo věcných selekčních údajů, určených pro zpracování a vyhledávání dokumentů s nezbytným odkazovým a poznámkovým aparátem nástroj pro autoritní kontrolu, tedy jako nástroj pro standardizaci a unifikaci věcných selekčních údajů v paměťových institucích (na národní úrovni) podpůrný nástroj pro sdílenou katalogizaci nástroj pro integraci a unifikaci věcných selekčních jazyků různých typů platforma pro tvorbu ontologií - rozvoj sémantického webu platforma pro případnou standardizaci nástrojů aplikovaných v prostředí Web 2.0 M. Balíková, NK ČR UISK duben 2010 28 14
M. Balíková, NK ČR UISK duben 2010 29 M. Balíková, NK ČR UISK duben 2010 30 15
Tematické autority Propojení tematických autorit s GEO M. Balíková, NK ČR UISK duben 2010 31 Geografické autority Geographic coordinates in TGN typically represent a single point, corresponding to a point in or near the center of the inhabited place, political entity, or physical feature. For linear features such as rivers, the point represents the source of the feature. M. Balíková, NK ČR UISK duben 2010 32 16
Geografické autority M. Balíková, NK ČR UISK duben 2010 33 Aplikace souboru FD M. Balíková, NK ČR UISK duben 2010 34 17
M. Balíková, NK ČR UISK duben 2010 35 Web 2.0, uživatelé 2.0, knihovníci 2.0 Klíčová slova: decentralizace, tvorba obsahu, sdílení, interakce, komunita, komunikace, kolaborace, kontextualizace, uživatelé Uživatelé požadují rychlé poskytování služeb, rychlé výsledky dostupnost všech požadovaných informací na webu podílet se na tvorbě obsahu změnu v pojetí klasických knihovních katalogů vizualizace informací spoluvytváření metadat tagování, folksonomie Knihovníci 2.0 předpokládají aktivní zapojení uživatele do vytváření a implementace služeb knihovny pomocí technologií Web 2.0 modifikace postupů obohacení služeb spoluvytváření metadat (uživateli), soubory autorit M. Balíková, NK ČR UISK duben 2010 36 18
OPAC 2.0 Přitažlivý, intuitivní, interaktivní obohacený o doplňkové funkce - zúžení dotazu, směrování dotazu, RSS kanál vyhledávání efektivní, jednoduché, umožňující získat relevantní dokumenty v rámci katalogu nabídnuty podobné relevantní výsledky Snadná orientace součástí OPACu funkce prohlížení/listování kategorie - šité na míru Podíl uživatele na formování obsahu tagování vizualizace tagů tag clouds psaní i sdílení recenzí, ohlasů, komentářů, příspěvků hodnocení uživatelů přímo k jednotlivým dokumentům publikace mohou mít své stránky, např. wiki, blogy umožňující diskusi zobrazení dalších dokumentů od daného autora zveřejnění obálky knihy, názorné ukázky stránek další tituly vyhledávané uživateli možnost nákupu dokumentu M. Balíková, NK ČR UISK duben 2010 37 Ann Arbor District Library Kategorie: Nové tituly Nejžádanější tituly Formát Oceněné tituly M. Balíková, NK ČR UISK duben 2010 38 19
Ann Arbor District Library - pokročilé vyhledávání Selekční termín: Czech materials Czech language M. Balíková, NK ČR UISK duben 2010 39 Loves of a blond Lásky jedné plavovlásky M. Balíková, NK ČR UISK duben 2010 40 20
Ann Arbor District Library tagy v BIB záznamu Thumbs Up! Honor Book, looking for alaska, printz award, teen, fiction, coming of age, first love, prep school M. Balíková, NK ČR UISK duben 2010 41 Tag, tagování, tag clouds/shluky tagů relevantní klíčové slovo nebo termín přiřazený digitálnímu objektu (obrázek, videoklip, článek, záznam o dokumentu), popisující objekt nebo jednotlivé informace v něm obsažené tagování označování obsahu libovolnými popisky v praxi: kdokoliv může podle svého uvážení označit digitálníobjekt jakýmikoliv tagy za účelem sdílení oblíbených dokumentů s co nejširší veřejnosti členy komunity tag clouds/shluky tagů způsob vizualizace tagů, množina důležitých tagů řazení abecední od nejdůležitějšího k měně důležitým (méně používaným) důležitost tagů, četnost výskytu znázorněna zvýrazněním daného tagu velikostí písma barvou kategorizace obsahu webových stránek nástroj navigace orientace na stránce M. Balíková, NK ČR UISK duben 2010 42 21
Ann Arbor District Library tag clouds/shluk tagů african american african americans M. Balíková, NK ČR UISK duben 2010 43 LibraryThing shluk tagů/tag cloud http://www.librarything.com - oblíbená služba aplikace web 2.0 umožňující uživatelům vytvořit katalog domácích sbírek knih, CD, DVD sdílet obsah (zkatalogizované položky) s dalšími uživateli M. Balíková, NK ČR UISK duben 2010 44 22
Folksonomie Je výsledkem osobního popisu informací a objektů (čehokoliv s URL) za účelem vyhledání/získání těchto informací. Tagování se uskutečňuje v otevřeném, sdíleném prostředí. (Thomas Vander Wal) Folksonomie je tagování, které funguje. řazení objektů/informací do kategorií na základě společných vlastností ad hoc seskupení objektů/informací na základě přiřazených tagů určena pro osobní organizaci zdrojů na webu a jejich vyhledávání, objevování netušených možností praktikuje se v sociálním prostředí, čím více uživatelů, tím lépe představuje neřízený slovník M. Balíková, NK ČR UISK duben 2010 45 Folksonomie inkluzivní zahrnuje tagy všech uživatelů, subjektivní hledisko induktivní metoda princip zdola nahoru (nevzniká na základě struktury, schématu) princip demokracie, decentralizace, distributivnosti neexistuje/neuplatňuje se centrální autorita/správa systému standardizace hierarchie používá se více jazyků nedodržuje se hloubka indexace pravidla syntaxe nejsou definována nesprávně použité tagy, např. archeologie pro info zdroj o dinosaurech funkce řízeného slovníku vyjádřeny jinak často používané tagy (popular tags) korelační vztahy mezi tagy (statistický výskyt u dokumentu stejného, přibližně stejného obsahu) kombinace ekvivalentních tagů M. Balíková, NK ČR UISK duben 2010 46 23
Nevýhody: nestandardní způsob zápisu tagů jednoslovné a víceslovné tagy nejednotnost zápisu víceslovných termínů výrazy rozděleny do více tagů: american literature výraz se zapisuje bez mezery americanliterature se spojovníkem american-literature s podtržítkem american_literature gramatická forma tagů nedodržuje se pravopisná norma, často se vyskytují překlepy nejsou stanovena pravidla pro používání singuláru a plurálu používají se substantiva i adjektiva používají se zkratky (nerozepisují se), neologismy, slangové výrazy není řešena víceznačnost, synonymie, homonymie M. Balíková, NK ČR UISK duben 2010 47 LibraryThing: variantní formy zápisu Tag info: american literature Includes: american literature, AmLit, AmerLit, American Lit, American Litr, American Litt., American literatur, American-literature, Amerikaanse literatuur, Amerikansk litteratur, Literatura norteamericana, Literature - American, Literature - American; Literar, Literature -- American, Literature American, Literature American, "American Literature", am lit, am-lit, am. lit., am.lit., amer lit, american lit., american literatue, american litereature, american literture, american litrature, american litterature, american.literature, american_literature, americanliterature, amerikanische literatur, letteratura americana, lit.american, literatura americana, literaturaamericana, literature (american), literature / american, literature /american, literature-american, literature. american, literature.american, literature: american, literature:american, literatuur; Amerika, littérature américaine (what?) M. Balíková, NK ČR UISK duben 2010 48 24
Srovnání tagů a řízených předmětových termínů tematické termíny geografická jména chronologické údaje označení formy patří k často užívaným tagům tagy vyjadřující individuální aspekty, závislé na kontextu jako living room shelf ; read ; unread princip postkordinace koexistence tagů a předmětových hesel (LCSH) M. Balíková, NK ČR UISK duben 2010 49 Online zdroje folksonomie klasické zdroje řízené slovníky folksonomie kategorizace, navigace aktuálnost terminologie finanční dostupnost proměnlivost, neustálý vývoj uživatelská vstřícnost problémy ve vyhledávání řízené slovníky/soubory autorit standardizace selekčních prvků, navigace hierarchické vztahy finanční náročnost stálost (terminologie, vyjádření vazeb) v mnoha případech neaktuánost terminologie koexistence obou přístupů M. Balíková, NK ČR UISK duben 2010 50 25
Folksonomie soubory autorit oba přístupy se doplňují: folksonomie pro sdílení a zpřístupnění online zdrojů subory autorit/řízené slovníky pro zpřístupnění klasických zdrojů mohou se vzájemně pozitivně ovlivnit folksonomie aplikace základních pravidel, odstranění na kontextu závislých tagů soubory autorit aktualizace slovní zásoby (zahrnout variantní formy jako odkazy) M. Balíková, NK ČR UISK duben 2010 51 Význam věcných autorit vyhledávání - rozšíření dotazu TEL tagování standardizace tagů používaných uživateli sémantický web - tvorba ontologií AUT definování konceptů a základních/triviálních vztahů mezi nimi ontologie definování konceptů a explicitní vyjádření složitých sémantických vztahů ve strojem čitelné podobě M. Balíková, NK ČR UISK duben 2010 52 26
Integrace tematických autorit do procesu vyhledávání Selekční termín: lesní moudrost VAUT: variantní tj. nepreferovaná forma M. Balíková, NK ČR UISK duben 2010 53 M. Balíková, NK ČR UISK duben 2010 54 27
M. Balíková, NK ČR UISK duben 2010 55 M. Balíková, NK ČR UISK duben 2010 56 28
Standardizace - tagování TBR to read unread own M. Balíková, NK ČR UISK duben 2010 57 -------- Original Message -------- Subject: [ACAT] Czech National Library Date: Tue, 16 Feb 2010 11:10:54-0600 From: David Bade <dbade@uchicago.edu> Reply-To: AUTOCAT <AUTOCAT@LISTSERV.SYR.EDU>, David Bade <dbade@uchicago.edu> To: AUTOCAT@LISTSERV.SYR.EDU I have been working all morning on Czech books and for every one that I have catalogued I have found records by the Czech National Library in the OCLC database. These records are wonderful, every one created by someone who obviously understood the language of the text, knew enough to properly assign subject headings, and gave enough description to positively identify each item. This is always the case with records from the National Library in Prague, and in stark contrast with the material with which I worked yesterday (the nature of that material and the provenance of the bibliographic records found will remain unstated). I would like to say a VERY BIG THANK YOU to those people in Prague whose names I do not know but who understand what metadata is, who it is for and why we need it. And happy new year to all those celebrating Mongolian and Chinese new year. David Bade Joseph Regenstein Library University of Chicago M. Balíková, NK ČR UISK duben 2010 58 29