Publikováno na Inflow.cz (http://www.inflow.cz/klicova-slova-jejich-vyuziti-v-knihovne-jirihomahena-v-brne) Klíčová slova a jejich využití v Knihovně Jiřího Mahena v Brně 29. 9. 2008 Příspěvek nastiňuje základní teorii tvorby a zpracování klíčových slov a v krátkosti i stručnou historii klíčových slov. Dále popisuje způsob jejich tvorby v Knihovně Jiřího Mahena v Brně. Za krátké časové období statisticky zpracovává informace o vyhledávání v knihovním katalogu a popisuje základní chyby ve formulaci informačních požadavků čtenáři. Úvod Tématem této práce jsou klíčová slova a jejich praktický význam pro vyhledávání informací. Rád bych zhodnotil způsob práce katalogizátora ve významné organizaci Knihovny Jiřího Mahena v Brně, druhé největší městské knihovně v České republice s fondem přesahujícím 800 000 knihovních jednotek, zda probíhá systematicky na základě předem stanovených pravidel nebo zda existují nepsaná pravidla, kterým se přidělování klíčových slov řídí. Pokusím se odhalit některé nedostatky v tvorbě klíčových slov. Rád bych v této práci také nalezl odpověď na otázku, kolik čtenářů a návštěvníků knihovny v průměru využívá klíčová slova k vyhledání svých dokumentů a zda jsou úspěšní v tomto vyhledávání. Ku pomoci mi budou záznamy přístupů na server on-line katalogu Knihovny Jiřího Mahena v Brně, které si informační systém Clavius zaznamenává do pomocných souborů, a které jsem získal k tomuto účelu od správce sítě. V závěrečné části této práce vyhodnotím na konkrétních případech chybné vyhledávání čtenářů a naleznu řešení k dosažení cíle. Teorie klíčových slov Klíčová slova jsou slova a krátká slovní spojení přirozeného jazyka, která vyjadřují sémantický obsah dokumentu. Klíčová slova jsou tvořena katalogizátorem na základě obsahové analýzy buď z názvu dokumentu, jakékoli jeho části, ale i ze jeho referátů, anotací či extraktů. Existují také automatizované systémy, které provádějí výběr klíčových slov samostatně bez přispění práce
knihovníka. Obsahová analýza dokumentu má za úkol určit podstatné obsahové složky dokumentu, odlišit od sebe základní a vedlejší témata a formulovat tyto obsahové složky pomocí přirozeného jazyka. Klíčová slova jsou postkoordinovaný selekční jazyk, jelikož jsou seřazována až na základě položení dotazu. Klíčová slova jsou izolovaná a nezávislá jedno na druhém. K jejich použití se přechází v 50. letech 20. století, kdy je třeba zareagovat na obrovský nárůst poznatků ve vědních oborech a kdy stávající struktury katalogizace nejsou dostačující. Mezi první průkopníky klíčových slov patří permutované rejstříky KWIC a KWOC, jejichž základní myšlenky byly formulovány v roce 1959 a služba CAS, která započala s automatizovaným zpracováním časopisu Chemical Titles krátce po roce 1961. Zajímavé je, že se v praxi uplatnilo nejprve automatizované zpracování klíčových slov pomocí výpočetní techniky, a teprve v průběhu času se přistupuje k manuálnímu zpracování. Tvorba klíčových slov není normativně omezena a jejich konkrétní podoba je závislá na interních pravidlech institucí. Základním pravidlem tvorby klíčových slov je ovšem snaha o co nejvyšší míru přizpůsobení se přirozenému jazyku uživatelů informačního systému. Klíčová slova se ovšem neobjevují pouze v oblastí knihovnictví. Správnou volbou klíčových slov lze usnadnit vyhledávacím strojům na internetu správně indexovat internetové stránky a nasměrovat na ně uživatele, kteří mají zájem právě o tyto informace. Jedná se o tzv. SEO - Search Engine Optimization. Klíčová slova v Knihovně Jiřího Mahena v Brně Knihovna Jiřího Mahena je historickou organizací, která vznikla již v roce 1921. Nejprve pracovala se jmenným a předmětovým lístkovým katalogem, jenž obsahoval předmětová hesla. Tyto katalogy nahrazuje v průběhu 90. let automatizovaný knihovní systém. K tvorbě klíčových slov se přistoupilo v roce 1995. V roce 2002 dokončila knihovna retrospektivní konverzi fondu, nově v knihovním systému Clavius, který již pracoval s klíčovými slovy jako s hlavním prostředkem předmětové katalogizace a předsunul je tak před předmětová hesla. Některé starší části fondu však zůstaly bez přidělených klíčových slov. Knihovní systém Clavius a jeho starší verze patří společně se systémem ALEPH ke dvěma nejpoužívanějším knihovním systémům v České republice. Jedná se o kompletní správu paměťové organizace od akvizice, katalogizace, výpůjčních služeb, revize až po vyřazení dokumentů. Systém Clavius začala firma vyvíjet před deseti lety, tedy v roce 1998, na základě zkušeností s předchůdcem tohoto systému Lanius. Základ Lania vzniká již v roce 1992, tehdy samozřejmě pro operační systém MS DOS. Základem vytváření klíčových slov v Knihovně Jiřího Mahena v Brně je obsahová analýza. Oddělení katalogizace Knihovny Jiřího Mahena v Brně nevlastní a nepracuje interně s žádným vlastním ani cizím dokumentem, který by standardizoval postupy při přiřazování klíčových slov
dokumentům v průběhu procesu katalogizace. Dle vyjádření vedoucího pracovníka jsou zavedené postupy této části katalogizace předávány novým pracovníkům ústně při zaučení v pracovním kolektivu. Klíčová slova v Knihovně Jiřího Mahena v Brně mají přirozený pořádek slov v sousloví. Čtenář se tedy setkává s přirozeným tvarem sousloví, například americká literatura" nikoliv literatura americká" Použití jednotného a množného čísla není jednotné, většinou se však používá číslo množné například psi" nikoliv pes", koně" nikoliv kůň", spisovatelé" nikoliv spisovatel", a hudební skupiny" nikoliv hudební skupina". Příkladem jednotného čísla je ovšem například průvodce", písmo" či pohřební roucho". Určitá disparita, která však samotné vyhledávání v katalogu knihovny nikterak neovlivňuje, je patrná v samé podobě klíčového slova. Někdy je totiž použito velké počáteční písmeno, jindy zase malé. Jedná se například o pojmy: Poklady" či poklady", Viola" či viola" a další. Využití relátorů při tvorbě klíčových slov je patrné například z výrazů černošská hudba (americká)", já (filozofie)", já (psychologie)" a zejména z klíčových slov označující místní názvy jako Kaaden (Česko)" nebo Peterburg (Rusko)". Narazit lze také na nehomogennost v pohlaví. Nalezneme tedy slova violoncellisté" i violoncellistky", policisté" i policistky", spisovatelé" i spisovatelky". Dotazy katalogu je možno zadávat pomocí webového rozhraní, které je přístupno 24 hodin denně na webové prezentaci Knihovny Jiřího Mahena v Brně a samozřejmě pomocí interní sítě v budově ústřední knihovny a na jejích pobočkách. Klíčová slova jsou přidělována jak beletrii tak naučné literatuře. Synonymie by měla být v ideálním případě řešena zařazením všech synonym. V knihovně Jiřího Mahena to tak vždy není. Několik vybraných pojmů porovná následující tabulka. Termín Počet přiřazených dokumentů počítačové programy 260 software 124 legislativa 48 zákony 354 budovy 78
domy 264 ochrana životního prostředí ekologie 90 520 V Knihovně Jiřího Mahena v Brně se setkáme i s vágními klíčovými slovy. Příkladem je například klíčové slovo vznik", které je přiděleno rovným 497 dokumentům, klíčové slovo činnost" použité v 496 dokumentech či klíčové slovo události" využité 340krát. Metodologie sběru dat V následujících kapitolách budu hodnotit jak uživatelé informačního systému hledají své informace a dokumenty. Pro výzkum informačních požadavků čtenářů využiji data, která informační systém ukládá po každé operaci na serveru. Informační systém Clavius nezpracovává konkrétní statistiku jednotlivých dotazů, které přijdou na server skrze elektronický knihovní katalog (OPAC). K účelu své práce jsem tedy nucen využít nezpracovaná data, která se průběžně ukládají do pracovního adresáře. Tato data je nejprve nutno očistit" od irelevantních informací. Konkrétní záznam dotazu pak obsahuje následující znaky: cc 02.06.08 08:11:27 89.103.131.47 h~=&~&dd=8&~&h1=&~&v1=z&~&p1=65&~&h2=&~&v2=z&~&p2=19&~&h3=rekonstrukce& ~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39 Z tohoto záznamu je patrné datum, přesný čas položení dotazu a IP adresa uživatele. Řetězec následující po těchto záznamech obsahuje informace o konkrétním dotazu. Znaky H1 až H5 označují dotazovací pole. V poli H1 je například možno vyhledávat z údajů o autorech zatímco v poli H3 v klíčových slovech. Tento konkrétní dotaz tedy obsahoval jediné slovo v poli H3 a to rekonstrukce", na který čtenář obdržel 226 výsledků. Následující tabulka popisuje všechna základní vyhledávací pole. H1 Autor H2 Název H3 Klíčové slovo H4 Signatura - kmen
H5 Libovolné pole Data jsou zkoumána za období neděle 1. června až pondělí 2. června 2008. První záznam byl uložen v 19.04 hodin a poslední v 11.36. Záměrně bylo vybráno období, kdy server není maximálně zatížen, jelikož množství záznamů ve špičce je velmi vysoký. I tak byl počet návštěvníků značný. Počet dotazů a jejich statistika Za období šestnácti a půl hodiny zaznamenal server, kromě ostatních požadavků na prodloužení výpůjček nebo zjištění stavu čtenářského konta celkem 860 konkrétních informačních dotazů. V základním a nejpoužívanějším vyhledávání je možnost volit z pěti polí, konkrétně z autora, názvu dokumentu, klíčového slova, signatury dokumentu a libovolného pole. V rozšířeném vyhledávání přibývá dalších 24 možných vyhledávacích polí. Ve většině případů však uživatelé volí ze základního vyhledávání. Zajímavou informací je počet dotazů do pole klíčová slova. Základní odhad byl velmi nízký. Předpokládal jsem, že jen velmi málo čtenářů a zákazníků využívá vyhledávání pomocí klíčových slov. Prostým součtem dotazů, které měly vyplněné pole klíčových slov, jsem zaznamenal 123 kusů. Procenty vyjádřeno se jedná o 14,3 % čtenářů, kteří využili oborové vyhledávání v katalogu. V naprosté většině případů se jedná o jednoslovná vyjádření bez dalších doplňujících údajů jako například: pop art, účetnictví, sfragistika, anglická literatura, skutečné příběhy či funkcionalismus. Konkrétní příklady chybného vyhledávání V následující části textu shrnu základní chyby ve vyhledávání pomocí klíčových slov na konkrétních případech a navrhnu správné řešení. Rozšíření dotazu Nejčastější nástrahou vyhledávání je rozšíření a zúžení dotazu. Pokud se po zadání dotazu nezobrazí čtenáři žádný nebo jen málo relevantních dokumentů, je třeba rozšířit dotaz. Prakticky to znamená, najít nadřazený, obecnější termín, který by rozšířil obor zájmu. Praktickým příkladem je čtenář, který zadal následující dotaz: bb 02.06.0800:59:41 147.229.196.174 h~=&~&dd=8&~&h1=&~&v1=z&~&p1=65&~&h2=&~&v2=z&~&p2=19&~&h3=kombucha& ~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39 Jediným vyplněným polem je pole klíčového slova kombucha". Kombucha je houba pocházející z jihovýchodní Asie, ze které se připravují léčivé přípravky, zejména nápoje. Čtenář při svém hledání bohužel nerozšířil svůj dotaz a jakmile systém nevyhledal žádný dokument s klíčovým slovem kombucha" zanechal vyhledávání. Správným řešením mělo však být rozšíření informačního dotazu například o klíčová slova
alternativní léčba" či léčitelství". Podobný problém nastal například čtenáři, který se snažil nalézti dokumenty vztahující se k želvě Karetce novoguinejské" a vyplnil pouze klíčové slovo slovem karetka". Na svůj dotaz opět nenalezl žádný dokument. Zúžení dotazu Opačným případem je zúžení dotazu. Zúžení využijeme, pokud na dotaz obdržíme příliš mnoho výsledků. V takovém případě je nutné dotaz zpřesnit zadáním podřazeného termínu. bb 02.06.0810:12:43 195.47.13.194 h~=&~&dd=2&~&h1=&~&v1=z&~&p1= 65&~&H2=&~&V2=z&~&P2=19&~&H3=román&~&V3=z&~&P3=40&~&H4=&~&V4= r&~&p4=34&~&h5=&~&v5=z&~&p5=39 V tomto dotazu se nachází dvě pochybení. Prvním z nich je jednotné číslo v klíčovém slově román" a druhým je šířka položeného dotazu. Vzhledem k faktu, že Knihovna Jiřího Mahena v Brně katalogizuje i dokumentu krásné literatury, existuje více než 1000 dokumentů obsahující toto klíčové slovo. Pokud použijeme klíčové slovo, které je méně obecné například historické romány" nebo detektivní romány" počet nalezených dokumentů se sníží. Druhou možností je doplnění dalších dotaz doplňujících klíčových slov. Nesprávná formulace klíčového slova Prekoordinované a postkoordinované selekční jazyky se od sebe liší velmi často délkou lexikální jednotky. Postkoordinované, jejichž lexikum obsahuje většinou samostatná slova nebo jen krátká slovní spojení, jsou zpravidla kratší než slovní spojení prekoordinovaných. Toto pravidlo si dostatečně neuvědomil zadavatel tohoto informačního dotazu. A 02.06.0809:56:01 80.188.178.2 h~=&~&dd=8&~&h1=&~&v1=z&~&p1=65&~&h2=&~&v2=z&~&p2=19&~&h3 =zpívaná státní hymna&~&v3=z&~&p3=40&~&h4=&~& V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39 Dotaz byl zadán opět pouze jedním klíčovým slovem a to: zpívaná státní hymna". Čtenář je zřejmě zvyklý na fulltextové vyhledávání, kde není problém zadat takto komplikovaný dotaz, ale toto klíčové slovo se v databázi nevyskytuje. Ke správnému řešení problému je třeba rozdělit toto klíčové slovo na kratší jazykové útvary jako: státní hymny", Česká republika" či vokální interpreti". Na škodu jistě nebude i specifikace druhu dokumentu na zvukové nosiče. Záměna polí Častým jevem je také záměna polí. Příkladem může být například záznam dotazu: cb 01.06.08 21:36:28 78.136.171.124
h~=&~&dd=14&~&h1=smetana&~&v1=z&~&p1=65&~&h2=&~&v2=z&~&p2=19& ~&H3=ma vlast&~&v3=z&~&p3=40&~&h4=&~&v4=r&~&p4=34&~&h5=&~&v5= z&~&p5=39 Zde čtenář chybně zadává do pole klíčových slov název díla Bedřicha Smetany Má vlast". Po takovémto chybném zadání nevyhledá systém žádný výsledek. Důvodem k takovému jednání může být nepozornost i nepochopení významu jednotlivých polí. Nesprávný pravopis v dotazu Jednou ze základních chyb ve formulaci dotazu do katalogu je zadání nesprávného pravopisného tvaru slova. Konkrétními příklady jsou nejčastěji vynechaná písmena či neznalost správného pravopisu zejména u slov cizího původu. Jednotné nebo množné číslo dotazu Drobnou chybou, i když s fatální dopadem je nesprávná formulace čísla klíčového slova. Ve většině institucí se využívá čísla množného, i když to není vždy podmínkou. Příkladem může být dotaz: cb 02.06.0809:11:25 89.103.38.94 h~=&~&dd=5&~&h1=&~&v1=z&~&p1=65&~&h2=&~&v2=z&~&p2=19&~&h3 =kůň&~&v3=z&~&p3=40&~&h4=&~&v4=r&~&p4=34&~&h5=&~&v5=z&~&p5=39 Zde čtenář hledá dokumenty o koních, ale použije jednotné číslo klíčového slova kůň". Na tento dotaz obdrží ovšem pouze jediný dokument. Při změně čísla klíčového slova je již situace zcela jiná a výsledkem je 327 různých záznamů v databázi. Tentokrát čtenář situaci správně vyhodnotil a hned dalším dotazem zadal klíčové slovo v množném čísle. Ne každý čtenář však k tomuto poznatku dospěje. Invertovaný slovosled klíčového slova Jak již zaznělo výše, výhodou klíčových slov je, že jsou formulovány v co nejpřirozenějším tvaru vzhledem k uživatelům. Z tohoto důvodu se většinou ponechávají v přirozeném neinvertovaném tvaru. Následující čtenář však použil klíčové slovo kytara klasická" namísto přirozenějšího klasická kytara". cba 02.06.0808:31:11 89.24.5.36 h~=&~&dd=2&~&h1=&~&v1=z&~&p1=65&~&h2=&~&v2=z&~&p2=19&~&h3=kytara klasická&~&v3=z&~&p3=40&~&h4=&~&v4=r&~&p4=34&~&h5=&~&v5=z&~&p5=39 Synonymie Synonymie násobí vyhledané dokumenty a nechtěně obohacuje seznam výsledků o pro uživatele irelevantní záznamy databáze. Konkrétním příkladem je opět vyhledávací pokus jednoho ze čtenářů. ab 02.06.0809:54:10 88.103.113.27
h~=&~&dd=8&~&h1=&~&v1=z&~&p1=65&~&h2=&~&v2=z&~&p2=19&~&h3 =překlad&~&v3=z&~&p3=40&~&h4=&~&v4=r&~&p4=34&~&h5=&~&v5=z&~&p5=39 Klíčové slovo překlad" není šťastně zvolené a navíc v sobě obsahuje synonymii. Může se totiž jednat o překlad z cizího jazyka, například od konkrétního autora, i o stavební prvek. Jednoduchým řešení tohoto problému je použití dalšího velmi obecného klíčového slova například stavebnictví". Po zadání obou klíčových slov získáme relevantní dokumenty. Statistika chybných informačních požadavků Na základě předešlého rozčlenění chyb ve vyhledávání čtenářů Knihovny Jiřího Mahena v Brně jsem sestavil následující tabulku, která popisuje četnost konkrétních pochybení. Poslední položkou je opakování chyb, která znázorňuje pouze výčet záznamů v databázi se stejnou chybou od stejného autora. Pro samostatnou statistiku tento údaj není důležitý. Chyba Počet případů percentuelní vyjádřen správně položené dotazy 79 64.7% jednotné číslo v dotazu 13 10,6% záměna polí 6 4,9% nesprávná formulace klíčového sova 5 4,1% příliš široký dotaz 4 3,3% příliš uzký dotaz 2 1,6% nesprávný pravopis v dotazu 2 1,6% invertovaný slovosled 1 0,8% synonymie 1 0,8% 10 8,1% opakování chyb Z předešlé tabulky je patrné, že ze 123 dotazů se správně podařilo formulovat dotaz 79krát, což je 64% všech dotazů. Nejvyšší zastoupení chybovosti je v jednotném a množném čísle, které je následováno záměnou polí a nesprávnou formulací klíčového sova.
Závěr Ve své práci jsem se pokusil formulovat, jakým způsobem čtenáři vyhledávají v knihovním katalogu. Důvodem byla snaha o získání informací, které by napomohly vytvořit dokument, který Knihovna Jiřího Mahena v Brně v současné době postrádá. Tímto dokumentem je souhrn základních pravidel tvorby klíčových slov, aby nedocházelo k rozdílným pojetím jejich tvorby. Dalším dokumentem, který by mohl na základě této práce vzniknout je krátký text seznamující čtenáře se způsoby vyhledávání v knihovním katalogu, který by specifikoval základní principy tvorby klíčových slov a doporučení ke správné formulaci dotazu. Použitá literatura Webová prezentace Knihovny Jiřího Mahena v Brně [online]. 2004 [cit. 2008-06-10]. Dostupný z WWW: <http://www.kjm.cz/>. Webová prezentace firmy LANius s.r.o [online]. [2001], 08.04.2008 [cit. 2008-05-14]. Dostupný z WWW: <http://www.clavius.cz/>. Pinkas, Otakar, 1942-. Zpracování informačních fondů. Sešit č. 1. Praha : Oeconomica, 2002. 206 s. ISBN 80-245-0447-2. LANius s.r.o.. Clavius 5.0. [počítačový program]. Tábor : LANius s.r.o, 2007. [cit. 2008-06-10]. Výroční zpráva Knihovny Jiřího Mahena v Brně [online]. Brno : Knihovna Jiřího Mahena v Brně, 2001 [cit. 2008-06-10]. Dostupný z WWW: <http://www.kjm.cz/doc/2001.doc>. VELIČKOVÁ, Helena. Klíčová slova a vybrané znaky MDT : Nové selekční jazyky v VKOL - setkání teorie a praxe v sytému ISIS. Knihovní obzor : Čtvrtletník Vědecké knihovny v Olomouci [online]. 1993, roč. 1, č. 3 [cit. 2008-06-10]. Dostupný z WWW: <http://dig.vkol.cz/obzory/933_06.htm>. ISSN 1214-6498. Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2001-. Dostupné z: http://www.nkp.cz [cit. 19. 2. 2005] RÖSSLEROVÁ, Ivana. Klíčová slova jako nástroj třídění. Webové stránky Ivany Rösslerové [online]. 2002 [cit. 2008-06-10]. Dostupný z WWW: <http://www.kkvysociny.cz/private/ivana/klic_slova.htm >. SEO není věda!. Dlouhý web : Příručka pro všechny tvůrce moderního webu [online]. 2004 [cit. 2008-06-10]. Dostupný z WWW: <http://www.vitdlouhy.cz/weblog/2004/07/seo-neni-veda.php%3e. STRENKOVÁ, Jana. Indexování dokumentů na základě tezauru. KIVI : Knihovnictví a informační věda informuje [online]. 2004 [cit. 2008-08-10]. Dostupný z WWW: < http://www.phil.muni.cz/kivi/clanky.php?cl=40&rubrika=clanky
Štítky: klasifikace, selekční jazyky, Knihovna Jiřího Mahena