Data mining pro Terminologickou databázi knihovnictví a informačních věd (TDKIV) (Projektová dokumentace) Vojtěch Pudil (Vedoucí projektu) Petr Kohout (Zástupce vedoucího projektu) Dana Čapkovičová (Člen projektového týmu) Kamil Jersák (Člen projektového týmu) Martin Liška (Člen projektového týmu) Libor Musil (Člen projektového týmu) 1
Historie revize dokumentu Datum Autor Úprava 5. 4 2010 Dana Čapkovičová 2. 5 2010 Dana Čapkovičová Vytvoření dokumentu Zadání a cíl projektu Technická dokumentace řešení projektu o Analýza struktury dodaných dat o Řešení projektu PHP webová stránka 4.1.3.2 - Zobrazení nalezených výsledků hledání - přidáno 4.1.3.3 - Zobrazení konkrétního výsledku hledání přidáno 4.1.5.1. Obecné hledání dat - přidáno 4.1.5.2. Četnost jednotlivých hledaných výrazů - SearchQuery_Type - přidáno 4.1.5.3. Četnost jednotlivých hledaných výrazů - ScanQuery_Type - přidáno 9. 5. 2010 Dana Čapkovičová Technická dokumentace 12. 5. 2010 Dana Čapkovičová Technická dokumentace - pokračování 13. 5. 2010 Dana Čapkovičová Finální revize, předáno PM pro doplnění 2
Obsah 1. Použitá terminologie a zkratky...5 2. Zadání a cíl projektu...5 2.1. Zadavatel...5 2.2. Zadání projektu...5 2.3. Cíle projektu...5 Harmonogram (postup) řešení projektu - plán a skutečnost...6 3. Technická dokumentace řešení projektu...7 3.1. Analýza struktury dodaných dat...7 3.1.1. Formát dodaných dat...7 3.1.2. Primární analýza dat...8 3.1.2.1. Výstupy od projektového týmu...8 3.1.2.2. Výstupy od Zadavatele projektu...10 3.1.3. Analýza uživatelského rozhraní vyhledávače...11 3.1.3.1. Základní vyhledávání...11 3.1.3.2. Zobrazení nalezených výsledků hledání...12 3.1.3.3. Zobrazení konkrétního výsledku hledání...12 3.2. Řešení projektu...15 3.2.1. PHP webová stránka...15 3.2.1.1. Práce s uživatelským rozhraním...15 3.2.1.2. Technická dokumentace...17 3.2.2. DB storky...17 3.2.2.1. Obecné hledání dat...17 3.2.2.1.1. Četnost dle typů vyhledávání pro SearchQuery_Type...17 3.2.2.1.2. Četnost hledání v jednotlivých bázích (Base)...18 3.2.2.1.3. Četnost jednotlivých událostí (Event)...18 3.2.2.2. Četnost hledaných výrazů v logu pro SearchQuery_Type...19 3.2.2.2.1. Hledání EXACT MATCH...19 3.2.2.2.2. Hledání dle prvních 5 znaků zleva...19 3.2.2.2.3. Hledání bez diakritiky...20 3.2.2.2.4. Rozdělení dne do 30 minutových úseků...21 3.2.2.2.5. Počet vyhledávání za každý den, týden, měsíc...23 3.2.2.2.6. Přiřazení hledaných výrazů k jednotlivým položkám databáze...24 3
3.2.2.2.7. Četnost hledaných výrazů, které nebylo možné přiřadit k žádné položce v databázi 25 3.2.2.3. Četnost jednotlivých hledaných výrazů - ScanQuery_Type...26 4. Jmenovitý podíl jednotlivých členů týmu na řešení projektu...27 5. Problémy, s nimiž se tým setkal při řešení projektu...38 6. Přínos projektu pro členy týmu...38 4
1. Použitá terminologie a zkratky TKDIV - Terminologická databáze knihovnictví a informační vědy NK Národní Knihovna 2. Zadání a cíl projektu 2.1. Zadavatel Zadavatelem projektu je Terminologická databáze knihovnictví a informační vědy (TDKIV) ve spolupráci s PhDr. Helenou Kučerovou v Praze. Česká terminologická databáze působící v oblasti knihovnictví a informační vědy. TDKIV vznikla v letech 2001-2002 za podpory grantu Ministerstva kultury ČR. Databáze je spravována Knihovnickým institutem Národní knihovna ČR; obsahuje cca 2800 hesel tvořených cca 4200 termíny, které reprezentují všechny podstatné oblasti knihovnictví a informační vědy a souvisejících disciplín. 2.2. Zadání projektu Data mining pro Terminologickou databázi knihovnictví a informační vědy. 2.3. Cíle projektu Prvotním cílem projektu je identifikace termínů ve Slovníku TKDIV, které nejsou uživateli vyhledávána a proto by měla být z databáze odstraněna. Kromě prvotního cíle byly v průběhu diskusí se zadavatelem identifikovány následující druhotné cíle projektu: Identifikovat výrazy, které byly ve Slovníku vyhledávány, ale nebyly nalezeny (ve Slovníku neexistuje odpovídající záznam, či propojení termínů). Toto by mělo sloužit jako podklad pro možné rozšíření množství výrazů ve slovníku. Identifikovat nejčastěji vyhledávané výrazy Identifikovat nejčastěji využívané způsoby vyhledávání Identifikovat možné chyby v systému Identifikovat kdy je databáze nejvíce vytížená... a mnohé další... 5
3. Harmonogram (postup) řešení projektu - plán a skutečnost V první fázi došlo ke kontaktování zadavatele. Byla domluvená schůzka, na které jsme formovali požadavky zadavatele projektu. V druhé fázi došlo na rozdělení práce podle schopností jednotlivých členů týmu a postup prací na nich. V polovině projektu jsme řešili drobné problémy se zadavatelem a postupně dodělávaly projekt. Rozdělení a doba trvání jednotlivých prací je vidět na přiloženém grafu. 6
4. Technická dokumentace řešení projektu 4.1. Analýza struktury dodaných dat 4.1.1. Formát dodaných dat Data byly Zadavatelem projektu dodána v podobě dat exportovaných z databáze ve formě textového souboru. Figure 1 - Dodaná data Vzhledem ke strukturovanosti dokumentu, bylo možné data jednoduše importovat do programu MS Excel. Takto importovaná data bylo možno již podrobit jednoduché analýze pomocí použití základních funkcí programu MS Excel (filtrování, vyhledávání ). Figure 2 - Rozdělená data 7
4.1.2. Primární analýza dat Na základě primární analýzy dat, byly nalezeny základní informace o vyhledávaných datech, avšak, objevilo se mnohem více otázek, nežli odpovědí. 4.1.2.1. Výstupy od projektového týmu TIMESTAMP EVENT BASE význam: časová známka přiklad: 2010011320414702 -> RRRRMMDDHHMMSSSS význam: neznámy (způsob vyhledávání v dané bázi?) použité hodnoty: 21, 22, 25, 29 o hodnoty 21, 25 se vyskytuji pouze při vyhledávání v bázi KTD 21 - při vyhledávání jako SEARCH_QUERY (Free-text, termín, třídění KKL) 25 - při vyhledávání jako SEARCH_QUERY (vyhledávání dle dvou kritérií) Třídění KKL= "s" AND Free-text= informační and slu Třídění KKL= "s" AND Třídění KKL= "informační and o hodnota 29 - při vyhledávání jako SCAN_QUERY (všechny možnosti) - báze KTD, KTDP o hodnota 22 - při vyhledávání jako SEARCH_QUERY (Termín, sys) termín malý počet výskytů, pouze 2 vyhledávané řetězce termín = Absenční výpůjčka termín = referen? slu? (pouze jeden výskyt) sys - vždy pouze jako kód / číslo - pouze dva vyhledávané řetězce sys= 000001371 sys= 1931 (pouze jeden výskyt) význam: neznámý - nejspíše prohledávaná databáze použité hodnoty: KTD, KTDBN, KTDN, KTDP SEARCH_QUERY význam: neznámý struktura výstupu: způsob vyhledávání + hledaný vyraz možnost vyhledávat jako: 8
HITS o free-text - libovolný text zadaný do vyhledávacího formuláře o termín způsob vyhledávání neznámý o term / TERM - způsob vyhledávání neznámý o sys / SYS - způsob vyhledávání neznámý o třídění KKL - způsob vyhledávání neznámý pravděpodobný význam: počet záznamů odpovídajících danému vyhledávajícímu kriteriu SCAN_QUERY Otázky pravděpodobný význam: neznámý struktura výstupu: způsob vyhledávání + hledaný výraz / pojem / jméno... příklady výstupu: TR = Revize, TR = muzikoterapie etc. o AU = ; většinou AU = nějaké jméno (-> Autor?) o KZ = ; většinou KZ = nějaké jméno (???) o LK = ; většinou LK = nějaké jméno (???) o TE = ; většinou TE = nějaký technický termín (???) o TK = ; většinou TK = nějaká zkratka (???) o TR = ; většinou TR = nějaký termín (???) Jaký je rozdíl mezi Search_Query a Scan_Query? Jakým způsobem vyhledává uživatel v databázi? Jak vypadá uživatelské rozhraní vyhledávače? o Jaké možnosti vyhledávání má uživatel? Free-text vs. Vyhledávání dle kritérií o Může uživatel volit mezi bázemi ve kterých chce vyhledávat? Je k dispozici kompletní seznam pojmů ve Slovníku? Je k dispozici plná verze Slovníku? Ideálně ve formátu jako export z databáze. co konkrétné znamenají následující pojmy / zkratky... o Event, Base, Search query, Scan query Event: 21, 22, 25, 29 Base: KTD, KTDBN, KTDN, KTDP Search query: free-text, termín, term, sys, třídění KKL Scan query: AU, KZ, LK, TE, TK, TR 9
4.1.2.2. Výstupy od Zadavatele projektu Zjištěné skutečnosti byly diskutovány se Zadavatelem projektu a projektovému týmu byly poskytnuty dodatečné informace, které zodpověděly většinu otázek. TIME_STAMP - časový údaj hledání (rok+měsíc+den+hodina) EVENT - událost; níže jsou uvedeny kódy událostí: 10 - hledání - záznamy nalezeny 11 - hledání - dosaženo limitu 12 - hledání - záznamy nenalezeny 20 - vyhledávání z více polí (find-a) 21 - základní vyhledávání (find-b) 22 - vyhledávání CCL (find-c) 23 - pokročilé vyhledávání (find-d) 24 - vyhledávání z více bází (find-m) 25 - zpřesnit dotaz 26 - kombinovat dotaz 29 - vyhledávání v rejstřících BASE - v jaké bázi bylo provedeno hledání KTD - oficiální báze KTDP - pracovní báze KTDBN - dílčí báze Termíny bez normativního výkladu KTDN - dílčí báze Termíny s normativním výkladem SEARCH_QUERY - vyhledávání (kromě vyhledávání v rejstřících - viz SCAN_QUERY); v jakém poli jaké slovo bylo hledáno HITS - v kolika záznamech se hledané slovo vyskytuje; (při vyhledávání v rejstřících jsou HITS vždy nula) SCAN_QUERY - vyhledávání v rejstřících (když je pouze např. TR=, tak dotyčný nenapsal nic nebo napsal mezeru) TR - termín/ekvivalent TE - anglický ekvivalent TK - věcná skupina AU - autor hesla RE - redaktor hesla KZ - konzultant hesla 10
LK - lektor hesla ZD - zdroj/norma Od Zadavatele jsme získali několik odkazů na webové stránky, které by nám mohly pomoci v dalším zpracovávání projektu: http://sigma.nkp.cz/f/2flmkb3clfh4t7r8s84lmykhpaan1c3mj488qag6d2vfc3 PBVQ-51082?func=file&file_name=find-b&local_base=KTD http://www.nkp.cz/o_knihovnach/slovnik/index.htm http://vydavatelstvi.vscht.cz/katalog/uid_isbn-80-7080-599-4 (ukázka slovníku) Dále se nám podařilo od zadavatele získat plný seznam termínů, které slovník obsahuje, což nám dále posloužilo pro další dolování dat. 4.1.3. Analýza uživatelského rozhraní vyhledávače Vyzkoušet si na vlastní kůži, jak uživatelé používají Slovník a Vyhledávač jsme vyhodnotili jako nejlepší způsob, jak porozumět datům, které máme doposud k dispozici. Slovník je dostupný na www stránkách Národní Knihovny, konkrétně: http://sigma.nkp.cz:4505/f/?func=file&file_name=find-a&local_base=ktd Vyhledávač Slovníku umožňuje dva základní způsoby vyhledávání: Základní vyhledávání Prohlížení rejstříků 4.1.3.1. Základní vyhledávání 11
Pro vyhledávání způsobem Základního vyhledávání je třeba vyplnit: Údaj pro vyhledávání (způsob vyhledávání: Free-text, Termín / ekvivalent, Třídník, Systémové číslo) Slovo nebo slovní spojení Blízkost slov (vyhledávat přesné či podobné znění výrazu) 4.1.3.2. Zobrazení nalezených výsledků hledání Poté co proběhne vyhledávání v databázi, systém zobrazí seznam výsledků odpovídajících zadaným kritériím vyhledávání. Uživatel má možnost si dále ze seznamu výsledků vybrat jeden konkrétní a zobrazit si o něm bližší informace. 4.1.3.3. Zobrazení konkrétního výsledku hledání Existují tři druhy zobrazení konkrétního výsledku hledání: Standardní o Nejpodrobnější zobrazení obsahující veškeré dostupné informace o daném termínu (viz. Ukázka níže) Termín & výklad o Zjednodušené zobrazení obsahující pouze název termínu a jeho výklad (plus několik dalších základních informací, které však mají pouze spíše katalogizační charakter) Termín & angl.ekvivalent o Zjednodušené zobrazení obsahující pouze český a anglický název termínu (anglický ekvivalent termínu) 12
Termín Termín anglicky klíčové slovo keyword key word Výklad termínu Normativní výklad Významové slovo nebo slovní spojení, obvykle ve formalizované podobě, vybrané z názvu nebo textu dokumentu a sloužící jako věcný selekční údaj. [HARROD-1990:346] [KATUŠČÁK,MATTHAEIDESOVÁ,NOVÁKOVÁ-1998:177] [SCHWARZ-1999:11] [SMETÁČEK-1984:88] [ČSN ISO 5127-6,1994:7] Významové slovo převzaté z názvu nebo textu dokumentu s cílem reprezentovat jeho obsah. [ČSN ISO 5127-2003] Slovo nebo skupina slov, případně v lexikograficky standardizované formě, vybraných z názvu nebo z textu dokumentu, charakterizující jeho obsah a umožňující jeho vyhledávání. [výklad z neplatné normy] [ČSN ISO 5127-6,1994] Zdroj výkladu HARROD-1990:346 KATUŠČÁK,MATTHAEIDESOVÁ,NOVÁKOVÁ-1998:177 SCHWARZ-1999:11 SMETÁČEK-1984:88 ČSN ISO 5127-6,1994:7 Zdroj norm.výkladu ČSN ISO 5127-2003 13
ČSN ISO 5127-6,1994 Příbuzný termín deskriptor názvový katalog odvozená indexace předmětový selekční jazyk rotovaný rejstřík uniterm Autor hesla Lektor hesla Redaktor hesla Balíková, Marie Hrazdil, Aleš Schwarz, Josef Burgetová, Jarmila Systém. číslo 000001563 14
4.2. Řešení projektu 4.2.1. PHP webová stránka Byla vytvořena webová stránka, která umožňuje zobrazit výrazy hledané v určitém časovém úseku. Nejmenší možný časový interval je jedna hodina. Náš jednoduchý vyhledávač neumožňuje vyhledávání podle data, pouze zobrazuje termíny vyhledávané v daném časovém intervalu nezávisle na datu vyhledávání. 4.2.1.1. Práce s uživatelským rozhraním Naše webová stránka je dostupná na této adrese: http://projektpis.borec.cz/projekt.php. Existují dvě možnosti vyhledávání: Zobrazení statistiky vyhledávání v určitém časovém intervalu (per hledaný výraz) Zobrazení celkové statistiky vyhledávaní (per hledaný výraz) Pro zobrazení statistiky pro určitý časový interval, si uživatel musí vybrat počátek časového intervalu Od a konec časového intervalu Do. Po zadání těchto základních kritérií vyhledávání uživatel potvrdí svou volbu stlačením tlačítka Vyhledat, na základě které, webová stránka zobrazí statistiky pro vybraný časový interval. Webová stránka taktéž umožňuje zobrazení jednoduché statistiky pro všechny časová období (= celý datový vzorek, který jsme dostali k prozkoumání). Pro zobrazení celkové statistiky vyhledávání, uživatel musí zvolit jako oba časové parametry hodnotu Vše. 15
Jako výsledek vyhledávání webová stránka zobrazí na prvním řádku výsledku celkový počet výrazů vyhledávaných v daném časovém intervalu. Níže jsou zobrazeny data pro jednotlivé vyhledávaná slova v daném časovém intervalu. 16
4.2.1.2. Technická dokumentace Data byla importována do Excelu, kde byla následně exportována do.csv formátu. Z tohoto souboru byly data následně importovány do tabulky, která již byla připravena v SQL databázi. Tato databáze je napojena na naši webovou stránku a vyhledávání probíhá pomocí dotazů napsaných v jazyku PHP. Vyhledávání funguje na principu dotazu na databázi s dle potřeby upravitelnými časovými parametry, které se předávají z formuláře do PHP části do proměnných, s těmi se pak dále pracuje a provedou se nutné podmínky pro vyhledávání, díky čemuž se pak následný dotaz na databázi stává dynamickým a ne statickým. Tento dotaz nám vrátí jednotlivé výrazy ze sloupce vyhledávání SEARCH_QUERY, které jsou následně předány do proměnné a pomocí PHP spojeny do jednoho textového řetězce, řetězec je následně rozdělen na jednotlivá slova, u nichž je poté spočtena jejich četnost a provádí se seřazení a výpis. 4.2.2. DB storky Pro data mining bylo definováno zadání uvedené níže. Jelikož nesprávným používáním systému mohly vzniknout duplicitní záznamy, je třeba provést data mining dvojí: V potaz budou brána veškerá data v logu V potaz budou brána pouze data očištěná o možné duplicity: o v případě, že pro ten samý výraz existuje vice záznamů, kde je časový rozestup jednotlivých vyhledávání kratší než 2 minuty, započítej výskyt pouze jednou Dále v projektové dokumentaci jsou uvedeny pouze některé výstupy a mnohdy pouze jejich části. Kompletní výstupy jsou k nalezení v přílohách projektu. 4.2.2.1. Obecné hledání dat 4.2.2.1.1. Četnost dle typů vyhledávání pro SearchQuery_Type Definice dotazu Počet hledaných výrazů při použití vyhledávání v databázi pro každý způsob vyhledávání typu SearchQuery. Získaná data (ukázka) Search_Query_Type_1 Count Free-text 6837 Term 1481 Třídění KKL 59 sys 30 Česky 3 Celkem 8410 Interpretace získaných dat 17
Uživatelé nejčastěji používají jako způsob vyhledávání Free-text a Term či Termín. Četnost ostatních způsobů vyhledávání je oproti těmto způsobům celkem zanedbatelná. 4.2.2.1.2. Četnost hledání v jednotlivých bázích (Base) Definice dotazu Počet hledaných výrazů v jednotlivých bázích v databázi vyhledávání typu SearchQuery. Získaná data (ukázka) Base Count KTD 8391 KTDP 17 KTDN 1 KTDBN 1 Celkem 8410 Interpretace získaných dat Uživatelé nejčastěji využívají k vyhledávání dat bázi KTD. Četnost vyhledávání v ostatních bázích je oproti bázi KTD celkem zanedbatelná. 4.2.2.1.3. Četnost jednotlivých událostí (Event) Definice dotazu Počet hledání, která končí danou událostí. Získaná data (ukázka) Event Count 21 8372 22 22 25 16 Celkem 8410 Interpretace získaných dat Jako nejčastější událost při vyhledávání SearchQuery byl nalezen typ 21 základní vyhledávání (find-b). Dále byly nalezeny události 22 vyhledávání CCL (find-c) a 25 zpřesnit dotaz. Pro ScanQuery vyhledávání mají záznamy uloženu událost 29 vyhledávání v rejstřících. Z toho plyne, že některé typy událostí během námi sledovaného období nebyly zaznamenány. Toto může mít několik důvodů. Dva nejpravděpodobnější jsou: Událost opravdu nenastala a proto nebyla uložena. Událost nastala, ale chybou v systému nebyla uložena nebo místo ní byla uložena událost jiná. Pro tuto hypotézu svědčí i následující fakt: 18
o V logu existují vyhledávání, pro které nebyl nalezen žádný výsledek, avšak ani u takovýchto vyhledávání není uložena událost 12 hledání záznamy nenalezeny. 4.2.2.2. Četnost hledaných výrazů v logu pro SearchQuery_Type 4.2.2.2.1. Hledání EXACT MATCH Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání EXACT MATCH. Získaná data (ukázka) Search_Query_Type_1 Count Hits_min Hits_max akvizice 142 5 14 rešerše 108 25 40 bibliografie 87 35 53 knihovna 67 79 109 monografie 61 2 9 informace 56 47 215 čtenář 53 5 11 databáze 51 29 73 Internet 44 5 19 anotace 42 11 20 dokument 40 41 212 informační gramotnost 40 1 4 digitalizace 34 1 3 NULL 32 0 1 katalog 31 69 77 OPAC 31 1 3 citace 30 8 15 Digitální knihovna 29 1 2 abstrakt 28 9 13 akviziční činnost 28 0 0 Interpretace získaných dat Většina nejčastěji vyhledávaných výrazů v databázi existuje (existují Hits). Dále záznam NULL nastiňuje možnost, že uživatelské rozhraní umožňuje vyhledávání prázdných výrazů. Toto by bylo vhodné ošetřit kontrolou obsahu pole pro zadání vyhledávaného výrazu před tím, než samotné vyhledávání skutečně proběhne. 4.2.2.2.2. Hledání dle prvních 5 znaků zleva 19
Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání stejných 5 znaků zleva. Získaná data (ukázka) Search_Query_Type_1 Count Hits_min Hits_max infor 544 0 598 bibli 355 0 89 kniho 233 0 421 akviz 203 0 14 rešer 186 0 40 digit 138 0 59 elekt 97 0 62 dokum 96 0 212 monog 73 0 9 anota 43 0 20 Interpretace získaných dat Dotazy do databáze se nejčastěji týkají informací. Toto nebylo z předcházejících hledání patrné, jelikož hledání týkajících se informací je sice mnoho, ale slovo informace je použito v různých spojeních a formách (přídavné jméno atd.) na rozdíl ostatních nejčastěji vyhledávaných výrazů, které jsou uživateli většinou vyhledávány ve stejném tvaru. 4.2.2.2.3. Hledání bez diakritiky Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání stejných slov zbavených veškeré diakritiky. Získaná data (ukázka) Bez diakritiky Vyhledávání s diakritikou Search_Query_Type_1 Count Search_Query_Type_1 Count akvizice 142 akvizice 142 reserse 108 rešerše 108 bibliografie 87 bibliografie 87 knihovna 67 knihovna 67 monografie 61 monografie 61 informace 56 informace 56 ctenar 53 čtenář 53 databaze 52 databáze 51 informacni system 44 Internet 44 Internet 44 anotace 42 anotace 42 dokument 40 Informacni gramotnost 42 informační gramotnost 40 20
dokument 40 digitalizace 34 digitalizace 34 NULL 32 NULL 32 katalog 31 katalog 31 OPAC 31 OPAC 31 citace 30 akvizicni cinnost 30 Digitální knihovna 29 citace 30 abstrakt 28 Digitalni knihovna 29 akviziční činnost 28 Interpretace získaných dat Uživatelé používají k vyhledávání často i výrazy zbavené diakritiky. Vyhledávání v databázi však vyhledává jak slova s diakritikou, tak bez diakritiky, takže toto zjištění nemá žádné důsledky. 4.2.2.2.4. Rozdělení dne do 30 minutových úseků Definice dotazu Počet vyhledávaných výrazů v 30-minutových intervalech. Cílem tohoto hledání je najít dobu, kdy je databáze nejvíce vytížená. Získaná data seřazeno dle denní doby Time Count AVG Time Count AVG 0:00:00 58 1,035714 12:00:00 284 5,071429 0:30:00 23 0,410714 12:30:00 290 5,178571 1:00:00 12 0,214286 13:00:00 266 4,75 1:30:00 21 0,375 13:30:00 374 6,678571 2:00:00 44 0,785714 14:00:00 238 4,25 2:30:00 46 0,821429 14:30:00 300 5,357143 3:00:00 24 0,428571 15:00:00 325 5,803571 3:30:00 7 0,125 15:30:00 370 6,607143 4:00:00 8 0,142857 16:00:00 366 6,535714 4:30:00 16 0,285714 16:30:00 407 7,267857 5:00:00 1 0,017857 17:00:00 285 5,089286 5:30:00 3 0,053571 17:30:00 250 4,464286 6:00:00 2 0,035714 18:00:00 307 5,482143 6:30:00 7 0,125 18:30:00 259 4,625 7:00:00 20 0,357143 19:00:00 220 3,928571 7:30:00 49 0,875 19:30:00 187 3,339286 8:00:00 187 3,339286 20:00:00 196 3,5 8:30:00 135 2,410714 20:30:00 181 3,232143 9:00:00 262 4,678571 21:00:00 228 4,071429 9:30:00 291 5,196429 21:30:00 198 3,535714 10:00:00 328 5,857143 22:00:00 166 2,964286 10:30:00 336 6 22:30:00 89 1,589286 21
11:00:00 300 5,357143 23:00:00 77 1,375 11:30:00 316 5,642857 23:30:00 51 0,910714 Získaná data seřazeno vytížení databáze Time Count AVG Time Count AVG 16:30:00 407 7,267857 19:30:00 187 3,339286 13:30:00 374 6,678571 8:00:00 187 3,339286 15:30:00 370 6,607143 20:30:00 181 3,232143 16:00:00 366 6,535714 22:00:00 166 2,964286 10:30:00 336 6 8:30:00 135 2,410714 10:00:00 328 5,857143 22:30:00 89 1,589286 15:00:00 325 5,803571 23:00:00 77 1,375 11:30:00 316 5,642857 0:00:00 58 1,035714 18:00:00 307 5,482143 23:30:00 51 0,910714 11:00:00 300 5,357143 7:30:00 49 0,875 14:30:00 300 5,357143 2:30:00 46 0,821429 9:30:00 291 5,196429 2:00:00 44 0,785714 12:30:00 290 5,178571 3:00:00 24 0,428571 17:00:00 285 5,089286 0:30:00 23 0,410714 12:00:00 284 5,071429 1:30:00 21 0,375 13:00:00 266 4,75 7:00:00 20 0,357143 9:00:00 262 4,678571 4:30:00 16 0,285714 18:30:00 259 4,625 1:00:00 12 0,214286 17:30:00 250 4,464286 4:00:00 8 0,142857 14:00:00 238 4,25 6:30:00 7 0,125 21:00:00 228 4,071429 3:30:00 7 0,125 19:00:00 220 3,928571 5:30:00 3 0,053571 21:30:00 198 3,535714 6:00:00 2 0,035714 20:00:00 196 3,5 5:00:00 1 0,017857 Získaná data prodlevy mezi vyhledáváními All rows 8:00-20:00 Top10 30MIN interval AVG_SearchDiffTime AVG_SearchDiffTime AVG_SearchDiffTime 568 312 110 Interpretace získaných dat Databáze je nejméně využívaná mezi 03:00 a 07:00 ráno. Nejvíce je databáze využívána mezi 10:00 a 22:00. Naprostá špička pak nastává mezi 15:00 a 17:30. To že databáze je značně využívaná i v nočních hodinách svádí k myšlence, že databáze je hojně využívána nikoliv pouze zaměstnanci knihoven, ale také studenty. 22
Průměrná prodleva mezi všemi hledáními činí 568 vteřin. Průměrná prodleva mezi hledáními mezi 8.00 a 20.00 činí 312 vteřin. Průměrná časová prodleva v 10 nejvytíženějších časových intervalech činí 110 vteřin. 4.2.2.2.5. Počet vyhledávání za každý den, týden, měsíc Definice dotazu Počet vyhledávání v databázi TKDIV za každý den, týden a měsíc. Získaná data denní přehled Day Count Day Count Day Count 1.1.2010 112 20.1.2010 230 8.2.2010 226 2.1.2010 254 21.1.2010 180 9.2.2010 148 3.1.2010 148 22.1.2010 78 10.2.2010 181 4.1.2010 166 23.1.2010 121 11.2.2010 93 5.1.2010 410 24.1.2010 165 12.2.2010 115 6.1.2010 306 25.1.2010 167 13.2.2010 88 7.1.2010 163 26.1.2010 103 14.2.2010 201 8.1.2010 174 27.1.2010 98 15.2.2010 263 9.1.2010 98 28.1.2010 165 16.2.2010 64 10.1.2010 93 29.1.2010 185 17.2.2010 101 11.1.2010 243 30.1.2010 33 18.2.2010 141 12.1.2010 190 31.1.2010 40 19.2.2010 51 13.1.2010 135 1.2.2010 169 20.2.2010 52 14.1.2010 212 2.2.2010 236 21.2.2010 63 15.1.2010 125 3.2.2010 141 22.2.2010 140 16.1.2010 59 4.2.2010 197 23.2.2010 154 17.1.2010 115 5.2.2010 134 24.2.2010 118 18.1.2010 190 6.2.2010 135 25.2.2010 129 19.1.2010 209 7.2.2010 103 Získaná data seřazeno dle dne v týdnu Den Total Po 1564 Út 1514 St 1310 Čt 1280 Pá 974 So 840 Ne 928 Získaná data týdenní přehled Week Count 23
2009/53 514 2010/1 1410 2010/2 1079 2010/3 1173 2010/4 791 2010/5 1115 2010/6 1052 2010/7 735 2010/8 541 Získaná data měsíční přehled Month Count 2010/1 4967 2010/2 3443 Interpretace získaných dat Databáze je nejvíce využívaná v pondělky a úterky. Databáze byla nejméně využívána těsně po Novém roce a nejvíce využívána během počátku ledna po skončení vánočních prázdnin. 4.2.2.2.6. Přiřazení hledaných výrazů k jednotlivým položkám databáze Definice dotazu Četnost jednotlivých hledaných výrazů. Hledané výrazy jsou párovány pomocí databázového způsobu vyhledávání stejných 5 znaků zleva. Získaná data (ukázka) EXACT MATCH 24
Interpretace získaných dat Dotazy do databáze se nejčastěji týkají informací. Toto nebylo z předcházejících hledání patrné, jelikož hledání týkajících se informací je sice mnoho, ale slovo informace je použito v různých spojeních a formách (přídavné jméno atd.) na rozdíl ostatních nejčastěji vyhledávaných výrazů, které jsou uživateli většinou vyhledávány ve stejném tvaru. 4.2.2.2.7. Četnost hledaných výrazů, které nebylo možné přiřadit k žádné položce v databázi Definice dotazu Počet vyhledávání jednotlivých výrazů, které nebylo možno přiřadit k žádné položce v databázi. Získaná data (ukázka) Search_Query_Type_1 Count Hits_min Hits_max akviziční činnost 28 0 0 dokumentografie 20 0 0 informační potřeba 18 0 0 uživatel rešeršních služeb 18 0 0 repozitář 17 0 0 reprograficá služba 17 0 0 informacni system 16 0 0 velká británie 16 0 0 dds 14 0 0 browse 12 0 0 grafie 12 0 0 BIBLIO 11 0 0 informační profese 11 0 0 odborné databáze 11 0 0 refektář 11 0 0 věcné autority 11 0 0 otevřený přístup 10 0 0 alerts 9 0 0 audiokniha 9 0 0 Interpretace získaných dat Část vyhledávaných výrazů, ke kterým nebyl nalezen žádný výsledek v databázi se nějakým způsobem týkají nejvíce vyhledávaných výrazů, které svůj ekvivalent v databázi mají. Toto svádí k myšlence, že by bylo vhodné revidovat Ekvivalenty termínů v databázi a tyto hledané výrazy přiřadit k termínům jako ekvivalenty. 25
4.2.2.3. Četnost jednotlivých hledaných výrazů - ScanQuery_Type Četnost jednotlivých vyhledávaných výrazů rozdělené dle ScanQuery_Type (vše seřazeno DESC) o Hledání EXACT MATCH o Hledání SOUND LIKE o Hledání dle prvních 5 znaků zleva Hledání bez diakritiky 26
4.2.2.4. Četnost hledání v jednotlivých bázích Četnost jednotlivých vyhledávaných výrazů rozdělený podlé báze 27
4.2.2.5. Četnost jednotlivých událostí Počet hledání, která končí danou událostí 28
4.2.2.6. Četnost jednotlivých hledaných výrazů Nejčastěji vyhledávané výrazy s minimálním a maximálním množstvím nalezených položek 29
4.2.2.7. Hledání výrazů bez a s diakritikou Změny v počtu vyhledaných dotazů, když se nepoužije diakritika 30
4.2.2.8. Hledání dle prvních 5 znaků zleva Počet vyhledávaných výrazů a nalezených položek, pokud bereme v potaz pouze prvních pět písmen 31
4.2.2.9. Celková četnost hledání v třicetiminutových intervalech Rozdělení dne do 30 minutových úseků 32
4.2.2.10. Vytížení databáze běhen dne Vytížení databáze v průběhu dne, rozděleno od nejvyšší až po nejvyšší vytížení 33
4.2.2.11. Denní přehled Celkový počet dotazů v jednotlivých dnech za sledované období 34
4.2.2.12. Řazení dle dne v týdnu Celkové množství vyhledávaných výrazů v jednotlivých dnech týdne 35
4.2.2.13. Týdenní a měsíční přehled Množství vyhledávaných výrazů v jednotlivých týdnech Množství vyhledávaných výrazů v lednu a v únoru 2010 36
4.2.2.14. Četnost hledaných výrazů, které nebylo možné přiřadit k žádné položce v databázi Nejčastěji vyhledávané výrazy, u kterých nebyla nalezena žádná položka v databázi 37
5. Jmenovitý podíl jednotlvých členů týmu na řešení projektu Vojtěch Pudil (Vedoucí projektu) Řízení projektu, organizace, dokumentace, práce v excelu Petr Kohout (Zástupce vedoucího projektu) Práce v excelu, grafy Dana Čapkovičová (Člen projektového týmu) Dokumentace, DB storky, práce v excelu Kamil Jersák (Člen projektového týmu) Práce v excelu, grafy Martin Liška (Člen projektového týmu) Webové rozhraní pro databázi v PHP Libor Musil (Člen projektového týmu) Webové rozhraní pro databázi v PHP 6. Problémy, s nimiž se tým setkal při řešení projektu Občasné problémy při komunikaci se zadavatelem projektu, prvotní rozdělení prací. 7. Přínos projektu pro členy týmu Největším přínosem pro členy týmu bylo ověření schopností získaných na této škole, částečně ty schopnosti jak by mohl vypadat projekt v praxi, dále si tým znovu zopakoval práci v programu Excel a to důkladně, procvičení práce s Wordem a databázemi. Zjistili jsme, že databáze je nejméně využívaná mezi 03:00 a 07:00 ráno. Nejvíce je databáze využívána mezi 10:00 a 22:00. Naprostá špička pak nastává mezi 15:00 a 17:30. To že databáze je značně využívaná i v nočních hodinách svádí k myšlence, že databáze je hojně využívána nikoliv pouze zaměstnanci knihoven, ale také studenty. Průměrná prodleva mezi všemi hledáními činí 568 vteřin. Průměrná prodleva mezi hledáními mezi 8.00 a 20.00 činí 312 vteřin. Průměrná časová prodleva v 10 nejvytíženějších časových intervalech činí 110 vteřin. 38