Odborná terminologie knihovnictví a informační vědy očima uživatelů databáze TDKIV Předběžné výsledky projektu. Helena Kučerová VOŠIS Praha

Podobné dokumenty
Slovníkové databáze Knihovnického institutu Národní knihovny ČR - TDKIV a KZK. Bc. Jaroslava Havlová, DiS. PhDr. Anna Machová

Data mining pro Terminologickou databázi knihovnictví a informačních věd (TDKIV) (Projektová dokumentace)

Data mining v Terminologické databázi. knihovnictví a informační vědy (TDKIV)

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Podnikové informační systémy

Vzorové příklady SQL. Tabulka: Kniha CREATE TABLE kniha (id INTEGER, název VARCHAR(50), PRIMARY KEY (id))

MS Access Dotazy SQL


Úvod do databázových systémů 3. cvičení

FAKULTA STAVEBNÍ STUDIJNÍ PROGRAM: GEODÉZIE A KARTOGRAFIE TYP PROGRAMU: MAGISTERSKÝ STUDIJNÍ OBOR: GEOMATIKA ÚVOD DO ZPRACOVÁNÍ PROSTOROVÝCH DAT

Maturitní témata z předmětu PROGRAMOVÉ VYBAVENÍ pro šk. rok 2012/2013

Česká terminologická databáze knihovnictví a informační vědy. Bc. Jaroslava Citová, DiS. Národní knihovna ČR Knihovnický institut

KIV/ZIS - SQL dotazy. stáhnout soubor ZIS- 04_TestovaciDatabaze accdb. SQL dotazy. budeme probírat pouze SELECT

KIV/ZIS cvičení 6. Tomáš Potužák

DJ2 rekurze v SQL. slajdy k přednášce NDBI001. Jaroslav Pokorný

2. blok část B Základní syntaxe příkazů SELECT, INSERT, UPDATE, DELETE

B0M33BDT Technologie pro velká data. Supercvičení SQL, Python, Linux

Úvod do databázových systémů

Informační systémy ve zdravotnictví. 10. cvičení

Úvod do SQL v systému SAS Martin Branda

Obsah. SQL konstrukce select join Rekurze (rekurzivní with) Analytické funkce, group by Pivoting

Úvod do databázových systémů

6. SQL složitější dotazy, QBE

Informační systémy ve zdravotnictví. 8. cvičení

POUŽITÍ GIS V PRÁCI KRAJSKÉ HYGIENICKÉ STANICE na příkladu KHS LK

Analýza a modelování dat 6. přednáška. Helena Palovská

RELAČNÍ DATABÁZOVÉ SYSTÉMY

Co bude výsledkem mého SELECTu? RNDr. David Gešvindr MVP: Data Platform MCSE: Data Platform MCSD: Windows Store MCT

Databáze SQL SELECT. David Hoksza

Inovace a zkvalitnění výuky prostřednictvím ICT. Základní seznámení s MySQL Ing. Kotásek Jaroslav

Materializované pohledy

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MySQL základní pojmy, motivace Ing. Kotásek Jaroslav

Architektury databázových

Databázové a informační systémy

TimescaleDB. Pavel Stěhule 2018

Studentský projekt NapNak výtah z projektových zpráv (fáze I. až IV.)

IDS optimalizátor. Ing. Jan Musil, IBM ČR Community of Practice for

Kurz Databáze. Obsah. Dotazy. Zpracování dat. Doc. Ing. Radim Farana, CSc.

Projekt LR 1308 NL 4 HSS Národní knihovna rozvoj informační infrastruktury VaVaI pro humanitní obory

Analýzy v GIS. Co se nachází na tomto místě? Kde se nachází toto? Kolik tam toho je? Co se změnilo od? Co je příčinou? Co když?

7. Integrita a bezpečnost dat v DBS

7. Integrita a bezpečnost dat v DBS

ÚVOD DO DATABÁZÍ. Metodické listy pro předmět

210 mm. Rekvalifikační kurs Národní technické knihovny. Jmenná katalogizace II. Mgr. Hana Vyčítalová

1. Relační databázový model

Jazyk S Q L základy, příkazy pro práci s daty

Úvod do databázových systémů

Optimalizace dotazů a databázové transakce v Oracle

Marian Kamenický. Syntea software group a.s. marian.kamenicky. MFFUK Praha 2012/13

Informační systémy 2008/2009. Radim Farana. Obsah. Dotazy přes více tabulek

Databázové systémy. Doc.Ing.Miloš Koch,CSc.


Úvod do databázových systémů

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

DATA ARTICLE. AiP Beroun s.r.o.

Knihovna - definice. Paměťové instituce 2. Knihovny - typy. Knihovny - typy. (Legislativa)

SQL. strukturovaný dotazovací jazyk. Structured Query Language (SQL)

Aktuální stav a vývoj e-publikací a projektu NAKI

A METODOLOGICKÉ PROBLÉMY TERMINOGRAFIE: POZNATKY DATABÁZE KNIHOVNICTVÍ. Josef Schwarz. Základní terminologické a teoretické otázky

Discovery systém v AV ČR. Jaroslav Meixner oddělení EIZ KNAV 17. června 2013

Optimalizace plnění a aktualizace velkých tabulek. Milan Rafaj, IBM

Správa a rozvoj DRG v České republice

KIV/ZIS - SELECT, opakování

Datové modelování II

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev

CRS komunikační rozhraní

Jaký je rozdíl v definicicíh VARCHAR2(20 BYTE) a VARCHAR2(20 CHAR):

Jak dál a jak lépe? Budoucnost softwarových řešení digitalizace a dlouhodobého uložení v kontextu zkušeností z projektu NDK.

Sto tisíc e-dokumentů na dosah. Hana Nová Jindřiška Pospíšilová

Databázové systémy, MS Access. Autor: Ing. Jan Nožička SOŠ a SOU Česká Lípa VY_32_INOVACE_1130_Databázové systémy, MS Access_PWP

SQL v14. 4D Developer konference. 4D Developer conference 2015 Prague, CZ Celebrating 30 years

Informační systémy 2008/2009. Radim Farana. Obsah. Jazyk SQL

Workshop k terminologickým otázkám organizace znalostí Motivace a hypotézy projektu. Cíl projektu NAKI DF13P01OVV013

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 8

Západočeská univerzita v Plzni Katedra informatiky a výpočetní techniky. 9. června krovacek@students.zcu.cz

Databázové systémy. Cvičení 6: SQL

KIV/ZIS Základy informačních systémů

8.2 Používání a tvorba databází

Vzorová úloha 1: Prokažte znalosti aplikace Microsoft Access na zvolené ukázkové databázi.

DATA CUBE. Mgr. Jiří Helmich

Bibliografický popis elektronických publikací v síti knihoven ČR

Ožehavé problémy normalizace a užívání české terminologie v geoinformatice. Doc. Ing. Jiří Šíma, CSc. Praha

Informační systémy ve zdravotnictví. 6. cvičení

SQL SQL-SELECT. Informační a znalostní systémy. Informační a znalostní systémy SQL- SELECT

HARMONIZACE VĚCNÉ KATALOGIZACE V ČESKU: REALITA

Digitální knihovny v České republice

Tabulka fotbalové ligy

Databázové systémy II. KIV/DB2 LS 2007/2008. Zadání semestrální práce

RNDr. Michal Kopecký, Ph.D. Department of Software Engineering, Faculty of Mathematics and Physics, Charles University in Prague

Získávání znalostí z dat

Přenesená daňová povinnost

NÁVRH ZPRACOVÁNÍ DAT SCIO V PROSTŘEDÍ GIS

S M Ě R N I C E Ř E D I T E L E Š K O L Y MATURITNÍ PRÁCE (PROJEKT)

INDEXY JSOU GRUNT. Pavel Stěhule

Databáze I. 2. přednáška. Helena Palovská

Elektronické publikace v NK ČR. Mgr. Martin Žížala Národní knihovna ČR

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Databáze v praxi. RNDr. Ondřej Zýka Principal Consultant

Návrh a prototypová implementace databáze pro

Executive DBA - Corporate Law and Business Doctor of Business Administration

Dotazy v SQL. Výraz relační algebry R1( )[A1,A2,...,Aj] lze zapsat takto: SELECT A1,A2,...,Aj FROM R1 WHERE. Výraz (R1, R2... Rk)( )[A1,A2,...

Transkript:

Odborná terminologie knihovnictví a informační vědy očima uživatelů databáze TDKIV Předběžné výsledky projektu Helena Kučerová VOŠIS Praha 1

Cíl projektu: Využít metody kvantitativní analýzy k objevení nových poznatků a námětů, skrytých v uchovávaných uživatelských datech o vyhledávání v TDKIV. Zadavatel: Redakční rada TDKIV Řešitel: VOŠIS Praha 6členný studentský tým Termín: zimní semestr 2011/2012 2

Česká terminologická databáze knihovnictví a informační vědy Producent: grant MK ČR 2001 2002 NK ČR tým 50 autorů, lektorů a redaktorů Obsah: knihovnictví, knihověda, informační věda, informační technologie 3

TDKIV v číslech: rok vzniku: 2003 počet (preferovaných) termínů: 3 000 počet ekvivalentů (nepreferovaných termínů): 4 000 počet dotazů / rok: 53 000 počet vyhledávaných výrazů / rok: 12 000 počet uživatelů (UIP adres): 500 průměrná doba strávená v databázi: 1 2 minuty 4

Struktura terminologického hesla termín anglický ekvivalent ekvivalent (nepreferovaný termín) příbuzný termín výklad termínu (autorský / normativní) zdroj výkladu poznámka třídník (věcná kategorie) autor / konzultant / lektor / redaktor 5

Ukázka terminologického hesla 6

Možnosti vyhledávání v TDKIV Způsob vyhledávání vyhledávání SEARCH listování SCAN navigace Příbuzný termín Použitý index z více polí FREE TEXT z jednoho pole Zdrojová báze KTD KTDP Pracovní báze 7

Vyhledávání v TDKIV SEARCH 8

Listování v TDKIV SCAN 9

Navigace v TDKIV 10

Výzkumné otázky: Statistický rozbor a vizualizace: četnost hledaných a nalezených / nenalezených výrazů četnost způsobů vyhledávání čas vyhledávání rozdělení IP adres Data mining a business intelligence: příčiny neúspěšných dotazů společně hledané termíny 11

Metodika: korpusová terminografie kvantitativní analýzy, pokus o data mining (bibliomining) logy z vyhledávání v systému Aleph data za období březen 2010 srpen 2011 cca 80.000 záznamů MS SQL, dotazování v SQL 12

SELECT a.search_text as hledany_a, COUNT(a.search_text) as pocet_hledani, b.search_text as hledany_b FROM SEARCH_KTD a JOIN SEARCH_KTD b on a.cas = b.cas AND a.ip = b.ip and a.datum = b.datum WHERE a.search_text <> b.search_text AND a.hits <> 0 and b.hits <> 0 GROUP BY a.search_text, b.search_text, a.search_text+a.datum+a.cas, b.search_text+b.datum+b.cas HAVING COUNT(a.SEARCH_TEXT) > 5 13

Struktura dat čas zadání dotazu část IP adresy počítače, ze kterého byl dotaz zadán počet nalezených záznamů způsob vyhledávání (21 základní vyhledávání, 23 pokročilé vyhledávání, 29 vyhledávání v rejstřících ) prohledávaná báze (KTD, KTDP) vyhledávaný výraz 14

Vyhledávání podle měsíců 10000 9000 8000 7000 6000 5000 4000 celkem neúspěšné 3000 2000 1000 0 15

Vyhledávání podle dní 16000 15027 14000 12242 12787 12000 11910 10613 10000 8000 10066 8637 7325 6715 10705 Počet 6000 6184 5595 5766 Počet bez duplicit 4000 4759 2000 0 16

Čas vyhledávání 7000 6000 5000 4000 3000 2000 1000 0 17

Rozdělení uživatelů Vyhledávání v KTD: 42 701 vyhledávání (sessions) 4 264 (cca 10 %) vyhledávání z IP 195.113.xx (PASNET) počet vyhledávání počet IP adres SCAN SEARCH 6 026 80 % 28 134 80 % 80 % 50 21 % 112 24 % 20 % SCAN SEARCH 1 507 20 % 7 034 20 % 20 % 181 80 % 361 76 % 80 % 18

Nejvyhledávanější výrazy 19

Úspěšnost vyhledávání počet vyhledávaných výrazů 17 285 úspěch (>=1 hitů) 6 867 (cca 40 %) neúspěch (0 hitů) 10 326 (cca 60 %) 20

Nenalezené výrazy 1 překlep 2 doporučeno zařadit do TDKIV 3 věcně nerelevantní k TDKIV 4 nesprávný typ vyhledávání 5 jiný jazyk než čeština 21

Výrazy hledané společně 22

Předběžné shrnutí výsledků Potvrzeno: Kvantitativní metody mohou poskytnout jak náměty ke zkvalitnění použitelnosti a přístupnosti databáze, tak i přímé podněty k terminologické práci náměty na zařazení nových termínů nebo ekvivalentů do TDKIV klastry současně hledaných termínů umožňují nacházet sémantické vztahy odhaleny problémy k řešení: 2/3 vyhledávání končí neúspěchem 1/5 z nenalezených výrazů jsou překlepy významný podíl dotazů ve slovenštině dotazy na zkratky erata inforamční průmysl aldinky 23

A co na to studenti 24

Plány na další pokračování výzkumu: tvorba vícečetných klastrů ontologizace TDKIV (syntagmatické paradigmatické vztahy) porovnání vyhledávacích výrazů s termíny v databázi analýza vyhledávacích procesů opravdový data mining Další náměty? 25