Návrh a implementace informačního systému ve webovém frameworku Django



Podobné dokumenty
Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

PRODUKTY Tovek Server 6

ECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00)

MBI - technologická realizace modelu

Systém elektronického rádce v životních situacích portálu

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Znalostní systém nad ontologií ve formátu Topic Maps

PRODUKTY. Tovek Tools

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

PRODUKTY. Tovek Tools

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Business Intelligence

DOCUMENT MANAGEMENT TOOLKIT

Současný svět Projekt č. CZ.2.17/3.1.00/32038, podpořený Evropským sociálním fondem v rámci Operačního programu Praha adaptabilita

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Vzdělávací obsah vyučovacího předmětu

Počítačová Podpora Studia. Přednáška 5 Úvod do html a některých souvisejících IT. Web jako platforma pro vývoj aplikací.

ECM. Jaroslava Klegová

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

Publikování map na webu - WMS

Formy komunikace s knihovnami

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

Formáty a dlouhodobé uložení: Identifikace, extrakce a validace

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

Informační média a služby

Hospodářská informatika

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

RadioBase 3 Databázový subsystém pro správu dat vysílačů plošného pokrytí

MULTIMEDIÁLNÍ A HYPERMEDIÁLNÍ SYSTÉMY

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Maturitní projekt do IVT Pavel Doleček

Obsah přednášky. Představení webu ASP.NET frameworky Relační databáze Objektově-relační mapování Entity framework

Obsah. Rozdíly mezi systémy Joomla 1.0 a Systém Joomla coby jednička online komunity...16 Shrnutí...16

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Co je nového v aplikaci PaperPort 12?

Služby Microsoft Office 365

Úvod do tvorby internetových aplikací

GeoHosting. Martin Vlk. (vypusťte svoje data do světa) Help forest s.r.o. člen skupiny WirelessInfo 2008

Olga Rudikova 2. ročník APIN

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

Správa VF XML DTM DMVS Datový model a ontologický popis

Jakub Šesták. ESEJ DO PŘEDMĚTU DIGITÁLNÍ KNIHOVNY

CZ.1.07/1.5.00/

DIGITÁLNÍ MAPY. Přednáška z předmětu KMA/TKA. Otakar ČERBA Západočeská univerzita v Plzni

The bridge to knowledge 28/05/09

Microsoft SharePoint Portal Server Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

DATOVÁ ARCHIVACE. Principy datové archivace a její výhody při migraci na SAP HANA. Štěpán Bouda Business Consultant

1.1 Seznámení s programy Office

Databáze v MS ACCESS

Vzdálená správa v cloudu až pro 250 počítačů

Moderní techniky vývoje webových aplikací

Vzdělávací obsah předmětu

IBM Tivoli Storage Manager 6.2 a IBM Tivoli Storage Manager FastBack 6.1.1

ADMINISTRACE POČÍTAČOVÝCH SÍTÍ. OPC Server

Pro malé i obří projekty

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

ROZVOJ E-LEARNINGU NA 1. LF UK PRAHA


Analýza a Návrh. Analýza

PŘÍLOHA C Požadavky na Dokumentaci

Zpráva o zhotoveném plnění

Content management: organizace informací na webových stránkách. Petr Boldiš Studijní a informační centrum Česká zemědělská univerzita v Praze

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Intranet jako podpora řízení dopravní firmy

Nastavení provozního prostředí webového prohlížeče pro aplikaci

Informační systémy 2008/2009. Radim Farana. Obsah. Nástroje business modelování. Business modelling, základní nástroje a metody business modelování.

Návrh stránek 4IZ228 tvorba webových stránek a aplikací

INFORMAČNÍ SYSTÉMY NA WEBU

Návrh softwarových systémů - architektura softwarových systémů

local content in a Europeana cloud

DATABÁZE MS ACCESS 2010

IntraVUE Co je nového

Inovace výuky prostřednictvím šablon pro SŠ

Redakční systémy 1. pro správu obsahu

Specifikace požadavků. POHODA Web Interface. Verze 1.0. Datum: Autor: Ondřej Šrámek

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320 M A T U R I T N Í T É M A T A P Ř E D M Ě T U

Individuální projekt z předmětu webových stránek 2012/ Anketa

X33EJA Web Services. Martin Ptáček, KOMIX s.r.o.

Cloudové řešení pro ŠKODA AUTO


1. Integrační koncept

Architektury Informačních systémů. Jaroslav Žáček

Reporting a Monitoring

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320

Příprava dokumentů pro archivaci v souladu s platnou legislativou. Vladimír Střálka Adobe Systems Praha

Výměnný formát XML DTM DMVS PK

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Archivace relačních databází

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

PORTÁL STÁTNÍ ROSTLINOLÉKAŘSKÉ SPRÁVY VE SLUŽBÁCH

Máte to? Summon jako základní vyhledávací nástroj NTK

Úvod do aplikací internetu a přehled možností při tvorbě webu

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

Obsah. Zpracoval:

Úvod. Klíčové vlastnosti. Jednoduchá obsluha

Transkript:

Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informatiky a kvantitativních metod Návrh a implementace informačního systému ve webovém frameworku Django Vyhledávání digitálních zdrojů ve znalostním systému Bakalářská práce Autor: Komárek, Aleš Studijní obor: IM3 Vedoucí práce: Mgr. Filip Rubáček V Hradci Králové Duben 2010

Vyhledávání digitálních zdrojů ve znalostním systému Prohlášení Prohlašuji, že jsem svou bakalářskou práci vypracoval samostatně a použil pouze zdroje uvedené v přiloženém seznamu. V Hradci Králové dne 30. 4. 2010 Aleš Komárek ii

Vyhledávání digitálních zdrojů ve znalostním systému Poděkování Rád bych zde poděkoval všem, kteří mi pomáhali při tvorbě této práce. Zvlášť pak děkuji svému vedoucímu práce, Mgr. Filipu Rubáčkovi, za odbornou pomoc, podnětné rady a čas, který mi věnoval. iii

Vyhledávání digitálních zdrojů ve znalostním systému Anotace práce Cílem této bakalářské práce je vytvoření webové aplikace pro správu a vyhledávání digitálních zdrojů. Aplikace bude mít jasně definovanou sémantickou vrstvu, která je dostatečně pružná a spolupracuje s ostatními metadatovými standardy. Pro vytvoření a správu digitálních zdrojů je použité moderní uživatelské rozhraní. Zdroje jde lze procházet pomocí taxonomických a facetových klasifikací nebo vyhledávat podle zadaných výrazů. Annotation The goal of this bachelor thesis is creation of an application for management and retrieval of digital assets. Application shall have clearly defined semantic layer, which is flexible and interoperable with other metadata standards. Modern user interface components are user for creation and management of digital assets. Assets can be browsed by taxonomic and facet classifications or searched by inputted terms. iv

Vyhledávání digitálních zdrojů ve znalostním systému Obsah 1. Úvod... 1 2. Cíl a metodika práce... 2 Postup práce... 2 3. Teorie... 4 Systémy pro řízení podnikového obsahu... 4 Historie... 4 Vlastnosti... 6 Rozdělení... 8 Metadata... 9 Charakteristiky... 9 Metadatové standardy a specifikace... 10 Metadata multimedií... 11 Mapování metadatových schémat... 12 Katalogy a klasifikace... 12 Knihovní klasifikace... 12 Mezinárodní katalogy... 13 Internetové databáze... 14 Klientské technologie... 15 jquery... 15 Flash/FLEX... 16 Navigační schémata... 16 Taxonomické navigace... 16 Fulltextové vyhledávání... 18 v

Vyhledávání digitálních zdrojů ve znalostním systému Facetové navigace... 18 4. Analýza... 19 Datový model... 19 Definice datových typů... 19 Definice vlastností digitálních zdrojů... 19 Definice typů digitálních zdrojů... 24 Aplikační vrstva... 27 Získání... 27 Správa... 27 Doručení... 28 5. Vlastní implementace... 29 Software serveru... 29 Základní služby... 29 Doplňkové služby... 30 Python a Django... 30 Získání... 31 Nahrávání zdrojů... 31 Extrakce metadat... 32 Správa... 34 Seznam zdrojů... 34 Detail zdroje... 35 Uložení... 39 Zabezpečení... 39 Uložiště... 39 vi

Vyhledávání digitálních zdrojů ve znalostním systému Doručení... 39 Procházení... 39 Vyhledávání... 42 6. Závěr... 43 Seznam použité literatury... 44 vii

Kapitola 1. Úvod 1. Úvod Problematice popisu digitálních zdrojů se věnuji několik let. Během té doby jsem se pokoušel opakovaně vytvořit systém na správu obsahu. V té době jsem ani nevěděl, že existují specializované systémy na správu obsahu a k celé problematice přistupoval velmi laicky. Výsledkem této snahy byla řada víceméně použitelných redakčních systémů. Až pokrok Internetových technologií a nově získané zkušenosti ze studia na UHK mi pomohly vytvořit systém, který sedí popisu kvalitního systému na správu obsahu. Aplikace má moderní uživatelské rozhraní, kde lze pracovat s digitálními zdroji v celém jejich životním cyklu. V první části práce je popsána teorie, která mě motivovala zvolit použité technologie a standardy. V hlavní části práce následuje analýza a vlastní implementace aplikace. V závěru je pak shrnutí celého projektu. 1

Kapitola 2. Cíl a metodika práce 2. Cíl a metodika práce Cílem této bakalářské práce je vytvoření webové aplikace pro správu a vyhledávání digitálních zdrojů. Aplikaci je možné použít jako rozšiřující modul pro další Django aplikace. Má jasně definovanou sémantiku pro základní digitální zdroje. Aplikace v první řadě dovoluje shromáždit, uspořádat a prezentovat digitální zdroje. Pro vlastní popis digitálních zdrojů se použily informace z několika nejpoužívanějších metadatových standardů (Dublin Core, SCORM, XMP, LOM, a dalších). Správce má možnost nahrávat a upravovat metadatové záznamy (1) jednotlivých zdrojů a to ručně i automaticky použitím nástrojů. Pro koncové uživatele je připravené rozhraní s možností procházení, vyhledávání a zobrazování digitálních zdrojů (2). Procházení digitálních zdrojů se realizuje následujícími způsoby: Taxonomická navigace dovoluje členění zdrojů do hierarchických struktur. Facetová navigace umožňuje dynamicky filtrovat zdroje podle zadaných parametrů. Tagy jsou jednoduché značky pro označení zdrojů Fulltextové vyhledávání textových digitálních v textovém obsahu zdrojů. Postup práce Metadatový model aplikace vychází z existujících standardů, které se důkladně prozkoumaly. Nakonec byla vybrána sada základních elementů digitálních zdrojů. Tento postup umožnil vytvořit metadatové schéma, které lze jednoduše mapovat na ostatní systémy a je s metadatovými standardy kompatibilní. Pro shromažďování se zkoumala technologie, která by umožnily automatizaci tohoto procesu. Existují aplikace pro automatickou extrakci metadat i Internetové služby pro doplnění chybějících metadat. 2

Kapitola 2. Cíl a metodika práce Pro vlastní nasazení byl zvolen Django (3) framework. Tím odpadly některé problémy s návrhem, protože základní struktura aplikace je daná použitým frameworkem. Django využívá MVC architekturu, šablonovací systém a objektově relační mapování. Aplikace je v plném rozsahu nainstalovaná na lokálním virtuálním serveru, on-line je k dispozici na adrese http://skos.newt.cz/ pouze omezená verze bez integrace Apache Solr serveru. 3

Kapitola 3. Teorie 3. Teorie Vyvíjená aplikace má některé rysy ECM (řízení podnikového obsahu) systémů (4), proto je tento pojem popsán. Systémy pro řízení podnikového obsahu Definice řízení podnikového obsahu (ECM) pochází od sdružení Information and Image Management Internacional (AIIM). Z počátku roku 2008 je poslední definice: ECM představuje strategie, metody a nástroje používané k zachytávání, spravování, ukládání, uchovávání a poskytování obsahu a dokumentů vztahujících se k organizačním procesům. Tento pojem zahrnuje oblasti, které řeší manažerské zdroje a správu dokumentů. Zahrnují také problémy spojené s přechody mezi tradičními a digitálními médii. ECM nabízí řešení problematiky auditů, sdílení informací, personalizaci a standardizaci obsahu a problémů s tím spojených. Historie ECM systémy vznikly jako kombinace aplikací pro zachycení, vyhledávání a organizování informací s technologiemi pro správu obsahu, které se převážně zabývají archivací a správou digitálních dokumentů. Pojem Enterprise Content Management tedy odkazuje na řešení, které se soustředí na poskytování informací, zpravidla s využitím internetových technologií. Řešení obvykle obsahuje intranetové služby pro zaměstnance, ale také podnikové portály pro B2B komunikaci. Do této kategorie spadají také tradiční systémy pro správu dokumentů, které ještě nebyly převedeny pod architekturu ECM, ale již poskytují webová rozhraní k jednotlivým aplikacím. 4

Kapitola 3. Teorie Technologické komponenty, které zahrnují ECM systémy dnes, jsou potomci elektronických systémů pro správu dokumentů (EDMS), které byly vyvinuty koncem 80. a začátkem 90. let. Původní EDM systémy byly vyvíjeny jako samostatné technologie. EDM systémy řešily zobrazování dat, tok dat, správu dokumentů a ERM. Softwarové firmy vyvíjely nové produkty pro každou z těchto oblastí zvlášť. Typický uživatel těchto nových technologií byla organizace, ve které bylo nasazeno menší řešení pouze v jednom oddělení, aby se zde zlepšila kvalita opakujících se procesů a zahájila se migrace směrem k bezpapírové kanceláři. Každá z hlavních EDMS technologií představovala velkou výhodu pro mnoho organizačních procesů, protože v té době bylo mnoho pracovních procesů závislých na papíru. Z prvních samostatných EDMS technologií měli přínos hlavně organizace, které chtěly ušetřit čas nebo zlepšit dostupnost informací. Konkrétními přínosy byly: redukce manipulace s papírovými záznamy, zamezení chyb manuálního zpracování, snížení nákladů na skladování papírových záznamů, zrychlení přístupu k informacím, zefektivnění časové náročnosti podnikových procesů, zabezpečení přístupu k dokumentům a jejich úprava, možnost spolehlivého a přesného auditu. Ke konci 90. let všechna odvětví EDMS nadále rostla. Organizace chtěly využít více EDMS produktů najednou. Také se začalo více organizací prezentovat na Internetu. Chtěli se představit prostřednictvím internetu, což vyžadovalo, aby tento software plnil funkci správce webového obsahu. Organizace, se softwarem nainstalovaným v jednotlivých odděleních, začaly přemýšlet o využití těchto prostředků v rámci celého podniku. Obě strany trhu, jak zákazníci, tak poskytovatelé softwaru začaly vnímat strategický potenciál technologických komponent EDMS a pokusily se je sloučit do jednoho integrovaného řešení, které by bylo schopné řešit kompletně potřeby organizací ve všech oblastech řízení. 5

Kapitola 3. Teorie Firmy, které poskytovaly samostatné EDMS řešení, nebyly zpočátku nakloněny této integraci. Proto se v první fázi vývoj omezil pouze na tvorbu balíčků, které obsahovaly více systémů najednou za sníženou cenu. Na konci 90. let započal hlavní rozvoj softwaru a rostly jeho možnosti. Integrace produktů do jediného řešení se stala velkou výzvou pro mnoho firem. Proto se začal v roce 2001 používat termín Enterprise Content Management, který odkazuje na softwarová řešení, která slučují jednotlivé technologie EDM systémů. Teprve relativně nedávno vstoupili Microsoft a Oracle Corporation na trh ECM systémů. Microsoft nabízí produkt SharePoint od roku 2003. Oracle přestavil Oracle Content Management v roce 2006. Obě tyto firmy nabízejí řešení pro základní ECM funkce, které se pokrývají funkční požadavky většiny běžných organizací. Vlastnosti Enterprise Content Management není jedna technologie, je to strategie, která nemá uzavřené řešení. Proto jsou ECM technologie spolu s DRT (Document Related Technologies) nebo DLM (Document Lifecycle Management) považovány za jedno z možných řešení pro širokou škálu potencionálních požadavků. ECM systémy se používají pro správu informací bez ohledu na zdroj nebo použití. Výhodou je existence pouze jedné služby pro dané funkce, čím se zabrání zbytečné, drahé a náročné údržbě více paralelních funkcí. Infrastruktura technologie ECM podporuje použití specializovaných aplikací, které jsou podřízené službám. ECM je tedy v podstatě součástí infrastruktury, která zahrnuje všechny procesy související s manipulací, správou a dodávání strukturovaných dat i nestrukturovaných informací. V dnešní době jsou ECM systémy nezbytnou součástí ebusiness aplikací. Uložení Tato komponenta je navržena pro uložení dokumentů a informací, u nichž není nutné, aby se archivovaly. Pokud je třeba archivovat, je nutné použít média, která jsou pro to vhodná. Komponenty pro uložení lze roztřídit do několika skupin: 6

Kapitola 3. Teorie Repositáře Souborové systémy Databáze Datové sklady Skladovací technologie Magnetické pásky Digitální optická média Cloud Computing Uchování dat Komponenty pro uložení se zabývají hlavně uložením informací na dlouhou dobu, někdy je vidět pojem elektronické archivování. Všechny metody pro dlouhodobé ukládání nejsou ovšem elektronické. Možnosti pro dlouhodobé ukládání WORM optické disky a pásky Mikrofilmy Papír Doručení Funkce doručení se v ECM systémech používá pro prezentaci informací z komponent Správa, Uchování a Skladování. Obsahuje tyto funkce např. přenos informací do médií, generování výstupních souborů atd. Funkce doručení se dělí do tří skupin: Transformační technologie, Bezpečnostní technologie a Distribuce. Transformační technologie XML PDF 7

Kapitola 3. Teorie Bezpečnost Bezpečnostní technologie jsou k dispozici všem ECM komponentám. Technologie jako elektronické podpisy, správa certifikátů, klíčů, správa digitálních dat a vodoznaky se používají k ochraně datového obsahu. Zabezpečují tak práva k užívání a ochranu obsahu, který je zveřejněn na internetu. Distribuce Internet a intranet ebusiness portály E-mail Datový přenos pomocí XML, JSON nebo dalších formátů Datová média jako CD a DVD Papír Rozdělení Bližší přestavení hlavních komponent ECM technologií. Document Management (DMS) Správa dokumentů v elektronické podobě. Jde zřejmě o nejrozšířenější oblast ECM. Web Content Management System (WCMS) Zahrnuje řešení pro správu obsahu webových prezentací a aplikací. Digital Asset Management (DAM) Správa multimediálních dat. Jde o speciální oblast ECM, která navíc obsahuje podporu pro multimediální data. Nejde přitom pouze o fotografie nebo obrázky, ale i o video nebo audio záznamy. 8

Kapitola 3. Teorie Records Management (RM) Records Management se zabývá správou dokladů, tedy takových typů dokumentů, které se již nemohou změnit. Team Collaboration (TCM) Typické úlohy, které se těmito nástroji řeší, jsou například podpora jednání vrcholového vedení, zpracování nabídky, vývoj nového produktu nebo jeho uvedení na trh apod. Metadata Pojem metadata vychází z řeckého meta- = mezi, za + latinského data = to, co je dáno. Metadata tedy popisují vlastnosti určitého předmětu. Jinak řečeno jsou to strukturovaná data o datech. Metadata nám slouží k identifikaci jednotlivých digitálních zdrojů a k jejich snadnému vyhledání (1). Charakteristiky Charakteristiky kvalitního metadatového modelu pro popis elektronických zdrojů je možné rozdělit do následujících oblastí. Jednoduchost Záměrem metadatového modelu je, aby byl použitelný jak laiky, tak specialisty v oblasti popisu digitálních zdrojů. Většina prvků musí mít proto všeobecně srozumitelnou sémantiku přibližně ve složitosti knihovního katalogizačního lístku. Sémantická interoperabilita Různé popisné modely znemožňují možnost vyhledávání napříč různými obory v prostředí Internetu. Soubor metadatových značek aplikace byl vytvořen s ohledem na ostatní standardy pro určování obsahu dat a tím se zvýšila možnost sémantické interoperability s ostatními systémy. 9

Kapitola 3. Teorie Rozšiřitelnost Naše základní množina metadatových prvků poskytuje odlehčenou alternativu k podrobnějším a složitějším modelům popisu, jakými jsou například Learning Object Model nebo MARC formát. Navíc v sobě zahrnuje určitou flexibilitu a rozšiřitelnost pro kódování struktury a komplikovanější sémantiky, které jsou vlastní bohatším standardům popisu. Modifikovatelnost Každý metadatový prvek má definici, která je naprosto jasná. Je také ovšem nutné, aby definice prvků uspokojovaly potřeby rozdílných oborů. Tento cíl se dá splnit umožněním modifikovat každý prvek libovolným kvalifikátorem. Pokud není kvalifikátor přítomen, prvek má svůj všeobecně chápaný význam, jinak je definice prvku modifikována hodnotou kvalifikátoru. Metadatové standardy a specifikace Dnes existuje celá řada standardů pro metadatové značky, z nich bylo vybráno několik nejvýznamnějších, které se pak použily jako zdroj pro vytvoření standardu vlastního. Dublin Core Metadata Initiative (DC) Dublin Core (5) je metadatový standard pro popis digitálních objektů. Název vznikl podle města Dublin, Ohio (USA), ve kterém se konala konference, na které byl navržen. Záměrem Dublin Core je ulehčit vyhledávání elektronických zdrojů. Původně byl vytvořen pro popis zdrojů na web. Zaujal však instituce, které se zabývají formálním zpracováním zdrojů, jako jsou muzea, knihovny, některé vládní agentury a komerční organizace, začal se používat a nyní je používán ve více než 60 zemích. Sharable Content Object Reference Model (SCORM) SCORM (6) integruje řadu technických norem, specifikací a pokynů tak, aby splňovaly funkční požadavky ADL - dostupnost, interoperabilitu, dlouhou životnost, a znuvupoužitelnost. 10

Kapitola 3. Teorie Learning Object Model (LOM) Learning Object Model (7) je datový model, který popisuje výukové objekty a digitální zdroje pro podporu výuky. Rozšiřuje a doplňuje Dublin Core o mnoho vlastností. CanCore (8) je obsáhlá příručka, který názorně popisuje jednotlivé prvky LOM modelu. Metadata multimedií Různé multimediální formáty mají své metadatové záznamy. Mapování vlastností jednotlivých formátů na normalizované vlastnosti je důležitým prvkem aplikace. Obrázky U obrázků nejsou metadata nic nového. Fotoreportéři léta používají pro identifikaci metadata specifikovaná v IPTC (International Press Telecommunications Council) záznamech, díky kterým si mohou být jisti, že bude u jejich obrázků správně uveden zdroj. Digitální fotoaparáty vkládají množství užitečných metadat přímo do hrubého obrázkového souboru do EXIF (9) polí. Společnost Adobe se snaží využít svůj vliv k prosazení formátu XMP (10) (extensible Metadata Platform) jako zdokumentovaného, otevřeného a rozšiřitelného standardu pro tvorbu, ukládání a sdílení metadat. V poslední době prosazuje konsorcium W3C ontologii pro mediální zdroje (11). Digitální snímky jsou vybaveny množstvím metadat už přímo ve fotoaparátu, ale jeden z problémů je nadměrný počet proprietárních a často vzájemně nekompatibilních způsobů pro zápis a uchovávání těchto metadat. Výrobci fotoaparátů mají k dispozici velkou svobodu ke kódování důležitých informací do soukromých proprietárních polí v EXIF (9). Audio/video Audio formáty jsou zastoupeny v největší míře formátem MP3, který má metadata obsažené v ID3 značce (12). Ostatní audio formáty jako OGG nebo FLAC mají dobře zdokumentované metadatové schéma. 11

Kapitola 3. Teorie Video formáty prošly během let mnohem bouřlivějším vývojem než obrázky nebo audio formáty. Existuje velké množství způsobů pro ukládání audiovizuálního obsahu, každý se svým vlastním metadatovým záznamem. Kancelářské formáty V kancelářských formátech dominuje kancelářský balík Microsoft Office. MS Office s verzí 2007 opustil dosavadní formát souborů i metadatových záznamů, vytvořil formát založený na XML, který používá některé prvky z Dublin Core ve svém metadatovém záznamu. Kancelářský balík OpenOffice obsahuje od verze 1.1 metadatový záznam, který se hojně využívá Dublin Core (5) specifikaci. Mapování metadatových schémat Interoperabilita rozdílných metadatových schémat se řeší mapováním (13). Mapování přenáší určitou vlastnost jednoho schématu druhý. Může se stát, že se kvůli rozdílné sémantice schémat určitá část informací ztratí. Například při mapování ID3 značky se ztratí vlastnost Umělec (artist) místo toho ji nahradí obecnější vlastnost Autor (author). Cílem je tedy vytvořit formát, který by dokázal komunikovat s rozdílnými schématy s minimální ztrátou významu jednotlivých vlastností. Katalogy a klasifikace Lidé mají od nepaměti věci organizovat do různých skupin a kategorií. Přelomovým činem bylo vytvoření klasifikace rostlinné říše na základě pohlavních znaků, kdy bylo vůbec poprvé vytvořeno ucelené taxonomické členění, tak hojně používané dnes. Knihovní klasifikace Pro použití v knihovnách vzniklo několik klasifikací, které se snaží popsat existující vědomosti jedním rámcem, který by je všechny obsáhl. Tak jak se vyvíjí lidské poznání, tak se mění a rozšiřují i tyto klasifikace. Výhodou těchto klasifikací je to, že je vyvíjí zkušení experti. 12

Kapitola 3. Teorie V dnešní době nejpoužívanější knihovní klasifikace jsou Universal Decimal Classification a Dewey Decimal Classification. Universal Decimal Classification Universal Decimal Classification (14) je systém knihovní klasifikace vyvinutá belgickými bibliografy Paul Otletem a Henri La Fontainem na konci 19. století. Je založen na Dewey Decimal Classification, navíc ale používá pomocné znaky pro označení různých zvláštních aspektů předmětu a vztahů mezi subjekty. Obsahuje proto analyticko-syntetický neboli facetový prvek. Proto je používán především ve vědeckých knihovnách. MDT byla upravována a rozšiřována v průběhu let, aby se vyrovnala s pokroky ve všech disciplínách lidského vědění a je stále pod neustálým dohledem, aby mohla být případně aktualizována. Dewey Decimal Classification Dewey Decimal Classification (15) je proprietární systém knihovnické klasifikace. DDC vypracoval Melvil Dewey v roce 1876. Systém byl upraven a rozšířen v celkem 22 velkých revizí, poslední je z roku 2003. Systém organizuje knihy do regálů v určitém a opakovatelném pořadí, aby je bylo snadné najít a vrátit zpět na své správné místo. Tento systém se používá v 200.000 knihovnách ve více jak 135 zemích. Mezinárodní katalogy Mezinárodně akceptované katalogy unikátně popisující jedinečným způsobem knihy, časopisy, hudební média jsou v dnešním globálním světě nezbytností. Pokud známe jedinečný identifikátor daného zdroje, přináší nám to velkou výhodu, protože můžeme jednoduše dohledat ostatní informace. International Standard Book Number (ISBN) International Standard Book Number (mezinárodní standardní číslo knihy) je alfanumerický kód určený pro jednoznačnou identifikaci knižních vydání. ISBN je specifikováno mezinárodním standardem ISO 2108, v Česku je tento standard převzat jako ČSN ISO 2108. 13

Kapitola 3. Teorie Do roku 2007 měl ISBN kód deset cifer (devět významových a kontrolní číslici). Od 1. ledna 2007 byl kód rozšířen na třináct číslic, pro sjednocení s reprezentací ISBN v čárovém kódu a pro rozšíření kapacity systému. EAN prefix 978 byl doplněn o prefix 979, čímž kapacita stoupla na dvojnásobek. International Standard Serial Number (ISSN) ISSN (Mezinárodní standardní číslo seriálové publikace) je jednoznačný osmiciferný identifikátor periodické publikace (noviny, časopisy, včetně těch vycházejících online). ISSN je obdobou ISBN používaného pro knihy. Na rozdíl od ISBN však ISSN nemá žádnou vnitřní strukturu a nelze z něj zjistit žádné informace o publikaci. Je to pouze jednoduchý identifikátor. Internetové databáze Mimo mezinárodně uznávané katalogy existuje na internetu několik obecně uznávaných databází popisující digitální zdroje. Tyto zdroje často trpí problémy s financováním, to často vede ke komercializaci nebo ukončení služby. Internet Movie Database (IMDb) Internet Movie Database je on-line databáze informací o filmech, televizních pořadech, hercích, režisérech a všem, co s filmovou tvorbou souvisí. Databáze vznikla z Usenetové skupiny rec.arts.movies. Koncem roku 1990 už seznam obsahoval přes deset tisíc položek. Nakonec Col Needham, jeden z účastníků skupiny, zveřejnil sadu UNIXových skriptů, umožňující rychlé prohledávání tohoto seznamu. V roce 1993 bylo vytvořeno webové rozhraní pro přístup k databázi a vytvořena možnost doplňování informací e-mailem. Jak objem dat postupně rostl, provoz databáze začal být stále nákladnější. V roce 1996 byla ve Velké Británii založena společnost Internet Movie Database Ltd. Majitelé IMDb v roce 1998 prodali celý podnik společnosti Amazon.com za podmínky, že její obsah zůstane volně přístupný na Internetu. 14

Kapitola 3. Teorie Klientské technologie Technologie na straně klienta tvoří důležitou součást webových aplikací. Webové aplikace jsou vázané na prostředí webových prohlížečů a na jejich interpretaci Internetových standardů (HTML, CSS, EcmaScript). Cílem je vytvořit jednoduchou aplikaci s využitím moderních prostředků. Proto je použitá knihovna jquery (16) jako výchozí rámec pro práci s JavaScriptem. Pro některé dílčí věci je použitá technologie Flash. jquery jquery (17) je lehká javascriptová knihovna, která klade důraz na interakci mezi JavaScriptem a HTML. První verze byla vydána Johnem Resigem v lednu 2006. Výhoda použití javascriptové knihovny spočívá ve vymazání rozdílů mezi prohlížeči. Z funkcí jquery nás zajímají nejvíce: Funkce pro výběr, procházení a změnu DOM Události Manipulace s CSS AJAX Rozšiřující moduly Uživatelské komponenty jquery UI jquery UI poskytuje abstrakci pro interakce, animace, efekty a komponenty. Používá se k vytvoření vysoce interaktivních webových aplikací. Z dostupných UI komponent používám nejvíce záložky, které tvoří jeden ze základních kamenů uživatelského rozhraní aplikace. Ostatní jquery rozšíření Rozšiřující moduly doplňují základní funkce jquery knihovny. jquery UI (16) je vlastně pouze hodně rozsáhlé jquery rozšíření. Kromě jquery UI aplikace používá ještě rozšíření jquery.layout. 15

Kapitola 3. Teorie jquery.layout je rozšíření, které dovoluje rozdělit obrazovku na několik separátních částí, má dobrou podporu integrace s jquery UI. Flash/FLEX Adobe Flex je sada technologií vytvořená firmou Adobe Systems pro vývoj RIA aplikací (Rich Internet Application) založených na technologii Adobe Flash. První verze vydala v roce 2004 firma Macromedia pod jménem Flex Data Services. V roce 2008 uvolnilo Adobe Flex 3 SDK pod otevřenou licencí. Flexové aplikace se kompilují a spouští v prostředí Adobe Flash přehrávače. Flex není o vytváření animací, MovieClipů, a podobných. Existuje zde spousta již hotových komponent (objektů) s vlastní grafikou, vlastnostmi a metodami, které můžeme použít a ušetřit si tak spoustu času. Použití Flash technologií nám umožňuje přidat na stránky prvky, které nejsou v klasickém HTML možné. BirdEye BirdEye (18) je komunitní projekt, jehož cílem je posunout návrh a vývoj komplexního zobrazování informací a knihovny pro vizuální analytiku pro Adobe Flex. Knihovna umožňuje uživatelům vytvářet vizualizace dat pro analýzu a prezentaci informací. Projekt v sobě integruje několik souvisejících knihoven. V projektu je použitý Relation Analysis modul pro zobrazení relačních dat z databáze. Navigační schémata Navigace digitálních zdrojů (2) představuje důležitou část aplikace. K navigaci se používají nejen metadatové záznamy digitálních zdrojů, ale i někdy i vlastní zdroje. Taxonomické navigace Taxonomie (z řeckého taxis uspořádání, nomos zákon) je v pojem, který obecně představuje předmětnou klasifikaci. Předměty rozumíme určitá témata (taxony), které mají 16

Kapitola 3. Teorie mezi sebou definované vazby. Tyto vazby je pak dovolují členit do jednotlivých hierarchicky uspořádaných kategorií. Rozlišujeme několik skupin klasifikací, které mohou uživatelé procházet. Globální Globální taxonomie jsou všeobecně přijaté taxonomie, například DDC, UDS. Jsou z pohledu aplikace statické. Tvoří je experti v oboru. Lokální Lokálně uznávané taxonomie popisují například strukturu popisované organizace. Může to být struktura vyučovaných předmětů, kateder a fakult v rámci univerzity UHK. Vytváří je lokální autority. Osobní Pod osobní taxonomií si můžeme přestavit uživatelské složky, kam si ukládá jednotlivé soubory (digitální zdroje). Tvůrce je většinou osoba neznalá problematiky. Taxonomie můžeme zobrazit a procházet několika způsoby. Seznam taxonů Jednoduchý seznam odkazů na taxony, které splňují určitou podmínku. Je to nejčastější forma navigace například u webových stránek. Seznam taxonů může nabývat několik forem. Globální navigace Globální navigace je případ seznamu taxonů, kdy jsou taxony přímými potomky kořenového taxonu. Globální navigace bývá v rámci kontextu neměnná. Dovoluje horizontální pohyb po první úrovni hierarchie. Lokální navigace Lokální navigace může nabývat různých podob v závislosti na aktuální poloze v taxonomii. Může zobrazovat najednou celou aktuální větev taxonomie, nebo pouze aktuální úroveň. Drobková navigace Drobková navigace je speciální případ taxonomické navigace, představuje cestu od aktuálního ke kořenovému taxonu. Dovoluje pouze vertikální pohyb hierarchií. 17

Kapitola 3. Teorie Inter-klasifikační V systému obecně existuje více klasifikací, aplikace proto dovoluje pohyb mezi jednotlivými taxonomiemi. Digitální zdroj může být najednou umístěn ve více taxonomických klasifikacích. Fulltextové vyhledávání Fulltextové vyhledávání je technika pro prohledávání digitálních dokumentů nebo databáze. Ve fulltextovém vyhledávání vyhledávač zkoumá všechna slova v každém uloženém dokumentu a pokouší se je porovnat se slovy zadanými uživatelem. Fulltextové vyhledávání se začalo používat v 70. letech v knihovních databázích. Návratnost je množství vrácených výsledků vyhledávání a přesnost je měřítkem kvality vrácených výsledků. Návratnost je poměr vyhledaných relevantních výsledků vůči všem relevantním výsledkům. Přesnost je počet vrácených relevantních výsledků vydělený celkovým počtem vrácených výsledků. Vzhledem k nejednoznačnosti přirozeného jazyka, fulltextové vyhledávací systémy typicky obsahují možnosti pro zvýšení přesnosti a návratnosti. Kontrolované slovníky pomáhají vyhledávání a také pomáhají mírnit problémy se špatnými výsledky označením dokumentů tak, aby se nejasnosti eliminovaly. Rozpor mezi přesností a návratností je jednoduchý: zvýšení přesnosti může snížit celkovou návratnost, zatímco nárůst návratnosti má za následek snížení přesnosti. Facetové navigace Facetová navigace, jinak také facetové vyhledávání, je technika přístupu ke kolekcím informací a zdrojů, reprezentovaných pomocí facetové klasifikace. Tato technika umožňuje uživatelům procházet informace pomocí filtrování vlastností. Facetový klasifikační systém umožňuje přiřadit více klasifikací jednomu objektu, tím se vytvoří klasifikace, kterou je možno řadit několika způsoby, lépe než v jednom předurčeném taxonomickém pořadí. Každý facet obvykle odpovídá hodnotám vlastností společných všem digitálním zdrojům. 18

Kapitola 4. Analýza 4. Analýza V této části je popsána databázová a aplikační vrstva aplikace. Prezentační vrstva je blíže popsána v kapitole 5. Vlastní implementace. Datový model Datový model popisuje základní sadu vlastností digitálních zdrojů. Každý typ digitálního zdroje má podmnožinu těchto vlastností. Blíže je představen digitální zdroj typu kniha. Definice datových typů V datovém slovníku používáme následující datové typy. Všechny se dají jednoduše mapovat do relační databáze kromě typu LangString, který je uložen v externí tabulce. Typ vlastnosti String LangString Text LangText Vocab Date Integer Decimal Popis Jednoduchý text, omezený na 255 znaků Jednoduchý text s kódem jazyka v ISO639-3, omezený na 255 znaků Libovolně dlouhý text Libovolně dlouhý text s kódem jazyka v ISO639-3 Omezení oboru hodnot dané vlastnosti Datum a čas definovaný dle W3C-DTF Celočíselný datový typ Desetinné číslo, 16 znaků celkem, přesnost 6 desetinných míst Definice vlastností digitálních zdrojů Aplikace obsahuje sadu metadatových elementů, které co nejlépe kryjí požadavky digitálních zdrojů. Některé vlastnosti jsou společné pro všechny zdroje, některé jsou specifické pro daný typ zdroje. 19