Komprese a dotazování nad XML dokumenty



Podobné dokumenty
Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

Dotazování nad stromem abstraktní syntaxe

Předměty. Algoritmizace a programování Seminář z programování. Verze pro akademický rok 2012/2013. Verze pro akademický rok 2012/2013

MBI - technologická realizace modelu

JPEG Formát pro archivaci a zpřístupnění.

Ukládání a vyhledávání XML dat

Komprese dat (Komprimace dat)

Algoritmy komprese dat

Java a XML. 10/26/09 1/7 Java a XML

TECHNICKÁ UNIVERZITA V LIBERCI

Podpora XML v.net. Podpora XML v.net. nezávislý publicista. Jirka Kosek.

PŘÍLOHA C Požadavky na Dokumentaci

Specifikace projektu Ocerus

Měření teploty, tlaku a vlhkosti vzduchu s přenosem dat přes internet a zobrazování na WEB stránce

LZ77 KNIHOVNA PRO KOMPRESI A DEKOMPRESI DAT POMOCÍ ALGORITMU LZ77. Příručka uživatele a programátora

Komprese DNA pomocí víceproudé komprese a predikce báz. Jan Jelínek, Radek Miček

Využití aplikace SketchUp pro tvorbu jednoduchého informačního systému

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Jak v Javě primitivní datové typy a jejich reprezentace. BD6B36PJV 002 Fakulta elektrotechnická České vysoké učení technické

Komprese XML souborů Compression of XML Files

Středoškolská technika Encryption Protection System

Prostředí pro výuku vývoje PCI ovladačů do operačního systému GNU/Linux

Ročníkový projekt DYNAMICKÉ HTML. Projektová dokumentace. Jan Ehrlich, Petr Marek, Tomáš Marván, Martin Paľo. Vedoucí projektu: RNDr.

Fyzické uložení dat a indexy

1 Webový server, instalace PHP a MySQL 13

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Zabezpečená middleware komunikace

Zobrazte si svazy a uspořádané množiny! Jan Outrata

Algoritmy pro spojitou optimalizaci

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Přednáška. Systémy souborů. FAT, NTFS, UFS, ZFS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Rozhraní pro práci s XML dokumenty. Roman Malo

Podpora skriptování v Audacity

RAFT IKI2010 JPEG Optimální formát pro archivaci a zpřístupnění. Přednáška: 19. 1, 2010, IKI 2010 Přednášející:

Komprese dat (KOD) Semestrální projekt Implementace RLE, BWT a LZW

Dokumentace zápočtového programu (PRG030) KOMPRESE TEXTU

PRG036 Technologie XML

Inovace výuky prostřednictvím šablon pro SŠ

Tablexia. Vývoj multiplatformních her pomocí opensource technologie libgdx. Matyáš Latner

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37

NetBeans platforma. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

1. Webové služby. K čemu slouží? 2. RPC Web Service. 3. SOA Web Service. 4. RESTful Web services

O projektu Nasazení OpenOffice.org v praxi

SADA VY_32_INOVACE_PP1

Základy informatiky. 10 Počítačová grafika

TÉMATICKÝ OKRUH Softwarové inženýrství

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Specifikace softwarového díla & Časový plán implementace. pro. MEF Editor

MODULÁRNÍ REDAKČNÍ SYSTÉM (CMS), SE ZAMĚŘENÍM PRO FIREMNÍ

IS pro podporu BOZP na FIT ČVUT

Publikování map na webu - WMS


Národní technické specifikace. služeb nad prostorovými daty a metadaty

Microsoft Office 2003 Souhrnný technický dokument white paper

POČÍTAČE A PROGRAMOVÁNÍ

Obsah. 1) Rozšířené zadání 2) Teorie zásuvných modulů a) Druhy aplikací používajících zásuvné moduly b) Knihovny c) Architektura aplikace d) Výhody

INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

Objektové modelování BI-OMO 6. cvičení

E LEARNINGOVÁ WEBOVÁ APLIKACE PRO VÝUKU BIOMEDICÍNSKÉHO INŽENÝRSTVÍ Petr Huňka

ZÁPADOČESKÁ UNIVERZITA V PLZNI

Ontologie v e-commerce

Informační systémy ve zdravotnictví

Současný svět Projekt č. CZ.2.17/3.1.00/32038, podpořený Evropským sociálním fondem v rámci Operačního programu Praha adaptabilita

Klinický informační systém Porodní kniha - případová studie -

Další XML technologie

Rekurzivní algoritmy

Jazyk XSL XPath XPath XML. Jazyk XSL - rychlá transformace dokumentů. PhDr. Milan Novák, Ph.D. KIN PF JU České Budějovice. 9.

TÉMATICKÝ OKRUH TZD, DIS a TIS

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

Elektronické publikování. doc. RNDr. Petr Šaloun, Ph.D. katedra informatiky FEI VŠB TU Ostrava

Obsah. Úvodem 9 Zpětná vazba od čtenářů 10 Zdrojové kódy ke knize 10 Errata 10

O Apache Derby detailněji. Hynek Mlnařík

SRSW4IT Inventarizační SW. Prezentace aplikace. Vedoucí DP: ing. Lukáš Macura Autor: Bc. Petr Mrůzek

Název školy: Základní škola a Mateřská škola Žalany

Key Word In Context. souborové FileIO a konzolové ConsoleIO. II. HLAVNÍ PROGRAM A PODPROGRAMY SE SDÍLENOU

Standard výměnného formátu XML Digitální technické mapy

Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům

VYUŽITÍ KNIHOVNY SWING PROGRAMOVACÍHO JAZYKU JAVA PŘI TVORBĚ UŽIVATELSKÉHO ROZHRANÍ SYSTÉMU "HOST PC - TARGET PC" PRO ŘÍZENÍ POLOVODIČOVÝCH MĚNIČŮ

Reranking založený na metadatech

PROJEKT INTERPI V ROCE 2015

Michal Krátký, Miroslav Beneš

TÉMATICKÝ OKRUH Softwarové inženýrství

3. Je defenzivní programování technikou skrývání implementace? Vyberte jednu z nabízených možností: Pravda Nepravda

KRY. Projekt č. 2. Kamil Dudka xdudka00

Řízení reálných projektů, agilní metodiky

Referenční rozhraní. Jiří Kosek. Ministerstvo informatiky ČR. ISSS 25. března 2003

Tvorba informačních systémů

Zvyšování IT gramotnosti zaměstnanců vybraných fakult MU MS POWERPOINT 2010

Otevřený katastr (OK)

Amortizovaná složitost. Prioritní fronty, haldy (binární, d- regulární, binomiální, Fibonacciho), operace nad nimi a jejich složitost

Charakteristiky zvuk. záznamů

Použ ití konžolové č á sti áplikáčé XRéásonér

FORTANNS. 22. února 2010

DigiDepot: JPEG 2000 jako ukládací formát

Projekt JetConf REST API pro vzdálenou správu

Správa paměti. doc. Ing. Miroslav Beneš, Ph.D. katedra informatiky FEI VŠB-TUO A-1007 /

Transkript:

Komprese a dotazování nad XML dokumenty Prezentace diplomové práce Lukáš Skřivánek České vysoké učení technické v Praze Fakulta elektrotechnická Katedra počítačů květen 2007 Vedoucí práce: Ing. Miroslav Balík, Ph.D. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 1 / 18

Osnova 1 Výhody a nevýhody XML 2 Postup komprese a dotazování 3 Existující implementace komprese XML souborů 4 Návrh XML komprese 5 Popis implementace 6 Testování 7 Závěr 8 Demonstrační aplikace Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 2 / 18

Výhody a nevýhody XML Výhody obecný formát pro libovolná data, jednoduchost, rozšiřitelnost, veřejná specifikace, mezinárodní podpora, snadná čitelnost pro člověka, jednoduchá editace v libovolném textovém editoru, podpora v dalších technologiích a programovacích jazycích, podpora od řady světových producentů software i v aplikacích, řeší problém univerzální výměny dat mezi různými systémy. Nevýhody pamět ové nároky (redundantní formát), efektivnost načítání a práce s daty. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 3 / 18

Postup komprese a dotazování Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 4 / 18

Existující implementace komprese XML souborů Kompresní programy nepodporující dotazování XMill XMLPPM Kompresní programy podporující dotazování XMLZip XGrind XPress XQueC (XQuery processor and Compressor) Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 5 / 18

XML Compression (XCo) algoritmus komprese XML dokumentu: oddělení struktury od dat, komprese elementů a atributů slovníkovou metodou, komprese hodnot semi-adaptivním Huffmanovým kódováním, zvlášt kompresní model Huffmanova kódování pro každý název elementu nebo atributu, kódování ukazatelů do slovníku Fibonacciho kódováním. přípona souboru (*.xco). Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 6 / 18

XML Compression DOM (XCoDOM) implementace standardního rozhraní DOM, načítán přímo z XCo souboru (komprimovaného XML souboru), dekomprimuje všechny Fibonacciho kódy (ukazatele do slovníku), nedekomprimuje Huffmanovy kódy. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 7 / 18

Popis implementace název XML Compression (XCo), implementováno jako knihovna funkcí (API), implementace rozdělena do balíků: compression poskytuje metody pro kompresi XML, decompression poskytuje metody pro dekompresi XCo souboru zpět do XML dokumentu, xcodom implementace standardní sady rozhraní org.w3c.dom. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 8 / 18

XML soubory použité při testování Název souboru Velikost Počet elementů Počet atributů Výška stromu autobazar.xml 380 B 11 2 3 student.xml 32,7 kb 831 332 3 shakespeare.xml 245 kb 6347 0 6 wsu.xml 1,57 MB 74557 0 4 docbook.xml 2,90 MB 66757 41456 16 nasa.xml 23,8 MB 476646 53882 8 Název souboru Unikátních elementů Unikátních atributů autobazar.xml 6 1 student.xml 6 2 shakespeare.xml 17 0 wsu.xml 20 0 docbook.xml 236 50 nasa.xml 61 8 Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 9 / 18

Kompresní poměr Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 10 / 18

Porovnání kompresních poměrů XQueC a XCo Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 11 / 18

Velikost DOMu Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 12 / 18

Časová náročnost vykonání XPath dotazu Soubor XPath dotaz Java DOM XCo DOM wsu //course/days/text() 1238 ms 960 ms docbook //LINK/text() 1347 ms 1292 ms docbook //ENTRY/text() 1331 ms 1290 ms nasa /datasets/dataset/title/text() 4024 ms 7716 ms nasa //attribute::footnoteid 5055 ms 8672 ms Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 13 / 18

Porovnání vlastností kompresních programů podporujících dotazování Program Kompresní algoritmus Podporovaný jazyk Směr pohybu XMLZip LZSS DOM XPath všemi směry XGrind Huffmanovo kódování, podmnožina XPath od kořene k listům slovníková metoda XPress Huffmanovo kódování, podmnožina XPath od kořene k listům slovníková metoda, reverzní aritmetické kódování XQueC Huffmanovo kódování, ALM, podmnožina XQuery všemi směry slovníková metoda XCo Huffmanovo kódování, DOM XPath všemi směry slovníková metoda, Fibonacciho kódování Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 14 / 18

Závěr Výsledky: v průměru o 9 % lepší výsledky než XQueC, v průměru o 60 % méně místa než zdrojové XML soubory, rozhraní DOM v průměru o 30 % méně paměti. Doporučení: pro obyčejnou kompresi XML dokumentů použít zip, pro vysoký kompresní poměr použít XMill, pro kompresi s dotazováním použít XML Compression (XCo). Budoucnost: implementovat sémantickou kompresi, implementovat dotazovací jazyk XPath využívající urychlovacích algoritmů, vytvoření pomocných struktur a cache pamět. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 15 / 18

Demonstrační aplikace XCo Aplikace určená ke kompresi a dekompresi XML souboru. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 16 / 18

Demonstrační aplikace XCoViewer Aplikace určená pro přímé prohlížení souboru typu XCo jako původního XML souboru. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 17 / 18

Demonstrační aplikace XCoXPath Aplikace určená pro dotazování jazykem XPath nad rozhraním DOM načteným přímo ze souboru typu XCo. Lukáš Skřivánek (ČVUT FEL) Komprese a dotazování nad XML dokumenty květen 2007 18 / 18