Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

Podobné dokumenty
Komprese a dotazování nad XML dokumenty

Komprese XML souborů Compression of XML Files

2.17 Archivace a komprimace dat

Název práce: Komprimace dat prezentace

Problematika disertační práce a současný stav řešení. Počítače se mýlí mnohem přesněji.

Publikování map na webu - WMS

EU-OPVK: VY_32_INOVACE_FIL12 Vojtěch Filip, 2014

INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

AC FORM FILLER. aplikace pro podání žádosti o poskytnutí finančního příspěvku. Verze z 13

DUM: VY_32_INOVACE_594

Logický datový model VF XML DTM DMVS

EXTRAKT z české technické normy

Datové úložiště referenčních nemocnic (DÚ RN): Zajištění sběru dat v roce Petr Klika a kol., ÚZIS ČR

VIDEO DATOVÉ FORMÁTY, JEJICH SPECIFIKACE A MOŽNOSTI VYUŽITÍ SMOLOVÁ BÁRA

XML databáze. Přednáška pro kurz PB138 Moderní značkovací jazyky Ing. Petr Adámek

Vývoj Internetových Aplikací

Videosekvence. vznik, úpravy, konverze formátů, zachytávání videa...

Architektura počítačů

Vývoj SW pro mobilní zařízení s ios. Petr Hruška, Skymia s.r.o. Teorie a praxe IP telefonie,

Detektor anomálií DNS provozu

Identifikátor materiálu: ICT-1-19

Jazyky pro popis dat

Informační systémy ve zdravotnictví

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

Adobe Photoshop 18. Ukládání dokumentu formáty

Formáty uložení dat. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně

MBI - technologická realizace modelu

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Ukládání a vyhledávání XML dat

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

KOMPRIMACE. aneb Aby to zabralo méně místa

DigiDepot: JPEG 2000 jako ukládací formát

Zobrazte si svazy a uspořádané množiny! Jan Outrata

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

JPEG Formát pro archivaci a zpřístupnění.

Kartografická webová aplikace. Přednáška z předmětu Počítačová kartografie (KMA/POK) Otakar Čerba Západočeská univerzita

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Algoritmy komprese dat

Základy WWW publikování

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Archivační a komprimační programy

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

Mgr. Vlastislav Kučera přednáška č. 1

Formáty uložení dat Výpočetní technika I

Embedded Linux a možnosti zrychlení startu zařízení


TEZE. Vývoj dialogu člověk počítač v prostředí WWW. Česká zemědělská univerzita v Praze. k diplomové práci na téma. Provozně ekonomická fakulta

EXTRAKT z české technické normy

Microsoft SharePoint Portal Server Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

Archivace relačních databází

SADA VY_32_INOVACE_PP1

TÉMATICKÝ OKRUH Softwarové inženýrství

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Počítačové sítě Teoretická průprava II. Ing. František Kovařík

Profilová část maturitní zkoušky 2013/2014

Vstupně - výstupní moduly

Hardware. Příklad převodu čísla: =1*32+0*16+0*8+1*4+0*2+1*1= Převod z dvojkové na desítkovou Sčítání ve dvojkové soustavě

TÉMATICKÝ OKRUH Softwarové inženýrství

Srovnání 602Office a 602PC SUITE

Ukládání videa. Datová média Práce se soubory Vlastnosti videa Kontejnery a komprese. Technologické trendy v AV tvorbě, Ukládání videa 2

ČESKÁ TECHNICKÁ NORMA

Osnova přednášky. Formáty uložení dat. Vyjádření hodnot datového typu. Vyjádření hodnot datového typu. Datové formáty. Výpočetní technika I

Komprese DNA pomocí víceproudé komprese a predikce báz. Jan Jelínek, Radek Miček

Vstupně výstupní moduly. 13.přednáška

Počítačová grafika SZŠ A VOŠZ MERHAUTOVA 15, BRNO

aneb jak se to tam všechno vejde?

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

Pohled do nitra mikroprocesoru Josef Horálek

Požadavky pro výběrová řízení TerraBus ESB/G2x

Obsah prezentace. Co je to XML? Vlastnosti. Validita

Zvyšování IT gramotnosti zaměstnanců vybraných fakult MU MS POWERPOINT 2010

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37

Navyšování propustnosti a spolehlivosti použitím více komunikačních subsystémů

Systém elektronického rádce v životních situacích portálu

Multimediální systémy. 10 Komprese videa, formáty

Národní archivní portál: prezentace, výběr, postupy

24. XML. Aby se dokument XML vůbec zobrazil musí být well-formed (správně strukturovaný). To znamená, že splňuje formální požadavky specifikace XML.

Alena Malovaná, MAL305

PRINCIPY POČÍTAČŮ Metodický list číslo 1

2015 GEOVAP, spol. s r. o. Všechna práva vyhrazena.

Experimentální systém pro WEB IR

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Charakteristiky zvuk. záznamů

Název školy: Základní škola a Mateřská škola Žalany

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

ZÁPADOČESKÁ UNIVERZITA V PLZNI

Kurz digitální fotografie. blok 1 data/úpravy fotografií

Uspořádání klient-server. Standardy pro Web

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci

Předměty. Algoritmizace a programování Seminář z programování. Verze pro akademický rok 2012/2013. Verze pro akademický rok 2012/2013

Výměnný formát XML DTM DMVS PK

AGP - Accelerated Graphics Port

Budování banky úloh s parametrizovanými multimediálními objekty

Dokumentace zápočtového programu (PRG030) KOMPRESE TEXTU

Multimediální systémy. 03 Počítačová 2d grafika

Inovace výuky prostřednictvím šablon pro SŠ

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Transkript:

Pavel Hruška

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill Představení, princip, výsledky Analýza XML (možná úskalí) Optimalizace komprese XML Přeskládání kontejnerů (XMill) Přeskládání celých XML souborů Závěr

XML = extensible Markup Language Otevřený značkovací jazyk Standardizovaný konsorciem W3C Sada pravidel pro tvorbu vlastních jazyků Univerzálnost + široká podpora => populární jazyk B2B, konfigurační soubory, propojení systémů, univerzální datový formát,

XML platí za své výhody výřečností V porovnání s nativními binárními formáty vetší datová náročnost Problémy? Uložení dat (archivace) Přenos (internet, WAN, ) Práce s XML (analýza zatěžuje procesor, paměť) Řešení pomocí komprese XML Snížení datové náročnosti Méně náročné zpracování (algoritmy komprese s podporou dotazování)

Komprese XML jako textu Pomocí běžných kompresních algoritmů Metody: Deflate, BZip2, PPM, LZMA, Programy: 7-Zip, WinRAR, Komprese XML-aware kompresory Bez podpory dotazování Využívají strukturu XML Připravují data pro efektivnější kompresi běžnými kompresory => finální komprese: Deflate, BZip2, S podporou dotazování Umožňují pracovat s komprimovanými XML daty (dotazy, modifikace)

XML-aware kompresor (bez dotazování) Odděluje strukturu od dat Strukturu kóduje pomocí slovníku Využívá sémantiku v XML datech Značka dává význam v ní uzavřenému obsahu Data seskupuje dle sémantiky do kontejnerů Finální komprese běžnými algoritmy Standardní podpora gzip, bzip2 (knihovna zlib) Podpora sémantických kompresorů Kódování celých čísel, výčtů, sekvencí (IP adresa) (specifikuje ručně uživatel)

Srovnání kompresních algoritmů běžnou kompresí (text) a s využitím XMill

Shrnutí experimentů: V průměru zlepšení komprese: Deflate ~ -19% BZip2 ~ -5% V průměru stejné výsledky: LZMA V průměru zhoršení: PPMdI ~ +7% Závěr: XMill byl navržen pro Deflate a BZip2. Moderní algoritmy (LZMA, PPM) dosahují v průměru stejných nebo lepších výsledků

Problém analýzy XML a seskupování: ne vždy má značka sémantický význam Příklad: <text>pozor: <b>nebezpečné</b></text> Značka <b> pouze formátuje, nemá sémantický význam. Současné kompresory to neřeší => dochází k chaotickému seskupování a kouskování dat => horší komprese. Konkrétní příklad soubor wiki.xml

wiki.xml obsahuje články s formátováním

s využitím přeskládání XML

Provedené experimenty Přeskládání dat v kontejnerech XMill Přeskládání celých XML souborů

Přeskládání prvků kontejneru před kompresí Shlukování kontejnerů zlepšuje jejich jednotlivou kompresi Ale jsou zde problémy: Časově náročný algoritmus shlukování (komprese 25MB XML dat více jak 3 hodiny) Architektura XMill vyžaduje uložení původního uspořádání prvků => režie navíc Celkově neefektivní Pomalé Výsledná velikost horší než bez shlukování

Výsledek komprese nasa.xml

Přeskládání XML Není vhodné pro všechny XML dokumenty (nesmí zakazovat například schéma) Použitelné pro kompresi XML jako textu i pro kompresi pomocí XMill Použité metody shlukování jsou časově přijatelné (konkrétně cca 30-60 minut) ale paměťově náročné (testovací stroj 16GB RAM)

Komprese shlukovaných XML jako textu

Komprese shlukovaných XML pomocí XMill

Shrnutí shlukování celých XML Dobré výsledky při kompresi XML jako textu, tak při kompresi XML pomocí XMill Maximálně mírné zhoršení (napříč všemi algoritmy) Účinné i na soubory, u kterých není úspěšná strukturální komprese (XMill)

Komprese XML Běžné textové kompresory Specializované XML-aware kompresory Možná úskalí komprese XML Důležitým prvek komprese je analýza XML (oddělení struktury od dat) Možnosti zlepšení komprese XML Pomocí přeskládání dat Přeskládání kontejnerů (XMill) možná cesta, nutno dořešit rychlost algoritmu a ukládání režie Přeskládání celých XML dobré výsledky

Děkuji za pozornost Dotazy?