XML databáze. Přednáška pro kurz PB138 Moderní značkovací jazyky Ing. Petr Adámek

Podobné dokumenty
Ukládání a vyhledávání XML dat

PRG036 Technologie XML

TÉMATICKÝ OKRUH Softwarové inženýrství

Michal Krátký. Tvorba informačních systémů, 2008/2009. Katedra informatiky VŠB Technická univerzita Ostrava. Tvorba informačních systémů

Využití XML v DB aplikacích

Oracle XML DB. Tomáš Nykodým

Tvorba informačních systémů

Michal Krátký, Miroslav Beneš

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Algoritmy a datové struktury

Programování a implementace Microsoft SQL Server 2014 databází

Implementace XML signatur

MBI - technologická realizace modelu

Databázové systémy úvod

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Podpora XML v.net. Podpora XML v.net. nezávislý publicista. Jirka Kosek.

KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d

Dotazování nad stromem abstraktní syntaxe

8. Zpracování dotazu. J. Zendulka: Databázové systémy 8 Zpracování dotazu 1

J. Zendulka: Databázové systémy 8 Zpracování dotazu Podstata optimalizace zpracování dotazu

Databázové systémy úvod

XQuery. Jirka Kosek. Visual FoxPro DevCon června Praha. Copyright 2005 Jiří Kosek

Geografické informační systémy p. 1

Databázové systémy BIK-DBS

Tvorba informačních systémů

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Databázové a informační systémy

Objektově orientované databáze. Miroslav Beneš

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

B Organizace databáze na fyzické úrovni u serveru Oracle

PRG036 Technologie XML

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

TimescaleDB. Pavel Stěhule 2018

Databáze Bc. Veronika Tomsová

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Použití databází na Webu

Reprezentace aritmetického výrazu - binární strom reprezentující aritmetický výraz

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Business Intelligence

04 - Databázové systémy

Kolaborativní aplikace

Další XML technologie

POKROČILÉ POUŽITÍ DATABÁZÍ

Analýza a modelování dat 6. přednáška. Helena Palovská

SQL tříhodnotová logika

Základy business intelligence. Jaroslav Šmarda

Integrace relačních a grafových databází funkcionálně

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

Analýza a modelování dat 3. přednáška. Helena Palovská

Databázové systémy. * relační kalkuly. Tomáš Skopal. - relační model

Maturitní témata. IKT, školní rok 2017/18. 1 Struktura osobního počítače. 2 Operační systém. 3 Uživatelský software.

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Kurz je rozdělen do čtyř bloků, které je možné absolvovat i samostatně. Podmínkou pro vstup do kurzu je znalost problematiky kurzů předešlých.

Úvod do databázových systémů. Ing. Jan Šudřich

Technické informace. PA152,Implementace databázových systémů 4 / 25. Projekty. pary/pa152/ Pavel Rychlý

Základní datové struktury

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Dolování v objektových datech. Ivana Rudolfová

Základy informatiky. 08 Databázové systémy. Daniela Szturcová

NOVINKY V DATABÁZÍCH CEDA

Databázové systémy úvod

Fyzické uložení dat a indexy

Database engine (databázový stroj, databázový motor, databázové jádro) Systém řízení báze dat SŘBD. Typy SŘBD podle způsobu práce s daty

RELAČNÍ DATABÁZOVÉ SYSTÉMY

13. blok Práce s XML dokumenty v databázi Oracle

Logický datový model VF XML DTM DMVS

VZOROVÝ STIPENDIJNÍ TEST Z INFORMAČNÍCH TECHNOLOGIÍ

Obsah. Co je to Field-Map? Field-Map software Popis technologie Field-Map Zdroje

1. Webový server, instalace PHP a MySQL 13

Základy informatiky. 06 Databázové systémy. Kačmařík/Szturcová/Děrgel/Rapant

Složitosti základních operací B + stromu

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Dynamicky vázané metody. Pozdní vazba, virtuální metody

FlexiBee Pokročilé funkce. Ondřej Světlík FlexiBee Systems s.r.o.

Semestrální práce 2 znakový strom

1. Databázové systémy (MP leden 2010)

Nové funkce a technologie v současných a budoucích verzích Invenia. Jiří Kunčar

Databáze v MS ACCESS

Stromové struktury v relační databázi

Zpráva o zhotoveném plnění

PA152. Implementace databázových systémů

Datová věda (Data Science) akademický navazující magisterský program

Spark SQL, Spark Streaming. Jan Hučín

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Microsoft Access tvorba databáze jednoduše

Otázka č. 1 (bodů za otázku: 4)

Analýza a modelování dat 2. přednáška. Helena Palovská

37. Indexování a optimalizace dotazů v relačních databázích, datové struktury, jejich výhody a nevýhody

Access Tabulka letní semestr 2013

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Databáze I. 5. přednáška. Helena Palovská

PROGRAMOVÁNÍ PRO MS WINDOWS 2

GIS Geografické informační systémy

předměty: ukončení: Zápočet + Zkouška / 5kb např. jméno, název, destinace, město např. student Jan Novák, narozen

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

SQL - trigger, Databázové modelování

DBS Databázové modely

1 Webový server, instalace PHP a MySQL 13

Transkript:

XML databáze Přednáška pro kurz PB138 Moderní značkovací jazyky 22. 4. 2003 Ing. Petr Adámek xadamek2@fi.muni.cz http://www.bilysklep.cz/petr/

XML databáze Proč XML databáze Efektivní ukládání a vyhledávání XML dat Ukládání XML v relačních databázích Vybrané problémy z indexování XML dat

Proč XML databáze XML je univerzální formát pro výměnu informací s mnoha výhodami Snadná transformace do jiných formátů Ideální pro ukládání dokumentů Univerzální formát pro datové modelování Snazší (přirozenější) reprezentace objektů (agregace, dědičnost, relace) viz XML Schema

Kdy nepoužít XML databáze Tam kde stačí databáze relační Aplikace se specifickými požadavky (výkon) XML databáze jsou zatím v plenkách Nedosahují robusnosti databází relačních (transakce, souběžný přístup, škálovatelnost) Chybí plná podpora standardů Metody pro indexování a optimalizaci se zatím vyvíjí

Efektivní ukládání a vyhledávání XML dokumenty je nutné efektivně ukládat Jako úložiště lze použít Souborový systém (či jiné perzistentní úložiště) Relační databázi Nativní XML databázi Indexy pro efektivní vyhledávání lze aplikovat pro všechny tři varianty

XML a relační databáze Pro ukládání XML lze použít relační databáze Specializovaná schémata pro konkrétní aplikaci Univerzální schémata bez indexování struktury Univerzální schémata s indexováním struktury Při indexování XML dokumentů nalézá uplatnění mnoho algoritmů a technik z relačních SŘBD Mnoho komerčních SŘBD poskytuje podporu pro XML (rozšíření SQL).

Indexování XML dat Indexování XML dokumentů umožňuje Efektivní vyhledávání v kolekcích dokumentů Efektivní provádění XML transformací Efektivní aktualizaci dokumentů Efektivní navigaci v rámci dokumentu Nejčastěji indexujeme pro efektivní vyhodnocování XPath výrazů, příp. vzorů

Indexování pro aplikaci XPath výrazů Indexování textových informací Hodnoty textových uzlů Hodnoty atributů Jména elementů a atributů Indexování strukturálních vztahů (osy XPath) Vyhodnocení relace je na ose/není na ose Které uzly leží na dané ose

Vyhodnocování XPath dotazů Pro vyhodnocení XPath výrazu je nutné provést Vyhodnocení všech predikátů Vyhodnocení všech strukturálních vztahů Spojení (join) výsledků Pořadí operací může výrazně ovlivnit efektivitu zpracování

XML Signatury Využívají sekvencí preorder/postorder Statická struktura, operace vkládání a odebírání uzlů je nákladná Pro efektivnější práci s obsahem os existují rozšířené signatury Title:tree0.dia Creator:Dia v0.90 CreationDate:Tue Apr 22 10:58:51 2003 pre: <a,b,c,d,e,g,f,h,o,p> post: <d,e,c,g,b,o,p,h,f,a>

Sekvence preorder/postorder pre(x) < pre(v) => (x = ancestor(v)) or (x = preceding(v)) pre(x) > pre(v) => (x = descendant(v)) or (x = following(v)) post(x) < post(v) => (x = descendant(v)) or (x = preceding(v)) post(x) < post(v) => (x = ancester(v)) or (x = following(v)) Takto mohu okamžitě určit vztah mezi dvěma libovolnými uzly Lze také generovat seznam uzlů na dané ose

Indexování pro použití vzorů Indexování textových informací (viz XPath) Indexování struktury vzorů (twigs) Obsahuje dokument daný vzor? Které uzly v dokumentu jej tvoří? Vzory lze transformovat na výrazy jazyka XPath a naopak (optimalizátor může vybrat vhodnější metodu vyhodnocení)

XML Signatury Lze je použít i pro hledání vzorů Pokud strom A obshuje podstrom B, pak také sekvence preorder(b) (resp. postorder(b)) je podsekvenci preorder(a) (reps. postorder (A)) Podsekvence není totéž co podřetězec! př.: <b,c,g> je podsekvencí <a,b,c,d,e,g,f,h,i,j> a <c,g,b> je podsekvencí <d,e,c,g,b,i,j,h,f,a>

Další problémy Optimalizace dotazů Transformace výsledků do požadovaného tvaru Aktualizace dokumentů Podobnostní hledání Předávání výsledků dotazu Vyhledávání v kolekcích dokumentů

Optimalizace XPath výrazů Zjednodušování a transformace dotazů S využitím znalosti struktury dokumentu (DTD,...) S využitím znalosti složitosti jednotlivých operací S využitím statistických informací Eliminace zbytečných predikátů Výběr vhodného pořadí pro vyhodnocování Výběr vhodné metody pro vyhodnocení

Závěr XML databáze jsou užitečný a perspektivní nástroj; nejsou však vhodné vždy XML dokumenty lze ukládat různým způsobem, lze použít i relační databáze Klíčovým problémem XML databázi je efektivní indexování strukturálních vztahů