Organizace a zpracování dat I

Podobné dokumenty
Organizace a zpracování dat I

OZD. 2. ledna Logický (Objekty, atributy,...) objekty stejného typu.

1. Databázové systémy (MP leden 2010)

6. Fyzická (interní) úroveň databázového systému

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

TÉMATICKÝ OKRUH Počítače, sítě a operační systémy

Databáze I. 5. přednáška. Helena Palovská

Kapitola 11: Indexování a hešování. Základní představa

vyhledávací stromové struktury

6. Fyzická (interní) úroveň databázového systému

PA152. Implementace databázových systémů

Datové struktury 2: Rozptylovací tabulky

vyhledávací stromové struktury

Technické informace. PA152,Implementace databázových systémů 4 / 25. Projekty. pary/pa152/ Pavel Rychlý

04 - Databázové systémy

Databázové systémy Tomáš Skopal

8.2 Používání a tvorba databází

Stromové struktury v relační databázi

Principy operačních systémů. Lekce 7: Souborový systém

TGH07 - Chytré stromové datové struktury

Datové typy a struktury

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

TGH07 - Chytré stromové datové struktury

Analýza dat a modelování. Přednáška 3

IPZ laboratoře Struktura pevného disku L305 Cvičení 1 Cvičící:

Databázové a informační systémy Informační systém prodejny nábytku. Jakub Kamrla, KAM087

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Organizace a zpracování dat I

Souborové systémy a logická struktura dat (principy, porovnání, příklady).

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Přednáška. Systémy souborů. FAT, NTFS, UFS, ZFS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Algoritmizace prostorových úloh

Primární klíč, cizí klíč, referenční integrita, pravidla normalizace, relace

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Vyhodnocování dotazů slajdy k přednášce NDBI001. Jaroslav Pokorný MFF UK, Praha

Maturitní témata Školní rok: 2015/2016

Přidělování paměti II Mgr. Josef Horálek

Reprezentace dat v informačních systémech. Jaroslav Šmarda

Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit

Složitosti základních operací B + stromu

Hašování. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

1. Umístěte kurzor do sloupce Datový typ na řádek s polem, ve kterém vytvořit chcete seznam.

Databázové a informační systémy Jana Šarmanová

Šablony, kontejnery a iterátory

POKROČILÉ POUŽITÍ DATABÁZÍ

Hydroprojekt CZ a.s. WINPLAN systém programů pro projektování vodohospodářských liniových staveb. HYDRONet 3. Modul EDITOR STYLU

Organizace a zpracování dat I (NDBI007) RNDr. Michal Žemlička, Ph.D.

Algoritmizace Hashing II. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Soubory a databáze. Soubor označuje množinu dat, která jsou kompletní k určitému zpracování a popisují vybrané vlastnosti reálných objektů

Semestrální práce 2 znakový strom

Šablony, kontejnery a iterátory

Implementace slovníku bitovým vektorem

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Nové přístupy tvorby web site. Doc. Ing. Zdeněk Havlíček, CSc. KIT PEF CZU - 13/11/2001

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Algoritmizace prostorových úloh

Databáze I. Přednáška 2

Amortizovaná složitost. Prioritní fronty, haldy (binární, d- regulární, binomiální, Fibonacciho), operace nad nimi a jejich složitost

Adresní vyhledávání (přímý přístup, zřetězené a otevřené rozptylování, rozptylovací funkce)

George J. Klir Vilem Vychodil (Palacky University, Olomouc) State University of New York (SUNY) Binghamton, New York 13902, USA

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

ODBORNÝ VÝCVIK VE 3. TISÍCILETÍ

Spojová implementace lineárních datových struktur

Reporting. Ukazatele je možno definovat nad libovolnou tabulkou Helios Orange, která je zapsána v nadstavbě firmy SAPERTA v souboru tabulek:

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Algoritmizace a programování

DATABÁZOVÉ SYSTÉMY. Vladimíra Zádová, KIN, EF TUL - DBS

Opravy a prodej. Uživatelská příručka. Milan Hradecký.

Databázové systémy Cvičení 5

Základy informatiky. 08 Databázové systémy. Daniela Szturcová

Algoritmizace prostorových úloh

Po ukončení tohoto kurzu budete schopni:

TEORIE ZPRACOVÁNÍ DAT

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Jazyk C++ II. STL knihovna kontejnery část 2

VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ

Úvod do databázových systémů


Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Operační systémy. Správa paměti (SP) Požadavky na SP. Spojování a zavedení programu. Spojování programu (linking) Zavádění programu (loading)

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Matice. Přednáška MATEMATIKA č. 2. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Souborový systém (File System FS) Souborové systémy. Souborová fragmentace. Disková fragmentace. Organizace dat na pevném disku

Kapitola 10: Diskové a souborové struktury. Klasifikace fyzických médií. Fyzická média

Databáze Bc. Veronika Tomsová

Dynamicky vázané metody. Pozdní vazba, virtuální metody

Úvod do MS Access. Modelování v řízení. Ing. Petr Kalčev

Inovace a zkvalitnění výuky prostřednictvím ICT Základy programování a algoritmizace úloh. Ing. Hodál Jaroslav, Ph.D. VY_32_INOVACE_25 09

Datové struktury 1: Základní datové struktury

Střední průmyslová škola Zlín

Obsah. 1.1 Práce se záznamy Stránka Dnes Kontakt se zákazníkem... 5

Ing. Igor Kopetschke TUL, NTI

MANUÁL SMART-MQU. 1. Úvod. 2. Fyzické provedení přenosové sítě.

Technologie. Osnovy kurzu: Školení správců systému. 1. den, dopolední blok

Operační systémy (OS)

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access generování složitějších sestav Ing. Kotásek Jaroslav

Lineární algebra - I. část (vektory, matice a jejich využití)

Transkript:

DBI007 Organizace a zpracování dat I Index-sekvenční a indexovaný soubor 4. přednáška RNDr. Michal Žemlička, Ph.D.

Index-sekvenční soubor Přístup k záznamům je možný jak sekvenčně, tak i přímo Části: primární soubor, index a oblast přetečení Vhodný zejména tenkrát, když potřebujeme jak přístup k jednotlivým záznamům dle primárního kĺıče (ještě lépe, když není třeba kĺıč měnit, jen data), tak i ke všem záznamům najednou

Index-sekvenční soubor Aplikace Účetní systém platebních karet individuální přístup při manipulaci s kartou/účtem; dávkový přístup pro generování sumářů, měsíčních vyúčtování, apod.

Index-sekvenční soubor Struktura 1. úroveň Ab Ak Bf Bp Bx Ck Dl Ea Eh Fu Gh Ha Kd primární soubor 2. úroveň Ab Oi Ab Bx Eh Kd My Oi... 3 oblast přetečení Jm index

Index-sekvenční soubor: Odkazy do oblasti přetečení Za každým záznamem zabere to více místa + kratší sekvence v oblasti přetečení Na konci každého bloku mohou se tvořit delší sekvence v oblasti přetečení + menší nároky na místo v bloku; je možné si v blocích nechat volno na později přidané prvky

Index-sekvenční soubor kapsy implementace index-sekvenčního souboru pomocí kapes kapsa (bucket) je množina bloků organizovaných jako spojový seznam indexují se kapsy

Index-sekvenční soubor kapsy (2) Babka Kolář 00 10 20 index 1. úrovně číslo bloku odkaz na další bloky kapsy 00 10 20 00000 11111 Babka Codr Couf Colt Cuc 11110 Kolář Kotrč Macák Maloň bitová mapa bloky (kapsy) se záznamy 0 0 0

Index-sekvenční soubor kapsy (2) Aktualizace: I(Daněk), I(Alfons), D(Kotrč) Babka Kolář 00 10 20 00 10 20 30 10000 Alfons 11111 Babka Codr Couf Colt Cuc 10110 Kolář Macák Maloň 10000 Daněk 0 30 0 0

Index-sekvenční soubor úrovně Maximální počet úrovní x = log bi N/ b ps ; b = B/R. Připomeňme, že B je velikost bloku a R (průměrná) velikost záznamu at již v primárním souboru (ps) nebo indexu (i). Počet přístupů na disk odpovídá počtu úrovní. Minimalizace počtu přístupů na disk: prakticky pouze maximalizací B; omezeno kapacitou stopy.

Index-sekvenční soubor ISAM Přímá podpora index-sekvenčních souborů v runtime COBOLu Úroveň Umístění 1 stopa index stop na 0. stopě každého válce určuje pozice v primárním souboru 2 válec index válců (na začátku oblasti souboru) určuje lokality s indexy stop 3 svazek master index po OPEN v RAM; určuje lokality s indexy válců T F = 2(s + r + btt) + r + btt = 2s + 3r + 3btt

Index-sekvenční soubor ISAM (2) Oblast přetečení na každém válci + společná pro celý soubor Statický soubor = nutná reorganizace po naplnění oblasti přetečení nebo periodicky

ISAM struktura indexu Cylindry i stopy číslovány od 0. Index stop na 0. stopě cylindru 1 150 2 200 3 400... stopa největší kĺıč na stopě Index cylindrů umístěn kdekoliv jinde 13 1650 14 1750 15 2000... cylindr největší kĺıč na cylindru

ISAM struktura indexu (2) Záznamy v blocích (stopách) setříděny Hlavní (master) index pro velké soubory na více discích ukazuje na stopy indexu cylindrů Oblast přetečení: vytlačen největší kĺıč na stopě aktualizace indexu

index stop ISAM index s oblastí přetečení 1 120 1 120 2 200 2 200 3 250 N Ov N Ov N primární soubor 130 145 150... 180 190 200 Insert(185): 1 120 1 120 2 190 10 1 stopa pro přetečení 200 3 250 130 145 150... 180 185 190

ISAM index s oblastí přetečení (2) Insert(186): 1 120 1 120 2 186 10 2 nemění se 200 3 250 130 145 150... 180 185 186 Insert(194): oblast přetečení # 200 10 3 190 10 1 194... řetězec v oblasti přetečení

Index-sekvenční soubor výhody Rychlý přítup dle primárního kĺıče. Zachovává většinu dobrých vlastností setříděného sekvenčního souboru.

Index-sekvenční soubor nevýhody Rychlé vyhledávání jen pro primární kĺıč Problémy s dynamikou primárního souboru Oblast přetečení vede ke zpomalení přístupu k datům Bloky inicializovány jako ne zcela zaplněné větší nároky na prostor Případná potřeba reorganizací

Index-sekvenční soubor návrh Uspořádání položek v seznamu Definice primárního kĺıče Analýza doplňování záznamů (Počáteční naplnění stránek max. 60 %) Prostor pro primární soubor, index a oblast přetečení Počet úrovní indexu Blokovací faktor primární oblasti, indexu

Index-sekvenční soubor závěr Blokování zvyšuje účinnost Rychlý přímý přístup košatý index Žádá se pouze sekvenční přístup použít sekvenční soubor nejsou třeba indexy Žádá se pouze přímý přístup použít soubor s přímým přístupem není třeba uspořádanost

Indexovaný soubor Umožňuje vyhledávat záznamy podle různých kĺıčů Odpovídá tabulce v DB Primární soubor a indexy Indexy mohou být mnoha různých typů (a to i v rámci jediného indexovaného souboru)

Indexovaný soubor obrázek 4.1 Jirásek Jirásek Němcová Světlá 1.1 2.1 3.1 index 2. úrovně (master/hlavní index) 1.1 2.1 3.1 Jirásek 4.1 Jirásek 4.3 Jirásek 5.1 Němcová 4.2 Němcová 5.2 Němcová 5.3 Němcová 6.3 Němcová 7.2 Světlá 6.2 index 1. úrovně 5.1 6.1 Němcová Jirásek Světlá Jirásek Němcová Němcová...... Světlá Němcová... Vyhledávací kĺıč: Příjmení primární soubor

Indexovaný soubor úrovně indexu Počet úrovní indexu počítáme podobně jako u index-sekvenčního souboru, ale indexujeme jednotlivé záznamy a ne bloky. x = log b N, b = B/R ; B... velikost fyzické stránky R... (průměrná) velikost fyzického indexového záznamu

Indexovaný soubor částečná shoda Řešení dotazů na částečnou shodu Vytváření průniků seznamů adres (ukazatelů) primárních záznamů Netriviální při velkém objemu, tj. velká N malá aktuální doména A Kombinovaný index pro více atributů současně (A,B,C)

Indexovaný soubor implementace Nepřímé adresování: primární kĺıč, sekundární kĺıč sekundární kĺıč se indexuje na primární kĺıč Možná reorganizace, restrukturalizace souboru bez o- vlivnění indexu Vyšší režie dotazu

Bitová mapa Vhodná pro malou doménu hodnot Boolské dotazy se řeší logickými operacemi Bitové vektory lze vytvářet pro více atributů Obecnější Boolské dotazy A Pořadí záznamu v S α 1 0 0 1 0 0 0 1 0 0 1 1 0 β 0 1 0 0 0 1 0 0 1 1 0 0 0

Bitové mapy Při zachování velikosti domény jejich velikost roste s počtem záznamů pouze lineárně Je možné sdružovat procesy procházející bitovou mapu nový proces nejprve se stávajícím dočte to, co ten stávající ještě nemá zpracované, a pak se vrátí k tomu zbytku (piggybacking)

Seznamy adres Odstranění duplicity kĺıčů Chemik 90 90 3 1.1 1.4 2.3 Mechanik 91 91 1 1.2 Primární soubor Referent 92 92 3 1.3 2.1 2.2

Indexy indexovaného souboru statické seznamy adres bitové mapy B-stromy a jejich varianty kombinované indexy vícerozměrné indexy