Organizace a zpracování dat I (NDBI007) RNDr. Michal Žemlička, Ph.D.



Podobné dokumenty
Organizace a zpracování dat I

OZD. 2. ledna Logický (Objekty, atributy,...) objekty stejného typu.

Kapitola 10: Diskové a souborové struktury. Klasifikace fyzických médií. Fyzická média

pole Princip 1. Zvýšení rychlosti. 2. Zvýšení bezpečnosti uložených dat (proti ztrátě).

Přednáška. Úložiště dat: HDD, SDD, RAID, DAS, NAS, SAN. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ

Externí paměti 1 Feromagnetické

PA152: Efektivní využívání DB 2. Datová úložiště. Vlastislav Dohnal

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Bohuslava Čežíková.

Organizace a zpracování dat I

Růst datových potřeb Pojem velkokapacitní se mění v čase Dříve několik MB, dnes stovky GB až TB

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Název školy: Základní škola a Mateřská škola Žalany

Dlouhodobá archivace digitálních dat

Server je v informatice obecné označení pro počítač, který poskytuje nějaké služby nebo počítačový program, který tyto služby realizuje.

Disková pole (RAID) 1

Datová úložiště. Zdroj: IBM

Vnější paměti. Vnější paměti. Dělení podle materiálu a fyzikálních principů

Informační a komunikační technologie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ OPTIMALIZACE DATOVÝCH ÚLOŽIŠŤ BAKALÁŘSKÁ PRÁCE FAKULTA PODNIKATELSKÁ ÚSTAV INFORMATIKY BRNO UNIVERSITY OF TECHNOLOGY

2.1 Obecné parametry Obecné parametry Rack serveru

Disková pole (RAID) 1

Cílem kapitoly je seznámit studenta s pamětmi. Jejich minulostí, současností a hlavnímu parametry.

Disková pole (RAID) 1

Cílem kapitoly je seznámit studenta s pamětmi. Jejich minulostí, současností, budoucností a hlavními parametry.

Příloha č. 2A Zadávací dokumentace k Veřejné zakázce Dodávka technologického řešení pro Geoportál

zadávaná v otevřeném řízení v souladu s ust. 27 zákona č. 137/2006 Sb., o veřejných zakázkách, ve znění pozdějších předpisů

Zřízení technologického centra ORP Dobruška

2.10 Vnější paměti. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu

Specifikace předmětu veřejné zakázky

ZÁLOHOVÁNÍ DAT A DATOVÁ ÚLOŽIŠTĚ

1x server pro distanční vzdělávání (výpočtový server)

Hardware ZÁKLADNÍ JEDNOTKA

Operační systémy 1. Přednáška číslo Struktura odkládacích zařízení

Zabezpečení dat. Literatura: Pavel Roubal: Informatika a výpočetní technika pro střední školy str

CHARAKTERISTIKY MODELŮ PC

HW počítače co se nalézá uvnitř počítačové skříně

Operační systémy 2. Struktura odkládacích zařízení Přednáška číslo 10

Pokročilé architektury počítačů

Hardware Základní pojmy. Autor: Ing. Jan Nožička SOŠ a SOU Česká Lípa VY_32_INOVACE_1122_Hardware Základní pojmy_pwp

Výpočetní technika pro město Moravská Třebová

Funkce cache Vnější paměti Signálové přenosy v PC Systémové sběrnice Interface

Pevné disky, fyzická struktura, geometrie disku

Zálohovací zařízení pro repozitář jazykových dat a digitálního materiálu pro jazykový výzkum

INTEGRACE IS DO STÁVAJÍCÍ HW A SW ARCHITEKTURY

I/O systém Vnější paměti. PB 169 Počítačové sítě a operační systémy

Výzva k podání nabídek (pro účely uveřejnění na nebo www stránkách krajů)

BRNO UNIVERSITY OF TECHNOLOGY FAKULTA PODNIKATELSKÁ ÚSTAV INFORMATIKY FACULTY OF BUSINESS AND MANAGEMENT INSTITUTE OF INFORMATICS

Administrace OS Unix. filesystém UFS mount snapshot RAID

Diskové pole IBM Storwize V7000 Unified

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Přednáška. Správa paměti I. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Principy operačních systémů. Lekce 7: Souborový systém

Bezpečnostní mechanismy serverové infrastruktury

Hyperkonvergovaná řešení jako základní stavební blok moderního IT

FLASH NOVÉ HRANICE DOSAŽITELNÉHO

nutné smazat zároveň i všechna ostatní zainteresovaná paměťová místa přepisovaném

Základní jednotka procvičování

Architektura vnějších pamětí

Linux RAID, LVM. 27. listopadu Uvedené dílo podléhá licenci Creative Commons Uved te autora 3.0 Česko.

ReDefine Midrange Storage VNX/VNXe. Václav Šindelář, EMC

Zodpovědná osoba: , do h

Forenzní analytická jednotka - technická specifikace (9 ks)

Technické prostředky počítačové techniky

Výzva k podání nabídek

Zvyšování kvality výuky technických oborů

Technická specifikace vymezené části 1 SERVER

Číslo projektu: CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. Zdeněk Dostál Ročník: 1. Hardware.

Osnova přednášky. Formáty uložení dat. Vyjádření hodnot datového typu. Vyjádření hodnot datového typu. Datové formáty. Výpočetní technika I

ZÁLOHOVÁNÍ DAT A DATOVÁ ÚLOŽIŠTĚ

Bezpečn č os o t t dat

Operační systémy. Přednáška 7: Správa paměti I

Výzva k podání nabídky včetně zadávací dokumentace na veřejnou zakázku malého rozsahu

Datasheet Fujitsu ETERNUS DX200 S3 Diskové systémy

Technická specifikace předmětu zakázky

Pokročilé architektury počítačů

Architektura počítače

Nimbus Data All Flash Systems

MARIE PACS S PACSem hezky od podlahy když se data sypou!

Část 1. Technická specifikace. Posílení ochrany demokratické společnosti proti terorismu a extremismu

Paměti cache. Cache může být realizována softwarově nebo hardwarově.

Tabulka splnění technických požadavků

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

Grafické adaptéry a monitory

Polovodičové paměti. Polovodičové paměti. - Paměti Flash ROM - použití v počítačích k uchování informací o konfiguraci, Princip zápisu a čtení

Praktická cvičení- teoretická průprava

Datová centra a úložiště. Jaroslav G. Křemének g.j.kremenek@gmail.com

STORAGE školení. 15. a Copyright 2015 FUJITSU

Výklad učiva: Co je to počítač?

Datová úložiště v roce 2017 aneb jak si vybrat to správné?

Martina Bábíčková, Ph.D

Paměť počítače. dočasná / trvalá. Parametry pamětí : kapacita ( udává kolik dat se do paměti vejde )

Martin Moravec Run Rate Program Leader

Ing. Šárka Endrlová, starostka. Ing. Jana Dvořáková.

Předmět: informační a komunikační technologie

INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

Výzva k podání nabídky v zadávacím řízení k veřejné zakázce malého rozsahu na dodávku s názvem Výměna vybavení počítačové učebny

Technická specifikace předmětu zakázky

Pevne disky a SSD disky

ODŮVODNĚNÍ VEŘEJNÉ ZAKÁZKY

Transkript:

Úvodní přednáška z Organizace a zpracování dat I (NDBI007) RNDr. Michal Žemlička, Ph.D.

Cíl předmětu Obeznámit studenty se základy a specifiky práce se sekundární pamětí. Představit některé specifické periferie. Ukázat, že i v informatice není svět jen černobílý.

Zdroje: 1. Přednáška a cvičení; 2. Skripta (Pokorný, J., Žemlička, M.: Základy implementace souborů a databází 2. vydání, Praha, Karolinum 2004, ISBN 80-246-0837-5.) 3. Další literatura seznam uveden na stránce předmětu: http://www.ksi.mff.cuni.cz/~zemlicka/vyuka/dbi007/

Povinnosti Zápočet Primárně udělován za aktivní účast na cvičeních; studenti kombinovaného studia si mohou domluvit jiné podmínky, musí tak však učinit již na začátku semestru. Cvičení se konají jednou za dva týdny vždy dva týdny po sobě je procvičována tatáž látka. Nahrazovat se dá jen na cvičeních, kde se probírá stejná látka. Rozřazení do skupin je prostřednictvím grupíku.

Povinnosti Zkouška Proběhne formou testu v zimním zkouškovém období; později bude ještě termín pro opozdilce, test však bude obtížnější nebo naopak: složení zkoušky včas znamená výhodu snížené náročnosti.

Rozvrh: Ponděĺı Úterý Středa Čtvrtek 9:00 10:30 10:40 12:10 S3: přednáška S8: Žemlička S8: Lokoč S8: Lokoč 12:20 13:50 14:00 15:30 S8: Žemlička

Hierarchie pamětí počítače V počítačích najdeme mnoho různých pamětí: + Registry Vyrovnávací pamět procesoru pamět ová cache + Operační pamět Vyrovnávací pamět pro disky disková cache + Sekundární pamět (disky)

Hierarchie pamětí počítače poznámky Na předchozím obrázku směrem vzhůru roste rychlost a cena pamětí, směrem dolů roste kapacita a měla by růst i doba, po kterou si pamět uchová svůj obsah. Paměti označené + programátor vidí, paměti označené se nedají přímo využít jen poskytují iluzi, že pamět o úroveň níže je rychlejší, než ve skutečnosti je.

Hierarchie pamětí počítače přístup Některé z algoritmů, které jsme byli zvykĺı používat na datech, co se vejdou do paměti, jsou použitelné i pro práci ve virtuální paměti, která tak může být mnohanásobně větší než dostupná operační pamět. V ostatních případech je rozumnější mít pohyb dat mezi primární a sekundární pamětí co nejvíce pod kontrolou. Téměř vše, čemu se v tomto předmětu budeme věnovat, spadá do té druhé varianty.

Co chceme? Práce se sekundární pamětí není jednoduchá, chceme ji proto: 1. co nejvíce zjednodušit 2. co nejvíce urychlit Bohužel tyto snahy jdou proti sobě = Budou třeba kompromisy

Co chceme? (2) Můžeme najít takové případy, kdy rychlost a snadnost použití nejdou tak ostře proti sobě. Tyto se pokusíme popsat a naučit se je rozumně využívat. Pokusíme se také o to, aby námi vytvářené aplikace byly dostatečně efektivní při zachování dalších dobrých vlastností, které by software měl mít.

Zpracování dat organizace dat na vnějších pamětech pro efektivní zpracování techniky organizace dat ve formě souborů interpretace dat uživatelem konceptuální model dotazovací jazyky vrstvy struktur + zobrazení mezi nimi

Troška historie Nejdříve se počítače používaly k lámání šifer a VT výpočtům krátký vstup na začátku, pak dlouhý výpočet a krátký výstup na konci. Kapacita paměti i médíı rostla, cena počítačů šla dolů, mohly být nasazovány i pro rutinní záležitosti pro běžné agendy. Zpočátku šlo pouze o práci dávkovou svezla a připravila se data, pak se počítalo, tisklo a rozvezly se výsledky.

Dávkové zpracování dat Posbíraná data Čištění Vyčištěná data Setříděná (použitelná) data Třídění Vlastní zpracování dat

Interaktivní zpracování dat data ze zpracovávají hned, jak jsou k dispozici (každý záznam samostatně) máme přehled o aktuálním stavu vyšší nároky na HW (větší zátěž) i SW (složitější vývoj)

Hardware k probrání Základní přepisovatelné nosiče: magnetické disky, magnetické pásky, optické disky (CD, DVD, blue-ray), EE- PROM (flash) Složené nosiče: RAID, jukeboxy Další užitečné pojmy: SAN, NAS

Náš pohled Jednotlivé nosiče popíšeme s ohledem na vlastnosti významné pro práci se soubory. Vnitřní (operační, volatilní) pamět počítače nazveme primární pamět, vnější (persistentní) paměti (např. magnetická páska, disk) pak sekundární pamětí.

Magnetická páska sekvenční přístup buffer (vyrovnávací pamět ) místo v hlavní paměti obsahující jednu stránku (někdy i více) kapacita pásky dána hustotou záznamu, velikostí bloků B a meziblokových mezer IBG a délkou pásky využití pásky U = B/(B + IBG)

Magnetická páska umožňuje sekvenční čtení i rychlé převíjení existují speciální zařízení pro kontrolu kvality záznamu aplikace: zálohování proudová data vzácněji přistupovaná rozsáhlá data (spolu s optickými disky)

Dnešní magnetické pásky stojany s automaticku výměnou pásek ze zásobníku sálová zařízení kapacita desítky GB až jednotky TB přenosová rychlost až 400 MB/s (lepší než disky) osobní zařízení kapacita desítky GB až jednotky TB přenosová rychlost až 120 MB/s (asi jako disky)

Magnetické pásky parametry Příklady systémů lišících se svými parametry: A kapacita 20/40/60 GB zálohování 43,2 GB/hod hledání 60s B kapacita 160 GB rychlost čtení/zápisu 16MB/s (57,6 GB/hod) C kapacita 800 GB rychlost čtení/zápisu 120MB/s

Magnetický disk médium s přímým přístupem první uvedení na trh 1956 (IBM) dnes mají typicky průměr necelých 3,5 (a jsou i menší 2,5, 1,8, 1, 0,8 ) a kapacity v desítkách až stovkách GB (aktuálně největší běžně dostupné mají 2TB)

Magnetický disk pohled z boku osa povrchy hlavy

parametry magnetických disků Kapacita dnes: stovky GB až 3TB Otáčky za minutu (RPM; obvykle 3600, 4200, 5400, 7200, 10000, nebo 15000) Průměrné vystavení hlav (seek; 3,2 15 ms) Rozhraní (PATA, SATA, SCSI, SAS, FC)

Parametry magnetických disků (2) s (seek) průměrné vystavení hlav z jednoho cylindru na druhý r (rotational delay, latency) čas rovný polovině otáčky disku; průměrné rotační zpoždění btt (block transfer time) čas potřebný k přenosu dat z média či na médium

Náhodné čtení z disku Nejdříve je nutné vystavit hlavy na správný cylindr (s seek) pokud už hlavy na daném cylindru nejsou. Pak je třeba počkat, až začátek dat doběhne ke čtecí hlavě (r rotational delay) Nakonec je možné data přečíst (btt block transfer time) s + r + btt

Disková pole RAID Redundant Array of Inexpensive Disks Slouží ke zvýšení kapacity, rychlosti, nebo bezpečnosti disků. Navenek se chová jako jediná disková jednotka s pozměněnými vlastnostmi. Existuje celá řada různých uspořádání. Každé z nich vhodné pro jinou aplikaci.

RAID 0 schema A1 A2 B1 B2 C1 C2 D1 D2

RAID 0 Striping Data rozložena na více disků Není to klasický RAID nedochází k redundanci Při výpadku jediného disku můžeme přijít o veškerá data Zvyšuje výkon jak pro čtení, tak pro zápis Podporováno i velmi levnými řadiči

RAID 1 Zrcadlení A A B B C C D D

RAID 1 Mirroring Disky instalovány ve dvojicích. Vždy se zapisuje na oba disky v páru. Čtení se ralizuje tam, kde to jde rychleji. Při výpadku jediného disku jej stačí vyměnit a nakopírovat na něj data z jeho partnera. Může přežít i výpadek až n disků z 2n za předpokladu, že z každé dvojice vypadne nejvýše jeden.

RAID 0+1, 1+0 Kombinace principů RAID 0 a 1 pro alespoň 4 disky 0+1: stripe + mirror... levné souborové systémy 1+0: mirror + stripe... databáze podpora již u relativně levných a jednoduchých řadičů (0,1,0+1) dostupné na mnoha základních deskách

RAID 2 Striping po bitech s Hammingovou paritou VYžaduje synchronizaci disků neprosadil se

RAID 3 Pracuje po bitech disky musí být synchronizovány Jeden z disků je vyhrazen pro paritu Rychlé I/O pro sekvenční data Neumí zároveň číst i zapisovat Systém je odolný proti selhání jednoho disku data je možné dopočítat

RAID 4 Data jsou zapisována po blocích na jednotlivé disky Jeden z disků je vyhrazen pro paritu Rychlé I/O pro sekvenční data Neumí zároveň číst i zapisovat Systém je odolný proti selhání jednoho disku data je možné dopočítat Úzkým hrdlem je paritní disk pomalý zápis

RAID 5 Parita zapisována postupně na různé disky Použitelný od 3 disků výše Rozumný kompromis mezi bezpečností dat, kapacitou a výkonem vyžaduje složitější elektroniku (bývá na řadičích s procesorem a větší pamětí)

RAID 6 Odolný proti výpadku až dvou disků Zvýšená redundance Menší využití kapacity Potřebuje složitější řadič Vhodné pro mission-critical aplikace

Optické disky CD, DVD, blue-ray,... Informace uchovávána prostřednictvím rozdílné odrazivosti světla Lisované velké série disků se stejným obsahem velmi spolehlivé Modifikovatelné médium (R, RW, RAM) malé série + zálohování + přenos dat (pouze RW a RAM)

Optické disky (2) U levných médíı zatím relativně malé kapacity (650MB, 4,7GB). U médíı s rozumnou kapacitou (15GB, 25GB) zas nevyhovuje cena. RW média nejsou určena pro velký počet přepsání prostor pro DVD-RAM. DVD-RAM zatím málo rozšířena a poměrně drahá a pomalá využívána spíše pro multimédia než pro data.

Optické disky (3) V posledním roce inzerována média s dlouhou životností šance pro archivaci

Jukeboxy Pásky i optické disky mohou mít menší kapacitu, než je třeba požadovaná data jsou pak uložena na více médíıch Jednoduchá média je možné automaticky vyměňovat (stačí jedna či několik málo mechanik + výměnný mechanismus + prostor na desítky či stovky médíı)

Jukeboxy (2) Poskytují obrovskou úložnou kapacitu s pomalým přístupem (sekundy) Většinou využity jako terciální pamět jsou tam ukládána data, co se nepotřebují příliš často, ale přesto by měla být dostupná Zálohování dat ze sekundárních pamětí

Systémy výměnných disků Zařízení umožňující bezobslužný přístup k více CD nebo DVD diskům Někdy včetně podpory zápisu Několik různých forem: mechanika na více CD stojan s mnoha mechanikami po jednom CD mechanika s přídavným zařízením na výměnu CD (jukebox)

Parametry Jukeboxu Až stovky CD/DVD (tj. až 5,5 TB) Může obsahovat i více mechanik Doba výměny disků 2,5 10 s Někdy i možnost otáčet média (u oboustranných)

Páskové výměnné systémy Obdobně jako u CD/DVD existují i bezobslužné systémy s jednou či několika málo mechanikami a mnoha páskami Kapacita až přes 10 PB

Flash paměti Velmi rychlé Drahé Často jen omezený počet přepsání Dnes běžně dodávané kapacity v jednotkách až desítkách GB ( kĺıčenky ) nebo desítkách až stovkách GB ( SSD solid-state disky )

Připojování vnějších pamětí Disky připojovány většinou přímo (DAS direct attached storage), nebo přes sít (NAS network attached storage), případně se chovají jako bloková úložiště (SAN storage area network) SAN i NAS se dají pořídit jak velká, tak SOHO; pozor, někdy je výkon SOHO zařízení velmi nízký

Bezpečnost dat RAID bývá bezpečnější než samotné disky (s výjimkou RAID 0), ale i zde může dojít ke ztrátám dat = je třeba zálohovat, případně využívat další typy pamětí (diskové a páskové jukeboxy) Kritické systémy i jejich záložní kopie je důležité mít umístěné na dostatečně vzdálených a různých místech (požáry, povodně)

Virtualizace Stále častěji dochází k virtualizaci serverů. Je proto nezbytné vědět, zda disky, které považujeme za nezávislé, nejsou ve skutečnosti jen virtuálními zařízeními na tomtéž fyzickém zařízení. Mohlo by to ovlivnit jak rychlost práce, tak bezpečnost dat. Některé úlohy z virtualizace mohou i těžit virtualizovaná zařízení bývají mnohdy vybavena většími vyrovnávacími pamětmi, případně zapojena tak, že mají vyšší výkon, než běžná zařízení.

Vnější paměti Mnoho druhů lišících se rychlostí, dodávanou kapacitou i cenou Platí, že velké kapacity bývají dostupné pomalu, malé kapacity rychleji nebo jsou silně miniaturizovány Je možné vytvářet kaskády pamětí

Záznam Logický kolekce souvisejících položek hodnot atributů Fyzický logický záznam doplněný o oddělovače, definice délek, zarážky,... délka fyzického záznamu R

Typ záznamu dán jmény a doménami atributů A j : dom(a j ) A 1 : D 1,..., A n : D n

Fyzický a logický záznam Logický záznam množina atributů Fyzický záznam (délky R) fyzická reprezentace logického záznamu na médiu (může obsahovat pomocná data navíc) Fyzické záznamy se ukládají do fyzických stránek (bloků jejich velikost značíme B) Bloky jsou minimální entitou přenášenou mezi primární a sekundární pamětí

Blokovací faktor, blokování Blokovací faktor (b) poměr B/R Blokování (umíst ování záznamů do bloků); říkáme, že záznamy jsou: neblokované b = 1, B = R; blokované b > 1; přerostlé b < 1; Pro implementaci je důležité, zda se R mění, či nikoliv budeme předpokládat, že se nemění.