Informační systémy 2 Data v počítači EIS MIS TPS strategické řízení taktické řízení operativní řízení a provozu Spojení: e-mail: jan.skrbek@tul.cz tel.: 48 535 2442 Konzultace: úterý 14 20-15 50 18.3.2014 1 IS2-14-02
Data v počítači Data strukturovaná Základní typy (dělení z důvodu rozlišení povolených a nepovolených manipulací a hodnot): textová (řetězce znaků) číselná čísla reálná, racionální datum, čas logická splnění podmínek, existence či neexistence vlastností objektu kategorie hodnota vlastností vybraná ze škály (často číselníky, umožňující zaznamenání hodnoty pouze kódem) Strukturováním je vytvářena taková organizace dat, která umožňuje efektivně zpracovat a vyhledat údaje podle potřeby. Strukturovaná data vytvářejí vyhledávací klíče. Klíče, jež jednoznačně identifikující datový záznam, jsou nazývány primární klíče (někdy též identifikační klíče). 2
Data v počítači Data strukturovaná představují údaje o něčem jméno, příjmení, adresa, rodné číslo, telefonní číslo, věk, váha, cena, datum, zakódovaná data počet bodů, kategorie, průměrná známka, různá kódování čísel počet kusů, počet stran,... - např. 324H operace aneb co s daty mohu dělat: sčítání, zaokrouhlení, násobení připojení (jméno + příjmení), zkrácení, řazení den v týdnu, negace, jsou charakterizována datovým typem číslo textový údaj datum a čas logický údaj (ano/ne) 00110011 00110010 00110100 - ASCII 101000100 - binárně text, písmena - různé kódové tabulky (ASCII, EBDIC,, národní abecedy) datum a čas - jak píšeme datum / převod na jediné číslo logická hodnota - 1 bit kategorie - číselníky 3
Data v počítači Data strukturovaná Číselníky 1 svobodný 2 ženatý/vdaná 3 rozvedený/rozvedená 4 vdovec/vdova 5 partner/partnerka 11 trvalý pracovní poměr 21 vedlejší pracovní poměr 41 dohoda o provedení práce 55 dohoda o pracovní činnosti.. 4
Data nestrukturovaná Data typu: volný text audio video grafika multimédia Data v počítači Poskytují více dat než strohé strukturované údaje Problém: podle nestrukturovaných dat lze velmi těžko vyhledávat Používané řešení - nestrukturová data bývají doplněna daty strukturovanými Přibližné objemy dat Stránka textu ASCII 1800 B Stránka textu - Word Vektorová grafika A4 Bitmapový obraz A4 jpg Záznam 1 minuty zvuku Záznam 90 minut obrazu 50 kb 30 kb 5 MB 10 MB 3 GB 5
Souborový a databázový přístup Datová základna - samostatná část informačního systému (IS) měla by co nejlépe obstát při změnách v IS návrh datové základny - pohled na to, co datová základna obsahuje - odpovídá pohledu na skutečnost, ve které se odehrává činnost podniku nebo organizace. Základní pojmy databázových struktur: záznam (record) - množina údajů v datové základně, které se týkají jednoho reálného objektu (věci, jevu, osoby, děje - např. záznam o konkrétním druhu zboží), atribut - zaznamenaná vlastnost reálného objektu - např. název zboží, jeho váha, rozměry, barva, materiál, datum výroby, trvanlivost, 6
Historicky první aplikace ukládá svá data do jednoho či několika datových souborů Soubor obsahuje záznamy o jednom typu objektů ve formě datových vět Hodnoty atributů v jednom záznamu se nazývají položky Omezení Souborový a databázový přístup Souborový přístup každá aplikace si udržuje svá data problémové využívání týchž dat pro různé aplikace (např. adresa bydliště nutnost opakovaných změn dat v řadě souborů při přestěhování) přístup je koncipován pro jednoúkolové zpracování (při zpracování několik úloh současně mají různé aplikace potíže) Levnější, než databázový přístup 7
Souborový a databázový přístup Souborový přístup Organizace vět v souboru položky tvoří strukturu záznamu (v aplikačním programu) záznamy se ukládají jako věty do souboru Hodnoty atributů v jednom záznamu se nazývají položky Omezení souborového přístupu koncipován pro jednoúkolové zpracování těsná vazba struktury dat na aplikační program 8
Základní pojmy pro zpracování dat Entita - každý objekt, jev, událost a pod., který je pro nás ve vymezeném systému z nějakého důvodu významný a který označujeme vhodným jménem Typ entity - vymezuje celou množinu objektů Výskyt entity individuum, jeden objekt z typu entity Atribut významná vlastnost či souhrn významných vlastností typu entity Primární klíč - slouží k vzájemnému rozlišení výskytů entit stejného typu Příklad: Typ entity - "student TU Liberec" Atributy - např. jméno, datum narození, číslo indexu, studijní obor, ročník, číslo OP, výška, znalost cizích jazyků, r.č., Výskyt entity - každý ze studentů TU Liberec Primární klíč - číslo OP nebo číslo indexu 9
Základní pojmy pro zpracování dat datová věta - je datovým obrazem jednoho výskytu entity, obsahuje primární klíč datová položka - zobrazuje, resp. vyjadřuje hodnotu jednoho z atributů PK hodnota A1 hodnota A2 hodnota A3... primární klíč jednotlivé datové položky datový soubor - datový obraz všech výskytů entit stejného typu datová základna - souhrn datových souborů v systému (ve většině informačních systémů je datově zobrazeno více typů entit) vlastní data - konkrétní udávané hodnoty jednotlivých atributů 10
Souborový a databázový přístup Databázový přístup Základní princip Koncepce oddělení dat od aplikací a svěření jejich správy do databáze Databáze spravuje a řídí datovou základnu Jednotlivé aplikace, pokud chtějí nějaká data uložit nebo přečíst, žádají o tuto službu databázi 11
Souborový a databázový přístup Databázový přístup Databáze Aplikace 1 Data Aplikace 3 Aplikace 2 12
Souborový a databázový přístup Databázový přístup Požadavky na databázový systém: sdílení dat - odstranění redundance a paralelní přístup Každý údaj je v databázi pouze jedenkrát a mohou k němu přistupovat různé aplikace; různé aplikace obecně mohou do databáze přistupovat paralelně (zároveň) nezávislost aplikací na změnách ve fyzickém uložení dat, abstraktní pohled na data, možnost definice datových typů, centrální popis dat Fyzické uložení dat spravuje systém řízení báze dat (SŘBD) - pro přístup k datům nabízí aplikacím a uživatelům nástroje, s jejichž pomocí mohou vyjádřit, jaká data požadují. ochrana dat před neoprávněným přístupem a poškozením Různí uživatelé mají různá přístupová práva do databáze; databáze má být schopna ochránit data i před výpadky elektřiny, poruchami různých zařízení apod. 13
Souborový a databázový přístup Databázový přístup Požadavky na databázový systém: kontrola konzistence dat Databáze má být schopna zajistit dodržování určených pravidel (tzv. integritních omezení) a zabezpečit data před případnými nehodami, které mohou vzniknout v průběhu transakcí Transakce je posloupnost manipulací s daty, která musí proběhnout celá, aby data byla uložena "správně". Např. převod z jednoho účtu na jiný účet v bance musí proběhnout jako odpovídající změny na obou účtech. velké objemy dat Relativně k možnostem paměťových medií musí být databáze schopna uchovávat odpovídající objem dat. 14
Souborový a databázový přístup Správa dat - etapy vývoje Souborový (agendový) přístup Databázový (systémový) přístup UŽIVATEL UŽIVATEL UŽIVATEL UŽIVATEL APLIKACE APLIKAČNÍ PROGRAMY SŘBD SOUBOR DAT BÁZE DAT 15 F
Souborový a databázový přístup Databázový přístup Velké databázové systémy - firmy ORACLE, INFORMIX, SYBASE - nákladné Menší (cenově dostupnější) databázové systémy - MS Access, Paradox, FoxPro ("malé" databázové systémy - dostupné zcela zdarma, př. MySQL) jazyk SQL - standard, umožňující využívání datových zdrojů spravovaných různými databázovými systémy Tvorba datové základny IS organizace - složitá záležitost, vyžadující péči lidí s různým odborným zaměřením. Při návrhu konceptuálního schématu datové základny se rozhoduje o tom, co v datové základně bude Během provozu IS je pro uživatele důležité, zda umí datovou základnu využívat jako informační zdroj. 16
Souborový a databázový přístup Požadavky z hlediska počítačových IS Horizontální a vertikální integrace informací Rychlé agregování informací od nižších stupňů řízení Racionální prezentace informací v čase, formě a prostoru Odpovídající časová frekvence Potřebný rozsah uchovávaných informací 17 F
Organizace dat - soubory a databáze Datová hierarchie Databáze Soubor Zpracování transakcí dávkové zpracování zpracování on-line Věta, record Atribut, pole Byte Bit 18
Návrh strukturované datové základny Realita, jejímž odrazem má být navrhovaná datová základna, se skládá z různých objektů neboli entit Mezi sledovanými entitami mohou existovat různé vztahy Vztah mezi entitami stejného typu rekurzivní vztah Kardinalita vztahu - symbolické označení 1:1, 1:n nebo m:n 1:1 pedagog A má manželku B 1:n pedagog A přednáší studentům CCC m:n studenti CCC navštěvují přednášky pedagogů DDD 19
Návrh strukturované datové základny Integritní omezení datové základny veškerá pravidla, vymezující přípustné hodnoty (a kombinace hodnot) atributů přípustné hodnoty, formát zobrazení Relační model dat předpokládá existenci jednohodnotových atributů představa zobrazení formou relační tabulky, ve které odpovídá pojmu n-tice řádek a pojmu atribut sloupec 20
Návrh strukturované datové základny Relační databáze všechna data mají tvar jedné nebo více tabulek s pojmenovanými sloupci každý sloupec obsahuje data z jedné domény (tj. jednoho datového typu) prvky jednotlivých sloupců (jimž je dáno jméno a typ) se nazývají obvykle položky nebo pole a pojem řádek splývá s pojmem záznam (věta) Relacemi ve smyslu relačního modelu dat se obecně popisují jak entity, tak vztahy mezi nimi. terminologicky rozlišujeme mezi: "entitní relace" - množiny uspořádaných n-tic atributů popisujících samotné entity a "vztahové relace - množiny uspořádaných n-tic 21
Datové sklady Datový sklad (anglicky Data Warehouse, případně DWH) je zvláštní typ relační databáze, která umožňuje řešit úlohy zaměřené převážně na analytické dotazování nad rozsáhlými soubory dat. Datové sklady (Warehouse) dva hlavní záměry: Sjednocení pohledu na data v jednotlivých tzv. produkčních systémech poskytuje přehledný přístup k datům celé organizace rozličně nazývané jedny a tytéž objekty jsou viděny jako objekt jeden různě měřené stejné veličiny (peníze, množství, čas,...) jsou měřeny stejným měřítkem (ve stejných jednotkách) Poskytování souhrnů tj. statistik, přehledů vývoje, porovnání analytické pohledy na sumární skutečnosti různých dimenzí 22
Datové sklady K definici rozdílu mezi běžnou relační databází a datovým skladem se obvykle používá následujících charakteristik (dle W. Inmona): Orientace na subjekt - u běžné relační databáze je obvyklá snaha o co nejmenší redundanci uložení dat. V datovém skladu je řešení vždy vedeno snahou o vnitřní separaci jednotlivých funkčních celků - za cenu zvýšených nároků na paměťový prostor. Integrovanost - Běžná provozní aplikace (program) nad relační databází řeší určitý specifický okruh úloh nad svými specifickými daty. V datovém skladu je třeba shromáždit informace z mnoha různých zdrojů a seskupit je podle logického významu. Nízká proměnlivost - Data jsou do datového skladu obvykle nahrávána ve větších dávkách (například v denních nebo týdenních intervalech) a pak již nejsou nijak modifikována. Historizace - Data jsou v datovém skladu obvykle udržována v historické podobě, nikoliv pouze v aktuálním stavu. To je dáno nutností provádění analýz zaměřených na vývoj v čase. 23