MANAŽERSKÁ INFORMATIKA

Transkript

1 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti VYSOKÁ ŠKOLA REGIONÁLNÍHO ROZVOJE PRAHA MANAŽERSKÁ INFORMATIKA Ing. Josef Brzák, CSc PRAHA

2 Název: Manažerská informatika Autor: Ing. Josef Brzák, CSc Počet stran: 148 Studijní opory určené pro studenty kombinované formy studia Studijní program Regionální rozvoj, obor Management a regionální rozvoj Studijní opory byly zpracovány v rámci Inovace bakalářského studijního programu v kontextu Boloňského procesu s důrazem na výsledky učení OPERAČNÍ PROGRAM Praha Adaptabilita registrační číslo CZ.2.17/3.1.00/32599 Tato publikace neprošla redakční jazykovou úpravou Vydala v elektronické podobě Vysoká škola regionálního rozvoje Praha Žalanského 68/ Praha 17 isp@vsrr.cz Praha

3 Obsah Titulní strana Úvod do předmětu Informatika Informační systémy Informatika a Manažerská informatika Základní pojmy teorie informace Podstata a pojem informace Charakteristické znaky informace Sémiotické pojetí informace Pojem entropie Omezení kvantitativního přístupu k informacím Kvalitativní pojetí informace Počítačové sítě Pojem počítačová síť, typologie počítačových sítí Základní druhy přenosů Zabezpečení dat Protokol IP adresa Adresa v síti Internet Informační systémy, charakteristiky, projektování provoz a údržba Charakteristika informačního systému Druhy informačních systémů Význam a způsoby budování informačních systémů Projektování, provoz a údržba informačních systémů Etapy životního cyklu informačního systému Typy životních cyklů vývoje systému Obecné, správní a policejní informační systémy Databáze

4 5.1. Typy databází Souborové databáze Hierarchické databáze Databáze objektové Síťové databáze Relační databáze Tabulkové vyjádření relace a její vlastnosti Indexování dat Redundance dat Systémy řízení báze dat Centralizované databáze Systémy na sítích osobních počítačů Databáze v lokální síti PC (File server) Databázové systémy klient/server Systémy distribuovaného zpracování Sdílený přístup k datům Datové sklady budování a způsoby práce Data v datovém skladu Budování datového skladu Datové sklady a OLAP Struktura datového skladu Funkce datového skladu Plnění datového skladu Datové kostky Datové sklady nejen pro vrcholový management Dobývání dat z databází (data mining) Data mining Datová pumpa jako nástroj pro Data mining Postup při dolování dat Metody dobývání dat Informační analýza Použití technik dobývání dat

5 7.7. Softwarové produkty pro dobývání dat Dolování dat a datové sklady Potenciální nebezpečí DM Zálohování a archivace dat v IS Zálohování dat v IS Zálohování dat Způsoby zálohování dat Strategie zálohování dat Archivace dat v informačních systémech Dlouhodobá archivace dat Kriteria pro archivování dat Životnost archivovaných dat Přístup k archivovaným datům Bezpečnost IS a počítačová kriminalita Úvod Druhy škod a jejich ohodnocování Základní pojmy ochrany dat a informací Informační rizika Bezpečnostní incident Klasifikace rizik Cesty k minimalizaci rizika a výskytu incidentů Způsoby ztrát, úniků důležitých informací a jejich získávání pachateli Cesty a způsoby úniku informací Využití technických prostředků k získávání informací Úniky a ztráty v automatizovaných informačních systémech Počítačová kriminalita Rozdělení počítačové kriminality Software (počítačové programy) Typy pachatelů Boj proti počítačové kriminalitě Informace a právo v současné Evropě Literatura

6 PRŮVODCE STUDIJNÍ OPOROU Studijní opora Manažerská informatika je určena studentům studijního oboru Management a regionální rozvoj, kteří studují v kombinované formě studia. Kombinovaná forma studia předpokládá zvládnutí části předmětu formou samostudia. Z těchto důvodů tato forma studia vyžaduje přípravu speciálních studijních textů a dalších studijních pomůcek. Předložená opora nahrazuje přímou výuku vybraných častí kurzu. Obsahuje kontrolní otázky, klíčová slova k zapamatování, kontrolní otázky za každou kapitolou a stručné shrnutí textu jednotlivých částí studijních opor. Otázky v závěru kapitol mají kontrolní funkci vzhledem k pochopení textu a jsou zároveň přípravou na zkoušku. Oporu si lze průběžně doplňovat na základě vlastního studia doporučené literatury, osvojených znalostí z předchozího studia, stáží, studijních pobytů, neformálního studia, pracovních zkušeností s cílem vytvořit si vlastní studijní materiál. Studijní texty jsou členěny do 9 kapitol, které pokrývají oblasti vztahující se k základům Manažerské informatiky. Cílem textů je osvojit si základní informace k hlubšímu studiu. Předmět seznamuje studenty se základními pojmy v interdisciplinárním oboru informatika a její úlohou v managementu, učí je teorii i praxi uplatnění moderních informačních technologií při budování a provozu informačních systémů. V úvodní kapitole jsou stručně popsány základní terminologické pojmy, Informatika, Informační systémy, Manažerská informatika a Výpočetní technika Druhá kapitola se zabývá základními pojmy z teorie informace jako jsou Podstata a pojem informace, Charakteristické znaky informace, Sémiotické pojetí informace, Kvantitativní a kvalitativní pojetí informace, Sociální informace. Třetí kapitola je věnována problematice počítačových sítí, kde jsou stručně popsány základní pojmy a rozdělení počítačových sítí, základní formy přenosů, zabezpečení dat,. hardware počítačových sítí a aktivní prvky počítačových sítí, síťové technologie, protokoly, internetovské služby Čtvrtá kapitola se zabývá širší problematikou Informačních systémů a jejich vztahem ke struktuře a procesu managementu. Tvorba a budování struktury informačních systémů za využívání moderních informačních technologií. Životní cyklus informačních systémů, efektivnost inovací. Zdroje informací, přenosové kanály, uživatelé veřejné správy s důrazem 6

7 na vyšší management. Informační proces s důrazem na analyzování informací pro rozhodování managementu státní správy, měst a významných obcí. V páté kapitole jsou stručně popsány Databázové systémy, Historie vývoje databází, Datové modely od souborových architektur až po současné nejrozšířenější relační a dále Systémy řízení báze dat od centralizovaného zpracování po distribuované systémy na sítích počítačů Šestá kapitola se zabývá rozsáhlou problematikou datových skladů, popisuje jejich typickou strukturu a její návrh,analýzu požadovaných funkcí, Přístupová práva, Budování datového skladu, popisuje vztah analytického procesu vzhledem k obsahu skladu, Formu uspořádání dat, a vazbu skladu na management Sedmá kapitola je věnována nejvýznamnější funkci datového skladu dolování dat, Formalizovaným postupům, metodám a informační analýze používaných při dolování dat. Dále jsou stručně popsány dva softwarové produkty nejčastěji užívané dolování dat. Osmá kapitola je věnována základům velmi důležité činnosti zálohování a archivace dat v IS, jsou popsány nejčastější příčiny ztráty dat, způsoby zálohování a strategie zálohování. V druhé části je vysvětlen pojem archivace dat a rozdíly mezi archivací a zálohováním. Devátá kapitola je věnována Informační bezpečnosti a kybernetické kriminalitě. Jsou popsány základní pojmy ochrany dat a informací, jaká jsou informační rizika, nejčastější bezpečnostní incidenty s krátkou klasifikací rizik a možnými cestami k jejich minimalizaci. Způsoby ztrát, úniků informací a jejich získávání pachateli,využití technických prostředků k získávání informací z automatizovaných IS. Poslední část se zabývá Počítačovou kriminalitou, její historií a důvody vzniku. V desáté kapitole jsou uvedeny základní právní předpisy a nařízení platné v současné době týkající se práce s informacemi. Obsah opory je do jisté míry kompilací názorů různých autorů, včetně jejich sestavitele, text je třeba přijímat jako souhrn poznatků a doplňovat si jejich tvrzení aktuálními názory. Snahou autora bylo dosažení pokud možno stručné úrovně této rozsáhlé problematiky a přizpůsobení skutečnosti, že většina studentů kombinované formy studia má vlastní zkušenosti z pracovního či služebního zařazení. Leden 2012 Ing Josef Brzák, CSc 7

8 1. Úvod do předmětu 1.1. Informatika Vědní obor zabývající se strukturou, vlastnostmi (ne obsahem) technologií zpracování informací, které podporují lidské znalosti (vědění) a komunikaci. Předmětem informatiky je nalézání obecných zákonitostí vytváření informace, její transformace, přenos a využívání v příslušných činnostech člověka. Studuje zákonitosti, teorie, metody a organizace práce s informacemi. Zajímá ji významová stránka a nehodnotí informace kvalitativně na rozdíl od teorie informace. Využívá se jí v počítačové vědě (ta se zabývá zpracováním dat), což často vede k tomu, že je mylně chápána či dokonce ztotožňována jako pouhé počítačové zpracovávání dat. Cílem informatiky je propracovat optimální způsoby a prostředky pro zobrazení, shromažďování, analytické a syntetické zpracování, ukládání, vyhledávání a rozšiřování informací. Proto jsou základním nástrojem v informatice počítače, přenosová technika a počítači řízená technika (informační a komunikační technologie). Informatika navazuje na kybernetiku, dříve mnohem populárnější Obecně se informatika dělí na: teoretickou - sem patří teorie informace, teorie automatů, numerická analýza, metodologie zpracování dat, organizace informačních procesů systémovou - architektura počítačů, informačních systémů, sítí apod., technologickou - zabývá se naukou o materiálech, využitelných pro výrobu součástí počítačů (paměti, polovodiče apod.), aplikovanou - zahrnuje všechny oblasti praktického využití ICT a automatizovaného zpracování informací. a využívání dat Počátky informatiky sahají do r. 1966, kdy dostala své jméno ve Francii (informace + automatika), ale svůj zrod má v USA. Formulovala se jako protipól k empirickému přístupu řešení přechodu od mechanizace k automatizaci při zpracovávání informací. Je tedy vědou interdisciplinární. Lze říci že Informatika je věda, zkoumající zpracovávání a komunikaci informací ve společnosti, operace s informacemi pomocí soudobé výpočetní a přenosové techniky a odpovídající metody. Pojem informace je však nejobecnější kategorií vědy a k jejímu zkoumání přistupuje každý vědní obor svým zvláštním způsobem. Stejně tak existují různé definice informace, 8

9 v závislosti na jejím odlišném pojetí. Z laického pohledu je informace sdělením či zprávou. Z filozofického hlediska je vlastností hmotné reality být uspořádán a její schopnost uspořádávat. Často uváděnou je definice z pohledu kybernetiky, od jejího zakladatele N. Wienera: Informace je obsah toho, co se vymění s vnějším světem, když se mu přizpůsobujeme a působíme na něj svým přizpůsobováním. Výkladový slovník výpočetní techniky uvádí velmi stručnou definici : Informace je význam, který člověk přisuzuje údajům. (ČSN /I-1987). Informace je poznatek týkající se jakýchkoli objektů, např. fakt, událostí, věcí, procesů nebo myšlenek, včetně pojmů, který má v daném kontextu smysl. (ČSN ISO/IEC ). Podle P. F. Druckera : Informace jsou data, obohacená o relevantnost a účelnost, přeměna dat v informace tudíž vyžaduje znalost. Tak by bylo možno uvést ještě řadu dalších definic, jak již z výše uvedených hledisek, tak např. z oblasti lingvistiky, matematiky, estetiky, teorie poznání či komunikace. Správná informace by měla být: levná integrovaná soustředit informace do jednoho místa dostupná hierarchické třídění a full-textové vyhledávání zabezpečení proti zneužití a poškození intuitivní přizpůsobení uživatelům efektivní a pružná 1.2. Informační systémy IS jsou - účelové uspořádání vztahů mezi lidmi, datovými zdroji a procedurami jejich zpracování (včetně technologických prostředků). IS slouží - ke sběru, přenosu, uchování, transformaci, aktualizaci a poskytování dat pro jejich informační využití lidmi. V 70. letech došlo ke vzniku prvních systémů řízení bází dat a datových modelů, které umožnili vzájemné sdílení dat. Postupně se pro soubor aplikací sdílejících data, včetně jich samých, vžil termín informační systém. Snad každý se již s tímto pojmem setkal, avšak jen málokdo přesně ví, co tento pojem znamená, jaké různé typy informačních systémů existují. Většina z nás si pod pojmem informační systém představí nějaký program, např. pro 9

10 zpracování účetnictví. Tato představa je však velmi nepřesná. Pod informačním systémem musíme chápat celou soustavu zdrojů, prostředků a lidí. Informační systém = celek zabezpečující systematické shromaždování, zpracovávání, uchovávání a zpřístupňování informací. Zahrnuje informační základnu, technické a programové prostředky, postupy, technologie a pracovníky (Encyklopedický slovník, 12). Jak vyplývá z výše uvedené definice, účelem informačního systému je sběr, přenos, aktualizace, uskladnění, zpracovávání a prezentace informací s cílem zajistit co nejvyšší efektivitu práce organizace a jejích zaměstnanců. Informační systém můžeme chápat v širším a užším smyslu. V širším smyslu zahrnuje vytváření, zprostředkování a využívání informací. V užším smyslu zahrnuje pouze systém zprostředkování informací. Pokud jde o klasifikaci informačních systému, existuje zde řada hledisek, podle nichž je možno ji provést, od komplexnosti, přes účel až po vztah k systému řízení. Podle posledního hlediska, které je nejčastěji zmiňováno, je možno informační systémy klasifikovat za pomoci informační pyramidy, která posuzuje informační systémy na základě růstu informační neurčitosti na straně výstupu systému. Podrobněji o informačních systémech viz kap Informatika a Manažerská informatika I. Etapa 70. léta zpracování technických informací, hromadné evidenční zpracování dat II. Etapa 80. léta soustava manažersky založených doporučení pro postupy aplikace IS/IT III. Etapa 90. léta využití prostředků VT a IT k zabezpečení kvality manažerské práce IV. Etapa Současnost propojení poznatků moderního managementu, informatiky a systémových přístupů (viz obr č.1) V osmdesátých letech byl používán především odborníky v USA z oblastí informačních technologií a využití výpočetní techniky pojem informační management. Interpretovali ho v širším kontextu především jako racionální manažerské přístupy, metody a postupy pro zabezpečování hospodárných postupů přípravy, zpracování a využití údajů. Spojení informatiky a managementu se v manažerské literatuře se používá v různých interpretacích. Především se zdůrazňuje využití prostředků výpočetní techniky a informačních technologií k zabezpečení kvalitní manažerské práce v různých funkčních oblastech firmy. Základní cíle informačního managementu jsou tedy odvozeny z potřeby manažerů správně a včas stanovit a návazně zabezpečit dosažení cílů firmy resp. jejich organizační části. 10

11 SYSTÉMOVÉ PŘÍSTUPY MANAŽERSKÁ INFORMATIKA INFORMATIKA MANAGEMENT Obr. č. 1 Propojení manažerské informatiky na okolí Pojetí využití informatiky může být různorodé: samostatné, jen jako zkoumání uvnitř informačních problémů, se vztahem k jiným vědním disciplínám, zejména ve vztahu k procesům řízení společnosti (managementu či společenských procesů), pro důležitou úlohu informací v tomto procesu. Nové možnosti informačních technologií jsou spojovány s významem informací, které mají nejenom v managementu, ale vůbec v organizaci jako přirozeném systému. V této souvislosti se pak stále více prosazuje názor, že tvůrčí a zároveň významově rozhodující manažerská práce je založená na individuálních schopnostech zpracovat i interpretovat informace. Jen manažer je schopen identifikovat svoji individuální informační potřebu a svými myšlenkovými pochody zpracování informací zvládnout takové nestandardní procesy jako je tvorba a implementace podnikatelské strategie, pružných organizačních struktur apod. Základní teze o poslání informačního managementu je tedy odvozena z potřeby manažerů správně a včas stanovit a návazně zabezpečit dosažení cílů firmy resp. jejich organizační části. Z terminologického hlediska to lze vystihnout nejen již zmíněným pojmem dělat správné věci (effectiveness), ale dělat je i hospodárně ( efficiency ). Jde přitom i o správné pořadí. Nejprve umět správně rozhodnout a pak toto rozhodnutí umět hospodárně 11

12 realizovat. Pro manažery nejsou přitom přirozeně moderní informační systémy cílem, nýbrž efektivním prostředkem, který jim má pomáhat umožnit, usnadnit, zhospodárnit a především zkvalitnit jejich jednání. Základní myšlenka informačního managementu jako odborné disciplíny spočívá v současné době v účelném interdisciplinárním propojení manažersky relevantních, samostatně pojímaných oblastí. Tj. managementu, informatiky a systémových přístupů. Nezbytnou složkou Manažerské informatiky je její systémový přístup k řešení problémů. Tento systémový přístup zamezuje jejich prosté aglomeraci, ale vytváří tvůrčí syntézu k zabezpečení informačních procesů manažerské práce. Jak teorie, tak praxe stále zřetelněji prokazují význam neformalizovaných a neformálních aspektů informačních systémů a na rostoucí význam znalostí manažerů i dalších pracovníků podniku. Úloha informačního manažera není omezována na pouhé technologické aspekty a rozšiřuje se o poznávací aktivity včetně široké podpory informačních procesů uvnitř organizace. Existuje celá řada definic managementu (I.Látal). Management lze vysvětlovat ve třech rovinách:1. jako vedení lidí 2. specifická funkce manažerů 3. odborná disciplína Pro účely tohoto kurzu může být vhodná následující : Management je proces systematického provádění manažerských funkcí a efektivního využití všech zdrojů instituce ke stanovení a dosažení jejích cílů. Nebo jinak vyjádřeno : Managament - je disciplinou, návodem, který je třeba zvládnout (P.F.Drucker), - je účinné řízení, tj. dělání věcí správným způsobem, - je ucelený soubor ověřených přístupů, názorů, zkušeností, doporučení a metod, jež jsou nezbytné k dosažení podnikatelských cílů organizace. Komponenty systémového přístupu : Systém účelově definovaná množina prvků a vazeb nimi, jež vykazují určité vlastnosti Prvek nedělitelná část celku Vazba spojení mezi prvky nebo množinami Struktura způsob uspořádání vazeb mezi prvky systému Okolí systému množina prvků, které nejsou zahrnuty do systému Vstup/Výstup množina vazeb, jejichž prostřednictvím prvek nebo systém je ovlivňován, nebo projevuje své vnější působení 12

13 SHRNUTÍ KAPITOLY Stručný popis základních terminologických pojmů: Informatika, Informační systémy, Manažerská informatika a Výpočetní technika Informatika - věda o vlastnostech informace, metodách její tvorby, zpracování a využívání. Vývoj informatiky od hromadného zpracování dat do současného systémového pohledu. Informace - každá zpráva, sdělení, které zmenšuje neurčitost (entropii) o daném problému (systému). Manažerská informatika - spojení informatiky a managementu Výpočetní technika technické zabezpečení automatizovaného informačního systému Komponenty systémového přístupu : Systém, Prvek, Vazba, Struktura, Okolí systému, Vstup, Výstup Pohledy na informatiku z hlediska : - Teoretická disciplína - Aplikační disciplína - Informace - Data Pojem data a informace 13

14 SEZNAM KLÍČOVÝCH SLOV K ZAPAMATOVÁNÍ Informatika, Informace, Číselné soustavy, Bit, Byte, Hexadecimální soustava, ASCI, Počítač, Hardware, Software, Operační systém, Directory (adresář), Data, Program, Překladač, Strojový kód, Device KONTROLNÍ OTÁZKY 1. Co je informatika 2. K čemu slouží z hlediska managementu informační technologie. 3. Jaké jsou složky manažerské informatiky KONTROLNÍ TEST Vysvětlete rozdíl mezi pojmy data a informace. Co rozumíte pod pojmem informační systém. Vysvětlete rozdíl mezi Informatikou, Výpočetní technikou, Informačním managementem a Manažerskou informatikou 14

15 VÝSTUPY Z UČENÍ Po prostudování textu a vypracování úkolů v rámci této kapitoly BUDETE UMĚT Definovat co to je informatika a její základní pojmy Definovat pojem informační systém ZNALOSTI BUDETE SCHOPNI SCHOPNOSTI se orientovat v typech informačních systémů, mít přehled o vývoji informatických disciplin ve 20. stol identifikovat, popsat a porozumět vztahu Informatika a Manažerská informatika. ZÍSKÁTE DOVEDNOSTI Pohled na vztah informatiky a informačních systémů, Strukturované informace a úvod do vzniku Manažerské informatiky 15

16 2. Základní pojmy teorie informace 2.1. Podstata a pojem informace Informace obsahuje výsledky lidské poznávací činnosti. Dosažený stupeň poznání a jeho realizace v praxi charakterizuje, do jaké míry člověk ovládá přírodu, techniku, hospodářství, společenské procesy a sebe sama. Rozvoj vědy a techniky, rozvoj společnosti vcelku, úroveň vztahů mezi systémy i rostoucí složitost všech oblastí společenského života jsou neoddělitelně spjaty s růstem objemu informací a informačních toků. Čím složitější je systém, čím různorodější jsou vazby mezi jeho prvky, tím větší objem informací musí zpracovat a tím početnější jsou toky informací mezi prvky a okolím systému. V soudobém chápání je informace adekvátním libovolným sdělením, přičemž zdroji i příjemci informace mohou být jak živé organismy, tak i technická zařízení. Informace vzniká zpravidla na jednom místě, ale využívá se na jiném. Proto je pojem informace spjat s pojmem jejího přenosu. Pro přenos informace od zdroje k příjemci je třeba mít materiálně energetického nositele. Tímto nositelem je signál, který představuje určitý fyzikální proces, probíhající v prostoru a čase. Aby mohl vzniknout informační systém, musí existovat: soustava znaků a pravidel jejich použití soubor objektů a jevů s jejich označením (jmény) množina komunikujících subjektů (příjemci,odesilatelé), kteří komunikují pomocí znakové soustavy množina pojmů, úsudků,obrazů v paměti příjemců a odesilatelů. Tato zásoba významů (tezaurus) je podmínkou vzájemné výměny informací. Přesná a jednoznačná definice pojmu informace není dosud vypracovaná. Existuje mnoho přístupů a definic, které spolu souvisejí a které se zabývají teorií informace z různých hledisek. Z hlediska potřeb praxe a důkladného pochopení pojmu informace je možné definovat informaci takto: Informace je ta část zprávy (sdělení), resp. taková zpráva, která směřuje od zdroje k příjemci a ten ji potřebuje pro plnění svých úkolů; obsahuje něco nového - originálního, o

17 čem příjemce nevěděl, čím se rozšiřují jeho vědomosti a znalosti, týkající se zobrazované reality a zároveň se odstraňuje nebo alespoň snižuje stupen neurčitosti jeho chování. Je příznačné, že informace není jakoukoliv vědomostí, ale vědomostí obsaženou ve zprávě. Představuje sdělení, zprávu, tj. takovou znalost, pro kterou existuje příjemce, který ji může využít, tj. stává se informací. Informace je tvořena tou částí znalosti, která je využívána k orientaci, k aktivnímu jednání, k řízení s cílem zachování, zdokonalování a rozvoje systému Charakteristické znaky informace informace není totožná s hmotou ani energií může uchovávat svou životnost (existenci) nezávisle na trvání jevu, jehož se týká (může se např. týkat jevu, který již neexistuje nebo který teprve nastane) může být přenášena v čase a prostoru pomocí nositele informace a uchovává se; jedna a tatáž informace může mít mnoho nositelů informace plní svou praktickou funkci tehdy, když je směrována od zdroje k příjemci a příjemce ji obdrží. Informace cirkuluje v uzavřeném řetězci řízení. Řídící cyklus je realizovatelný jen pomocí informačního procesu, který umožňuje postupný přechod mezi jednotlivými stadii řídícího cyklu. V orgánech státní správy má informace rozhodující význam. Bez organizovaného informačního systému nemůže žádná ze složek státní správy úspěšně řešit své úkoly. Na kvalitě informací závisí správnost zhodnocení operativní situace, optimálnost přijímaných rozhodnutí, plánování opatření, srozumitelné přenesení úkolů vykonavatelům, úspěšné organizování i operativní řízení bezpečnostních akcí, efektivnost kontroly Sémiotické pojetí informace Teorie informace je exaktní vědní disciplína, jejímž předmětem zkoumání jsou podstata a formy informace a obecné zákonitosti procesů přenosu a zpracování informací. Obecně lze informace a informační procesy zkoumat ze dvou hlavních hledisek: 16

18 a) z obecně teoretického hlediska, které se zabývá těmi zákonitostmi informace, jež platí pro jakýkoliv informační proces, b) se zřetelem ke konkrétním informačním systémům, neboť každá informace je informací jen vzhledem k určitým systémům, tedy každý systém specifikuje své informace a své informační procesy. Každá informace zahrnuje dvě stránky: a) kvantitativní tato stránka informace vyjadřuje množství informace obsažené ve zprávě. V tomto smyslu je informace veličinou, která vyjadřuje hodnotu snížení neurčitosti chování u příjemce, tj. hodnotu rozdílu mezi neurčitostí před přijetím a zbytkem neurčitosti po přijetí informace. b) kvalitativní - tato stránka informace vyjadřuje smysl, obsah a význam informace z hlediska potřeb a zájmů příjemce. Teorie informace vznikla jako kvantitativní matematická teorie, jejímž tvůrcem je C. E. Shannon. Vychází z teorie pravděpodobnosti a využívá statistické a matematické metody k popisu jevu a procesů. Její matematické vyjádření umožnilo určit jednotku pro měření množství informace a číselně vyjádřit míru uspořádanosti nebo stupeň organizovanosti procesů a systémů. Shannon chápal informaci jako snížení míry neurčitosti. Matematicko-statistická teorie studuje množství informace v mezích vnitřní struktury systému, používaných znaků a vzájemných statistických vztahů, přičemž nebere v úvahu jejich funkční a obsahovou stránku. Uvnitř matematické teorie informace se začaly postupně rozvíjet sémantické a pragmatické koncepce, které zkoumají nejen formální pravidla ale i pojmovou, obsahovou a významovou stránku informace, neboli jde o kvalitativní chápání informace. Za moderní východisko zkoumání informace lze označit její tzv. sémiotické pojetí. (Sémiotika je vědní obor, zabývající se studiem znakových systémů). Dělí se na: syntax - zabývá se vnitřní strukturou soustavy znaků nezávisle na jejich funkci; sémantiku - zabývá se systémem znaků. jakožto prostředkem vyjadřování smyslu; pragmatiku - zabývá se vztahy systémů znaků k těm, kdo jich používají. Z tohoto hlediska lze členit teorii informace na následující základní speciální oblasti : 17

19 Syntaktická teorie informace se zabývá vzájemnými vazbami mezi znaky v informaci, tj. jejich spojením, skladbou slov a vět ve smyslu formálních jazykových pravidel. Exaktně zkoumá informační procesy na syntaktické úrovni, tj. zkoumá především elementy zpráv a jejich vztahy navzájem. Jde o pojetí podle pravidel skladby vět a slov příslušného jazyka. Lze sem zařadit i zkoumání přenosových kanálů, jejich kapacity, spolehlivosti atd. Sémantická teorie informace se zabývá významem, obsahem informace. Vychází z obsahové a pojmové stránky slov (symbolů, znaků) vzhledem k zobrazované realitě. Analyzuje vztahy mezi elementy zpráv a tím, co je jimi označováno, resp. zabývá se mírou smyslu - významu, který má informace pro odesilatele i příjemce. Pragmatická teorie informace se zabývá účelem informace, vyjadřuje její hodnotu se zřetelem na vyvolaný účinek u uživatele resp. příjemce informace. Zkoumá závislosti mezi informací, jejím příjemcem a cílem, který si vytkl. Pragmatičnost čili užitečnost zprávy je v tomto pojetí kritériem hodnoty informace. Pokud jde o sémantické a pragmatické pojetí informace, jedná se o méně propracovanou oblast teorie informace. Je to způsobeno obtížností měřit a vyjádřit kvalitativní hodnotu informace z hlediska jejího obsahu, významu a vyvolaného účinku příjemce. Tyto nesnáze plynou z rozmanitosti sémantické a pragmatické interpretace jednotlivých jazykových elementů a z obtížnosti exaktně vyjádřit vztahy mezi znaky v informaci a jejich pojmovým obsahem Pojem entropie K dalšímu kvantitativnímu měření množství informace podle statistické teorie C. E. Shannona potřebujeme znát pojem entropie. Entropie je matematická funkce, jejíž hodnota souvisí s hodnotou pravděpodobnosti dané soustavy tak, že maximum entropie odpovídá nejpravděpodobnějšímu stavu. Vyjadřuje tendenci soustavy přecházet z méně pravděpodobných stavů (uspořádaných) do stavů pravděpodobnějších (méně uspořádaných). Všechny samovolné děje probíhají ve směru růstu entropie až po dosažení její maximální hodnoty. Entropie tedy dosahuje svého maxima, když všechny stavy prvků systému jsou stejné pravděpodobné. U každá soustavy lze mluvit o její uspořádanosti, která může být malá nebo velká. Soustava, která je neuspořádaná, se skládá z volné seskupených prvků, jež lze libovolně 18

20 přeskupit, aniž by se tím změnila uspořádanost soustavy. Není to vlastně již systém, ale pouhý konglomerát - seskupení prvků. Všechny prvky takového seskupení mohou mít vcelku stejnou funkci a jejich vzájemné vztahy (vazby) nejsou pevné ani složité. Entropie je množství, resp. míra neurčitosti, neuspořádanosti soustavy. Je mírou nedostatečné (chybějící) informace o stavu nebo chování systému. V uzavřených soustavách, tj. v těch, ve kterých neprobíhá výměna hmoty, energie ani informace s okolím, probíhá nevratně růst entropie, soustavy snižují svou uspořádanost a dosahují trvalé - statické rovnováhy. Otevřené soustavy uchovávají stupeň své uspořádanosti pomocí vratných procesů výměny hmoty, energie a informace s okolím a dosahují neustále dynamické rovnováhy. Soustava uchovává svou organizovanost odsáváním pořádku z okolí. Informace je (podle Ashbyho) to, co odstraňuje entropii a měří se množstvím odstraněné entropie. Podle Shannona je entropie H číselně rovna záporně vzatému součtu součinů pravděpodobností i-tého jevu a jejího příslušného dvojkového logaritmu: H = - p i * log 2 p i. kde i je pravděpodobnost i-tého jevu. Množství informace je číselně rovno rozdílu entropie soustavy před a po obdržení zprávy, což lze vyjádřit vztahem : I = H 0 H 1 kde I - je množství informace získané přijetím zprávy H 0 - je neurčitost před přijetím zprávy H 1 - je zbytek neurčitostí, čili množství neodstraněné entropie po přijetí zprávy V teorii informace je množství informace I zkoumáno jako číselná veličina vyjádřená v binárních jednotkách (bitech). Obdobně jako v desítkové soustavě máme k dispozici 10 číslic (0 9) a pak dochází přenosu do vyššího řádu, máme v binární (dvojkové) soustavě k dispozici 2 číslice, tj, 0 a 1. V podstatě představuje soustava dvouhodnotovou logiku : odpověď ANO - NE. Jednotkou množství informace a tedy i entropie je 1 bit. Množství informace 1 bitu si lze představit jako zprávu o události, která má pouze dva stejně pravděpodobné stavy 19

21 (výsledky), což znamená, že za měrnou jednotku bylo vzato množství informace ve zprávě o události, jež má pravděpodobnost rovnu 0,5. 1 bit je takové množství informace, které odstraňuje neurčitost při dvou různých, ale stejně pravděpodobných možnostech, jde tedy o množství informace obsažené v odpovědi na otázku, která má jen dva možné a stejně pravděpodobné stavy : ANO nebo NE. I = log 2 N log 2 2 = 1 N = počet stejně pravděpodobných jevů 2.5. Omezení kvantitativního přístupu k informacím Omezení se na čisté kvantitativní, formální teorii informace, abstrahování od její sémantiky, pragmatiky a konečně i emocionálního významu vede k určitému omezení obsahu i rozsahu informace. V oblasti řízení jsme nuceni analyzovat a řešit složité problémy, kdy obíhají informace různých kvalit, jmenovitě společenské informace, což předpokládá nejen kvantitativní logické ale i emocionální a volní aspekty. Zatím není dostatečné rozvinut matematický aparát teorie informace, aby bylo možno zkoumat podstatu informace, její význam, hodnověrnost, aktuálnost a jiné charakteristiky, které se stanoví subjektivně a které tvoří její lidské ocenění. To má souvislost s algoritmizovatelností procesů. V praktické činnosti orgánů řízení se často používají různé metody hodnocení hodnověrnosti a aktuálnosti informace. Používají se různé grafy, které umožňují stanovit stárnutí informace. Všechny tyto metody mají empirický charakter a nejsou zbaveny subjektivismu. Subjekt v závislosti na stupni poznání dostává z okolí různé množství sdělení. Záleží na jeho kvalifikaci, zkušenostech popř. dalších okolnostech, jak velké množství informace je v té či oné zprávě pro něj obsaženo. Zlepšení připravenosti může množství informace ve zprávě nejen zvyšovat, ale i snižovat. Jestliže je zdrojem informací konečná struktura, která se v daném časovém úseku nemění, pak množství informace obsažené ve zprávě bude nepřímo úměrné kvalifikaci příjemce, tj. na množství dříve nashromážděné a zpracované informace. 20

22 2.6. Kvalitativní pojetí informace Kvalita informace je obecně dána těmito kriterii: účelností, úplností, hodnověrností, srozumitelností, přesností a včasností. Účelnost je daná tím, do jaké míry je informace způsobilá k využití v rámci rozhodovacího procesu, ke kontrole plnění úkolů, v plánování, organizování, operativním řízení apod. Úplnost informace vyjadřuje do jaké hloubky a šířky zobrazuje objektivní realitu (určitý jev, proces, systém apod.). Tento požadavek je důležitý pro vlastní rozhodovací proces, protože neúplnost snižuje hodnotu informace a zvyšuje entropii u příjemce. Hodnověrnost informace je zvláště důležitá. Rozhodnutí přijímaná na základě málo hodnověrných informací jsou často nesprávná a mají negativní dopady. Z této skutečnosti plyne potřeba prověřování informací. Srozumitelnost má též své opodstatnění z hlediska její kvality. Závisí na vyjadřovacích schopnostech a na používání jasných pojmů a také na logické a konkrétní formulaci ze strany zdroje informace. Malá srozumitelnost a nejasnost informace ji může znehodnotit a způsobit její nepoužitelnost. Přesnost informace se týká především údajů v ní uvedených ať už jde o čísla, rozměry, polohu, množství apod. Přesnost těchto údajů má velký význam v procesu rozhodování a při zpracování podkladů pro řídící činnost. Včasnost informace je jednou z nejdůležitějších vlastností z hlediska její kvality. Týká se to zejména bezpečnostních a vojenských informací. Při opožděném obdržení se často ztrácí aktuálnost informace a snižuje se možnost operativního provedení účinných opatření, což je zejména v oblasti boje s trestnou činností velmi nežádoucím jevem. Hodnota a užitečnost informace je z hlediska potřeb řízení zabezpečena jen v případě kdy: 1. informační systém je úzce propojen s řídícím systémem, 2. výběr informací je optimalizován, což znamená, že řídící systém není přesycen nadměrným množstvím a vysokou frekvencí informací a že budou vybírány a zpracovávány obsahově nejvýhodnější soubory a struktury informací, 3. informační tok je nepřetržitý, plynulý a bezporuchový, nevyskytují se informační mezery (informační vakuum) a je minimalizován informační šum, tj. zkreslení, zkomolení a deformace informaci. 21

23 Sémantický a pragmatický obsah informace je dán tím, jak informace jednoznačně a konkrétně zobrazuje určitý děj, jev, proces, událost, systém apod. Čím je tento obsah objektivnější, hlubší a obsažnější, tím je informace kvalitnější a vhodnější pro využití v procesu rozhodování. Zajímavý je názor vyjadřovat kvalitu informace mírou, v jaké slouží ke splnění daného cíle. Informace je hodnotná pokud napomáhá dosažení vytčeného cíle. Jedna a tatáž informace může mít různou hodnotu, zkoumáme-li ji z hlediska využití k různým cílům. Hodnota informace se vyjadřuje pomocí rozdílu pravděpodobností dosažení cíle před jejím získáním a po něm. Je zřejmé, že hodnota informace může být měřena pomocí přírůstku míry dosažení cíle pouze v tom případě, že sám cíl je přesně určen. Existují i jiné pokusy o hodnocení kvality informace, ve všech případech je však vždy snaha o takovou formalizaci, aby logicko-matematická forma, v níž je informace vyjádřena, co nejvíce odpovídala obsahu samotných objektů informace. Zde však zatím nebylo dosaženo úspěchů, protože hodnota informace vystupuje jako kvalitativní jev, který je, jak již bylo řečeno v části o sémantické a pragmatické teorii informace, obtížně formalizovatelný a algoritmizovatelný. Tatáž informace má pro různé subjekty různou hodnotu. Hodnota totiž nese subjektivní stopy cílů, zájmů a potřeb subjektu, který informace využívá. 22

24 SHRNUTÍ KAPITOLY Podstata a pojem informace Informace obsahuje výsledky lidské poznávací činnosti. Dosažený stupeň poznání a jeho realizace v praxi charakterizuje, do jaké míry člověk ovládá přírodu, techniku, hospodářství, společenské procesy a sebe sama. V soudobém chápání je informace adekvátním libovolným sdělením, přičemž zdroji i příjemci informace mohou být jak živé organismy, tak i technická zařízení. Z hlediska potřeb praxe a důkladného pochopení pojmu informace je možné definovat informaci takto: Informace je ta část zprávy (sdělení), resp. taková zpráva, která směřuje od zdroje k příjemci a ten ji potřebuje pro plnění svých úkolů; obsahuje něco nového - originálního o čem příjemce nevěděl, čím se rozšiřují jeho vědomosti a znalosti, týkající se zobrazované reality a zároveň se odstraňuje nebo alespoň snižuje stupen neurčitosti jeho chování. Charakteristické znaky informace : informace není totožná s hmotou ani energií může uchovávat svou životnost (existenci) nezávisle na trvání jevu, jehož se týká (může se např. týkat jevu, který již neexistuje nebo který teprve nastane) může být přenášena v čase a prostoru pomocí nositele informace a uchovává se; jedna a tatáž informace může mít mnoho nositelů informace plní svou praktickou funkci tehdy, když je směrována od zdroje k příjemci a příjemce ji obdrží. Sémiotické pojetí informace Teorie informace je exaktní vědní disciplína, jejímž předmětem zkoumání jsou podstata a formy informace a obecné zákonitosti procesů přenosu a zpracování informací. Obecně lze informace a informační procesy zkoumat ze dvou hlavních hledisek: 1) z obecně teoretického hlediska, 2) se zřetelem ke konkrétním informačním systémům 23

25 Každá informace zahrnuje dvě stránky: a) kvantitativní. b) kvalitativní. a) Kvantitativní pojetí informace Množství informace ve zprávě je závislé jednak na pravděpodobnosti výskytu jevu (události), jednak na pravděpodobnosti jejího doručení příjemci bez zkomolení (znehodnocení). Pojem entropie - entropie je matematická funkce, jejíž hodnota souvisí s hodnotou pravděpodobnosti dané soustavy tak, že maximum entropie odpovídá nejpravděpodobnějšímu stavu. Entropie je množství, resp. míra neurčitosti, neuspořádanosti soustavy. Je mírou nedostatečné (chybějící) informace o stavu nebo chování systému. b) Kvalitativní pojetí informace Kvalita informace je obecně dána těmito kriterii: účelností, úplností, hodnověrností, srozumitelností, přesností a včasností. Přesnost informací. Včasnost a operativnost informací. Optimalizace nákladů na získání informací. Stručnost a logičnost vyjádření informací. Užitečnost informaci. 24

26 SEZNAM KLÍČOVÝCH SLOV K ZAPAMATOVÁNÍ Podstata a pojem informace, Charakteristické znaky informace, Sémiotické pojetí informace, Kvantitativní pojetí informace, Kvalitativní pojetí informace, Pojem sociální informace, Druhy sociální informace, Úloha informací v řízení společnosti, Požadavky na sociální informace KONTROLNÍ OTÁZKY 1. Co je podstatou informace 2. Jak se měří množství informace 3. Co jsou sociální informace 4. Úloha informací v řízení společnosti KONTROLNÍ TEST Jak se číselně vyjádří množství informace obsažené ve zprávě 25

27 VÝSTUPY Z UČENÍ Po prostudování textu a vypracování úkolů v rámci této kapitoly BUDETE UMĚT ZNALOSTI Rozlišit pojmy Syntaktická teorie informace, Sémantická teorie informace, Pragmatická teorie informace Rozlišit různé druhy a pojetí informace a jejich úlohu v řízení společnosti Seznámíte se se způsobem kvantitativního měření informace BUDETE SCHOPNI SCHOPNOSTI Pochopit význam informace v řízení společnosti a její úlohu v managementu ZÍSKÁTE DOVEDNOSTI Představu o podstatě a pojmu informace která obsahuje výsledky lidské poznávací činnosti. A jejího vlivu na dosažený stupeň poznání a jeho realizace v praxi. 26

28 3. Počítačové sítě 3.1. Pojem počítačová síť, typologie počítačových sítí Zejména v posledních letech stále roste potřeba a význam komunikačních prostředků a služeb. Využívání sítí je důležitým předpokladem pro úspěšnou činnost podniků. Ve vývoji výpočetní techniky došlo k mnoha mezníkům, jedním z nich byl právě vznik počítačových sítí. Síť = komunikace mezi dvěma či více stranami, která má stanoveny určitá pravidla pro dorozumívání se, mluvíme tzv. o standardech a protokolech sítí. Např. u počítačových sítí jsou těmito stranami počítače a další fyzická příslušenství, u lidské komunikace člověk apod. Skupina počítačů a dalších zařízení (například tiskárny a skenery) propojená komunikačními linkami umožňujícími vzájemnou interakci jednotlivých zařízení v síti. Sítě mohou být malé i rozsáhlé, trvale propojené dráty nebo kabely anebo dočasně připojené prostřednictvím telefonních linek nebo bezdrátového přenosu. Nejrozsáhlejší je síť Internet, která představuje skupinu sítí na celém světě. Podstatou komunikace v rámci počítačových sítí je výměna informací mezi dvěma nebo více účastníky. Přenášenou informací může být zvuk, obraz nebo textová data. Informace nemusí být pouze přenášeny, ale také sdíleny. Počítačovou síť lze obecně definovat jako soustavu vzájemně propojených počítačů. V počítačové síti můžeme rozlišit dva typy stanic: pracovní stanice zpracování dat může uživatel provádět podobně jako na osobním počítači a navíc může využívat služby poskytované sítí. servery oproti pracovní stanici server poskytuje uživatelům vlastní prostředky (tiskárny, atd.). Základní součásti sítě Nejdůležitějšími součástmi sítě jsou: hardware sítě všechny technické prostředky, které síť využívá (tiskárny, scannery, ) a dále sem můžeme zařadit i technické prostředky, díky kterým dochází ke spojení jednotlivých počítačů (síťové adaptéry)

29 síťový software jedná se o programové vybavení, může mít různou podobu v některých operačních systémech jsou síťové služby přímo jejich součástí, u jiných OS jde o dodatečné programové vybavení. Software sítě - LINUX, Windows server, Novell Počítače pro práci v síti - specializované servery organizační zajištění činnosti mezi toto zajištění můžeme zařadit například opatření, která zajišťují správu sítě nebo soubor pravidel chování uživatelů. Mezi nejvýznamnější výhody počítačových sítí patří: sdílení dat neboli společné užívání dat, umožňuje zpracování dat na více počítačích současně, data mohou být umístěna na servery a ostatní uživatelé k nim mají přístup prostřednictvím sítě. sdílení prostředků nejčastěji se jedná o diskové jednotky nebo tiskárny, ale v úvahu přichází i sdílení procesoru nebo programů. zvýšení spolehlivosti systému. Počítačové sítě je možné rozlišit podle mnoha kritérií: 1. podle rozsahu Podle rozsahu můžeme rozdělit sítě na LAN (Local Area Network), MAN (Metropolitan Area Network), WAN (Wide Area Network). Jedná se o vůbec nejznámější dělení. Přesné vymezení těchto pojmů ovšem neexistuje. Jako rozlišující kritérium se používá zejména geografická oblast, ve které jsou počítače rozmístěny. LAN je síť, která se rozprostírá v jedné nebo několika místnostech nebo v jedné či několika sousedních budovách. Vzdálenost mezi počítači je v desítkách, maximálně stovkách metrů. Ke spojení se využívají UTP (kroucený dvoupár) kabely a optické kabely. MAN je označení pro síť většího rozsahu, která pokrývá území podniku nebo města. WAN je tvořena určitým počtem sítí LAN, které jsou spojeny datovými okruhy. Touto sítí mohou být propojeny celé kontinenty. Dalším rozdílem mezi výše uvedenými typy sítí je druh uzlových počítačů. U sítě LAN se využívají zejména osobní počítače. Naproti tomu u sítí WAN se jedná o tzv. střediskové počítače, tedy počítače se sítí terminálů. Zpráva je doručena do uzlového počítače a uschována do doby, než si ji adresát vyzvedne. Další odlišností je účel, ke kterému je síť využívána. V případě LAN se jedná o možnost sdílení souborů a databází. U WAN je hlavním cílem přenos zpráv a dat na větší vzdálenost. 28

30 2. podle topologie Sběrnice tento typ využívá zejména Ethernet. Existují 2 typy 10Base-2 a 10Base-5. Rozdíl spočívá v druhu použitého kabelu a jeho délce (viz obr č.1). obr. č. 1 Topologie typu sběrnice Kruh podstatou je zde to, že vysílací část jednoho uzlu je zapojena do přijímací části uzlu následujícího (viz obr č.2). Obr. č. 2 Topologie typu kruh Hvězda je současným trendem zapojování počítačových sítí. Spoje koncových přípojných uzlů jsou vedeny do centrálního uzlu. Tato struktura je vhodná i pro telefonní ústředny (viz obr č.3). Obr. č. 3 Topologie typu hvězda 29

31 3. podle charakteru komunikace Podle tohoto kritéria můžeme sítě rozdělit na spojové a nespojové. Resp. sítě s navazováním spojení nebo bez navazování spojení. Nespojové Příkladem jsou technologie založené na broadcastu = všesměrovém vysílání (viz obr č.4). Obr. č. 4 Všesměrové vysílání Spojové zde je příkladem technologie ATM. Před zahájením komunikace musí dojít vytvoření trvalého nebo dočasného spojení (viz obr č.5). Obr. č. 5 Přepínané (komutované) vysílání 4. podle principu komunikace Stochastické metody jsou založeny na náhodném přístupu k médiu. Příkladem je Ethernet. Jednotlivé uzly se pokoušejí komunikovat bez jakéhokoli pořadí. Deterministické metody jsou založeny na řízení přístupu k médiu. Po síti je přenášen paket (tzv.token). Uzel, který chce komunikovat musí počkat, až k němu token dorazí. Paket je přenosová jednotka síťových vrstev OSI (Open Systems Interconnection) skládající se z binárních informací reprezentujících data a záhlaví obsahující identifikační číslo, zdrojovou a cílovou adresu a data pro řízení chyb. 30

32 5. podle použitého přenosového média V současnosti je nejpoužívanějším médiem v sítích LAN kroucený dvoupár (UTP). Dále se využívá strukturovaná kabeláž. Před nedávnem byl nejvyužívanějším médiem koaxiální kabel. Jeho nevýhodami je náchylnost k poruchovosti a technologická omezení (rychlost). Na větší vzdálenosti se využívají optické kabely. Používají se zejména tam, kde je třeba vést spojení venkovním prostředím Základní druhy přenosů Můžeme se setkat s různými formami přenosů signálů, které mohou být modulovány a kódovány. Paralelní a sériový přenos Data jsou přenášena po více bitech najednou. Používají se k tomu souběžné (paralelní) vodiče. Nejčastějším příkladem je přenos mezi počítačem a tiskárnou. V počítačových sítích se využívá zejména sériový přenos. Data jsou přenášena postupně bit po bitu. Sériový asynchronní přenos Při asynchronním sériovém přenosu mohou být jednotlivé znaky přenášeny s libovolnými časovými odstupy mezi sebou, příjemce pak ovšem nemůže předem vědět, kdy začíná další znak a proto musí být schopen jeho příchod podle vhodného příznaku rozpoznat. Tímto příznakem je tzv. start bit, kterým začíná každý asynchronní přenášený znak. Za vlastními datovými bity může následovat jeden tzv. paritní bit, a konečně tzv. stop bit (závěrný prvek). Asynchronnímu způsobu přenosu se někdy říká také start-stop přenos. Sériový synchronní přenos Při tomto přenosu jsou přenášeny celé bloky znaků a to bez jakýchkoli časových odstupů. Tento přenos je rychlejší než přenos asynchronní. Parita Při sériovém i paralelním přenosu může dojít k chybám. V těchto případech se využije způsob, při kterém se datové bity doplní dalším bitem tak, aby celkový počet jedniček byl lichý (tzv. lichá parita) nebo naopak sudý (sudá parita). Příjemce ale musí vědět, zda mu odesilatel posílá data se sudou nebo lichou paritou. 31

33 3.3. Zabezpečení dat Nejčastěji se k tomu využívají tzv. bezpečnostní kódy. Původní znaky se podle určitých pravidel transformují na znaky jiného typu. Tyto transformované znaky se pak přenesou a příjemce je převede zpět do původního stavu. Rozlišujeme 2 typy bezpečnostních kódů: 1. detekční kódy umožňují rozpoznat, že přijatý znak je chybný, 2. samoopravné kódy kromě toho, že rozpoznají chybu, ji umí i opravit. Nejjednodušší detekční kód (zabezpečení sudou nebo lichou paritou) přidává k datovým bitům jeden další bit a dokáže detekovat chybu v jednom bytu. Samoopravný kód přidává ke každému 8-bitovému bytu navíc pět bitů. V praxi je výhodnější nezabezpečovat proti chybám jednotlivé znaky, ale celé postoupnosti znaků resp. celé přenášené bloky dat. K tomu se využívá tzv. podélná parita nebo kontrolní součet. Nejúčinnější formou je ovšem použití tzv. cyklických kódů CRC. Princip spočívá v tom, že se průběžně vypočítává zabezpečovací údaj, který se porovnává s údajem, který takto vypočítal i odesilatel. Pokud se oba údaje shodují, jsou data správná Protokol Sada pravidel a konvencí pro posílání informací v rámci sítě. Tato pravidla určují obsah, formát, čas a způsob zpracování a řízení chyb zpráv vyměňovaných mezi síťovými zařízeními. Počítače připojené k Internetu mezi sebou komunikují na základě sady protokolů a tyto protokoly jsou definovány v referenčním modelu OSI (Open System Interconnection). Na základě referenčního modelu ISO OSI byl ve zjednodušené míře použit tento model na protokol TCP a IP. Jeho sloučením vznikl známý protokol TCP/IP, který právě pro svoji univerzálnost a spolehlivost používají dnes sítě typu policejního Intranetu nebo globálního Internetu. Model OSI má 7 vrstev (fyzickou, linkovou, síťovou, transportní, relační, prezentační, aplikační). Jde o 7vrstvý referenční model ISO OSI, slouží k popisu komunikačních systémů. Počítače v Internetu komunikují na základě TCP/IP protokolů (Transmission Control Protocol/Internet Protocol). 32

34 TCP = protokol transportní vrstvy modelu OSI převádí zprávy do sekvence paketů na zdrojovém uzlu a pak je znovu sestavuje do původních zpráv na cílovém uzlu sítě. TCP / IP Transmission Control Protocol / Internet Protocol. Sada síťových protokolů používaných v síti Internet, která poskytuje komunikaci v rámci vzájemně propojených sítí tvořených počítači s různou hardwarovou architekturou a různými operačními systémy. Protokol TCP/IP zahrnuje standardy pro komunikaci počítačů a konvence propojování sítí a směrování provozu. TCP (Transmission Control Protocol) - realizace virtuálního spojení mezi uzly sítě IP = protokol síťové vrstvy modelu OSI obhospodařuje adresování, pakety jsou směrovány nejen přes uzly, ale i přes řadu sítí s různými komunikačními protokoly (NCP, Ethernet, FDDI, X.25 apod.). IP protokol (Internet Protocol). Směrovatelný protokol ze sady protokolů TCP/IP, který slouží k adresování, směrování a fragmentaci a opětovnému složení paketů IP v síti. IPX / SPX Internet Packet exchange / Sequenced Packet exchange TCP/IP protokoly zvoleny jako nejuniverzálnější prostředek k propojení počítačů na různých HW platformách a s různými OS. Pro UNIX TCP/IP znamená začlenění do heterogenního síťového prostředí. ICMP (Internet Control Message Protocol) - řešení chybových stavů při doručování. Protokol údržby sady protokolů TCP/IP, který slouží k hlášení chyb a umožňuje jednoduchá propojení. Protokol ICMP je používán nástrojem ping při řešení potíží s protokolem TCP/IP. ARP (Adress Resolution Protocol) protokol pro mapování IP adres (logické adresy) 4 byty na HW adresy síťových adaptérů (fyzické adresy) 6 byte. Protokol, který v rámci protokolu TCP/IP používá všesměrové vysílání v místní síti k překladu logicky přiřazených adres IP na jejich adresu fyzického hardwaru nebo vrstvy pro řízení přístupu k médiím. RARP (Reverz Adress Resolution Protocol) - reverzní ARP (bezdiskové pracovní stanice) UDP (User Datagram Protocol) - zajišťuje přenos paketů s daty TELNET - Protokol terminálové emulace často používaný v síti Internet pro vzdálené přihlášení k síťovým počítačům navozuje iluzi práce na lokálním terminálu v interaktivním režimu. Protokol Telnet také odkazuje na aplikace, které používají tento protokol pro uživatele, kteří se přihlašují ze vzdáleného umístění. FTP (File Transfer Protocol) - člen sady protokolů TCP/IP používaný ke kopírování souborů mezi dvěma počítači (i na různých platformách) v síti Internet. Oba počítače musí podporovat příslušné role protokolu FTP: jeden musí být klientem a druhý serverem 33

35 HTTP (HyperText Transfer Protokol). Protokol používaný k přenosu informací na webu. Adresa HTTP (jde o typ adresy URL Uniform Resource Locator) má následující formát: Jazyk HTML (Hypertext Markup Language). Jednoduchý kódový jazyk sloužící k vytváření hypertextových dokumentů, které lze přenášet mezi platformami. Soubory HTML jsou jednoduché textové soubory ASCII, v nichž jsou vloženy kódy určující formátování a hypertextové odkazy. Hypertextový odkaz. Barevně označený a podtržený text nebo obrázek, na který lze klepnout a přejít tak k souboru, do určitého umístění v souboru nebo umístění na stránce ve formátu HTML v síti Internet či intranet. Hypertextové odkazy lze používat také v diskusních skupinách, v rámci nástrojů Gopher, Telnet nebo na serverech FTP. Ve složkách systému Windows jsou hypertextové odkazy textové odkazy, které jsou zobrazeny v levém podokně složky. Klepnutím na tyto odkazy můžete provádět určité činnosti, například přesunout nebo kopírovat soubory nebo přejít na jiné umístění v počítači, například do složky Dokumenty nebo do Ovládacích panelů IP adresa Adresování v TCP / IP IP adresy IPv4 xxx.xxx.xxx.xxx IPv6 xxx.xxx.xxx.xxx.xxx.xxx Každý počítač (ethernetové zařízení) má v síti Internet přidělenou IP adresu. IP adresa je 32- bitové číslo, které se zapisuje jako čtveřice čísel, např IP adres je 2 32, tedy něco přes 4 miliardy. IP adresa : jednoznačná identifikace síťového rozhraní v Internetu. Je to 32bitová adresa sloužící k identifikaci uzlu v rámci propojení sítí IP. Každému uzlu v propojení sítí IP musí být přidělena jedinečná adresa IP, která je tvořena identifikátorem sítě a identifikátorem hostitele. Adresa je obvykle reprezentována desítkovými hodnotami jednotlivých oktetů (velikost 4 byte) oddělených tečkou (tzv. Tečková notace ), například V XP verzi systému Windows lze adresy IP konfigurovat staticky nebo dynamicky prostřednictvím protokolu DHCP. 34

36 IP adresa se skládá ze 2 částí: 1) adresa lokální sítě; 2) adresa počítače v lokální síti Adresa v síti Internet Adresa URL (Uniform Resource Locator) Adresa, která jednoznačně identifikuje umístění v síti Internet. Adrese URL na webu předchází označení jako například ve fiktivní adrese URL Adresa URL může obsahovat podrobnější údaje, například název hypertextové stránky, obvykle identifikovaný příponou HTML nebo HTM. Adresa prostředku v síti Internet, která je webovými prohlížeči používána k vyhledání prostředku v síti Internet. Internetová adresa obvykle začíná názvem protokolu, za ním je uveden název organizace, která server spravuje a přípona určuje, o jaký typ organizace se jedná. Z adresy lze například zjistit následující informace: http: Tento webový server používá protokol HTTP (Hypertext Transfer Protocol). www: Tento server je umístěn na webu. edu: Jedná se o vzdělávací instituci. 35

37 SHRNUTÍ KAPITOLY Pojem síť Skupina počítačů a dalších zařízení (například tiskárny a skenery) propojená komunikačními linkami umožňujícími vzájemnou interakci jednotlivých zařízení v síti. Sítě mohou být malé i rozsáhlé, trvale propojené dráty nebo kabely anebo dočasně připojené prostřednictvím telefonních linek nebo bezdrátového přenosu. Důvody pro návrh a realizaci sítí počítačů : sdílení dat a jejich snadný přenos sdílení prostředků zvýšení funkčnosti organizace - dokonalejší ochrana dat Druhy počítačových sítí Podle rozlohy: lokální sítě globální sítě metropolitní sítě Topologie počítačových sítí sběrnicové uspořádání hvězdicové uspořádání kruhové uspořádání páteřní uspořádání - Local Area Network - Wide Area Network - Metropolitan Area Network bus topology star topology ring topology backbone Software sítě - LINUX, Windows server, Novell Počítače pro práci v síti - specializované servery Navzájem propojené počítače s centrálním počítačem (server) tzv. topologie klient - server. Tento centrální počítač je vybaven speciálním softwarem (LINUX, Windows server, Novell). Výhody internetu Celosvětová dostupnost; Snadno nalezitelné přes katalogy a vyhledávače, Interaktivnost - webové stránky reagují přesně na požadavky a podněty, Snadné a rychlé aktualizace umožňují udržovat webové stránky stále aktuální, Snadné ovládání i pro slabší uživatele, Rychlá komunikace - především prostřednictvím elektronické pošty, u, 36

38 Snadná navigace pomocí odkazů, Přímý prodej přes internet, tzv. E-shop, Nízká cena vytvoření stránek a jejich provozu. Nevýhody internetu Nedostatečná rychlost (velký počet uživatelů, nedostatečný hardware), Drogy, výbušniny, Chování uživatelů (nedododržování nepsaných pravidel "NetEthics"), Bezpečnost obchodu (možnosti podvodů). Využití internetu a management Největší potenciál pro management mají WWW stránky a elektronická pošta. Střední využití je u diskusních skupin, elektronických konferencí a IRC (Internet Relay Chat Jako příklady komerčního využití internetu je možné uvést: firemní prezentace na trhu, elektronická pošta (fre s), specializované servery odborné servery s nejrůznějšími informacemi, E-commerce servery nákup, prodej a platby přes internet. 37

39 SEZNAM KLÍČOVÝCH SLOV K ZAPAMATOVÁNÍ Lokální sítě, globální sítě, metropolitní sítě, topologie sběrnicová, hvězdicová, kruhová, páteřní, software sítě, protokol, server, Internet, IP adresa KONTROLNÍ OTÁZKY 1. Základní druhy sítí 2. Síťové protokoly 3. Vznik a důvody vzniku Internetu 4. Úloha serveru v síti KONTROLNÍ TEST Co to je topologie počítačových sítí a jaké rozeznáváte druhy sítí 38

40 VÝSTUPY Z UČENÍ Po prostudování textu a vypracování úkolů v rámci této kapitoly BUDETE UMĚT Popsat pojem počítačová síť, její základní součásti, funkce a typologii. Se orientovat v pojmech software sítě, protokol, server, Internet, IP adresa ZNALOSTI BUDETE SCHOPNI SCHOPNOSTI Budete schopni definovat pojem počítačová síť. Uvědomíte si výhody internetu, nevýhody internetu a využití internetu v managementu ZÍSKÁTE DOVEDNOSTI Přehled o důvodech vzniku počítačových sítí, a jejich základní funkcích a způsobech práce. 39

41 4. Informační systémy, charakteristiky, projektování provoz a údržba 4.1. Charakteristika informačního systému Informační systém je soubor lidí, technických prostředků a metod, zabezpečujících sběr, přenos, uchování a zpracování dat za účelem tvorby a prezentace informací pro potřeby uživatelů. Norma ČSN/ISO IEC 23821: Informační systém je systém zpracování informací spolu s návaznými organizačními prostředky (personálem, technickými prostředky). Takový systém získává a distribuuje informace. Zákon č. 256/1992 Sb., o ochraně osobních údajů: Informační systémem se rozumí funkční celek, který zabezpečuje cílevědomé a systematické shromažďování, zpracování, uchovávání a opětovné zpřístupňování informací. Informační systém by měl obsahovat: tvorbu základní databáze na systémové úrovni, kdy soubory mají přesně definované struktury, chráněné před nahlížením do jejich obsahu a především pak před neoprávněnou změnou jejich obsahu, systém chránící integritu údajů a souborů, zaručující dokončení každé transakce i při poruše počítače nebo výpadku elektřiny, jednotný systém výběru informací, který pozná strukturu souborů a vazbu v nich uložených dat (systém přístupu k údajům a výstupu požadovaných informací), současný přístup, který je sdílený k údajům v souborech pro více uživatelů, kteří právě potřebují systém využívat ve stejnou dobu, prostředky pro jednotnou, centralizovanou správu dat v souborech, které jsou jádrem, základem informačního systému, možnost vytváření složitých hierarchických datových struktur, propojujících údaje z více souborů, kdy se odstraňuje redundance, ukrytí struktur souborů i mechanismu vybírání údajů z nich podle požadavků, prostředky pro popis dat v jednotlivých souborech a vazeb mezi nimi, což je relační systém

42 4.2. Druhy informačních systémů V rámci struktury členíme informační systémy podle různých hledisek: Podle zdrojů informací informace vnější informace vnitřní Podle vztahu k procesu řízení direktivní metodické sdělovací Ve vztahu k místu uložení banky dat systému vlastní vnitřní paměť pracovníků Podle nositele dat noviny, časopisy, patenty elektronické banky dat počítačů Podle věcného obsahu bibliografické referenční faktografické Podle příjemce informací zpracovatelé přepracovávají informace do podoby využitelné zejména řídícími subjekty v podobě direktivní či metodické informace sdělené manažerem uživatelé, vykonavatelé využívají informací ke konkrétnímu účelu EIS Executive Information system úlohy orientované na podporu vrcholového řízení organizace podpora globálních a strategických rozhodnutí zajišťuje výběr a zpracování nejdůležitějších dat ze všech podstatných oblastí v organizaci MIS Management Information system úlohy podporující zejména taktickou úroveň řízení a částečně i operativní úroveň slouží středním řídícím vrstvám řeší zejména logistické a personální činnosti 41

43 TPS Transaction Processing System úlohy spojené bezprostředně s informační podporou výrobních činností a služeb slouží pro podporu operativního řízení DSS Decision Support System úlohy podporující obvykle taktické rozhodování a opírající se o optimalizační a simulační programy používání tabulkových programů (spreadsheets) Expertní systémy založeny na systému pravidel, které pomáhají méně zkušeným pracovníkům při řešení úloh diagnostického charakteru využívání technologie umělé inteligence - AI OIS Office Information System úlohy pro podporu individuální práce uživatele podpora typických kancelářských činností EDI Electronic Data Interchange úlohy zajišťující elektronickou výměnu dat CIS Customer Information System informační podpora styku se zákazníky RIS Reservation Information System úlohy podporující různé rezervace 4.3. Význam a způsoby budování informačních systémů Dva důvody budování IS: efektivnost informačního systému okamžitá přístupnost veškerých potřebných informací Postup budování informačního systému: plánování (specifikace) identifikace problémů, možností a cílů definování informačních potřeb analýza systémových potřeb návrh doporučeného systému 42

44 vývoj a dokumentace softwaru zavádění a testování provoz a údržba Způsoby budování informačního systému nákupem hotového aplikačního programu jeho vybudováním vlastními silami zadáním projektu a jeho realizaci odborné firmě nájem programového vybavení 4.4. Projektování, provoz a údržba informačních systémů Strategie projektování IS: Souběžná strategie činnost starého systému pokračuje s novým několik týdnů či měsíců, dokud nový systém nepracuje zcela spolehlivě náročnost na pracovní kapacity Pilotní strategie systém se zavede jen v jednom oddělení a teprve po ověření se zavede naráz v celé instituci průběžné odstraňování problémů Postupná strategie použití u rozsáhlejších systémů se složitými vzájemnými vazbami časově náročná Nárazová strategie starý systém ukončí činnost v pátek, sobota a neděle se věnuje přeměně a v pondělí zahájí činnost systém nový 4.5. Etapy životního cyklu informačního systému I. Předanalytická fáze zadání požadavku 43

45 studie proveditelnosti specifikace požadavků II. Analýza (system analysis) jedná se o modelování budoucího systému na konceptuální úrovni III. Návrh (system design) realizuje se modelování budoucího systému na technologické úrovni IV. Vývoj systému (system development) psaní a testování počítačového software vývoj vstupních a výstupních formulářů a konvencí V. Implementace systému uvedení systému (hardware i software) do provozu jeho instalace, školení operátorů a uživatelů VI. Správa systému další vývoj funkcí a struktury systému dolaďování jeho výkonu VII. Údržba systému úprava systému při jeho provozování podle nově vzniklých požadavků uživatele 4.6. Typy životních cyklů vývoje systému A. Vývojový cyklus vodopád Analýza--- návrh--- vývoj--- testování--- instalace--- provoz přehlednost, jednoduchost, jasná posloupnost etap projektu B. Fontánový typ analýza--- návrh--- vývoj--- testování--- instalace--- provoz po dosažení vyšší etapy se vracíme k předchozí etapě řešení projektu - minimalizace chyb v průběhu řešení C. Přírůstkový vývojový cyklus analýza--- definice--- specifikace--- vývoj--- instalace--- provoz architektury přírůstku přírůstku přírůstku 44

46 existuje zde zpětná vazba od uživatele D. Síťový typ dosahuje časových úspor umožněním současného řešení některých etap projektu E. Spirálový typ postupné zdokonalování systému dalšími verzemi kombinace vodopádového modelu s přírůstkovým vývojem Lidský faktor v informačních systémech lidský činitel je rozhodující prvek informačního systému na vzdělávání je nutné počítat nejméně s 10 % pracovní doby je nutné se zabývat výchovou lidí, nejen jejich školením 4.7. Obecné, správní a policejní informační systémy Obecné informační systémy pomocí jich lze získat faktografické údaje pro práci bezpečnostní resortu, hledat a ověřovat fakta pro vyšetřování a dokazování trestného činu, nalezení a usvědčení pachatele. Mají různý charakter, formu uchovávání a zpracování informací s různými věcnými a provozními gestory a možnostmi zpřístupnění. Jedná se např. o informační systémy bank, pojišťoven, leasingových společností, resortu sociální, zdravotního finančního, registr katastrů a nemovitostí, obchodní rejstřík, informační systém právní podpory (ASPI, JURIX, atd.), elektronické knihovny, otevřené zdroje tisk, knihy, jízdní řády, seznamy, Internet a další. Civilně správní informační systémy tyto systémy vedou orgány státu jako základní informační zdroje pro výkon státní správy. Jedná se především o referenční databáze, které obsahují základní identifikační údaje o osobách, dokladech, vozidlech, zbraních a atd., Patří sem: registr obyvatel, registr vozidel, evidence občanských průkazů, cestovních a diplomatických pasů, řidičských oprávnění, zbrojních průkazů. Údaje z těchto evidencí nejsou přístupné veřejnosti, jsou ale často sdíleny institucemi státní správy. Jsou základem, určitým jádrem dalších informačních systémů, včetně systému policejních a zpravodajských. Z těchto evidencí jsou pro potřeby ostatních informačních systémů přebírány garantované identifikační údaje o osobách, dokladech, vozidlech a jiné. Cílem je zjednodušení a zefektivnění základních informačních toků, zaručení vysoké kvality 45

47 dat, vyloučení duplicit, minimalizace nákladů na provoz informačních systému, úspora času úřední, ale i občanů. Policejní a zpravodajské informační systémy Tyto systémy provozuje Policie ČR a další bezpečnostní služby při provádění specifických činností, ke kterým jsou ze zákona příslušné. Informační systému této kategorie jsou až na nepatrné výjimky mimo bezpečnostní resort běžně nepřístupné. Toto je garantovány např. využitím jen v rámci vnitřní sítě, např. u Policie ČR sítě INTRANET, kde je zabezpečeno přihlášení pouze registrovaného pracovníka na základě jeho loginu a hesla do systému. Komponenty tvoří: Evidence tvoří je databázová struktura, je nutné znát předem jejich předmět, rozsah a především účel, tedy možnost jejich následného využití. Jedná se např. o pátrací systémy (po hledaných, pohřešovaných osobách, hledaných nebo odcizených věcech, uměleckých předmětech, vozidlech atd.), evidence spáchaných trestných činů, událostí, nežádoucích (cizinců), rozpracovaných nebo sledovaných osob, odcizených nebo ztracených zbraní, dokladů, atd.. Předpokladem pro evidenční činnost je jednoznačná identifikace evidovaných objektů (např. pomocí rodného čísla osoba). Poznatkové fondy cílený i náhodný sběr projevů trestných činů (např. stop), dat a informací z různých šetření, operativního rozpracování nebo prověřování za pomoci policistů, svědků, nestranných i nezúčastěných osob, informátorů, agenturní sítě atd.. Data a informace, které jsou takto získány, nemusejí mít v okamžiku získání přesně definovanou, formátovanou strukturu a nemusí být momentálně znám způsob jejich využití. Informace, které jsou bezprostředně získány, mohou mít i subjektivní charakter, nemusí být prověřované (jsou prověřovány následně pomocí specializované činnosti. Mnohé z poznatkových fondů je možné zpracovávat s využitím moderních informačních technologií. Specializované, laboratorní a expertní informační systémy mají význam při specifické činnosti, jejich charakter je převážně identifikační a analytický, vědecko-technický. Patří sem např. informační technologie pro zpracování a analýzu obrazových, textových, zvukových a dalších informací, pro identifikaci na základě otisků prstů, DNA, hlasu, portrétu osoby, dále elektronické systémy biologické a chemické analýzy, systému na podporu zpracování poznatků z trasologie, mechanoskopie, informační systémy, které umožňují matematické, fyzikálně-technické modelování, soudní lékařství a inženýrství, analýzu 46

48 dopravních nehod apod.. Tyto informační systémy jsou provozovány vysoce specializovanými pracovišti Kriminalistického ústavu, OKTE apod.. Podpůrné a manažerské IS Podpůrné a manažerské informační systémy pomocí jich dochází k zajištění efektivity a automatizace výkonných, řídících a komunikačních činností policie a bezpečnostních služeb. Patří sem systémy pro podporu rozhodování a velení, manažerské informační systému, dále systému pro týlové, ekonomické a sociální zabezpečení (mzdy, personální sféra, pojištění) jedná se např. o systém EKIS (Ekonomický informační systém MV ČR), elektronická pošta ( ), kancelářské systémy (MS Office, T602, WinText602 atd.). Uvádí se zde i Integrovaný záchranný systém, který spojuje a koordinuje činnost policie, záchranné služby, hasičského sboru, civilní obrany atd.. K podpůrným systémům se řadí i statistické nadstavby různých informačních systémů (evidencí, poznatkových fondů, specializovaných, laboratorních nebo expertních systémů atd.). Tyto nadstavby pomáhají vyhodnocovat a efektivně, ekonomicky řídit svěřenou profesní oblast, realizovat nejrůznější prevence např. Evidenčně statistický systém kriminality (ESSK), Evidence dopravních nehod (EDN) atd. 47

49 SHRNUTÍ KAPITOLY Informační systém - definice je soubor lidí, technických prostředků a metod, zabezpečujících sběr, přenos, uchování a zpracování dat za účelem tvorby a prezentace informací pro potřeby uživatelů. Informační systém by měl obsahovat: a) Tvorbu základní databáze na systémové úrovni b) Systém chránící integritu údajů a souborů c) Jednotný systém výběru informací d) Současný sdílený přístup k údajům v souborech e) Prostředky pro jednotnou, centralizovanou správu dat f) Možnost vytváření složitých hierarchických datových struktur g) Ukrytí struktur souborů i mechanismu vybírání údajů z nich h) Prostředky pro popis dat v jednotlivých souborech Typy informačních systémů : EIS Executive Information system MIS Management Information system TPS Transaction Processing System DSS Decision Support System Expertní systémy OIS Office Information System EDI Electronic Data Interchange CIS Customer Information System RIS Reservation Information Systém Etapy životního cyklu informačního systému: Předanalytická fáze Analýza (system analysis) Návrh (system design) Vývoj systému (system development) 48

50 Implementace systému Správa systému Údržba systému Obecné, správní a policejní informační systémy Obecné informační systémy Civilně správní informační systémy Policejní informační systémy 49

51 SEZNAM KLÍČOVÝCH SLOV K ZAPAMATOVÁNÍ Informační systém, Předanalytická fáze, Analýza (system analysis), Návrh (system design), Vývoj systému, (system development), Implementace systému, Správa systému, Údržba systému KONTROLNÍ OTÁZKY 1. Definujte Informační systém 2. Co obsahuje Informační systém 3. Jaké jsou etapy životního cyklu informačního systému KONTROLNÍ TEST Vyjmenujte a stručně charakterizujte druhy IS podle příjemce informací Který prvek informačního systému bývá rozhodující 50

52 VÝSTUPY Z UČENÍ Po prostudování textu a vypracování úkolů v rámci této kapitoly BUDETE UMĚT Definovat Informační systém Obsah Informačního systému Etapy životního cyklu informačního systému ZNALOSTI BUDETE SCHOPNI SCHOPNOSTI Rozlišit informační systémy podle vztahu k managementu. Pochopit základní problematiku bezpečnosti Informačních systémů Definovat jednotlivé stupně tvorby, zavádění a realizace Informačního systému ZÍSKÁTE DOVEDNOSTI Informace o základních druzích obecných, správních a policejních informačních systémech. Získáte představu o postupu realizace informačního systému. 51

53 5. Databáze S rozvojem lidského poznání roste prudce množství informací, které tento proces vyžaduje a také produkuje. Pro efektivní práci s informacemi začaly vznikat specializované informační systémy. Můžeme je definovat např. jako : "systémy pro sběr, uchovávání, vyhledávání a zpracovávání informací (údajů, dat) za účelem jejich poskytování". Tvorbou informačních systémů se zabývá vědní obor Informatika, vydělený v nedávné době z oboru Kybernetika. Rozvoj informačních systémů je úzce spjat s rozvojem výpočetní techniky, zejména počítačů. Od svých počátků byla využívána na zpracování velkých informačních objemů na jednom počítači. Takové systémy obvykle nazýváme systémy hromadného zpracování dat nebo agendové zpracování. Pojem databáze dnes není zcela jistě nikomu cizí. Lidé mají potřebu evidovat a shromažďovat informace už odpradávna. Celá dnešní moderní společnost je postavena na databázových systémech, od evidence občanů, přes zdravotnictví, hospodářství, školství až po letectví, výzkum, nebo síť mobilních telefonů. Databanka (banka dat), (neboli Datová základna) je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. Data uložená v bance dat se označují jako báze dat či databáze. Souhrn pravidel pro reprezentaci logické organizace dat v databázi je model dat. Rozeznáváme tři základní modely dat - hierarchický, síťový a relační. Nejnovější a zároveň nejpoužívanější je relační model, který odstraňuje některé nedostatky ostatních modelů. Z hlediska způsobu ukládání dat a vazeb mezi nimi můžeme rozdělit databáze do základních typů: 5.1. Typy databází Souborové databáze Způsob ukládání údajů lze provádět různým způsobem. Nejjednodušší je ten, jak ho známe z běžného používání počítače. Jednotlivé soubory se ukládají do složek a tyto se ukládají případně do dalších složek až do počtu vrstev, které považujeme za dostatečné, abychom jednoznačně rozlišili zařazení příslušného souboru na to místo, kam dle našeho 52

54 uvážení patří. Tvoření souborové struktury je jednoduché a pro uživatele, který má smysl pro pořádek je i dostatečné Hierarchické databáze Historicky nejstarším modelem organizování báze dat je model hierarchický. V tomto modelu jsou data organizována ve formě stromu. Každá entita umístěná v tomto stromu je charakterizována svými specifickými atributy a dále atributy, které zdědila od své nadřízené entity. Hierarchický model se dobře hodí pro popis systémů, které mají jasné definovanou hierarchickou strukturu. V ostatních případech je ale dosti nepružný a těžkopádný Databáze objektové data sdružena spolu s funkcemi, nejsou zde tabulky, záznam je naprosto oddělený element, nese všechny atributy, predikáty, funkce - existuje zde hierarchie prvků rodič potomek abstrakce = třída, konkrétní instrukce = objekt - pohyb pomocí traverzování nějak si zaměříme objekt a pomocí struktury * * se dostáváme k jinému objektu Síťové databáze Síťový model dat je v podstatě zobecněním hierarchického modelu dat, který doplňuje o mnohonásobné vztahy. Tyto vztahy jsou označovány jako C-množiny neboli Sets (dále budeme používat pojem set, pro který neexistuje ekvivalentní český výraz). Tyto sety propojují záznamy různého či stejného typu, přičemž spojení může být realizováno na jeden nebo více záznamů. Síťový model báze dat odstraňuje většinu nedostatků modelu hierarchického, ovšem za cenu podstatně větších nároků na údržbu databáze Relační databáze Nejmladším databázovým modelem je model relační, který byl popsán v roce 1970 Dr. Coddem. V současnosti je tento model nejčastěji využíván u komerčních SŘBD. Relační databázový model má jednoduchou strukturu (E-R model, entita-relace). Data jsou organizována v tabulkách, které se skládají z řádků a sloupců. Mezi tabulkami pak lze definovat různé vztahy - relace a provádět s nimi rozmanité operace. Množina tabulek a vztahů pak vytvoří celou bázi dat. 53

55 5.2. Tabulkové vyjádření relace a její vlastnosti. Na osobních počítačích se dnes provozují prakticky výhradně SŘBD s relační architekturou, proto jí budeme věnovat větší pozornost. Základním pojmem je relace. Relaci, bez zavádění jakékoliv matematické definice, si lze představit jako tabulku, která se skládá ze sloupců a řádků. Tabulka je základním stavebním kamenem pro budování celé databáze. Je nezbytné, aby každá tabulka v databázi měla své jedinečné jméno. Relační tabulka je definována jako relace. Množiny atributů jsou konečné a označují jednotlivé charakteristické vlastnosti entit. Každá entita je přitom jednoznačně určena hodnotami svých atributů. Nejpraktičtějším způsobem zápisu takovéto relace je tabulka. Každý řádek tabulky odpovídá jedné entitě a každý sloupec jednomu atributu. Řádky tabulky se někdy nazývají též věty, či záznamy (anglicky records), sloupce se nazývají atributy, pole, či položky (anglicky fields). Každý sloupec tabulky má své jednoznačné označení a má přiřazen typ, tedy množinu údajů, které se v něm mohou vyskytovat. Je vhodné, aby každý řádek tabulky byl jednoznačně identifikován hodnotou některého svého atributu. Takový atribut nazýváme klíčem relační tabulky. S relačními tabulkami lze dělat některé základní operace a je možné používat dotazovací jazyky pro dotazy na jejich obsah. Mezi operace s relačními tabulkami patří filtrování (na základě logického dotazu), faktorizace (výsledná relační tabulka obsahuje jen ty sloupce, které byly uvedeny v seznamu vstupních atributů), spojování tabulek (na základě stejného atributu - položky), rozložení tabulky na několik menších. Soubor tabulek (relací) pak tvoří celou databázi (relační schéma). Primární klíč je taková podmnožina položek, která má nezávisle na čase tu vlastnost, že jednoznačně identifikuje každý záznam relace. Z toho je zřejmé, že primární klíč relace je neredundandní. V tabulce vždy existuje alespoň jeden primární klíč, který je v nejhorším případě tvořen všemi položkami dané tabulky. Řada SŘBD umožňuje vytvořit zvláštní položku, která nabývá hodnot pořadových čísel záznamů, v některých případech je tato položka vhodná jako primární klíč. 54

56 5.3. Indexování dat Klíčem, či klíčovou položkou nazýváme atribut relační tabulky, který jednoznačně určuje entity v ní obsažené. V příkladě relační tabulky je takovou položkou položka ID (identifikační číslo). Klíčovou položku lze často s výhodou využít při operacích s relačními tabulkami, především při jejich spojování. Klíčová položka je často v databázi redundantní, je proto vhodné, aby byla co nejjednodušší. Rychlost a efektivita SŘBD do značné míry závisí právě na vhodně vyřešeném indexování relačních tabulek Redundance dat Pokud se v bázi dat objevují některé údaje vícekrát, říkáme jim údaje redundantní. Redundance dat je obvykle nevítaný jev. Jejími negativními důsledky jsou zejména: Nárůst objemu dat a tím i vetší požadavky na prostředky pro jejich údržbu Hrozba porušení referenční identity (provázanosti a vztahů dat -> rozpory mezi daty) Občas je však redundance do dat zavedena záměrně. Důvody mohou být například tyto: Zabezpečení dat proti náhodné chybě Zrychlení a zjednodušení přístupu k datům Odkazy na data uložená v jiných tabulkách Z popisu tabulkového vyjádření relace vyplývají tyto vlastnosti: Homogenita sloupců - v každém sloupci jsou všechny položky stejného typu. V relaci neexistují dva stejné řádky Pořadí řádků je nevýznamné, protože jednotlivé řádky jsou identifikovatelné pomocí primárního klíče Pořadí sloupců (položek) je nevýznamné, protože sloupce jsou označeny názvem položky Nevýhody relačních DB : nejsou schopny pracovat na úrovni jednotlivého prvku, protože výsledkem je vždy tabulka, nejlépe pracují s jednoduchými daty. Typy skalárního typu (čísla, řetězce znaků), skalární typy by měly být pevně formátované, 55

57 problémem jsou složitá data, data, která mají proměnlivou délku relace. Databáze tato data rozloží do mnoha tabulek definice pak vznikne spojením tabulek, udržování konzistence dat tím, že data jsou separovaná, rozbitá, je problém udržovat konzistenci, problémy RDB se řeší od 70. let způsobem řešení jsou postrelační databáze, vznikly postupným vývojem RDB, kdy byly odstraněny nedostatky Systémy řízení báze dat SŘBD je programový produkt, který slouží pro manipulaci s bází dat. SŘBD může být prázdný, tedy použitelný pro libovolnou bázi dat, nebo přizpůsobený známé konkrétní struktuře báze dat. Prázdné SŘBD obsahují obvykle vývojové prostředí, tedy prostředky (programovací jazyky) pro vytváření specializovaných SŘBD. SŘBD často obsahují prostředky pro snadnou údržbu údajů v bázi dat, pro jejich vstup pomocí uživatelských obrazovek a výstup pomocí výstupních sestav. Mezi nejrozšířenější SŘBD pro osobní počítače s operačními systémy MS-DOS a Windows patřili systémy dbase, FoxBase, FoxPro (americké produkty) a Paradox. Pro správu rozsáhlejších bázi dat se používají obvykle SŘBD pracující na vyšších platformách, obvykle pod operačním systémem UNIX. Sem patří například SŘBD Informix, Progress a Oracle Tento systém byl původně určen pro velké počítače, později byl přenesen na počítače osobní. První SŘBD, které vznikaly na konci 60. let, se vyznačovaly úzkou provázaností fyzického a logického formátu dat. U novějších SŘBD pak dochází k hierarchickému rozvrstvení dat do těchto úrovní, přičemž jednotlivé úrovně jsou relativně nezávislé. Nejdůležitější je zejména nezávislost logického schématu báze dat od interního a fyzického schématu. Fyzické schéma - úzce souvisí s použitým operačním systémem (konkrétní organizace souborů na disku, jejich rozložení na sektory a clustry určité délky atd.). Interní schéma - data jsou uložena v typových souborech, přístup k jednotlivým větám souborů je organizován vhodným mechanismem (primární a sekundární indexy, Bayerovy stromy atd.). Logické schéma - vzniká implementací konceptuálního modelu do konkrétního SŘBD (návrh struktury datových vět). Struktura tohoto schématu je určena použitým datovým modelem v daném SŘBD (hierarchický, síťový, relační). 56

58 Externí schéma - je rozdílné pro každou skupinu uživatelů. Umožňuje virtuální pohledy na zvolenou část báze dat (pomocí konkrétních formulářů, výstupních sestav, ale také přístupových práv k datům). Počítačové systémy, na kterých jsou provozovány databáze lze rozdělit do následujících základních kategorií, čili platforem: Centralizované databáze. Systémy na sítích osobních počítačů. Databáze v lokální síti PC (File server). Databázové systémy klient/server. Databáze nawebu. Systémy distribuovaného zpracování. Sama architektura SŘBD nemusí rozhodovat, ve které kategorii se bude databázový systém provozovat. Některé architektury jsou pro některé platformy vhodnější nebo obvyklejší Centralizované databáze V centralizovaném systému se na hlavním hostitelském počítači zpracovávají všechny programy: SŘBD, databázovou aplikaci i komunikační software (data mezi počítačem a uživ. terminály). V této architektuře jsou data i SŘBD v centrálním počítači. Tato architektura je typická pro terminálovou síť, kdy se po síti přenáší vstupní údaje z terminálu na centrální počítač do příslušné aplikace, výstupy z této aplikace se přenáší na terminál. Protože aplikační program i vlastní zpracování probíhá na centrálním počítači, který může zpracovávat více úloh, mají odezvy na dotazy určité zpoždění (viz obr č.1). Obr. č. 1 Architektura centralizovaného zpracování 57

59 Základní výhody centralizovaných systémů: Centrální zabezpečení dat. Schopnost uložení obrovského množství dat na vnějších pamětech. Podpora současné práce velkého množství uživatelů (až 1000). Nevýhody: Vysoké náklady na pořízení a údržbu (klimatizace, ) i provozní náklady (vyžadují vysoce kvalifikované operátory a systémové programátory). V poslední době stále častější přechod na minipočítače nebo výkonné servery na bázi PC levnější pořizovací i provozní náklady a přechod na systémy distribuované. SŘBD, který běží na hostitelském systému, může být založen na kterémkoliv ze čtyř modelů, nejčastěji hierarchický a relační Systémy na sítích osobních počítačů. Běží-li SŘBD na PC, pracuje PC současně jako hostitelský počítač i jako terminál (funkce SŘBD a databázových aplikací spojeny do jednoho programu). Databázové aplikace na PC zpracovávají vstup od uživatele výstup na obrazovku přístup k datům na disku SŘBD tím získá značnou mohutnost, flexibilitu a rychlost za cenu snížení bezpečnosti integrity dat. PC se propojují do lokálních sítí (LAN Local Area Network). V LAN jsou data uložena na serveru souborů (File server). PC pracují pod speciálním operačním systémem NOS (Network Operating System), např. Novell NetWare, Microsft LAN Manager. Server zajišťuje uživatelům lokální sítě sdílený přístup k datům (viz příslušnou kapitolu těchto přednášek) na jeho pevných discích, popřípadě i sdílený přístup k periferním zařízením (tiskárny). 58

60 Databáze v lokální síti PC (File server). Tato metoda souvisí zejména s rozšířením osobních počítačů a sítí LAN. SŘBD a příslušné databázové aplikace jsou provozovány na jednotlivých počítačích, data jsou umístěna na fileserveru a mohou být sdílena. Aby nedocházelo ke kolizím při přístupu více uživatelů k jedněm datům, musí SŘBD používat vhodný systém zamykání (položek nebo celých tabulek). Komunikace uživatele se systémem probíhá následujícím způsobem: uživatel zadá dotaz, SŘBD přijme dotaz, zasílá požadavky na data file-serveru, file-server posílá bloky dat na lokální počítač, kde jsou data zpracovávána podle zadaného dotazu (vyhledávání, setřídění atd.), výsledek dotazu se zobrazí se na obrazovce osobního počítače (viz obr č.2). Obr. č. 2 Architektura systému file server Činnost systému File server. Veškeré vlastní zpracování dat se provádí na PC, kde běží databázová aplikace. Server souborů vyhledává na discích data, žádaná uživatelem a posílá je po síťovém médiu (např. Koaxiálním kabelu) na uživatelovo PC. Data jsou zpracovávána SŘBD na tomto PC. Každá změna v databázi vyžaduje, aby PC poslalo celý soubor zpět na server. Hlavní nevýhody systému File server: Bez ohledu na rychlost serveru je výkonnost systému limitována výkonem PC, na němž běží vlastní SŘBD. Pracuje-li s databází více uživatelů, musí server poslat tytéž soubory na každé PC, které je používá. Tento zvýšený provoz může práci sítě zpomalit. Víceuživatelský SŘBD musí mít schopnost vypořádat se se současnými změnami dat, prováděnými více uživateli. 59

61 Většina dnešních SŘBD jsou prostě víceuživatelské verze běžných databázových systémů většinou relačního modelu Databázové systémy klient/server V podstatě je založena na lokální síti (LAN), personálních počítačích a databázovém serveru. Na personálních počítačích běží program podporující např. vstup dat, formulaci dotazu atd. Dotaz se dále předává pomocí jazyka SQL (Structured Query Language) na databázový server, který jej vykoná a vrátí výsledky zpět na personální počítač. Databázový server je tedy nejvíce zatíženým prvkem systému a musí být tvořen dostatečně výkonným počítačem. Celá komunikace probíhá tímto způsobem: uživatel zadává dotaz (buď přímo v SQL, nebo musí být do tohoto jazyka přeložen), dotaz je odeslán na databázový server, databázový server vykoná dotaz, výsledek dotazu je poslán zpět na vysílací počítač, kde je zobrazen. Architektura klient-server redukuje přenos dat po síti, protože dotazy jsou prováděny přímo na databázovém serveru a na personální počítač jsou posílány pouze výsledky. Např. pokud je mezi záznamy pouze 100 záznamů, které splňují podmínku dotazu, pak na personální počítač putuje pouze těchto 100 záznamů. V případě architektury file-server je však nutné poslat všech záznamů na personální počítač, tam se teprve provede dotaz a zpracuje nalezených 100 záznamů. Architektura klient-server vyhovuje i náročným aplikacím a je využívána většinou renomovaných databázových firem (viz obr č.3). Obr. č. 3 Architektura client-server 60

62 Kromě jazyka SQL, který představuje standardní dotazovací jazyk, existují ještě další standardy pro navazování komunikace mezi aplikacemi ještě před vlastním zahájením komunikace v SQL Databáze pracující s SQL jsou založeny na modelu klient - server. Na server lze pohlížet ze dvou úhlů. Server je vybraný stroj v naší firmě, na kterém je nainstalovaný databázový systém a na jeho discích jsou uložena naše data. Na druhou stranu je server proces (program), který běží na zvoleném počítači a který obsluhuje jednotlivé požadavky klientů. Klienti zadávají SQL příkazy a server tyto příkazy nad databází vykonává. Klientem pak může být konkrétní databázová aplikace, nebo také řádkový terminál, ve kterém můžeme SQL příkazy zadávat přímo Systémy distribuovaného zpracování Velmi rozsáhlé databáze se občas nachází na několika různých počítačích. Uživateli se však jeví jako jedna velká databáze. Takovým databázím se říká databáze distribuované. Distribuovanou databázi je možno využívat prostřednictvím počítačové sítě. V celosvětové počítačové síti Internet existuje celá řada distribuovaných databází. Pro práci s distribuovanou databází je potřeba použít zvláštní metody a specializované systémy pro řízení báze dat. Příkladem takového systému může být Gupta SQL. Distribuovanou databázi charakterizujeme třemi vlastnostmi: 1. Transparentnost - z pohledu klienta se zdá, že všechna data jsou zpracovávána na jednom serveru v lokální databázi. Uživatel používá syntakticky shodné příkazy pro lokální i vzdálená data, nespecifikuje místo uložení dat, o to se stará distribuovaný SŘBD. 2. Autonomnost - s každou lokální bází dat zapojenou do distribuované databáze je možno pracovat nezávisle na ostatních databázích. Lokální databáze je funkčně samostatná, propojení do jiné části distribuované databáze se v případě potřeby zřizují dynamicky. V distribuované databázi neexistuje žádný centrální uzel nebo proces odpovědný za vrcholové řízení funkcí celého systému, což výrazně zvyšuje odolnost systému proti výpadkům jeho částí. 3. Nezávislost na počítačové síti - jsou podporovány různé typy architektur lokálních i globálních počítačových sítí (LAN, WAN). V jedné distribuované databázi tedy mohou být zapojeny počítače i počítačové sítě různých architektur, pro komunikaci se používá jazyk SQL. 61

63 Požadavek, aby data byla uložena na jediném počítači může vyvolat problémy, jsou-li podporovaní uživatelé rozptýleni po velkém území. Je nutno najít nějaký způsob rozdělení dat mezi různými počítači nebo lokalitami - distribuované zpracování. Pojem distribuované databázové systémy relativně nový. Jejich rozvoj umožněn dynamickým rozvojem sítí v poslední době. Názvosloví není zcela ustálené. Hlavní součást je SŘDBD. Umožňuje transparentní přístup k datům, která jsou distribuována na množství mnohdy značně vzdálených lokálních databázových serverů. Typický postup v SŘDBD: Uživatel požádá o data hostitelský lokální počítač. Zjistí-li se, že požadovaná data na tomto počítači nejsou, pošle se po síti požadavek na počítač, kde data jsou. V případě, že se najdou jsou uživateli zaslána, aniž by se uživatel dozvěděl odkud jsou Sdílený přístup k datům. Ve víceuživatelském prostředí, v aplikaci, která bude pracovat na více počítačích v síťovém prostředí bude několik uživatelů nezávisle na sobě pracovat se stejnými daty (databází), přičemž každý z nich může data nejen číst, ale i je měnit, zavádět, případně i rušit. Ve víceprocesovém prostředí (multiprocessing). Aplikaci bude využívat sice jen jeden uživatel, ale implementace aplikace mu dovolí, aby v jejím rámci spouštěl současně různé úlohy, které mohou (např. v uživatelském interfejsu používat konstrukty (objekty, např. formuláře), které budou pracovat nad stejnými daty. Tyto požadavky je možno splnit řadou opatření, která jsou vykonávána většinou až na nejnižší úrovně implementace aplikace, při nedokonalém nebo neodborném provedení však mohou způsobit totální selhání aplikace v praktickém provozu. Techniky, které požadavky na sdílený přístup k datům mohou splnit je např: Selektivní otevírání souborů. Jde o starší způsob, kterého využívaly hlavně systémy ovládání souborů, hostující v programovacích jazycích třetí generace. Většinou se postupuje takto: Uživatelé se roztřídí na ty, kteří mohou data pouze číst, ti pak mohou příslušné soubory otevírat pouze pro čtení, a na ty, kteří je mohou i měnit. Ti pak mohou otevřít příslušný soubor pro čtení i zápis. U takových uživatelů, se použije následující pravidlo: 62

64 Každý soubor může být v jednom okamžiku otevřen libovolným počtem uživatelů pro čtení, ale pro zápis pouze jedním z nich (s příslušným právem). Eventuální požadavek na další otevření pro zápis je systémem odmítnut. Výhody: Jednoduchý a přehledný způsob, vhodný pro jednoduché aplikace, případně pro různé informační systémy, jejichž úkolem je poskytovat informace velkému počtu uživatelů, přičemž změny se provádějí občas z jednoho místa. Nevýhody: Vyžaduje striktní organizační provozní pravidla. U složitějších aplikací je málo efektivní. Je závislý na kázni uživatelů, kteří musí soubory po ukončení změn v datech uzavírat, jinak žádný uživatel se ke změnám nedostane. Z toho důvodu je systém náchylný k zamrzání. 63

65 SHRNUTÍ KAPITOLY Z hlediska způsobu ukládání dat a vazeb mezi nimi rozdělujeme databáze do tří základních typů podle organizace dat, neboli modelů dat v nich uložených. Datový model je souhrn pravidel pro reprezentaci logické organizace dat v databázi. Rozeznáváme tři základní modely dat - hierarchický, síťový a relační. Nejnovější a zároveň nejpoužívanější je relační model, který odstraňuje některé nedostatky ostatních modelů. Databáze jako pojem je slovo poměrně lehce zavádějící, ale zde jím budeme rozumět skupinu informací uspořádaných podle určitých pravidel tak, aby následná práce s nimi byla co nejdokonalejší. Z hlediska způsobu ukládání dat a vazeb mezi nimi můžeme rozdělit databáze do základních typů: Souborové databáze Způsob ukládání údajů lze provádět různým způsobem. Nejjednodušší je ten, jak ho známe z běžného používání počítače. Jednotlivé soubory se ukládají do složek a tyto se ukládají případně do dalších složek až do počtu vrstev, které považujeme za dostatečné, abychom jednoznačně rozlišili zařazení příslušného souboru na to místo, kam dle našeho uvážení patří. Tvoření souborové struktury je jednoduché a pro uživatele, který má smysl pro pořádek je i dostatečné. Hierarchické databáze Historicky nejstarším modelem organizování báze dat je model hierarchický. V tomto modelu jsou data organizována ve formě stromu. Každá entita umístěná v tomto stromu je charakterizována svými specifickými atributy a dále atributy, které zdědila od své nadřízené entity. Hierarchický model se dobře hodí pro popis systémů, které mají jasné definovanou hierarchickou strukturu. V ostatních případech je ale dosti nepružný a těžkopádný. Síťové databáze Síťový model dat je v podstatě zobecněním hierarchického modelu dat, který doplňuje o mnohonásobné vztahy. Tyto vztahy jsou označovány jako C-množiny neboli Sets (dále budeme používat pojem set, pro který neexistuje ekvivalentní český výraz). Tyto sety propojují záznamy různého či stejného typu, přičemž spojení může být realizováno na jeden nebo více záznamů. 64

66 Relační databáze Nejmladším databázovým modelem je model relační, který byl popsán v roce 1970 Dr. Coddem. V současnosti je tento model nejčastěji využíván u komerčních SŘBD. Relační databázový model má jednoduchou strukturu (E-R model, entita-relace). Data jsou organizována v tabulkách, které se skládají z řádků a sloupců. Všechny databázové operace jsou prováděny na těchto tabulkách. Systémy řízení báze dat SŘBD je programový produkt, který slouží pro manipulaci s bází dat. SŘBD může být prázdný, tedy použitelný pro libovolnou bázi dat, nebo přizpůsobený známé konkrétní struktuře báze dat. Prázdné SŘBD obsahují obvykle vývojové prostředí, tedy prostředky (programovací jazyky) pro vytváření specializovaných SŘBD. SŘBD často obsahují prostředky pro snadnou údržbu údajů v bázi dat, pro jejich vstup pomocí uživatelských obrazovek a výstup pomocí výstupních sestav. Výhody a nevýhody jednotlivých modelů dat Historicky se vyvinuly tři hlavní databázové modely, a to síťový, hierarchický a relační. Nejstarší z uvedených je hierarchické modelování databází. Toto pojetí pochází z reálného uspořádání světa. Jako příklad si můžeme vzít třeba model organizace moci, rozklad výrobků na součástky, strom adresářů aj. Pro hierarchické modelování je typická práce se stromy, kdy ve stromu jsou realizovány vztahy 1:N. Variací hierarchického modelu je síťový model databáze. V síťovém modelování je možné vyjadřovat vedle vztahů 1:N i vztahy M:N. Fyzická realizace síťového modelu je ale náročná a aktualizace obvykle komplikovaná. Základní výhodou hierarchického a síťového modelu je efektivnost zpracování, tj. rychlost přístupu k datovým záznamům. Na druhé straně mezi nevýhody patří to, že je nesnadné jednou nadefinované stromy a vazby mezi nimi měnit. Nejsou uzpůsobeny pro dotazy. Z teoretického hlediska je nejpropracovanější relační model databáze, který byl vyvinut doktorem E. F. Coddem už v šedesátých letech minulého století. Relační model definuje způsob, jakým je možné reprezentovat strukturu dat, způsoby jejich ochrany a operace, které můžeme nad daty provádět. Relační databáze je sestavená z řady tabulek, jejichž sloupce jsou vázány na sloupce v jiných tabulkách. Takto propojená 65

67 datová pole jsou na sobě určitým způsobem závislá. Jejich vztahy jsou založeny na klíčových hodnotách uložených v příslušných sloupcích. U relačních databází je základní výhodou relativně snadná modifikace a propojování tabulek a s nimi spojená možnost dotazů. Slabým místem je nízká efektivnost zpracování, což se projevuje v tom, že řada příkazů vyžaduje velké množství přístupů na disk a tím se zpomaluje zpracování. 66

68 SEZNAM KLÍČOVÝCH SLOV K ZAPAMATOVÁNÍ Datový model, hierarchický, síťový a relační, Databáze, Systémy řízení báze dat, normalizace dat, Distribuovaná databáze, Entita, Atribut entity, Indexování dat, Redundance dat KONTROLNÍ OTÁZKY 1. Co to je databáze 2. Na kterých základních typech počítačových systémů jsou provozovány databáze 3. Co to je normalizace dat KONTROLNÍ TEST Uveďte základní typy vazeb mezi entitami 67

69 VÝSTUPY Z UČENÍ Po prostudování textu a vypracování úkolů v rámci této kapitoly BUDETE UMĚT Znát základní typy databází a jejich postupný vývoj. Rozeznáte základní modely dat v databázi. Budete informováni o úloze systému řízení báze dat, distribuovaném zpracování a základech jazyků pro popis dat. Budete znát pojmy Indexování dat a Redundance dat ZNALOSTI BUDETE SCHOPNI SCHOPNOSTI Orientovat se v problematice ukládání dat v databázích, v problematice nástrojů umožňujících zpracování dat v databázi uložených. ZÍSKÁTE DOVEDNOSTI Přehled o systémech používaných pro uložení a práci s daty v databázích uložených 68

70 6. Datové sklady budování a způsoby práce Pojem datový sklad (DW Data Warehouse) se během posledních několika let nesmazatelně zabydlel v povědomí uživatelů informačních systémů (IS). Datový sklad je správně chápán jako nezbytná nadstavba provozních IS, pomocí které pracovníci managementu snadno a rychle získávají ve velmi přehledné podobě informace pro sumární analýzu dat, odhalování skrytých souvislostí, sledování trendů v různých oblastech apod. Pod pojmem datový sklad můžeme chápat Komplexní data uložená ve struktuře, která umožňuje efektivní analýzu a dotazování. Data do datového skladu jsou čerpána z primárních informačních systémů a dalších zdrojů. Využití dobře navrženého datového skladu není jen záležitost pro pracovníky vrcholového managementu. Je naléhavě potřeba přiblížit možnosti využití datových skladů i uživatelům mimo vrcholový management a to zcela obecně v různých podnicích a na různých úrovních. V rámci provozních IS jsou v současné době ve většině podniků spravovány více či méně rozsáhlé databáze. Pro tyto databáze lze, v podstatě bez ohledu na typ firmy, najít některé společné rysy: databáze bývají často velmi rozsáhlé struktura je optimalizována na transakční způsob zpracování v reálném čase historická data bývají archivována odděleně od dat provozních historická data jsou často "on line" nedostupná - v podnicích často existují různorodá data z období provozování různých IS Pro prezentaci takto spravovaných prvotních dat jsou v různých IS k dispozici různé prostředky v podobě výstupních sestav či reportovacích nástrojů. Jejich společným rysem je to, že požadované údaje získávají z provozní databáze. To způsobuje, že vstupní údaje pro požadované výstupy mohou být obtížně dostupné a jejich získání ve formě různých reportů se stává problematickou záležitostí Data v datovém skladu Uložení dat v datovém skladu se v porovnání s ukládáním dat v provozních IS řídí poněkud odlišnými pravidly. Hlavním důvodem je, že v datovém skladu je třeba mít 69

71 k dispozici data vyčištěná a také co do struktury uložená jinak než v provozním IS. Zdánlivým paradoxem je, že objem dat, uložených v datovém skladu, může být i podstatně větší než v prostředí provozního IS. Díky stavu na poli HW se tato skutečnost postupně stává méně závažnou a do popředí vystupují přínosy, které toto navýšení poskytuje Budování datového skladu Na úrovni datového skladu je výhodné mít k dispozici primární databázi. Údaje v této primární databázi jsou do značné míry shodné s daty v databázi provozních IS. Pro vytvoření primární databáze vede několik závažných důvodů: do primární databáze jsou ukládána data vyčištěná a plně verifikovaná ukládaná data mohou pocházet z různých IS (sjednocení zdrojů) do primární databáze mohou být ukládána i historická data vytvořením primární databáze je v prostředí datových skladů k dispozici potřebná detailní úroveň informace primární databáze může být provozována v odlišném prostředí (server, databázový stroj) než databáze provozního IS převážná většina činností nad primární databází v datovém skladu nezatěžuje databázi provozního IS aktualizace primární databáze se provádí v době minimálního zatížení provozního IS aktualizace primární databáze se provádí s minimální účastí uživatele (řešení nejednoznačných či chybových stavů) Vytvořením primární databáze tak získáme v datovém skladu jednotnou datovou základnu pro další využití. Data jsou v datovém skladu obvykle udržována v historické podobě, nikoliv pouze v aktuálním stavu. U běžné relační databáze je obvyklá snaha o co nejmenší redundanci (nadbytek) uložení dat, které je dosahováno jejich normalizací do 3NF a vnitřním provázáním jednotlivých logických funkčních celků. V datovém skladu je naproti tomu řešení vždy vedeno snahou o jasnou vnitřní separaci jednotlivých funkčních celků výsledkem je struktura, která je čitelnější pro uživatele (manažera, business analytika) za cenu zvýšených nároků na paměťový prostor. 70

72 Běžná provozní aplikace (program) nad relační databází řeší určitý specifický okruh úloh nad svými specifickými daty. V datovém skladu je třeba naproti tomu shromáždit informace z mnoha různých zdrojů a seskupit je nikoliv podle původu, ale podle logického významu (úzce souvisí s orientací na subjekt všechna data týkající se určité funkční oblasti potřebuji mít na jedné hromadě bez ohledu na to, odkud pocházejí). Data jsou do datového skladu obvykle nahrávána ve větších dávkách (například v denních nebo týdenních intervalech) a pak již nejsou nijak modifikována. To má za následek nízkou proměnlivost. Data jsou v datovém skladu obvykle udržována v historické podobě, nikoliv pouze v aktuálním stavu. To je dáno nutností provádění analýz zaměřených na vývoj v čase. V běžné relační databázi je z pohledu uživatelů obvykle zajímavý pouze aktuální stav datových objektů. Do datového skladu se většinou nepřebírají všechna data provozního informačního systému, ale pouze určité podoblasti, které mají být předmětem dalšího zkoumání. V primární databázi datového skladu jsou data stále ještě uložena relačním způsobem a jde vlastně o jakýsi obraz vybrané části provozního systému s tím rozdílem, že se zde uchovávají data včetně historie. Realizace datového skladu není jednoduchou záležitostí. Informace pro rozhodování na nejvyšší úrovni jsou často čerpány z různých navzájem neprovázaných informačních systémů. Úkolem datového skladu je tyto systémy zkonsolidovat, doplnit chybějící data, přepsat nebo vyloučit chybné údaje a vyřešit údržbu dat v čase. Přesto, že dnes je již oblast datových skladů poměrně dobře prozkoumána a je definována metodika řešení nejčastěji se vyskytujících problémů, zůstává budování datového skladu pro firmu závažným rozhodnutím, které ji spojí s dodavatelem řešení datového skladu v mnoha případech na několik let, kdy se postupně sklad rozšiřuje a doplňuje o další a další oblasti. Oblastí, ve které se při implementaci datového skladu stráví nejvíce času, je vytváření datových pump, neboli ETL skriptů (Extraction, Transformation and Loading), které přesouvají data z primárních informačních systémů do datového skladu. Z několika důvodů nelze pro tvorbu těchto skriptů využít pouze jazyka SQL: dotazovaná data se často nacházejí v různých databázích, dokonce na různých platformách. 71

73 transformace potřebné pro výpočty obchodních ukazatelů jsou často natolik složité, že konstrukty SQL na ně nestačí a je nutné použít procedurálního jazyka s proměnnými, cykly a rozhodovacími příkazy. je nutné dohledávat cizí klíče v číselníkových tabulkách, generovat umělé klíče tabulek a zpracovávat chybějící a nesprávná data. Všechny výše uvedené důvody a mnohé další vedly k vytvoření specializovaných nástrojů pro extrakci, transformaci a ukládání dat datových pump ETL Datové sklady a OLAP V literatuře bývá někdy synonymem pro datové sklady zkratka OLAP, která pochází ze slov on-line analytical processing a znamená okamžité zpracování dat. Spíše bychom pod tím měli rozumět pružné (rychlé) zpracování dotazů a analýz. Celý systém datového hospodaření lze obecně rozdělit na dvě základní části. První z nich je OLAP, což je analytické zpracování dat.na druhé straně stojí klasické databázové systémy, které se označují jako OLTP, což je zkratka on-line transaction processing neboli okamžité zpracování transakcí. Hlavním účelem provozních informačních systémů je podpora každodenních elementárních operací a činností v daném podniku a zajištění informační provázanosti a integrace jednotlivých částí nebo oblastí činnosti. Rozdílnost mezi OLAP a OLTP spočívá v tom, že OLTP systémy uchovávají záznamy o jednotlivých uskutečněných transakcích a jsou obvykle realizovány pomocí dnes nejběžnější relační databázové technologie. Data uchovávaná v OLTP databázovém systému jsou (zpravidla periodicky) agregována (typicky sumarizována) a poté ukládána do datového skladu, nad nímž se posléze podle potřeb provádí okamžité zpracování analýz pomocí vrstvy OLAP. Ve architektuře DW rozlišujeme následující vrstvy: a) spodní do této vrstvy patří server skladu, na kterém jsou uloženy relační databáze. Této vrstvě odpovídá položka Datový sklad. b) prostřední tato vrstva zahrnuje OLAP server, který obvykle implementuje buď relační OLAP model (ROLAP), což je rozšířený relační DBMS, který převádí operace nad multidimenzionálními daty na standardní relační operace. Druhou možností je multidimenzionální OLAP (MOLAP), který přímo umí pracovat s multidimenzionálními daty a operacemi. Tato vrstva koresponduje s Aplikační vrstvou ve schématu (viz obr. č. 1). 72

74 c) vrchní vrchní vrstvu označujeme jako klienta. Obsahuje nástroje pro provádění dotazů a vytváření zpráv, analýzy nebo data miningové nástroje (analýzy trendu, predikce, apod.). Shoduje se s prezentační vrstvou. Celý systém datového hospodaření lze rozdělit na dvě základní části. První z nich je již OLAP. Na druhé straně stojí klasické databázové systémy, které se označují jako OLTP, což je zkratka on-line transaction processing neboli okamžité zpracování transakcí (viz obr č.1). Obr. č. 1 Zpracování dat v datovém skladu 6.4. Struktura datového skladu Rozdílnost mezi OLAP a OLTP spočívá v tom, že OLTP systémy uchovávají záznamy o jednotlivých uskutečněných (typicky obchodních) transakcích a jsou obvykle realizovány pomocí dnes nejběžnější relační databázové technologie. Data uchovávaná v OLTP 73

75 databázovém systému jsou (zpravidla periodicky) agregována (typicky sumarizována) a poté ukládána do datového skladu, nad nímž se posléze podle potřeb provádí okamžité zpracování analýz pomocí vrstvy OLAP. Datový sklad je na rozdíl od OLTP databáze určen výhradně ke čtení dat pro potřeby nejrůznějších analýz. Jedinou výjimkou jsou (obvykle periodické) aktualizace datového skladu, tj. přidávání nových datových agregátů či odstraňování již neaktuálních datových agregátů, které probíhají obvykle periodicky každý týden, měsíc, atp. Tyto akce je ovšem možno chápat za součást údržby datového skladu, která probíhá ve speciálním režimu při momentálním vyloučení zpracování OLAP požadavků uživatelů datového skladu. V běžném režimu práce (tzn. při provádění dotazů a analýz) není obsah datového skladu modifikován. Tento zásadní rozdíl mezi OLTP systémy a datovými sklady má rozsáhlé důsledky pro způsob jeho implementace, návrhu a tvorby konceptuálního modelu, který je orientován na dosažení co nejrychlejšího zpracování dotazů kladených datovému skladu vrstvou OLAP. Data v datovém skladu jsou z logického (uživatelského) pohledu členěna do schéma (topologické uspořádání). Každé schéma odpovídá jedné analyzované funkční oblasti. Schéma obsahuje dva typy tabulek faktové a dimenzionální. Jádro každého schématu tvoří jedna nebo několik faktových tabulek. V nich jsou uložena vlastní analyzovaná data - veličiny, které sledujeme (hodnoty,které jsou použity k analytickým výpočtům - agregacím, třídění apod.). Většina paměťového místa v datovém skladu zabírají faktové tabulky, které obsahují detailní údaje ze všech zdrojů, tedy řádově více údajů než ostatní tabulky. S faktovou tabulkou je spojena granularita. Faktové tabulky jsou pomocí cizích klíčů spojeny s dimenzemi. Dimenze jsou tabulky, které obsahují seznamy hodnot sloužících ke kategorizaci a třídění dat ve faktových tabulkách (atributy, prostřednictvím kterých se díváme na data). Je to vlastně číselník, podle kterého chceme data analyzovat. Vlastnosti dimenzí: a) Dimenze určují úhel pohledu čas, produkt, zákazník b) Dimenze udržují hierarchie (vztah 1:N) c) Vztah mezi faktovou tabulkou a dimenzemi je 1:N Datový sklad je založen na multidimenzionálním datovém modelu. S takto uloženými daty lze následně pracovat jako s tzv. datovou kostkou (cube). Datová kostka může mít větší množství rozměrů (dimenzí). Dimenze kostky reprezentují rozdílné kategorie pro analýzu dat. Kategorie jako například čas, geografické umístění nebo různé výrobkové řady jsou 74

76 typickými dimenzemi v datových kostkách. Kostky nejsou omezeny na tři dimenze. Např. kostky vytvořené v MS OLAP services mohou obsahovat až 64 dimenzí. Dimenze jsou obvykle uspořádány do hierarchií tak, že mapují sloupce v relačních databázích. Hierarchie dimenzí jsou seskupovány do úrovní obsahujících hodnoty dané dimenze. Každá úroveň v dimenzi může být sumarizována, aby vytvořila hodnoty pro vyšší úroveň. Např. v dimenzi času sumarizací hodnot v úrovni den získáme hodnoty pro vyšší úroveň měsíc. Podle napojení dimenzí na faktovou tabulku rozlišujeme schéma typu hvězda (star) a schéma typu sněhová vločka (snowflake). U schématu typu sněhová vločka jsou tabulky dimenzí normalizovány. Faktová tabulka obsahuje cizí klíče do tabulek dimenzí. Nejčastějším způsobem jak převést relační data na multidimenzionální je využít tzv. star schéma (hvězda). Hvězdicové schéma se skládá z rozsáhlé centrální tabulky s hodnotami (tzv. tabulka faktů) a řadou malých doprovodných tabulek pro každou dimenzi. Grafické vyjádření schématu připomíná hvězdu, s tabulkami dimenzí zobrazenými v paprskovité struktuře okolo centrální tabulky faktů. Ve hvězdicovém schématu je každá dimenze reprezentována právě jednou tabulkou. A každá tabulka obsahuje několik atributů. Např. dimenze čas může mít tyto atributy: den, měsíc, kvartál, rok. Snowflake (sněhová vločka) je určitým druhem hvězdicového schéma, ve kterém jsou tabulky dimenzí normalizovány, čímž se data rozdělují do dalších tabulek. Výsledné grafické schéma pak vytváří tvar podobný sněhové vločce. Hlavní rozdíl mezi těmito dvěma modely spočívá v tom, že tabulky dimenzí jsou normalizované, aby snížili redundance v uložených datech. Takováto tabulka je snadno udržovatelná a šetří diskový prostor. Ovšem tato úspora je zanedbatelná ve srovnání s typickou velikostí tabulky faktů. Navíc toto schéma může snižovat efektivnost analýz dat, neboť je zapotřebí provést více spojení tabulek, aby mohl být dotaz proveden. Proto může být výkon systému nepříznivě ovlivněn. Z tohoto důvodu není schéma sněhové vločky tak časté při návrhu datového skladu jako hvězdicové schéma. Některé aplikace mohou vyžadovat více tabulek faktů, aby mohly sdílet tabulky dimenzí. Toto schéma může být zobrazeno jako soubor hvězd a proto se nazývá Constellation (galaxie nebo souhvězdí). 75

77 6.5. Funkce datového skladu Mezi klasickým informačním systémem a datovým skladem existuje zcela zásadní rozdíl. Klasický informační systém slouží k momentálnímu zpracování a vyhodnocení jednotlivých transakcí a k základnímu sběru dat a tím pádem i k vytváření momentálního obrazu sledované reality. Datový sklad je naopak dlouhodobým úložištěm, kam data shromážděná klasickými informačními systémy přibývají periodicky po jednotlivých dávkách. Datovém skladu se připouští i vícenásobné uložení stejných dat a také nižší detail uchovávaných dat. Důležité vlastnosti datového skladu jsou různorodost zdroje a nesmazatelnost dat. Je běžné, že vznikne požadavek na sjednocení a vytěžování informací z řady datových zdrojů, ale tyto zdroje jsou naprosto nekonzistentní, tzn., jsou uloženy ve zcela odlišných strukturách, formátech, některé mohou být i zcela nestrukturované, mají odlišnou filozofii záznamu, jsou uloženy na různých médiích atd. V souvislosti s touto problematikou se objevuje termín ETL (extraction, transformation, load). Extraction (extrakce) je prvním a zároveň nejkritičtějším krokem ke správnému a informační hodnotu přinášejícímu využití datového skladu. Jedná se o schopnost převzít data z co nejširšího spektra datových zdrojů nejrůznějšího charakteru s periodicitou (textové soubory, standardy elektronické pošty, databázové standardy, webovské logovací soubory a protokoly). Jedná se tedy o pracovní etapu, kdy usilujeme o přesné, rychlé, bezpečné, lehce kontrolovatelné a dobře řiditelné načtení dat z co nejvíce externích datových zdrojů. Po jejím skončení budou potřebná data načtena přímo do připravených zdrojových struktur pro extrahovaná data. Transformation (Transformace) je postupná řada operací, které extrahovaná data připraví pro vlastní načtení do datového skladu (důvodem je zejména nesoulad mezi daty z jednotlivých zdrojů a jejich neúplnost). Základem transformace je vytvoření programové logiky, která provede převod mezi zdrojovými strukturami naplněnými syrovými daty a cílovými strukturami, které jsou zdrojem pro pozdější vytěžování dat. Dalším nedílnou součástí je validace (ověření správnosti extrahovaných dat, případně odhalení rozporů v těchto datech). Transformace je tedy chápána jako proces získání co nejkvalitnějších dat. Load (natažení) je poslední část celého procesu, kdy jsou transformovaná data načtena do vlastního fyzického prostoru datového skladu a jsou přístupná pro vytěžování pokládání dotazů. Data mohou být kopírována ve stejném tvaru, jaký mají cílové struktury, nebo mohou 76

78 být načtena v předzpracovaném tvaru do tzv. multidimenzionálních tabulek (kostek), které obsahují předpřipravené podklady pro rychlé odezvy na dotazy zpracované podle jednotlivých dimenzí (hran kostky). Load je také periodický Plnění datového skladu Proces plnění datového skladu je někdy označován jako proces ETL (extractiontransformation- load). Tato zkratka vystihuje složitost plnění datového skladu. Data je třeba nejprve extrahovat z primárních datových zdrojů. Vzhledem k tomu, že jednotlivé primární datové zdroje nepracují s týmž datovým modelem, mnohdy nepoužívají ani tytéž datové typy, některé údaje jsou v datových zdrojích obsaženy pouze implicitně a je třeba je odvozovat z jiných údajů, následuje krok transformace, který převede data získaná z jednotlivých datových zdrojů do unifikovaného datového modelu, nad nímž je možné vytvářet agregace a získaná agregovaná data pak uložit do datového skladu (fáze load). Smyslem OLAP systémů je co nejrychleji poskytnout uživateli požadované agregace dat, popřípadě výsledky analýz provedených právě nad těmito agregacemi. Zatímco v případě návrhu OLTP systému je jakákoliv redundance údajů nežádoucí, neboť je právem považována za potenciální zdroj vzniku nekonzistencí, v případě OLAP systémů se redundance připouštějí a dokonce se jich hojně využívá k dosažení rychlejší odezvy na OLAP dotazy Datové kostky Datové sklady a OLAP nástroje jsou založeny na multidimenzionálním datovém modelu. Tento model zobrazuje data ve formě datové kostky (viz obr č.2). Dimenze kostky reprezentují rozdílné kategorie pro analýzu dat. Kategorie jako například čas, geografické umístění nebo různé výrobkové řady jsou typickými dimenzemi v datových kostkách. Kostky nejsou omezeny na tři dimenze. Dimenze jsou obvykle uspořádány do hierarchií tak, že mapují sloupce v relačních databázích. Hierarchie dimenzí jsou seskupovány do úrovní obsahujících hodnoty dané dimenze. Každá úroveň v dimenzi 77

79 může být sumarizována, aby vytvořila hodnoty pro vyšší úroveň. Např. v dimenzi času sumarizací hodnot v úrovni den získáme hodnoty pro vyšší úroveň měsíc. Míry jsou kvantitativní hodnoty v databázi, které mají být analyzovány. Typickými mírami bývají prodeje, náklady a rozpočty. Míry jsou analyzovány oproti různým kategoriím dimenzí datové kostky. Např. analýza prodejů (míra) určitého výrobku (dimenze) v různých zemích (konkrétní úroveň dimenze geografická poloha) během dvou určitých roků (úroveň dimenze čas). datový Obr. č. 2 Multidimenzionální model 6.8. Datové sklady nejen pro vrcholový management V dalším jsou uvedeny přínosy, které řešení formou datového skladu přinese uživatelům mimo vrcholový management. Jde zejména o tu část uživatelů, pro které byly ve stávajících IS určeny rozličné výstupní sestavy a přehledy. Při rozšířeném využití datových skladů budou mít tito uživatelé možnost ocenit zejména následující skutečnosti: Snadná a rychlá dostupnost informace Ve srovnání se standardními výstupy v prostředí provozního IS dostane uživatel u kritických výstupů požadovanou informaci ve zlomkovém čase. Navíc u takto získané informace má možnost využít dalších funkcí (drill down, drill up, drill across, porovnávání apod.), které by při standardním způsobu zpracování byly uskutečnitelné pouze obtížně, částečně anebo vůbec. 78

80 Podpora grafického výstupu Uživatel má k dispozici požadovanou informaci jak v podobě číselné tabulky, tak i ve vybrané grafické podobě. Grafickou podobu má k dispozici přímo v prostředí prezentačního nástroje bez nutnosti přenášení údajů do prostředí, které zobrazení formou grafů podporuje. Samostatné provádění úprav v existujících přehledech V předem připravených přehledech má uživatel možnost provádět celou řadu úprav jak ve smyslu uspořádání získané informace, tak ve smyslu změn výběrových kriterií. Díky odlišnému způsobu uložení dat v datovém skladu se u podstatné části takovýchto úprav nemusí provádět opakované vyhledávání údajů. Avšak i při opakovaném vyhledávání je požadovaná informace k dispozici neporovnatelně rychleji. Samostatné vytváření nových přehledů Na základě existujících přehledů nebo s využitím možností prezentačního nástroje si může uživatel velice snadno a rychle definovat výstupy podle svých představ. Není přitom omezen časově zdlouhavým definováním svých požadavků a čekáním na to, až budou jeho požadavky někým jiným zrealizovány. Interaktivní formou má možnost v podstatě modelovat formu a obsah požadovaných výstupů a vytvořené produkty si uložit pro další použití. Otevřenost řešení Otevřenost řešení s použitím datového skladu je jednou z nejdůležitějších vlastností nového přístupu. Otevřenost je možno chápat z více hledisek. Například otevřenost ve smyslu volné přístupnosti údajů ze všech úhlů pohledu v souladu s navrženou datovou strukturou datového skladu nebo otevřenost z hlediska disponibilních dat (provozní, historická, z jiných IS) v souladu s tím, jak jsou do navržených datových struktur naplněna. Přístupnost z prostředí Internetu Vybrané údaje je možno snadno uložit ve formátu přístupném pro prohlížení z prostředí internetu. Toto uložení je vesměs podporováno v rámci použitých prezentačních nástrojů. V závislosti na typu či konfiguraci prezentačního nástroje je možno mít uloženu jak pasivní, tak i aktivní aplikaci (podporující provádění řady úprav i v prostředí internetu). Shrnutí Datový sklad je samozřejmě i nadále v první řadě určen pro potřeby managementu a podporu rozhodování ve firmě. Návrh a realizaci modelu datového skladu lze velmi výhodně využít i pro pokrytí těch funkcí, kde to v nedávné minulosti z různých důvodů (kapacitní, cenové, neexistence potřebných produktů atd.) bylo prakticky nemožné. 79

81 SHRNUTÍ KAPITOLY Datový sklad (anglicky Data Warehouse, případně DWH) je zvláštní typ relační databáze, která umožňuje řešit úlohy zaměřené převážně na analytické dotazování nad rozsáhlými soubory dat. Definice datového skladu: K definici rozdílu mezi běžnou relační databází a datovým skladem se obvykle používá následujících charakteristik : 1. Orientace na subjekt výsledkem je struktura, která je čitelnější pro uživatele (manažera, business analytika) za cenu zvýšených nároků na paměťový prostor. 2. Integrovanost úzce souvisí s orientací na subjekt všechna data týkající se určité funkční oblasti potřebuji mít na jedné hromadě bez ohledu na to, odkud pocházejí. 3. Nízká proměnlivost Data jsou do datového skladu obvykle nahrávána ve větších dávkách (například v denních nebo týdenních intervalech) a pak již nejsou nijak modifikována. 4. Historizace Data jsou v datovém skladu obvykle udržována v historické podobě, nikoliv pouze v aktuálním stavu. Celý systém datového hospodaření lze rozdělit na dvě základní části. První z nich je OLAP, což je analytické zpracování dat.na druhé straně stojí klasické databázové systémy, které se označují jako OLTP, což je zkratka on-line transaction processing neboli okamžité zpracování transakcí. Struktura datového skladu Data v datovém skladu jsou z logického (uživatelského) pohledu členěna do schéma (topologické uspořádání). Každé schéma odpovídá jedné analyzované funkční oblasti. Schéma obsahuje dva typy tabulek faktové a dimenzionální. Funkce datového skladu Mezi klasickým informačním systémem a datovým skladem existuje zcela zásadní rozdíl. Klasický informační systém slouží k momentálnímu zpracování a vyhodnocení jednotlivých transakcí a k základnímu sběru dat a tím pádem i k vytváření momentálního obrazu sledované reality. Datový sklad je naopak dlouhodobým úložištěm, kam data shromážděná klasickými informačními systémy přibývají periodicky po jednotlivých dávkách. 80

82 SEZNAM KLÍČOVÝCH SLOV K ZAPAMATOVÁNÍ Datový sklad, Podnikový sklad, Datové tržiště, Virtuální sklad, Datová pumpa, OLAP, OLTP, Datová kostka,. KONTROLNÍ OTÁZKY 1. Rozdíl mezi databází a datovým skladem 2. Co je OLAP a OLTP 3. Popište strukturu a funkci datového skladu KONTROLNÍ TEST Navrhněte jednoduchou tabulku (v Excelu) prodejů zboží s uvedením ceny, množství a prodejců v jednotlivých měsících roku. Zobrazte prodeje zboží vyjádřené v penězích podle prodejců a měsíců pomocí nástroje kontingenční tabulka. 81

83 VÝSTUPY Z UČENÍ Po prostudování textu a vypracování úkolů v rámci této kapitoly BUDETE UMĚT Definovat strukturu a funkci datového skladu. Budete znát rozdíl mezi databází a datovým skladem. Budete vědět co je to OLAP jeho význam a použití a rozdíl od OLTP. ZNALOSTI BUDETE SCHOPNI SCHOPNOSTI Se orientovat v základní problematice týkající se práce a používání datových skladů, jejich struktury a způsobu ukládání dat. ZÍSKÁTE DOVEDNOSTI Můžete se orientovat v pojmech OLAP a OLTP a struktuře odpovídající datovému skladu. 82

84 7. Dobývání dat z databází (data mining) V posledních asi pěti letech vznikla a rozvinula se nová profese, která se označuje anglickým výrazem data mining - dolování v datech (DM). Tento směr činnosti v oboru zpracování informací byl rozvíjen na základě objektivních potřeb manažerů v situacích, kde jsou pro rozhodování nedostatečné podklady, ale jsou k dispozici datové zdroje. Ve světě je taková profese považována za jednu z nejperspektivnějších a to vzhledem k tomu, že moderní technologie umožňují stálé a průběžné kumulování velmi obsáhlých datových zdrojů, které k takovým účelům mohou být využity. DM je nový směr v oboru procesu vytváření informací, který je založen na metodách matematické statistiky, vizuální analýzy, matematiky, matematické logiky a umělé inteligence. Vyžaduje nový metodologický aparát a schopnosti ovládat nově vzniklý typ softwaru. Jeho cílem je nalézt skryté vztahy a zákonitosti v datových souborech, především ve velkých, a přinést novou znalost a to jak na úrovni poznání, tak na úrovni rozhodování Data mining (angl. dolování z dat, vytěžování dat, DM ). Pojem byl definován jako řada automatizovaných postupů používaných k nalezení dosud neznámých vzorů a vztahů v datech. Jedná se o pojem z oblasti Business Intelligence, kde tyto vzory a vztahy mohou být použity, aby dokázaly předpovědět chování zákazníka. Definic DM je velmi mnoho. V poslední době převládá názor, že DM je součástí procesu aplikace vybraných analytických metod pro vyhledávání zajímavých vztahů v datech a spadá do širšího pojmu KDD (Knowledge Discovery in Databases dobývání znalostí z databází). První náznaky aktivit, které dnes označujeme jako DM, se objevily v 60. letech 20. století s rozvojem počítačové techniky. Šlo například o využívání regresní analýzy s automatickým výběrem proměnných a prvních rozhodovacích stromů. Většinou však šlo jen o ojedinělé nebo akademické záležitosti. Databázové technologie představují osvědčený prostředek jak uchovávat rozsáhlá data a vyhledávat v nich informace, statistika představuje osvědčený prostředek jak modelovat a analyzovat závislosti v datech. Po léta se tyto disciplíny vyvíjely nezávisle, až přišla ta chvíle, kdy rozsah automaticky sbíraných dat začínal uživatelům přerůstat přes hlavu. Současně s tím také vznikla potřeba tato data používat pro podporu (strategického) rozhodování ve firmách. 83

85 Zájem finančně silných uživatelů o aplikace pak stimuloval ono propojení a dal vzniknout dobývání znalostí z databází. Některé databáze se rozrostly do takových rozměrů, že ani systémový administrátor vždy neví, jaká data databáze obsahují či jak relevantní jsou data pro zodpovězení aktuální otázky. Pro organizaci by bylo přínosné, pokud by dokázala z těchto rozsáhlých databází vytěžit důležité informace nebo struktury chování. Tyto skutečnosti vedly k tomu, že byl DM, tak jak jej dnes chápeme, vytvořen Datová pumpa jako nástroj pro Data mining Úkolem datové pumpy není jen vybrat specifikovanou část dat z provozního systému a tuto část překopírovat do primární databáze datového skladu. Proces převodu většinou představuje částečnou nebo i značnou změnu struktury ukládaných dat a hlavně jejich "čištění". V provozních systémech (zvláště těch hůře navržených) mohou být data většinou globálně a někdy i lokálně nekonzistentní. Proces čištění má za úkol zjistit a odstranit nekonzistence ve vstupních datech a může sloužit i jako opravná zpětná vazba pro provozní informační systém. Datová pumpa je v praxi tvořena několika programy, které musí být přímo přizpůsobeny cílové aplikační doméně na jedné straně a struktuře primární databáze na straně druhé. Primární databáze datového skladu je ovšem v podstatě obrazem aplikační domény. Datová pumpa je tudíž závislá na cílové aplikační doméně nasazovaného datového skladu. Na rozdíl od většiny dalších součástí datového skladu je datová pumpa obvykle pro každou instalaci datového skladu unikátní. Úkolem datové pumpy je vybrat specifikovanou část dat z provozního systému (např. z databáze ERP či CRM) a tuto část překopírovat do databáze samotného data warehouse. Proces převodu občas představuje změnu struktury ukládaných dat a hlavně jejich "čištění". Základem datové pumpy jsou tzv. ETL nástroje. ETL nástroje zabezpečují tři důležité kroky v plnění datového skladu daty pomocí datové pumpy: Extraction (extrakce, vylití) Transformation (transformace, kontrola dat) Loading (plnění). Datová pumpa je prvním potenciálně slabým místem datového skladu a tudíž i prvním adeptem na případnou optimalizaci. Vyladění datové pumpy obvykle spočívá v práci návrhářů a programátorů a provádí se v podstatě jednorázově při jejím vytváření a ladění. Z teoretického hlediska datová pumpa opravdu nepřináší mnoho zajímavých nebo nových 84

86 problémů, ale její konkrétní realizace bývá často z hlediska výkonu velice kritickým místem celého skladu. Aby datová pumpa fungovala nejen na školních případech s malým množstvím jednoduchým dat, je třeba ji věnovat pozornost a v žádném případě ji nepodceňovat Postup při dolování dat Dvěma primárními cíly DM v praxi jsou predikce a deskripce. Predikce (Prediction) umožňuje předvídat budoucí hodnoty atributů na základě nalezených vzorů v datech Deskripce (Description) popisuje nalezené vzory a vztahy v datech, které mohou ovlivnit rozhodování Cílů predikce a deskripce je dosaženo pomocí následujících úkolů: Klasifikace (Classification) podstatou klasifikace je rozdělit objekty s určitými charakteristickými rysy do jednotlivých tříd na základě modelu vybudovaného podle tréninkové množiny dat (třídy jsou dány předem a každý objekt je možné zařadit). Regrese (Regression) řada již dříve zjištěných hodnot, která slouží k předpovědi toho, jaké další hodnoty budou následovat Shlukování (Clustering) rozdělení datového souboru do určitých skupin (počet skupin je většinou zjišťován v průběhu analýzy dat), čímž jsou vytvářeny shluky objektů. Užívanými metodami pro tento úkol jsou rozhodovací stromy, neuronové sítě, logistická regrese, diskriminační analýza. Sumarizace (Summarization) zahrnuje metody pro hledání uceleného popisu podmnožiny dat Modelování závislostí (Dependency Modeling) spočívá v nalezení modelu, který popisuje podstatné závislosti mezi proměnnými Detekce změn a odchylek (Change and Deviation Detection) se zaměřuje na objevení nejpodstatnějších změn v datech od původně naměřených nebo normativních hodnot Společnou podstatou všech metodologií je následnost několika kroků: Obchodní/praktický formulace úlohy a porozumění problému. Ani automatické vyhledávání znalostí nelze provádět zcela naslepo. Datový vyhledání a příprava dat pro analýzu. Statistické algoritmy většinou potřebují data připravená v určité podobě, a proto není možné použít přímo surových dat z obchodních databází. 85

87 Analytický hledání informace v datech, vytváření statistických modelů a podobně. Využívají se nejrůznější metody od jednoduchých tabelací a vizualizací až po sofistikované přístupy. Asi nejčastěji používanými metodami však jsou logistická regrese s automatickým výběrem proměnných, rozhodovací stromy a neuronové sítě. Výstup této fáze byl dvojí: jednak obecnější znalosti (např. že svobodní klienti nejčastěji nakupují pozdě večer, zatímco ženatí po obědě), jednak matematické modely (např. postup, jak vytipovat potenciálního klienta pro daný produkt). Aplikační zjištěné poznatky a modely je třeba uvést do praxe, například spuštěním reklamní kampaně nebo reorganizací webových stránek. Kontrolní je třeba zajistit zpětnou vazbu (jak efektivní byla obchodní akce) a v případě dlouhodobě nasazovaných modelů i kontrolovat, zda model příliš nezestárl a zachovává si svoji efektivitu. Po jistém období tápání se ustálilo chápání dobývání znalostí z databází - KDD - jako interaktivního a iterativního procesu tvořeného kroky selekce, předzpracování, transformace, vlastního dolování DM a interpretace. To je technologický pohled na KDD, ale nabízí se také pohled manažerský (viz obr. č. 1). Manažerský Znalosti pro problém 1. Řešitelský tým 7. Interpretace řešení 2. Specifikace 6. Data problému mining 3. Získání dat 5.Předzpraco- vání dat 4. Výběr metod Obr. č. 1 Postup dolování dat 86

88 Impulsem pro zahájení procesu dobývání znalostí je nějaký reálný problém. Cílem procesu dobývání znalostí je získat co nejvíce relevantních informací vhodných k řešení daného problému. Prvním krokem při řešení problému je vytvořit řešitelský tým. Jeho členy musí být: expert na řešenou problematiku, expert na data jak v organizaci, tak popřípadě i na externí data expert na metody KDD, V případě rozsáhlejších problémů je obvyklé, že jednotliví experti mají k dispozici vlastní tým, nebo alespoň využívají konzultací s dalšími experty. Prvním úkolem sestaveného týmu je specifikace problému, který je třeba řešit v souvislostech dobývání znalostí. Po specifikaci problému je třeba získat všechna dostupná data, která mohou být použita pro řešení problému. Znamená to posoudit všechna dostupná data a zvážit, zda odpovídají danému problému. Tento proces může vyvolat menší či větší přeformulování problému. V některých případech je třeba pracovat i s daty, která jsou archivována po delší dobu ve formě datových souborů a ne v databázi, data jsou někdy dokonce uložena v několika různých systémech. Náročnost získání dat je nepřímo úměrná úrovni datové základny, která je k dispozici. V mnohých případech je vhodné uvažovat i externí data popisující prostředí, ve kterém se analyzované děje odehrávají. Zpracování dat z rozsáhlých databází a datových skladů má nejrůznější formy. Tradiční přístupy analyzující data prostřednictvím sestav a výkazů jsou dnes většinou založený na dotazovacích nástrojích (SQL) pracujících nad relačními databázemi, případně na technikách označovaných jako OLAP (On-Line Analytical Processing), které často využívají uložení dat v multidimenzionálních databázích k rychlé prezentaci dat ve formě tabulek, sumarizovaných přes různé hierarchicky uspořádané dimense (např. rok, čtvrtletí, měsíc versus kraje, okresy, obce). Tyto techniky umožňují udržovat přehled o okamžité pozici podniku v rozsáhlých organizacích a během doby, která by se před několika lety zdála nesplnitelná. 87

89 Z hlediska komerčního využití je přijatá následující definice dobývání dat. Dobývání dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody. Obchodní výhoda označuje cíl dobývání dat, jež by vždy mělo mít za cíl řešení konkrétního obchodního problému či nalezení cesty k vylepšení procesu. Cíl by měl být předem definován a jen na jeho základě by se měla připravovat data. Pojem velký objem dat samozřejmě může znamenat různé objemy v různě velkých organizacích, ale zdůrazňuje nutnost podpory managementu a IT při zpřístupňování rozsáhlých dat z různých částí organizace. Data pro dobývání by ideálně měla být brána z datového skladu zahrnujícího historické hodnoty z různých podnikových systémů. Příprava dat je úzce svázána s pojmem proces. Ten znamená, že dobývání není jednorázová analýza, ale, že nasazení technologie dobývání dat předpokládá přípravu podnikových procesů umožňujících kontinuální využívání analýz a podporujících zpětné vazby od uživatelů. Ty pak mohou ovlivňovat jak proces sběru data, tak definice nových cílů Metody dobývání dat Dobývání dat je označením třídy úloh, které řeší mnohdy zdánlivě nesouvisející problémy z nejrůznějších oborů. Je pozoruhodné, kolik praktických aplikací má několik obecných metod analýzy dat. Výběr metody, která bude použita pro řešení daného problému, je jen jedním z kroků procesu dobývání dat. Je třeba mít na zřeteli cíl, pro jehož splnění lze použít více metod. Pak je dobré znát jejich výhody a mít možnost porovnat jejich výsledky. Prediktivní modelování je postupem, kdy se, na základě známé množiny vstupních a známých jim odpovídajících výstupních hodnot, hledá nejpravděpodobnější hodnota výstupu pro předem neznámé kombinace vstupních hodnot. Elementárním příkladem prediktivního modelování je např. hodnocení rizika úvěru v bankovnictví. Používanými technikami pro prediktivní modelování jsou různé typy regrese, neuronové sítě a rozhodovací stromy. 88

90 Regrese je standardní statistická metoda schopná popsat stupeň důležitosti vstupních proměnných na výstup. Její síla tkví s teoretické propracovanosti odhadu chyb modelu a možnosti hledat i závislost na kombinaci vstupních proměnných. (Praktický příklad) Neuronové sítě jsou novou moderní technikou prediktivního modelování vynikající velkou variabilitou možných modelů a snadností modifikace jejich návrhu. Z pohledu regrese jsou neuronové sítě elegantní technikou pro hledání parametrů modelu založeného na velice flexibilním systému vnořených funkcí. Na druhé straně model založený na neuronové síti nemá srozumitelnou interpretaci. Rozhodovací stromy naopak získaly popularitu díky své snadné interpretaci. Popis modelu pomocí rozhodovacího stromu je řadou jednoduchých rozhodovacích pravidel často presentovaných ve formě grafu. Tyto grafy mohou být snadno bez hlubokých znalostí statistických metod interpretovány řídícími pracovníky. Při použití všech technik modelování je nutno řešit problémy s volbou počtu parametrů modelu, jejich konvergence a odhadu chyb. Klasifikace je obecně metodou pro rozdělování dat do skupin dle jistých kriterií. Pokud jsou tato kriteria předem známa, alespoň pro vzorek dat, lze pomocí metod prediktivního modelování vyvinout model jehož výstupem je klasifikační proměnná. Mnohem častější případ je neřízená klasifikace, kdy výsledná kriteria nejsou předem známa a úlohou klasifikace je jejich nalezení. Používanou technikou v takovýchto případech je shluková analýza (Cluster Analysis). Elementárním příkladem shlukové analýzy je např. nalezení skupin obchodů na základě jejich obratu, sortimentů a typu zákazníků. Nalezené skupiny lze pak použít např. pro specifikaci reklamní kampaně zaměřené na jednotlivé skupiny prodejen. Analýza asociací se zabývá hledáním kombinací produktů, které se ve vstupních datech vyskytují významně častěji spolu. Nejčastějším použitím analýzy asociací, a zároveň jejím ilustrativním příkladem, je tzv. analýza nákupního košíku. Cílem je odhalit pravidla typu: při nákupu zboží A a C spotřebitele výrazně častěji nakupují zboží D a B. Odhalení takovýchto kombinací pomáhá marketingovým odborníkům v organizování nabídky či společných balíčků produktů. Vzorkování je výběr omezené množiny dat ze základního souboru. Není to algoritmus řešící přímo nějaký zadaný úkol dobývání dat, ale je to jedna ze základních technik dobývání dat umožňující a získat výsledek v rozumném čase. Nejjednodušším způsobem vzorkování je náhodný výběr, který slouží jen ke zmenšení objemu zpracovávaných dat a tím k zrychlení výpočtů. 89

91 Vizualizace Datové sklady a nástroj pro jejich využívání existují na různých úrovních. Těžbu dat lze provádět od jednoduchého dotazu do databáze přes tvorbu tabulky z uložených dat až po vizuální zobrazení analýz z dat pocházejících z několika databází. První stupeň - jednoduché dotazy, krátké výpisy, malé tabulky nebo nepříliš složité analýzy zvládne každý trochu fundovanější člověk téměř "on-line", ihned. O stupeň výše je "typicky počítačové" zobrazení ve formě např. tabulky nebo 3D grafu spolu s jednoduchou analýzou. Nejvyšší stupeň představuje 2D nebo 3D vizualizace uložených dat. Vizualizace vznikla proto, že grafická podoba dat je pro člověka intuitivní, více přijatelná, rychleji se chápe a lépe se pamatuje. Výpočetní a komunikační technika umožňují shromažďovat a zpracovávat obrovské množství dat. Růst výkonnosti počítačů a kapacity elektronických médií (magnetických, optických disků, diskových polí, pásek atd.) dovolují uchovávat stále větší a větší objemy dat, které jsou pak výchozí surovinou pro získávání informací pro zainteresované a problematiky znalé subjekty (osoby, organizace, firmy, instituce, atd.) Informační analýza Problém dneška tedy nespočívá ani tak v technologickém hromadění neustále přibývajících dat, ale v účinném, rychlém a lidsky blízkém hledání jejich vztahů, souvislostí, závislostí, podřízenosti, nadřazenosti, podmíněnosti atd. V praxi hovoříme o datové, informační analýze. Z dat, jejich vzájemných vazeb a vztahů vznikají v procesu analýzy informace, které mají pro konečného uživatele svůj cenný, často strategický význam. Výpočetní technika, informatika jako taková, dnes dokáže kromě pouhého hromadění obrovského objemu dat a zabezpečení rychlého přístupu k nim pomoci i při jejich komplexním zkoumání, interpretaci a zobrazování. Speciální vizualizační techniky umožňují názornější představu o skutečné realitě a podstatně urychlují poznání zkoumaného objektu. Počítačové analytické nástroje dovolují automatickou analýzu velkých datových souborů způsobem, který je nám velice blízký a příjemný, lidsky pochopitelný. Pomáhají nám orientovat se v rozsáhlých a složitých vztazích a rychle nalézat společné nebo klíčové informace. Výpočetní technika zapojená do sítě zpřístupňuje informace širokému okruhu oprávněných uživatelů a nabízí jim možnost pracovat paralelně na daném problému z míst, která jsou vzdálená i stovky kilometrů a tím si navzájem vyměňovat aktuální poznatky v reálném čase. Podpora u dovoluje posílat produkty analýzy ve formě grafů, textů, obrázků apod. kolegům z ostatních součástí. 90

92 Ve skutečném světě konečnou informaci získáváme ze zdrojů širokého spektra: z mluveného slova, psaných textů, fotografií, zvukových a obrazových záznamů, textových a tabulkových procesorů, mailů, telefonátů, firemních nebo interních databází, osobních zkušeností apod. Moderní analytické nástroje podporované výpočetní technikou dokážou integrovat a organizovat multimediální data ze všech případných informačních zdrojů a zároveň je zobrazovat, analyzovat a sumarizovat v grafické podobě. Informační analýzou (a zpravodajstvím) se profesně zabývá řada státních i nestátních institucí. Jsou to banky, pojišťovací a další finanční instituce, telekomunikační, poštovní, obchodní nebo výrobní společnosti, organizace spojené s dopravou, službami apod. Analýza informací je používána v masově sdělovacích prostředcích (tisk, rozhlas, TV, Internet atd.), ve vládních i nevládních institucích, v soudnictví, při výběru a správě daní, při ekonomickém auditu atd Použití technik dobývání dat Následující výčet popisuje současné nejčastější použití technologie dobývání dat v různých oborech. Při jejich čtení je nutno si uvědomit, že některé oblasti aplikace dobývání dat zůstávají důvěrným firemním tajemstvím. To samé platí i pro většinu získaných výsledků. Analýza úvěrového rizika - výběr a ověřování kandidátů žádajících o úvěr, lze opět popsat prediktivním modelem, založeném na známém chování stávajících klientů Výhodou je v tomto případě znalost mnoha dat o klientech. Vyhodnocování marketingových kampaní - tvorbou prediktivního modelu odezvy, získaného na základě dat ze vzorku zákazníků, lze provést výběr z rozsáhlé databáze zákazníků, který garantuje s největší pravděpodobností odezvy. Analýza odchodu zákazníků (churn) - prediktivní model získaný analýzou dat o zákaznících lze použít pro plánování akcí, jenž mohou zabránit odchodu stávajících, nejrizikovějších, zákazníků. V telekomunikacích je používán pojem churn pro změnu poskytovatele služeb. Segmentace zákazníků - rozdělení zákazníků do skupin pro marketingové účely. Segmenty pak mohou definovat různé cílové skupiny. Detekce podvodů - pomocí prediktivního modelování (nejčastěji neuronové sítě), či shlukové analýzy, lze odhalit podezřelé chování či platebního styku. 91

93 Analýza produktů - přímá aplikace analýzy asociací - umožňuje definovat komplementární produkty pro dané segmenty zákazníků. Lze pak cíleně oslovovat zákazníky, kterým chybí část portfolia produktů či sestavovat požadované balíčky služeb. Analýza chování zákazníků - predikce např. vývoje poptávky na základě historických dat. Analýza sekvencí - výběr nejčastěji se vyskytující posloupnosti, či hledání stavů předcházejících nějaké události (poškození iniciované více vlivy) Zdroje dat: Dnešní svět je charakterizován explozí objemu dat sbíraných a ukládaných do databází. Připomeňme si některé oblasti a data v nich získávaná: Služby (objednávky zásilkových služeb či cestovních kanceláří, reservace jízdenek/letenek) Bankovnictví (bankovní transakce, žádosti o úvěr, historie splátek) Telekomunikace (informace o telefonním provozu a platbách za něj, v případě mobilních telefonů obsahuje záznam i informace o poloze atd.) Státní správa (daňová přiznání, celní deklarace, žádosti o sociální podporu, geografické informační systémy) Koncový prodej (data z registračních pokladen a zákaznických karet) Pojišťovnictví (registrace pojistek a plnění) Zdravotnictví (zdravotní záznamy, informace pro zdravotní pojišťovny) Jestliže u nás ještě nejsou některé, výše popisované, zdroje dat běžné v elektronické podobě, pak ve vyspělých státech, pokud v elektronické formě přímo nevznikají, tak v ní určitě končí, uloženy v databázích. Tato záplava dat je obhospodařována transakčními systémy, které většinou zpracovávají aktuální transakce, popřípadě je postupována do systémů navržených pro analýzy (systémy na dodávání informací - Information Delivery), jejichž úkolem je poskytovat přehledné informace pro rozhodování. Základem moderních systémů na dodávání informací je datový sklad (Data Warehouse) DW - centrální úložiště sjednocující sběr informací z celého podniku a ukládání historických dat, to vše optimalizované pro analýzy a výkaznictví. 92

94 7.7. Softwarové produkty pro dobývání dat Techniky dobývání dat dnes vstupují do běžné obchodní praxe. Nástroje pro dobývání dat a jejich využití jsou asi ve stejné situaci jako byla relační databázová technologie ke konci osmdesátých let. Komerční uživatelé z nejprogresivnějších společností již léta používají vlastní speciálně vyvinuté programy např. pro modelování marketingových kampaní či analýzu úvěrového risku. Další společnosti přivádí k zavádění technik dobývání dat zostřená konkurence na trhu, zvyšující se počty cílových zákazníků, ale i klesající náklady na tuto technologii. Obě tyto skupiny dnes hledají standardizovaná řešení, která pokrývají nejrůznější typy úloh a poskytují výstupy snadno srozumitelné managementu. S postupem doby začaly vznikat metodiky, které si kladou za cíl poskytnout uživatelům jednotný rámec pro řešení různých úloh z oblasti dobývání znalostí. Tyto metodiky umožňují sdílet a přenášet zkušenosti z úspěšných projektů. Za některými metodikami stojí producenti programových systémů (např. metodika 5A firmy SPSS), jiné vznikají ve spolupráci výzkumných a komerčních institucí jako softwarově nezávislé. V rámci výzkumného projektu Evropské komise vznikla během 90. let souhrnná DM metodologie CRISP-DM (CRoss-Industry Standard Proces for Data Mining) vyvinutá konsorciem firem, popisující v hrubých rysech jednotlivé etapy: Její model nabízí návody krok po kroku, úkoly a cíle pro každou část celého procesu. CRISP-DM umožňuje provádět rozsáhlé DM projekty rychleji, efektivněji a méně nákladně prostřednictví osvědčených postupů. Model pomáhá vyhnout se běžných chybám. Metodologie CRISP-DM rozděluje celý proces DM projektu do šesti základních etap, v rámci nichž dále rozlišuje další kroky. Těmito etapami jsou: 1. Definování cílů 2. Porozumění datům 3. Příprava dat 4. Modelování 5. Hodnocení výsledků 6. Implementace vytvořeného modelu 93

95 Tři zdroje KDD (Knowledge Discovery in Databases dobývání znalostí z databází). Relační databáze EIS (Executive Information System) to byl první pokus, jak přiblížit dotazování do databáze manažerům. Systém byl sice uživatelsky přátelský, ale málo flexibilní. Vyžadoval i účast systémového programátora. OLAP (On-line Analytical Processing) nabízí uživatelům flexibilitu a rychlost, jakož i příjemné intuitivní ovládání. Typické jsou možnosti vizualizace. Datové sklady a datová tržiště Dotazovací jazyky pro DM (výroková logika) Statistika kontingenční tabulky (námět pro cvičení) regresní analýza (námět pro cvičení) diskriminační analýza shluková analýza Strojové učení učení znalostem učení dovednostem 7.8. Dolování dat a datové sklady Existuje mnoho důvodů pro úzkou návaznost datového skladu a dolování dat. Nejdůležitějším důvodem je kvalita vstupních dat pro dolování. Sebedokonalejší modelovací technika či analýza nepřinesou očekávaný výsledek, pokud nejsou vstupní data očištěna od chyb, zkontrolována úplnost všech požadovaných údajů a sjednoceny formáty z různých systémů. Procesní charakter dolování dat vyžaduje, aby se jako vstup dolování dat používala průběžně aktualizována data. Všem těmto požadavkům vyhovuje datový sklad. Rozšíření datových skladů je naopak jedním z hybných prvků bouřlivého rozvoje technologii dolování dat. Obecné zkušenosti Zkušenosti z reálných komerčních aplikací patří k žárlivě střeženým tajemstvím příslušných firem. Aby měli i odborníci zabývající se vývojem celého oboru KDD možnost nakouknout pod pokličku reálných úloh, bývají zpřístupňována (reálná nebo simulovaná) data z řady aplikačních oblastí pro provádění analýz na nekomerční bázi. V posledních letech se analýzy takovýchto dat prezentují v řadě mezinárodních konferencí věnovaných dobývání 94

96 znalostí z databází. Společně řešené úlohy a následné diskuze ukazují, jaké jsou klíčové předpoklady úspěchu použití metod dobývání znalostí z databází v praxi (Berka, 2001): Spolupráce s experty z dané aplikační oblasti Podobně jako v případě expertních systémů, i při dobývání znalostí má expert z dané aplikační oblasti (a expert na data) důležitou roli. Jeho spolupráce je klíčová jak v úvodních krocích (porozumění dané problematice a porozumění datům), tak pro ocenění a využití znalostí. Dokonalejší metody předzpracování Algoritmy pro předzpracování a transformace dat (diskretizace a seskupování hodnot, ošetření chybějících hodnot, vytváření nových atributů) obvykle pracují nezávisle na aplikační oblasti. Zdá se, že využití doménových znalostí může výrazně zvýšit efektivnost těchto metod. Algoritmy schopné zpracovávat složitější data Většina algoritmů používaných pro modelování pracuje s jedinou datovou tabulkou tvořenou záznamy s pevnou strukturou. V reálných aplikacích se ale setkáváme s podstatně složitějšími typy dat: vzájemně provázanými relacemi, časovými daty, prostorovými daty, texty, strukturovanými daty. Řada činností v kroku předzpracování jde tedy na vrub nedokonalým nástrojům pro modelování. Interpretace výsledků srozumitelná expertovi Rozhodujícím kritériem pro úspěch nějaké reálné aplikace KDD je akceptování výsledků experty a potenciálními uživateli. To nejlepší řešení je bezcenné, pokud nebude používáno. Experti nejsou ochotni probírat se stovkami a stovkami pravidel, ani je nezajímají tabulky ukazující zlepšení jednoho klasifikátoru vůči jinému o zlomky procent. Co je zajímá, je vhled do nalezených znalostí nebo silná a slabá místa naučeného klasifikátoru. Jako důležité se tedy jeví následné zpracování výsledků a jejich vizualizace Potenciální nebezpečí DM Protože komerční DM představuje často masivní a inteligentní zpracování osobních údajů, vznikají často obavy ze zneužití těchto informací. Kromě obvyklých negativ spojených se shromažďováním osobních údajů, jako je záměrný i nezáměrný únik dat a jejich využití k různým nečestným aktivitám od spamu až po vydírání, zde teoreticky hrozí i specifické zneužití statistických technik. Lze si například představit zločince, který si pomocí analýzy dat vytipovává své oběti. 95

97 Zdá se však, že toto nebezpečí je alespoň v současném stavu DM nepatrné. I kdyby se náhodou zločinci dostali k využitelným osobním datům, pravděpodobně by jim použití sofistikovaných statistických metod příliš nepomohlo, už proto, že by jim chyběla databáze pozitivních příkladů úspěšných zločinů, na níž by mohli své modely postavit. Za větší potenciální nebezpečí lze považovat technologie, k jejichž vzniku DM přispívá v akademické sféře. Například dekódování genomu může být použito k nehumánním selekcím osob, ale postaveným na vědeckém základě. Anebo pokročilé metody identifikace osob mohou být spolu s kamerovými systémy používány ke špehování pohybu občanů. Dobývání musí být založeno na správných datech. Z nesmyslných dat dostaneme nesmyslné výsledky, Smetí dovnitř, smetí ven (angl. Garbage In, Garbage Out - GIGO). 96

98 SHRNUTÍ KAPITOLY Dolování dat a datové sklady Existuje mnoho důvodů pro úzkou návaznost datového skladu a dolování dat. Nejdůležitějším důvodem je kvalita vstupních dat pro dolování. Sebedokonalejší modelovací technika či analýza nepřinesou očekávaný výsledek pokud nejsou vstupní data očištěna od chyb, zkontrolována úplnost všech požadovaných údajů a sjednoceny formáty z různých systémů. Procesní charakter dolování dat vyžaduje, aby se jako vstup dolování dat používala průběžně aktualizovaná data. Všem těmto požadavkům vyhovuje datový sklad. Rozšíření datových skladů je naopak jedním z hybných prvků bouřlivého rozvoje technologii Dolování dat je proces výběru, prohledávání a modelování velkého objemu dat za účelem odhalení dříve neznámých vztahů mezi daty a za účelem získání obchodní výhody. Vyžaduje spolupráci IT oddělení, obchodních uživatelů a analytiků. Dolování dat je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací dat. Někdy se chápe jako analytická součást dobývání znalostí z databází (Knowledge Discovery in Databases, KDD). Data Mining je proces, který používá různé analytické nástroje pro odhalení ukrytých vzorů a závislostí v datech. Výsledkem je predikční model, který je podkladem pro rozhodování (definice firmy Two Crows Corporation). Dobývání dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody. Data mining je způsob přeměny dat na informace. Jedná se o proces získávání znalostí vztahů dříve neznámých informací z rozsáhlých firemních databází. 97

99 Fáze dataminingu : 1. Nasazení vhodného zdroje 2. Úprava dat 3. Výběr a transformace vhodných proměnných 4. Zpracování a vyhodnocení modelu 5. Ověření modelu 6. Implementace a údržba výsledného modelu Předpoklady úspěchu dolování dat : Zkušenosti firem plánujících podobným způsobem i několik kampaní týdně lze shrnout do následujících podmínek úspěšného nasazení technologie dolování dat: Kvalitní vstupní data Spolupráce IT a uživatelů Softwarové nástroje urychlující vývoj modelů a porovnání více technik dolování dat Propracovaná metodologie implementace procesů dolování dat a řízení projektů dolování dat 98

100 SEZNAM KLÍČOVÝCH SLOV K ZAPAMATOVÁNÍ Dobývání dat, Datový sklad, Dobývání znalostí z databází KONTROLNÍ OTÁZKY 1. Co to je dobývání dat 2. Základní fáze dobývání dat 3. Jaké softwarové produkty používané pro dobývání dat znáte KONTROLNÍ TEST Navrhněte jednoduchou tabulku (v Excelu) prodejů zboží s uvedením ceny, množství a prodejců v jednotlivých měsících roku. Zobrazte prodeje zboží vyjádřené v penězích podle prodejců a měsíců pomocí nástroje kontingenční tabulka. 99

101 VÝSTUPY Z UČENÍ Po prostudování textu a vypracování úkolů v rámci této kapitoly BUDETE UMĚT Seznámíte se s postupem při dolování dat a jednotlivými metodami při tom používanými. Poznáte pojem Informační analýza a její možné použití při dolování dat. Poznáte úlohu datové pumpa jako nástroj pro Data mining. ZNALOSTI BUDETE SCHOPNI SCHOPNOSTI Se orientovat v základní problematice týkající se práce a funkce datových pump, některých softwarových produktů vyvinutých pro jejich použití. ZÍSKÁTE DOVEDNOSTI Seznámíte se s postupem při navrhování řešitelského týmu pro dolování dat. Se základními metodami modelování dat používanými při informační analýze. Informace o dvou softwarových produktech používaných při dolování dat. 100

102 8. Zálohování a archivace dat v IS 8.1. Zálohování dat v IS V poslední době dochází k výrazným změnám, především na poli technologickém. Velká část osobních či firemních dat je shromažďována v elektronické podobě a jejich případná ztráta může mít vážné následky, a proto je potřeba data zálohovat. Problematika zálohování dat je součástí řešení bezpečnostní politiky informačních systémů. V případě osobních dat je ztráta velmi nepříjemná, ale přesto často nahraditelná. Jiná situace je u dat firemních, kdy ztráta může vést až k likvidaci firmy, neboť mohou být ztraceny nejen kontakty na partnery, ale i data účetní. Naprosto nepřípustná ztráta dat je v oblasti bankovního, důchodového, zdravotního systému a v dalších životně důležitých oblastech. V každém případě včasné zálohování/archivace uživatelských dat je bezesporu nejlevnější způsob, jak předcházet především finančním ztrátám. Příčiny ztráty dat je možné rozdělit do několika skupin: porucha hardwaru (je nepředvídatelná). Poškodit se mohou části počítače, jako např. základní deska, paměti, procesor, napájení, počítačová síť. Za nejzávažnější typ výpadku se považuje porucha pevných disků počítače. lidský faktor, kdy uživatel nebo administrátor informačního systému může omylem smazat důležitá data. Významným faktorem poškození dat může být záměrně způsoben interními (nebo externími) narušiteli, kteří mohou zneužít práv pro přístup k cizím datům. softwarové selhání je dalším významným faktorem. Konkrétně se jedná o smazání dat důsledkem chyb v aplikacích a existencí bezpečnostních dír, které mohou způsobit zhroucení systému (resp. ztrátu důležitých dat). počítačové viry, jejichž působením může dojít k modifikaci, příp. k smazání důležitých dat v informačním systému. přírodní katastrofy zahrnujeme zde požáry, povodně, zemětřesení, výbuchy apod. Některým katastrofám můžeme předcházet, některé jsou u nás nepravděpodobné (zemětřesení) a některé časté a nepředvídatelné (zásah bleskem). 101

103 8.2. Zálohování dat Cílem zálohování je rychle obnovit plně funkční stav informačního systému takový, jaký byl těsně před katastrofou. Zálohování (backup) je možné popsat jako vytváření bezpečnostní kopie dat nebo celého operačního systému tak, abychom mohli v případě havárie obnovit (restore) stav, který existoval těsně před vznikem poruchy. Zálohování je prostředkem pro udržení dostupnosti informací na předem určené úrovni ve vztahu k jejich ceně. Slouží ke krátkodobému ukládání aktuálních dat za účelem jejich obnovení při výpadku systému, jejich porušení či zničení. Kritickým faktorem při obnově stavu před havárií je její rychlost. Zálohování se provádí jak na magnetická, tak i na optická média, s možností jejich přepisu. Provádí se každý den, týden nebo měsíc na to samé médium. Data jsou vždy přemazána a nahrazena novými. Proces zálohování dat se liší od archivace dat. Za archivaci lze považovat data uložená na bezpečném místě, která jsou určena k pozdějšímu použití. Její životnost se počítá na desítky let, zatímco zálohování je využitelné buď ze dne na den, maximálně s odstupem několika měsíců. Z toho tedy vyplývají rozdílné požadavky na média pro archivaci nebo pro zálohování. Anglická terminologie rozlišuje několik pojmů pro zálohování dat, a to : Backup zálohování dat (systému a jeho nastavení, aplikací a databází) pro potřebu obnovy, Cold Backup záloha s časovou posunem (distorzí), Hot Backup záloha v reálném čase (tzv. on-line záloha), Full backup - jedná se o zálohu, kdy není zjišťováno, zda byla data od poslední zálohy nějak modifikována a je provedena jejich záloha, Offline backup - znamená to, že záloha je prováděna při zastavených procesech informačního systému, Online backup je záloha, která se provádí při běžících procesech informačního systému, Incremental backup - jedná se o přírůstkovou zálohu, při které je zjišťováno, zda data byla od poslední zálohy modifikována. Pokud byla modifikována, data se nově zálohují, v opačném případě se jejich záloha neprovede. Restore obnova dat po logické chybě (závada způsobená lidskou chybou) nebo technické chybě (závada technického vybavení). Zálohování zahrnuje následující funkce: záchrana dat po havárii, ochrana provozuschopnosti informačního systému, 102

104 záchrana operačního systému a databází, zejména - konfigurace, - uživatelských účtů, jejich profilů, práv a omezení, rychlost obnovy stavu před havárií Způsoby zálohování dat Mezi základní způsoby zálohování patří: výchozí je to kopie původního systému. Provádí se po první instalaci, zálohuje všechny soubory a programy. kompletní - při každém zálohování jsou vždy zálohována všechna data najednou. Kompletní zálohování patří mezi nejznámější a nejjednodušší způsob zálohování. Za výhodu je považována jednoduchost obnovy v případě potřeby. Mezi nevýhody kompletního zálohování patří skutečnost, že je náročnější na výpočetní prostředky a zabírá výrazně větší množství úložného prostoru. inkrementální (přírůstkové) - při prvním spuštění se provede kompletní záloha, ale při dalších se již provádí záloha těch dat, která byla od posledního spuštění modifikována. Po nějakém časovém intervalu, resp. po určitém počtu spuštění zálohování, se celý postup opakuje. Výhodou této metody je časová a objemová (co se týče přírůstků) nenáročnost. Nevýhodou inkrementálního zálohování je, že v případě potřeby obnovení dat ze zálohy je potřeba poskládat všechny zálohy od posledního spuštění kompletní zálohy, což může znamenat potřebu obnovy dat z několika po sobě jdoucích zálohovacích médií. diferenční (rozdílové) - jde o obdobu inkrementálního zálohování s tím rozdílem, že při každém dalším spuštění nezálohují změny pouze od posledního spuštění, ale od poslední kompletní zálohy. Diferenční zálohování představuje zálohu pro všechna data od poslední úplné zálohy. Tím pádem odpadá potřeba obnovy dat z více záloh. Cenou za to je mírně větší potřeba úložného prostoru. Každá z uvedených metod zálohování může být vhodná pro jiný typ dat. Například data, která se téměř zcela mění velmi často se nevyplatí zálohovat inkrementálně nebo diferenčně. Naopak data, kde se mění pouze malá část celkového objemu, se vyplatí zálohovat inkrementálně. Diferenční zálohování se vyplatí v případě nutnosti rychlé obnovy dat. 103

105 Podle způsobu vytváření záloh se rozlišuje decentralizované zálohování patří mezi starší způsoby zálohování dat v informačních systémech. Bylo založeno na individuální péči uživatele o data. Každý uživatel si zajišťoval zálohování tím, že si data nahrával na jiná média (ve víceméně nepravidelných intervalech), nepravidelnost a ruční přístup však často vedl ke ztrátě dat (omylem došlo k přepsání aktivní dat, uživatel zapomněl udělat zálohu,...) a z pohledu organizace se jednalo o velmi neefektivní činnost bylo zapotřebí zakoupit zálohovací zařízení téměř ke každému počítači, cena médií pro tato malá zálohovací zařízení je poměrně vysoká, velké množství lidí v organizaci dělá stejnou činnost (často na úkor původní pracovní náplně) a nakonec míra zajištění není příliš vysoká. Problémy nastávaly v případech, kde bylo nutno zálohovat větší objemy dat velké objemy dat již nelze jednoduše zálohovat tímto způsobem. Navíc, v případě komplexní obnovy informačního systému bylo zapotřebí fyzicky sjednotit všechny zálohy, což mnohokrát způsobovalo potíže. centralizované zálohování je založeno na využití velkokapacitního zálohování z centra (prostřednictvím vysokorychlostních sítí snadno dostupné i z koncových stanic). Je nejefektivněji realizováno diskovými systémy připojenými na obslužný počítač a jeho prostřednictvím na počítačovou síť (nebo existují i zálohovací zařízení přímo připojená na síť). Výměna záložních medií se realizuje automaticky robotem, který je rovněž ovládán zmíněným řídícím počítačem. Vyšší počet zálohovacích zařízení a velký počet použitých zálohovacích medií vytváří spolehlivé prostředí s možnostmi velmi rychlého zápisu a obnovování dat. Centralizované zálohování využívá automatickou úschovu dat (automatické zálohování). Automatické zálohování se vyznačuje následujícími vlastnostmi: odstraňuje nespolehlivý lidský faktor, zabezpečuje správnou výměnu zálohovacích médií, pravidelně provádí naplánované akce, podrobně dokumentuje všechny činnosti, hlídá technický stav zálohovacích médií a zálohovacích mechanik, stará se o čištění zálohovacích mechanik, pravidelně informuje správce systému o výsledku práce. 104

106 Zařízení pro automatizované zálohování je kombinací robotiky, slotů a příslušné zálohovací mechaniky. Systémy automatického zálohování umožňují vkládání, vyjímání a výměnu médií bez zásahu obsluhy. Tato zařízení můžeme rozdělit do dvou základních skupin: Autoloader - jsou automatizované systémy vybavené pouze jednou mechanikou, ale mají možnost výměny médii ze slotů podle požadavků zálohovacího systému. Konstrukce zařízení, ale především malý počet médií (8, max. 12) předurčují autoloadery, pro zálohování a obnovu dat v rámci malých síťových konfigurací. Knihovny - mají podobnou funkci jako autoloadery. Mohou však být vybaveny větším počtem mechanik a umožňují i uložení většího počtu médií. Jsou určeny pro zálohování velkého objemu dat a pro rozsáhlá síťová řešení. Součástí dobrých systémů pro automatizované zálohování je podpora páskových a optických knihoven. Robotická knihovna představuje sadu záložních médií, která jsou uložena v zásobnících. V systémech pro automatizované zálohování je robot sám vyjímá a vkládá do jedné nebo i více záznamových mechanik. Pro snížení pravděpodobnosti zničení zdroje i úložiště dat se přijímají nezbytná organizační opatření (umístění knihovny mimo běžné kancelářské prostředí, např. do místnosti serverů, u velkých organizací s vysoce cennými daty umístění centrálních výpočetních prostředků mimo hlavní budovu, atd.). Pro další zvýšení bezpečnosti je možné pracovat s několika identickými sadami médií, jejichž kopie jsou po určitou dobu umístěny na bezpečném místě (ve vzdálenějších lokalitách) s využitím moderních technologií SAN (Storage Area Networks) a rychlými periferními komunikacemi FC (Fibre Channel). Filosofie zálohování určuje, co se má v informačních systémech zálohovat: zálohovat by se mělo to, co je v systému jedinečné, např. uživatelské adresáře a systémové databáze. zálohovat by se mělo úplně všechno, tedy celý systém, protože pak je obnova systému jednodušší Strategie zálohování dat Vlastní strategie zálohování dat v informačních systémech (viz obr č.1) spočívá ve vytvoření záloh jedná se o vytváření datových záloh na fyzická zálohová media a v ochraně záloh ochrana záloh se realizuje např. vytvořením tzv. tandemových záloh, která vytvoří zálohu před selháním zálohovacího média, protože každý soubor je zálohovaný 105

107 dvakrát. Je to vlastně záloha zálohy dat. Po každém zálohování by se mělo zkusit obnovit pár zálohovaných souborů, aby se verifikovala funkčnost provedeného zálohování, Uchovávání záloh - zálohy je nutné nějaký čas uchovávat. Roční zálohy se doporučují uchovávat trvale (archivace dat). Je důležité chránit zálohy před nebezpečím jako je požár, krádež a jiné. Proto by se měly uchovávat odděleně od počítačového systému. Po vyjmutí zálohovacího média ze zálohovací mechaniky je dobré přepnout ochranu proti zápisu. Takto je totiž nebude možné omylem přemazat. Důležité je také uchovávat data na záložních mediích. Bezpečnost se podstatně zvýší pomocí šifrování. Z pohledu systémových prostředků, na kterých jsou zálohy uskutečňovány, se rozlišuje: zálohování individuálních pracovních stanic - celý systém se zálohuje jednou za měsíc nebo po instalaci většího softwarového produktu. Tato strategie většinou nevyužívá inkrementální zálohy. Každý další den se provádí inkrementální záloha, střídavě na dvě záložní média. Každý soubor je tak zálohovaný na dvou záložních médiích. zálohování malých sítí - malá síť je zde představována jedním serverem a několika pracovními stanicemi. Zde se doporučuje provádět měsíční zálohy celého systému, týdenní zálohy standardních systémových souborů a denní zálohy uživatelských souborů. Je doporučeno měsíční zálohy uchovávat po celý rok, týdenní zálohy uchovávat měsíc, denní zálohy uchovávat pouze jeden den. zálohování velkých sítí jsou dána především požadavky větších firem (např. bank) na minimalizaci času odstavení v případě havárie. Proto jsou zde nutné aktuální a úplné zálohy, které je možno okamžitě použít. Zde se používá síťové zálohování na speciální disky. Zápisy na každý disk by se tedy měly zrcadlit, tak aby havárie jednoho disku neměla dopad na uživatele. Každý večer by se měl obsah celého disku zrcadlit na vzdálené disky na jiném místě. Kdyby došlo k výpadku hlavního systému může naběhnout systém vzdálený. 106

108 Obr.č. 1 Strategie zálohování dat Pro efektivní zálohování je nutno vytvořit zálohovací strategii (viz obr č.1). Ta spočívá v určení chráněných aktiv, jejich ocenění, stanovení zálohovacího plánu a plánu obnovy. Samotný zálohovací plán říká, jak často a jakou metodou bude záloha prováděna, jak budou data chráněna a na jaké datové úložiště bude záloha směrována. Zálohovací strategie obsahuje: plánování zálohování - každá činnost, aby měla nějaký smysl, musí mít svůj vnitřní řád. Nejhorší je samozřejmě nedělat zálohy vůbec žádné. Stejného výsledku můžeme ale dosáhnout zálohováním, které se děje nepravidelně a nekontrolovaně. Nakonec uchovávaná data bývají natolik neaktuální, že jsou prakticky nepoužitelná. Plán obnovy je vlastně jakýmsi krizovým plánem, ve kterém bychom měli pamatovat na souslednost jednotlivých úkonů, které je potřeba postupně vykonat, abychom provedli rekonstrukci dat s úspěchem. Plán obnovy musí být pravidelně aktualizován, aby odrážel pokud možno stále skutečný stav informačního systému. Proces vlastního zálohování dat se skládá ze dvou fází, a to: vlastní zálohování dat (backup), zpětná obnova dat (restore) při obnově systému (plán obnovy). vlastní zálohování dat (backup) stanovuje tzv. Backup Management. Backup Management lze chápat jako stanovení strategie ukládání dat, stanovení objemu zálohovaných dat a toho, 107

109 jaká data a z jakých systémů budou v daném okamžiku zálohována. Výsledkem tohoto procesu je stanovení konceptu, kam a jak budou data v informačním systému zálohována. Prvním krokem při tvorbě zálohovacího (backup) konceptu je rozdělení zálohovaných dat podle stupně důležitosti. Rozlišují se tři stupně důležitosti dat: nekritická data (non critical data) jsou to data, jejichž ztráta nepřinese větší problémy a s určitým úsilím se nám je podaří nahradit, i kdybychom neměli vytvořenou zálohu. Do této skupiny dat řadíme veškeré instalace, jak operačního systému a databázových systémů, tak i dalších programů a aplikací. Bude to sice trvat určitý čas, ale lze je z instalačních médií vrátit do původního stavu. Tato data se doporučuje zálohovat maximálně jednou týdně, minimálně alespoň jednou měsíčně. nízko-kritická data (low critical data) jsou to taková data, která se jen velmi málo mění a změny se dají s určitou námahou dohledat a obnovit. Anebo se jedná o data, která v průběhu činnosti určitého systému nejsou aktuálně zapotřebí, ale z hlediska bezpečnosti celého řešení je možno je v kritických případech použít. Tato data se doporučuje zálohovat maximálně jedenkrát denně, minimálně alespoň jednou týdně je potřeba vytvořit zálohu. kritická data (critical data) jsou to skutečně kritická data, která jsou neustále vytvářena a jsou nutná pro bezproblémový provoz systému. Jejich ztráta by pak mohla způsobit nestabilitu celého systému. Tato data se vždy doporučují zálohovat i několikrát denně a ještě na různá media. Za ideální řešení se považuje vytvoření dvou stejných záloh současně. Druhým krokem při tvorbě zálohovacího (backup) konceptu je stanovení časové periodicity tvorby záloh (tzv. časový navigační plán). Správně zvolená strategie zálohování (backupu) se provádí jednou týdně (např. v neděli) full backup celého systému a následující dny v týdnu se pak provádí pouze inkrementální backup (z důvodu menší časové náročnosti přírůstkového zálohování). Periodicita záleží na několika faktorech: cena chráněných aktiv, povaha dat z hlediska rychlosti zastarávání, objem dat - velké množství dat je velmi nákladné zálohovat často z důvodů ceny datových úložišť, použitelné metody zálohování jestliže není možné kvůli povaze dat použít například inkrementální zálohování, tak se zvyšuje nákladnost zálohování a není ekonomické je provádět často. 108

110 Zpětná obnova dat (restore) - je tedy nutné mít data nejen zálohovaná, ale systém musí být schopen je obnovit. Plán obnovy představuje krizový plán, ve kterém bychom měli pamatovat na souslednost jednotlivých úkonů, které je potřeba postupně vykonat, abychom provedli rekonstrukci dat s úspěchem. Plán obnovy musí být pravidelně aktualizován, aby odrážel pokud možno stále skutečný stav informačního systému. V krizovém plánu je obnova dat sice podstatnou, ale nikoliv jedinou nutnou činností. Je například dobré znát umístění médií s poslední zálohou, znát případná hesla, kterými bývá záloha chráněna. Významným krokem v procesu obnovy dat je použití tzv. časové navigace. Během zálohovacího procesu jsou veškeré informace o prováděných operacích ukládány do databáze. Databáze obsahuje veškeré informace o souborech, jeho atributech, jeho modifikacích, ale hlavně na jaké médium jsou uloženy. Všechny tyto informace jsou vždy svázány s časem realizace. Při obnově pak nemusíme pracně prohledávat jednotlivá média, ale stačí si pouze vzpomenout, kdy naposledy byl daný soubor používán. Pomocí uživatelského prostředí je pak simulován stav, který byl na serveru v dané době a hledaný soubor je možné obnovit. Zálohovací systém, pak sám oznámí, jaké médium potřebuje pro obnovu hledaného souboru. Plán obnovy by měl řešit především následující otázky: kde je možné nalézt zálohy, jakým způsobem jsou značeny, jaká technologie (hardware, software) je potřeba k jejich obnovení a jak se s ní pracuje, kdo zodpovídá za provedení obnovy dat a kdo jej zastupuje v případě nepřítomnosti, kde je možné získat přístupová hesla k chráněným zálohám. V rámci zpětné obnovy dat je nutné sestavení tzv. krizového plánu (ve formě dokumentu), aby obnova systému po havárii mohla úspěšně a korektně proběhnout podle stanovených postupů. Krizový plán by měl být aktualizován a modifikován v souladu se změnami, které v informačním systému probíhají. Součástí krizového plánu je i plán obnovy sestavený podle logické časové posloupnosti zhruba podle následujících kroků: oprava závady, instalace operačního systému, rekonstrukce účtů uživatelů, instalace aplikací, rekonstrukce dat, 109

111 zajištění kontinuity a navazujících činností, vyvarovat se provizorií i za cenu pomalejšího návratu k normálnímu stavu, obnovení zálohování. Ztráta dat v informačních systémech je i v případě havarijních stavů informačního systému mnohokrát pro organizace nepřípustná. Technickým řešením, aby ke ztrátě dat nedocházelo, je zálohování dat. Toto umožňuje obnovu stavu informačního systému do identické podoby, jaká existovala těsně před vznikem poruchy. Problematika zálohování dat je součástí bezpečnostní politiky informačních systémů Archivace dat v informačních systémech Vytváření trvalých záloh dat v informačních systémech je jednou ze součástí bezpečnostní politiky informačních systémů. Na rozdíl od zálohování dat, archivace dat zabezpečuje trvalé uložení dat bez možnosti jejích dalších změn. Archivace dat v informačních systémech představuje především shromažďování informací pro případné pozdější použití a znamená trvalé uložení dat, bez možnosti dalších změn. Archivovaná data nejsou přemazávaná. Při archivaci dat se počítá i s nasazením technologií pro rychlé vyhledávání a třídění výsledků. Pro práci s archivem pak bude nejdůležitější jeho uspořádání, dlouhodobá spolehlivost a vysoká trvanlivost. Digitální data se vyznačují několika vlastnostmi, se kterými se u jinak reprezentovaných dat ( tj. psané, tištěné dokumenty a fotografie, dokumenty s analogovým záznamem zvuku a videa) nesetkáme vůbec nebo jen v omezené míře. Tyto vlastnosti jsou: distribuovanost - umožňující vzdálený a paralelní přístup neomezeného počtu uživatelů k datům, hypertextová struktura elektronických dokumentů, multimedialita možnost vjímání digitálních dat nejmíň dvěma formami percepce, interaktivita možnost aktivního přístupu k datům v reálném čase, přidaná hodnota zahrnující např. bezprostřední vazbu metadata-primární data, vyhledávání ve strukturovaných datech nebo v plném textu v reálném čase, automatická konverze, generování dokumentu z databáze na základě uživatelského požadavku atd.) bezztrátová reprodukovatelnost kopie dat je identická jejich originálu (v důsledku toho přestává být patrný rozdíl mezi originálem a kopií) aktuálnost možnosti rychlé modifikace a aktualizace dat. 110

112 Dlouhodobá archivace dat V souvislosti s dlouhodobou archivací digitálních dat však musíme brát v úvahu jako podstatnější tyto specifické znaky: závislost na tzv. digitálním prostředí digitální data jsou na jedné straně flexibilní a snadno transformovatelná a modifikovatelná, na druhé straně mohou během poměrně krátké doby pozbýt svou funkčnost, a tedy i informační hodnotu, protože digitální prostředí, v němž byly vytvořeny, rychle morálně zastarávají. Digitálním prostředím se rozumí soubor technických prostředků (hardwarová platforma, operační systém a aplikační software) nezbytných pro správné (či dostatečné) dekódování digitálních dokumentů, resp. pro provedení zpětné konverze do takové formy, která zajišťuje, aby mohly být vnímány lidskými smysly (např. tisk na papír, zobrazení na monitoru, zvukový výstup pomocí reproduktoru). Je složité odhadnout, kudy se bude další vývoj ubírat. Hrozí tak reálné nebezpečí, že se nepodaří některá digitální data uchovat do budoucnosti, protože nebudou k dispozici technologie, které umožní jeho čitelnost, ačkoliv jako artefakty budou nadále existovat. nezávislost na nosiči - ochranné metody, které se uplatňují u tradičních dat, jsou primárně podmíněny skutečností, že v jejich případě představují hmotný nosič a informace, které jsou na něm (nebo v něm) fixovány, dva neoddělitelné prvky jednoho homogenního objektu. Jelikož v tomto smyslu uchovat data čitelná, a tak umožnit jich zpřístupnění, znamená totéž co zabezpečit fyzickou celistvost nosiče, soustřeďuje se pozornost (preventivní ochrana dat) na klimatické parametry prostředí, v němž jsou data deponována (teplota, relativní vlhkost a intenzita světla). U digitálních dat se díky tomu, že k záznamu se používá jeden univerzální kódovací systém (binární soustava) bez ohledu na to, jakou formu nebo obsah mají, ruší dosavadní pevná svázanost nosiče a informací (dat), které tak mohou být podle potřeby po dobu jejích existence uloženy na libovolném nosiči, kterého jediným praktickým limitujícím faktorem je jeho paměťová kapacita. Pro takto reprezentovaná data je jejích nosič irelevantní, rozhodující je dlouhodobá (ideálně trvalá) čitelnost digitálního záznamu, na druhé straně pro jejich dekódování nestačí archivovat samotný dokument, je nutná rovněž specifická konfigurace digitálního prostředí, ve kterém bude interpretován. 111

113 Kriteria pro archivování dat Z hlediska budoucího použití digitálních dat je nutné klasifikovat podstatné objekty těchto dat tj. určit kritéria, na jejichž základě bude možné posoudit, zda daná data (v původní nebo konvertované podobě) si uchovávají svou integritu (tj. validitu, kompletnost) a autenticitu (použitelnost dat pro ty účely, pro které byly vytvořeny). Jde v podstatě o klasifikaci objektů, z nichž jsou digitální data složeny (objekty, které nesou informační hodnotu). Z tohoto pohledu jsou u archivovaných dat významné: obsah, forma (formální struktura dat), funkčnost, kontext představuje dodatečnou informaci o identifikaci dat, často ve formě tzv. metadat (Metadata jsou odvozená strukturovaná data o jiných, primárních datech.). V procesu archivování dat se využívá jejich funkce integritní metadata jsou jedním z prostředků nutných ke správnému dekódování digitálních dat, ke kterým se vztahují (bez metadat jsou nesrozumitelné). Archivace dat plní následující cíle: dlouhodobá úschova informací, uvolnění primárních prostředků pro aktuální projekty, dislokace strategických dat, rychlost vyhledání, možnost paralelního využití (publikace v intranetu, Internetu). Za základní důvody provádění archivace jsou považovány: uchování dat pro budoucí použití, ochrana před zničením dat, nutnost uchování dokladů o provedených pracích. Vzdálenost archivu (zvyšováním vzdálenosti roste i bezpečnost uchování): příruční na stejném disku, odkládací na stejném počítači, ale jiném disku, bezpečnostní mimo počítač (archivní média). 112

114 Životnost archivovaných dat Významným aspektem v procesu archivování digitálních dat je jejích životnost. V rámci životnosti archivovaných digitálních dat rozlišujeme (viz obr č.2) Obr.č. 2 Vliv životnosti na archivovaná data softwarovou životnost která představuje životnost digitálního prostředí, ve kterém byla data vytvořena. Aby byla archivovaná data použitelná používají se pro eliminaci vlivu životnosti digitálního prostředí dvě metody, a to: Migrace - metoda migrace představuje v současnosti hlavní strategii archivace digitálních dat (především digitálních dokumentů). Cílem metody je čelit morálnímu stárnutí informačních technologií, který ovlivňuje čitelnost dat. Metoda migrace spočívá v periodicky probíhajícím procesu konverze dat z jednoho digitálního prostředí do druhého. Problémem metody migrace je tzv. hledání vhodného standardu. Nekompatibilita je totiž nástrojem konkurenčního soupeření producentů aplikačního softwaru. Podle J. Rothenberga je principiálně nemožné realizovat bezztrátovou konverzi mezi dvěma logickými formáty (tj. způsoby, jakým jsou data uspořádána). Migrace může mít negativní dopad na integritu digitálních dat jako celku, nebo jeho dílčích objektů proto, že původní a cílové digitální prostředí se zpravidla liší v některých svých vlastnostech (např. jiná konfigurace platformy, jiný nosič apod.). V reálných podmínkách archivování dat se používá tzv. částečná migrace, která zahrnuje konverze: softwarová aplikace 1 softwarová aplikace 2 (resp. formát 1 formát 2), operační systém 1 operační systém 2 (např. Linux Windows 98), 113

Zobrazit více