Data v informačních systémech Vladimíra Zádová, KIN 6. 5. 2015
Obsah přednášky informační systémy (IS) vztah dat a informačních systémů databáze, databázový systém základní dělení IS, trendy pojmy (terminologie) v oblasti IS Souvislost s předchozími přednáškami vztah dat, informací, znalostí Semiotické pojetí informace, Shanonovo pojetí informace Programovéprostředky PC, klasifikace, licence, způsoby pořizování, využití
Systém Množina prvkůa vazeb mezi nimi, kteráje účelovědefinovanána vymezeném reálném objektu z hlediska reálného cíle Důležité pojmy hledisko (účel), rozlišovací úroveň struktura prvky systému - vnitřní, vnější prvky podstatného okolí synergie v důsledku vazby meziprvkymácelek vlastnosti nové (tj. novou kvalitu) synergický efekt chování systému reakce na určité podněty
Informační systémy definice IS jsou systémy tj. soubory prvků ve vzájemných informačních a procesních vztazích (informační procesy), které zpracovávají data a zabezpečují komunikaci informací mezi prvky. Informační systémy se často člení na systém zpracování dat a komunikační systém. (Prof. Pokorný) ISrozumíme soubor lidí, prostředků(hw, komunikačnítechnika, SW), metod zabezpečující sběr, přenos, uchování, zpracování dat za účelem tvorby a prezentace informací pro potřeby uživatelů činných v systémech řízení. (Prof. Molnár)
IS x IS/ICT ( IS/IT) Informační systémy IS/ICT programové vybavení( software, SW) aplikační programové vybavení(asw) programovévybavenípro vývoj a implementaci ASW Informační (a komunikační) technologie zahrnuje všechny prostředky pro: pořízení uchování zpracování přenos prezentaci dat/informací?
IS, IS/ICT organizací východisko globálnístrategie, součástíje informační strategie integrace jednotlivých aplikací Informace nebo data v IS? Jak vypadáaplikace?
Informace nebo data v IS? Moudrost Znalosti Informace Data IS pracují s daty, ty jsou zdrojem informací
Aplikace myšlena programová aplikace (aplikační SW) vzájemně provázané programy program je část aplikace, která se spouští na jednom počítači (jedním příkazem či volbou jedné položky menu) je složena ze tří základních oblastí: prezentační aplikační datové
Aplikace PRAVIDLA DATA PROCESY Data Datová oblast Aplikační logika (business logika) Prezentační oblast APLIKACE uživatel
Aplikace Prezentačnívrstva zprostředkováváuživateli formulář, zprávu o úspěšném/neúspěšném průběhu akce (př. uloženídat-přijetíobjednávky) v požadovaném formátu Aplikační logika přebírádošládata, kontroluje jejich správnost (konzistence dat, integrita dat) a provádí další požadované zpracování( např. porovnává požadovanémnožstvía aktuálnístav) v případě neúspěšnosti (zadaná data nejsou konzistentní, či vstupní data neodpovídají obsaženým pravidlům) vrací řízení prezentační oblasti s informací o chybě, jinak předává řízení datové oblasti
Aplikace Datová oblast připravídata do požadovanéstruktury datového úložiště (databáze) provede záznam dat předává řízení prezentační oblasti (ta zajistí předání zprávy o proběhnuté akci)
API Rozhraní aplikace aplikačníprogramovérozhraní; Application Programming Interface prostřednictvím API probíhákomunikace mezi aplikacemi a mezi oblastmi uvnitř aplikací mezi daty a oblastídat UI uživatelskérozhraní; User Interface mezi prezentační vrstvou a uživatelem zajišťuje příjem uživatelských požadavků je grafické(ikony, menu), nebo příkazově orientované
organizace dat manipulace s daty
Organizace dat bit /byte znak písmena, číslice atribut /položka/údaj/pole záznam/věta soubor kolekce vzájemně souvisejících dat databáze kolekce vzájemně souvisejících souborů
Na nejhrubší úrovni: Databázový systém IS SŘBD DB DBS DBS = DB + SŘBDS IS... informačnísystém DBS..databázový systém DB...databáze SŘBD..systém řízení báze dat
Informační systém data z databáze: využívápřímo zpracovává dalšími aplikačními programy Databáze obsahuje data, obvykle uložena na vnějších paměťových mediích je strukturovaná množina dat základním požadavkem na data perzistence, paralelní přístup (sdílenídat ), spolehlivost dat, neredundance, nezávislost
Databáze - požadavky na data perzistence dat přetrvávánídatpo ukončeníprocesu, který snimi pracuje možnost znovupoužití dat v dalších procesech paralelní přístup - sdílení dat častý přístup více uživatelů ve stejnou dobu aktualizace menšího objemu dat požadavky na transakční zpracování spolehlivost dat = integrity + security integrity- zajištění integrity, konzistence databáze security -autorizace, ochrana před neoprávněným přístupem
Databáze - požadavky na data neredundance neopakování prvků dat nezávislost programy přistupujícík datům jsou nezávisléna tom, kde jsou data uložena
Databáze DATA, KATALOG DAT katalog dat(slovník dat, data dictionary, systémový katalog) popis dat, uloženýchvdatabázi vytváříschéma databáze(= databázovéschéma);katalog dat je vlastněmetadatabáze, kteráje potřebnájak zhlediska uživatele, tak zhlediska SŘBD databáze konkrétnídata, kteréjetřeba shromažďovat (je třeba ukládat jen ta data, která vedou k informaci) data jsou ukládána ve struktuře, kteráje popsána v katalogu dat
SŘBD Database Management System(zkratka DBMS) SŘBD umožňuje definovat a udržovat data v databázi mimo programy, které tato data využívají SW SŘBD realizuje 3 funkce: 1.definice databáze 2.konstrukce databáze 3.manipulace s databází
Ukládání dat založeno na databázových modelech databázový model je prostředek pro modelování, nikoli cíl (výsledek) hierarchický síťový relační objektový objektově-relační
Relační databázové systémy Oracle (Oracle), Access, MS SQL Server (Microsoft), DB2 (IBM), Progress, Sybase open source: MySQL, PostgreSQL
Relační model dat vycházíz toho, že objekty a vztahy v reálném světě se dajímodelovat pomocídvourozměrných tabulek (relací) Rozdíl relationship x relation vztah mezi tabulkami = relationship relace(relation) = tabulka dat
Základní pojmy relace vychází z matematické relace zjednodušeně relace = tabulka rozdíl proti tabulce: redukce tabulky na jednoduchou tabulku, kde sloupce určují strukturu, řádky pak záznamy nemohou být vloženy dva totožné záznamy každý sloupec je určen názvem a doménou záznam je uložen teprve tehdy, kdyžhodnoty všech atributů odpovídajídefinici
Terminologie Atribut (pole, údaj) je dán názvema doménou; názvy atributů jsou v rámci relace jedinečné Doména= množina hodnot, kterou může atribut nabývat př. text, celočíselný údaj, jen výčet hodnot(př. město: pouze Liberec, Jablonec, Aš), povinnost/nepovinnost(null/not NULL) Primárníklíč(PK) je dán minimálnímnožinou atributů, která zajistí jedinečnost záznamu (řádku) tabulky Schéma relace (= struktura tabulky) je dáno množinou atributů Prvek relace (=záznam)
Databáze většinou obsahuje více relací(i kdyžmůže mít jen jednu) pomocírelacíjsou modelovány objekty reálného světa a vztahy mezi nimi (jsou zdrojem informacío stavu procesů, činností v reálném světě) vrelačním modelu tabulky reprezentujíentity reálného světa i vztahy mezi nimi, někdy jen část entity Př. objednávka: hlavička objednávky a položky objednávky jsou uloženy ve 2 tabulkách
Vztahy mezi relacemi zajištěny pomocí cizího klíče (Foreign Key, FK) rozlišuje se tabulka nadřazenáa podřízená(master-detail), vztahy mezi nimi 1:N, může být 1:1 Př. zákazník-objednávka PK nadřazené tabulky = FK podřízené tabulky ve správněnavrženédatabázi jsou to jedinéatributy, které se v rámci databáze opakují ve více tabulkách referenční integrita konzistence mezi tabulkami řešípřidánízáznamůdo podřízenétabulky a rušenízáznamův nadřazené tabulce, PK (3 základní typy řešení)
Integritní omezení Integritní omezení jsou přídavnp davnátvrzenío objektech, která se po dobu existence konkrétn tní databázov zové aplikace nemění. doménová integrita (vztah k atributům) entitníintegrita (PK ; každárelace májen jeden PK, kandidátů může mít více) referenční integrita (FK) další omezení
Dobře navrženádatabáze mákaždý údaj zaznamenán jen jednou, údaje se neopakují s jedinou výjimkou PK-FK řeší se normalizace, funkční závislosti
Základní manipulace s daty vkládání nového záznamu (INSERT) aktualizace jednotlivých údajů v záznamech (UPDATE) rušení záznamu (DELETE) SELECT výběr informací z dat
Dotazovacíjazyky SQL (Structured Query Language) QBE (Query By Example)
MS ACCESS dotazy se zadávajív QBE vkládáním požadavkůdo tabulky lze však zadat dotaz i v SQL každý zadaný dotaz v QBE lze zobrazit v SQL
SQL Structured Query Language navržen počátkem 70. let 20. století a používá se dodnes 1974-75 -IBM -1.prototyp -SEQUEL od 1979 -do praxe -ORACLE (1979) IBM - SQL/DS (1981), DB/2 (1983) postupněpřijímán jako standard pro přístup k datům v relačních databázích
SQL -normy SQL 86 -DDL, DML, DCL 1986 -schválena ANSI norma SQL, základem dialekt DB2, 1987 - přijato mezinárodní standardizační organizacíiso SQL 89 -revize - 1989 rozšíření o specifikaci IO SQL2 -r. 1992 revize, SQL3
ProstředíMicrosoft Access
KNIHOVNA Zadání: sledovánívýpujčky knih může být více exemplářů jedné knihy může si vypůjčit více knih najednou (5) potřebuji evidovat všechny výpujčky po dobu 3 let Tabulka v Excelu Access
Tvorba databáze v aplikaci Microsoft Office Access návrh tabulek (relací) a vztahů mezi nimi tvorba dotazů, formulářů a sestav
Objekty databáze Microsoft Office Access
Příklad návrhu tabulky v aplikaci Microsoft Office Access Návrhové zobrazení
Příklad návrhu tabulky v aplikaci Microsoft Office Access Zobrazení datového listu
Vztahy mezi relacemi
Typy aplikací, ukládánídat
OLTP aplikace On-line Transaction Processing; transakční aplikace Business Intelligence: OLAP(On-line Analytical Processing), dolování dat (Data Mining), datové sklady
Obecná koncepce architektury BI Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005
DW - definice je subjektově orientovaná, integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů subjektová orientace DW je organizován podle hlavních subjektůpodniku (zákazníci, prodej, produkt..), ne podle procesů(aplikací) reflektuje potřeby uložení dat pro rozhodování v jednédatabázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci ) integrovaná do celku jsou vkládána data z různých aplikací- nekonzistentnost, různé formáty integracítěchto dat -prezentace unifikovaného pohledu B. Inmon
DW časově variantní data v DW jsou platná a přesná jen v bodech, ne intervalech času uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..) v DW vždy dimenze času stálá data v DW nevznikají, nedají se žádnými nástroji měnit aktualizace DW -jen přidávánídat v pravidelných časových intervalech (jako doplněk), integrace přírustků
Vztahy v rámci IS/ICT z hlediska dat a procesů
IS/ICT -vztahy mezi daty a procesy OLTP ETL OLAP, DM, Operativní data Datové sklady OLAM, EIS DATAWAREHOUSING
Současné trendy
Podíl zdrojů informací 80% nestrukturovaných 20 % strukturovaných 80% vnitřní informační zdroje 20% vnější informační zdroje
Současný stav Business Intelligence Procesy: dolovánídat (Data Mining) OLAP (On-line Analytical Processing) reporting BI 1.0 Úložištědat: datovésklady (Data Warehouse) datovátržiště(data Mart)
Business Intelligence z hlediska zdrojů informací převážně strukturované aktualizace zdrojových aplikací na základě konkrétních událostí, které nejsou příliš časté(jednáse tedy o nespojitou manipulaci s daty)
Požadavky a trendy BI ve struktuře zdrojů informací nestrukturované, semistrukturované dynamická data v orientaci v organizaci/analýze zaměřenína pravidla, jejich aktualizaci, řízeníažk procesům využití řízenípravidel v oblasti IS na podporu rozhodování Business Rules přístup
Nestrukturovanéa semistrukturovanézdroje informací Požadavek vybudovat sklad dokumentů (Document Warehouse) Procesy vyhledání a dolování textu Propojenís BI 1.0
Dynamická data proudy dat, proudy událostí Charakteristika: strukturovaná odlišnosti proti datům v klasických databázích přicházejíneustále (on-line) majíobecněneomezenou velikost nelze předpokládat nic o pořadídat, může být více proudů souběžně nelze je jednoduchým způsobem opětovně získat může se měnit jejich struktura (topologie)
Příklady data zbezpečnostních kamer, telefonníhovory, vývoj cen na burze, bankovníoperace Požadavky na Business Intelligence dolování dat nad proudy dat modifikace klasicky používaných metod dolování dat jako jsou shlukování, analýza časových řad na základěstanovených hodnot klíčových indikátorůvýkonu (KPI) a dosahovaných hodnot optimalizovat business procesy