Podíl zdrojů informací 80% nestrukturovaných (10 -) 20 % strukturovaných 80% vnitřní informační zdroje 20% vnější informační zdroje
Současný stav Business Intelligence Procesy: dolování dat (Data Mining) OLAP (On-line Analytical Processing) reporting Úložiště dat: datové sklady (Data Warehouse) datová tržiště (Data Mart) BI 1.0
Business Intelligence z hlediska zdrojů převážně strukturované aktualizace zdrojových aplikací na základě konkrétních událostí, které nejsou příliš časté (jedná se tedy o nespojitou manipulaci s daty)
Požadavky a trendy BI ve struktuře zdrojů informací nestrukturované, semistrukturované dynamická data pro orientaci v organizaci/analýze zaměření na pravidla, jejich aktualizaci, řízení až k business procesům využití řízení pravidel v oblasti IS na podporu rozhodování Business Rules přístup
Nestrukturované a semistrukturované zdroje informací Požadavek vybudovat sklad dokumentů (Document Warehouse) Procesy vyhledání a dolování textu Propojení s BI 1.0
Dynamická data proudy dat, proudy událostí Charakteristika: Strukturovaná Odlišnosti proti datům v klasických databázích přicházejí neustále (on-line) mají obecně neomezenou velikost nelze předpokládat nic o pořadí dat, může být více proudů souběžně nelze je jednoduchým způsobem opětovně získat může se měnit jejich struktura (topologie)
Příklady data z bezpečnostních kamer, telefonní hovory, vývoj cen na burze, bankovní operace Požadavky na Business Intelligence dolování dat nad proudy dat modifikace klasicky používaných metod dolování dat jako jsou shlukování, analýza časových řad na základě stanovených hodnot klíčových indikátorů výkonu (KPI) a dosahovaných hodnot optimalizovat business procesy
Trendy BI Integrace jednotlivých částí do BI Začleňování dalších oblastí dat a jejich zpracování
Big data
Big data is generally defined as high volume, velocity and variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making (Gartner, 2013)
Big data V charakteristiky Volume data s proměnlivým rozsahem - velikost od TB do PB a více Velocity jak rychle jsou data produkována a jak rychle musí být zpracována pro analýzu na požádání (př. proudy dat) Variability - různorodost dat; různé významy/kontexty spojené s množinou dat senzor, internet, sociální sítě Variety data v mnoha formátech/mediích strukturovaná, nestrukturovaná, semistrukturovaná,.. Veracity věrohodnost (spolehlivost, pravdivost) a predikabilita dat, která jsou ze své podstaty většinou nepřesná.
Big data Charakteristika Value hodnotná a cenná data pro byznys (vytváření sociální a ekonomické přidané hodnoty tzv. informační ekonomie) Visualization - vizuální reprezentace dat pro provádění rozhodnutí Volatility jak dlouho jsou data validní a jak dlouho by měla být uložena (kdy už data nejsou relevantní pro prováděnou analýzu)
Big Data Zdroje - velké kolekce dat v tradičních DW nebo databázích, - podniková data z velkých newebových společností, které pracují s internetovými transakcemi, - data z velkých webových společností poskytujících soc. sítě a média, - data z mobilních zařízení, - proudy dat generované vzdálenými senzory a dalším IT hardwarem, - datové archivy z e-science ( bioinformatika, astronomie ), - současný rozvoj Internetu věcí vede k velkému zatížení sítí a následnému zvýšení nároků na ukládání odpovídajících dat Problémy: složitost dat, rychlost jejich vzniku heterogenní kolekce dat, problém s integrací
Big Analytics z hlediska uživatele je nejdůležitější zpracování Big Dat mění informace ve znalosti pomocí kombinace stávajících a nových přístupů
Big Analytics zahrnuje interaktivní zpracování zpracování dat v klidu (data at rest) pro podporu rozhodování zpracování dat v pohybu (data in motion) v reálném čase obvykle pomocí systémůřízení proudů dat vždy je dimenze čas analytik nemůže data poté, co proud proběhl, znovu analyzovat hodnota analýzy (a často i dat) se snižuje s časem pokud je potřeba více průchodů proudu, údaje musí být vloženy do DW pro provedení dalších analýz nebo jsou uložena a zpracována např pomocí. NoSQL databáze..
Hadoop, NoSQL, NewSQL
NoSQL databáze = not only SQL v širším smyslu zahrnuje XML db., db. dokumentů, obj. db. vznik iniciovaly webové společnosti koncem 90.let x RDB jednodušší škálovatelnost, vyšší výkon různé datové modely
slabě konzistentní databáze nejsou realizovány vlastnosti ACID v plném rozsahu x RDB transakční zpracování založeno na vlastnostech ACID tj. silná konzistence CAP teorém zohledňuje požadavky potřebné při návrhu webových služeb C (consistency,konzistence) bez ohledu na zapsání dat, vždy bude zobrazena posledníé verze dat» Ve srovnání s konzistenci v ACID je menší A (availibility, dostupnost) každá operace obdržená nechybujícím uzlem musí vést k obdržení výsledku (nebo chyby). P (partitioning tolerance, odolnost vůči rozdělení sítě) do db. se může zapisovat, číst z ní i když jsou její části zcela nepřístupné
Nástroje NoSQL: NoSQL mají malou nebo žádnou podporu pro modelování dat (nevytvářen logický datový model), návrh databáze je spíš řízený dotazem, data nejsou omezena integritními omezeními, v různých aplikacích mají rozdílné chování, absence standardního dotazovacího jazyka, různá vyspělost nástrojů
NewSQL databáze efektivní škálování (jako NoSQL db) garance konzistence transakcí (viz RDBS) konzistence s SQL vhodnośt pro analýzu v reálném čase (přístup in-memory)
NewSQL databáze - jsou škálovatelné horizontálně, - rozdělení dat je transparentní, - poskytují záruku ACID, - interakce aplikací s databází je primárně pomocí SQL (včetně operace spojení), - pro řízení souběžného zpracování nepoužívají zámky, - poskytují vyšší výkon než tradiční systémy. NewSQL SŘBD poskytují podstatně vyšší výkon a škálovatelnost ve srovnání s tradičními SŘBD či Hadoop.
Vlastnosti ACID a transakce A = (atomicity) atomicita transakce transakce je jeden celek - musí proběhnout celá či vůbec ne C = (Consistency) konzistence transakce transformuje databázi z jednoho konzistentního stavu databáze do jiného konzistentního stavu I = (Isolation) nezávislost transakce transakce jsou nezávislé, dílčí efekty transakce nejsou viditelné jiným transakcím (nezávislost požaduje aby transakce měla vždy konzistentní databázi t.j. výsledky transakce viditelné pro ostatní transakce až pro potvrzení) D =(Durability) trvanlivost (perzistence) úspěšně ukončené transakce (potvrzené) jsou uloženy do databáze Údržba atomicity transakce se nazývá zotavení z chyb vlastnosti ACID jsou základním principem transakčního zpracování pozn. doplnit strukturu objektů i strukturu z članku 42/96 vlastnosti ACID