Big Data od velkých očekávání k praktickému využití DSW, Praha, 23.9.2014
Gartner: Hype Cycle for Emerging Technologies Zdroj: Gartner 3D scanners? NFC předběhlo cloud compu3ng? Internet of things zrychlil tempo Kolik najdete rozdílů? Kde jsou na křivce Big Data? 2 / 13
Agenda Opravdu máme velká data? Nástroje pro zpracovávání velkých objemů dat Opravdová big data příklad architektury, vlastnosti, možnosti nasazení Big Data inovační projekt Závěr 3 / 13
Big Data, Business Intelligence nebo vlastně... analýza dat? Big Data zájem o téma mezi širší veřejností prudce narůstá od roku 2011. USA V České republice až v loňském roce (2013). Naproti tomu téma Business Intelligence má od roku 2011 klesající tendenci. Česká Republika Nicméně BI je doplňováno rostoucím obecnějším tématem analýza dat/data analytics. Zdroj: Google Trends 4 / 13
Opravdová Big Data vs. velké množství dat Big Data Nejsou strukturovaná Jsou různorodá Mají velký objem Rychle se mění Náročnost zpracování Big Data Velké množství dat Jsou strukturovaná Změny je možné popsat Mají velký objem Pevná struktura Příklady Detekce fraudu na kreditních kartách Wikipedia Analýza sportovních utkání Analýza velkého množství dat Velikost firmy Příklady Prodeje v e- shopu Aktivované SW licence CDR záznamy o telefonních hovorech 5 / 13
Nástroje pro zpracovávání velkých objemů dat Pro zpracování velkých objemů dat tradičními způsoby existuje celá řada ověřených nástrojů od výrobců jako Oracle, SAP, Microsoft... Při zpracovávání můžeme s výhodou použít SW specializovaný na vizualizace a i zjednodušit přípravu dat: QlikView Tableau Panorama SW PowerPivot Nové možnosti v oblasti cloudových řešení GoodData, PowerBI,... 6 / 13
Příklad architektury pro Big Data projekt Parametry MS APS Až 6 petabytů relačních dat při použití SQL Server PDW pro potřeby velkých objemů dat Redundantní pro hlavní uzly a Hadoop Distributed File System (HDFS) úložiště Schopnost přidávat HW pro téměř lineární škálovatelnost Jedna jednotka (minimální krok) je schopna importu až 480 GB za hodinu Primární engine úložiště pracuje na přepisovatelné verzi inmemory sloupcového úložiště Analy3cs PlaOorm System (APS) 7 / 13
Příklad architektury pro Big Data projekt Výhody řešení: Zkombinování Hadoop a SQL Práce s big daty Dobře známé BI nástroje Robustní platforma Možné aplikace: Bankovní sektor, pojišťovny Telekomunikační operátoři 8 / 13
Náš výzkum Projekt ve spolupráci s Mendelovou univerzitou v Brně Získali jsme inovační voucher podpora spolupráce komerčního sektoru a univerzit Jihomoravské inovační centrum a město Brno Cíl projektu: Systematické prohledávání webových stránek se statisticky významným provozem a jejich kategorizace Vytvoření kategorií, které slouží jako reference o obsahu stránky Automatické přiřazování stránek ke kategoriím Vyhodnocení možností automatizace a správnosti zařazování obsahu 9 / 13
Definice kategorií Výsledek? Vlivy jazykových verzí Procento správné kategorizace, efektivita Geografické rozdíly Podíl neúspěšnosti Metody a technologie výběru stránek Ověření správnosti přiřazení Alaýza obsahu stránek- Hadoop Zpracovávání a kategorizace 10 / 13
ČAS Závěr Správné rozhodnutí o jaký typ zpracování dat se jedná. Výběr adekvátního nástroje pro zpracování. Zbytečná složitost = vícenáklady, prodloužení času dodání výsledku. Big Data stále ještě na začátku. NÁKLADY 11 / 13
Praha Brno Brno 12 / 13
Kontakty Petr Skokan obchodní ředitel petr.skokan@intecs.cz Telefon: +420 608 200 301 Vývojové centrum: Intelligent Technologies s.r.o. Vlhká 194/25 602 00 Brno Česká republika info@intecs.cz Telefon: +420 511 116 188 Sídlo firmy: Intelligent Technologies s.r.o. Vysoká 532/8 639 00 Brno Česká republika IČ: 27749240 DIČ: CZ27749240 Zápis do obchodního rejstříku Rejstříkový soud v Brně, spisová značka C 56441 hxp://www.intecs.cz 13 / 13