Jakub Augustín Big Data Competency Leader Big Data Business snídaně Prepared for: 28. 5. 2015 1
Co jsou Big Data? 2
Datová exploze Let na měsíc = Small Data Let letadlem = Big Data Modul Apolo: Operační paměť: 2 kb Disková kapacita: 64 kb Boeing 747: Každý motor generuje: 20TB/h 4 hodinový let: 320 TB dat 3
Big data jsou všude kolem nás Oblačnost Rychlost a směr větru Teplota GeoLocation Mobilní sítě Bankovní transakce Dopravní informace Sociální sítě Data z webu Image: http://wallbase.cc/wallpaper/751687 4
Data Volume [ZB] Exploze dat 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 Data Explosion Celosvětově se odhaduje (zdroj studie IDG): 2010: více než 1 ZB (zettabyte, 1 ZB = 10 21 B) 2015: 6,8 ZB 2020: více než 36 ZB Většina dat je nestrukturovaných či semi-strukturovaných Všechna existující data: 0-2000 2 dny <2012 >2012 10 6 mega 10 9 giga 10 12 tera 10 15 peta 10 18 exa 10 21 zetta 10 24 yotta Kolik dat vytvoříme my? Voláme a používáme chytré telefony Využíváme bankovní služby, internetové či mobilní bankovnictví, platíme kartou Nakupujeme v obchodě Nakupujeme v e-shopu Cestujeme létáme letadlem, jezdíme autem,... Chodíme k doktorovi Komunikujeme a bavíme se 5
Nestrukturovaná data I nestrukturovaná data mají strukturu, ale: Jejich struktura není formálně definována Nelze je efektivně uložit do klasických RDBMS Jejich struktura není užitečná z pohledu jejich zpracování Rozložení existujících dat Strukturovaná Nestrukturovaná Jaká data to jsou: Textové dokumenty Voice data Video Webové stránky, blogy Sociální sítě Obrazová data A další 6
Exponenciální růst objemu dat Ne-Big Data 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 Big Data 2002 2004 2006 2008 2010 2012 2014 2016 www.adast 7
Big Data & technologie Za big data lze považovat soubory dat, jejichž velikost znemožňuje jejich efektivní (čas) a rentabilní (peníze) zachycení, správu a zpracování. Jako Big Data se též označují data o velkém objemu vznikající vysokou rychlostí a v rozmanitých formách, jež nelze zpracovat tradičními technologiemi a postupy. Big Data technologie jsou pak nástroje, s jejichž pomocí lze včas, efektivně a levně vytěžit z dat hodnotné a relevantní informace. Big Data se běžně definuje jako data splňující následující kritéria (3V): Volume - Příliš velké množství dat Velocity - Velká rychlost vznikajících dat a potřebných analýz Variety Různé a proměnlivé formáty dat, Objevují se i další V, jako například Variability, Veracity, Visualization,, Value 8
Data trends 9
The Evolution of Business Intelligence Stream Analytics* Real-time, continuous, sequential analysis (ranging from basic to advanced analytics) 3 rd -Generation BI * In lieu of stream analytics, embedded analytics, although architecturally different, could potentially play the same role Advanced Analytics/Optimization Rules Predictive Analytics Real-time and traditional Data Mining New Traditional Analytics 2.5-Gen Analytics (In-Memory OLAP, Search-Based) Traditional Analytics 1 st Generation Analytics (Query & Reporting) 2 nd Generation Analytics (OLAP, Data Warehousing) Legacy BI 10 10
Big Data impact on BI Architecture Business Intelligence Reporting Analysis Data Mining MS Office Integration Data Visualization Self Service Enterprise DWH Hadoop Data Marts Hive Pig HBase Impala DWH HDFS MapReduce / Spark ETL Sqoop Kafka Flume Data Acquisition Files Database Access Change Data Capture Web Services Notifications Streaming Data Sources Operational systems Log files Social Media Sensors, devices Audio, Video, Images Docs, Text, XML 11
Big Data Use cases 12
Prodejní proces a Big Data Před prodejem Během prodeje Po prodeji 1. Poznání zákazníka, nové prodejní a komunikační kanály 2. Nákupní chování, transakce 3. Zákaznický servis, Péče o zákazníka 13 1
Sociální scoring Poznání zákazníka Úlohy I. Analýza vztahů analýza sociálních vazeb Kdo je dodavatel / odběratel Kdo ovlivňuje skupinu zákazníků 360 view of customer Geo marketing Voice data Clickstream Emaily Internet Kde otevřít novou pobočku? Kde se pohybují naši zákazníci? Kde je konkurence? 14 1
Poznání zákazníka Příklad 2: Analýza spokojenosti - Sentiment analýza Sentiment analýza Sentiment = Spokojen / Nespokojen 15 1
Nákupní chování Úlohy Doporučení na míru Lifestylové analýzy Mikrosegmentace Big data umožní detekovat velmi malé segmenty klientů Velký segment: Průměrná marže na klienta Malý segment: Proč nám vydělal konkrétní klient více? Jak klienta oslovit? Analýza nákupního košíku Dimenze ČAS Týden, měsíc, rok Dimenze PRODUKT Produkty, skupiny produktů Detekce životních událostí: Změna zaměstnání První plat Rozvod Narození dítěte Dimenze PRODEJNA Prodejna, lokalita Skupina společně prodávaného zboží: Počet společných nákupů skupiny Průměrná marže skupiny Průměrné tržby skupiny 16 1
Zákaznický servis péče o zákazníka Predikce oprav, potřebných náhradních dílů??? Podpora loajality Automatická kategorizace zpětné vazby od zákazníků Stížnost Žádost o informace Reklamace 17 1
Hadoop a BI - Rozdílné účely synergický efekt DWH/BI DATA ANALYSIS Hadoop DATA DISCOVERY Struktura Strukturovaná data Nestrukturovaná data Velikost Malá data Velká data Minulost Známé problémy Čas Znalost Budoucnost Predikce, pravděpodobnost Neznámé problémy Business kritická data Důležitost Méně důležitá data 18
Hadoop 19
Big data mythbusters okénko Big data = Hadoop 20
Big data mythbusters okénko #1 Big data = Hadoop Hadoop je pouze jednou z technologií/platforem pro Big Data 21
Hadoop ekosystém Stream data processing SQL querying In-memory computing NOSQL Distributed processing Graph databases Machine learning Distributed file system 22
Hadoop ekosystém Hadoop ekosystém poskytuje spoustu unikátních a vysoce výkonných komponent, ALE: Neexistuje support Problémová vzájemná kompatibilita Špatná, nebo žádná dokumentace Psaní Map Reduce kódu je náročné Nutnost instalace všech součástí zvlášť Problémový monitoring a provoz ŘEŠENÍ??? 23
Hadoop distribution and professional solutions Hadoop main distributions I mean business Proffesional solutions SAS Solutions for Hadoop 24
Hadoop Distributed File System Distributed file system for Hadoop Master/Slave architecture WORM (write once read many) access model NameNode Master node stores filesystem metadata DataNodes Slave nodes store the data itself Files are split into data blocks commonly 64, 128 MB Data block are replicated commonly 3 times (RAID alternative) Name node Hadoop cluster, 4 data nodes, Replication 3 Data node 1 3 TB Data node 2 3 TB Data node 3 3 TB Data node 4 3 TB ABCD A C D B A C C B D D B A Physical capacity: 12 TB, Effective capacity: 4 TB 25
Hadoop ecosystem: Databases & analytics Apache Hive Data warehousing tool Data stored on HDFS Shared data access through Metastore Querying in HiveQL very much like SQL Hive query is interpreted as Map Reduce opration Hortonworks Stinger Hive extension from Hortonworks Is supposed to be 100 times faster than Hive Cloudera Impala In-memory DB Can share tables with Hive 26
Hadoop ecosystem: Databases & analytics Apache Pig Scripting language for advanced data transformation Combination of SQL and programming language with loops and conditions Apache Hbase NOSQL database Apache Hcatalog Shared interface for multiple Hadoop based DB technologies Apache Mahout Machine learning & data mining tool on top of Hadoop 27
Hadoop ecosystem: Data integration Apache Sqoop Tool for offloading data from RBMS in Hadoop Apache Flume Flow / stream data processing tool. Is able to read multiple sources and offload them to Hadoop Apache Zookeeper Orchestration frameworks ensures core Hadoop functionality Apache Oozie Workflow management on Hadoop 28
Hadoop ecosystem: GUI a monitoring Hue Web UI form multiple Hadoop ecosystem components Cloudera manager Hadoop cluster monitoring and management tool from Cloudera distribution 29
Cluster configuration: Hadoop HW: This is one way (PoC - bank) Node count 10 CPUs GB RAM 370 Disks 26 TB space 3,8 Gbps net. 1 Dimension N/A 118 (HT) 30
Cluster configuration: more mature approach - Big Data Adastra LAB Node count 7 CPUs GB RAM 192 Disks 14 TB space Gbps net. Dimension 4U 152 (HT) 7 TB Up to 2Gbps CPU Servers 1-5 Server 6 Server 7 2x Intel XEON CPU X5690 @ 3.46GHz 6 core 2x Intel XEON CPU E5420 @ 2.50GHz 4 core 2x Intel XEON CPU X5460 @ 3.16GHz 4 core RAM 8x 4GB DDR3 1333MHz 4x 4GB DDR2 667 Mhz + 4x 1GB DDR2 667 Mhz 4x 4GB DDR2 667 Mhz Disk 2x 10k SAS disk 600 GB 2x 10k SAS disk 300 GB, HW RAID1 2x 10k SAS disk 600 GB, HW RAID1 Net 2Gbps 2Gbps 2Gbps 31
Enterprise solution from Supermicro Price approx. 170.000,- USD 3x redundant approx. 900 USD / 1TB 32
Big Data technologies Hadoop Data transformation Analytics / Data discovery Visualization Core HDFS, MR Apache Hive / Impala Open source Hadoop toolset HBase Flume Kafka ApachePig Mahout SAS Data loader SAS Visual Statistics, SAS Visual Analytics SAS in-memory stat. SAS High-Performance Statistics, Data Mining, Text Mining 33
Big Data Management vs. Analytics 34
Plain Hadoop & Data mining Data Mining Algorithms Regression 69% Decision Trees 56% Cluster Analysis 50% Time Series 35% Text Mining Factor Analysis Neural Nets Association Rules Bayesian Support Vector Machines 25% 25% 23% 22% 21% 20% 0% 10% 20% 30% 40% 50% 60% 70% Hadoop alone is not sufficient for advanced data analytics Source: Rexer Analytics 2013 Data Miner Survey Summary 35
Q & A 36