Big Data Business snídaně

Podobné dokumenty
Hadoop a HDFS. Bc. Milan Nikl

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

SAP a SUSE - dokonalá symbióza s open source. Martin Zikmund Technical Account Manager

IW3 MS SQL SERVER 2014

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD

Přejděte chytře na SAP HANA

B0M33BDT 7. přednáška Architektury a bezpečnost. Marek Sušický Milan Kratochvíl

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU bez limitu Obsahuje podporu

PROČ UŽ SE NEOBEJDETE BEZ ANALÝZY DAT

MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje

PostgreSQL jako platforma pro datové sklady

Jak lépe, spolehlivěji a i bezpečněji dělat datové integrace a přitom ještě ušetřit na platformě Oracle

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Databáze v praxi. RNDr. Ondřej Zýka Principal Consultant

Introduction to Navision 4.00 Jaromír Skorkovský, MS., PhD.

BigData. Marek Sušický

Nová dimenze rozhodovacího procesu

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

Efektivní využití SSD v produktech Dell: SSD za cenu HDD. Ondřej Bajer Storage Systems Engineer

Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad

Podíl zdrojů informací

Moderní metody automatizace a hodnocení marketingových kampaní

Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

IBM BigData Analytics

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

IBM Connections pro firmy s Lotus Notes/Domino. Petr Kunc

Řešení pro internet věcí. 9. prosince 2015

Moderní technologie IBM pro management a zálohování virtualizované infrastruktury

Agora Brno - 3.červen FUJITSU PRIMEFLEX Cluster-in-a-box. Radek Procházka Server presales FTS PUBLIC. Copyright 2014 FUJITSU

38.300, ,00 S diagnostics Intel Xeon X3430 Processor (2.40GHz, 4C, 8M Cache, 95W TDP, Turbo),

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Jak přetavit data v hodnotné informace, které nesou peníze

Analytika a SAP Quo Vadis? Jiří Přibyslavský Performance Management & Business Intelligence Business Consultant

Windows Server Novinky. Petr Špetlík Cloud & Server PTA

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

Open Source projekty pro Big Data

Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Inteligentní zpracování prostorových dat

Obsah Úvod 11 Jak být úspěšný Základy IT

IBM Tivoli Storage Manager 6.2 a IBM Tivoli Storage Manager FastBack 6.1.1

Reportingová platforma v České spořitelně


Diagnostika webových aplikací v Azure

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Reporting a Monitoring

Analýzou dat k efektivnějšímu rozhodování

Business Intelligence. Adam Trčka

HadoopDX (Hadoop as a Service)

Mobilní platby 2013 Global Payments Europe Praha

Brno. 30. května 2014

Vladimír

ReDefine Midrange Storage VNX/VNXe. Václav Šindelář, EMC

Virtualizace koncových stanic Položka Požadováno Nabídka, konkrétní hodnota

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

Business Intelligence

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

Hyperkonvergovaná řešení jako základní stavební blok moderního IT

B0M33BDT Technologie pro velká data. Storage

B0M33BDT Stream processing. Milan Kratochvíl

Komentáře CISO týkající se ochrany dat

Copyright 2012 EMC Corporation. All rights reserved.

Technická specifikace HW pro rok 2012

Flow Monitoring & NBA. Pavel Minařík

UAI/612 - Cloudová Řešení. Technologie

Forenzní analytická jednotka - technická specifikace (9 ks)

Digital Transformation of Organization

Řešení ochrany databázových dat

Operační systémy Microsoft pro průmysl. Tomáš Chlopčík

Domino 10 nové komponenty a související témata (node.js, ES )

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu

Architektury Informačních systémů. Jaroslav Žáček

IBM hardwarova infrastruktura pro dlouhodobou archivaci dat

MindForge Inovační a technologický hub JAN JANČA

Ing. Petr Kalčev, Ph.D.

O jedné metodě migrace velkých objemů dat aneb cesta ke snižování nákladů

CSPUG 2011-květen. GridSQL a pg-pool II. Vratislav Beneš benes@optisolutions.cz

Snadný a efektivní přístup k informacím

DataDomain pod drobnohledem

System Center Operations Manager

Proč, kde a jak se mobilní IT může podepsat na úspěchu Vašeho podnikání?

Ondřej Lorenc System x a virtualizace ondrej_lorenc@cz.ibm.com

Windows na co se soustředit

Budování architektury pomocí IAA

a co je operační systém?

Technická specifikace vymezené části 1 SERVER

Alternativy k SAP HANA appliance? Představení možnosti TDI a cloudové infrastruktury

Datablades včera, dnes a zítra

Hands-on-Lab. System Center Essentials learning.wbi.cz. Jan Marek. blog: jmarek.wordpress.com

František Kysela SE Datacenter

Fujitsu Day Praha 2018

MetaCentrum. Miroslav Ruda CESNET

Ericsson Network Manager (ENM) 19 Training Program Commercial Presentation

Služby datového centra

CONNECTING GOVERNMENT AND CITIZENS Creating a Single Citizen View Konference ISSS, Jaroslav Novotný Sun Microsystems Czech

Open-source Business Intelligence software: vnímání klíčových faktorů ve firmách v ČR. Ing. Radek Němec VŠB TU Ostrava Ekonomická fakulta

Ekonomická krize jako (významná) obchodní příležitost!

Transkript:

Jakub Augustín Big Data Competency Leader Big Data Business snídaně Prepared for: 28. 5. 2015 1

Co jsou Big Data? 2

Datová exploze Let na měsíc = Small Data Let letadlem = Big Data Modul Apolo: Operační paměť: 2 kb Disková kapacita: 64 kb Boeing 747: Každý motor generuje: 20TB/h 4 hodinový let: 320 TB dat 3

Big data jsou všude kolem nás Oblačnost Rychlost a směr větru Teplota GeoLocation Mobilní sítě Bankovní transakce Dopravní informace Sociální sítě Data z webu Image: http://wallbase.cc/wallpaper/751687 4

Data Volume [ZB] Exploze dat 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 Data Explosion Celosvětově se odhaduje (zdroj studie IDG): 2010: více než 1 ZB (zettabyte, 1 ZB = 10 21 B) 2015: 6,8 ZB 2020: více než 36 ZB Většina dat je nestrukturovaných či semi-strukturovaných Všechna existující data: 0-2000 2 dny <2012 >2012 10 6 mega 10 9 giga 10 12 tera 10 15 peta 10 18 exa 10 21 zetta 10 24 yotta Kolik dat vytvoříme my? Voláme a používáme chytré telefony Využíváme bankovní služby, internetové či mobilní bankovnictví, platíme kartou Nakupujeme v obchodě Nakupujeme v e-shopu Cestujeme létáme letadlem, jezdíme autem,... Chodíme k doktorovi Komunikujeme a bavíme se 5

Nestrukturovaná data I nestrukturovaná data mají strukturu, ale: Jejich struktura není formálně definována Nelze je efektivně uložit do klasických RDBMS Jejich struktura není užitečná z pohledu jejich zpracování Rozložení existujících dat Strukturovaná Nestrukturovaná Jaká data to jsou: Textové dokumenty Voice data Video Webové stránky, blogy Sociální sítě Obrazová data A další 6

Exponenciální růst objemu dat Ne-Big Data 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 Big Data 2002 2004 2006 2008 2010 2012 2014 2016 www.adast 7

Big Data & technologie Za big data lze považovat soubory dat, jejichž velikost znemožňuje jejich efektivní (čas) a rentabilní (peníze) zachycení, správu a zpracování. Jako Big Data se též označují data o velkém objemu vznikající vysokou rychlostí a v rozmanitých formách, jež nelze zpracovat tradičními technologiemi a postupy. Big Data technologie jsou pak nástroje, s jejichž pomocí lze včas, efektivně a levně vytěžit z dat hodnotné a relevantní informace. Big Data se běžně definuje jako data splňující následující kritéria (3V): Volume - Příliš velké množství dat Velocity - Velká rychlost vznikajících dat a potřebných analýz Variety Různé a proměnlivé formáty dat, Objevují se i další V, jako například Variability, Veracity, Visualization,, Value 8

Data trends 9

The Evolution of Business Intelligence Stream Analytics* Real-time, continuous, sequential analysis (ranging from basic to advanced analytics) 3 rd -Generation BI * In lieu of stream analytics, embedded analytics, although architecturally different, could potentially play the same role Advanced Analytics/Optimization Rules Predictive Analytics Real-time and traditional Data Mining New Traditional Analytics 2.5-Gen Analytics (In-Memory OLAP, Search-Based) Traditional Analytics 1 st Generation Analytics (Query & Reporting) 2 nd Generation Analytics (OLAP, Data Warehousing) Legacy BI 10 10

Big Data impact on BI Architecture Business Intelligence Reporting Analysis Data Mining MS Office Integration Data Visualization Self Service Enterprise DWH Hadoop Data Marts Hive Pig HBase Impala DWH HDFS MapReduce / Spark ETL Sqoop Kafka Flume Data Acquisition Files Database Access Change Data Capture Web Services Notifications Streaming Data Sources Operational systems Log files Social Media Sensors, devices Audio, Video, Images Docs, Text, XML 11

Big Data Use cases 12

Prodejní proces a Big Data Před prodejem Během prodeje Po prodeji 1. Poznání zákazníka, nové prodejní a komunikační kanály 2. Nákupní chování, transakce 3. Zákaznický servis, Péče o zákazníka 13 1

Sociální scoring Poznání zákazníka Úlohy I. Analýza vztahů analýza sociálních vazeb Kdo je dodavatel / odběratel Kdo ovlivňuje skupinu zákazníků 360 view of customer Geo marketing Voice data Clickstream Emaily Internet Kde otevřít novou pobočku? Kde se pohybují naši zákazníci? Kde je konkurence? 14 1

Poznání zákazníka Příklad 2: Analýza spokojenosti - Sentiment analýza Sentiment analýza Sentiment = Spokojen / Nespokojen 15 1

Nákupní chování Úlohy Doporučení na míru Lifestylové analýzy Mikrosegmentace Big data umožní detekovat velmi malé segmenty klientů Velký segment: Průměrná marže na klienta Malý segment: Proč nám vydělal konkrétní klient více? Jak klienta oslovit? Analýza nákupního košíku Dimenze ČAS Týden, měsíc, rok Dimenze PRODUKT Produkty, skupiny produktů Detekce životních událostí: Změna zaměstnání První plat Rozvod Narození dítěte Dimenze PRODEJNA Prodejna, lokalita Skupina společně prodávaného zboží: Počet společných nákupů skupiny Průměrná marže skupiny Průměrné tržby skupiny 16 1

Zákaznický servis péče o zákazníka Predikce oprav, potřebných náhradních dílů??? Podpora loajality Automatická kategorizace zpětné vazby od zákazníků Stížnost Žádost o informace Reklamace 17 1

Hadoop a BI - Rozdílné účely synergický efekt DWH/BI DATA ANALYSIS Hadoop DATA DISCOVERY Struktura Strukturovaná data Nestrukturovaná data Velikost Malá data Velká data Minulost Známé problémy Čas Znalost Budoucnost Predikce, pravděpodobnost Neznámé problémy Business kritická data Důležitost Méně důležitá data 18

Hadoop 19

Big data mythbusters okénko Big data = Hadoop 20

Big data mythbusters okénko #1 Big data = Hadoop Hadoop je pouze jednou z technologií/platforem pro Big Data 21

Hadoop ekosystém Stream data processing SQL querying In-memory computing NOSQL Distributed processing Graph databases Machine learning Distributed file system 22

Hadoop ekosystém Hadoop ekosystém poskytuje spoustu unikátních a vysoce výkonných komponent, ALE: Neexistuje support Problémová vzájemná kompatibilita Špatná, nebo žádná dokumentace Psaní Map Reduce kódu je náročné Nutnost instalace všech součástí zvlášť Problémový monitoring a provoz ŘEŠENÍ??? 23

Hadoop distribution and professional solutions Hadoop main distributions I mean business Proffesional solutions SAS Solutions for Hadoop 24

Hadoop Distributed File System Distributed file system for Hadoop Master/Slave architecture WORM (write once read many) access model NameNode Master node stores filesystem metadata DataNodes Slave nodes store the data itself Files are split into data blocks commonly 64, 128 MB Data block are replicated commonly 3 times (RAID alternative) Name node Hadoop cluster, 4 data nodes, Replication 3 Data node 1 3 TB Data node 2 3 TB Data node 3 3 TB Data node 4 3 TB ABCD A C D B A C C B D D B A Physical capacity: 12 TB, Effective capacity: 4 TB 25

Hadoop ecosystem: Databases & analytics Apache Hive Data warehousing tool Data stored on HDFS Shared data access through Metastore Querying in HiveQL very much like SQL Hive query is interpreted as Map Reduce opration Hortonworks Stinger Hive extension from Hortonworks Is supposed to be 100 times faster than Hive Cloudera Impala In-memory DB Can share tables with Hive 26

Hadoop ecosystem: Databases & analytics Apache Pig Scripting language for advanced data transformation Combination of SQL and programming language with loops and conditions Apache Hbase NOSQL database Apache Hcatalog Shared interface for multiple Hadoop based DB technologies Apache Mahout Machine learning & data mining tool on top of Hadoop 27

Hadoop ecosystem: Data integration Apache Sqoop Tool for offloading data from RBMS in Hadoop Apache Flume Flow / stream data processing tool. Is able to read multiple sources and offload them to Hadoop Apache Zookeeper Orchestration frameworks ensures core Hadoop functionality Apache Oozie Workflow management on Hadoop 28

Hadoop ecosystem: GUI a monitoring Hue Web UI form multiple Hadoop ecosystem components Cloudera manager Hadoop cluster monitoring and management tool from Cloudera distribution 29

Cluster configuration: Hadoop HW: This is one way (PoC - bank) Node count 10 CPUs GB RAM 370 Disks 26 TB space 3,8 Gbps net. 1 Dimension N/A 118 (HT) 30

Cluster configuration: more mature approach - Big Data Adastra LAB Node count 7 CPUs GB RAM 192 Disks 14 TB space Gbps net. Dimension 4U 152 (HT) 7 TB Up to 2Gbps CPU Servers 1-5 Server 6 Server 7 2x Intel XEON CPU X5690 @ 3.46GHz 6 core 2x Intel XEON CPU E5420 @ 2.50GHz 4 core 2x Intel XEON CPU X5460 @ 3.16GHz 4 core RAM 8x 4GB DDR3 1333MHz 4x 4GB DDR2 667 Mhz + 4x 1GB DDR2 667 Mhz 4x 4GB DDR2 667 Mhz Disk 2x 10k SAS disk 600 GB 2x 10k SAS disk 300 GB, HW RAID1 2x 10k SAS disk 600 GB, HW RAID1 Net 2Gbps 2Gbps 2Gbps 31

Enterprise solution from Supermicro Price approx. 170.000,- USD 3x redundant approx. 900 USD / 1TB 32

Big Data technologies Hadoop Data transformation Analytics / Data discovery Visualization Core HDFS, MR Apache Hive / Impala Open source Hadoop toolset HBase Flume Kafka ApachePig Mahout SAS Data loader SAS Visual Statistics, SAS Visual Analytics SAS in-memory stat. SAS High-Performance Statistics, Data Mining, Text Mining 33

Big Data Management vs. Analytics 34

Plain Hadoop & Data mining Data Mining Algorithms Regression 69% Decision Trees 56% Cluster Analysis 50% Time Series 35% Text Mining Factor Analysis Neural Nets Association Rules Bayesian Support Vector Machines 25% 25% 23% 22% 21% 20% 0% 10% 20% 30% 40% 50% 60% 70% Hadoop alone is not sufficient for advanced data analytics Source: Rexer Analytics 2013 Data Miner Survey Summary 35

Q & A 36