Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje

Podobné dokumenty
BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

Hadoop a HDFS. Bc. Milan Nikl

MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

MetaCentrum. Miroslav Ruda CESNET

B0M33BDT 7. přednáška Architektury a bezpečnost. Marek Sušický Milan Kratochvíl

Open Source projekty pro Big Data

Big Data Business snídaně

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

UAI/612 - Cloudová Řešení. Technologie

Petr Nevrlý

Datová věda (Data Science) akademický navazující magisterský program

Infor Performance management. Jakub Urbášek

Základy business intelligence. Jaroslav Šmarda

MBI - technologická realizace modelu

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Programovanie.NET, C++ - najbližšie termíny:

Michal Laclavík Martin Šeleng. Vyh adávanie informácií

Tuto knihu bychom rádi věnovali: Kryštofovi. Irena. Rodině, která mne podpořila při práci na knize, i když dobře věděla, co ji čeká.

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

Analýzou dat k efektivnějšímu rozhodování

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Jak správně navrhnout moderní a efektivní řešení pro ukládání dat

Big Data od velkých očekávání k praktickému využití. DSW, Praha,

PostgreSQL jako platforma pro datové sklady

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

B0M33BDT Technologie pro velká data. Storage

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Ukladanie a dostupnosť dát

PRODUKTY. Tovek Tools

Databázové systémy. Dátové modelovanie - relačný model

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

PROVÁZÁNÍ ECM/DMS DO INFORMAČNÍCH SYSTÉMŮ STÁTNÍ A VEŘEJNÉ SPRÁVY

Violin Technologický partner Fujitsu. Bleskově zrychlete váš business. Martin Káňa Storage World. Copyright 2011 FUJITSU

Softwarově definované úložiště pod taktovkou EMC Lukáš Bělovský, konzultant Gapp System


Databázové systémy. Doc.Ing.Miloš Koch,CSc.

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

Databázové a informační systémy

Petr Nevrlý


Souborové systémy a práce s daty David Antoš

Moderní přístupy a nástroje GIS v ochraně přírody a krajiny ČR

BigData. Marek Sušický

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

PPC brief. Zadanie pre tvorbu PPC reklamnej kampane

10. Datové sklady (Data Warehouses) Datový sklad

B Organizace databáze na fyzické úrovni u serveru Oracle

ERP: Integrační platforma ve výrobní společnosti. Ing. Tomáš Hanáček Dynamica, a.s.

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Sledování výkonu aplikací?

Krok 1 Pochopenie systémov. Krok 2 Hodnotenie silných a slabých stránok. Krok 3 Zber podkladov. - hodnotenie - overenie - postupy a smernice

Nahrávací systém TriREC

Datová centra a úložiště. Jaroslav G. Křemének g.j.kremenek@gmail.com

Business Intelligence

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

Nerelační databázové modely. Helena Palovská

Nové funkce a technologie v současných a budoucích verzích Invenia. Jiří Kunčar

Príručka so stručným návodom

Použití databází na Webu

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

Mobilná aplikácia pre zaznamenávanie údajov systému HACCP

SOAP & REST služby. Rozdíly, architektury, použití

Databáze Bc. Veronika Tomsová

7. října 2008, Systémy pro zpřístupňování evškp Miroslav Křipač Michal Brandejs, Jitka Brandejsová, Jan Kasprzak, Martin Stančík

ECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00)

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

Regionálne a národné patentové databázy NEMECKO, EUROÁZIA, USA

Business Intelligence

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Oracle XML DB. Tomáš Nykodým

ABBYY Automatizované zpracování dokumentů

Petr Nevrlý

Registr živnostenského podnikání předchůdce cloudových řešení

B0M33BDT Technologie pro velká data. Storage

Řízení znalostí, týmová spolupráce a vyhledávání ve velkých a středních firmách

Dell Statistica V12.7 novinky ve verzi

Zajištění bezpečného provozu aplikací. odpovídající současným požadavkům

Služby informačního systému katastru nemovitostí ČR. Jiří Poláček

Fujitsu Day Praha 2018

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Netezza. Martin Pavlík. 2. Února to pravé řešení pro analytický datový sklad

Aktuální otázky provozu datových skladů PAVEL HNÍK

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

Moderné vzdelávanie pre vedomostnú spoločnosť/projekt je spolufinancovaný zo zdrojov EÚ. Grafy

Tvorba logického a fyzického dátového modelu relačnej databázy pomocou nástrojov od firmy Oracle výukový tutoriál

Možnosti využití cloudových služeb pro provoz IT

Simplify I.T. ve veřejném sektoru. Josef Švenda Country Leader, Oracle Czech

7.1 Návrhové zobrazenie dotazu

Experimentální systém pro WEB IR

B0M33BDT Stream processing. Milan Kratochvíl

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

Tematický výchovno - vzdelávací plán

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

NTK Discovery. Od katalogu k centralizovanému vyhledávání

PRODUKTY. Tovek Tools

TM1 vs Planning & Reporting

Ukládání a archivace dat

Transkript:

Analytické systémy nad Hadoopom Lukáš Antalov, Vedoucí týmu vývoje

Outline Big Data Hadoop Štatistiky Sklik.cz Webová analytika

Big Data

Big Data sú všade 200 Londýnskych dopravných kamier 8 TB / deň Približný objem správ na Twittery 1.2 PB / rok Databáza transakcií Wal-Mart (2010) 2.5 PB Google Web Index 5.5+ PB Zdroj: Phillip B. Gibbons, Data- Intensive Compu>ng Symposium

Prečo sú Big Data dôležité? Pomáhajú * Pochopiť business Poznať produkty, zákazníkov či konkurenciu Zvýšiť obrat z predajov Zlepšiť služby Znížiť náklady

Prečo sú Big Data dôležité? Pomáhajú * Pochopiť business Poznať produkty, zákazníkov či konkurenciu Zvýšiť obrat z predajov Zlepšiť služby Znížiť náklady *) Pokiaľ dokážeme efektívne pracovať s datami

Seznam.cz & Hadoop

Seznam.cz & Big Data Fulltext (600 TB) Webová analytika (285 TB) Sklik (40 TB)

Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami

Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami Flexibilita Akékoľvek typy dát (blobs, dokumenty, záznamy,.) V ľubovolnej forme (štrukturované, neštrukturované)

Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami Flexibilita Akékoľvek typy dát (blobs, dokumenty, záznamy,.) V ľubovolnej forme (štrukturované, neštrukturované) Účinnosť Cenovo dostupné (~20k/1 TB) Zjednotený storage, metadata, bezpečnosť Spoľahlivý a výkonný distribuovaný súborový systém MapReduce programovací framework

Hadoop Ecosystem Hive DWH systém SQL-like jazyk zvaný HiveQL HBase Stĺpcovo orientovaná databáza ZooKeeper Centralizovaná služba na udržiavanie informacií

Hadoop Ecosystem Hive DWH systém SQL-like jazyk zvaný HiveQL HBase Stĺpcovo orientovaná databáza ZooKeeper Centralizovaná služba na udržiavanie informacií Je toho viac: Cascading, Scribe, Cassandra, Hypertable, Voldemort Pig, Howl, Oozie, Chukwa, Mahout Sqoop, Flume, Avro

MapReduce v jednoduchosti Zdroj: hbps://developers.google.com/appengine/docs/python/dataprocessing/overview

Apache Hive Infraštruktúra pre dátový sklad Systém pre správu a dotazovanie nad štrukturovanými dátami Ukladá data na HDFS Používa MapReduce na výpočty Poskytuje SQL-like dotazovací jazyk zvaný HiveQL Ľahko rozšíritelný

Apache HBase Stĺpcovo orientovaná databáza Horizontálne škálovatelná ACID garancia na úrovni riadkov Veľmi nízka latencia Zápis: 1-3ms, 1k-10k zápisov / sec / stroj Čítanie: 0-3ms cache, 10-30ms disk, 10-40k čítaní z cache / sec / stroj Regiony a ich balancovanie

Štatistiky Sklik.cz 60 GB 50 GB 40 GB 30 GB 20 GB 10 GB

Štatistiky Sklik.cz 60 GB 50 GB 40 GB 30 GB 20 GB 10 GB

Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň

Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň Spracovávanie dát MapReduce + Hive Normalizácia dát v dimenziách regulárne výrazy, rozsahy, kategórie Stromová štruktúra

Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň Spracovávanie dát MapReduce + Hive Normalizácia dát v dimenziách regulárne výrazy, rozsahy, kategórie Stromová štruktúra

Typické workflow Predpočítanie dát návštevy (MapReduce) Samotný výpočet (Hive) Tvorba dimenzií z výsledku dotazu Agregácia (C++ alebo MapReduce) Uloženie výsledku v OLAP databázach Zmazanie medzivýpočtov

Nenáročné na použitie Definícia dimenzií Výber z dostupných metrik Voľba granularit Na základe konfigurácie sa vygeneruje HiveQL dotaz! Možnosť Ad hoc dotazov pre analytikov

Záver Hadoop! Pochopiť silu HBase Experimentovať Vytvárať query-centric schémy Monitorovať a optimalizovať

Děkuji za pozornost Lukáš Antalov, Vedoucí týmu vývoje @Twitter účet