Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje

Analytické systémy nad Hadoopom Lukáš Antalov, Vedoucí týmu vývoje

Outline Big Data Hadoop Štatistiky Sklik.cz Webová analytika

Big Data

Big Data sú všade 200 Londýnskych dopravných kamier 8 TB / deň Približný objem správ na Twittery 1.2 PB / rok Databáza transakcií Wal-Mart (2010) 2.5 PB Google Web Index 5.5+ PB Zdroj: Phillip B. Gibbons, Data- Intensive Compu>ng Symposium

Prečo sú Big Data dôležité? Pomáhajú * Pochopiť business Poznať produkty, zákazníkov či konkurenciu Zvýšiť obrat z predajov Zlepšiť služby Znížiť náklady

Prečo sú Big Data dôležité? Pomáhajú * Pochopiť business Poznať produkty, zákazníkov či konkurenciu Zvýšiť obrat z predajov Zlepšiť služby Znížiť náklady *) Pokiaľ dokážeme efektívne pracovať s datami

Seznam.cz & Hadoop

Seznam.cz & Big Data Fulltext (600 TB) Webová analytika (285 TB) Sklik (40 TB)

Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami

Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami Flexibilita Akékoľvek typy dát (blobs, dokumenty, záznamy,.) V ľubovolnej forme (štrukturované, neštrukturované)

Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami Flexibilita Akékoľvek typy dát (blobs, dokumenty, záznamy,.) V ľubovolnej forme (štrukturované, neštrukturované) Účinnosť Cenovo dostupné (~20k/1 TB) Zjednotený storage, metadata, bezpečnosť Spoľahlivý a výkonný distribuovaný súborový systém MapReduce programovací framework

Hadoop Ecosystem Hive DWH systém SQL-like jazyk zvaný HiveQL HBase Stĺpcovo orientovaná databáza ZooKeeper Centralizovaná služba na udržiavanie informacií

Hadoop Ecosystem Hive DWH systém SQL-like jazyk zvaný HiveQL HBase Stĺpcovo orientovaná databáza ZooKeeper Centralizovaná služba na udržiavanie informacií Je toho viac: Cascading, Scribe, Cassandra, Hypertable, Voldemort Pig, Howl, Oozie, Chukwa, Mahout Sqoop, Flume, Avro

MapReduce v jednoduchosti Zdroj: hbps://developers.google.com/appengine/docs/python/dataprocessing/overview

Apache Hive Infraštruktúra pre dátový sklad Systém pre správu a dotazovanie nad štrukturovanými dátami Ukladá data na HDFS Používa MapReduce na výpočty Poskytuje SQL-like dotazovací jazyk zvaný HiveQL Ľahko rozšíritelný

Apache HBase Stĺpcovo orientovaná databáza Horizontálne škálovatelná ACID garancia na úrovni riadkov Veľmi nízka latencia Zápis: 1-3ms, 1k-10k zápisov / sec / stroj Čítanie: 0-3ms cache, 10-30ms disk, 10-40k čítaní z cache / sec / stroj Regiony a ich balancovanie

Štatistiky Sklik.cz 60 GB 50 GB 40 GB 30 GB 20 GB 10 GB

Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň

Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň Spracovávanie dát MapReduce + Hive Normalizácia dát v dimenziách regulárne výrazy, rozsahy, kategórie Stromová štruktúra

Typické workflow Predpočítanie dát návštevy (MapReduce) Samotný výpočet (Hive) Tvorba dimenzií z výsledku dotazu Agregácia (C++ alebo MapReduce) Uloženie výsledku v OLAP databázach Zmazanie medzivýpočtov

Nenáročné na použitie Definícia dimenzií Výber z dostupných metrik Voľba granularit Na základe konfigurácie sa vygeneruje HiveQL dotaz! Možnosť Ad hoc dotazov pre analytikov

Záver Hadoop! Pochopiť silu HBase Experimentovať Vytvárať query-centric schémy Monitorovať a optimalizovať

Děkuji za pozornost Lukáš Antalov, Vedoucí týmu vývoje @Twitter účet