Analytické systémy nad Hadoopom Lukáš Antalov, Vedoucí týmu vývoje
Outline Big Data Hadoop Štatistiky Sklik.cz Webová analytika
Big Data
Big Data sú všade 200 Londýnskych dopravných kamier 8 TB / deň Približný objem správ na Twittery 1.2 PB / rok Databáza transakcií Wal-Mart (2010) 2.5 PB Google Web Index 5.5+ PB Zdroj: Phillip B. Gibbons, Data- Intensive Compu>ng Symposium
Prečo sú Big Data dôležité? Pomáhajú * Pochopiť business Poznať produkty, zákazníkov či konkurenciu Zvýšiť obrat z predajov Zlepšiť služby Znížiť náklady
Prečo sú Big Data dôležité? Pomáhajú * Pochopiť business Poznať produkty, zákazníkov či konkurenciu Zvýšiť obrat z predajov Zlepšiť služby Znížiť náklady *) Pokiaľ dokážeme efektívne pracovať s datami
Seznam.cz & Hadoop
Seznam.cz & Big Data Fulltext (600 TB) Webová analytika (285 TB) Sklik (40 TB)
Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami
Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami Flexibilita Akékoľvek typy dát (blobs, dokumenty, záznamy,.) V ľubovolnej forme (štrukturované, neštrukturované)
Apache Hadoop Škálovatelnosť Škálovanie pridávaním ďaľších strojov Lokálne spracovávanie nezahlcuje sieť dátami Flexibilita Akékoľvek typy dát (blobs, dokumenty, záznamy,.) V ľubovolnej forme (štrukturované, neštrukturované) Účinnosť Cenovo dostupné (~20k/1 TB) Zjednotený storage, metadata, bezpečnosť Spoľahlivý a výkonný distribuovaný súborový systém MapReduce programovací framework
Hadoop Ecosystem Hive DWH systém SQL-like jazyk zvaný HiveQL HBase Stĺpcovo orientovaná databáza ZooKeeper Centralizovaná služba na udržiavanie informacií
Hadoop Ecosystem Hive DWH systém SQL-like jazyk zvaný HiveQL HBase Stĺpcovo orientovaná databáza ZooKeeper Centralizovaná služba na udržiavanie informacií Je toho viac: Cascading, Scribe, Cassandra, Hypertable, Voldemort Pig, Howl, Oozie, Chukwa, Mahout Sqoop, Flume, Avro
MapReduce v jednoduchosti Zdroj: hbps://developers.google.com/appengine/docs/python/dataprocessing/overview
Apache Hive Infraštruktúra pre dátový sklad Systém pre správu a dotazovanie nad štrukturovanými dátami Ukladá data na HDFS Používa MapReduce na výpočty Poskytuje SQL-like dotazovací jazyk zvaný HiveQL Ľahko rozšíritelný
Apache HBase Stĺpcovo orientovaná databáza Horizontálne škálovatelná ACID garancia na úrovni riadkov Veľmi nízka latencia Zápis: 1-3ms, 1k-10k zápisov / sec / stroj Čítanie: 0-3ms cache, 10-30ms disk, 10-40k čítaní z cache / sec / stroj Regiony a ich balancovanie
Štatistiky Sklik.cz 60 GB 50 GB 40 GB 30 GB 20 GB 10 GB
Štatistiky Sklik.cz 60 GB 50 GB 40 GB 30 GB 20 GB 10 GB
Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň
Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň Spracovávanie dát MapReduce + Hive Normalizácia dát v dimenziách regulárne výrazy, rozsahy, kategórie Stromová štruktúra
Webová analytika Zber dát Klientskú časť zabezpečuje javascript Logovanie do JSON formátu V špičke 14 500 req / sec ~ 500 GB / deň Spracovávanie dát MapReduce + Hive Normalizácia dát v dimenziách regulárne výrazy, rozsahy, kategórie Stromová štruktúra
Typické workflow Predpočítanie dát návštevy (MapReduce) Samotný výpočet (Hive) Tvorba dimenzií z výsledku dotazu Agregácia (C++ alebo MapReduce) Uloženie výsledku v OLAP databázach Zmazanie medzivýpočtov
Nenáročné na použitie Definícia dimenzií Výber z dostupných metrik Voľba granularit Na základe konfigurácie sa vygeneruje HiveQL dotaz! Možnosť Ad hoc dotazov pre analytikov
Záver Hadoop! Pochopiť silu HBase Experimentovať Vytvárať query-centric schémy Monitorovať a optimalizovať
Děkuji za pozornost Lukáš Antalov, Vedoucí týmu vývoje @Twitter účet