Open Source projekty pro Big Data

Podobné dokumenty

Hadoop a HDFS. Bc. Milan Nikl

UAI/612 - Cloudová Řešení. Technologie

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje

B0M33BDT 7. přednáška Architektury a bezpečnost. Marek Sušický Milan Kratochvíl

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

B0M33BDT Stream processing. Milan Kratochvíl

BigData. Marek Sušický

Databáze II. 1. přednáška. Helena Palovská

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

CESNET, GRIDy a přenosy dat

Big Data od velkých očekávání k praktickému využití. DSW, Praha,

Hadoop, Hive a Spark: Využití pro data mining. Václav Zeman, KIZI VŠE

O Apache Derby detailněji. Hynek Mlnařík

METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

Podíl zdrojů informací

Služby e-infrastruktury CESNET

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Jan Váša TGB Sales Representative, Oracle Czech 10. června 2011 MRI Kladno

PostgreSQL jako platforma pro datové sklady

Zpracování dat v AVG backendech. Antonín Karásek Jarek Jarcec Čecho

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb:

Business Intelligence

Monitoring kritických systémů - Case study. Tomáš Hrubý, AutoCont CZ tomas.hruby@autocont.cz

Datová věda (Data Science) akademický navazující magisterský program

Informace ke stavu celoměstsk xxx

Healtcheck. databáze ORCL běžící na serveru db.tomas-solar.com pro

VirtualizaceKlatovské nemocnice a.s.

Violin Technologický partner Fujitsu. Bleskově zrychlete váš business. Martin Káňa Storage World. Copyright 2011 FUJITSU

Datová úložiště v roce 2017 aneb jak si vybrat to správné?

Tuto knihu bychom rádi věnovali: Kryštofovi. Irena. Rodině, která mne podpořila při práci na knize, i když dobře věděla, co ji čeká.

SMART GRID SYSTEM TECHNOLOGIE PRO ANALYTIKU A SPRÁVU ENERGETICKÝCH SÍTÍ. Představení společnosti Analyzátor sítě

Flow Monitoring & NBA. Pavel Minařík

Řešení ochrany databázových dat

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Novinky v Microsoft SQL Serveru RNDr. David Gešvindr MVP: Data Platform MCSE: Data Platform MCSD: Windows Store MCT

Architektury Informačních systémů. Jaroslav Žáček

Cloudy a gridy v národní einfrastruktuře

Národní e-infrastruktura v ČR

Monitorování datových sítí: Dnes

JAK SE DAŘÍ KOMERČNÍMU LINUXU? Ondřej Suchý Enlogit s.r.o.

Spark SQL, Spark Streaming. Jan Hučín

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

CSPUG 2011-květen. GridSQL a pg-pool II. Vratislav Beneš benes@optisolutions.cz

SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ

Big Data Business snídaně

Základní informace o co se jedná a k čemu to slouží

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

NoSQL databáze. Marek Rychlý (a Dušan Kolář) Vysoké učení technické v Brně Fakulta informačních technologií Ústav informačních systémů

PRODUKTY. Tovek Tools

Nimbus Data All Flash Systems

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

Použití databází na Webu

Moderní privátní cloud pro město na platformě OpenStack a Kubernetes

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

Moderní přístupy a nástroje GIS v ochraně přírody a krajiny ČR

TimescaleDB. Pavel Stěhule 2018

Řešení pro dlouhodobé ukládání dat

Predikce a řízení incidentů, událostí a poruchových stavů v reálném čase

Microsoft SharePoint Portal Server Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky

Open Source řešení pro Mission critical systémy. Software Defined Networks v praxi , Praha

Tvorba informačních systémů

Business Intelligence

MetaCentrum. Miroslav Ruda CESNET

PRODUKTY Tovek Server 6

Spark SQL, Spark Streaming. Jan Hučín

Databázové systémy úvod

IBM InfoSphere Guardium - ochrana databází

Stručný obsah. K2118.indd :15:27

MetaCentrum. Miroslav Ruda. Skalský Dvůr, Miroslav Ruda (MetaCentrum) MetaCentrum Skalský Dvůr, / 11

MetaCentrum. Miroslav Ruda. listopad 2013 CESNET

Integrací aplikací proti blackoutům

Konsolidace v datacentru. Miroslav Kotrle, Ph.D. CONVENIO CONSULTING

Demilitarizovaná zóna (DMZ)

Databázové systémy I. 1. přednáška

SÍŤOVÁ INFRASTRUKTURA MONITORING

Systém detekce a pokročilé analýzy KBU napříč státní správou

Aktuální otázky provozu datových skladů PAVEL HNÍK

DMS - řízená dokumentace, archiv a co dále? ICT ve zdravotnictví 2014

Sjednotit, zjednodušit, posílit. posílit. Rackové servery Cisco UCS C-Series. Obchodní přehled

doba datová začne již za: Copyright 2012 EMC Corporation. All rights reserved.

MetaCentrum. Tomáš Rebok MetaCentrum NGI, CESNET z.s.p.o. CERIT-SC, Masarykova Univerzita Olomouc,

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Oracle Exalogic: Ideální platforma pro Cloud Computing

Petr Vlk KPCS CZ. WUG Days října 2016

Michal Krátký. Tvorba informačních systémů, 2008/2009. Katedra informatiky VŠB Technická univerzita Ostrava. Tvorba informačních systémů

Optimalizaci aplikací. Ing. Martin Pavlica

Systémy pro sběr a přenos dat

Databázové a informační systémy

Co by kdyby? Simulační prostředí pro BIG data v energetice. Filip Procházka, Masarykova Univerzita, Mycroft Mind, a.s. filip.prochazka@gmail.

Fyzické uložení dat a indexy

<Insert Picture Here> Software, Hardware, Complete

Data v informačních systémech

Sledování výkonu aplikací?

OZNÁMENÍ O VOLNÉM PRACOVNÍM MÍSTĚ ZA ÚČELEM SESTAVENÍ REZERVNÍHO SEZNAMU

Transkript:

Open Source projekty pro Big Data Leo Galamboš LG@HQ.EGOTHOR.ORG

Řešení pro velká data Oblasti 1. ukládání dat 2. zpracování dat 3. analýza dat (Dobrá zpráva) OSS řešení nyní pokrývají všechny oblasti a jsou plně (pr)ověřeny v praxi. (Špatné zprávy) Vlastnosti implikují technická omezení a výkon. OSS má zpoždění oproti komerci.

Ukládání dat příklady využití vyšetřování bezpečnostních incidentů ukládání digitálních stop úložiště pro data z otevřených zdrojů dokumentové DB pro formuláře/systémy státní správy požadavek ochrana proti výpadku rychlost, bezpečnost snadná údržba

OSS a velké souborové systémy Distribuované FS pro řádově TB až PB využívá součet kapacit HDD dílčích uzlů automatické repliky, ochrana proti výpadku HDFS (Hadoop GFS ) Lustre (toky řádově GB/s)

Ukládání (velkých) dat klasické RDBMS jsou universální SQL, ACID a další komfort nehodí se na velká data ukládání po sloupcích C-store (Stonebraker) výhodnější pro OLAP, text, vícerozměrná data NoSQL ( not only SQL ) dokumentové, grafové, klíč-hodnota, obvyklá implementace stylem rozděl a panuj současná klasika Oracle, DB2, MSQL, apod. použitelné v bázích mýtného systému drahá koordinace uzlů -> share-nothing architektura omezená podpora ACID použitelné na skutečné velká data a velké zátěže

NoSQL databáze Cassandra (od Facebook-u) sloupcová DB nad clusterem Dokumentové DB (typicky JSON styl) MongoDB CouchDB HBase Damien Katz (vývojář Lotus Notes) obdoba BigTable od Google volné formuláře { r.č.":8205172235, foto : 0x44ef5c1a ", trestný_čin :[ "msg 1,"msg 2,"msg 3 ] }

Yahoo Cloud Servicing Benchmark (YCSB) Insert Only 50M x 1K Read Only vyhledání klíče Read & Update vyhledání a aktualizace klíče

Zpracování (proudů) dat příklady využití okamžité zpracování událostí (zpráv) mýtný systém přenos událostí od informačního systému k DW (weak) real-time decision support detekce odcizených a přihlašovaných vozidel integrace (vstupních) datových proudů rychlé sloučení více databází veřejné správy požadavky rychlost spolehlivost

Kafka Linkedin účel sběr událostí od producentů doručovaní zpráv odběratelům zpráva má definované téma kde by našel využití přenos události od mýtných bran zpracování události od živého systému jako doručovatel dat do DW nebo k dávkovému zpracování

Kafka - výkon producent cca 40-50MB/s výhoda: méně producentů konzument cca 100MB/s malý vliv #konzumentů

Storm Twitter výpočty v reálném čase, cca 100MB/s na jednom uzlu účel výpočty nad proudem dat stylem rour v Unix-u vstupem Kafka, RDBMS, JMS, kde by našel využití sumarizace událostí (6xklik = 1x6klik) předzpracování toku (dokument -> slova -> <d,w,p>) detekce ukradených a přihlašovaných vozidel importy databází v jiných formátech (mezi úřady státní správy?)

Storm ilustrační příklad zdroj Dnešní zprávy. Today s news. rozlož na odseky ( Dnešní ) ( Today s ) rozlož na slova shlukuj slova detekuj jazyk počet slov (CZ, Dnešní ) (EN, Today s ) urči délku

(Dávkové) zpracování dat příklady využití klasifikace textů Washington versus Washington indexování dat ( malý Google) analýza sociálních vztahů kdo koho zná mapování obchodních vztahů detekce bílých koní, podezřelých organizací, apod. problematika jsou OSS řešení dostatečné výkonná?

Dávkové zpracování dat Sort Benchmark Gray (100TB) Hadoop 100TB/173min (0,578 TB/min) 3452 uzlů (cca 3800 celkem) 2 QuadCore Xeon, 8 GB, 4 SATA TritonSort 100TB/138min (0,725 TB/min) 52 uzlů 2 QuadCore, 24 GB, 16 SATA 1 Gbps/uzel 40 uzlů/rack 8 Gbps uplink/rack rozděl (map) a zpracuj (reduce) Apache Hadoop 10 Gbps/uzel Cisco Nexus 5096 switch

Nedostatky Hadoop-u Share-nothing architektura, ale i nadále se singlemaster uzlem (výkon, stabilita) Spojení vícero datových množin je pomalé, neexistují indexy, data se často kopírují během zpracování (propustnost) Problém s řízením toku dat: optimalizace při využívání mezivýsledků (efektivita) Neexistuje centrální datová oblast, restriktivní programovací model (vývoj sw) Obtížná správa clusteru: vhodné nastavení počtu procesů typu mappers/reducers, paměťových limitů, (management systému)

Plánovaní v Hadoop-u plánování úkolů trvá delší dobu problematické pro malé úkoly a rychlé výsledky pevná kapacita map a reduce slotů cluster pracuje neefektivně, když se úkoly nevejdou do volných slotů vrstva pro sdílení zdrojů YARN součást nového Hadoop Corona řešení pro FB adaptaci (proprietární) Mesos řešení od UC Berkeley

Corona (provoz od 3Q2012) Parametr Zkrácení doby na znovupoužití volných zdrojů Vylepšení -17% Využití zdrojů (simulovaný cluster) ze 70% na 95% Přetěžování (unfairness) zdrojů ze 14,3% na 3,6% Facebook data warehouse 100PB (petabyte) 60.000 dotazů skrze Hive

Řešení efektivity clusteru? Vylepšování současného stavu Analýza dat Hadoopem Pig překlad jazyka Pig Latin na Map&Reduce programy Hive data warehouse velká časová prodleva při zpracování (minuty až hodiny) Apache YARN arbitr pro zdroje clusteru Apache Mesos (UC Berkeley) Corona (Facebook) přímý ekvivalent, YARN nelze kvůli neslučitelnosti FB Hadoop systému použít Riziko do and now for something completely different budoucna? Apache Drill = Google Dremel pokládání ad-hoc dotazů nad velkými daty latence v řádu jednotek sekund výhodné pro BI, analýzy velkých dat apod. OSS verze nebude ještě dlouho k dispozici, komerčně ji má jen Google

Čím analyzovat Hadoop Map&Reduce infrastruktura nízko-úrovňové Apache Pig překládá z jazyka Pig Latin na MR programy Apache Hive = DW pro Hadoop data warehouse Shark (výpočty v RAM via Spark) 100x rychlejší než Hive Statistická analýza via GNU R mnoho balíčků (Comprehensive R Archive Network) RHadoop, RHive, RHIPE (R & Hadoop Integrated Programming Environment) Apache Mahout klasifikace textů clustering, K-means, pattern mining, Bayesovské klasifikátory, apod. Apache Giraph (inkubátor), GoldenOrb, Gremlin analýza grafové struktury analýza sociálních vztahů

OSS pro velká data Klady široké portfolio zaštítěné velkými hráči reimplementace komerčních řešení levný vývoj a údržba nezačíná se na zelené louce údržbu hradí celá komunita přiměřený výkon Zápory široké portfolio dobře zvážit co chci teď ještě lépe zvážit, zda zvolené půjde mým směrem nutný silně kritický náhled malá efektivita oproti adhoc řešením hrozí rozštěpení API Příklad: Facebook & Corona

Shrnutí OSS nabízí velkou škálu produktů nasazení: Facebook, Twitter, Linkedin, reimplementuje komerční řešení GFS, Map&Reduce, BigQuery, OSS standard pro výpočty: Hadoop není dokonalý mnoho návazných platforem a produktů nebezpečí: kompatibilita verzí OSS dává kvalitní prostředky, ne vždy ale rovnou finální a komplexní řešení