Hadoop a HDFS. Bc. Milan Nikl

Podobné dokumenty
MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

Open Source projekty pro Big Data

BigData. Marek Sušický

Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje

UAI/612 - Cloudová Řešení. Technologie

MetaCentrum. Miroslav Ruda CESNET

Nerelační databázové modely. Helena Palovská

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

MBI - technologická realizace modelu

Vývoj software pro Linuxové distribuce. Installfest Praha,

Petr Nevrlý

ŠKÁLOVATELNÉ PŘEDZPRACOVÁNÍ DAT PROSTŘEDNICTVÍM NÁSTROJE HADOOP

TECHNICKÁ SPECIFIKACE

Big Data Business snídaně

Současný svět Projekt č. CZ.2.17/3.1.00/32038, podpořený Evropským sociálním fondem v rámci Operačního programu Praha adaptabilita

METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

O Apache Derby detailněji. Hynek Mlnařík

MARIE PACS S PACSem hezky od podlahy když se data sypou!

Tvorba počítačových clusterů pomocí Linuxu. Vedoucí práce: Mgr. Jiří Pech, Ph.D. Katedra informatiky

Obsah přednášky. Představení webu ASP.NET frameworky Relační databáze Objektově-relační mapování Entity framework

ANO technologie nabízí výměnu HW komponent za chodu.

VÝZVA K PODÁNÍ NABÍDKY. Ukládání, zálohování a archivace dat

Nimbus Data All Flash Systems

CSPUG 2011-květen. GridSQL a pg-pool II. Vratislav Beneš benes@optisolutions.cz

Dodatečné informace č. 7

}w!"#$%&'()+,-./012345<ya

KAM SMĚŘUJE VYHLEDÁVÁNÍ. Pavel Kocourek SEARCH TECHNOLOGIES, formerly INCAD INFORUM

IT ESS II. 1. Operating Systém Fundamentals

Dell Statistica V12.7 novinky ve verzi

B0M33BDT Stream processing. Milan Kratochvíl

Město Varnsdorf, nám. E. Beneše 470, Varnsdorf, Česká republika SPECIFIKACE

Sledování výkonu aplikací?

PostgreSQL jako platforma pro datové sklady

IT 3. Projekt centrálního zálohovacího systému v ČSOB Pojišťovně. Michal Mikulík. špička v každém směru

CESNET - Datová úložiště

Semináˇr Java X J2EE Semináˇr Java X p.1/23

Hadoop, Hive a Spark: Využití pro data mining. Václav Zeman, KIZI VŠE

Spark Jan Hučín 15. listopadu 2017

Jak správně navrhnout moderní a efektivní řešení pro ukládání dat

Big Data od velkých očekávání k praktickému využití. DSW, Praha,

Administrace OS Unix. filesystém UFS mount snapshot RAID

Jalapeño: pekelně ostrá Java persistence v Caché. Daniel Kutáč Senior Sales Engineer

B0M33BDT Technologie pro velká data. Storage

uzly. Výpočetní uzel (Working node) výkonná jednotka clusteru.

Databáze II. 1. přednáška. Helena Palovská

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Technologie Java Enterprise Edition. Přemek Brada, KIV ZČU

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

LINUX - INSTALACE & KONFIGURACE

Systémová administrace portálu Liferay

Jak spustit provoz v DR lokalitě snadno a rychle

Matematika v programovacích

Jakub Šesták. ESEJ DO PŘEDMĚTU DIGITÁLNÍ KNIHOVNY

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

2. Nízké systémové nároky

B0M33BDT 7. přednáška Architektury a bezpečnost. Marek Sušický Milan Kratochvíl

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Univerzita Pardubice. Fakulta ekonomicko-správní

Compatibility List. GORDIC spol. s r. o. Verze

B0M33BDT Technologie pro velká data. Storage

Souborový systém (File System FS) Souborové systémy. Souborová fragmentace. Disková fragmentace. Organizace dat na pevném disku

NSS - Cache 5. LECTURE MARTIN TOMASEK

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.

Struktura pamětí a procesů v DB Oracle. Radek Strnad

Operační systémy 1. Přednáška číslo Souborové systémy

Disková pole (RAID) 1

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Sísyfos Systém evidence činností

w w w. u l t i m u m t e c h n o l o g i e s. c z Infrastructure-as-a-Service na platformě OpenStack

Příloha č. 1 k čj.: 1/120/ Technická specifikace Zajištění HW a dlouhodobé podpory infrastruktury Intel pro VoZP ČR

ArcGIS Server 10.1/10.2

Integrace podnikových Open Source aplikací v praxi. RNDr. Petr Novák, Open Source Conference Praha, 19. duben 2011

Případová studie: Adresářové řešení pro webhosting pomocí ApacheDS. Lukáš Jelínek

Úvod. Petr Aubrecht (CA) Martin Ptáček (Wincor Nixdorf) Je 10 typů lidí: ti, kteří znají binární kód, a ti, kteří ne.

Systém IZIP. internetový přístup ke zdravotním informacím pacienta. Elektronická zdravotní knížka. .:. Jiří Venclík.:.

Technická specifikace

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU bez limitu Obsahuje podporu

Souborové systémy Mgr. Josef Horálek

Technická specifikace HW pro rok 2012

Zálohovací zařízení pro repozitář jazykových dat a digitálního materiálu pro jazykový výzkum

Jednotlivé hovory lze ukládat nekomprimované ve formátu wav. Dále pak lze ukládat hovory ve formátu mp3 s libovolným bitrate a také jako text.

Příloha č. 2A Zadávací dokumentace k Veřejné zakázce Dodávka technologického řešení pro Geoportál

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

Webové informační systémy Ing. Jiří Šilha, LANius s.r.o.

Paralelní výpočty ve finančnictví

Operační systémy 1. Přednáška číslo Struktura odkládacích zařízení

Použití databází na Webu

Workmonitor. Servisní návod. 24. června 2014 w w w. p a p o u c h. c o m

ABBYY Automatizované zpracování dokumentů

Operační systémy 2. Struktura odkládacích zařízení Přednáška číslo 10

NoSQL databáze. Marek Rychlý (a Dušan Kolář) Vysoké učení technické v Brně Fakulta informačních technologií Ústav informačních systémů

Datová věda (Data Science) akademický navazující magisterský program

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

1. Webový server, instalace PHP a MySQL 13

Microsoft Azure Workshop

Backup Srovnání licencí. Přehled

Tvorba informačních systémů

Část 1. Technická specifikace. Posílení ochrany demokratické společnosti proti terorismu a extremismu

Transkript:

3.12.2013 Hadoop a HDFS Bc. Milan Nikl

Co je Hadoop: Open-Source Framework Vyvíjený Apache Software Foundation Pro ukládání a zpracovávání velkých objemů dat Big Data trojrozměrný růst dat (3V) Objem (Volume) množství dat se zvyšuje Typ (Variety) roste různorodost Rychlost (Velocity) zrychluje se vytváření dat roste potřeba rychlé analýzy (real time)

Vývoj Hadoopu: Vyvíjen od r. 2006 04.09.2007 verze 0.14.1 27.12.2011 verze 1.0.0 15.10.2013 verze 2.2.0 Odvozený od Google File System (GFS) Založený na programovacím modelu MapReduce

Struktura Hadoopu:

1. MapReduce - přehled Framework zajišťující distribuci a paralelizaci úloh Dělí komplexní úlohy (Job) na dílčí (Task) Dále obstarává veškerou komunikaci a datové přenosy Řeší redundantní ukládání aktuálně zpracovávaných dat a s tím související problematiku přidávání a odebírání uzlů Sort dat v objemu PB za pár hodin

1. MapReduce - princip Snaha je dostat výpočet co nejblíže datům minimalizuje zbytečné přenosy JobTracker (Master) Přijímá úkoly od klienta Rozděluje tasky, monitoruje, obnovuje TaskTracker (Slave) vykoná zadanou úlohu a vrátí odpověď Každý task se spouští na nové JVM Z jednotlivých odpovědí slave uzlů se sestavuje odpověď na původní dotaz

1. MapReduce - princip Uživatel řeší pouze co se s daty děje, nikoli jak se to dělá. Tedy: Funkci Map() Vybere z dat relevantní údaje Dvojice <Klíč, hodnota> Funkci Reduce() Nad vybranými údaji provádí nějaký výpočet Obvykle nějaká forma analýzy, statistiky, atd. Vrátí opět <Klíč, hodnota> ale jiný typ např. výsledek statistiky

2. HDFS - vlastnosti Distribuovaný, škálovatelný souborový systém Vysoce odolný proti chybám Velká míra redundance nevyžaduje RAID Navržený pro použití na běžném HW Naprogramovaný v Javě Využívá TCP/IP pro komunikaci Pro práci vzdálené volání procedur (RPC)

2. HDFS - struktura

2. HDFS - struktura Řídící prvek - Namenode (Master) Spravuje FS namespace, mapuje bloky 64MB Řídí požadavky klientů Otevření, uzavření, přejmenování souboru Obsahuje všechna metadata Pracující prvky Datanode (Slave) Zařizuje práci s bloky podle instrukcí Čtení, zápis, vytváření a mazání bloků Zajišťuje replikaci bloků Standard jsou 3 repliky na blok HeartBeat, BlockReport

2. HDFS Bezpečnost Namenode zaznamenává všechny změny do EditLogu Vytváření souborů, ale i změna replikace Popis celého FS namespace uložen v souboru FsImage na Namenode Checkpoint Namenode načte EditLog a FsImage Provede změny popsané v EditLogu Vytvoří nové verze souborů Zatím pouze při startu Snapshoty

2. HDFS omezení a výhody Nejedná se o klasický FS fyzický mount pod OS není možný Jde o použití FUSE Zaměřený na čtení dat u většiny se předpokládá, že se nebudou měnit Nevhodný pro potřeby vícenásobného současného zápisu souborů /trash možnost obnovení souborů (6h) Používá Java API, ale pomocí Thrift API lze používat i v jiných jazycích

3. Hive Použití SQL-like dotazů nad daty v HDFS Vlastní jazyk HQL Převádí dotazy na MapReduce úlohy Oproti SQL značně omezen (pouze čtení, vyšší latence) Vytvořen ve Facebooku

4. Pig Vyvinut společností Yahoo! Pro jednoduché analyzování rozsáhlých dat paralelizaci neřeší uživatel Používá vlastní jazyk Pig Latin Zaměřen na jednoduchost psaní kódu Struktura kódu umožňuje dobrou čitelnost, udržovatelnost a snadnou optimalizaci Snadno rozšiřitelný Převádí Pig Latin na MapReduce úlohy

5. Mahout Knihovna pro strojové učení Základní typy úloh: Recommendation mining analyzuje chování uživatele a provádí doporučení Clustering seskupuje obsahově podobné dokumenty Klasifikace neoznačených dokumentů Frequent itemset mining analyzuje výskyt určitých objektů které položky se nejčastěji vyskytují společně např. nákupní košík

6. Cassandra Alternativa k HDFS NoSQL databázový systém Využívá decentralizaci a replikaci dat Odolnost proti poruchám a výpadkům Výkonný, přesto přizpůsobitelný systém Adaptabilní snadná rozšiřitelnost V praxi používá např. Ebay, Twitter Největší Cluster 300 TB na 400 strojích

7. HBase Sloupcově orientovaný přístup Vhodné pro náhodný Read/Write přístup k Big Datům Nadstavba nad HDFS, která umožňuje práci s rozsáhlými tabulkami (mld x mil) Není relační databázový systém, ani nepodporuje SQL Postavena na Javě, psána podobně jako MapReduce

Podporované FS: Amazon S3 filesystem používané u clusterů založených na Amazon Cloudu FTP file servery ukládání dat na vzdálené servery HTTP a HTTPS file systémy pouze pro čtení Teoreticky provozovatelný na jakémkoli distribuovaném FS podporujícím file:// URL Hrozí ale ztráta výkonnosti

Významní uživatelé: Ebay 532 Nodů v clusteru, 8x532 jader, 5,3 PB Facebook 1100 Nodů, 8800 jader, 12 PB 300 Nodů, 2400 jader, 3 PB Spotify 690 Nodů, 8280 jader, 28 PB Yahoo! Přes 40000 počítačů 4500 Nodů, 36000 jader, 18 PB Přes 60% tvoří Pig

Použití Hadoop: Nativní řešení pouze pro linuxové distribuce (nejčastěji Red Hat, CentOS) Na windows přes Cygwin Příp. přes WMware Základní verze od ASF X Enterprise řešení různých firem (IBM, HortonWorks, Cloudera, Oracle, )

Závěrem: Děkuji za pozornost.

Zdroje: http://hadoop.apache.org/ http://www.linuxexpres.cz/software/kdyzse-rekne-hadoop http://www.systemonline.cz/clanky/bigdata.htm http://www- 01.ibm.com/software/data/infosphere/bigi nsights/ http://en.wikipedia.org/wiki/hadoop a další odkazy zde nalezené