BigData. Marek Sušický

Podobné dokumenty
Hadoop a HDFS. Bc. Milan Nikl

B0M33BDT 7. přednáška Architektury a bezpečnost. Marek Sušický Milan Kratochvíl

B0M33BDT Stream processing. Milan Kratochvíl

Osobní počítač. Zpracoval: ict Aktualizace:

SSD akcelerátor v PCIe slotu. Až 25 SSD/SAS/NL-SAS disků na jeden server

Spark Jan Hučín 15. listopadu 2017

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Hyperkonvergovaná řešení jako základní stavební blok moderního IT

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Příloha č. 2A Zadávací dokumentace k Veřejné zakázce Dodávka technologického řešení pro Geoportál

Server je v informatice obecné označení pro počítač, který poskytuje nějaké služby nebo počítačový program, který tyto služby realizuje.

DataDomain pod drobnohledem

Základní pojmy informačních technologií

Efektivní využití SSD v produktech Dell: SSD za cenu HDD. Ondřej Bajer Storage Systems Engineer

1x server pro distanční vzdělávání (výpočtový server)

Ondřej Lorenc System x a virtualizace ondrej_lorenc@cz.ibm.com

Datasheet SanDisk Řada PCIe-SSD Fusion iomemory PX600 Server

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

Organizace a zpracování dat I (NDBI007) RNDr. Michal Žemlička, Ph.D.

STORAGE SPACES DIRECT

Disková pole (RAID) 1

Technická specifikace ČÁST 1. Místo plnění: PČR Kriminalistický ústav Praha, Bartolomějská 10, Praha 1

MARIE PACS S PACSem hezky od podlahy když se data sypou!

FLASH NOVÉ HRANICE DOSAŽITELNÉHO

NSS - Cache 5. LECTURE MARTIN TOMASEK

Informatika teorie. Vladimír Hradecký

Forenzní analytická jednotka - technická specifikace (9 ks)

Identifikátor materiálu: ICT-1-08

Technická specifikace HW pro rok 2012

Softwarově definované úložiště pod taktovkou EMC Lukáš Bělovský, konzultant Gapp System

HW Diskové pole - 1KS

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Alcatel-Lucent VitalQIP DNS/DHCP & IP Management Software

SSD vs. HDD / WAL, indexy a fsync

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

Když konvenční disky nestačí tempu vašich aplikací

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

B0M33BDT Technologie pro velká data. Supercvičení SQL, Python, Linux

Spark Jan Hučín 5. dubna 2017

Technická specifikace vymezené části 1 SERVER

Co by kdyby? Simulační prostředí pro BIG data v energetice. Filip Procházka, Masarykova Univerzita, Mycroft Mind, a.s. filip.prochazka@gmail.

ReDefine Midrange Storage VNX/VNXe. Václav Šindelář, EMC

MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

CHARAKTERISTIKA VEŘEJNÉ ZAKÁZKY

Healtcheck. databáze ORCL běžící na serveru db.tomas-solar.com pro

Windows Server Novinky. Petr Špetlík Cloud & Server PTA

Hardware. Příklad převodu čísla: =1*32+0*16+0*8+1*4+0*2+1*1= Převod z dvojkové na desítkovou Sčítání ve dvojkové soustavě

Zřízení technologického centra ORP Dobruška

Specifikace předmětu veřejné zakázky

Copyright 2012 EMC Corporation. All rights reserved.

METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

2.1 Obecné parametry Obecné parametry Rack serveru

Zálohovací zařízení pro repozitář jazykových dat a digitálního materiálu pro jazykový výzkum

O nás. UPC Business. Kontaktní linka (Po - Pá: 8:00-19:00) Klientská linka (Po - Pá: 8:00-19:00)

Paralelní výpočty ve finančnictví

František Kysela SE Datacenter

Výukový materiál Hardware je zaměřený především na výuku principů práce hardwaru a dále uvádí konkrétní příklady použití.

Bi-Direction Replication

Integrovaná střední škola, Sokolnice 496

Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Předmět: informační a komunikační technologie

Systémy pro sběr a přenos dat

Datová úložiště. Zdroj: IBM

Jednotlivé hovory lze ukládat nekomprimované ve formátu wav. Dále pak lze ukládat hovory ve formátu mp3 s libovolným bitrate a také jako text.

1. SYSTÉMOVÉ POŽADAVKY / DOPORUČENÁ KONFIGURACE HW A SW Databázový server Webový server Stanice pro servisní modul...

Výpočetní klastr pro molekulové modelování

B0M33BDT Technologie pro velká data. Storage

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Bohuslava Čežíková.

Na co se ptát poskytovatele cloudových služeb?

Proč je IBM Flex System to nejlepší blade řešení na trhu

Nimbus Data All Flash Systems

Výzva na podání nabídek na veřejnou zakázku malého rozsahu

VirtualizaceKlatovské nemocnice a.s.

SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ

Architektura počítače

Přednáška 1. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Datová úložiště v roce 2017 aneb jak si vybrat to správné?

Datová úložiště v MetaCentru a okolí. David Antoš

UAI/612 - Cloudová Řešení. Technologie

Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD

Endura 2.0 Nová generace CCTV IP systémů s Full-HD rozlišením Endura Optimalizace HD

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

Představení procesorů od firmy Tilera a jejich architektura

Technické prostředky počítačové techniky

Přednáška. Úložiště dat: HDD, SDD, RAID, DAS, NAS, SAN. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

CSPUG 2011-květen. GridSQL a pg-pool II. Vratislav Beneš benes@optisolutions.cz

2.9 Vnitřní paměti. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu

Odbor informatiky a provozu informačních technologií

Příloha č. 2 Technická specifikace

Disková pole (RAID) 1

Zadávací dokumentace na veřejnou zakázku malého rozsahu s názvem Obměna informačních technologií

Virtualizace koncových stanic Položka Požadováno Nabídka, konkrétní hodnota

Paměti Josef Horálek

Open Source řešení pro Mission critical systémy. Software Defined Networks v praxi , Praha

Na zelenou jeď! Jen to nepopleť. Pavel Strašlipka HPE Storage Category Manager,

Specifika implementace IS v surovinovém průmyslu

Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit

Z{kladní struktura počítače

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Transkript:

BigData Marek Sušický 28. Únoru 2017

Osnova Big data a Hadoop Na jakém hardware + sizing Jak vypadá cluster - architektura HDFS Distribuce Komponenty YARN, správa zdrojů 2

Big data neznamená Hadoop 3

Apache Hadoop Wikipedia: Apache Hadoop (pronunciation: /həˈduːp/) is an open-source software framework for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware. All the modules in Hadoop are designed with a fundamental assumption that hardware failures are common and should be automatically handled by the framework. Commodity hardware stroje za statisíce CZK (ale ne desítky mil.) 2-4 CPU, každé CPU 10-16 jader 256-512 GB RAM, min. 128GB 10-20 2-4TB HDD rozhodně ne to, co jako server prodává Alza 4

Jak vypadá levný HW 5

Sizing Jak postavit Hadoop Jak si ho objednat HDD parametry Přenosová rychlost RAID 0, 1, 1+0, 5, 6, (2,3,4,7) Síťová rychlost SAN/NAS Paměť CPU jádra Obecná doporučení 6

Sizing Kalkulace HW požadavků Počet nodů Počet disků HW parametry (CPU, RAM, RAID ) typů nodů 7

Rychlosti čtení dat RAM DDR4 cca 15 GB/s Síť 10 Gbit 1.25 GB/s SSD disk 200-700 MB/s existují Enterprise level, které vydrží (garance 5 let) malé kapacity (max 1TB) a hodně drahé HDD 7.2k latence cca 4ms sekvenční čtení 50-100 MB/s velké kapacity (běžně 4TB-8TB) a relativně levné Hadoop typicky pracuje s úložištěm 8

Rychlosti čtení dat HDD Sekvenční čtení cca 100 MB/s za jednom disku Random access velikost bloku ext4 bývá 4kB latence, než disk najde blok cca 4ms max. rychlost čistě náhodného čtení 1/0.004*4096 = 1 MB/s 9

Omezující faktory Příklad: 10 nodů, každý node 12 * 2 TB HDD Rychlost čtení v rámci nodu: 12*100 MB/s = 1.2 GB/s Rychlost čtení v rámci clusteru: 12 GB/s Omezení: rychlost RAM 10x větší CPU čtení nezatěžuje síť na hraně pro jeden node! sběrnice pozor na počet disků, musí zvládnout 10

Hadoop - architektura 11

Hadoop architektura I 12

Hadoop architektura II 13

Sizing Ukázkový příklad k zamyšlení 15GB/5 min Historie 30 dní SLA 5 sekund pro 85% dotazů 10s pro 100% dotazů Při nesplnění vysoké pokuty 14

Principy Ukládání velkého množství dat mnoho serverů = nodů [desítky až tisíce] každý node mnoho disků [10-20] Zamezení ztráty dat výpadek nodu replikace (typicky tři kopie každého souboru) 2 repliky ve stejném racku, třetí replika mimo Rychlost čtení data jsou rozložena v celém clusteru 1 soubor nemusí být celý v jednom nodu! data jsou replikována lze paralelně číst na několika nodech bez nutnosti přenosu dat přes síť velké soubory výhody sekvenčního čtení Distribuce výpočtů mnoho nodů, přiřazování výpočetního výkonu 15

Principy Hadoop syntéza Maximálně využívat sekvenční čtení Pracovat s velkými soubory, které se čtou sekvenčně ušetří se čas na synchronizaci/orchestraci v rámci distribuovaného systému Čím méně dat se načte, tím rychleji se načtou využití komprese CPU se při čtení fláká, paměť je násobně rychlejší, tj. typicky dekomprese bude rychlejší než IO operace Maximum výpočtů provádět na nodu, kde probíhá čtení dat, přes síť posílat jen co nejvíce agregovaná data síťové rozhraní nebude mít dostatečnou kapacitu Zásadní omezení I/O operace Tip: při odhadu, jak dlouho co bude trvat stačí prakticky vždy počítat jen s IO a počtem paralelních čtení/uživatelů (ale neplatí samozřejmě pro ML aplikace) 16

HDFS

HDFS HDFS NameNode, DataNode Replikace Operace na souborovém systému Bloky, velikost bloku 18

HDFS Hadoop Distributed Filesystem Dobrý pro Velké soubory Streamovaný přístup Špatný pro Spoustu malých souborů Náhodný přístup Nízkolatenční přístup Master-slave design Master NameNode Slave DataNode SecondaryNameNode 19

HDFS 20

HDFS HDFS soubory jsou rozděleny do bloků Default 64MB/128MB, ale lze změnit Dobré pro velké soubory Děsné pro malé Replikace Jeden blok může být v nejméně xxx DataNodes Fault tolerant Default hodnota 3 21

NameNode Metadata filesystému Kde jsou data V paměti 1GB pro každý milion bloků Ve spojení s Klienty DataNody SecondaryNamenody Checkpointing Editlogs a fsimage 22

DataNode Ukládá Databloky Získává bloky od klientů Získává bloky od ostatních DataNodů Replikace Dostává příkaz delete od NameNode 23

HDFS filesystem put get copyfromlocal ls Rights Chmod Chown Chgrp Další zde https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoophdfs/hdfscommands.html Vyzkoušíme na cvičení 24

Distribuce

Distribuce 26

Hotové distribuce Řeší peklo závislostí jeden update může vyvolat řetězovou vlnu Nabízejí komerční podporu Rychlejší reakce? Co je zadarmo, je špatné?! Proč znovu vymýšlet kolo Musí se k tomu dospět 27

Komponenty

Zvěřinec - zjednodušeně 29

30

Verze mezi releasy 31

Koloběh technologií Nadšení Našel jsem skvělou technologii! Vyřeší naše problémy. Realita o několik hodin později Kde je dokumentace? Vystřízlivění podle povahy o několik hodin, až jednotek dní později Ono to asi vážně nefunguje. Zklamání o několik zoufalých dnů později Nefungují ani příklady na webu! Kdo probůh tohle vyvíjí? Porozhlédneme se tedy jinde 32

YARN

YARN Yet Another Resource Negotiator tj. plánovač a alokátor zdrojů pamět CPU počet vláken síť... Většinou se využívá transparentně, uživatel o něm moc neví, záleží ale hodně na konfiguraci Ne všechny aplikace YARN využívají, např. Impala má vlastní plánovač každý alokátor by tak měl mít výhradní zdroje... 34

YARN Application klientská aplikace Container zdroje přiřazené aplikaci na konkrétním nodu Resource Manager globální správce zdrojů pro cluster Node Manager podřízený správce zdrojů na nodu 35

YARN 36

Díky za pozornost Profinit, s.r.o. Tychonova 2, 160 00 Praha 6 Telefon + 420 224 316 016 Web www.profinit.eu LinkedIn linkedin.com/company/profinit Twitter twitter.com/profinit_eu