MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

Podobné dokumenty
MetaCentrum. Miroslav Ruda CESNET

MetaCentrum. Miroslav Ruda. listopad 2013 CESNET

Národní e-infrastruktura v ČR

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

CERIT-SC. Luděk Matyska, David Antoš, Aleš Křenek

Cloudy a gridy v národní einfrastruktuře

Datová centra z pohledu univerzity. David Antoš Ústav výpočetní techniky Masarykova univerzita antos@ics.muni.cz

METACENTRUM. Miroslav Ruda CESNET. Konference CESNET, Praha

SUPERPOČÍTAČOVÉ CENTRUM

MetaCentrum. Martin Kuba CESNET

Aktuální stav. Martin Kuba CESNET a ÚVT MU

MetaCentrum. Tomáš Rebok MetaCentrum NGI, CESNET z.s.p.o. CERIT-SC, Masarykova Univerzita Olomouc,

CERIT SCIENTIFIC CLOUD. Centrum CERIT-SC. Luděk Matyska. Praha, Seminář MetaCentra,

ICT plán ZŠ praktické Bochov na rok 2009

INFORMATIKA V CHOVECH PRASAT

Co najdete v ASPI? (pro uživatele SVI FSE UJEP)

Hadoop a HDFS. Bc. Milan Nikl

VI. Finanční gramotnost šablony klíčových aktivit

Závěrečná zpráva. Integrace datových úložišť CESNET do zálohovacích procesů AMU v Praze.

Novinky ze sv ta grid

PROSTOROVÁ DATA ZEMĚMĚŘICKÉHO ÚŘADU PRO VEŘEJNOU SPRÁVU

1. TECHNICKÉ POŽADAVKY PRODUKTŮ VEMA Klasifikace konfigurací z hlediska podpory... 7

Úvod do programování a práce s počítačem

Operační systém. Mgr. Renáta Rellová. Pracovní list. Výukový materiál zpracován v rámci projektu EU peníze školám

Metodika kurzu Fiktivní firma

Data v počítači EIS MIS TPS. Informační systémy 2. Spojení: jan.skrbek@tul.cz tel.: Konzultace: úterý

ZÁKLADNÍ POVINNOSTI DOPRAVCE I PRÁCI S DATY Z DIGITÁLNÍHO TACHOGRAFU

Výpočetní zdroje v MetaCentru a jejich využití

Implementace směrnice 2012/27/EU o energetické účinnosti v podmínkách ČR

ICT plán. Škola: VOŠ, SPŠ a SOŠ řemesel a služeb, Strakonice - Hodnocení: ICT VOŠ, SPŠ a SOŠ řemesel a služeb, Strakonice


Ing. Šárka Endrlová, starostka. Ing. Jana Dvořáková.

ZMĚNA Č.2 ÚZEMNÍHO PLÁNU OBCE NEHVIZDY

Objektově orientované databáze

Server. Software serveru. Služby serveru

INTELIGENTNÍ DŮM. Zdeněk Kolář, Viktor Daněk. Střední průmyslová škola sdělovací techniky Panská 856/3, Praha 1

Tekla Structures Multi-user Mode

OPERAČNÍ SYSTÉMY MS-DOS

VÝZVA A ZADÁVACÍ DOKUMENTACE

Soukromí to nejcennější, co mám. Nemůžete říkat všechno všem. Evangelia Kontopidi, Řecko. Soukromí to nejcennější, co mám

VÝZVA K PODÁNÍ NABÍDKY

29 Evidence smluv. Popis modulu. Záložka Evidence smluv

INFORMATIKA pro LÁZEŇSTVÍ. Ing. Petr Janík

ZADÁVACÍ DOKUMENTACE

Soubory a databáze. Soubor označuje množinu dat, která jsou kompletní k určitému zpracování a popisují vybrané vlastnosti reálných objektů

TYPY SOCIÁLNÍ PRÁCE. Radka Michelová

Odůvodnění veřejné zakázky dle 156 zákona. Odůvodnění účelnosti veřejné zakázky dle 156 odst. 1 písm. a) zákona; 2 Vyhlášky 232/2012 Sb.

Modul Řízení objednávek.

Miroslav Kunt. Srovnávací přehled terminologie archivních standardů ISAD(G), ISAAR(CPF) a české archivní legislativy

Dlouhodobý archiv zdravotnické dokumentace informační systém dále jen (IS) musí splňovat níže uvedené technické parametry:

Inovované řešení VDT/VT

Knihovny, autoři, nakladatelé a knihkupci a autorský zákon -

Provozní řád Portál provozovatele dráhy

ROZKLIKÁVACÍ ROZPOČET - ONLINE ZVEŘEJŇOVÁNÍ EKONOMICKÝCH DAT ÚŘADU

Microsoft Office SharePoint Portal Server 2003

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM

Regionální rady regionu soudržnosti Severovýchod pro období ukončování ROP Severovýchod

STATUTÁRNÍ MĚSTO BRNO BRNO, Kounicova 67 PŘESTAVBA ŽELEZNIČNÍHO UZLU BRNO

Městský kamerový systém

INFORMAČNÍ SYSTÉM O AREÁLU

Řízení cestovního ruchu v České republice - podkladový materiál pro přípravu věcného návrhu zákona o cestovním ruchu

4 Část II Základy práce v systému. 6 Část III Úvodní obrazovka. 8 Část IV Práce s přehledy. 13 Část V Kontakty. 19 Část VI Operativa

Koncepce rozvoje Polytematického strukturovaného hesláře (PSH)

Uživatelská dokumentace

Bezdrátové připojení (pouze u vybraných modelů)

Základní teze prováděcích právních předpisů. navrhované právní úpravy

Zásady pro udělování a užívání značky MORAVSKÝ KRAS regionální produkt

Zadávací dokumentace. Příloha

Charakteristika kurzu BE4

Web n walk NÁVOD PRO UŽIVATELE. Manager

DODATEK Č. 2 KE SMLOUVĚ O DÍLO MKDS STŘÍBRO Č. 20/HIO/2011

KOMUNITNÍ PLÁN MIKROREGIONU HRÁDECKO - CHRASTAVSKO

Zadávací dokumentace

plk. Ing. Ivan Koleňák

Operační systém z hlediska procesu Mgr. Josef Horálek

Spolehlivý pracant HAL3000 EliteWork II s nízkou spotřebou energie

POROVNÁNÍ FINANČNÍCH PRAVIDEL V PROGRAMECH VÝZKUMU A VÝVOJE, říjen 2009

VYBRANÉ ENERGETICKÉ STAVBY ve vazbě na novelu stavebního zákona a koordinované řízení

Systém MCS II. Systém MCS II < 29 >

-1- N á v r h ČÁST PRVNÍ OBECNÁ USTANOVENÍ. 1 Předmět úpravy

dodávka I. Etapa vybavení učebny:

téma: Formuláře v MS Access

účetních informací státu při přenosu účetního záznamu,

O D B O R O V É S D R U Ž E N Í Ž E L E Z N I Č Á Ř Ů Republiková rada seniorů JEDNACÍ ŘÁD. 1. Úvodní ustanovení

Generátor sítového provozu

Geoinformace o Plzni a jejich využití

Vyhláška č. 294/2015 Sb., kterou se provádějí pravidla provozu na pozemních komunikacích

ODŮVODNĚNÍ VEŘEJNÉ ZAKÁZKY Dostavba splaškové kanalizace - Prostřední Bečva a Horní Bečva, zhotovitel, dle vyhlášky č. 232/2012 Sb.

Sdílené služby ve veřejné správě ČR Co jsme postavili Co budeme stavět. Ondřej Felix Hlavní architekt egovermentu ČR

Příprava odborného pojednání Yvona Řepová

CL232. Převodník RS232 na proudovou smyčku. S galvanickým oddělením, vysokou komunikační rychlostí a se zvýšenou odolností proti rušení

Role malých pr ojektů pr o udr žitelný rozvoj České rafinérské, a.s.

BIOS (BASIC INPUT-OUTPUT SYSTEM)

Varianty zajišťování veřejných služeb

MetaCentrum. Miroslav Ruda. Skalský Dvůr, Miroslav Ruda (MetaCentrum) MetaCentrum Skalský Dvůr, / 11

1. VÝCHODISKA AKTUALIZOVANÉHO DLOUHODOBÉHO ZÁMĚRU

NOVÝ SYSTÉM USKLADNĚNÍ SEZÓNNÍCH PNEUMATIK S RÁFKEM

1) List č. 1 Přehled o činnosti sekce regionu za rok 2007

Transkript:

MetaCentrum datové služby Miroslav Ruda, Zdeněk Šustr

Agenda Národní gridová infrastruktura přehled služeb MetaCentra aktuální stav výpočetní grid cloudové prostředí MapReduce výpočty

Národní gridová infrastruktura Distribuované prostředí pro sdílení výpočetních zdrojů motivací je optimální využití zdrojů (nejen hardwaru) přenesení nárazové zátěže na volnější zdroje a využití jiných zdrojů při výpadku poskytnutí vlastních dočasně volných zdrojů možnost pořídit si cluster jen na standardní kapacitní požadavky spolupráce týmů z různých organizací, sdílení dat MetaCentrum součást e-infrastruktury spravované CESNETem jednotný účet, propojené služby pracuje v koordinaci s dalšími projekty IT4i a CERIT-SC přidáváme podporu zpracování rozsáhlých dat, nových typů výpočtů

MetaCentrum clustery a výkonné servery, úložné kapacity Plzeň, Praha, Brno, Ostrava, ČB aktuálně 10 000 jader, 4 000 vlastní CESNET clustery CEITEC, CERIT-SC, ZČU, JČU, UK, MU přes 1 PB diskových prostor na zpracování dat centrální správa uzlů, účtů, úloh, aplikačního softwaru dalších 4 000 jader a 2 PB přes FZU do EGI (LHC) "placení" formou publikací s poděkováním přístup všem akademickým pracovníkům a studentům bez omezení, bez podávání projektů publikace využívány pro určení priority uživatele výpočty gridové, cloudové, MapReduce

Novinky CESNET zprovozněna třetí generace GPU clusteru 30 uzlů 2 NVIDIA Tesla K20 tento rok přibude 400 TB home v Brně 4 SMP servery (každý 4 8 jader, 512 GB RAM) 18 uzlů cloudu (každý 2 8 jader, 256 GB RAM) Hadoop cluster (27 uzlů) CERIT-SC druhý SGI UV v Brně celkem 384 jader, 6 TB RAM Připojeny clustery na ČVUT, FZU, uzel Elixiru na JČU

Výpočetní grid využívá většinu zdrojů, orientace na dávkové úlohy, hromadné zpracování, dlouhé vědecké výpočty různý typ výpočetních uzlů klasické dvouprocesorové uzly orientované na HTC úlohy uzly s GPU kartami (30 uzlů, každý 2 NVIDIA Kepler K20) větší SMP uzly (4 procesory, 512 GB RAM) 2 SGI UV2 (6 TB RAM každý) souborové systémy rozdělené podle využití uložených dat lokální scratch disky pro dočasná data (HTC úlohy, <1 TB) 3 sdílený scratch filesystém, viditelný přes jeden cluster paralelní zpracování větších dat (10 TB) home v každém městě semipermanentní, zálohovaná data (100 TB) projektové adresáře semipermanentní, pro sdílení v rámci projektu zpřístupněná data ze souborových serverů vlastníka clusteru přímo zpřístupěné souborové systémy DU

Výpočetní cloud určeno pro vědecké výpočty nebo služby související s těmito výpočty ne pro obecné hostování webových služeb výpočetní uzly s možností využití vlastního systému uzly totožné s MetaCentrem pro potřeby ladění softwaru uzly dodané mezinárodní VO ve které jsou uživatelé zapojeni dodaný obraz, předinstalovaný software uzly s vlastní instalací systému a vlastního softwaru webové služby pro zadání úloh, permanentní část výpočetního prostředí Galaxy portal nabízený MetaCentrem (autentizace prostředky MetaCentra, úlohy běží v gridu) uzly mohou být uzavřené do VLAN, mít pouze privátní IP adresy VLAN umožňuje i L2 sítě, propojení do domácí sítě, zahrnutí gridových uzlů

Map Reduce výpočty v MetaCentru nové prostředí, nabízené dočasně v cloudovém prostředí na konci tohoto roku bude provozováno na vlastním dedikovaném hardwaru opět integrováno s MetaCentem (přihláška, autentizace, accounting) Apache Hadoop prostředí (MapReduce, YARN, Hive, Pig, HBase,... ) 3 servery sloužící jako front-end, metadata, management 24 výpočetních serverů (dual-socket, 128 GB RAM, 12 4 TB v každém uzlu) celková kapacita HDFS filesystému 1 PB

Map Reduce výpočty motivace I MapReduce přístup publikován firmou Google (2003/2004) typ výpočtů rozpoznán jako klíčový i dalšími firmami s potřebou prohledávat velká nestrukturovaná data logy (webových) serverů textové soubory (viz náš příklad počítání slov) XML/JSON soubory, dump databáze bioinformatická data volně dostupná implementace HDFS a MapReduce pod hlavičkou organizace Apache (přispívají i firmy typy Facebook, Twitter, IBM) vznikají i formy poskytující komerční podporu (Cloudera, Hortonworks) postupně vznikají další nadstavby (Pig, HBase, Hive, YARN)

Map Reduce výpočty motivace II motivace tradiční servery nejsou schopné zpracovat data v potřebném rozsahu, posilování serverů naráží na finanční limity, nedostatek paměti rychlost I/O na serveru nabízí se možnost data distribuovat přes sadu levnějších uzlů clusteru zaručí se škálovatelnost nákladů data se zpracovávají paralelně po částech potřeba koordinace, zaručení stability a konzistence při výpadku uzlu clusteru potřeba výpočetního prostředí ve kterém lze jednoduše takové úlohy zpracovávat

Map Reduce výpočty HDFS filesystém pro uložení dat data jsou při uložení do Hadoop clusteru rozdělena na menší kousky, ty jsou rozhozené přes jednotlivé uzly clusteru soubory nelze jednoduše přepisovat, pouze prodlužovat při samotném výpočtu se data již nestěhují úlohy se stěhují za daty systém sám zaručuje, že je uloženo několik kopií každého kusu dat při výpadku uzlu sám zajistí dodělání chybějících kopií uzly mezi sebou komunikují minimálně, uživatel programuje v prostředí, kde neřeší výpadky, síťovou komunikaci... pro nalití dat do HDFS existují i specializované nástroje (Flume logy, Sqoop data z databází)

Map Reduce výpočty typická úloha se skládá z Map a Reduce fází, jazyk Java komunikace probíhá přes dvojice (klíč, hodnota) úloha pracuje nad jedním blokem dat Master úlohy koordinuje, plánuje tam kde leží zpracovávaná data, ve vlastní režii řeší výpadky apod. Mapper zpravidla čte (jméno souboru,data), produkuje seznam (klíč, hodnota) Reduce proces dostane dvojice s jemu přiřazeným klíčem (setříděné podle klíče), produkuje výsledný (klíč, hodnota) do HDFS Map(input-key,input-value) {foreach word w in input value; emit(w,1)} Reduce(key, list of value) {foreach value sum=sum+value; emit(key,value)}

Hadoop ecosystem Hive SQL-like interface pro dotazy nad Hadoop daty Pig skriptovací jazyk pro tranformaci velkých dat v Hadoopu HBase sloupcová databáze nad HDFSA (vybírá jen řádky, omezený jazyk pro dotazy, jeden klíč, vstup pro MapReduce) Flume nástroj pro průběžné produkování dat YARN Haddop 2.0, workflow z MapReduce úloh A = load./input.txt ; B = foreach A~generate flatten(tokenize((charar)$0)) as word; C = group B by word; D = foreach C generate COUNT(B), group; store D into./wordcount ;

MetaCentrum Děkuji za pozornost http://www.metacentrum.cz