MetaCentrum. Miroslav Ruda 2. 12. 2014 CESNET



Podobné dokumenty
MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

MetaCentrum. Miroslav Ruda. listopad 2013 CESNET

METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

Cloudy a gridy v národní einfrastruktuře

MetaCentrum. Tomáš Rebok MetaCentrum NGI, CESNET z.s.p.o. CERIT-SC, Masarykova Univerzita Olomouc,

METACENTRUM. Miroslav Ruda CESNET. Konference CESNET, Praha

Výpočetní zdroje v MetaCentru a jejich využití

MetaCentrum a náro (nejen matematické) výpočty

METACentrum Český národní gridovýprojekt. Projekt METACentrum. Jan Kmuníček ÚVT MU & CESNET. meta.cesnet.cz

METACentrum zastřešení českých gridových aktivit

Hardware - minulý rok

MetaCentrum. Martin Kuba CESNET

Aktuality a plány virtuální organizace

aktivita CESNETu společně MU, UK a ZČU sdružuje výpočetní prostředky

Novinky z vývoje v MetaCentru

Služby e-infrastruktury CESNET

CERIT-SC. Luděk Matyska, David Antoš, Aleš Křenek

Národní gridová infrastruktura MetaCentrum & související služby pro akademickou obec

Centrum CERIT-SC Tomáš Rebok

Gridy v České republice. Luděk Matyska Masarykova univerzita v Brně CESNET, z.s.p.o.

CERIT SCIENTIFIC CLOUD. Centrum CERIT-SC. Luděk Matyska. Praha, Seminář MetaCentra,

Výpočetní clustery v METACentru

Aktuální stav. Martin Kuba CESNET a ÚVT MU

MetaCentrum. Martin Kuba CESNET

MetaCentrum. Miroslav Ruda. Skalský Dvůr, Miroslav Ruda (MetaCentrum) MetaCentrum Skalský Dvůr, / 11

MetaCentrum - Virtualizace a její použití

MetaCentrum Aplikace a jejich další podpora

Hadoop a HDFS. Bc. Milan Nikl

Datová úložiště v MetaCentru a okolí. David Antoš

Datová úložiště v MetaCentru a okolí II. David Antoš Oddělení datových úložišť

Národní e-infrastruktura v ČR

Výběr zdrojů, zadávání a správa úloh

Výběr zdrojů, zadávání a správa úloh v MetaCentru

CESNET - Datová úložiště

Datová úložiště CESNET

Služby Národní Gridové Infrastruktury MetaCentrum & Centra CERIT-SC

Národní e-infrastruktura a její služby

MetaCentrum. Aktuální stav anové služby

Představení e-infrastruktury CESNET Ing. Jan Gruntorád, CSc. ředitel CESNET, z.s.p.o.

Czech National e-infrastructure. Projekt MetaCentrum. Jan Kmuníček CESNET. meta.cesnet.cz

Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje

Efektivní vyuºívání programových nástroj Ansys na infrastrukturách MetaCentra / CERIT-SC

Martin Kuba, Daniel Kouřil seminář řešitelů, Žďár n.s. 1

Provozní statistiky centra CERIT-SC

Služby datového centra

Odůvodnění účelnosti veřejné zakázky podle 2 vyhlášky. 2. Popis předmětu veřejné zakázky Oproti skutečnostem uvedeným v předběžném oznámení

Služby datového centra

IT4Innovations centrum excelence. Vít Vondrák & Filip Staněk VŠB-Technická univerzita v Ostravě

Novinky NGI & 10 způsobů, jak "sejmout" MetaCentrum

Využití opensource při stavbě infrastrukturního cloudu Martin Kopta

Czech National e-infrastructure. Projekt MetaCentrum. Jan Kmuníček CESNET. meta.cesnet.cz

SUPERPOČÍTAČOVÉ CENTRUM. Luděk Matyska

Aktuální stav MetaCentra, novinky

Datová úložiště CESNET

Datová úložiště CESNET. David Antoš

Jednotlivé hovory lze ukládat nekomprimované ve formátu wav. Dále pak lze ukládat hovory ve formátu mp3 s libovolným bitrate a také jako text.

Virtualizace jako nástroj snížení nákladů. Periodické opakování nákladů nové verze Licence na pevný počet klientů

CERIT-SC reloaded. už se všichni těšíme. Seminář gridového počítání,

Způsoby využití datových úložišť CESNET. David Antoš

Souborové systémy a práce s daty David Antoš

Projekt EGEE / EGI. Jan Kmuníček CESNET. Enabling Grids for E-sciencE. EGEE-III INFSO-RI

CLOUD COMPUTING PRO MALÉ A STŘEDNÍ FIRMY

Datová úložiště CESNET. David Antoš

Moderní privátní cloud pro město na platformě OpenStack a Kubernetes

Linux on Azure. Miroslav Sevelda

Praha, Martin Beran

FORPSI Cloud Computing Virtuální datacentrum v cloudu

Virtualizace MetaCentra

VÝPOČETNĚ NÁROČNÉ APLIKACE S VYUŽITÍM VIRTUALIZACE PRACOVNÍCH STANIC NA BÁZI INTEGRACE TECHNOLOGIÍ MICROSOFT VDI A SUN RAY

UAI/612 - Cloudová Řešení. Technologie

Služby (nejen) ÚVT MU (nejen) v oblasti výpočtů a práce s daty

Novinky ze sv ta grid

Od virtualizace serverů k virtualizaci desktopů. Nebo opačně? Jaroslav Prodělal, OldanyGroup VMware VCP, consultant

CESNET, GRIDy a přenosy dat

CESNET. Národní e-infrastruktura. Ing. Jan Gruntorád, CSc. ředitel CESNET, z.s.p.o.

Cloudová Řešení UAI/612

uzly. Výpočetní uzel (Working node) výkonná jednotka clusteru.

SCB Superpočítačové centrum Brno

Způsoby využití datových úložišť CESNET. Petr Benedikt

MetaCentrum a e-infrastruktura CESNET

Virtualizace síťových prvků

Cloud Slovník pojmů. J. Vrzal, verze 0.9

Cloud. historie, definice, modely a praktické využití Ing. Karel Stýblo K2 atmitec s.r.o.

Jakub Šesták. ESEJ DO PŘEDMĚTU DIGITÁLNÍ KNIHOVNY

Petrov, v. o. s. Masarykova univerzita. Inovace systému pro správu prodejních automatů

Důvěryhodná výpočetní základna v prostředí rozsáhlých IS státní správy

EU EGEE Presentace projektu

IBM Cloud computing. Petr Leština Client IT Architect. Jak postavit enterprise cloud na klíč IBM Corporation

DATOVÁ ÚLOŽIŠTĚ. David Antoš CESNET

Technické podmínky a doporučení provozu OneSoftConnect na infrastruktuře zákazníka

Národní gridová infrastruktura MetaCentrum & související služby pro akademickou obec

Příloha č. 1 zadávací dokumentace. Technická dokumentace, specifikace požadovaného plnění a popis hodnocení

Alternativy k SAP HANA appliance? Představení možnosti TDI a cloudové infrastruktury

Přechod na virtuální infrastrukturu

Historie, současnost a budoucnost sdružení CESNET. Ing. Jan Gruntorád, CSc. ředitel CESNET, z.s.p.o Praha

w w w. u l t i m u m t e c h n o l o g i e s. c z Infrastructure-as-a-Service na platformě OpenStack

Výzva na podání nabídek na veřejnou zakázku malého rozsahu

Způsoby využití datových úložišť CESNET

Představení Kerio Control

Transkript:

MetaCentrum Miroslav Ruda CESNET 2. 12. 2014

Agenda Národní gridová infrastruktura přehled služeb MetaCentra aktuální stav výpočetní grid cloudové prostředí MapReduce výpočty

Národní gridová infrastruktura Distribuované prostředí pro sdílení výpočetních zdrojů motivací je optimální využití zdrojů (nejen hardwaru) přenesení nárazové zátěže na volnější zdroje a využití jiných zdrojů při výpadku poskytnutí vlastních dočasně volných zdrojů aktuálně clustery vlastněné různými organizacemi možnost pořídit si cluster jen na standardní kapacitní požadavky spolupráce týmů z různých organizací, sdílení dat MetaCentrum součást e-infrastruktury spravované CESNETem jednotný účet, propojené služby pracuje v koordinaci s dalšími projekty IT4i a CERIT-SC přidáváme podporu zpracování rozsáhlých dat, nových typů výpočtů

MetaCentrum clustery a výkonné servery, úložné kapacity Plzeň, Praha, Brno, Ostrava, ČB aktuálně 10 000 jader, (4 000, 4 800 CERIT-SC) clustery CEITEC, ZČU, JČU, UK, MU, AV ČR, ČVUT přes 1 PB diskových prostor na zpracování dat centrální správa uzlů, účtů, úloh, aplikačního softwaru dalších 4 000 jader a 2 PB přes FZU do EGI (LHC) rozsáhlý aplikační software "placení" formou publikací s poděkováním přístup všem akademickým pracovníkům a studentům bez omezení, bez podávání projektů publikace využívány pro určení priority uživatele výpočty gridové, cloudové, MapReduce

Novinky CESNET zprovozněna třetí generace GPU clusteru 30 uzlů 2 NVIDIA Kepler K20, 100 TB home tento rok přibude 400 TB home v Brně 4 SMP servery (každý 4 8 jader, 512 GB RAM) 18 uzlů cloudu (každý 2 8 jader, 256 GB RAM) 27 uzlů Hadoop (2 8 jader, 128 GB RAM, 12 4 TB disk) příští rok - obnova HTC clusterů nympha a tarkil CERIT-SC druhý SGI UV v Brně celkem 384 jader, 6 TB RAM Připojeny clustery na FEL ČVUT, FZÚ AV ČR, uzel Elixiru na JČU

Výpočetní grid I využívá většinu zdrojů, orientace na dávkové úlohy, hromadné zpracování, dlouhé vědecké výpočty cmdline rozhraní, pro vybrané obory existují webové portály (Galaxy, Mascot) různý typ výpočetních uzlů klasické dvouprocesorové uzly orientované na HTC úlohy uzly s GPU kartami (30 uzlů, každý 2 NVIDIA Kepler K20) větší SMP uzly (4 procesory, 512 GB RAM) 2 SGI UV2 (6 TB RAM každý) vlastní vývoj a výzkum v oblastech související s infrastrukturou plánování úloh (lepší plánovače, distribuované torque světy) virtualizace integrováno do evropské infrastruktury EGI zajímavé pro skupiny s partnery v zahraničí

Výpočetní grid II podpora začlenění clusterů vlastněných jinými organizacemi začlenění do centrální správy vlastníci mají pro svoje zdroje prioritní přístup, určují na jakou část clusteru mohou ostatní uživatelé, jak dlouhé úlohy mohou použít... možnost vlastní správy skupin pro definování přístupu k frontám, datům nabízíme spolupráci při úpravách prostředí pro velké projekty příklad projekt Elixir prototyp národního uzlu budovaný na zdrojích CESNETu instalována řada softwarových balíků, přístupná všem až produkční zdroje budou požadovány z projektu Elixir projektové zajištění národní - VI CESNET, VI Elixir mezinárodní - EGI Engage, Elixir - Escensum

Výpočetní grid - software aplikační software jako další zdroj pro sdílení, centrální správu část aplikačního software dostupná pro celou ČR Matlab, gridmathematica, Maple CERIT-SC - Mathematica, Matlab DCS vývojové prostředí Intel, PGI, Totalview, Allinea Gaussian + Gaussian-Linda, Amber CERIT-SC - Turbomole + Molpro Mascot Ansys CFD (Fluent, CFX, HPC) CERIT-SC - Ansys Mechanical volně dostupný software (500, 190 upgrade) nově zejména bioinformatika

Výpočetní grid - data Souborové systémy rozdělené podle využití uložených dat lokální scratch disky pro dočasná data (HTC úlohy, <1 TB) 3 sdílený scratch filesystém, viditelný přes jeden cluster paralelní zpracování větších dat (10 TB) home v každém městě semipermanentní, zálohovaná data (100 TB) projektové adresáře semipermanentní, pro sdílení v rámci projektu zpřístupněná data ze souborových serverů vlastníka clusteru přímo přístupné souborové systémy DU zálohování, odložení aktuálně nepoužívaných dat

Výpočetní cloud - IaaS I určeno pro vědecké výpočty nebo služby související s výpočty ne pro obecné hostování webových služeb integrované s MetaCentrem, ale s přidanou přihláškou (ssh) přístup přes webové rozhraní OpenNebuly (heslo) nebo cmdline (certifikáty) pro správu virtuálních strojů ssh nebo remote desktop pro přístup do systému výpočetní uzly s možností využití vlastního systému uzly totožné s MetaCentrem pro potřeby ladění softwaru uzly dodané mezinárodní VO ve které jsou uživatelé zapojeni dodaný obraz, předinstalovaný software předinstalované obrazy se základním systémem Debian 6/7, Centos 6/7, Scientific Linux 6, MS Windows 2012 Server/2008 uzly s uživatelem připravenou instalací systému a vlastního softwaru kopie desktopu, serveru, stažený obraz

Výpočetní cloud - IaaS II webové služby pro zadání úloh, permanentní část výpočetního prostředí Galaxy portál nabízený MetaCentrem (autentizace prostředky MetaCentra, úlohy běží v gridu) platformy připravené MetaCentrem nebo jinými skupinami Hadoop přístup k persistentním datům přístup k filesystémům MetaCentra (NFS, GPFS) vlastní persistentní obraz disku, montovaný jako druhý disk objektový storage server (S3) sítě uzly mohou být uzavřené do VLAN, mít pouze privátní IP adresy VLAN umožňuje i L2 sítě, propojení do domácí sítě, zahrnutí gridových uzlů příklad: projekt Kypo

Výpočetní cloud - IaaS III evropská infrastruktura FedCloud jako součást EGI OCCI rozhraní jako sjednocující prvek OpenNebula, OpenStack, Oceanos CESNET vyvíjí rocci OpenNebula, Amazon, výhledově Azure, VMWare příklady využití BioVeL, WeNMR, DIRAC, Kypo MS Windows Peachnote, Physiome https: //wiki.egi.eu/wiki/federated_cloud_communities GUI: https://cloud.metacentrum.cz/ dokumentace http://meta.cesnet.cz/wiki/kategorie:cloudy

Map Reduce v MetaCentru nové prostředí, nabízené dočasně v cloudovém prostředí PaaS v cloudové terminologii Apache Hadoop prostředí MapReduce, YARN, Hive, Pig, HBase,... na konci tohoto roku bude provozováno na vlastním dedikovaném hardwaru 3 servery sloužící jako front-end, metadata, management 24 výpočetních serverů dual-socket, 128 GB RAM, 12 4 TB v každém uzlu celková kapacita HDFS filesystému 1 PB opět integrováno s MetaCentem přihláška, autentizace, accounting

Map Reduce motivace I MapReduce přístup publikován firmou Google (2003/2004) typ výpočtů rozpoznán jako klíčový i dalšími firmami s potřebou prohledávat velká nestrukturovaná data logy (webových) serverů textové soubory (viz náš příklad počítání slov) XML/JSON soubory, dump databáze bioinformatická data volně dostupná implementace HDFS a MapReduce pod hlavičkou organizace Apache přispívají i firmy typy Facebook, Amazon, Twitter, IBM vznikají i formy poskytující komerční podporu Cloudera, Hortonworks postupně vznikají další nadstavby (Pig, HBase, Hive, YARN)

Map Reduce motivace II motivace tradiční servery nejsou schopné zpracovat data v potřebném rozsahu posilování serverů naráží na finanční limity nedostatek paměti rychlost I/O na serveru nabízí se možnost data distribuovat přes sadu uzlů clusteru levnější, zaručí se škálovatelnost nákladů data se zpracovávají paralelně po částech potřeba koordinace, zaručení stability a konzistence při výpadku uzlu clusteru potřeba výpočetního prostředí ve kterém lze jednoduše takové úlohy zpracovávat

Map Reduce výpočty HDFS speciální filesystém pro uložení dat data jsou při uložení do Hadoop clusteru rozdělena na menší kousky, ty jsou rozhozené přes jednotlivé uzly clusteru soubory nelze jednoduše přepisovat, pouze prodlužovat při samotném výpočtu se data již nestěhují úlohy se stěhují za daty systém zaručuje, že je uloženo několik kopií každého kusu dat při výpadku uzlu sám zajistí dodělání chybějících kopií uzly mezi sebou komunikují minimálně, uživatel programuje v prostředí, kde neřeší výpadky, síťovou komunikaci... pro nalití dat do HDFS existují i specializované nástroje (Flume logy, Sqoop data z databází)

Map Reduce výpočty typická úloha se skládá z Map a Reduce fází, jazyk Java komunikace probíhá přes dvojice (klíč, hodnota) úloha pracuje nad jedním blokem dat Master úlohy koordinuje, plánuje tam kde leží zpracovávaná data, ve vlastní režii řeší výpadky apod. Mapper zpravidla čte (jméno souboru,data), produkuje seznam (klíč, hodnota) Reduce proces dostane dvojice s jemu přiřazeným klíčem (setříděné podle klíče), produkuje výsledný (klíč, hodnota) do HDFS Map(input-key,input-value) {foreach word w in input value; emit(w,1)} Reduce(key, list of value) {foreach value sum=sum+value; emit(key,value)}

Hadoop ecosystem Hive SQL-like interface pro dotazy nad Hadoop daty HBase sloupcová databáze nad HDFS (vybírá jen řádky, omezený jazyk pro dotazy, jeden klíč, vstup pro MapReduce) Flume nástroj pro průběžné produkování dat YARN Haddop 2.0, workflow z MapReduce úloh Pig skriptovací jazyk pro tranformaci velkých dat v Hadoopu A = load./input.txt ; B = foreach A generate flatten(tokenize((chararray)$0)) as word; C = group B by word; D = foreach C generate COUNT(B), group; store D into./wordcount ;

MetaCentrum Děkuji za pozornost http://www.metacentrum.cz