Novinky NGI & 10 způsobů, jak "sejmout" MetaCentrum

Podobné dokumenty
MetaCentrum. Tomáš Rebok MetaCentrum NGI, CESNET z.s.p.o. CERIT-SC, Masarykova Univerzita Olomouc,

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

Cloudy a gridy v národní einfrastruktuře

METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

Aktuality a plány virtuální organizace

MetaCentrum a náro (nejen matematické) výpočty

aktivita CESNETu společně MU, UK a ZČU sdružuje výpočetní prostředky

METACENTRUM. Miroslav Ruda CESNET. Konference CESNET, Praha

Novinky z vývoje v MetaCentru

MetaCentrum. Martin Kuba CESNET

MetaCentrum. Miroslav Ruda CESNET

METACentrum Český národní gridovýprojekt. Projekt METACentrum. Jan Kmuníček ÚVT MU & CESNET. meta.cesnet.cz

MetaCentrum. Miroslav Ruda. listopad 2013 CESNET

Výběr zdrojů, zadávání a správa úloh v MetaCentru

MetaCentrum. Martin Kuba CESNET

Datová úložiště v MetaCentru a okolí II. David Antoš Oddělení datových úložišť

Datová úložiště v MetaCentru a okolí. David Antoš

CERIT-SC reloaded. už se všichni těšíme. Seminář gridového počítání,

Výpočetní clustery v METACentru

Provozní statistiky centra CERIT-SC

Výpočetní zdroje v MetaCentru a jejich využití

METACentrum zastřešení českých gridových aktivit

Gridy v České republice. Luděk Matyska Masarykova univerzita v Brně CESNET, z.s.p.o.

CERIT SCIENTIFIC CLOUD. Centrum CERIT-SC. Luděk Matyska. Praha, Seminář MetaCentra,

Aktuální stav. Martin Kuba CESNET a ÚVT MU

Výběr zdrojů, zadávání a správa úloh

MetaCentrum - Virtualizace a její použití

MetaCentrum Aplikace a jejich další podpora

C2115 Praktický úvod do superpočítání

Efektivní vyuºívání programových nástroj Ansys na infrastrukturách MetaCentra / CERIT-SC

Aktuality a plány virtuální organizace MetaVO

Hardware - minulý rok

uzly. Výpočetní uzel (Working node) výkonná jednotka clusteru.

Centrum CERIT-SC Tomáš Rebok

Souborové systémy a práce s daty David Antoš

Služby e-infrastruktury CESNET

Aktuální stav MetaCentra, novinky

MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

Národní gridová infrastruktura MetaCentrum & související služby pro akademickou obec

MetaCentrum. Miroslav Ruda. Skalský Dvůr, Miroslav Ruda (MetaCentrum) MetaCentrum Skalský Dvůr, / 11

C2115 Praktický úvod do superpočítání

SUPERPOČÍTAČOVÉ CENTRUM. Luděk Matyska

Projekt EGEE / EGI. Jan Kmuníček CESNET. Enabling Grids for E-sciencE. EGEE-III INFSO-RI

CERIT-SC. Luděk Matyska, David Antoš, Aleš Křenek

Martin Kuba, Daniel Kouřil seminář řešitelů, Žďár n.s. 1

Paralelní výpočty na clusteru KMD

MetaCentrum. Aktuální stav anové služby

Virtualizace MetaCentra

Datová úložiště CESNET

SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ

Moderní privátní cloud pro město na platformě OpenStack a Kubernetes

Paralelní výpočty ve finančnictví

CESNET - Datová úložiště

HPC Users' Access Workshop: nový superpočítač Salomon

MetaCentrum a e-infrastruktura CESNET

TSM for Virtual Environments Data Protection for VMware v6.3. Ondřej Bláha CEE+R Tivoli Storage Team Leader. TSM architektura IBM Corporation

LINUX - INSTALACE & KONFIGURACE

Czech National e-infrastructure. Projekt MetaCentrum. Jan Kmuníček CESNET. meta.cesnet.cz

RHEV for Desktops & SPICE příklad nasazení v akademickém prostředí. Milan Zelenka, RHCE Enlogit s.r.o.

Služba ve Windows. Služba (service) je program

Konsolidace zálohování a archivace dat

Národní e-infrastruktura a její služby

Způsoby využití datových úložišť CESNET. David Antoš

Národní gridová infrastruktura MetaCentrum & související služby pro akademickou obec

EGI a česká NGI aktuální informace o stavu a plánech. Luděk Matyska CESNET, z.s.p.o. Masarykova universita

Virtualizace síťových prvků

IT4Innovations centrum excelence. Vít Vondrák & Filip Staněk VŠB-Technická univerzita v Ostravě

INSTALACE SOFTWARE A AKTIVACE PRODUKTU NÁVOD

MetaVO aneb Jak u nás v Matlabu počítati

Národní gridová infrastruktura MetaCentrum & související služby pro akademickou obec

Historie, současnost a budoucnost sdružení CESNET. Ing. Jan Gruntorád, CSc. ředitel CESNET, z.s.p.o Praha

Efektivní ochrana dat ve virtualizovaném prostředí. Marek Bradáč

C2115 Praktický úvod do superpočítání

Úvod do Linuxu. SŠSI Tábor 1

Služby Národní Gridové Infrastruktury MetaCentrum & Centra CERIT-SC

Realizace datového centra kraje Vysočina Regionální SAN kraje Vysočina

Datová úložiště CESNET. David Antoš

Prostředí pro spolupráci Multimédia

Integrace formou virtualizace

Přechod na virtuální infrastrukturu

Plánování úloh otázky a odpovědi

Integrace datových služeb vědecko-výukové skupiny

UAI/612 - Cloudová Řešení. Technologie

CHARAKTERISTIKA VEŘEJNÉ ZAKÁZKY

Aplikační programové vybavení


Technické podmínky a doporučení provozu OneSoftConnect na infrastruktuře zákazníka

Wonderware Historian 2017

Služby ÚVT pro VaV & IT pro CEITEC. David Antoš

Praha, Martin Beran

Povídání na téma SUPERPOČÍTAČE DNES A ZÍTRA

Využití opensource při stavbě infrastrukturního cloudu Martin Kopta

Datová úložiště CESNET. David Antoš

Národní centrum pro výzkum biomolekul & MetaCentrum

DOCUMENT MANAGEMENT TOOLKIT

Instalace a základní administrátorské nastavení 602LAN SUITE 5 Groupware

DATOVÁ ÚLOŽIŠTĚ CESNET

Prostředí pro spolupráci Multimédia

Odůvodnění účelnosti veřejné zakázky podle 2 vyhlášky. 2. Popis předmětu veřejné zakázky Oproti skutečnostem uvedeným v předběžném oznámení

Závěrečná zpráva projektu 475/2013 Fondu rozvoje CESNET

Transkript:

Novinky NGI & 10 způsobů, jak "sejmout" MetaCentrum (aneb jak zacházet s výpočty a daty) Tomáš Rebok MetaCentrum, CESNET z.s.p.o. CERIT-SC, Masarykova univerzita (rebok@ics.muni.cz)

MetaCentrum NGI Přístupná zaměstnancům a studentům VŠ/univerzit, AV ČR, výzkumným ústavům, atp. komerční subjekty pouze pro veřejný výzkum nabízí: výpočetní zdroje úložné kapacity aplikační programy Po registraci k dispozici zcela zdarma placení formou publikací s poděkováním http://metavo.metacentrum.cz Tomáš Rebok Seminář uživatelů NGI 30.3.2017 2

MetaCentrum & CERIT-SC Jaký je vzájemný vztah MetaCentra a CERIT-SC? MetaCentrum disponuje vlastními zdroji(cesnet) a integruje zdroje externích poskytovatelů CERIT-SC/MUNI je jedním z nich dále CEITEC/NCBR, FZU, ČVUT, JČU, ZČU, UPOL, MU, + sdílená úložiště a sdílená SW výbava Tomáš Rebok Seminář uživatelů NGI 30.3.2017 3

Novinky NGI obecná snaha infrastrukturu z pohledu uživatelů zbytečně neměnit (pokud k tomu nemáme pádné důvody) Tomáš Rebok Seminář uživatelů NGI 30.3.2017 4

Hardware a software Nový hardware nové výpočetní clustery alfrid, zubat(gpu), krux, zefron(gpu), exmag, meduseld, tarkil, upol128 (UV2000), phi (Xeon Phi), nová úložiště Nový (aktualizovaný) komerční software kompilátory (Intel, PGI), ladící nástroje(totalview, Allinea DDT) matematický SW(Matlab, Mathematica, gridmathematica) aplikační chemie (Gaussian + Gaussian Linda) materiálové simulace(ansys CFD + Mechanical, 512 jader Ansys HPC) bioinformatika(clc Genomics Workbench) Průběžné aktualizace softwarových balíků cca 350 různých aplikací viz http://meta.cesnet.cz/wiki/kategorie:aplikace aktualizace na žádost instalace nových aplikací na žádost či ve spolupráci s uživateli pomůžeme Vám s kompilací Tomáš Rebok Seminář uživatelů NGI 30.3.2017 5

Plánovací systém PBS Professional Nový plánovač (PBS Pro) náhrada doposud využívaného plánovače Torque podrobnější informace, možnosti a způsoby použití viz samostatná přednáška (D. Klusáček) postupný přechod infrastruktury na nový plánovač současné využívaní obou plánovačů dočasné nepohodlí při migraci MetaCentrum & PBS Pro přechod (téměř) dokončen čelní a výpočetní uzly přemigrovány zbývají izolované součásti (NCBR) nespočítané úlohy přemigrovány do Torque plánovače CERIT-SC nepřevoditelné úlohy komunikovány s uživateli Tomáš Rebok Seminář uživatelů NGI 30.3.2017 6

Plánovací systém PBS Proffesional CERIT-SC & PBS Pro přemigrováno několik clusterů PBS Pro: phi, ungu, urga, zebra (jen část) ostatní stále v Torque všechny zdroje dostupné přes čelní uzel zuphux.cerit-sc.cz standardní plánovač: Torque volitelný plánovač: PBS Pro dostupný po přidání modulu pbspro-client o o (module add pbspro-client) při výhradním využívání lze umístit do inicializačních skriptů Bash (bash_profile) cílový stav: plný přechod na PBS Pro Tomáš Rebok Seminář uživatelů NGI 30.3.2017 7

Akcelerátory Xeon Phi KNL phi[1-6].cerit-sc.cz nový cluster pořízený infrastrukturou CERIT-SC dostupný skrze frontu phi (PBS Pro) na čelním uzlu zuphux.cerit-sc.cz $ qsub q phi l select= nejnovější generace Xeon Phi (7210 Knights Landing) aktuálně jediná taková instalace v ČR bližší informace k výhodám a použití viz samostatná přednáška (J. Filipovič) Specialita instalace: centrální úložiště dostupná přes SCP Tomáš Rebok Seminář uživatelů NGI 30.3.2017 8

Centrální úložiště clusteru phi.cerit-sc.cz Opuštění centrálního sdílení uložišť skrze NFS tj. konceptu /storage/xxx/home/<username> technické důvody přístup k datům skrze SCP ve většině případů pouze minimální změna ve skriptech NFS sdílení (aktuální stav) SCP sdílení (phi[1-6].cerit-sc.cz) DATADIR= /storage/brno3-cerit/home/<username>/example cp R $DATADIR/mydata $SCRATCHDIR DATADIR= storage-brno3-cerit.metacentrum.cz:~/example scp R $DATADIR/mydata $SCRATCHDIR Množství datových úložišť přerůstá únosnou mez hledáme způsoby, jak práci s úložišti zpřehlednit např. jedno velké úložiště? ( object storage ) předmět intenzivního rozvoje v letošním a příštích letech Tomáš Rebok Seminář uživatelů NGI 30.3.2017 9

Novinky v cloudovém prostředí Nová verze systému OpenNebula nové uživatelské rozhraní přehlednější, větší možnosti konfigurace VM podpora security groups nově standardně uzavřena většina síťových portů stroje větší zabezpečení VM pro každou VM lze zvolit požadovaná kombinace security group otevírají požadované síťové porty o o default-permissive (téměř) vše otevřeno (původní chování) nové security groups vytvářeny na žádost nová systémová funkcionalita podpora VXLAN (moderní varianta VLAN), atp. Tomáš Rebok Seminář uživatelů NGI 30.3.2017 10

Další dílčí novinky Nová uživatelská dokumentace snaha o zpřehlednění, zaktualizování a vyčištění původní dokumentace viz https://wiki.metacentrum.cz/wiki původní stále dostupná na https://wiki.metacentrum.cz/wikiold zachováno právo editace vás uživatelů uvítáme Vaši pomoc s rozšiřováním dokumentace např. tipy a návody k aplikacím, ukázkové příklady, atp. Systémové změny plný přechod na Debian 8 mnoho neviditelných změn Tomáš Rebok Seminář uživatelů NGI 30.3.2017 11

Apache Hadoop Hadoop v MetaCentru open-source framework pro distribuované zpracování velkých objemů dat (BigData) za použití programovacího paradigma MapReduce výpočetní funkce jsou posílány k datům o (standardně data putují k výpočetním funkcím) Hadoop v MetaCentru doplněno obvyklými nadstavbami Pig, Hive, Hbase, YARN, není novinkou (dostupnost od 2015) zatím však stále relativně sporadické využití Tomáš Rebok Seminář uživatelů NGI 30.3.2017 12

Jak sejmout MetaCentrum? (aneb Jak správně zacházet s výpočty a daty) Nebojte se infrastrukturu používat pokud něco sejmete, je to naše chyba. Tomáš Rebok Seminář uživatelů NGI 30.3.2017 13

Kopírování objemných dat Nekopírujte objemnější data přes čelní uzly pomalejší kopírování zatížení čelních uzlů Data lze kopírovat přímo skrze přístupové uzly úložišť SCP, WinSCP /storage/brno2 -> storage-brno2.metacentrum.cz /storage/brno3-cerit -> storage-brno3-cerit.metacentrum.cz https://wiki.metacentrum.cz/wiki/working_with_data/dire ct_access_to_data_storages Tomáš Rebok Seminář uživatelů NGI 30.3.2017 14

Výpočty nad centrálními úložišti Nespouštějte výpočty nad daty v centrálním úložišti zejména s intenzivnějšími I/O operacemi vede k ochromení úložiště a prodloužení doby běhu úlohy Kopírujte pracovní data do scratche pozitivní vlivy: zrychlení běhu úlohy odstranění závislosti na dostupnosti centrálního úložiště postup: $ qsub l select=1:ncpus=4:scratch_local=1gb cp /storage/ /home/<username>/mydata $SCRATCHDIR/mydata cd $SCRATCHDIR <compute> cp $SCRATCHDIR/results /storage/ /home/<username>/results :scratch_shared=xgb sdílený scratch (distribuované úlohy) :scratch_ssd=xgb lokální scratch SSD disky Tomáš Rebok Seminář uživatelů NGI 30.3.2017 15

Data ve scratchích Promazávejte data po ukončených úlohách pracovní data ve scratchích obdobou pracovních dat v paměti po korektním ukončení úlohy by měla být odmazána scratche automatizovaně promazávány avšak většinou až 2 týdny po ukončení úlohy Promazávání scratchů v úlohách utilita clean_scratch postup: trap clean_scratch TERM EXIT cp results /storage/ export CLEAN_SCRATCH=false při nedostupnosti centrálního úložiště (selhání vykopírování výsledků) data ponechá ve scratchi o informuje o korektním promazání scratche či ponechání dat o informuje o nepromazaných scratchích z jiných úloh (na daném uzlu) Tomáš Rebok Seminář uživatelů NGI 30.3.2017 16

Nadužívání místa na úložištích Centrální (pracovní) úložiště nejsou nekonečná /storage/<město> Promazávejte/odsunujte nepotřebná data možnosti: odmazání nepotřebných dat odsun aktuálně nepotřebných dat do archivních úložišť viz https://wiki.metacentrum.cz/wiki/archival_data_handling Tomáš Rebok Seminář uživatelů NGI 30.3.2017 17

Velké výstupy úloh a zápisy do /tmp Výpočetní uzly mají omezené kvóty (1GB) pro zápis na lokální disky (mimo scratche) vliv na zápisy aplikací do /tmp(dočasné pracovní soubory) vliv na objemné výstupy úloh (stdout, stderr) Přesměrovávejte objemnější výstupy do scratche přesměrování dočasného úložiště pracovních souborů mnoho aplikací reflektuje systémovou proměnnou TMPDIR nastavení: export TMPDIR=$SCRATCHDIR přesměrování standardního a chybového výstupu myapp 1>$SCRATCHDIR/stdout 2>$SCRATCHDIR/stderr zjištění stavu lokální uživatelské kvóty a zabírajících souborů (prvotní informace emailem) utilita $ check-local-quota spuštěno na předmětném uzlu Tomáš Rebok Seminář uživatelů NGI 30.3.2017 18

Neefektivní výpočty Zajímejte se o efektivitu Vašich úloh požadavek na více jader nepromění jednoprocesorový/ sériový výpočet na paralelní(= nedojde ke zrychlení) využíváno bude stále jediné CPU mnoho aplikací mění počet využívaných jader v průběhu výpočtu větší počet jader může být využíván jen po krátkou dobu běhu aplikace Sledování využití (nejen) CPU úlohou: v průběhu běhu úlohy: na výpočetním uzlu (SSH) s využitím standardních nástrojů (top, htop, ) po ukončení úlohy: na portále v přehledu úloh červené podbarvení neefektivních úloh Tomáš Rebok Seminář uživatelů NGI 30.3.2017 19

Infiniband Distribuované úlohy mohou být neefektivní kvůli pomalému komunikačnímu kanálu komunikace skrze standardní síťové propojení (Ethernet) je pomalá Infiniband specializované nízkolatenční propojení pro podporu rychlé komunikace distribuovaných úloh Mnohé clustery NGI jsou vybaveny Infinibandem výrazně urychluje běh distribuovaných (MPI) úloh dostupnost detekována automaticky vždy identické spuštění: mpirun myapp v případě nedostupnosti je využit Ethernet požadavek: $ qsub l select= l place=group=infiniband script.sh Tomáš Rebok Seminář uživatelů NGI 30.3.2017 20

Mnoho krátkých úloh Seskupujte příliš krátké úlohy např. v délce do jednotek minut režie spuštění tvoří netriviální podíl doby běhu neefektivní využití zdrojů V jedné úloze spusťte více instancí výpočtu možnosti realizace: sériové spuštění instancí v rámci běhu jedné úlohy process data1 process data2 paralelní spuštění instancí v rámci běhu jedné úlohy (nezbytná alokace dostatku CPU) o pbsdsh o parallel Tomáš Rebok Seminář uživatelů NGI 30.3.2017 21

Výpočty na čelních uzlech Nepočítejte na čelních uzlech ať už pro výpočty nebo složitější analýzu výsledků výrazné omezení přístupového uzlu (mnohdy vedoucí až k pádu) primárním posláním je příprava úloh a jednoduché/ krátkodobé operace Využívejte interaktivní úlohy požadavek: $ qsub I l select= možnosti práce: textový režim grafický režim VNC přístup $ module add gui $ gui start o viz https://wiki.metacentrum.cz/wiki/remote_desktop Tomáš Rebok Seminář uživatelů NGI 30.3.2017 22

Interaktivní úlohy Minimalizujte prodlevy v interaktivních úlohách zejména čas mezi spuštěním úlohy a počátkem Vaší práce (spuštěním výpočtu) -> neefektivní využívání zdrojů Nechte se informovat o spuštění úlohy požadavek: $ qsub m ab I l select= zašle Vám email při spuštění úlohy o ( -m abe i při jejím ukončení) přepínač lze využít i při dávkových úlohách pozor při spouštění většího množství úloh! zahlcení Vaší schránky blacklist mailového serveru Tomáš Rebok Seminář uživatelů NGI 30.3.2017 23

Cloudové stroje Udržujte si přehled o Vámi spuštěných virtuálních strojích i Vámi nevyužívaný stroj využívá zdroje infrastruktury -> plýtvání zdroji, které může efektivněji využít někdo jiný Ukončujte/suspendujte nepoužívané VM připravujeme nasazení systému, který Vám bude běžící VM pravidelně (cca každé 3 měsíce) připomínat a v případě nereakce (= aktivního prodloužení) tyto suspenduje Tomáš Rebok Seminář uživatelů NGI 30.3.2017 24

Závěrem Nebojte se zeptat, rádi Vám poradíme! v případě problémů prvně zkuste vlastní analýzu náhled do dokumentace programu náhled do dokumentace MetaCentra může mj. obsahovat i tipy na efektivní spouštění aplikací (např. distribuované výpočty v Gaussian, Matlab, Mathematica, aj.), požadavky na licence, náhled do aktualit/novinek MetaCentra pokud potřebujete poradit (s problémem či využitím infrastruktury), pište na meta@cesnet.cz nebo support@cerit-sc.cz Váš požadavek založí ticket v ticketovacím systému rozeslán všem relevantním lidem, umožňuje sledování historie vyřízení požadavku doporučení: vždy odpovídejte na daný ticket (přes uvedenou hromadnou adresu) nepište konkrétním osobám pro nové problémy nepoužívejte staré tickety vždy založte nový (tj. pište nový email) Tomáš Rebok Seminář uživatelů NGI 30.3.2017 25

Tomáš Rebok rebok@ics.muni.cz