Technická specifikace V následujícím textu se pd pjmem CPU či prcesr rzumí fyzický čip, který je umístěn d patice na základní desce pčítače a bsahuje zpravidla více výpčetních jader. 1. Všebecné pžadavky na hardware a jeh ddání Celý systém je kncipván jak náhrada části výpčetníh clusteru, který je na pracvišti zadavatele již něklik let prvzván. Stávající i nvé servery budu ve splečné správě jedinéh úlhvéh systému a přístupné z jednh management systému. Oba tyt systémy jsu sučástí pptávanéh řešení Server specifikace C je určen pr výuku a testvání výpčtů s využitím hybridní paralelizace na CPU a GPU. Na našem pracvišti máme něklikaleté zkušensti s technlgií NVIDIA CUDA, a prt pžadujeme, aby tut technlgii pužitá GPU karta nativně pdprvala a byla pr ni certifikvána. všechny servery musí být d stejnéh výrbce a mít ttžný typ management rzhraní minimální celkvý pčet ndů ddaných v serverech specifikace A a B je 7, minimální pčet serverů typu B je 5 a minimální pčet serveru typu 1 server typu C a D je 1 výpčetní servery všech specifikací musí být kmpatibilní s peračním systémem Debian všechny servery musí mít IPMI 2.0 kmpatibilní management tent musí plně splupracvat s ddaným centrálním management systémem. Management musí mít pdpru syslg, přepsílání událstí pmcí emailů, pdpru LDAP, update firmware, event lg, SOL, CIM. Minimálně pr server typ D musí též bsahvat vzdálenu graficku knzli. ddávka dále musí bsahvat: min. 1 x Infiniband managed switch s minimálně 36 prty v prvedení d 19 racku, airflw rearfrnt, min. pdprvaná rychlst infinibandu rychlst 56Gbit. Ddaný pčet switchů musí umžnit připjit až 36 ndů pmcí nn-blcking architektury bez nutnsti přizvat v buducnu další switche. Max. velikst switche je 1U Ethernet LAN switch. Prvedení rackmunt, Max. velikst switche je 1U.Tent switch musí mít minimálně 4 x 10Gbit SFP+ prt, min. 48 x 10/100/1000 Mb Ethernet RJ45 prt, prt pr management (RJ45 a RS-232), USB prt. Dále musí mít min. prpustnst 176Gbps a mít maximální meziprtvu latenci 3,3 mikrsekund. Pžadvaná vlastnsti: IEEE 802.1D STP IEEE 802.1s Multiple STP (MSTP) IEEE 802.1w Rapid STP (RSTPT Per-VLAN Rapid STP (PVRST) Layer 2 Trunk failver VLAN supprt Prt-based and prtcl-based VLANs Min. 4095 VLANs 802.1Q VLAN tagging na všech prtech veškerá kabeláž nutná k prvzu systému (LAN, Infiniband, napájecí kabely atd.) veškeré nutné kmpnenty pr instalaci systému d stávajícíh 19 racku a připjení d stávajících PDU a UPS 1
1.1. Specifikace jedntlivých typů výpčetních serverů 1.1.1. Šasi pr výpčetní servery prvedení rackmunt, mntvatelné d stávajícíh racku zadavatele pčet ddaných šasi musí být dstatečný, aby byl mžné sadit všechny ddané blade servery a zbýval 10 prcent celkvéh pčtu pzic vlných pr další případné rzšíření výpčetní servery jsu ve frmě blade serverů instalvatelných d tht šasi, výměna a instalace ndů bez nutnsti pužití nástrjů (simple swap) min. densita šasi je 2 x server typu A na 1U výšky, mžnst min. density až 72 serverů typu A d 42U racku min. densita CPU = 4 x CPU scket na 1U výšky, min. densita GPU = 4 x PCIe x16 slt pr sazení GPU na 1U výšky max. výška šasi je 6U, minimální pčet výpčetních ndů typu A v jednm šasi je 10 mžnst sadit šasi výpčetními servery typu A, B i C v libvlné kmbinaci redundantní napájení, mžnst n+1 a n+n redundance. Osazení maximálníh pčtu napájecích mdulů (min. 4x), certifikace napájecích mdulů min. 80 Plus platinum napájecí mduly připjené d PDU / UPS pmcí standardních C13/C14 kabelů redundantní chlazení, sazený max. mžný pčet chladicích mdulů všechny výpčetní ndy (typ A,B,C) musí mít stejný management, stejné sazení CPU, stejné sazení RAM (DIMM mduly, jejich typ a pčet) a musí mít mžnst rzšířit je v buducnu sazením na minimálně 3 x GPU karet (tedy mžnst rzšíření minimálně na 3 x PCIe x16 slt pr GPU) Celé řešení musí být instalvatelné d stávajících PDU zadavatele 1.1.2. Výpčetní server A minimální pžadvaná knfigurace: prvedení blade server, kmpatibilní s nabízeným šasi CPU: x86 kmpatibilní pčet CPU min. 2 sckety, bsazen 2 x prcesr každý CPU min. 12 fyzických jader nminální frekvenci nejméně 2,2 GHz a min. výknu SPEC CINT2006 Rates 1050 bdů a CFP2006 Rates 829 bdů (result), výkn bude deklarván pmcí výpisu ze SPEC.rg pr daný knkrétně nabízený strj velikst RAM min. 5GB na jedn fyzické jádr, sazen min. 1 x DIMM na jeden pamětvý kanál, rzšiřítelnst na min. trjnásbek veliksti instalvané RAM bez nutnsti výměny sazených mdulů. Při rzšíření nesmí djít ke snížení frekvence pamětí pd 2400 MHz. HDD: min. 2 x HDD 2,5/3,5 šachta, sazení min. 1 x 1TB HDD, min. 7200 táček minimálně 1 x FDR10 Infiniband rzhraní, sazené v min. PCIe 16x sltu 2
min. 1 x PCIe x 16 slt pr další rzšíření (mžnst přidat další adaptery typu infiniband FDR neb 10Gbit, prvedení single i dualprt) 1.1.3. Výpčetní server B minimální pžadvaná knfigurace: prvedení blade server, kmpatibilní s nabízeným šasi CPU: x86 kmpatibilní pčet CPU min. 2 sckety, bsazen 2 x prcesr každý CPU min. 12 fyzických jader nminální frekvenci nejméně 2,2 GHz a min. výknu SPEC CINT2006 Rates 1050 bdů a CFP2006 Rates 829 bdů (result), výkn bude deklarván pmcí výpisu ze SPEC.rg pr daný knkrétně nabízený strj velikst RAM min. 5GB na jedn fyzické jádr, sazen min. 1 x DIMM na jeden paměťvý kanál, rzšiřitelnst na min. trjnásbek veliksti instalvané RAM bez nutnsti výměny sazených mdulů. Při rzšíření nesmí djít ke snížení frekvence pamětí pd 2400 MHz. HDD: min. 2 x HDD 2,5/3,5 šachta, sazení min. 2 x SSD, min. 900 GB kapacity každý, min. parametry SSD: DWPD = 0,8 ; 520MBps sekvenční čtení / 475 MBps sekvenční zápis (128k blk). Oba disky budu v RAID1. sazen HW RAID řadič s pdpru min. RAID 1,0 minimálně 1 x FDR10 Infiniband rzhraní, sazené v min. PCIe 16x sltu min. 1 x PCIe x 16 slt pr další rzšíření (mžnst přidat další adaptery typu infiniband FDR neb 10Gbit, prvedení single i dualprt) 1.1.4. Výpčetní server C pr GPGPU s následující minimální knfigurací: CPU: x86 kmpatibilní pčet CPU min. 2 sckety, bsazen 2 x prcesr každý CPU min. 12 fyzických jader nminální frekvenci nejméně 2,2 GHz a min. výknu SPEC CINT2006 Rates 1050 bdů a CFP2006 Rates 829 bdů (result), výkn bude deklarván pmcí výpisu ze SPEC.rg pr daný knkrétně nabízený strj velikst RAM min. 5GB na jedn fyzické jádr, sazen min. 1 x DIMM na jeden paměťvý kanál, rzšiřitelnst na min. trjnásbek veliksti instalvané RAM bez nutnsti výměny sazených mdulů. Při rzšíření nesmí djít ke snížení frekvence pamětí pd 2400 MHz. HDD: min. 2 x HDD 2,5/3,5 šachta, sazení min. 1 x 1TB HDD, min. 7200 táček minimálně 1 x FDR10 Infiniband rzhraní, sazené v min. PCIe 16x sltu 3
min. 2x PCI-E 3.0 x16 slt pr sazení GPU typu Nvidia a Xen Phi Nd bude sazen 2 x GPU. Každé GPU bude Cuda kmpatibilní, mít RAM veliksti min. 12GB DDR5, 2880 CUDA cres, prpustnst paměti min. 288 GBps a výknu min. 1,43 TF v dubleprecisin a 4,29 v singleprecisin (bez GPU bstu) na jeden GPU čip. Maximální TDP je 235W per jedn GPU min. 1 x PCIe x 16 slt pr další rzšíření (mžnst přidat další adaptery typu infiniband FDR neb 10Gbit, prvedení single i dualprt) 1.1.5. Management nde typ D prvedení rackmunt frmát max. 2U výšky CPU: x86 kmpatibilní pčet CPU min. 2 sckety, bsazen 2 x prcesr každý CPU min. 12 fyzických jader nminální frekvenci nejméně 2,2 GHz a min. výknu SPEC CINT2006 Rates 1050 bdů a CFP2006 Rates 829 bdů (result), výkn bude deklarván pmcí výpisu ze SPEC.rg pr daný knkrétně nabízený strj velikst RAM min. 5GB na jedn fyzické jádr, sazen min. 1 x DIMM na jeden paměťvý kanál, rzšiřitelnst na min. trjnásbek veliksti instalvané RAM bez nutnsti výměny sazených mdulů. Při rzšíření nesmí djít ke snížení frekvence pamětí pd 2400 MHz. HDD: min. 14 x HS HDD 2,5/3,5 šachta min. 2 x 10Gbit (SFP+) LAN pr prdukční sít 1 x FDR10 Infiniband rzhraní, sazené v min. PCIe 16x sltu diskvá kapacita pčet vlných htspwat šachet pr další rzšíření minimálně 2 sazená diskvá kapacita, vše htswap 2, 5/3,5 palce: min. 2 x SSD, min. 120GB každý, RAID1 pr OS Min. 2 x SSD, min. 900 GB každý, RAID 1 pr data Min. 8 x HDD. celkvá kapacita min. 20TB nett RAI6 + 1 x spare disk HW RAID řadič s pdpru 1,0,10,5,6 a s min. 1GB flash cache. redundantní napájení 4
2. Pžadavky na sftware a jeh ddání 2.1. Sftware pr management clusteru Cluster musí pskytvat vzdálený bt výpčetních serverů z centrálníh úlžiště btvacích brazů. Systém musí pskytvat správu, vytváření, mdifikaci a dstraňvání btvacích brazů (image). Centrální úlžiště btvacích brazů musí umžnit ukládat btvací brazy celkvé veliksti minimálně 1 TB. Cluster musí pskytvat efektivní centralizvanu vzdálenu správu výpčetních serverů, a t jak jedntlivě (jeden server) tak hrmadně (p skupinách serverů neb všechny servery). Systém musí pskytvat zejména vzdálené vyknávání příkazů, přens, mdifikaci a dstraňvání subrů, prvnávání výstupu příkazů a prvnávání návratvých hdnt příkazů. Systém musí umžňvat paralelní vyknávaní akcí. Vzdálená správa musí efektivně pracvat i v případech, kdy některé spravvané servery nekmunikují aneb nepracují krektně, musí identifikvat chyby vyknávaných akcií a znamvat je. Cluster musí pskytvat nástrje pr správu uživatelů - vytváření, rušení, mdifikaci uživatelů, začleněni d skupin, nastavvání hesla, blkvání účtu, atd. Operační systém využívaný všemi uzly clusteru musí být vzhledem k již existujícím prstředím a nástrjům pstaven na Linux OS kmpatibilním s distribucí Debian. Cluster musí bsahvat nástrj pr pětvnu a zejména autmatizvanu inicializaci služeb (výše uvedených) v případě havárie a nutné reinstalaci OS. Cluster musí bsahvat všechny ptřebné vladače k ddaným zařízením a nutné úpravy systému zajišťující kmpatibilitu s těmit zařízeními. 2.2. Mnitring Řešení musí bsahvat centralizvanu vzdálenu správu a mnitring všech hardvérvých zařízení (servery, šasi, switche, atd.) pskytující knfiguraci a vládání zařízení, detekci závažných stavů a událstí a jejich znamvání předky elektrnické kmunikace. Řešení musí bsahvat mnitring systémů, stavů a prvzních parametrů, úlh, licencí, atd. Mnitring musí pskytvat aktuální i histrické hdnty sledvaných parametrů a jejich prezentaci v grafické pdbě. Sledvané parametry musí být v takvém rzsahu a detailu, aby pskytvaly dstatečné infrmace clusteru a jeh využití pr účely dhledu, reprtingu, ptimalizace využití, hledání úzkých míst, diagnstiky, řešení prblémů apd. Sledvané parametry musí zahrnvat: funkčnst a dstupnst klíčvých služeb clusteru síťvu dstupnst, vlnu dstupnu kapacitu datvých úlžišť a subrvých systémů serverů detailní výknvé a prvzní parametry systémů (např. využití CPU, využití RAM, přensvé rychlsti, pčty perací diskvých úlžišť, disků, subrvých systémů a sítí, pčet úlh, atd.). Detailními parametry rzumíme parametry, které pdrbně reprezentují charakteristiky prvzu, rychlsti, využití, atd. knkrétníh systému; pr ilustraci využití prcesru je mžn reprezentvat např. parametry jak celkvé využití prcesru, celkvé využití jádra prcesru, stavy system, user, iwait a idle prcesru či jádra prcesru, atd. 5
Systém mnitringu musí uchvávat a být schpný reprezentvat hdnty sledvaných parametrů p dbu minimálně 3 měsíců. Systém mnitringu musí být rzšířitelný sledvaní dalších zadavatelem definvaných parametrů, jenž mnitrvací systém pdpruje. Systémy clusteru musí zaznamenávat a uchvávat záznamy aktivitách, činnstech, změnách stavu, událstech apd. (lgy) p dbu minimálně 3 měsíců. Záznamy musí bsahvat časvé razítk, identifikaci systému, služby, uživatelů a identifikaci a / neb ppis událsti. Sučástí ddávky musí být systém analýzy lgů, který vyhdncuje záznamy a infrmuje správce kritických a závažných událstech a umžňuje vybírat záznamy pdle uživatelsky definvaných pravidel. 2.3. Plánvač úlh Cluster musí bsahvat službu plánvacíh nástrje pr řazení jedntlivých úlh s mžnstí knfigurace frnt s různu priritu a zajišťující autmatizvanu utilizaci jedntlivých uzlů v závislsti na nárčnsti a typu pčítané úlhy. Je pžadván pkrčilý plánvač úlh a správce zdrjů. Plánvač musí: efektivně využívat dstupné výpčetní zdrje, zhledňvat specifické vlastnsti výpčetních serverů, pdprvat běh dávkvých i interaktivních úlh, pdprvat pririty úlh, pdprvat závislsti úlh, zhledňvat aktuální dstupnst zdrjů, musí umžnit běh úlh, které vyžadují většinu zdrjů a jejichž vyknání by za nrmálních pdmínek zamezily úlhy s menšími pžadavky (resurce reservatin), efektivně využívat i zarezervvané, ale nepužívané zdrje (backfilling), umžňvat výhradní / exkluzívní pužívání výpčetních zdrjů, umžňvat spuštění akcí před a p vyknaní úlhy (prlg, epilg), umžňvat zjištění aktuálníh stavy výpčetních úlh, umžňvat elektrnické znamvání událstí (start úlhy, uknčení běhu úlhy apd.) Uživatelům umžňvat: zadávat úlhy a sledvat jejich stav, vrátit výstup úlh Operátrům umžňvat: zbrazit stav všech úlh, zbrazit stav frnt Plánvače, zbrazit detailní stavy jedntlivých úlh, přerušit úlhu a znvu spustit přerušenu úlhu (pakliže t úlha pdpruje - checkpinting). Plánvač musí zabezpečit: mezení pčtu sučasně běžících úlh uživatele, mezení pčtu sučasně běžících úlh skupiny uživatelů, mezení maximální délky běhu úlhy, přístup na výpčetní zdrje puze právněným uživatelům (ACL). Plánvač musí pskytvat řádkvé (CLI) rzhraní a prgramvé rzhraní (API) běžně pužívanéh prgramvacíh jazyka. Licence Plánvače musí pkrývat všechny ddané výpčetní a řídící uzly. 6