HPC Users' Access Workshop: nový superpočítač Salomon Salomon: co je nového pro uživatele Anselmu Roman Slíva, SCS, IT4Innovations Ostrava 18.9 2015
Agenda Úvod Porovnání systémů Anselm a Salomon Datová úložiště Plánovač/PBS SGI UV2000 Identity management Webová prezentace systémů
Salomon TOP500 #40
Salomon Více výpočetních zdrojů Nové příležitosti Nové výzvy Větší komplexita Zejména pro administrátory systému
Porovnání výpočetní výkon Salomon Velký cluster Rpeak CPU Rpeak GPU Anselm Anselm Rpeak MIC 0 200 400 600 800 1000 1200 1400 1600 1800 2000 TFLOPS
Porovnání výpočetní uzly souhrn I Anselm Salomon nárůst Počet uzlů 209 1009 4.8x Počet CPU jader 3344 24304 7.2x Operační paměť 15 136 GB 132 352 GB 8.7x Akcelerační karty 27 864 32x
Porovnání výpočetní uzly souhrn II
Porovnání výpočetní uzly souhrn III Anselm Salomon nárůst Počet uzlů bez akcelerace 180 576 3.2 Počet uzlů s akcelerací 27 432 16 Počet tlustých uzlů 2 1 0.5 Počet uzlů s GPU akcelerací 23 0 - Počet uzlů s MIC akcelerací 4 432 108
Porovnání výpočetní uzly I Homogenní Výpočetní uzly bez akcelerace - CPU Výpočetní uzly s akcelerací - CPU Anselm 2x Intel Sandy Bridge, Intel Xeon E5-2665, 8-core, 2.4GHz 2x Intel Sandy Bridge, Intel Xeon E5-2470, 8-core, 2.3GHz Salomon Instruction Set Extensions AVX AVX 2.0 Výpočetní uzly bez akcelerace paměť Výpočetní uzly s akcelerací paměť 64GB, 4GB/core 96GB, 6GB/core 2x Intel Haswell, Intel Xeon E5-2680v3, 12 core, 2.5GHz 2x Intel Haswell, Intel Xeon E5-2680v3, 12 core, 2.5GHz 128GB, 5.33GB/core 128GB, 5.33GB/core
Porovnání výpočetní uzly II Výpočetní uzly s akcelerací počet akcelerátorů na uzel Chlazení výpočetních uzlů Anselm 1 2 Studenou vodou chlazené zadní dveře racků Salomon Mcell- přímé chlazení teplou vodou Perrin - Studenou vodou chlazené zadní dveře racků
Porovnání akcelerátory Anselm GPU akcelerátor NVIDIA Tesla Kepler K20 - Počet 23 0 MIC akcelerátor Intel Xeon Phi 5110P 60 cores, 8GB Počet 4 864 Salomon Intel Xeon Phi 7120P 61 cores, 16GB
Porovnání výpočetní síť Anselm Salomon Technologie Infiniband QDR 40Gb/s Infiniband FDR 56Gb/s Topologie fully non-blocking fat-tree 7D Enhanced Hypercube
Porovnání datová úložiště Výpočetní uzly lokální disk Anselm 500GB Salomon HOME 320 TiB 454 TiB SCRATCH 146 TiB 1538 TiB ne
Salomon - diskless výpočetní uzly Lokální file-systémy vše v paměti RAM /, /tmp, /lscratch, /ramdisk - tmpfs Úlohy využívající extenzivně /tmp a/nebo /lscratch mohou selhat pro nedostatek paměti. Sdílené file-systémy /home, /scratch, /apps
Datové úložiště HOME - souhrn Anselm Salomon Mounpoint /home /home Kapacita 320 TiB 454 TiB Technologie Lustre CXFS/DMF/NFS Rychlost 2GiB/s 6GB/s Design 2 MDS, 2 OSS 1 diskové pole pro OST 22 OSTs 227 2TB NL-SAS 7.2krpm disks 22 groups of 10 disks in RAID6 (8+2) 7 hot-spare disks Komplexní HSM řešení tiered storage 6 serverů 3 disková pole 370 disků pásková knihovna
Datové úložiště HOME - pojmy XFS - high-performance 64-bit journaling file system created by Silicon Graphics (SGI) in 1993 CXFS - Clustered XFS - proprietary shared disk file system designed by Silicon Graphics (SGI) DMF - Data Migration Facility, Hierarchical storage management by SGI NFS - Need for Speed Network File System
Datové úložiště HOME tiery Tier 1, 100TB 2 výkonná disková pole Tier 2 kopie 1 400TB 1 kapacitní diskové pole Tier 2 kopie 2 >600TB Pásková knihovna
Datové úložiště HOME uživatelský pohled I $ df -h /home/ Filesystem Size Used Avail Use% Mounted on home-nfs-ib.salomon.it4i.cz:/home 96T 9,1T 87T 10% /home
Datové úložiště HOME uživatelský pohled II $ ls -alh total 4,1G drwxrwxr-x 2 karel karel 90 zář 17 08:25. drwx------ 15 karel karel 4,0K zář 16 11:00.. -rw-rw-r-- 1 karel karel 20G zář 11 10:02 testfile1 -rw-rw-r-- 1 karel karel 20G zář 11 10:13 testfile2 -rw-rw-r-- 1 karel karel 2,0G zář 14 15:00 testfile3 -rw-rw-r-- 1 karel karel 2,0G zář 17 08:17 testfile4
Datové úložiště HOME uživatelský pohled III $ du -h * 0 testfile1 0 testfile2 2,0G testfile3 2,0G testfile4 $ du -h. 4,0G.
Datové úložiště HOME uživatelský pohled IV $ du -h --apparent-size * 20G testfile1 20G testfile2 2,0G testfile3 2,0G testfile4 $ du -h --apparent-size. 44G.
Datové úložiště HOME DMF pohled I $ dmls -lah total 4.0G drwxrwxr-x 2 6666 6666 90 2015-09-16 13:35 (REG). drwx------ 15 6666 6666 4.0K 2015-09-16 11:00 (REG).. -rw-rw-r-- 1 6666 6666 20G 2015-09-11 10:02 (OFL) testfile1 -rw-rw-r-- 1 6666 6666 20G 2015-09-11 10:13 (OFL) testfile2 -rw-rw-r-- 1 6666 6666 2.0G 2015-09-14 15:00 (DUL) testfile3 -rw-rw-r-- 1 6666 6666 2.0G 2015-09-16 13:33 (REG) testfile4
Datové úložiště HOME DMF pohled II $ dmdu -h * 20G testfile1 20G testfile2 2.0G testfile3 2.0G testfile4 $ dmdu -h. 44G.
Datové úložiště HOME NFS Výpočetní cluster Výpočetní uzly - NFS klienti Login uzly NFS klienti NFS server NFS server NFS server CXFS cluster/dmf
Datové úložiště HOME NFS II NFS klient NFS klient NFS server NFS server CXFS cluster/dmf
Datové úložiště HOME doporučení Nepoužívejte HOME pro data úloh Používejte SCRATCH Je rychlejší, výkonnější Je transparentnější
Datové úložiště SCRATCH- souhrn Anselm Salomon Mounpoint /scratch /scratch Kapacita 146TiB 1538 TiB Technologie Lustre Lustre Rychlost 6 GiB/s >30 GiB/s Design 2 MDS, 2 OSS 2 disková pole pro OST 10 OSTs 106 2TB NL-SAS 7.2krpm disks 10 groups of 10 disks in RAID6 (8+2) 6 hot-spare disks 2 MDS, 6 OSS 1 diskové pole pro OST 54 OSTs 540 4TB NL-SAS 7.2krpm disks 54 groups of 10 disks in RAID6 (8+2) 15 hot-spare disks 4x 400GB SSD 6Gb/s SAS disky rozšiřující cache
Datové úložiště SCRATCH- rozdělení Anselm /scratch Data se po 90 dnech nepoužívání promazávají Salomon /scratch/temp Obdoba /scratch na anselmu pro dočasná data Data se po 90 dnech nepoužívání promazávají Salomon /scratch/work Persistentní, data se nepromazávají pro pracovní data /scratch/work/user /scratch/work/project
Datové úložiště SCRATCH- kvóty Anselm /scratch Lustre kvóta Salomon /scratch Lustre kvóta Salomon /scratch/temp RobinHood kvóta Salomon /scratch/work RobinHood kvóta
Datová úložiště - brány Připravujeme protokolové brány a data movery (nejenom) pro HOME a SCRATCH scp, sftp CIFS
Zálohování I Zálohování HOME Zálohování serverů Zálohování virtuálních serverů
Zálohování II EMC Networker arcserve Unified Data Protection arcserve Backup SGI DMF a OpenVault Pásková knihovna SpetraLogic T950B 18 mechanik LTO6 1600 slotů 3PB bez komprese
Plánovač Anselm Salomon Plánovač PBS Pro PBS Pro Verze PBSPro_12.0.1.130184 PBSPro_12.2.4.142262 Stejné principy Konfigurace plánovačů je obdobná Změny reflektují zejména rozdíly v systémech (a jejich velikostech)
PBS fronty I fronta Anselm Salomon qexp ano ano qfree ano ano qprod ano ano qlong ano ano qfree ano ano qprace ano ano qfat ano ano qviz ano ano qnvidia ano ne, nemá GPU qmic ano zatím ne, nový význam qmpp - nová fronta
PBS fronty II Walltime byl zachován Priorita front je shodná Účtování využitých zdrojů je shodné* Limity, omezení na zdroje a úlohy se liší
PBS fronty III
PBS akcelerátory $ qsub -A OPEN-0-0 -q qprod \ -l select=4:accelerator=true:naccelerators=2 \./myjob
PBS nastavení procesorů Intel Turbo Boost Core enabling/disabling (experimental) Intel HyperThreading (experimental)
PBS - Job scheduling - job execution priority Job execution priority je určována shodně na obou systémech Backfilling
PBS job estimation Co je job estimation? Proč je job estimation zlo?
PBS nodes statement PBS statement nodes (qsub -l nodes=nodespec) není podporován Používejte statement select (qsub -l select= )
SGI UV2000 Fat node SMP systém s architekturou SGI cc-numa 1x UV2 Large IRU, 8 Blades, 10U 6x UV2 Blade, 2CPU, 16x DIMM slot 14x Intel Xeon E5-4627v2, 3.3GHz, 8cores Ivy Bridge Instruction Set Extensions AVX celkem 112 jader RAM 3328 GB DDR3
Identity management Jednotná správa účtů uživatelů IT4Innovations
Web interfaces system visualization Anselm https://extranet.it4i.cz/rsweb/anselm/ Salomon https://extranet.it4i.cz/rsweb/salomon/ Ganglia https://extranet.it4i.cz/ganglia/
Web interfaces Anselm visualization
Web interfaces Salomon visualization
Web interfaces visualization
Děkuji za pozornost