Část 1 ZÁKLADNÍ RYSY VÝPOČETNÍ PROSTŘEDKŮ DOSTUPNÝCH NA IT4INNOVATIONS



Podobné dokumenty
GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA

Intel (2) Intel (1) Intel (3) Intel (4) Intel (6) Intel (5) Nezřetězené zpracování instrukcí:

Úvod do GPGPU J. Sloup, I. Šimeček

Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/

Představení a srovnání grafických procesorů ATI RV770 a NVIDIA G(T)200

Charakteristika dalších verzí procesorů v PC

Architektura AMD K10. Kozelský Martin, koz230. Datum:

PŘEDSTAVENÍ GRAFICKÉHO PROCESORU NVIDIA G200

Petr Havíček HAV319. Rodina procesorů Intel Nehalem (historie a vývoj)

Principy překladačů. Architektury procesorů. Jakub Yaghob

Procesor Intel Pentium (1) Procesor Intel Pentium (3) Procesor Intel Pentium Pro (1) Procesor Intel Pentium (2)

Paralelní systémy. SIMD jeden tok instrukcí + více toků dat jedním programem je zpracováváno více různých souborů dat

Hlavní využití počítačů

GPU a CUDA. Historie GPU. Co je GPGPU? Nvidia CUDA

PROCESOR. Typy procesorů

REALIZACE SUPERPOČÍTAČE POMOCÍ GRAFICKÉ KARTY

Procesor. Procesor FPU ALU. Řadič mikrokód

PV109: Historie a vývojové trendy ve VT

Část 2 POROVNÁNÍ VÝKONNOSTI A POUŽITELNOSTI ARCHITEKTUR V TYPICKÝCH APLIKACÍCH

Paralelní a distribuované výpočty (B4B36PDV)

Charakteristika dalších verzí procesorů Pentium

CHARAKTERISTIKA MODERNÍCH PENTIÍ. Flynnova klasifikace paralelních systémů

Pokročilé architektury počítačů

Volitelný počet jader

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Jiné výpočetní platformy J. Sloup, M. Skrbek, I. Šimeček

Technické prostředky počítačové techniky

Vyuºití GPGPU pro zpracování dat z magnetické rezonance

Pokročilé architektury počítačů

Přednáška 1. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Přehled paralelních architektur. Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur

Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky. referát do předmětu: Pokročilé architektury počítačů.

Základy informatiky. 2. Přednáška HW. Lenka Carr Motyčková. February 22, 2011 Základy informatiky 2

Vícejádrový procesor. Dvě nebo více nezávislých jader Pro plné využití. podporovat multihreading

Základní deska (1) Parametry procesoru (2) Parametry procesoru (1) Označována také jako mainboard, motherboard

Architektura počítače

HAL3000 MČR Pro tak hrají skuteční profesionálové

ARCHITEKTURA PROCESORŮ

Povídání na téma. SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) Filip Staněk

Představení a vývoj architektur vektorových procesorů

Povídání na téma SUPERPOČÍTAČE DNES A ZÍTRA

ORGANIZAČNÍ A VÝPOČETNÍ TECHNIKA

Obecné výpočty na GPU v jazyce CUDA. Jiří Filipovič

GPU a CUDA. Historie GPU. Co je GPGPU? Nvidia CUDA

Úvod do architektur personálních počítačů

Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/

GPGPU Aplikace GPGPU. Obecné výpočty na grafických procesorech. Jan Vacata

Nvidia CUDA Paralelní programování na GPU

Jan Nekvapil ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Nvidia CUDA Paralelní programování na GPU

Architektura grafických ip pro Xbox 360 a PS3

Pro úlohy digitálního zpracování obrazu je příznačný velký objem dat. Doposud ani rychlé počítače s konvenční sériovou architekturou nejsou schopny

Notebooky za výhodné ceny. Počítačové sestavy s prodlouženou zárukou. Základní domácí počítač ASUS X53BR ASUS K53U.

Pokročilé architektury počítačů

5 790,- červenec ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

Paměti EEPROM (1) Paměti EEPROM (2) Paměti Flash (1) Paměti EEPROM (3) Paměti Flash (2) Paměti Flash (3)

GPGPU. Jan Faigl. Gerstnerova Laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v Praze

Intel Itanium. Referát. Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. RNDr. Jiří Barnat, Ph.D.

Multiprocesorové a multipočítačové systémy

PROCESORY. Typy procesorů

Cache paměť - mezipaměť

HW počítače co se nalézá uvnitř počítačové skříně

Složení počítače. HARDWARE -veškeré fyzicky existující technické vybavení počítače 12 -MONITOR

CUDA J. Sloup a I. Šimeček

OPS Paralelní systémy, seznam pojmů, klasifikace

Historie počítačů v kostce. Marek Kocián, KOC322 Daniel Kapča, KAP077

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

5 790,- únor ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

Pokročilá architektura počítačů

Vlastnosti mikroprocesorů Josef Horálek

Herní PC HAL3000 Artemis výkonný lovec pro nekončící zábavu

Pokročilé architektury počítačů

Grid jako superpočítač

Paralelní programování

Operační systémy. Přednáška 1: Úvod

Palit GT MB. 40nm 96 cores 512MB 128bit GDDR5 550MHz 3400MHz (1700x2) 1340MHz 54.4 (GB/Sec)

Hardware. Z čeho se skládá počítač

tímto vyzývá zájemce k podání nabídky na veřejnou zakázku

ARCHITEKTURA PROCESORŮ

Další aspekty architektur CISC a RISC Aktuálnost obsahu registru

Úvod do problematiky návrhu počítačových systémů. INP 2008 FIT VUT v Brně

Kč s DPH HAL3000 TITAN X spoutejte sílu nejvýkonnějších technologií

Roman Výtisk, VYT027

Blue Gene Vysoká škola báňská-technická univerzita Ostrava. Blue Gene. Karel Chrastina. Úvod. Blue Gene L. Blue Gene P.

Úvod do paralelních systémů

Otázka číslo 3 Hardware PC komponent

Intel Pentium D (1) Intel Pentium D (4) Intel Pentium Extreme Edition (1) Intel Pentium D (5)

Dne: Case Coolermaster minitower Elite 342, matx,black,bez zdroje 1. ARCTIC-COOLING F8, ventilátor 80mm 1

Pokročilé architektury počítačů

Cell broadband engine architecture

ARCHITEKTURA AMD PUMA

Architektura procesoru Athlon 64 X2

Dne: Case Coolermaster minitower Elite 342, matx,black,bez zdroje 1 Seasonic zdroj (Energy knight) SS-400ET 400W BRONZE80PLUS OEM 1

Dne: Case Coolermaster minitower Elite 342, matx,black,bez zdroje 1 Seasonic zdroj (Energy knight) SS-400ET 400W BRONZE80PLUS OEM 1

Intel Pentium D (1) Intel Pentium D (4) Intel Pentium Extreme Edition (1) Intel Pentium D (5)

CHARAKTERISTIKY MODELŮ PC

5 790,- prosinec ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

Karel Johanovský Michal Bílek SPŠ-JIA GRAFICKÉ KARTY

Dne: Case Coolermaster minitower Elite 342, matx,black,bez zdroje 1 Seasonic zdroj (Energy knight) SS-400ET 400W BRONZE80PLUS OEM 1

Transkript:

Část 1 ZÁKLADNÍ RYSY VÝPOČETNÍ PROSTŘEDKŮ DOSTUPNÝCH NA IT4INNOVATIONS

Maximální výkonnost CPU Maximální výkonnost CPU je dána výrazem P max =cores*k*f, kde: cores je počet jader v CPU, k je počet FP instrukcí, které mohou být provedeny v jednom taktu, f je frekvence CPU. V současnosti (jaro 2014) nejmodernější Intel CPU mají tyto parametry rovny cores=6, f=3.6 GHz, k=16 pro jednoduchou přesnost nebo 8 pro dvojitou přesnost. Takže maximální výkonnost vychází 350 Gflops pro jednoduchou přesnost a 170 Gflops pro dvojitou přesnost. 2

Maximální výkonnost GPU I Maximální výkonnost GPU je dána výrazem P max =cores*k*f, kde: cores je počet výkonných jader v GPU, k je počet FP instrukcí, které mohou být provedeny v jednom taktu, f je frekvence GPU. V současnosti (jaro 2014) nejmodernější GPU od firmy Nvidia (Geforce GTX Titan) mají tyto parametry rovny: cores= 2688, f= 837 MHz, k=2 pro jednoduchou přesnost. k=2/3 pro dvojitou přesnost. Takže maximální výkonnost vychází 4.5 Tflops pro jednoduchou přesnost(sp) a 1.5 Tflops pro dvojitou přesnost(dp) 3

Maximální výkonnost GPU II Pro výpočty v dvojité přesnosti nebyla řada Geforce (pro řadu Fermi) optimalizována nejvýkonnější GPU od firmy Nvidia řady Tesla K40 má tyto parametry rovny: cores=2880, f=0.8 GHz, k=2 pro jednoduchou přesnost. k=2/3 pro dvojitou přesnost. Takže maximální výkonnost vychází 4.3 Tflops pro SP a 1.3 Tflops pro DP. 4

Maximální výkonnost Xeon Phi I Maximální výkonnost Xeon Phi je dána výrazem P max =cores*k*f, kde: cores je počet výkonných jader v GPU, k je počet FP instrukcí, které mohou být provedeny v jednom taktu, f je frekvence GPU. Daný CPU (Xeon Phi 7120P) mají tyto parametry rovny: cores= 61, f= 1238 MHz, k=32 pro jednoduchou přesnost. k=16 pro dvojitou přesnost. Takže maximální výkonnost vychází 2.4 Tflops pro jednoduchou přesnost(sp) a 1.2 Tflops pro dvojitou přesnost(dp) 5

Srovnání rychlostí výpočtu 6

Srovnání rychlostí výpočtu CUDA training course 7

Srovnání rychlostí přenosu Xeon Phi 8

Flynova klasifikace HW Single Instruction Single Data stream (SISD) =1 procesor provádí 1 instrukční proud nad daty uloženými v 1 paměti = klasický CPU Single Instruction Multiple Data stream (SIMD) =1 instrukce je prováděna nad množinou dat množinou procesorů = vektorové a maticové počítače Multiple Instruction Single Data stream (MISD) = posloupnost dat je přenášena k množině procesorů provádějících různé instrukce=systolické pole, fault-tolerant systémy Multiple Instruction Multiple Data stream (MIMD) = množina procesorů současně provádí různé instrukce nad různými daty=multiprocesory, multipočítače, distribuované systémy

Proč jsou GPU tak rychlé? Nelze zvyšovat frekvenci procesorů kvůli přehřívání, ale lze přidávat další funkční jednotky,díky tomu se oddělily 2 vývojové linie: 1. multi-core (několik plnohodnotných jader na jednom čipu). Po této linii jdou současné CPU. 2. many-core (mnoho jednodušších jader na jednom čipu). Po této linii jdou současné GPU. Využití GPU pro negrafické účely je označováno jako GPGPU ( generalpurpose computing on graphics processing units ). ] 10

Využití křemíku

Rozdíly CPU a GPU CPU optimalizováno pro zpracování sekvenčního kódu přidání dalších jader je složité (díky 1D architektuře) hierarchie cache pamětí včetně velké L3 cache k snížení latence přístupů do paměti většina křemíku v složité řídící logice zajišťující efektivní zpracování instrukcí (v ALU) a přísun dat GPU optimalizováno pro zpracování paralelních aplikací přidání dalších jader je jednoduché (díky 2D architektuře) řídící logika a cache sdílená několika jádry malá cache, latence přístupů do paměti snížena přepínáním mezi vlákny (až 1024 u GT 200) většina křemíku je v jednotlivých ALU 12

SIMD a SIMT Moderní CPU podporují vektorové=simd instrukce (technologie MMX, SSE, AVX, ) GPU se díky velkému datovému paralelismu ve zobrazovacím řetězci vyvinuly do specializovaných SIMD procesorů, ale s tolika rozšířeními, že jsou označována jako SIMT (Single Instruction Multiple Threads). Každé vlákno má vlastní identitu to jest např. registry. SIMT je obecnější = umožňuje např. nepřímý přístup do paměti vynechání instrukce některým vláknem GPU jednotky SIMT (CUDA: warp=32, ATI: wavefront=64) jsou větší než u CPU SIMD (AVX-512 bude mít 16 položek) 13

Limit FPU a paměti Skalární součin vektoru o vel. n Načteno 2n FP čísel Výsledek 1 FP číslo Potřeba 2n FP operací Intenzita = počet FP operací / objem dat = 1 Násobení matic o vel. n Načteno 2n 2 FP čísel Výsledek n 2 FP čísel Potřeba 2n 3 FP operací Intenzita = počet FP operací / objem dat = 2n/3 14

Skalární součin CPU Teoretická maximální výkonnost FPU 350 Gflops Maximální rychlost přenosu 50 GB/s => 12,5 Gflops maximum Xeon Phi Teoretická maximální výkonnost FPU 2400 Gflops Maximální rychlost přenosu 180 GB/s => 45 Gflops maximum GPU Teoretická maximální výkonnost FPU 4500 Gflops Maximální rychlost přenosu 300 GB/s => 75 Gflops maximum 15

Násobení matic Kdy bude dosaženo 50% P_max? 2*n^3/P_max = 50% (2*n^3/P_max + 3*4*n^2/B_max) CPU 50% P_max teoreticky dosaženo pro n>42 Xeon Phi 50% P_max teoreticky dosaženo pro n>80 GPU 50% P_max teoreticky dosaženo pro n>90 Prakticky nemožno, protože při výpočtu dochází k výpadků v cache U Xeon Phi a GPU chybí připočítat režii PCIe přenosu 16

Které aplikace na GPU? Požadavky: Snadno paralelizovatelné Nezávislé výpočty bez nutnosti částé globální synchronizace Dobře se mapují na GPU výpočetní model Problémy když: Malá paměť GPU Častá a objemná komunikace s CPU Velké datové závislosti 17

MIC v superpočítačích Tianhe 2 and Titan: #1 and #2 in 2013 Tianhe 2 34/55 PFLOPS 16,000 nodes 2x Intel Xeon CPU 3x Xeon Phi 384,000 CPU cores 48,000 MICs Titan 18/27 PFLOPS 18,688 nodes 1x AMD 6200 CPU 1x Tesla K20 GPU 299,008 CPU cores 18,688 GPUs

Intel Xeon Phi První z nové rodiny Intel Many Integrated Core (Intel MIC) Architecture. 50+ jader compatibilních s Intel instrukčním souborem (61 Cores), 4 threads na jádro (244 Threads), 512 bit registry pro SIMD vektorové operace Peak performance 1TFLOPS in DP Up to 16GB GDDR5 Memory 352 GB/s peak, but ~170 GB/s measured PCIe 2.0 x16 5.0 GT/s, 16 bit 512K L2 cache na core, L1 32KB/core Up to 300W TDP (card)

Intel Xeon Phi 8 paměťových kontrolerů + High speed bi-directional ring spojující jádra paměťové moduly (obrázek z intel.com)

MIC core Downgrade na Pentium (x86 kompatibilní) In-order execution Ale: Více MC + jiný typ pamětí Neexistuje sdílená L3 cache 512bit SIMD AVX-512 like (32 vektorových registrů) Nepodporuje MMX,SSE 4 thready na vlákno (round robin) Clock speed about 1Ghz Porovnání rychlostí (single core) Vektorově: 2x performance compared to dual E5 CPUs Scalar performance is 1/10th of E5 core

Xeon Phi zrychlení

Porovnání architektur Intel i7 Xeon Phi 7120P Geforce TITAN Počet jader 8 61 2688 Složitost jader složité jednodušší velmi jednoduché Počet vláken 8 nebo 16 61 nebo 122 nebo 244 100K+ Cache L3 20MB L2 30,5MB L2 1,5MB Typ pamětí DDR4 vlastní GDDR vlastní GDDR5 Příkon 140W 300W 250W