GPGPU Aplikace GPGPU. Obecné výpočty na grafických procesorech. Jan Vacata

Podobné dokumenty
Vyuºití GPGPU pro zpracování dat z magnetické rezonance

GPGPU. Jan Faigl. Gerstnerova Laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v Praze

Nvidia CUDA Paralelní programování na GPU

Obecné výpočty na GPU v jazyce CUDA. Jiří Filipovič

Úvod do GPGPU J. Sloup, I. Šimeček

Část 2 POROVNÁNÍ VÝKONNOSTI A POUŽITELNOSTI ARCHITEKTUR V TYPICKÝCH APLIKACÍCH

GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA

SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ

Pokročilé architektury počítačů

Virtualizace. Lukáš Krahulec, KRA556

Nvidia CUDA Paralelní programování na GPU

stránkách přednášejícího.

Co je grafický akcelerátor

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

Paralelní výpočty ve finančnictví

Připomenutí co je to soustava lineárních rovnic

Úvod do přesnosti MKP, generace sítí a metod řešení soustav lineárních rovnic

Co je obsahem numerických metod?

Hlavní využití počítačů

CUDA J. Sloup a I. Šimeček

Povídání na téma SUPERPOČÍTAČE DNES A ZÍTRA

Pokročilé architektury počítačů

GPU a CUDA. Historie GPU. Co je GPGPU? Nvidia CUDA

GPU a CUDA. Historie GPU. Co je GPGPU? Nvidia CUDA

2.8 Procesory. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu

5 790,- únor ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

5 990,- leden ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

5 790,- prosinec ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

Pokročilé architektury počítačů

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

REALIZACE SUPERPOČÍTAČE POMOCÍ GRAFICKÉ KARTY

Úlohy nejmenších čtverců

AKČNÍ NABÍDKA BAREVNÝCH NOTEBOOKŮ

Základní spádové metody

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Soustavy lineárních rovnic-numerické řešení. October 2, 2008

Pokročilá architektura počítačů

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Přehled paralelních architektur. Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur

Masivně paralelní zpracování obrazu v prostředí systému VisionLab Liberec Roman Cagaš, rc@mii.cz

GPU Computing.

Pokročilé architektury počítačů

architektura mostů severní / jižní most (angl. north / south bridge) 1. Čipové sady s architekturou severního / jižního mostu

Závěrečná zpráva projektu Experimentální výpočetní grid pro numerickou lineární algebru

Aplikace metody BDDC

5 990,- květen , ,- ceník. HCOMP AMD 4000 Trinity. Záruka 2 roky možnost splátek. Doporučený software. Cena s DPH.

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

HP EliteBook 8440p. Záruka: 12 měsíců Cena: 5 690,- kč s DPH

Arnoldiho a Lanczosova metoda

Metoda sdružených gradientů

Základy informatiky. 2. Přednáška HW. Lenka Carr Motyčková. February 22, 2011 Základy informatiky 2

Aplikovaná numerická matematika - ANM

Implementace numerických metod v jazyce C a Python

Numerické metody a programování. Lekce 4

Grafické karty s podporou DirectX 11 Quynh Trang Dao Dao007

Notebooky za výhodné ceny. Počítačové sestavy s prodlouženou zárukou. Základní domácí počítač ASUS X53BR ASUS K53U.

5 990,- září ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

GPU jako levný výpočetní akcelerátor pro obrazovou JPEG2000 kompresi. ORS 2011 Karviná,

Grafické karty. Autor: Kulhánek Zdeněk

Stavba operačního systému

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

5 990,- listopad ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

ZÁKLADNÍ DESKA ASUS PRIME X370-PRO ZÁKLADNÍ DESKA, AMD X370, AM4, 4X DIMM DDR4, 1X M.2, ATX

Volitelný počet jader

České vysoké učení technické v Praze Fakulta jaderná a fyzikálně inženýrská OKRUHY. ke státním závěrečným zkouškám BAKALÁŘSKÉ STUDIUM

Návrhy elektromagnetických zení

1 0 0 u 22 u 23 l 31. l u11

Soustavy lineárních rovnic-numerické řešení

Procesor Intel Pentium (1) Procesor Intel Pentium (3) Procesor Intel Pentium Pro (1) Procesor Intel Pentium (2)

Ro R dina procesor pr ů Int In e t l Nehalem Šmída Mojmír, SMI108 PAP PA 2009

Základní deska (1) Parametry procesoru (2) Parametry procesoru (1) Označována také jako mainboard, motherboard

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

AKČNÍ NABÍDKA BAREVNÝCH NOTEBOOKŮ - 15,6"

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Vlastnosti produktu. Seznamte se s novým šampionem na poli stolních počítačů

PROCESOR. Typy procesorů

Nelineární optimalizace a numerické metody (MI NON)

Základní pojmy informačních technologií

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. RNDr. Jiří Barnat, Ph.D.

Paralelní a distribuované výpočty (B4B36PDV)

AKCELERACE EVOLUCE PRAVIDEL CELULÁRNÍCH AUTOMATŮ NA GPU

Zobrazovací a zvuková soustava počítače

Informatika teorie. Vladimír Hradecký

Geekovo Minimum. Počítačové Grafiky. Nadpis 1 Nadpis 2 Nadpis 3. Božetěchova 2, Brno

Algoritmus pro hledání vlastních čísel kvaternionových matic

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/

Přednáška. Vstup/Výstup. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Program SMP pro kombinované studium

Hardware. Příklad převodu čísla: =1*32+0*16+0*8+1*4+0*2+1*1= Převod z dvojkové na desítkovou Sčítání ve dvojkové soustavě

Povídání na téma. SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) Filip Staněk

4. Trojúhelníkový rozklad p. 1/20

Knihovny pro CUDA J. Sloup a I. Šimeček

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Numerická matematika 1

Jiné výpočetní platformy J. Sloup, M. Skrbek, I. Šimeček

5 990,- prosinec , ,- ceník. HCOMP AMD 4000 Trinity. Záruka 2 roky možnost splátek. Doporučený software. Cena s DPH.

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

5 590,- říjen ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: Nová nižší cena!

Transkript:

Obecné výpočty na grafických procesorech

Motivace Úvod Motivace Technologie 3 GHz Intel Core 2 Extreme QX9650 Výkon: 96 GFLOPS Propustnost paměti: 21 GB/s Orientační cena: 1300 USD NVIDIA GeForce 9800 GX2 Výkon: 768 GFLOPS Propustnost paměti: 128 GB/s Orientační cena: 600 USD Obrázek: Sledování změn výkonu

Motivace - pokračování Úvod Motivace Technologie Proč jsou GPU tak rychlé? 1 Technologický důvod: Specializace GPU pro rychlé provádění nezávislých paralelních výpočtů 2 Ekonomický důvod: Obrovský trh s počítačovými hrami Podrobněji: Propustnost paměti Široká paměťová směrnice pro rychlé čtení z textur (384 bitů u G80) Vícejádrové procesory - budoucnost paralelních výpočtů Nejnovější CPU (AMD, Intel) 8 jader GPU NVidia G92 128 ( 2) jader GPU AMD RV670 320 ( 2) jader

Tradiční Moderní, NVIDIA CUDA General Purpose Computation on GPUs () Nevýhody tradičního : Nepřirozený programovací model, obtížné pro vývojáře neznalé principů zpracování 3D grafiky Další nevýhody spojené s využitím grafického API Obrázek: Tradiční

NVIDIA CUDA Úvod Tradiční Moderní, NVIDIA CUDA NVIDIA CUDA (z angl. Compute Unified Device Architecture) Kombinace SW/HW řešení (Změny v HW, ovladač grafické karty, runtime knihovna) GPU jako jistá forma architektury se sdílenou pamětí GPU jako koprocesor pro provádění nezávislých, datově paralelních výpočtů Snadno uchopitelný programovací model, naprosté odstínění od grafických pojmů Očekávaná podpora aritmetiky fp64 (double)

Řešení soustav lineárních algebraických rovnic Ax = b, A R n,n regulární, x R n, b R n Nejznámější zástupci nestacionárních iteračních metod Hledáme aproximaci přesného řešení x v prostoru K m (A, r 0 ) = [r 0, Ar 0, A 2 r 0,..., A m 1 r 0 ] λ, r 0 = b Ax 0 Metodám společné 1 Nalezení ortonornální báze K m(a, r 0) = [v 1,..., v m] λ, V T m V m = I 2 Hledání aproximace ve tvaru x m = x 0 + V my m

- pokračování Konkrétní metody: Metoda Konjugovaných gradientů (CG) r m = b Ax m K m (A, r 0 ) Minimalizuje x x m A = (A(x x m ), x x m ) 1 2 Metoda Zobecněných minimálních reziduí (GMRES) r m = b Ax m AK m (A, r 0 ) Minimalizuje b Ax m 2

Typy a struktura operací (CG, GMRES) Operace Saxpy y = αx + y x, y R n, α R Sdot α = (x, y) x, y R n, α R SpMV y = Ax x, y R n, A R n,n Struktura operací Metoda Sdot Saxpy SpMV Předpodmínění CG 2 3 1 1 GMRES i + 1 i + 1 1 1

Měření operací Saxpy/Sdot Optimalizované funkce knihovny MKL na straně hostitele Optimalizované funkce knihovny CUBLAS Uživatelská implementace (CUDA) 80 70 CPU MKL GPU User Kernel GPU CUBLAS 80 70 CPU MKL GPU User Kernel GPU CUBLAS 60 60 50 50 GB/s 40 GB/s 40 30 30 20 20 10 10 0 0 1 2 3 4 5 6 7 8 9 0 0 1 2 3 4 5 6 7 8 9 # of elements (x 10 6 ) # of elements (x 10 6 ) Obrázek: Operace Saxpy Obrázek: Operace Sdot

Měření operace SpMV Úvod OpenMP paralelizovaná implementace na straně hostitele Naivní CUDA implementace Optimalizovaná CUDA implementace 25 CPU User GPU Naive GPU Optimized 70 60 CPU User GPU Naive GPU Optimized 20 50 15 40 GB/s GB/s 10 30 20 5 10 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 # of elements (x 10 6 ) 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 # of elements (x 10 6 ) Obrázek: Operace SpMV - náhodná nestrukturovaná matice Obrázek: Operace SpMV - matice s několika diagonálami

Testované matice Úvod Matice Dubcova3 Matice parabolic fem Matice thermal2 Matice helm2do3 Matice language Matice cage14

Výsledky měření metody CG Matice Dubcova3 parabolic fem thermal2 Rozměr 146689 525825 1228045 Počet nenul 3636643 3674625 8580313 Počet Iterací 200 1000 3000 CPU Čas výpočtu (s) 3.97 24.7 196 CSR uloženo hodnot 7419988 7875076 18388672 Norma rezidua 2.23 10 4 2.2 10 4 3.4 10 3 Chyba 5.18 10 3 3.54 10 1 4.107 GPU Čas výpočtu (s) 0.189 1.24 10.4 PCSR uloženo hodnot 7471914 7895026 22440374 Norma rezidua 2.18 10 4 2 10 4 3.2 10 3 Chyba 4.75 10 3 8.69 10 1 2.739 Relativní urychlení 21 19.9 18.8

Výskedky měření metody GMRES Matice helm2d03 language cage14 Rozměr 392257 399130 1505785 Počet nenul 2741935 1216334 27130349 Restartování 40 10 10 Počet Iterací 1000 1000 500 CPU Čas výpočtu (s) 40.5 66.5 96.5 CSR uloženo hodnot 5876128 2831799 55766484 Norma rezidua 1.2 10 1 2.5 10 5 2.2 10 5 Chyba 37.4 8.55 10 3 1.4 10 4 GPU Čas výpočtu (s) 4 10.6 4.4 PCSR uloženo hodnot 5897508 10174163 58400009 Norma rezidua 1.2 10 1 1.9 10 5 2.3 10 5 Chyba 37.3 2 10 4 8.6 10 5 Relativní urychlení 10.1 6.27 21.9

Literatura Úvod. : Obecné výpočty na grafických procesorech diplomová práce, 2007. Owens, J. D.; Houston, M.; Luebke, D.; Green, S.; Stone, J. E.; Phillips, J. C. GPU Computing. Proceedings of the IEEE 96(5):879-899, 2008. http://www.gpgpu.org http://www.nvidia.com/object/cuda_home.html