Úvod do paralelních systémů

Rozměr: px
Začít zobrazení ze stránky:

Download "Úvod do paralelních systémů"

Transkript

1 Úvod do paralelních systémů 1. část FIT VUT v Brně

2 Obsah Paralelní přístup z pohledu praxe Technologické důvody pro zavedení paralelismu Proč nestačí jedno jádro? Moderní procesory přehled vývoje architektur Skalární Superskalární Koncept SIMD vektorové instrukce, MMX, SSE, Architektura VLIW Vícevláknové zpracování Paralelní a distribuované systémy Základní koncepty architektury Propojovací sítě a topologie Vliv architektury paralelního systému na výkonnost Masivně paralelní architektury - GPU Využití grafických čipů pro obecné výpočty (GPGPU) Podrobně je problematika paralelních systémů probírána v magisterských kurzech: Architektura procesorů Architektura a programování paralelních systémů Paralelní a distribuované algoritmy 2

3 Proč paralelní přístup? Paralelní přístup je nutný pro řešení složitých úloh, které vyžadují vysoký výpočetní výkon. paralelní počítání (na vhodně propojených počítačích běží paralelní algoritmus) Stávající technologická omezení nutí pro zajištění co nejvyšší výkonnosti používat paralelní přístup na všech úrovních (dat, instrukcí, vláken atd.) Jednoprocesorové systémy potřebují k navýšení výkonnosti neúměrně vysoký příkon. Vícejádrové procesory poskytují pro daný povolený příkon vyšší výkonnost. 3

4 Moorův zákon a výkonnost procesorů Dříve (~ do 2005): výkonnost procesorů rostla zejména díky možnosti zvyšování pracovní frekvence a miniaturizaci tranzistorů Možnost implementovat složitější, sofistikovanější HW Rostoucí složitost a frekvence však vyžaduje vyšší příkon Současnost: roste složitost, ale příkon (frekvenci) už příliš zvyšovat nelze (CMOS) Vyšší výkonnost lze dosáhnout zvýšením stupně paralelismu Zdroj: International Solid-State Circuits Conference,

5 Technologické limity Frekvenci f nelze zvyšovat nad jistou mez => problém s odvedením tepla Jaká je rozumná mez pro příkon? Dnešní procesory mají cca 100 W cm -2 Při snížení Vdd je nutné snížit frekvenci (CMOS) min. Vdd je cca 0,5V Dynamická kapacita C přibližně odpovídá počtu tranzistorů a jejich aktivitě 1000 Atomový reaktor 2 P C Vdd f 100 W/cm i386 Horká plotna i486 Pentium Pentium Pro Pentium II Pentium III 1,5µ 0,07µ [Pollack, F. J. : New microarchitecture challenges in the coming generations of CMOS process technologies, 3 P V dd Na příkon má největší vliv Vdd. 5

6 výkonnost Příkon roste úměrně složitosti Příkon vs. výkonnost Pollackovo pravidlo (empirické) Efektivní (užitečná) výkonnost procesorů je přibližně úměrná druhé odmocnině jejich složitosti 2x více tranzistorů => jen 1,4x vyšší výkonnost 1000 příkon CPU (W) 1.4x 100 Neudržitelné! 10 příkon

7 Trendy v oblasti vývoje výpočetních systémů Zdroj: International Solid-State Circuits Conference, 2013 Redukce příkonu (snižování Vdd a frekvence) => snížení výkonosti Kompenzace v podobě zvýšení stupně paralelismu CLOCK: IBM System Z: 5,7 GHz, 2,75 mld. tranzistorů CORE: 24-jádrový procesor, Fudan University, Shanghai 7

8 Trendy v oblasti vývoje výpočetních systémů International Technology Roadmap for Semiconductors, Předpovědi vývoje různých parametrů v oblasti polovodičů a jejich aplikací Předpověď 2008 Předpověď 2011 Předpověď 2008 Předpověď 2011 Zdroj: ITRS 2011 Executive Summary, 8

9 Měření výkonnosti Skalární procesory Výkonnost = f / (CPI x 10 6 ) [MIPS] CPI Clocks Per Instruction - Př. CPI = 2 znamená, že v každém druhém taktu je dokončena instrukce (obvykle se CPI uvádí jako průměrná hodnota) Superskalární, vícejádrové procesory Výkonnost = f x IPC IPC Instructions Per Clock - Př. IPC = 4 znamená, že je možné dokončit 4 instrukce v každém taktu (obvykle se IPC uvádí jako průměrná hodnota) Požadujeme Co nejvyšší výkonnost za rozumnou cenu (počet tranzistorů a příkon). 9

10 10

11 11

12 Power ~ (1+0,2) 3 12

13 Power ~ (1+0,2) 3 Power ~ (1-0,2) 3 13

14 14

15 Příklad z praxe: Nižší příkon při zvýšení výkonnosti Systém: řízení a zpracování dat v FPGA pro inteligentní kameru Stávající řešení FPGA, napájecí napětí 1,8 V, pracovní frekvence 100MHz, 150nm CMOS technologie Nové řešení FPGA, napájecí napětí 1,2 V, 90nm technologie (menší parazitní kapacity), větší čip (díky novější technologii výroby) Cena nového FPGA je prakticky stejná Technické řešení Pracovní frekvence je snížena úměrně napájecímu napětí na 1,2V/1,8 V 100MHz = 66 MHz Příkon nové jednotky P new 2 90/150 (1,2/1,8) 66/100 0, 176 P Výpočetní jednotka je 3 replikována Výsledný obvod - odhad Dvojnásobná výkonnost MHz = 198 MHz oproti původním 100 MHz Poloviční příkon P opt 3 P 3 0,176 P 0, 528 P new 15

16 Paralelní zpracování v procesorech Funkční paralelismus paralelismus na úrovni instrukcí (ILP Instruction level Parallelism) řetězení ~ překrývající se zpracování instrukcí vícecestné zpracování paralelismus na úrovni vláken (TLP Thread Level Parallelism) Datový paralelismus provádění stejných operací nad různými daty (MMX, SSE) vektorový procesor - opakované využití funkčních jednotek a překrytí operací v čase 16

17 Klasifikace procesorů Architekturu procesoru charakterizují parametry: m - počet instrukcí, které se v jednom okamžiku vydávají ke zpracování r - počet současně prováděných (rozpracovaných) instrukcí Subskalární procesory (von neumannovské) r = 1, m = 1 doba provádění programu je součtem dob trvání jednotlivých instrukcí. nová instrukce může být vydána až po té, co je zpracována předchozí. Skalární procesory r>1, m=1 využívají řetězené zpracování instrukcí, kdy je v každém taktu vydávána maximálně jedna instrukce, ale současně jich může být rozpracováno několik. Superskalární procesory r>1, m>1 vydávají k zpracování více než jednu instrukci v jednom taktu současně je rozpracováno několik instrukcí Další charakteristika Vícevláknové procesory - několik vláken je prováděno na 1 CPU Vícejádrové procesory více vláken na několika CPU Vektorové procesory, VLIW atd. 17

18 Klasifikace vybraných procesorů Subskalární 4004, 8008 Skalární 8086, 80286, 80386, Superskalární Intel Pentium 1-4, AMD Opteron, VLIW Itanium, Itanium 2 Vícejádrové (superskalární) Core Duo, Core 2 Duo, Core 2 Quad core i3, Core i5, Core i7 and Core i9 Pentium D, 2 single-core dies packaged in a multi-chip module. Pentium Dual-Core, a dual-core processor. Xeon dual-, quad- and hexa-core processors 18

19 Superskalární procesory m-cestný (řetězený) procesor Dovoluje vydávat v jednom taktu až m instrukcí. Podporuje řetězené zpracování instrukcí, kdy se využívá několik paralelně pracujících linek (paralelní načítání, paralelní dekódování instrukcí atd.) Mezi stupni řetězené linky jsou vícemístné buffery namísto registrů. Data-flow zpracování - rozpracované instrukce, které čekají na operandy, je možné odložit do bufferu a probudit je, až budou operandy připraveny. Procesor má tři části Načtení/dekódování/rozesílání (pořadí instrukcí dodrženo) Provedení instrukcí v paralelně pracujících linkách (instrukce mohou být provedeny mimo pořadí) Dokončení (podle pořadí) Charakteristika Dynamické plánování instrukcí Provádění instrukcí mimo pořadí Spekulativní provádění skoků Pokročilé řešení konfliktů ILP přejmenování registrů (HW podpora), přeskládání instrukcí, pokročilý přístup do cache atd. 19

20 Př. Intel Pentium (1993) Advanced Programmable Interrupt Controller Bus width 64 bits System bus clock rate 60 or 66 MHz Address bus 32 bits Addressable Memory 4 GB Virtual Memory 64 TB Superscalar architecture Runs on 5 volts 16 KB of L1 cache U and V pipeline (m=2) 20

21 Intel Pentium 4 - mikroarch. NetBurst BTB (4k entries) Trace Cache BTB (512 entries) Memory op Queue I-TLB/Prefetcher IA32 Decoder Execution Trace Cache Allocator / Register Renamer INT / FP op Queue Code ROM op Queue 64 bits 64-bit System Bus Quad Pumped 400M/533MHz 3.2/4.3 GB/sec BIU Memory scheduler Fast Slow/General FP scheduler Simple FP INT Register File / Bypass Network AGU AGU 2x ALU 2x ALU Slow ALU Simple Simple Complex Ld addr St addr Inst. Inst. Inst. FP RF / Bypass Ntwk FP MMX SSE/2 L1 Data Cache (8KB 4-way, 64-byte line, WT, 1 rd + 1 wr port) FP Move 256 bits U-L2 Cache 256KB 8-way 128B line, WB 48 21

22 Superskalární procesory Superskalární přístup dosáhl svých mezí Výkonnost = IPC x f IPC a f [MHz] jdou proti sobě! Vysoký IPC (až 6) => složitý HW => nízká f Vysoká f => jednodušší HW => nízké IPC Pro m > 4-8 již většinou nemá smysl (zrychlení je <3x) Zvyšování f je nevýhodné z hlediska příkonu - plánované projekty superskalárních procesorů s vysokými kmitočty (9,2 GHz a10,2 GHz firmy Intel) byly opuštěny pro vysoký příkon Další vývoj: VLIW, vícevláknové procesory, vícejádrové procesory 22

23 Př. Pentium 4 (2000), mikroarchitektura NetBurst stupňů linky: 20 (až 31) rozpracováno až 126 instrukcí Branche Target Buffer (BTB) 4096 pol. Trace cache 12K (místo I-cache) L1 D-cache: 8 kb, Load: 2 takty L2 cache: 256 kb, 256 bitů SSE2 viz dále hyperthreading viz dále externí přenosy QDR (Quad Data Rate): s 200 MHz dosáhne 6,4 GB/s. Pozn.: Nástupcem NetBurst je od r Core 2 (dvoujádrový procesor s nižším příkonem) 23

24 Intel Core 2 Sdíleno! 24

25 VLIW = Very Long Instruction Word Používá několik nezávislých funkčních jednotek (např. 2 x FX, 2 x FP, 2 x L/S) pracujících synchronně Existuje mnoho bran čtení a zápisu u souboru registrů FX a FP i paměti. Kompilátor sbalí pevný počet instrukcí do jedné VLIW instrukce o délce bitů a víc; sbalené instrukce nemusí být v původním pořadí. Kompilátor plánuje instrukce staticky (oproti superskalárním procesorům) v době kompilace a určuje, které instrukce mohou běžet paralelně, a zahrne tuto informaci do strojové instrukce VLIW. Operace specifikované ve VLIW musí být nezávislé na sobě navzájem i na předchozích VLIW. Když nelze naplánovat plný počet instrukcí, doplní se instrukce NOP. Dílčí instrukce z nezávislých skupin jsou vydávány a prováděny paralelně, v každém taktu jedno VLIW. 25

26 Př. VLIW: Intel Itanium 2 (IA-64) 1,5 (1,7) GHz, 130 W, 1,3 V, proces 130 nm Jednotky: 2 x store, 2 x Load, 4 x MMX, 4 x FP, 6 x FX L1 I-cache, D-cache: 4-cestná, 16 kb, write-through L2 cache 256 kb, 8-cestná, write-back, sjednocená L3 cache: 6 MB, 24-cestná, write-back, také na čipu! 128 registrů FX (65 bit), 128 registrů FP + MMX (82 bit) 8 registrů cílových adres nepřímých skoků (branch register) Sběrnice 128 datových 400 MHz = 6,4 GB/s (oproti 2,1 GB/s u Itania). 26

27 Vývoj moderních mikroarchitektur AMD

28 Př.: mikroarchitektura AMD Piledriver (2012) 28

29 Vektorové procesory Procesor obsahuje vektorovou jednotku, která pracuje souběžně se skalární; Každý takt končí operace s jedním prvkem vektoru, operace na prvcích vektoru jsou datově nezávislé. Je nutný vektorizující kompilátor schopný účinně konvertovat skalární kód na vektorový. Použití: vědecké výpočty Procesor VDLX (modifikace DLX) Na obrázku má pole VRF (vector register file) 8 vektorových registrů, 16 bran čtení a 8 bran zápisu; každý registr obsahuje 64 prvků, 64 bitů / prvek. 29

30 Vektorové procesory Dosažitelné zrychlení za použití vektorové jednotky je závislé na části kódu, který je převoditelný na vektorové instrukce. Příklady vektorových instrukcí: addv v3, v1, v2 lv v1, r1 ; načti vektor z paměti do registru v1; adresa 1. prvku je v r1 lvi v1,(r1+v2) ; načti vektor podle indexů ve vektoru v2, adresa prvku je r1 + v2(i): s**v v1,v2 ; nastav 64-bitový registr masky VM (Vector Mask) podle relace ** (eq, ne, gt,...) mezi prvky v1 a v2 Další: Vektorová redukce (např. součet/max/min/průměr položek ve vektoru), skalární součin atd. Paralelně pracující sčítačky nebo zřetězená sčítačka 30

31 Instrukce MMX Podpora multimediálních instrukcí v procesorech Intel (od Pentia II) Zavedeny nové sbalené (packed) datové typy malé datové prvky (8-bitové pixely, 16- bitové vzorky zvuku,...) jsou sbaleny dohromady do jednoho 64-bitového slova Zavedeny nové instrukce (57), které pracují se všemi datovými prvky paralelně (styl SIMD) výkonnost zlepšena 3-5krát pro vnitřní smyčky, 1,5 2 krát pro celé programy plná kompatibilita s existujícími mikroprocesory Intel (OS a SW) Registry MMX 64-bitové registry MMX (MM0 - MM7) jsou mapovány na registry FP - jsou identické s dolní částí 80-bitových registrů FP při zápisu do registrů MMX je bit 64 až 79 nastaven na 1 (NaN, Not a Number) do souboru registrů MMX je možný náhodný přístup! Aplikace nemohou používat registry FP současně pro FP a MMX data a kód musí být rozdělen na části FP a MMX. 31

32 MMX 32

33 SIMD: Instrukce SSE Další rozšíření intelovské architektury IA (od Pentia III) je SSI (SIMD Streaming Instructions, proudové instrukce SIMD). Přidány nové 128b registry (XMM) a instrukce V tomto rozšíření mohou registry o velikosti 128 bitů uchovávat několik čísel FP, na kterých se provádějí paralelní operace FP ve stylu SIMD. Cenou za toto další rozšíření je navýšení plochy proti Pentiu II o 10%, zvýšení výkonnosti však činí až 62% (3D grafika) nebo 29% (MM). SSE2, SSE3, SSSE3, SSE4 další vylepšení AVX 256-bitové registry, v budoucnu až 1024 bitů 33

34 Instruction Level: Intel SSE In Each Core Single Cycle SSE SOURCE SSE/2/3 OP 127 X4 SSE Operation (SSE/SSE2/SSE3) X3 X2 X1 0 DECODE DECODE DEST Y4 Y3 Y2 Y1 Core arch CLOCK CYCLE 1 X4opY4 X3opY3 X2opY2 X1opY1 EXECUTE EXECUTE Previous CLOCK CYCLE 1 X2opY2 X1opY1 CLOCK CYCLE 2 X4opY4 X3opY3 Perf Energy SIMD instructions compute multiple operations per instruction *Graphics not representative of actual die photo or relative size 34

35 Multivláknové procesory Vlákno (thread) je posloupnost instrukcí vyžadující určitý adresový prostor a čas CPU. Vlákna jsou (oproti procesům) lehká, přepnutí kontextu je rychlejší, kopíruje se méně dat. Vlákna tvořená v rámci procesu sdílí jeho adresový prostor a další prostředky kód, hromadu aj. K vláknu patří jen ukazatele IP a SP (instruction pointer, stack pointer), PSW (program status word) včetně myid a priority, sada registrů a zásobník. Nejčastěji je to programátor, kdo explicitně vlákna vytvoří při paralelizaci programu. Multivláknový provoz (MT - MultiThreading) Časový vlákna se střídají na jednom CPU (TMT) Prostorový vlákna běží paralelně v multiprocesorovém systému se sdílenou pamětí (P procesorů / P vláken) Časoprostorový (na P procesorech běží R vláken a R>P) 35

36 Multivláknové procesory Podpora více vláken v HW je asi nejzajímavější technika pro překlenutí vysoké latence přístupu do paměti. Musí však existovat dostatek vláken. Doba přepnutí vlákna (přepnutí kontextu) musí být krátká. Na obrázku je porovnání typického výpočtu pro různé architektury: 36

37 Př. Počet vláken pro TMT Jestliže chceme tolerovat latenci přístupů do paměti (např. L = 70 taktů) multivláknovými CPU, kolik vláken (N) bude třeba pro získání maximální účinnosti, když jedno vlákno běží průměrně R=10 taktů a přepnutí kontextu trvá S = 3 takty? (N 1)R + NS L (N 1)10 + 3N 70 13N 80 N 6,15 N 7 37

38 Multivláknový procesor Z pohledu HW Prostředky sdílené vlákny: Procesor, cache, prediktory skoků Prostředky replikované pro každé vlákno Sada registrů, PC, SP, PSW, řadič přerušení Je třeba dodat nový HW např. pro výběr vlákna Techniky TMT Hrubý MT Jedno vlákno běží řadu taktů, k přepnutí kontextu dochází pouze při výskytu události s dlouhou latencí, která by vedla k zastavení linky. Jemný MT každém taktu se přepíná na jiné vlákno (prokládání vláken). SMT, souběžný (současný) MT (Simultaneous Multithreading). V každém taktu přepíná kontext několika vláken současně, protože v jednom taktu se zpracovávají instrukce z několika vláken. Hyperthreading (firemní název, Pentium 4) 2 vlákna kombinuje jemný MT (pokud vlákna nejsou pozastavena) a hrubý MT (pokud je jedno vlákno pozastaveno). Nárůst ploch cca 5%, nárůst výkonnosti cca 25%. (4-cestný superskalární CPU, TNT) 38

39 Multithread, multicore - shrnutí Podpora vícevláknového zpracování (multitasking, multithreading) může mít různou podobu Přepínání úloh pouze z úrovně OS dnes se již samostatně téměř nepoužívá Přepínání s podporou HW CPU nejedná se o paralelní zpracování, úlohy běží v časovém multiplexu (hrubý/jemný MT) Vícecestné procesory souběžný MT, výhradně s HW podporou CPU, paralelní vykonávání instrukcí různých úloh (pokud je to možné sdílení určitých komponent CPU) Vícejádrové procesory (multiprocesory) každé jádro může autonomně spouštět různé úlohy (vlákna nebo i procesy). Běžně se používá v kombinaci s dříve uvedenými přístupy. Komunikace mezi vlákny se provádí přes sdílenou paměť. Programování nejčastěji pomocí OpenMP (C/C++) 39

40 Ukázka kódu s více vlákny (OpenMP) OpenMP MultiProcessing rozšíření C/C++ o direktivy #pragma omp a další knihovní funkce, umožňující specifikovat, jakým způsobem má být kód paralelizován. 40

41 Pokračování příště 41

42 Úvod do paralelních systémů 2. část FIT VUT v Brně

43 Obsah Paralelní přístup z pohledu praxe Technologické důvody pro zavedení paralelismu Proč nestačí jedno jádro? Moderní procesory přehled vývoje architektur Skalární Superskalární Koncept SIMD vektorové instrukce, MMX, SSE, Architektura VLIW Vícevláknové zpracování Paralelní a distribuované systémy Základní koncepty architektury Propojovací sítě a topologie Vliv architektury paralelního systému na výkonnost Masivně paralelní architektury - GPU Využití grafických čipů pro obecné výpočty (GPGPU) Podrobně je problematika paralelních systémů probírána v magisterských kurzech: Architektura procesorů Architektura a programování paralelních systémů Paralelní a distribuované algoritmy 43

44 Jak využít n procesorů? Procesory nekomunikují (n krát rychlejší než sekvenční počítač) Mohu spustit současně více různých úloh, každou na jednom procesoru Mohu spustit stejnou úlohu na n procesorech, ale s jinými parametry (např. program pro předpověď počasí s různým nastavením počátečních podmínek zrychlení n-krát oproti sekvenčnímu počítači) procesory komunikují (spolupracují) za účelem vyřešení složité úlohy v rozumném čase, jedná se o paralelní systém Návrh řešení určité úlohy na paralelním systému se nazývá paralelní programování Procesory společně řeší jednu úlohu, musí být vhodně propojeny Někdy je možné dosáhnout větší zrychlení než v předchozím případě! Příklad: paralelní řazení Enumeration sort (pro k prvků) Pokud je k dispozici k 2 procesorů, je časová složitost O(log k) Příklad: paralelní řazení Bucket sort (pro k prvků) Pokud je k dispozici log (k) procesorů, je časová složitost O(k) 44

45 Paralelní systém základní vrianty Se sdílenou pamětí (shared memory, SM) Obvykle řešeno jako tzv. UMA uniform memory access, kdy latence přístupu do sdílené paměti je stejná u všech procesorů (SMP symetrický multiprocesor). Programování pomocí OpenMP Výhoda: efektivní komunikace Nevýhoda: max. pouze ~ 32 procesorů (v závislosti na použité propojovací síti) S distribuovanou pamětí (distributed memory, DM) Každý procesor má svoji (privátní) paměť Programování (komunikace) pomocí knihovny zasílání zpráv (MPI Message Passing Imterface), případně přes síťové sokety Výhoda: škálovtelnost Nevýhoda: vyšší komunikační režie Se distribuovanou sdílenou pamětí (distributed shared memory, DSM) Obvykle řešeno jako tzv. CC-NUMA (cache coherent non-uniform memory access) 45

46 Propojení víceprocesorových systémů Komunikace mezi procesory a přístup ke sdíleným prostředkům jsou realizovány přes propojovací sítě např. sběrnice, úplné propojení, Xbar apod. (viz dále) 46

47 Křížový přepínač (X-bar) Propojení 1:1 mezi vstupy a výstupy. Je možné propojit 1 vstup k několika výstupům. Více vstupů k jednomu výstupu se připojit nesmí. Je nutné použít arbitr. Cena: p 2 přepínačů (řešení založeno na multiplexorech) drahé řešení Použití: propojení procesorů s procesory nebo paměťovými moduly Způsob propojení procesorů a typ linek má zásadní vliv na výkonnost! 47

48 Zahltit sběrnici není obtížné Uvažme procesory (každý s I-cache a D-cache) propojené navzájem sběrnicí a připojené k paměti Hit rate h i = 98% v I-cache Hit rate h d = 95% v D-cache Procesor má výkonnost 250 MIPS Přístup do D- cache potřebuje 1/3 instrukcí (~ 75 MIPS) Počet výpadků v I-cache 2% x 250 MIPS = 5 M výpadků /s Počet výpadků v D-cache 5% x 75 MIPS = 3,75 M výpadků /s Celkem 8,75 M výpadků/s Při každém výpadku se po sběrnici přenáší blok o velikosti 16B. Potřebná šířka pásma je pro každý procesor 8,75 M výpadků/s x 16B = 140 MB/s Kolik procesorů zahltí sběrnici, která má propustnost 1GB/s? N = 1000 / 140 => 7 procesorů Závěr: Větší počet procesorů nemá smysl propojovat sběrnicí! 48

49 Přímé propojovací sítě příklady topologií 49

50 Př. Sečtení k čísel na n procesorech Sekvenční řešení: t s = k - 1 kroků Paralelní řešení (každý procesor má k/n čísel): Hyperkostka: t p = k/n + 2 log 2 n kroků Kruh: t p = k/n + 2n/2 = k/n + n kroků Hyperkostka n = 8 práce jednoho procesoru komunikační režie Kruh n = 8 krok krok 1 krok 2 krok 3 výsledek 3 výsledek 4 Pozn.: Operace pošli mezivýsledek a sečti je počítána jako 2 kroky. 50

51 Př. Sečtení k čísel na n procesorech zrychlení = t s / t p 8 procesorů 9 8 zrychleni_krychle zrychleni_kruh k Je patrný velký vliv komunikační režie na zrychlení pro nízké hodnoty k. 51

52 Př. Sečtení k čísel na n procesorech k = zrychleni_hyperkostka zrychleni_kruh k n U kruhu je patrný velký vliv komunikační režie na zrychlení pro větší počet procesorů. 52

53 Nejvýkonnější superpočítače (2013) 53

54 Vybrané paralelní výpočetní systémy v ČR Výpočetní cluster na FIT VUT v Brně (řízeno systémem SGE) Až 2400 procesů (dle stavu jednotlivých serverů/modulů) V současnosti 102 uzlů, každý vybaven 2x CPU 4-16 jader, GB RAM Malý cluster Anselm, VŠB-TU Ostrava (spuštěn 2013), součást projektu IT4Innovations (VUT je účastníkem projektu) Přes 200 uzlů, každý vybaven 2x CPU Intel Sandy Bridge 8-core, 96 GB RAM, některé navíc disponují GPU akcelerátorem Nvidia Tesla Kepler K20 Ve výstavbě je velký cluster dokončení ~ 2015, současný odhad kolem 15. místa v top500 (IT4Innovations, VŠB-TU Ostrava) 54

55 Graphics Processing Elements (GPU) GPU programovatelná grafická karta (od r. 2001, Nvidia GeForce 3) Tradiční použití GPU grafická pipeline GPU Propustnost 55

56 General-Purpose Computation on Graphics Hardware (GPGPU) GPGPU provádění obecných výpočtů na GPU (v současnosti velmi populární, vysoký výkon za nízkou cenu) Má smysl pro určité úlohy typu SIMD (statisíce datových položek) rychlé a velké cache, predikce skoků, vysoká výkonnost pro jedno vlákno, podpora přerušení, virtualizace paměti. velké množství ALU zejména operace MAD - vynásob a sečti, FMA (MAD pro FP, jedno zaokrouhlení), mnoho HW vláken, rychlé lokální paměti, špatná podpora větvení, nízký výkon na jedno vlákno. přibližně stejná plocha ve srovnání s CPU 56

57 Vhodné problémy pro GPU 57

58 Výkonnost GPU ve srovnání s procesory 58

59 Př. GeForce GTX 280 SM streaming multiprocessor SFU - Special Function Units TPC -Texture/Proces-sor Cluster 59

60 Příklad současné GPU 60

61 Prostředky pro tvorbu aplikací na GPU CUDA (Compute Unied Device Architecture) je knihovna firmy Nvidia určená pro obecné výpočty optimalizované na GPU. Příklad: násobení matic konvenčně a pomocí CUDA C OpenCL platforma pro tvorbu aplikací přenositelných mezi různými architekturami (např. GPU, ARM a další) Méně efektivní, překlad prováděn za běhu automaticky pro danou architekturu 61

62 Literatura Dvořák, V., Drábek, V.: Architektura procesorů. Studijní opora. FIT VUT v Brně 2006 Dvořák, V.: Architektura a programování paralelních systémů. Skriptum VUT v Brně 2004 Hanáček, P.: Paralelní a distribuované algoritmy. Přednášky FIT VUT v Brně, 2008 Fučík O.: Hardware/Software codesign. Habilitační přednáška, FIT VUT v Brně 2009 Bhandarkar D.: The Dawn of a New Era: Multi-Core Computing. Intel 2006 Pospíchal P.: Akcelerace genetického algoritmu s využitím GPU. Diplomová práce FIT VUT v Brně, 2009 Pozn. Většina obrázků převzata z internetu a uvedených publikací Podrobně je problematika paralelních výpočtů probírána v magisterských kurzech: Architektura procesorů Architektura a programování paralelních systémů Paralelní a distribuované algoritmy 62

Charakteristika dalších verzí procesorů v PC

Charakteristika dalších verzí procesorů v PC Charakteristika dalších verzí procesorů v PC 1 Cíl přednášky Poukázat na principy tvorby architektur nových verzí personálních počítačů. Prezentovat aktuální pojmy. 2 Úvod Zvyšování výkonu cestou paralelizace

Více

Intel 80486 (2) Intel 80486 (1) Intel 80486 (3) Intel 80486 (4) Intel 80486 (6) Intel 80486 (5) Nezřetězené zpracování instrukcí:

Intel 80486 (2) Intel 80486 (1) Intel 80486 (3) Intel 80486 (4) Intel 80486 (6) Intel 80486 (5) Nezřetězené zpracování instrukcí: Intel 80486 (1) Vyroben v roce 1989 Prodáván pod oficiálním názvem 80486DX Plně 32bitový procesor Na svém čipu má integrován: - zmodernizovaný procesor 80386 - numerický koprocesor 80387 - L1 (interní)

Více

Přehled paralelních architektur. Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur

Přehled paralelních architektur. Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur Přehled paralelních architektur Přehled paralelních architektur Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur Přehled I. paralelní počítače se konstruují

Více

Procesor Intel Pentium (1) Procesor Intel Pentium (3) Procesor Intel Pentium Pro (1) Procesor Intel Pentium (2)

Procesor Intel Pentium (1) Procesor Intel Pentium (3) Procesor Intel Pentium Pro (1) Procesor Intel Pentium (2) Procesor Intel Pentium (1) 32-bitová vnitřní architektura s 64-bitovou datovou sběrnicí Superskalární procesor: obsahuje více než jednu (dvě) frontu pro zřetězené zpracování instrukcí (značeny u, v) poskytuje

Více

OPS Paralelní systémy, seznam pojmů, klasifikace

OPS Paralelní systémy, seznam pojmů, klasifikace Moorův zákon (polovina 60. let) : Výpočetní výkon a počet tranzistorů na jeden CPU chip integrovaného obvodu mikroprocesoru se každý jeden až dva roky zdvojnásobí; cena se zmenší na polovinu. Paralelismus

Více

Paralelní a distribuované výpočty (B4B36PDV)

Paralelní a distribuované výpočty (B4B36PDV) Paralelní a distribuované výpočty (B4B36PDV) Branislav Bošanský, Michal Jakob bosansky@fel.cvut.cz Artificial Intelligence Center Department of Computer Science Faculty of Electrical Engineering Czech

Více

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC Informační systémy 2 Obsah: Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC ROM RAM Paměti typu CACHE IS2-4 1 Dnešní info: Informační systémy 2 03 Informační systémy

Více

CHARAKTERISTIKA MODERNÍCH PENTIÍ. Flynnova klasifikace paralelních systémů

CHARAKTERISTIKA MODERNÍCH PENTIÍ. Flynnova klasifikace paralelních systémů Úvod: CHARAKTERISTIKA MODERNÍCH PENTIÍ Flynnova klasifikace paralelních systémů Paralelní systémy lze třídit z hlediska počtu toků instrukcí a počtu toků dat: SI systém s jedním tokem instrukcí (Single

Více

Vícejádrový procesor. Dvě nebo více nezávislých jader Pro plné využití. podporovat multihreading

Vícejádrový procesor. Dvě nebo více nezávislých jader Pro plné využití. podporovat multihreading Vývoj Jan Smuda, Petr Zajíc Procesor ALU (aritmeticko logická jednotka) Registry Řadič Jednotky pro práci s plovoucí čárkou Cache Vývoj procesorů Predikce skoku Plánování instrukcí Naráží na fyzická omezení

Více

Charakteristika dalších verzí procesorů Pentium

Charakteristika dalších verzí procesorů Pentium Charakteristika dalších verzí procesorů Pentium 1 Cíl přednášky Poukázat na principy architektur nových verzí typů Pentií. Prezentovat aktuální pojmy. 2 Úvod Paralelní systémy lze třídit z hlediska počtu

Více

Pokročilé architektury počítačů

Pokročilé architektury počítačů Pokročilé architektury počítačů Přednáška 5 GPU - CUDA Martin Milata Obsah Obecné výpočty a GPU Grafické procesory NVIDIA Tesla Výpočetní model Paměťový model GT200 Zpracování instrukcí Vydávání instrukcí

Více

Procesor. Procesor FPU ALU. Řadič mikrokód

Procesor. Procesor FPU ALU. Řadič mikrokód Procesor Procesor Integrovaný obvod zajišťující funkce CPU Tvoří srdce a mozek celého počítače a do značné míry ovlivňuje výkon celého počítače (čím rychlejší procesor, tím rychlejší počítač) Provádí jednotlivé

Více

Architektury VLIW M. Skrbek a I. Šimeček

Architektury VLIW M. Skrbek a I. Šimeček Architektury VLIW M. Skrbek a I. Šimeček xsimecek@fit.cvut.cz Katedra počítačových systémů FIT České vysoké učení technické v Praze Ivan Šimeček, 2011 MI-PAP, LS2010/11, Predn.3 Příprava studijního programu

Více

PROCESOR. Typy procesorů

PROCESOR. Typy procesorů PROCESOR Procesor je ústřední výkonnou jednotkou počítače, která čte z paměti instrukce a na jejich základě vykonává program. Primárním úkolem procesoru je řídit činnost ostatních částí počítače včetně

Více

Přednáška 1. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Přednáška 1. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Přednáška 1 Úvod do HW a OS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Příprava studijního programu Informatika je podporována projektem financovaným z Evropského

Více

Úvod do architektur personálních počítačů

Úvod do architektur personálních počítačů Úvod do architektur personálních počítačů 1 Cíl přednášky Popsat principy proudového zpracování informace. Popsat principy zřetězeného zpracování instrukcí. Zabývat se způsoby uplatnění tohoto principu

Více

Cache paměť - mezipaměť

Cache paměť - mezipaměť Cache paměť - mezipaměť 10.přednáška Urychlení přenosu mezi procesorem a hlavní pamětí Hlavní paměť procesoru je typu DRAM a je pomalá. Proto se mezi pomalou hlavní paměť a procesor vkládá menší, ale rychlá

Více

Představení a vývoj architektur vektorových procesorů

Představení a vývoj architektur vektorových procesorů Představení a vývoj architektur vektorových procesorů Drong Lukáš Dro098 1 Obsah Úvod 3 Historie, současnost 3 Architektura 4 - pipelining 4 - Operace scatter a gather 4 - vektorové registry 4 - Řetězení

Více

Základy informatiky. 2. Přednáška HW. Lenka Carr Motyčková. February 22, 2011 Základy informatiky 2

Základy informatiky. 2. Přednáška HW. Lenka Carr Motyčková. February 22, 2011 Základy informatiky 2 Základy informatiky 2. Přednáška HW Lenka Carr Motyčková February 22, 2011 Základy informatiky 1 February 22, 2011 Základy informatiky 2 February 22, 2011 Základy informatiky 3 February 22, 2011 Základy

Více

Pohled do nitra mikroprocesoru Josef Horálek

Pohled do nitra mikroprocesoru Josef Horálek Pohled do nitra mikroprocesoru Josef Horálek Z čeho vycházíme = Vycházíme z Von Neumannovy architektury = Celý počítač se tak skládá z pěti koncepčních bloků: = Operační paměť = Programový řadič = Aritmeticko-logická

Více

Architektura Intel Atom

Architektura Intel Atom Architektura Intel Atom Štěpán Sojka 5. prosince 2008 1 Úvod Hlavní rysem Atomu je podpora platformy x86, která umožňuje spouštět a běžně používat řadu let vyvíjené aplikace, na které jsou uživatelé zvyklí

Více

2.8 Procesory. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu

2.8 Procesory. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu Název školy Číslo projektu Autor Název šablony Název DUMu Tematická oblast Předmět Druh učebního materiálu Anotace Vybavení, pomůcky Ověřeno ve výuce dne, třída Střední průmyslová škola strojnická Vsetín

Více

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC Informatika 2 Technické prostředky počítačové techniky - 2 Přednáší: doc. Ing. Jan Skrbek, Dr. - KIN Přednášky: středa 14 20 15 55 Spojení: e-mail: jan.skrbek@tul.cz 16 10 17 45 tel.: 48 535 2442 Obsah:

Více

Technické prostředky počítačové techniky

Technické prostředky počítačové techniky Počítač - stroj, který podle předem připravených instrukcí zpracovává data Základní části: centrální procesorová jednotka (schopná řídit se posloupností instrukcí a ovládat další části počítače) zařízení

Více

Výstavba PC. Vývoj trhu osobních počítačů

Výstavba PC. Vývoj trhu osobních počítačů Výstavba PC Vývoj trhu osobních počítačů Osobní počítač? Sálový počítač (Mainframe) IBM System/370 model 168 (1972) Minipočítač DEC PDP-11/70 (1975) Od 60. let počítač byl buď velký sálový nebo mini, stroj,

Více

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC Informatika 2 Technické prostředky počítačové techniky - 2 Přednáší: doc. Ing. Jan Skrbek, Dr. - KIN Přednášky: středa 14 20 15 55 Spojení: e-mail: jan.skrbek@tul.cz 16 10 17 45 tel.: 48 535 2442 Obsah:

Více

Základní deska (1) Parametry procesoru (2) Parametry procesoru (1) Označována také jako mainboard, motherboard

Základní deska (1) Parametry procesoru (2) Parametry procesoru (1) Označována také jako mainboard, motherboard Základní deska (1) Označována také jako mainboard, motherboard Deska plošného spoje tvořící základ celého počítače Zpravidla obsahuje: procesor (mikroprocesor) patici pro numerický koprocesor (resp. osazený

Více

Pokročilé architektury počítačů

Pokročilé architektury počítačů Pokročilé architektury počítačů Tutoriál 3 CUDA - GPU Martin Milata Výpočetní model CUDA Organizace kódu Sériově organizovaný kód určený pro CPU Paralelní kód prováděný na GPU Označuje se jako kernel GPU

Více

Roman Výtisk, VYT027

Roman Výtisk, VYT027 Roman Výtisk, VYT027 Ohlédnutí za architekturou AMD K8 Představení architektury procesoru AMD K10 Přínos Struktura cache IMC, HyperTransport sběrnice Použitá literatura Ohlášení x86-64 architektury 5.

Více

Architektury CISC a RISC, uplatnění v personálních počítačích

Architektury CISC a RISC, uplatnění v personálních počítačích Architektury CISC a RISC, uplatnění v personálních počítačích 1 Cíl přednášky Vysvětlit, jak pracují architektury CISC a RISC, upozornit na rozdíly. Zdůraznit, jak se typické rysy obou typů architektur

Více

Činnost CPU. IMTEE Přednáška č. 2. Několik úrovní abstrakce od obvodů CPU: Hodinový cyklus fáze strojový cyklus instrukční cyklus

Činnost CPU. IMTEE Přednáška č. 2. Několik úrovní abstrakce od obvodů CPU: Hodinový cyklus fáze strojový cyklus instrukční cyklus Činnost CPU Několik úrovní abstrakce od obvodů CPU: Hodinový cyklus fáze strojový cyklus instrukční cyklus Hodinový cyklus CPU je synchronní obvod nutné hodiny (f CLK ) Instrukční cyklus IF = doba potřebná

Více

Výkonnost mikroprocesoru ovlivňují nejvíce dvě hlediska - architektura mikroprocesoru a tzv. taktovací frekvence procesoru.

Výkonnost mikroprocesoru ovlivňují nejvíce dvě hlediska - architektura mikroprocesoru a tzv. taktovací frekvence procesoru. Úvod Mikroprocesor Mikroprocesor je srdcem počítače. Provádí veškeré výpočty a operace. Je to složitý integrovaný obvod, uložený do vhodného pouzdra. Dnešní mikroprocesory vyžadují pro spolehlivou činnost

Více

Obecné výpočty na GPU v jazyce CUDA. Jiří Filipovič

Obecné výpočty na GPU v jazyce CUDA. Jiří Filipovič Obecné výpočty na GPU v jazyce CUDA Jiří Filipovič Obsah přednášky motivace architektura GPU CUDA programovací model jaké algoritmy urychlovat na GPU? optimalizace Motivace Moorův zákon stále platí pro

Více

Operační systémy. Přednáška 1: Úvod

Operační systémy. Přednáška 1: Úvod Operační systémy Přednáška 1: Úvod 1 Organizace předmětu Přednášky každé úterý 18:00-19:30 v K1 Přednášející Jan Trdlička email: trdlicka@fel.cvut.z kancelář: K324 Cvičení pondělí, úterý, středa Informace

Více

Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit

Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit Jednoduché stránkování Operační systémy Přednáška 8: Správa paměti II Hlavní paměť rozdělená na malé úseky stejné velikosti (např. 4kB) nazývané rámce (frames). Program rozdělen na malé úseky stejné velikosti

Více

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Přednáška Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Příprava studijního programu Informatika je podporována projektem financovaným z Evropského

Více

Úvod do GPGPU J. Sloup, I. Šimeček

Úvod do GPGPU J. Sloup, I. Šimeček Úvod do GPGPU J. Sloup, I. Šimeček xsimecek@fit.cvut.cz Katedra počítačových systémů FIT České vysoké učení technické v Praze Ivan Šimeček, 2011 MI-PRC, LS2010/11, Predn.3 Příprava studijního programu

Více

MIKROPROCESOR. (c) Ing. Josef Varačka. Title: XI 28 11:40 (1 of 8)

MIKROPROCESOR. (c) Ing. Josef Varačka. Title: XI 28 11:40 (1 of 8) MIKROPROCESOR 1/ Účel: Vzhledem k pokračující digitalizaci (používání zpracování dvojkového signálu) je žádoucí provozovat univerzální zařízení, které podle programu instrukcí informace zpracuje. Mikroprocesor

Více

Architektura počítače

Architektura počítače Architektura počítače Výpočetní systém HIERARCHICKÁ STRUKTURA Úroveň aplikačních programů Úroveň obecných funkčních programů Úroveň vyšších programovacích jazyků a prostředí Úroveň základních programovacích

Více

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. RNDr. Jiří Barnat, Ph.D.

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. RNDr. Jiří Barnat, Ph.D. IB109 Návrh a implementace paralelních systémů Organizace kurzu a úvod RNDr. Jiří Barnat, Ph.D. Sekce B109 Návrh a implementace paralelních systémů: Organizace kurzu a úvod str. 2/25 Organizace kurzu Organizace

Více

Přednáška #12: Úvod do paralelních počítačů. Paralelní počítače a architektury

Přednáška #12: Úvod do paralelních počítačů. Paralelní počítače a architektury (36APS: Architektura počítačových systémů, posluchárna K1, Pon, 16/5/05, 9:15-10:45, přednáší Pavel Tvrdík) Přednáška #12: Úvod do paralelních počítačů Paralelní počítače a architektury Definice 1. (Almasi,

Více

ARCHITEKTURA PROCESORŮ

ARCHITEKTURA PROCESORŮ ARCHITEKTURA PROCESORŮ Základními jednotkami, které tvoří vnitřní strukturu procesorů, jsou: řadič, který má za úkol číst operandy (data, čísla) a instrukce z operační paměti, dekódovat je a na základě

Více

Architektury paralelních počítačů I.

Architektury paralelních počítačů I. Architektury paralelních počítačů I. Úvod, Koherence a konzistence u SMP Ing. Miloš Bečvář s použitím slajdů Prof. Ing. Pavla Tvrdíka, CSc. Osnova přednášky Typy paralelismu a jejich využití v arch. poč.

Více

Povídání na téma. SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) 3. 12. 2009 Filip Staněk

Povídání na téma. SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) 3. 12. 2009 Filip Staněk Povídání na téma SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) 3. 12. 2009 Filip Staněk Co je to vlastně SC? Výpočetní systém, který určuje hranici maximálního možného výpočetního výkonu......v

Více

Hlavní využití počítačů

Hlavní využití počítačů Úvod Hlavní využití počítačů Počítače jsou výkonné nástroje využívané pro zpracování dat. Provádějí: načtení a binární kódování dat provedení požadovaného výpočtu zobrazení výsledku Hlavní využití počítačů

Více

Vlastnosti mikroprocesorů Josef Horálek

Vlastnosti mikroprocesorů Josef Horálek Vlastnosti mikroprocesorů Josef Horálek Vlastnosti mikroprocesorů = Vlastnosti jsou dány architekturou mikroprocesoru, kde se používají, jak již bylo řečeno, různé technologie. = Vlastnosti kterými se

Více

Jan Nekvapil ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Jan Nekvapil ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Jan Nekvapil jan.nekvapil@tiscali.cz ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Motivace MMX, EMMX, MMX+ 3DNow!, 3DNow!+ SSE SSE2 SSE3 SSSE3 SSE4.2 Závěr 2 Efektivní práce s vektory

Více

Pokročilé architektury počítačů

Pokročilé architektury počítačů Pokročilé architektury počítačů referát Intel Core 2 Quad Martin Samek SAM094 Abstrakt Text se bude zabývat procesorem Core 2 Quad firmy Intel. Text bude rozdělen do dvou hlavních částí, kde první část

Více

Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/

Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/ Střední odborná škola elektrotechnická, Centrum odborné přípravy Zvolenovská 537, Hluboká nad Vltavou Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/34.0448 CZ.1.07/1.5.00/34.0448 1 Číslo projektu

Více

PROCESORY. Typy procesorů

PROCESORY. Typy procesorů PROCESORY Procesor (CPU Central Processing Unit) je ústřední výkonnou jednotkou počítače, která čte z paměti instrukce a na jejich základě vykonává program. Primárním úkolem procesoru je řídit činnost

Více

Další aspekty architektur CISC a RISC Aktuálnost obsahu registru

Další aspekty architektur CISC a RISC Aktuálnost obsahu registru Cíl přednášky: Vysvětlit principy práce s registry v architekturách RISC a CISC, upozornit na rozdíly. Vysvětlit možnosti využívání sad registrů. Zabývat se principy využívanými v procesorech Intel. Zabývat

Více

PV109: Historie a vývojové trendy ve VT

PV109: Historie a vývojové trendy ve VT PV109: Historie a vývojové trendy ve VT Vývojové trendy Luděk Matyska Fakulta informatiky Masarykovy univerzity podzim 2014 Luděk Matyska (FI MU) PV109: Historie a vývojové trendy ve VT podzim 2014 1 /

Více

ORGANIZAČNÍ A VÝPOČETNÍ TECHNIKA

ORGANIZAČNÍ A VÝPOČETNÍ TECHNIKA Střední škola, Havířov Šumbark, Sýkorova 1/613, příspěvková organizace ORGANIZAČNÍ A VÝPOČETNÍ TECHNIKA PROCESORY Ing. Bouchala Petr 2010 Vytištěno pro vnitřní potřebu školy PROCESORY 1.Úvod základní pojmy

Více

Pokročilé architektury počítačů

Pokročilé architektury počítačů Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Pokročilé architektury počítačů Architektura Intel Larrabee 5.12.2009 Josef Stoklasa STO228 Obsah: 1. Úvod do tajů

Více

Úvod do problematiky návrhu počítačových systémů. INP 2008 FIT VUT v Brně

Úvod do problematiky návrhu počítačových systémů. INP 2008 FIT VUT v Brně Úvod do problematiky návrhu počítačových systémů INP 2008 FIT VUT v Brně Čím se budeme zabývat Budou nás zejména zajímat jednoprocesorové číslicové počítače: Funkce počítače Struktura propojení funkčních

Více

Intel Pentium D (1) Intel Pentium D (4) Intel Pentium Extreme Edition (1) Intel Pentium D (5)

Intel Pentium D (1) Intel Pentium D (4) Intel Pentium Extreme Edition (1) Intel Pentium D (5) Intel Pentium D () Založen na mikroarchitektuře NetBurst Vyráběn s frekvencemi, GHz, GHz Systémová sběrnice pracuje s taktem MHz (vyjma procesoru s frekvencí, GHz, u něhož je frekvence systémové sběrnice

Více

GPGPU Aplikace GPGPU. Obecné výpočty na grafických procesorech. Jan Vacata

GPGPU Aplikace GPGPU. Obecné výpočty na grafických procesorech. Jan Vacata Obecné výpočty na grafických procesorech Motivace Úvod Motivace Technologie 3 GHz Intel Core 2 Extreme QX9650 Výkon: 96 GFLOPS Propustnost paměti: 21 GB/s Orientační cena: 1300 USD NVIDIA GeForce 9800

Více

Nvidia CUDA Paralelní programování na GPU

Nvidia CUDA Paralelní programování na GPU Mendelova univerzita v Brně Provozně ekonomická fakulta Nvidia CUDA Paralelní programování na GPU 2014 O čem to bude... Trocha historie Shadery Unifikace GPGPU CUDA Využití GPGPU GPU a jeho Hardware Nvidia

Více

Architektura počítačů

Architektura počítačů Architektura počítačů Studijní materiál pro předmět Architektury počítačů Ing. Petr Olivka katedra informatiky FEI VŠB-TU Ostrava email: petr.olivka@vsb.cz Ostrava, 2010 1 1 Architektura počítačů Pojem

Více

MSP 430F1611. Jiří Kašpar. Charakteristika

MSP 430F1611. Jiří Kašpar. Charakteristika MSP 430F1611 Charakteristika Mikroprocesor MSP430F1611 je 16 bitový, RISC struktura s von-neumannovou architekturou. Na mikroprocesor má neuvěřitelně velkou RAM paměť 10KB, 48KB + 256B FLASH paměť. Takže

Více

Intel Itanium. Referát. Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky

Intel Itanium. Referát. Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Pokročilé architektury počítačů Intel Itanium Referát Tomáš Vojtas (voj209) 2.12.2009 Úvod Itanium

Více

Identifikátor materiálu: ICT-1-08

Identifikátor materiálu: ICT-1-08 Identifikátor materiálu: ICT-1-08 Předmět Informační a komunikační technologie Téma materiálu Motherboard, CPU a RAM Autor Ing. Bohuslav Nepovím Anotace Student si procvičí / osvojí základní desku počítače.

Více

ARCHITEKTURA PROCESORŮ

ARCHITEKTURA PROCESORŮ ARCHITEKTURA PROCESORŮ Základními jednotkami, které tvoří vnitřní strukturu procesorů, jsou: řadič, který má za úkol číst operandy (data, čísla) a instrukce z operační paměti, dekódovat je a na základě

Více

VÝUKOVÝ MATERIÁL. 3. ročník učebního oboru Elektrikář Přílohy. bez příloh. Identifikační údaje školy

VÝUKOVÝ MATERIÁL. 3. ročník učebního oboru Elektrikář Přílohy. bez příloh. Identifikační údaje školy VÝUKOVÝ MATERIÁL Identifikační údaje školy Číslo projektu Název projektu Číslo a název šablony Autor Tematická oblast Číslo a název materiálu Anotace Vyšší odborná škola a Střední škola, Varnsdorf, příspěvková

Více

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 Číslo projektu: Číslo šablony: 3 CZ.1.07/1.5.00/34.0410 Název materiálu: Ročník: Identifikace materiálu: Jméno autora: Předmět: Tématický celek:

Více

Obsah. Kapitola 1 Hardware, procesory a vlákna Prohlídka útrob počítače...20 Motivace pro vícejádrové procesory...21

Obsah. Kapitola 1 Hardware, procesory a vlákna Prohlídka útrob počítače...20 Motivace pro vícejádrové procesory...21 Stručný obsah 1. Hardware, procesory a vlákna... 19 2. Programování s ohledemna výkon... 45 3. Identifikování příležitostí pro paralelizmus... 93 4. Synchronizace a sdílení dat... 123 5. Vlákna v rozhraní

Více

Intel 80286. Procesor a jeho konstrukce. Vývojové typy, činnost procesoru

Intel 80286. Procesor a jeho konstrukce. Vývojové typy, činnost procesoru Procesor a jeho konstrukce. Vývojové typy, činnost procesoru První obvod nazvaný mikroprocesor uvedla na trh firma Intel v roce 1970. Šlo o 4bitový procesor Intel 4004. V roce 1972 byl MCS8 prvním 8bitovým

Více

Paměť počítače. 0 (neprochází proud) 1 (prochází proud)

Paměť počítače. 0 (neprochází proud) 1 (prochází proud) Paměť počítače Paměť je nezbytnou součástí jakéhokoli počítače. Slouží k uložení základních informací počítače, operačního systému, aplikačních programů a dat uživatele. Počítače jsou vybudovány z bistabilních

Více

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 TECHNICKÉ VYBAVENÍ POČÍTAČŮ

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 TECHNICKÉ VYBAVENÍ POČÍTAČŮ MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 TECHNICKÉ VYBAVENÍ POČÍTAČŮ 1) INFORMACE VE VÝPOČETNÍ TECHNICE 3 2) POČÍTAČOVÉ ARCHITEKTURY, POČÍTAČ JAKO ČÍSLICOVÝ STROJ 3 3) SIGNÁLY 3

Více

Intel Pentium D (1) Intel Pentium D (4) Intel Pentium Extreme Edition (1) Intel Pentium D (5)

Intel Pentium D (1) Intel Pentium D (4) Intel Pentium Extreme Edition (1) Intel Pentium D (5) Intel Pentium D () Založen na mikroarchitektuře NetBurst Vyráběn s frekvencemi, GHz, GHz Systémová sběrnice pracuje s taktem MHz (vyjma procesoru s frekvencí, GHz, u něhož je frekvence systémové sběrnice

Více

Struktura a architektura počítačů

Struktura a architektura počítačů Struktura a architektura počítačů Alfanumerické kódy Řadič procesoru CISC, RISC Pipelining České vysoké učení technické Fakulta elektrotechnická Ver 1.20 J. Zděnek 2014 Alfanumerické kódy Kódování zobrazitelných

Více

Řetězené zpracování. INP 2008 FIT VUT v Brně

Řetězené zpracování. INP 2008 FIT VUT v Brně Řetězené zpracování INP 2008 FIT VUT v Brně 1 Techniky urychlování výpočtu v HW Lze realizovat speciální kódování dle potřeby dané úlohy Příklad: aritmetické operace v kódu zbytkových tříd jsou extrémně

Více

Paměti Josef Horálek

Paměti Josef Horálek Paměti Josef Horálek Paměť = Paměť je pro počítač životní nutností = mikroprocesor z ní čte programy, kterými je řízen a také do ní ukládá výsledky své práce = Paměti v zásadě můžeme rozdělit na: = Primární

Více

Procesor. Základní prvky procesoru Instrukční sada Metody zvýšení výkonu procesoru

Procesor. Základní prvky procesoru Instrukční sada Metody zvýšení výkonu procesoru Počítačové systémy Procesor Miroslav Flídr Počítačové systémy LS 2006-1/17- Západočeská univerzita v Plzni Víceúrovňová organizace počítače Digital logic level Microarchitecture level Processor Instruction

Více

Co je grafický akcelerátor

Co je grafický akcelerátor Co je grafický akcelerátor jednotka v osobním počítači či herní konzoli přebírá funkce hlavního procesoru pro grafické operace graphics renderer odlehčuje hlavnímu procesoru paralelní zpracování vybaven

Více

Princip funkce počítače

Princip funkce počítače Princip funkce počítače Princip funkce počítače prvotní úlohou počítačů bylo zrychlit provádění matematických výpočtů první počítače kopírovaly obvyklý postup manuálního provádění výpočtů pokyny pro zpracování

Více

Profilová část maturitní zkoušky 2014/2015

Profilová část maturitní zkoušky 2014/2015 Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2014/2015 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 26-41-M/01 Elektrotechnika Zaměření: technika

Více

Architektura procesoru ARM

Architektura procesoru ARM Architektura procesoru ARM Bc. Jan Grygerek GRY095 Obsah ARM...3 Historie...3 Charakteristika procesoru ARM...4 Architektura procesoru ARM...5 Specifikace procesoru...6 Instrukční soubor procesoru...6

Více

Kubatova 19.4.2007 Y36SAP - 13. procesor - control unit obvodový a mikroprogramový řadič RISC. 19.4.2007 Y36SAP-control unit 1

Kubatova 19.4.2007 Y36SAP - 13. procesor - control unit obvodový a mikroprogramový řadič RISC. 19.4.2007 Y36SAP-control unit 1 Y36SAP - 13 procesor - control unit obvodový a mikroprogramový řadič RISC 19.4.2007 Y36SAP-control unit 1 Von Neumannova architektura (UPS1) Instrukce a data jsou uloženy v téže paměti. Paměť je organizována

Více

PŘEDSTAVENÍ GRAFICKÉHO PROCESORU NVIDIA G200

PŘEDSTAVENÍ GRAFICKÉHO PROCESORU NVIDIA G200 PŘEDSTAVENÍ GRAFICKÉHO PROCESORU NVIDIA G200 Bc.Adam Berger Ber 208 Historie a předchůdci G200 V červnu roku 2008 spatřila světlo světa nová grafická karta od společnosti Nvidia. Tato grafická karta opět

Více

Luděk Matyska. Jaro 2015

Luděk Matyska. Jaro 2015 PA039: Architektura superpočítačů a náročné výpočty Luděk Matyska Fakulta informatiky MU Jaro 2015 Luděk Matyska (FI MU) Úvod Jaro 2015 1 / 67 Pravidla hry Účast na přednáškách není povinná Zkouška Pouze

Více

Architektura procesorů PC shrnutí pojmů

Architektura procesorů PC shrnutí pojmů Architektura procesorů PC shrnutí pojmů 1 Co je to superskalární architektura? Minimálně dvě fronty instrukcí. Provádění instrukcí je možné iniciovat současně, instrukce se pak provádějí paralelně. Realizovatelné

Více

Kvantitativní principy návrhu počítačů

Kvantitativní principy návrhu počítačů Architektura počítačových systémů Kvantitativní principy návrhu počítačů České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Aktualizace výukových materiálů

Více

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2013 1.3 2/14

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2013 1.3 2/14 ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2013 1.3 2/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 14 0:40 1.3. Vliv hardware počítače na programování Vliv

Více

Semestrální práce z předmětu Speciální číslicové systémy X31SCS

Semestrální práce z předmětu Speciální číslicové systémy X31SCS Semestrální práce z předmětu Speciální číslicové systémy X31SCS Katedra obvodů DSP16411 ZPRACOVAL: Roman Holubec Školní rok: 2006/2007 Úvod DSP16411 patří do rodiny DSP16411 rozšiřuje DSP16410 o vyšší

Více

Operace ALU. INP 2008 FIT VUT v Brně

Operace ALU. INP 2008 FIT VUT v Brně Operace ALU INP 2008 FIT VUT v Brně 1 Princip ALU (FX) Požadavky: Logické operace Sčítání (v doplňkovém kódu) Posuvy/rotace Násobení ělení B A not AN OR XOR + Y 1) Implementace logických operací je zřejmá

Více

GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA

GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA HISTORIE GPU GPU = graphics processing unit jde o akcelerátory pro algoritmy v 3D grafice a vizualizaci mnoho z nich původně vzniklo pro účely počítačových

Více

Techniky zvýšení výkonnosti procesoru, RISC a CISC procesory

Techniky zvýšení výkonnosti procesoru, RISC a CISC procesory Techniky zvýšení výkonnosti procesoru, RISC a CISC procesory Kategorizace architektur počítačů Co popisuje architektura počítačů: (CPU = ALU + řadič + paměť + Vstupy/Výstupy) Subskalární architektura (von

Více

Mikrokontroléry. Doplňující text pro POS K. D. 2001

Mikrokontroléry. Doplňující text pro POS K. D. 2001 Mikrokontroléry Doplňující text pro POS K. D. 2001 Úvod Mikrokontroléry, jinak též označované jako jednočipové mikropočítače, obsahují v jediném pouzdře všechny podstatné části mikropočítače: Řadič a aritmetickou

Více

Referát (pokročilé architektury počítačů)

Referát (pokročilé architektury počítačů) Referát (pokročilé architektury počítačů) Představení architektury procesoru AMD K10 Roman Výtisk, VYT027 1 AMD K8 Nejprve bych zmínil, co této architektuře předcházelo a co tato architektura přinesla

Více

Paralelní a distribuované výpočty (B4B36PDV)

Paralelní a distribuované výpočty (B4B36PDV) Paralelní a distribuované výpočty (B4B36PDV) Branislav Bošanský, Michal Jakob bosansky@fel.cvut.cz Artificial Intelligence Center Department of Computer Science Faculty of Electrical Engineering Czech

Více

Strojový kód k d a asembler procesoru MIPS SPIM. MIPS - prostředí NMS NMS. 32 ks 32bitových registrů ( adresa registru = 5 bitů).

Strojový kód k d a asembler procesoru MIPS SPIM. MIPS - prostředí NMS NMS. 32 ks 32bitových registrů ( adresa registru = 5 bitů). Strojový kód k d a asembler procesoru MIPS Použit ití simulátoru SPIM K.D. - cvičení ÚPA 1 MIPS - prostředí 32 ks 32bitových registrů ( adresa registru = 5 bitů). Registr $0 je zero čte se jako 0x0, zápis

Více

Cache paměti (2) Cache paměti (1) Cache paměti (3) Cache paměti (4) Cache paměti (6) Cache paměti (5) Cache paměť:

Cache paměti (2) Cache paměti (1) Cache paměti (3) Cache paměti (4) Cache paměti (6) Cache paměti (5) Cache paměť: Cache paměti (1) Cache paměť: rychlá vyrovnávací paměť mezi rychlým zařízením (např. procesor) a pomalejším zařízením (např. operační paměť) vyrobena z obvodů SRAM s přístupovou dobou 1 20 ns V dnešních

Více

Procesy a vlákna (Processes and Threads)

Procesy a vlákna (Processes and Threads) ÚVOD DO OPERAČNÍCH SYSTÉMŮ Ver.1.00 Procesy a vlákna (Processes and Threads) Správa procesů a vláken České vysoké učení technické Fakulta elektrotechnická 2012 Použitá literatura [1] Stallings, W.: Operating

Více

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. Jiří Barnat

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. Jiří Barnat IB109 Návrh a implementace paralelních systémů Organizace kurzu a úvod Jiří Barnat Sekce IB109 Návrh a implementace paralelních systémů: Organizace kurzu a úvod str. 2/32 Organizace kurzu Organizace kurzu

Více

Profilová část maturitní zkoušky 2015/2016

Profilová část maturitní zkoušky 2015/2016 Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2015/2016 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 26-41-M/01 Elektrotechnika Zaměření: technika

Více

Operační systémy. Přednáška 8: Správa paměti II

Operační systémy. Přednáška 8: Správa paměti II Operační systémy Přednáška 8: Správa paměti II 1 Jednoduché stránkování Hlavní paměť rozdělená na malé úseky stejné velikosti (např. 4kB) nazývané rámce (frames). Program rozdělen na malé úseky stejné

Více

Nvidia CUDA Paralelní programování na GPU

Nvidia CUDA Paralelní programování na GPU Mendelova univerzita v Brně Provozně ekonomická fakulta Nvidia CUDA Paralelní programování na GPU 2017 O čem to bude... Trocha historie Shadery Unifikace GPGPU CUDA Využití GPGPU GPU a jeho Hardware Nvidia

Více

Vyuºití GPGPU pro zpracování dat z magnetické rezonance

Vyuºití GPGPU pro zpracování dat z magnetické rezonance Vyuºití pro zpracování dat z magnetické rezonance Katedra matematiky, Fakulta jaderná a fyzikáln inºenýrská, ƒeské vysoké u ení technické v Praze Bakalá ská práce 2007/2008 Cíle práce Zpracování dat z

Více

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Registrační číslo projektu Šablona Autor Název materiálu CZ.1.07/1.5.00/34.0951 III/2 INOVACE A ZKVALITNĚNÍ VÝUKY PROSTŘEDNICTVÍM ICT Mgr. Petr

Více