Architektura počítačů Paralelní zpracování
|
|
- Andrea Fišerová
- před 6 lety
- Počet zobrazení:
Transkript
1 Architektura počítačů Paralelní zpracování Lubomír Bulej CHARLES UNIVERSITY IN PRAGUE faculty faculty of of mathematcs mathematcs and and physics physics
2 Paralelní zpracování Dosavadní metody paralelizace Paralelizmus na úrovni instrukčních kroků Pipelining Paralelizmus na úrovni instrukcí Superskalární zpracování Další metody paralelizace Paralelizmus na úrovni dat Vektorové zpracování Masivně paralelní zpracování Paralelizmus na úrovni procesů 2/27
3 Proč je těžké psát paralelní programy? Paralelní program musí být rychlejší než sekvenční Jinak nedává smysl ho psát Očekává se, že bude škálovat s počtem procesorů S rostoucím počtem procesorů stále obtíněějí Plánování, synchronizace, load-balancing Připomenutí Amdahlův zákon Limit teoretckého zrychlení sekvenčního algoritmu při paralelním zpracování n... počet paralelně běíících vláken B <0, 1>... poměrná část neparalelizovatelné část algoritmu Speedup(n)= 1 (1 B) B+ n 3/27
4 Co brání zrychlování? Sekvenční část Jaký program mohu 90x zrychlit na 100 procesorech? Speedup(n)= 1 (1 B) B+ n n = 100, Speedup(n) = 90 B= Speedup (n) n = = ( n 1) Speedup (n) Sekvenční část můíe být pouze 0.1% programu. 4/27
5 Co brání zrychlování? Velikost problému (weak/strong scaling) Součet 10 proměnných (sekvenční) a součet dvou matc 10x10 (paralelní), čas na součet t. Na 1 procesoru: 100t + 10t = 110t Na 10 procesorech: (100/10)t + 10t = 20t Zrychlení 110t/20t = 5.5 (55% potenciálního zrychlení) Na 40 procesorech: (100/40)t + 10t = 12.5t Zrychlení 110t/12.5t = 8.8 (22% potenciálního zrychlení) Součet 10 proměnných a součet dvou matc 20x20. Na 1 procesoru: 400t + 10t = 410t Na 10 procesorech: (400/10)t + 10t = 50t Zrychlení 410t/50t = 8.2 (82% potenciálního zrychlení) Na 40 procesorech: (400/40)t + 10t = 20t Zrychlení 410t/20t = 20.5 (51% potenciálního zrychlení) 5/27
6 Co brání zrychlování? Load-balancing Součet 10 proměnných a součet dvou matc 20x20 na 40 procesorech. Předpoklad rovnoměrně rozdělené práce, tě. kaídý procesor vykonal 2.5% práce. Co kdyby ěeden procesor udělal 2x více (5%)? Jeden procesor udělá 20 součtů (5% ze 400), ostatních 39 se podělí o zbývaěících 380. Čas zpracování ěe Max (380t/39, 20t/1) + 10t = 30t Zrychlení klesá z 20.5 na 410t/30t = 14. Ostatních procesory ěsou vyuíity méně neí polovinu času, počítaěí pouze 380t/39 = 9.7t Co kdyby ěeden procesor udělal 5x více (12.5%)? Čas zpracování ěe Max (350t/39, 50t/1) + 10t = 60t Zrychlení klesá z 20.5 na 410t/60t = 7. Ostatních procesory ěsou vyuíity méně neí 20% času. 6/27
7 Flynnova taxonomie Architektura zpracování dat Michael J. Flynn (1966) SISDí Single Instructin, Single Data stream Tradiční skalární procesor (von Neumann) SIMDí Single Instructin, Multile Data streams Vektorový procesor MISDí Multile Instructin, Single Data stream [1] Potenciálně heterogenní systém odolný vůči výpadkům MIMDí Multile Instructin, Multile Data streams Víceprocesorový systém Programovací model pro MIMD: SPMD (Single Program Multple Data) Superskalární procesory na pomezí SISD/SIMD 7/27
8 Flynnova taxonomie (2) SIMD Instructons ALU Instructons MISD Data Data SISD Instructons ALU MIMD Instructons ALU ALU ALU ALU Data Data ALU ALU ALU 8/27
9 Vektorové zpracování Příkladí Sčítání tří dvojic jednobytových čísel Skalární zpracování for {0, 1, 2} i: mem_a[i] r1 (rizšíření na velikist sliva) mem_b[i] r2 (rizšíření na velikist sliva) add(r1, r2) r3 r3 mem_c[i] (restrikce na 8 bitů) Vektorové zpracování mem_a[0, 1, 2, 3] vr1 mem_b[0, 1, 2, 3] vr2 vector_add(vr1, vr2) vr3 (sčítání ii sližkách) vr3 mem_c[0, 1, 2, 3] 9/27
10 Vektorové zpracování (2) Vektorová rozšíření skalární instrukční sady IA-32 MMX (MultMedia extensiins, od Penta MMX) 64bitové registry MM0 aí MM7 (aliasy na FPU registry) 1 64bitový integer (ěen několik operací), 2 32bitový integer, 4 16bitový integer, 8 8bitový integer Logické operace, bitové posuny, sčítání, odčítání, násobení, porovnávání (vje po sloíkách), konverze formátů Saturační aritmetka Omezení výsledku na interval <min, max> 3DNow! (od K6-2) 2 32bitový single precision Floatng point aritmetka (po sloíkách), celočíselné průměrování, hledání maxima atd. 10/27
11 Vektorové zpracování (3) Vektorová rozšíření skalární instrukční sady IA-32/AMD64 SSE (Streaming SIMD Extensiins, od Penta III) SSE, SSE2, SSE3, SSSE3, SSE4, XOP, FMA4, CVT16 128bitové registry XMM0 aí XMM7, pozděěi aí XMM bitový single precision 2 64bitový double precision, 2 64bitový integer, 4 32bitový integer, 8 16bitový integer, 16 8bitový integer Aritmetcké, logické, konverzní operace Kombinované aritmetcké operace (aritmetka po sloíkách do křííe apod.) Aritmetka s komplexními čísly Fused multply-add, permutace sloíek Výpočet CRC32, počet ěedničkových bitů 11/27
12 Vektorové zpracování (4) Vektorová rozšíření skalární instrukční sady IA-32/AMD64 AVX (Advanced Vectir Extensiins, od Sandy Bridge/Bulldozer) AVX2, AVX-512 (od Haswell) 256bitové registry YMM0 aí YMM15 AVX-512: 512bitové registry ZMM0 aí ZMM15 Tříoperandový formát instrukcí Power/PowerPC AltVec (od G4, POWER6) Přibliíně srovnatelné s SSE 12/27
13 Vektorové zpracování (5) Vektorová rozšíření skalární instrukční sady SPARC VIS (Visual Instructin Set, od UltraSPARC II) RISCová flozofe, ěednodujjí vektorové operace MIPS MDMX (MIPS Digital Media extensiin), MIPS-3D Přibliíně srovnatelné s MMX ARM Advanced SIMD/NEON Přibliíně srovnatelné s SSE 13/27
14 Víceprocesorové systémy Široké spektrum implementací Víceěádrové procesory Vlastně ěen důsledněěi oddělené pipelines superskalárního procesoru Některé část mohou být mezi ěádry stále sdílené (L2 cache) Víceprocesorové systémy Symmetric/Shared Memiry Multiricessing (SMP) Nezávislá obecná ěádra v oddělených pouzdrech Sdílený přístup do hlavní pamět (Unifirm Memiry Access, UMA) Specializované koprocesory Nezávislá ěádra, některá z nich velmi specializovaná (Cell) Nin-Unifirm Memiry Access (NUMA) Nezávislá ěádra s lokální hlavní pamět Přístup do nelokální pamět ěiného ěádra můíe být transparentní (ovjem draíjí) nebo netransparentní (řízen sofwarem) Clustery, některé typy cloudu (IaaS) 14/27
15 Masivně paralelní zpracování Základní myšlenka SIMD/MIMD architektura s (relatvně) ěednoduchými procesory a (relatvně) malou lokální pamět Omezená a řízená komunikace mezi procesory CM-1 Connecton Machine (1983) bitových procesorů, kaídý 4 kb RAM Propoěovací síť topologie hyperkrychle Společná řídící logika, I/O procesor Vhodné pro extrémně dobře paralelizovatelné úlohy Umělá inteligence Symbolické manipulace [2] 15/27
16 Masivně paralelní zpracování (2) Evoluce grafckých procesorů (GPU) Původně koprocesory pro urychlování konkrétních grafckých operací Kreslení grafckých primitv (čáry, kruínice) Přesuny bloků obrazové pamět bez zásahu CPU (blit) Pozděěi implementace sloíitěějích operací pro 3D grafku Efektvní pipelining na úrovni ěednotlivých fází kreslení 3D scény Geometrické transformace Řejení viditelnost Mapování textur Úpravy na úrovni pixelů Algoritmy zadrátovány do hardware 16/27
17 Masivně paralelní zpracování (3) Evoluce grafckých procesorů (GPU) Programovatelný zásah do grafcké pipeline Vertex shaders, iixel shaders Původně ěen ěednoduchá a krátká sekvence vektorových operací (často bez moínost cyklů, omezené větvení) Paralelní aplikace steěného algoritmu na vjechny hrany scény (resp. vjechny pixely) současně První pokusy o vyuíit pro negrafcké výpočty Víceméně ěako vedleějí efekt velkého foatng-point výkonu Input Assembler Vertex Shader Geometry Shader Setup & Rasterizer Pixel Shader Raster Ops/ Out Merger 17/27
18 Masivně paralelní zpracování (4) Evoluce grafckých procesorů (GPU) General-Puriise Cimiutng GPU (GPGPU) Čím dál větjí část zadrátovaných grafckých algoritmů řejena SIMD kódem Masivně paralelní architektura Input Assembler Vertex Shader Unifed Processor Array Geometry Shader Setup & Rasterizer Pixel Shader Raster Ops/ Out Merger 18/27
19 Masivně paralelní zpracování (5) GeForce 8800 (NVIDIA Tesla) [4] 19/27
20 Masivně paralelní zpracování (7) GeForce 8800 (NVIDIA Tesla) Texture/Processor Cluster 2x Streaming Multprocessor 8x Streaming Processor 2x Special Functon Unit Texture Unit (texture cache) Streaming Processor 96 HW vláken bit FP registrů běžné FP operace Special Functon Unit transcendentní funkce interpolace atributů pixelů [4] 20/27
21 Masivně paralelní zpracování (8) [4] GeForce 8800 (NVIDIA Tesla) warp = skupina 32 vláken instrukce vykonána všemi vlákny ve 4 taktech plánování warpů podle dostupnost dat a priorit 21/27
22 Masivně paralelní zpracování (9) Odlišnost v cílech návrhu CPU a GPU CPU musí dobře zvládat různé typy úloh, ať uí paralelních, nebo sekvenčních u GPU se předpokládá (ideálně) datově paralelní úloha, vjechna vlákna vykonávaěí steěný program (kernel) GPU nepasuěe do Flynnovy taxonomie, v případě GPU se hovoří o SIMT datový paralelizmus identfkován dynamicky, na rozdíl od vektorového/simd zpracování (analogické k dynamické identfkaci instrukčního paralelizmu u superskalárních procesorů na rozdíl od VLIW) CPUí minimalizace latence pozorovatelná jedním vláknem Velké cache, hit rato > 99%, working set řádu ěednotek MB Jednotky/desítky vláken, sofstkované řízení GPUí maximalizace propustnost všech vláken Počet aktvních vláken omezen prostředky => velké mnoíství prostředků Masivní mult-threading maskuěe latence => malé cache, hit rato > 90% Working set v řádu stovek MB, nevykazuěe silnou časovou lokalitu Stovky vláken, sdílená řídící logika 22/27
23 Shrnut Aneb co si z předmětu odnést... Správné fungování vyšších vrstev abstrakce závisí na správném využit nižších vrstev abstrakce Vejkeré programy, ať uí ěsou napsány v čemkoliv, nakonec běíí ve stroěovém kódu na procesoru Základy vnitřního fungování procesoru se dají snadno pochopit Skutečné procesory se od těch z přednájky lijí ěen tm, íe několik set chytrých lidí mělo mnoho roků na přemýjlení, ěak z nich dostat maximum (za danou cenu) Občas je dobré podívat se do historie Nové inovatvní myjlenky stále přicházeěí, ale obvykle stoěí na dřívěějích zkujenostech, pokusech a omylech 23/27
24 Shrnut (2) Aneb co si z předmětu odnést... Moorův zákon není zákon Jeho udríování v platnost ěe pracné Neznamená automatcké zvyjování hrubého sekvenčního výkonu Je potřeba přemýjlet nad novými paradigmaty (paralelní zpracování) Zachytt výkonnost počítače nelze jedním číslem Občas ani dvě čísla nestačí Vídy ěe důleíité vědět, s ěakým workloadem pracuěi, zda ěeě můě benchmark správně aproximuěe, ěakou metriku vlastně optmalizuěi atd. 24/27
25 Shrnut (3) Aneb co si z předmětu odnést... Počítače jsou složeny jako stavebnice Sekvenční obvody, kombinační obvody, funkční bloky, logická hradla, logické operace Aplikační binární rozhraní (ABI) Sada konvencí společná hardwaru a sofwaru Kódování celých a necelých čísel, big/litle endian, kódování instrukcí, vyuíit registrů, vyuíit instrukční sady (volání podprogramů atd.) 25/27
26 Shrnut (4) Aneb co si z předmětu odnést... Optmalizace má největší účinek pro nejčastější případy Amdahlův zákon Pozor na marná očekávání Když nelze zvýšit hrubý výkon, je možné zvyšovat propustnost Vícecyklové zpracování, pipelining, paralelní zpracování, zpracování mimo pořadí, spekulatvní provádění, masivně paralelní architektury Na výkonnost se více či méně podíleěí vjechny část řetězce (programátor, překladač, procesor, paměťový subsystém atd.) Výkonnost programu na dnejních počítačích můíe extrémně ovlivnit (ne)správné vyuíit cache 26/27
27 Reference [1] [2] [3] [4] htp://upload.wikimedia.org/wikipedia/commons/0/0e/michael_flynn.ěpg htp://upload.wikimedia.org/wikipedia/commons/6/61/frostburg.ěpg D. A. Paterson, J. L. Hennessy. Computer Organizaton & Design. 5th ed., Elsevier, 2014 E. Lindholm et al. NVIDIA Tesla: A Unifed Graphics and Computng Architecture. IEEE Micro, 28(2):39-55, /27
Přehled paralelních architektur. Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur
Přehled paralelních architektur Přehled paralelních architektur Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur Přehled I. paralelní počítače se konstruují
Architektura počítačů Agenda
Architektura počítačů Agenda http://d3s.mff.cuni.cz http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty faculty of of mathematcs
Paralelní a distribuované výpočty (B4B36PDV)
Paralelní a distribuované výpočty (B4B36PDV) Branislav Bošanský, Michal Jakob bosansky@fel.cvut.cz Artificial Intelligence Center Department of Computer Science Faculty of Electrical Engineering Czech
OPS Paralelní systémy, seznam pojmů, klasifikace
Moorův zákon (polovina 60. let) : Výpočetní výkon a počet tranzistorů na jeden CPU chip integrovaného obvodu mikroprocesoru se každý jeden až dva roky zdvojnásobí; cena se zmenší na polovinu. Paralelismus
Paralelní programování
Paralelní programování přednáška 5 Michal Krupka 15. března 2011 Michal Krupka (KI UP) Paralelní programování 15. března 2011 1 / 13 Ještě ke kritickým sekcím Použití v praxi obvykle pomocí zámků (locks)
Úvod do GPGPU J. Sloup, I. Šimeček
Úvod do GPGPU J. Sloup, I. Šimeček xsimecek@fit.cvut.cz Katedra počítačových systémů FIT České vysoké učení technické v Praze Ivan Šimeček, 2011 MI-PRC, LS2010/11, Predn.3 Příprava studijního programu
Pokročilé architektury počítačů
Pokročilé architektury počítačů Přednáška 5 GPU - CUDA Martin Milata Obsah Obecné výpočty a GPU Grafické procesory NVIDIA Tesla Výpočetní model Paměťový model GT200 Zpracování instrukcí Vydávání instrukcí
Charakteristika dalších verzí procesorů v PC
Charakteristika dalších verzí procesorů v PC 1 Cíl přednášky Poukázat na principy tvorby architektur nových verzí personálních počítačů. Prezentovat aktuální pojmy. 2 Úvod Zvyšování výkonu cestou paralelizace
Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC
Informační systémy 2 Obsah: Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC ROM RAM Paměti typu CACHE IS2-4 1 Dnešní info: Informační systémy 2 03 Informační systémy
Co je grafický akcelerátor
Co je grafický akcelerátor jednotka v osobním počítači či herní konzoli přebírá funkce hlavního procesoru pro grafické operace graphics renderer odlehčuje hlavnímu procesoru paralelní zpracování vybaven
Základy informatiky. 2. Přednáška HW. Lenka Carr Motyčková. February 22, 2011 Základy informatiky 2
Základy informatiky 2. Přednáška HW Lenka Carr Motyčková February 22, 2011 Základy informatiky 1 February 22, 2011 Základy informatiky 2 February 22, 2011 Základy informatiky 3 February 22, 2011 Základy
Nvidia CUDA Paralelní programování na GPU
Mendelova univerzita v Brně Provozně ekonomická fakulta Nvidia CUDA Paralelní programování na GPU 2014 O čem to bude... Trocha historie Shadery Unifikace GPGPU CUDA Využití GPGPU GPU a jeho Hardware Nvidia
Obecné výpočty na GPU v jazyce CUDA. Jiří Filipovič
Obecné výpočty na GPU v jazyce CUDA Jiří Filipovič Obsah přednášky motivace architektura GPU CUDA programovací model jaké algoritmy urychlovat na GPU? optimalizace Motivace Moorův zákon stále platí pro
CHARAKTERISTIKA MODERNÍCH PENTIÍ. Flynnova klasifikace paralelních systémů
Úvod: CHARAKTERISTIKA MODERNÍCH PENTIÍ Flynnova klasifikace paralelních systémů Paralelní systémy lze třídit z hlediska počtu toků instrukcí a počtu toků dat: SI systém s jedním tokem instrukcí (Single
Jan Nekvapil ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická
Jan Nekvapil jan.nekvapil@tiscali.cz ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Motivace MMX, EMMX, MMX+ 3DNow!, 3DNow!+ SSE SSE2 SSE3 SSSE3 SSE4.2 Závěr 2 Efektivní práce s vektory
Operační systémy. Přednáška 1: Úvod
Operační systémy Přednáška 1: Úvod 1 Organizace předmětu Přednášky každé úterý 18:00-19:30 v K1 Přednášející Jan Trdlička email: trdlicka@fel.cvut.z kancelář: K324 Cvičení pondělí, úterý, středa Informace
Pokročilé architektury počítačů
Pokročilé architektury počítačů Tutoriál 3 CUDA - GPU Martin Milata Výpočetní model CUDA Organizace kódu Sériově organizovaný kód určený pro CPU Paralelní kód prováděný na GPU Označuje se jako kernel GPU
Přednáška 1. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012
Přednáška 1 Úvod do HW a OS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Příprava studijního programu Informatika je podporována projektem financovaným z Evropského
Architektura počítačů Logické obvody
Architektura počítačů Logické obvody http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty of mathematics and physics Digitální
Procesor Intel Pentium (1) Procesor Intel Pentium (3) Procesor Intel Pentium Pro (1) Procesor Intel Pentium (2)
Procesor Intel Pentium (1) 32-bitová vnitřní architektura s 64-bitovou datovou sběrnicí Superskalární procesor: obsahuje více než jednu (dvě) frontu pro zřetězené zpracování instrukcí (značeny u, v) poskytuje
Pohled do nitra mikroprocesoru Josef Horálek
Pohled do nitra mikroprocesoru Josef Horálek Z čeho vycházíme = Vycházíme z Von Neumannovy architektury = Celý počítač se tak skládá z pěti koncepčních bloků: = Operační paměť = Programový řadič = Aritmeticko-logická
Architektura počítačů Výkonnost počítačů
Architektura počítačů Výkonnost počítačů http://d3s.mff.cuni.cz http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty faculty of
Představení a vývoj architektur vektorových procesorů
Představení a vývoj architektur vektorových procesorů Drong Lukáš Dro098 1 Obsah Úvod 3 Historie, současnost 3 Architektura 4 - pipelining 4 - Operace scatter a gather 4 - vektorové registry 4 - Řetězení
Architektura počítačů Logické obvody
Architektura počítačů Logické obvody http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty of mathematics and physics 2/36 Digitální
Charakteristika dalších verzí procesorů Pentium
Charakteristika dalších verzí procesorů Pentium 1 Cíl přednášky Poukázat na principy architektur nových verzí typů Pentií. Prezentovat aktuální pojmy. 2 Úvod Paralelní systémy lze třídit z hlediska počtu
Nvidia CUDA Paralelní programování na GPU
Mendelova univerzita v Brně Provozně ekonomická fakulta Nvidia CUDA Paralelní programování na GPU 2017 O čem to bude... Trocha historie Shadery Unifikace GPGPU CUDA Využití GPGPU GPU a jeho Hardware Nvidia
Paralelní systémy. SIMD jeden tok instrukcí + více toků dat jedním programem je zpracováváno více různých souborů dat
Paralelní systémy Paralelním systémem rozumíme takový systém, který paralelně zpracovává více samostatných úloh nebo zpracování určité úlohy automaticky rozdělí do menších částí a paralelně je zpracovává.
GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA
GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA HISTORIE GPU GPU = graphics processing unit jde o akcelerátory pro algoritmy v 3D grafice a vizualizaci mnoho z nich původně vzniklo pro účely počítačových
Procesor. Základní prvky procesoru Instrukční sada Metody zvýšení výkonu procesoru
Počítačové systémy Procesor Miroslav Flídr Počítačové systémy LS 2006-1/17- Západočeská univerzita v Plzni Víceúrovňová organizace počítače Digital logic level Microarchitecture level Processor Instruction
Úvod do problematiky návrhu počítačových systémů. INP 2008 FIT VUT v Brně
Úvod do problematiky návrhu počítačových systémů INP 2008 FIT VUT v Brně Čím se budeme zabývat Budou nás zejména zajímat jednoprocesorové číslicové počítače: Funkce počítače Struktura propojení funkčních
Intel 80486 (2) Intel 80486 (1) Intel 80486 (3) Intel 80486 (4) Intel 80486 (6) Intel 80486 (5) Nezřetězené zpracování instrukcí:
Intel 80486 (1) Vyroben v roce 1989 Prodáván pod oficiálním názvem 80486DX Plně 32bitový procesor Na svém čipu má integrován: - zmodernizovaný procesor 80386 - numerický koprocesor 80387 - L1 (interní)
4. Úvod do paralelismu, metody paralelizace
4. Úvod do paralelismu, metody paralelizace algoritmů Ing. Michal Bližňák, Ph.D. Ústav informatiky a umělé inteligence Fakulta aplikované informatiky UTB Zĺın Paralelní procesy a programování, Zĺın, 26.
Strojový kód k d a asembler procesoru MIPS SPIM. MIPS - prostředí NMS NMS. 32 ks 32bitových registrů ( adresa registru = 5 bitů).
Strojový kód k d a asembler procesoru MIPS Použit ití simulátoru SPIM K.D. - cvičení ÚPA 1 MIPS - prostředí 32 ks 32bitových registrů ( adresa registru = 5 bitů). Registr $0 je zero čte se jako 0x0, zápis
Architektura počítačů Výkonnost počítačů
Architektura počítačů Výkonnost počítačů http://d3s.mff.cuni.cz http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty faculty of
NSWI /2011 ZS. Principy cpypočítačůčů aoperačních systémů ARCHITEKTURA
Principy cpypočítačůčů aoperačních systémů ARCHITEKTURA Literatura W.Stallings: Computer Organization & Architecture J.L.Hennessy, P.A.Patterson: Patterson: Computer Architecture: a Quantitative Approach
Architektura grafických ip pro Xbox 360 a PS3
Architektura grafických ip pro Xbox 360 a PS3 Jakub Stoszek sto171 VŠB TU Ostrava 12.12.2008 Obsah Grafická karta ATI Xenox (Xbox 360)...3 ip grafické karty ATI Xenos (Xbox 360)...3 Pam grafické karty
Architektura počítačů Implementace procesoru
Architektura počítačů Implementace procesoru http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty of mathematcs and physics Ukázková
Úvod SISD. Sekvenční výpočty SIMD MIMD
Úvod SISD Single instruction single data stream Sekvenční výpočty MISD 1. Přednáška Historie Multiple instruction single data stream SIMD Single instruction multiple data stream MIMD Multiple instruction
Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto
Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Registrační číslo projektu Šablona Autor Název materiálu CZ.1.07/1.5.00/34.0951 III/2 INOVACE A ZKVALITNĚNÍ VÝUKY PROSTŘEDNICTVÍM ICT Mgr. Petr
Využití paralelních výpočtů v geodézii
České vysoké učení technické v Praze Fakulta stavební Katedra mapování a kartografie Využití paralelních výpočtů v geodézii DOKTORSKÁ DISERTAČNÍ PRÁCE Ing. Martin Jeřábek Praha, září 2001 Doktorský studijní
PROCESOR. Typy procesorů
PROCESOR Procesor je ústřední výkonnou jednotkou počítače, která čte z paměti instrukce a na jejich základě vykonává program. Primárním úkolem procesoru je řídit činnost ostatních částí počítače včetně
Architektura počítače
Architektura počítače Výpočetní systém HIERARCHICKÁ STRUKTURA Úroveň aplikačních programů Úroveň obecných funkčních programů Úroveň vyšších programovacích jazyků a prostředí Úroveň základních programovacích
Architektury VLIW M. Skrbek a I. Šimeček
Architektury VLIW M. Skrbek a I. Šimeček xsimecek@fit.cvut.cz Katedra počítačových systémů FIT České vysoké učení technické v Praze Ivan Šimeček, 2011 MI-PAP, LS2010/11, Predn.3 Příprava studijního programu
Přednášky o výpočetní technice. Hardware teoreticky. Adam Dominec 2010
Přednášky o výpočetní technice Hardware teoreticky Adam Dominec 2010 Rozvržení Historie Procesor Paměť Základní deska přednášky o výpočetní technice Počítací stroje Mechanické počítačky se rozvíjely už
PV109: Historie a vývojové trendy ve VT
PV109: Historie a vývojové trendy ve VT Vývojové trendy Luděk Matyska Fakulta informatiky Masarykovy univerzity podzim 2014 Luděk Matyska (FI MU) PV109: Historie a vývojové trendy ve VT podzim 2014 1 /
Obsah. Kapitola 1 Hardware, procesory a vlákna Prohlídka útrob počítače...20 Motivace pro vícejádrové procesory...21
Stručný obsah 1. Hardware, procesory a vlákna... 19 2. Programování s ohledemna výkon... 45 3. Identifikování příležitostí pro paralelizmus... 93 4. Synchronizace a sdílení dat... 123 5. Vlákna v rozhraní
Další aspekty architektur CISC a RISC Aktuálnost obsahu registru
Cíl přednášky: Vysvětlit principy práce s registry v architekturách RISC a CISC, upozornit na rozdíly. Vysvětlit možnosti využívání sad registrů. Zabývat se principy využívanými v procesorech Intel. Zabývat
C2115 Praktický úvod do superpočítání
C2115 Praktický úvod do superpočítání IX. lekce Petr Kulhánek, Tomáš Bouchal kulhanek@chemi.muni.cz Národní centrum pro výzkum biomolekul, Přírodovědecká fakulta, Masarykova univerzita, Kotlářská 2, CZ-61137
2.8 Procesory. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu
Název školy Číslo projektu Autor Název šablony Název DUMu Tematická oblast Předmět Druh učebního materiálu Anotace Vybavení, pomůcky Ověřeno ve výuce dne, třída Střední průmyslová škola strojnická Vsetín
MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 TECHNICKÉ VYBAVENÍ POČÍTAČŮ
MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 TECHNICKÉ VYBAVENÍ POČÍTAČŮ 1) INFORMACE VE VÝPOČETNÍ TECHNICE 3 2) POČÍTAČOVÉ ARCHITEKTURY, POČÍTAČ JAKO ČÍSLICOVÝ STROJ 3 3) SIGNÁLY 3
ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2013 1.3 2/14
ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2013 1.3 2/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 14 0:40 1.3. Vliv hardware počítače na programování Vliv
Architektura počítačů Výkonnost počítačů
Architektura počítačů Výkonnost počítačů http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty of mathematics and physics 2/42
Paralelní architektury - úvod
Paralelní architektury - úvod Úvod do paralelních architektur Příklady paralelních architektur Processor arrays Multiprocesory Multiprocesory se sdílenou pamětí Multiprocesory s distribuovanou pamětí Multipočítače
Profilová část maturitní zkoušky 2014/2015
Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2014/2015 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 26-41-M/01 Elektrotechnika Zaměření: technika
PŘEDSTAVENÍ GRAFICKÉHO PROCESORU NVIDIA G200
PŘEDSTAVENÍ GRAFICKÉHO PROCESORU NVIDIA G200 Bc.Adam Berger Ber 208 Historie a předchůdci G200 V červnu roku 2008 spatřila světlo světa nová grafická karta od společnosti Nvidia. Tato grafická karta opět
Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/
Střední odborná škola elektrotechnická, Centrum odborné přípravy Zvolenovská 537, Hluboká nad Vltavou Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/34.0448 CZ.1.07/1.5.00/34.0448 1 Číslo projektu
Architektura Intel Atom
Architektura Intel Atom Štěpán Sojka 5. prosince 2008 1 Úvod Hlavní rysem Atomu je podpora platformy x86, která umožňuje spouštět a běžně používat řadu let vyvíjené aplikace, na které jsou uživatelé zvyklí
Procesor z pohledu programátora
Procesor z pohledu programátora Terminologie Procesor (CPU) = řadič + ALU. Mikroprocesor = procesor vyrobený monolitickou technologií na čipu. Mikropočítač = počítač postavený na bázi mikroprocesoru. Mikrokontrolér
ZČU/FAV/KIV/PPR 1 Architektury paralelních počítačů, modely dekompozice výpočtu, interakce a výkonnost
Základní pojmy Program, programový kód o statický popis výpočetního postupu, tj. co bude počítač provádět o nemá stav Assembler o Překladač do strojového kódu cílového procesoru o I když formálně nesprávně,
Povídání na téma. SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) 3. 12. 2009 Filip Staněk
Povídání na téma SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) 3. 12. 2009 Filip Staněk Co je to vlastně SC? Výpočetní systém, který určuje hranici maximálního možného výpočetního výkonu......v
Jiné výpočetní platformy J. Sloup, M. Skrbek, I. Šimeček
Jiné výpočetní platformy J. Sloup, M. Skrbek, I. Šimeček xsimecek@fit.cvut.cz Katedra počítačových systémů FIT České vysoké učení technické v Praze Ivan Šimeček, 2011 BI-EIA, ZS2011/12, Predn.12 Příprava
Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC
Informatika 2 Technické prostředky počítačové techniky - 2 Přednáší: doc. Ing. Jan Skrbek, Dr. - KIN Přednášky: středa 14 20 15 55 Spojení: e-mail: jan.skrbek@tul.cz 16 10 17 45 tel.: 48 535 2442 Obsah:
Struktura a architektura počítačů (BI-SAP) 1
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Struktura a architektura počítačů (BI-SAP) 1 doc. Ing. Hana Kubátová, CSc. Katedra číslicového návrhu Fakulta informačních technologii
Paralelní architektury - úvod
Paralelní architektury - úvod Úvod do paralelních architektur Příklady paralelních architektur Processor arrays Multiprocesory Multiprocesory se sdílenou pamětí Multiprocesory s distribuovanou pamětí Multipočítače
Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit
Jednoduché stránkování Operační systémy Přednáška 8: Správa paměti II Hlavní paměť rozdělená na malé úseky stejné velikosti (např. 4kB) nazývané rámce (frames). Program rozdělen na malé úseky stejné velikosti
Hlavní využití počítačů
Úvod Hlavní využití počítačů Počítače jsou výkonné nástroje využívané pro zpracování dat. Provádějí: načtení a binární kódování dat provedení požadovaného výpočtu zobrazení výsledku Hlavní využití počítačů
HW počítače co se nalézá uvnitř počítačové skříně
ZVT HW počítače co se nalézá uvnitř počítačové skříně HW vybavení PC Hardware Vnitřní (uvnitř počítačové skříně) Vnější ( ) Základní HW základní jednotka + zobrazovací zařízení + klávesnice + (myš) Vnější
Úvod do architektur personálních počítačů
Úvod do architektur personálních počítačů 1 Cíl přednášky Popsat principy proudového zpracování informace. Popsat principy zřetězeného zpracování instrukcí. Zabývat se způsoby uplatnění tohoto principu
Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012
Přednáška Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Příprava studijního programu Informatika je podporována projektem financovaným z Evropského
MIKROPROCESOR. (c) Ing. Josef Varačka. Title: XI 28 11:40 (1 of 8)
MIKROPROCESOR 1/ Účel: Vzhledem k pokračující digitalizaci (používání zpracování dvojkového signálu) je žádoucí provozovat univerzální zařízení, které podle programu instrukcí informace zpracuje. Mikroprocesor
ARCHITEKTURA PROCESORŮ
ARCHITEKTURA PROCESORŮ Základními jednotkami, které tvoří vnitřní strukturu procesorů, jsou: řadič, který má za úkol číst operandy (data, čísla) a instrukce z operační paměti, dekódovat je a na základě
Činnost CPU. IMTEE Přednáška č. 2. Několik úrovní abstrakce od obvodů CPU: Hodinový cyklus fáze strojový cyklus instrukční cyklus
Činnost CPU Několik úrovní abstrakce od obvodů CPU: Hodinový cyklus fáze strojový cyklus instrukční cyklus Hodinový cyklus CPU je synchronní obvod nutné hodiny (f CLK ) Instrukční cyklus IF = doba potřebná
Paralelní a distribuované výpočty (B4B36PDV)
Paralelní a distribuované výpočty (B4B36PDV) Branislav Bošanský, Michal Jakob bosansky@fel.cvut.cz Artificial Intelligence Center Department of Computer Science Faculty of Electrical Engineering Czech
Architektura počítačů Agenda
Architektura počítačů Agenda http://d3s.mff.cuni.cz/teaching/computer_architecture/ Lubomír Bulej bulej@d3s.mff.cuni.cz CHARLES UNIVERSITY IN PRAGUE faculty of mathematics and physics Architektura počítačů,
Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC
Informatika 2 Technické prostředky počítačové techniky - 2 Přednáší: doc. Ing. Jan Skrbek, Dr. - KIN Přednášky: středa 14 20 15 55 Spojení: e-mail: jan.skrbek@tul.cz 16 10 17 45 tel.: 48 535 2442 Obsah:
4-1 4. Přednáška. Strojový kód a data. 4. Přednáška ISA. 2004-2007 J. Buček, R. Lórencz
4-4. Přednáška 4. Přednáška ISA J. Buček, R. Lórencz 24-27 J. Buček, R. Lórencz 4-2 4. Přednáška Obsah přednášky Násobení a dělení v počítači Základní cyklus počítače Charakteristika třech základní typů
Struktura a architektura počítačů (BI-SAP) 7
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Struktura a architektura počítačů (BI-SAP) 7 doc. Ing. Hana Kubátová, CSc. Katedra číslicového návrhu Fakulta informačních technologii
MSP 430F1611. Jiří Kašpar. Charakteristika
MSP 430F1611 Charakteristika Mikroprocesor MSP430F1611 je 16 bitový, RISC struktura s von-neumannovou architekturou. Na mikroprocesor má neuvěřitelně velkou RAM paměť 10KB, 48KB + 256B FLASH paměť. Takže
GPGPU Aplikace GPGPU. Obecné výpočty na grafických procesorech. Jan Vacata
Obecné výpočty na grafických procesorech Motivace Úvod Motivace Technologie 3 GHz Intel Core 2 Extreme QX9650 Výkon: 96 GFLOPS Propustnost paměti: 21 GB/s Orientační cena: 1300 USD NVIDIA GeForce 9800
Profilová část maturitní zkoušky 2015/2016
Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2015/2016 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 26-41-M/01 Elektrotechnika Zaměření: technika
Úvod do paralelních systémů
Úvod do paralelních systémů 1. část FIT VUT v Brně Obsah Paralelní přístup z pohledu praxe Technologické důvody pro zavedení paralelismu Proč nestačí jedno jádro? Moderní procesory přehled vývoje architektur
Profilová část maturitní zkoušky 2017/2018
Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2017/2018 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 78-42-M/01 Technické lyceum Předmět: TECHNIKA
Profilová část maturitní zkoušky 2013/2014
Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2013/2014 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 78-42-M/01 Technické lyceum Předmět: TECHNIKA
LOGICKÉ OBVODY X36LOB
LOGICKÉ OBVODY X36LOB Doc. Ing. Hana Kubátová, CSc. Katedra počítačů FEL ČVUT v Praze 26.9.2008 Logické obvody - 1 - Úvod 1 Obsah a cíle předmětu Číslicový návrh (digital design) Číslicové obvody logické
Kvantitativní principy návrhu počítačů
Architektura počítačových systémů Kvantitativní principy návrhu počítačů České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Aktualizace výukových materiálů
Technické prostředky počítačové techniky
Počítač - stroj, který podle předem připravených instrukcí zpracovává data Základní části: centrální procesorová jednotka (schopná řídit se posloupností instrukcí a ovládat další části počítače) zařízení
Techniky zvýšení výkonnosti procesoru, RISC a CISC procesory
Techniky zvýšení výkonnosti procesoru, RISC a CISC procesory Kategorizace architektur počítačů Co popisuje architektura počítačů: (CPU = ALU + řadič + paměť + Vstupy/Výstupy) Subskalární architektura (von
Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/
Střední odborná škola elektrotechnická, Centrum odborné přípravy Zvolenovská 537, Hluboká nad Vltavou Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/34.0448 CZ.1.07/1.5.00/34.0448 1 Číslo projektu
GPGPU. Jan Faigl. Gerstnerova Laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v Praze
GPGPU Jan Faigl Gerstnerova Laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v Praze 8. cvičení katedra kybernetiky, FEL, ČVUT v Praze X33PTE - Programovací techniky GPGPU 1
Kvantitativní principy návrhu počítačů
Architektura počítačových systémů Róbert Lórencz 1. přednáška Kvantitativní principy návrhu počítačů http://service.felk.cvut.cz/courses/36aps lorencz@fel.cvut.cz Róbert Lórencz (ČVUT FEL, 2005) Architektura
Semestrální práce z předmětu Speciální číslicové systémy X31SCS
Semestrální práce z předmětu Speciální číslicové systémy X31SCS Katedra obvodů DSP16411 ZPRACOVAL: Roman Holubec Školní rok: 2006/2007 Úvod DSP16411 patří do rodiny DSP16411 rozšiřuje DSP16410 o vyšší
PROCESORY. Typy procesorů
PROCESORY Procesor (CPU Central Processing Unit) je ústřední výkonnou jednotkou počítače, která čte z paměti instrukce a na jejich základě vykonává program. Primárním úkolem procesoru je řídit činnost
PRINCIPY POČÍTAČŮ. Schopnost logického uvažování a rešeršní práce v prostředí Internetu.
Metodický list číslo 1 3. Paměti, mikroprocesory, mikrokontroléry Schopnost logického uvažování a rešeršní práce v prostředí u. 1. Téma: Historie, architektura počítače historický přehled, předpoklady
SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ
SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ TITAN / HOPPER / NOTEBOOK TITAN HOPPER NOTEBOOK Počet CPU jader 299 008 153 216 2 Operační paměť [GB] 598 016 217 000 8 Počet GPU (CUDA) jader 50 233 344 0 8
Miroslav Tichý, tic136
Miroslav Tichý, tic136 32bitová mikroprocesorová architektura typu RISC(Reduced Instruction Set Computer) mobilním odvětví - smartphony, PDA, přenosné herní konzole, kalkulačky apod. Důvod: nízké vyzařované
Procesor. Procesor FPU ALU. Řadič mikrokód
Procesor Procesor Integrovaný obvod zajišťující funkce CPU Tvoří srdce a mozek celého počítače a do značné míry ovlivňuje výkon celého počítače (čím rychlejší procesor, tím rychlejší počítač) Provádí jednotlivé
Luděk Matyska. Jaro 2015
PA039: Architektura superpočítačů a náročné výpočty Luděk Matyska Fakulta informatiky MU Jaro 2015 Luděk Matyska (FI MU) Úvod Jaro 2015 1 / 67 Pravidla hry Účast na přednáškách není povinná Zkouška Pouze
Kvantitativní principy návrhu počítačů. doc. Ing. Róbert Lórencz, CSc.
Architektura počítačových systémů Kvantitativní principy návrhu počítačů doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů
Y36SAP http://service.felk.cvut.cz/courses/y36sap/
Y36SAP http://service.felk.cvut.cz/courses/y36sap/ Úvod Návrhový proces Architektura počítače 2007-Kubátová Y36SAP-Úvod 1 Struktura předmětu Číslicový počítač, struktura, jednotky a jejich propojení. Logické
Procesy a vlákna (Processes and Threads)
ÚVOD DO OPERAČNÍCH SYSTÉMŮ Ver.1.00 Procesy a vlákna (Processes and Threads) Správa procesů a vláken České vysoké učení technické Fakulta elektrotechnická 2012 Použitá literatura [1] Stallings, W.: Operating