Pokročilé architektury počítačů

Transkript

1 Pokročilé architektury počítačů Přednáška 2 Instrukční paralelizmus a jeho limity Martin Milata

2 Obsah Instrukční hazardy a datové závislosti (připomenutí) Tomasulo algoritmus a dynamické plánování Základní myšlenka Přesná a nepřesná přerušení Spekulace Re-order buffer CPI < 1 Paralelní vydávání instrukcí Limity ILP Alternativní přístupy k dynamickému plánování VLIW a EPIC Vektorové procesory a vektorová rozšíření

3 Hazardy a jejich typy Brání efektivnímu využití zřetězení Strukturální hazardy Konflikty sdílených zdrojů procesoru Datové hazardy Datové konflikty typu RAW, WAR, WAW Řídící hazardy Neočekávané či nepredikovatelné změny vykonávání programu

4 Datové závislosti a hazardy Obojí je nedílnou součástí programů Závislost mezi instrukcemi indikuje možnou přítomnost hazardu. To jestli se a jak daný hazard projeví, je ovšem záležitostí hardwarového uzpůsobení instrukční linky a řazení instrukcí na ni. Problematika datových závislostí Indikace možné přítomnosti datových hazardů Nutnost stanovení pořadí v němž musí být dosaženo výsledků jednotlivých instrukcí Stanovení možných paralelismů pro optimální využití instrukční linky Dnes řešeno s podporou nebo přímo v HW Kontrolní závislosti Případné změny pořadí provádění instrukcí nesmí ovlivnit očekávané chování programu Musí být zachován datový tok. Instrukce vykonávané mimo pořadí nesmí neočekávaně změnit hodnoty datového toku

5 Dynamické plánování instrukcí Výhody dynamického plánování Nezávislost na platformě. Přináší její efektivní využití Jednoduchý kompilátor, mnoho závislostí řešeno až při provádění Klíčová myšlenka Dovolit vykonávání instrukcí mimo pořadí tak aby nezávislé instrukce nebyly omezovány předchozími hazardy Důsledky Instrukce jsou vydávány v pořadí Provádění instrukcí je umožněno mimo pořadí Dokončování instrukcí nastává mimo pořadí

6 První krok v dynamickém plánování Přináší možnost vykonávání instrukcí mimo pořadí při zachování jejich vydávání v pořadí Pro 5-ti stupňovou zřetězenou linku to znamená rozdělení DI fáze do dvou částí Vydání instrukce (II) její dekódování (in-order) Čtení operandů (RO) příprava požadovaných dat operandů pro další zpracování (out-of-order) Strukturální závislosti se řeší při vydávání instrukce Datové závislosti ve fázi čtení operandů v rámci vydaných instrukcí (issue window) Issue window reprezentuje plovoucí okénko, obvykle pevné délky, které se posouvá po vydávaných instrukcích. Instrukce, které se v něm nacházejí, jsou vydány, mohou být zpracovávány nebo čekají na operandy. K posunu okénka dojde až v okamžiku, kdy první vydaná instrukce zapíše svůj výsledek.

7 Tomasulo Algoritmus Klíčový algoritmus používaný při dynamickém plánování instrukcí Alpha 21264, MIPS10000/R12000, Pentium II/III/4, Core, Core2, Nehalem, AMD K5, K6, Athlon, Opteron, Phenom, PowerPC... Jak Tomasulo pracuje? (1) Reservační stanice (RS) přidružené k funkčním jednotkám (FU) Místo pro uložení omezeného počtu dekódovaných instrukcí určených pro danou FU V RS distribuováno řízení a dočasné ukládání (ukládá operandy i výsledky instrukcí) V instrukcích používané registry jsou nahrazeny ukazatelem nebo přímo jejich hodnotou v RS (register renaming) Předchází se tak WAR, WAW V RS může být uloženo více různých hodnot než je skutečný počet registrů. Program není možné optimalizovat při kompilaci

8 Tomasulo Algoritmus Jak Tomasulo pracuje? (2) Common Data Bus (CDB) sběrnice propojující všechny RS zaslaná data obsahují navíc identifikátor zdroje (ID RS, která instrukci vydala) data jsou doručena na všechny RS (broadcast) kde jsou aktualizovány položky, které na data čekaly (plná asociativita v rámci RS je nutná) Každá instrukce se může nacházet v jednom z následujících stavů vydaná instrukce je načtená a dekódovaná (II) pokud je k dispozici místo v RS (strukturální hazardy) a jsou splněny kontrolní závislosti, pak je instrukce s dostupnými hodnotami operandů zaslána do RS provádí se probíhá vlastní výpočet nad operandy (EX) podmíněno dostupností všech zdrojových operandů, pokud dostupné nejsou vyčkává se a provádí se kontrola CDB ukládá se výsledek dokončení výpočtu (WB) výsledek je zaslán na CDB (tím je předán všem čekajícím položkám v RSs současně), použité místo v RS je uvolněno

9 Tomasulo Algoritmus

10 Tomasulo Algoritmus Vydávání instrukce instrukce jsou vydávány v pořadí vždy jsou stanoveny zdroje operandů a to buď registry nebo odkazy na RS, které se o výsledek produkující instrukce starají výsledek je doprovázen hodnotou tagu RS, která instrukci k výpočtu předala. Zápis výsledků instrukce budou pravděpodobně dokončovány mimo pořadí jejich výsledek je rozšiřován pomocí CDB spolu s výsledkem je zasílána informace o RS (tag), která se o instrukci starala RS a registry musí monitorovat CDB, na základě shody tagu aktualizovat hodnoty operandů instrukcí po aktualizaci hodnot se kompletní instrukce předají z RS funkční jednotce

11 Rezervační stanice Rezervační stanice může být v procesoru zastoupena jen jednou jako společná pro všechny funkční jednoty několikrát s tím, že některé funkční jednotky RS sdílejí samostatně pro každou funkční jednotku Obsah RS je závislý na tom, zda obsahuje hodnoty operandů instrukcí nebo pouze ukazatele na zdrojové registry Op. - operační kód instrukce Vj, Vk hodnoty zdrojových operandů (případně ukazatelé na zdrojové registry) Qj, Qk ukazatele na RS,která se stará o instrukci, jenž má vypočíst požadovanou hodnotu (pokud je nastaveno na 0 pak je hodnota k dispozici) Busy Indikuje platnost pozice v RS (zpracovávání instrukce ještě nebylo dokončeno)

12 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Tok instrukcí Taktů na FU FU Busy Op. Vj Vk Qj Qk Počet taktů k dokončení instrukce Záznamy v rezervačních stanicích Časování událostí Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Address Jednotky pro práci s pamětí Tag Hodnota

13 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk 1 Přístup do paměti Busy Address Load1 Yes 34 + r6 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota Load1 Clock 1

14 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk 1 2 Přístup do paměti Busy Address Load1 Yes 34 + r6 Load2 Yes 45 + r7 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota Load2 Load1 Clock 2

15 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r8) Load2 Přístup do paměti Busy Address Load1 Yes 34 + r6 Load2 Yes 45 + r7 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota mul1 Load2 Load1 Clock 3

16 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r8) Load2 add1 yes Sub M(L1) Load2 Přístup do paměti Busy Address Load1 Load2 Yes 45 + r7 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota mul1 add1 Load2 Clock 4 M(L1)

17 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 10 mul1 yes Mul M(L2) R(r8) 2 add1 yes Sub M(L1) M(L2) div1 yes Div M(L1) mul1 Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Address Tag Hodnota mul1 add1 div1 Clock 5 M(L2) M(L1)

18 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 9 mul1 yes Mul M(L2) R(r8) 1 add1 yes Sub M(L1) M(L2) div1 yes Div M(L1) mul1 add2 yes Add M(L2) add1 Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Address Tag Hodnota mul1 add1 div1 add2 Clock 6 M(L2)

19 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 8 mul1 yes Mul M(L2) R(r8) 0 add1 yes Sub M(L1) M(L2) div1 yes Div M(L1) mul1 add2 yes Add M(L2) add1 Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Address Tag Hodnota mul1 add1 div1 add2 Clock 7 M(L2)

20 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 7 mul1 yes Mul M(L2) R(r8) div1 yes Div M(L1) mul1 2 add2 yes Add sub M(L2) Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Address Tag Hodnota mul1 div1 add2 Clock 8 sub M(L2)

23 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 4 mul1 yes Mul M(L2) R(r8) div1 yes Div M(L1) mul1 Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Address Tag Hodnota mul1 div1 Clock 11 sub M(L2) add

28 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 40 div1 yes Div mul M(L1) Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Address Tag Hodnota div1 Clock 16 mul sub M(L2) add

31 Tomasulo Algoritmus Stav instrukcí Instrukce j k Ld r5 34 r6 Ld r3 45 r7 Mul r0 r3 r8 Sub r1 r5 r3 Div r2 r0 r5 Add r5 r1 r3 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk Přístup do paměti Load1 Load2 Load3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Busy Clock 57 Address Tag Hodnota mul sub div M(L2) add

32 Tomasulo alg. - výhody Distribuovaná logika pro detekci a řešení hazardních stavů Distribuovanost v RS a CDB Hromadná aktualizace (dodání hodnoty) operandů všem instrukcím, které na něj čekají pomocí CDB Eliminace pozastavení linky z důvodu WAW a WAR Přejmenovávání registrů v RS Data nemusí vždy procházet cílovým registrem Použití CDB k distribuci výsledků (do registru je vždy uložena v data flow poslední hodnota správný výsledek) Automatické rozmotávání smyček Tomasulo dynamicky za běhu vytváří a sleduje plán datových závislostí. Překryv a vykonávání instrukcí mimo pořadí z rozdílných iterací smyček je řešen s pomocí přejmenovávání registrů a sledování toku dat mezi iteracemi, tak aby žádný z výsledků neporušil datový tok jiné iterace.

33 Tomasulo alg. - nevýhody Složitost a cena distribuovaná logika vykonávání a nároky na zpoždění RS musí být pro CDB plně asociativní (rychlá aktualizace výsledků) Výkon je kriticky ovlivňován šířkou CDB CDB obsluhuje všechny FU, tvoří jedinou cestu jak předat výsledek Počet CDB (šířka) limituje počat FU, které mohou současně předávat výsledek při paralelním dokončení výpočtu Více CDB přináší složitější logiku pří výběru jedné pro zápis a komplikují asociativní část používanou při aktualizaci Nepřesná přerušení (non-precise interrupts) Při přerušení provádění programu není jasné pořadí instrukcí, které té, jenž přerušení vyvolala, předcházely nebo byly počítány mimo pořadí. Bude probíráno později

34 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r2 L: 2 Ld r0 Iterace 0 r1 smyčky 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Tok instrukcí Taktů na FU FU Busy Op. Vj Vk Qj Qk Počet taktů k dokončení instrukce Záznamy v rezervačních stanicích Časování událostí Přístup do paměti Load1 Load2 Load3 Store1 Store2 Store3 Registry Busy Address Fu Jednotky pro práci s pamětí r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota

35 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r2 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk 1 Přístup do paměti Busy Address Fu Load1 Yes 80 Load2 Load3 Store1 Store2 Store3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load1 Clock 1

36 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. 1 2 Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load1 mul1 Clock 2 Busy Address Fu Load1 Yes 80 Load2 Load3 Store1 Store2 Store3

37 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load1 mul1 Clock 3 Busy Address Fu Load1 Yes 80 Load2 Load3 Store1 Yes 80 mul1 Store2 Store3

38 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 1 sub1 yes Sub R(r1) # Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load1 sub1 mul1 Clock 4 Busy Address Fu Load1 Yes 80 Load2 Load3 Store1 Yes 80 mul1 Store2 Store3

39 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 0 sub1 yes Sub R(r1) #8 bne1 yes Bne R(r6) sub1 Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load1 sub1 mul1 Clock 5 Busy Address Fu Load1 Yes 80 Load2 Load3 Store1 Yes 80 mul1 Store2 Store3

40 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 0 bne1 yes Bne sub1 R(r6) Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load1 mul1 Clock 6 Busy Address Fu Load1 Yes 80 Load2 Load3 Store1 Yes 80 mul1 Store2 Store3 sub1

41 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load2 mul1 Clock 7 Busy Address Fu Load1 Yes 80 Load2 Yes 72 Load3 Store1 Yes 80 mul1 Store2 Store3 sub1

42 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 mul2 yes Mul R(r2) load2 Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load2 mul2 Clock 8 Busy Address Fu Load1 Yes 80 Load2 Yes 72 Load3 Store1 Yes 80 mul1 Store2 Store3 sub1

43 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk mul1 yes Mul R(r2) load1 mul2 yes Mul R(r2) load2 Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load2 mul2 Clock 9 Busy Address Fu Load1 Yes 80 Load2 Yes 72 Load3 Store1 Yes 80 mul1 Store2 Yes 72 mul2 Store3 sub1

44 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 3 mul1 yes Mul load1 R(r2) mul2 yes Mul R(r2) load2 Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota load2 mul2 Clock 10 Busy Address Fu Load1 Load2 Yes 72 Load3 Store1 Yes 80 mul1 Store2 Yes 72 mul2 Store3 sub1

45 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 2 mul1 yes Mul load1 R(r2) 3 mul2 yes Mul load2 R(r2) Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota mul2 Clock 11 Busy Address Fu Load1 Load2 Load3 Store1 Yes 80 mul1 Store2 Yes 72 mul2 Store3 load2 sub1

48 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled Taktů na FU FU Busy Op. Vj Vk Qj Qk 0 mul2 yes Mul load2 R(r2) Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Tag Hodnota mul2 Clock 14 Busy Address Fu Load1 Load2 Load3 Store1 Yes 80 [mul1] Store2 Yes 72 mul2 Store3 load2 sub1

49 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Clock 15 Busy Address Fu Load1 Load2 Load3 Store1 Yes 80 [mul1] Store2 Yes 72 [mul2] Store3 Tag Hodnota load2 sub1 mul2

50 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Clock 16 Busy Address Fu Load1 Load2 Load3 Store1 Yes 80 [mul1] Store2 Yes 72 [mul2] Store3 Tag Hodnota load2 sub1 mul2

51 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk Přístup do paměti Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Clock 17 Busy Address Fu Load1 Load2 Load3 Store1 Store2 Yes 72 [mul2] Store3 Tag Hodnota load2 sub1 mul2

52 Tomasulo Algoritmus - Smyčky Stav instrukcí Instrukce j k L: 1 Ld r0 0 r1 1 Mul r4 r0 r2 1 Sd r4 0 r1 Sub r1 r1 8 Bne r1 r6 L: 2 Ld r0 0 r1 2 Mul r4 r0 r2 2 Sd r4 0 r1 Rezervační stanice Dokon- Zápis Vydaná čeno výsled. Taktů na FU FU Busy Op. Vj Vk Qj Qk Přístup do paměti Load1 Load2 Load3 Store1 Store2 Store3 Registry r0 r1 r2 r3 r4 r5 r6 r7 r8 Clock 18 Busy Address Fu Tag Hodnota load2 sub1 mul2

53 Přesné přerušení Přesné přerušení (precise interrupt) Umožňuje přesné přerušení s tím, že všechny instrukce, které mu předcházely jsou vypočteny a výsledky, které by za ním následovaly, nejsou uloženy Dokončování instrukcí mimo pořadí přesné přerušení komplikuje Implementace dodatečných mechanizmů, které jej umožní (HW podpora) dokončování in-order nebo in-order commit výsledků Přerušení Co může způsobit přerušení Breakpoint (programová přerušení), porušení ochrany paměti, Page fault, požadavky na I/O zařízení, abnormality při aritmetických operacích (dělení 0), použití nedefinované instrukce, selhání HW nebo napájení, Typy přerušení synchronní versus asynchronní, uživatelská versus vynucená, maskovatelná versus nemaskovatelná, přerušení v instrukci versus mezi instrukcemi, přerušení se zotavením versus s ukončením programu

54 Přesné přerušení a spekulace Spekulace Spekulaci lze chápat jako formu hádání provádění instrukcí při běhu programu Dnes je klíčová při řešení větvení programu Spolu s komplexní predikcí větvení dnes hrají klíčovou úlohu při efektivním zpracování instrukcí větvení programu. Pokud dochází ke spekulativnímu vykonávání instrukcí, může dojít k jejich nechtěnému provádění. Vzniká potřeba mít možnost se vrátit (odstranit neplatné výsledky) a navázat na správný průchod programu, tedy jistá forma přerušení. Přesná přerušení jako řešení? Díky přesnému přerušení lze navázat na místo odkud bylo spekulativně provedeno chybné větvení programu.

55 HW podpora pro přesná přerušení Re-order buffer (ROB) Paměť dočasně uchovávající výsledky před jejich uložením do registrů Obvykle pole označující pořadí, cílový registr, hodnotu k uložení, platnost položky, přítomnost výjimky či přerušení, a hodnotu PC Položky jsou vkládány v okamžiku zápisu výsledku instrukce, tedy out-oforder Zápis do registrů je prováděn nespekulativně a in-order Snadné rušení instrukcí neuložením jejich výsledků do registrů Commit fáze vykonávání instrukce Provádí se zápis výsledků z ROB do registrů a to vždy v pořadí vydávání instrukcí (in-order) Pokud dojde k chybné spekulaci či jiné formě přerušení, pak je v pořadí dokončen zápis výsledků všech přerušení předešlých instrukcí. Zbylý obsah je zahozen (graduation).

56 Re-order buffer a Tomasulo algoritmus Vydávání instrukcí Postup vydávání instrukcí se liší pouze v nutnosti alokovat pro každou z nich záznam v ROB záznam obsahuje cílový registr, tag označení zdrojové FU, pořadí záznamů reprezentuje pořadí instrukcí Zápis výsledků Výsledek je pomoci CDB propagován mezi ostatní FU (ROB nemá vliv na out-of-order zpracovávání instrukcí) a aktualizován u záznamu v ROB Často dvojí pohled na sadu registrů. pohled na registry s perspektivy vydávaných instrukcí, který je aktualizován mimo pořadí pohled na registry ze strany ROB resp. commit jednotky, jenž je aktualizován vždy v pořadí

57 Re-order buffer a Tomasulo algoritmus Commit výsledků Z ROB jsou commit jednotkou v pořadí vložení záznamu zpracovávány vypočtené výsledky. V případě chybné spekulace či přerušení jsou nežádoucí výsledky v ROB stornovány a stav registrů z pohledu vydávání obnoven hodnotami z commit pohledu. v případě chybné spekulace se program vydává správnou cestou v případech přerušení vlivem výjimky, zotavení nemusí být možné (záleží na druhu výjimky) rozpracované instrukce (v ostatních FU) musejí být obvykle dopočteny. Není možné je z FU stornovat. Na jejich výsledek vlivem změny provádění programu však nikdo nečeká.

58 Architektura Tomasulo + ROB

59 Složitost ROB řešení Problém vyhledávání aktuálních hodnot ROB může sloužit jako zdroj dalšího paměťového prostoru Vyhledávání musí být extrémně rychlé (úroveň práce s registry) mnohonásobně asociativní, počet cest do ROB by měl být teoreticky roven počtu registrů Rozhodnutí co je pro danou instrukci, která data požaduje, aktuální informace (nepotvrzená hodnota nebo potvrzený stav registrů) Provádění Store instrukcí Provedení zápisu do paměti musí být pozastaveno až do okamžiku potvrzení dané instrukce Load instrukce mířící na neuloženou adresu musí být obslouženy hodnotou z ROB Paralelní vydávání více instrukcí Větší propustnost ROB, vyšší asociativita,...

60 Jak zvýšit počet instrukcí za cyklus? CPI < 1 Cílem je dosáhnout zvýšení průměrného počtu v jednom cyklu dokončených instrukcí na hodnotu větší než jedna. Vektorové procesory a vektorové instrukce multimediální vektorové instrukce jsou dnes zastoupeny na mnoha typech procesorech Superskalární procesory s dynamickým plánováním počet vydávaných instrukcí na cyklus je obvykle v mezích 1 až 8, je proměnný Superskalární procesory s převážně statickým plánováním obvykle fixní počet vydávaných instrukcí (4 až 16), jsou plánovány kompilátorem Intel Architecture-64 (IA-64) Explicitly Parallel Instruction Computer (EPIC)

61 Paralelní vydávání více instrukcí Dynamické řešení přineslo jako první vydávání dvou instrukcí paralelně pro 5-ti stupňovou pipeline instrukce musely být jedna celočíselná a jedna s řádovou čárkou eliminace závislostí až na instrukce čtení a zápisu do paměti (výpočet adres je prováděn na čísti procesoru určené pro celočíselnou aritmetiku) Dopady paralelního vydávání více instrukcí Balíčkování instrukcí v podobě skupin instrukcí, které mohou být vydány v jednom cyklu vydávání může omezit přítomnost strukturních a datových hazardů na dříve vydané instrukce (nemusí být vydána ani jedna instrukce) Náročné vyhledávání nezávislých instrukcí z balíčku Je potřeba provést velké množství komparací (složitost O(n 2 -n)) Přináší limity na rychlost CPU (pomalý clock) Vlivem toho často dělení fáze vydávání instrukcí: 1. stanovení počtu paralelně proveditelných instrukcí, 2. prohledávání na hazardy

62 Důsledky paralelního vydávání Pokud chceme dosáhnout dokončování dvou instrukcí v jednom cyklu, pak musí být v kódu rovnoměrně rozloženy celočíselné a FP instrukce. Paralelní vydávání přináší značnou složitost a HW náročnost Paralelní přístup do instrukční cache Možnost 6-ti přístupů do pole registrů v jednom taktu (4x read, 2x write) Rychlé a účinné rozhodování o možném počtu vydávaných instrukcí se značnou složitostí vzhledem k nutnému počtu srovnání (O(n 2 n)) Nutnost přejmenování až dvou registrů v jednom cyklu pro předcházení WAR a WAW. Větší šířka sběrnic pro zápis výsledků (CDB), častěji se schází požadavky na paralelní zápisy

63 Virtuální registry a ROB Virtuální registry lze chápat jako rozsáhlou kolekci registrů na něž jsou při vydávání instrukce původní přejmenovávány Slouží spolu s procesem přejmenovávání jako náhrada ROB Musejí uchovávat dvojí hodnoty - architekturní a dočasné pohledy (spekulativní vykonávání instrukcí) Jednoznačný proces mapování registrů ve fázi vydávání instrukcí Zjednodušení fáze commit uložení spekulativního dočasného pohledu do architekturního Nutnost dostatečného množství registrové paměti na čipu CPU přináší limity (40 80 registrů navíc) použito např. v procesorech Pentium nebo Alpha

64 Limity instrukčního paralelizmu S čím srovnávat aneb ideální procesor Dopady přítomnosti HW limitů reálných procesorů budou srovnávány s ideálním procesorem, který má vždy dostatek virtuálních registrů pro realizaci přejmenování a tím předcházení WAW a WAR konfliktů (Register Renaming) má dokonalou predikci skoků a větvení programů tím, že se při predikci nikdy nesplete (Branch and Jump Prediction) dovede vždy dokonale analyzovat přístupy do paměti tak, že je vždy zřejmé pořadí provádění operací čtení a zápisu (Memory address alias analysis) přístup do datové a instrukční cache realizuje s zpožděním jednoho cyklu Procesor není reálné zkonstruovat Jakým způsobem bude dopad limitů měřen? Sledování průměrného počtu vydaných instrukcí pro 6 SPEC testů výkonnosti (benchmarks)

65 Ideální procesor výsledky testů Prováděných 6 testů lze rozdělit do dvou skupin 160 Testy gcc, espresso, li zaměřeny na práci v celočíselné aritmetice Testy fpppp, doduc, tomcatv zaměřeny na operace s plovoucí řádovou čárkou Dále uvedené výsledky vždy reprezentují dopad konkrétního omezení s kumulativní aplikací předešlých omezení. Instruction issues per cycle gcc espresso li fpppp doduc tomcatv Uváděná data převzata z knihy: John L. Hennessy & David A. Patterson, Computer Architecture - A Quantitative Approach - 4th Edition SPEC benchmarks

66 Omezení velikosti vydávacího okénka (window size) Patrný dopad velikosti vydávacího okénka 160 S jeho zmenšující se velikostí se srovnává počet nalezených paralelismů přes všechny testy Pro dnešní procesory není jeho velikost přímo rozhodující (ostatní limity mají tvrdší dopad) Dnes velikost 64 až ~250 instrukcí Velikost vydávacího okna také nepřímo ovlivní výpadky cache. Instruction issues per cycle Infinita 2k Při výpadku cache je potřeba držet instrukci ve vydávacím okně 40 Obsazená pozice instrukcí blokovanou čekáním na paměť 20 Dále je předpokládána velikost okna 2000 záznamů s maximálně 64 vydanými instrukcemi 0 gcc espresso li fpppp doduc tomcatv SPEC benchmarks

67 Realistická predikce větvení a skoků Vzhledem k množství instrukcí větvení a skoků přináší další významný dopad jejich predikce nejlepší výsledek přináší kombinovaná predikce tournamentovým prediktorem nejvýznamnější dopad na int testech způsobený množstvím špatně predikovatelných větvení (nedostatek cyklů) Perfect Tournament predictor 2-bit predictor Profile-based ne Pro další výsledky předpokládáme dvouúrovňový tournament prediktor s 8k záznamy 10 0 gcc espresso li fpppp doduc tomcatv

68 Omezení počtu virtuálních registrů Počet virtuálních registrů má drastický dopad především na výpočty se silnou spekulací nebo překryvy prováděných smyček (FP testy) dnešní procesory běžně disponují 128 až 256 registry Infinite 256 int FP 128 int FP 64 int + 64 FP 32 int + 32 FP ne Dále se bude předpokládat přítomnost dvou sad registru (int a FP registry), každá o 256 registrech gcc espresso li fpppp doduc tomcatv

69 Analýza konfliktů při přístupu do paměti Cílem je analyzovat přístupy do paměti a umožnit co nejefektivnější uspořádání load a store instrukcí z hlediska možných paralelismů Perfektní analýza přístupů ke globálním proměnným a na stack dnes dosažitelná s pomocí kompilátoru Další schémata můžou vylučovat konflikty na základě analýzy offsetu a bázového registru Perfect Global-stack perfect Inspection ne 0 gcc espresso li fpppp doduc tomcatv

70 Instrukční paralelizmus na realistickém procesoru Předpoklady pro měření 60 vydání až 64 instrukcí za takt (řádově více než dnešní CPU) tournamentův prediktor s 1k položkami a 16 záznamy pro návratovou predikci téměř perfektní analýza závislostí přístupu do paměti dvě nezávisle sady registru (int a FP) o 64 registrech pro přejmenovávání Uvedený graf reprezentuje potenciální množství vydaných instrukci za takt vzhledem k uvedené velikosti vydávacího okna gcc espresso li fpppp doduc tomcatv Infinite

71 Alternativní přístupy Statické plánování Přesun zodpovědnosti za ILP z HW procesoru na stranu kompilátoru Přináší zjednodušení procesoru a tím jeho potenciálně rychlejší strojový cyklus Použití VLIW instrukcí HW neprování explicitní kontroly hazardů mezi dílčími instrukcemi v VLIW Více prostoru pro registry na čipu procesoru Možnost provádění spekulací na základě celkového chování programu Silně závislé na použité platformě Obtížnější predikce větvení Nárůst velikosti kódu

72 VLIW a problémy první generace Nárůst velikosti kódu Nezvládnuté náročné rozmotávání smyček často vedlo k neefektivnímu kódu (přímočaré vykonávání plně rozmotané smyčky) VLIW instrukce často nevyužívaly všechny jednotky procesoru. Nepoužitá jednotka nemohla být z VLIW instrukce vyřazena (pevná poloha dílčích částí instrukce pro FU) Problém procesoru bez detekce hazardů Zastavení jedné jednotky vlivem závislostí vede k zastavení celého procesoru (ostatní jednotky nemohou pokračovat synchronizace na jedné VLIW instrukci) Řazení instrukcí kompilátorem nezohledňuje délku výpočtu na různých FU Binární kompatibilita Každá verze procesoru vyžaduje vlastní kompilát kódu

73 VLIW a EPIC procesory Více procesorové systémy Multiflow TRACE /500, Cydrome Cydra 5, IBM Yorktown VLIW Computer (výzkumný procesor) Jednočipové procesory Intel iwarp Multimediální jednočipy Trimedia, Chromatic, Micro-Unity, DSP procesory Hybridní architektury Intel/HP EPIC IA-64 (Explicitly Parallel Instruction Computer)

74 Intel/HP EPIC IA-64 Je považováno za VLIW druhé generace Intel Itanium první implementace IA-64 vysoce paralelní deseti stupňová instrukční linka průměrný výkon, nepříliš úspěšný Intel Itanium 2 zaznamenalo 7 vývojových cyklů, končí v roce 2010 na procesoru Itanium 9300 (Tukwila) přejímá odzkoušené technologie z jiných procesorů 2 až 4 jádra na čipu (propoje QPI představeno v Nehalem) 30 funkčních jednotek na každé jádro dvě sady registrů pro int a FP, každá 128 registrů (64/82 bit registry) použití v serverových řešeních

75 IA-64 Itanium 2 Optimalizace provádění kódu v HW Predikce průchodu výpočtu kódem Podpora spekulací, non-faulting čtení Softwarově asistovaná predikce větvení Softwarově asistovaná hierarchická organizace paměti Instrukční skupiny Skupinu instrukcí tvoří nezávislé instrukce, které mohou být prováděny paralelně za předpokladu volných HW prostředků Skupiny jsou tvořeny obvykle několika slovy, která jsou 128 bitů dlouhá. Nepoužití jednotky nemusí být zastoupeny úspora místa.

76 IA-64 Itanium 2

77 Vektorové procesory Cílem návrhu vektorových procesorů je zefektivnit provádění výpočtů nad lineárními poli čísel původně provádění ve smyčce vektorová instrukce zastoupí smyčku (cyklus) Vlastnosti vektorových instrukcí nezávislost dílčích výsledků zvýšení rychlosti provádění, lepší zřetězení přístup do paměti se známým vzorem (známá vzdálenost mezi jednotlivými prvky) méně výpadků cache, snadnější predikce přístupu a příprava dat, datová cache není potřeba redukuje se počet větvení (tím také problém s jeho predikci) v instrukční lince jedna vektorová instrukce vykoná práci mnoho instrukcí nevektorového cyklu vydávání méně instrukcí (menší pravděpodobnost výpadku cache)

78 Vektorové procesory Vektorové operace nejsou prováděny v jednom cyklu po inicializaci výpočtu následuje N cyklů pro získání výsledků N prvkového vektoru Typy vektorových procesorů memory-memory vector processors operace jsou prováděny přímo nad pamětí (bez použití registrů) vectore-register processors vektorové operace jsou prováděny nad vektorovými registry (kromě load and store)

79 Komponenty vektorových procesorů Vektorová část vektorové registry pevné délky (vector registers VR) typická délka bitových prvků, 8-32 registrů limitován počet portů pro čtení a zápis (2x r + 1x w) Vektorové FU FU pro provádění add, mul, reciprocal (1/x) operací FU pro práci s pamětí (Load-Store Units LSU) všechny jednotky jsou zřetězené Skalární část skalární registry FU pro celočíselné operace a operace v plovoucí řádové čárce

80 Přístupy do paměti Využívá se vektorových instrukcí Load a Store slouží k přesunu bloku dat mezi pamětí a vektorovým registrem Vzhledem k adresování jednotlivých prvků rozlišujeme tři přístupy prvky jsou v paměti uloženy jeden za druhým (Unit stride) nejrychlejší možný přístup sekvenční čtení bloků paměti mezi prvky je vždy konstantní úsek paměti, který s čtenými daty nesouvisí (non-unit constant stride) práce se sloupci matice (mezi prvky vektoru jsou vždy data ostatních sloupců) indexovaný přístup nepřímý přístup k vektoru používá se při práci s řídkými poli vektorová komprese a expanze

81 Jak na dlouhé vektory Použití registru délky vektoru (vector-length register VLR) Řídí všechny vektorové operace Hodnota slouží k omezení délky vektoru na jeho skutečnou délku Délka vektoru často nemůže být stanovena při překladu programu - dynamická velikost vektoru. Dlouhé vektory Výpočet je prováděn ve více krocích (vždy takový úsek, aby jej bylo možno do vektorového registru uložit) Postupné provádění nad délkami VR ve smyčce low = 0 VL = n mod MVL for ( j=0; j<=(n/mvl); j++ ){ for (i=low, i<low+vl) { Y(i) = X(i) + Y(i) } low = low + VL VL = MVL } obalovací smyčka s minimálním počtem opakování efektivnější než práce bez vektorové instrukce

82 Výběr prvků a vektorová maska Maska vektoru má stejný počet prvků jako vektorové registry definuje pro které prvky se provádí vektorová operace (dovoluje ponechat prvek cílového vektoru nezměněn) obvykle pro každou pozici vektoru uložen 1bit (0 neaktualizuj, 1 aktualizuj) instrukce, která provádí srovnání prvků a aktualizaci masky podle zadané podmínky Použití vektorové masky využívá se v případech, kdy vektorově zpracovávána smyčka obsahuje podmínku neprovádění aktualizace neznamená ušetření cyklu (operace se provede, výsledek se neuloží) for (i=0; i<n; i++) { if (Y(i) < m) { Y(i) = a * Y(i) } }

83 Řetězení vektorových operací Vektorové instrukce je možno provádět bez překryvu dokončení jedné operace předá celý modifikovaný vektor ke zpracovávání další instrukci s překryvem instrukce jsou vzájemně překryty s tím, že nedochází k předání celého vektoru ale již dílčích výsledků

84 Metriky pro srovnávání vektorových procesorů Srovnávání výkonu pro referenční vektory R výkon procesoru pro nekonečně dlouhé vektory idealizovaný vektor nekonečně dlouhý vektor nezohledňuje inicializační čas potřebný při startu výpočtu doprovází se reálnějším srovnáním R n výkonem procesoru pro vektory délky n N 1/2 poloviční velikost vektorů využívá se při sledování dopadu inicializačního času N V délka vektorů, při které je vektorová instrukce již rychlejší než klasická skalární smyčka sleduje výkon vektorových operací jak ve vztahu k inicializačnímu času tak k vlastnímu výkonu vektorové jednotky

85 Vektorové operace pro multimédia Rozšíření instrukčního soubory Intel MMX/SSE nejedná se o vektorové instrukce ve předchozím prezentovaném smyslu podobná rozšíření potkaly instrukční soubor většiny procesorů Cílem je provést požadovanou operaci nad skupinou krátkých operandů a zrychlit tak multimediální operace 128bit registr je dělen na 2x 64bits, 4x 32bits, 8x 16bits, 16x 8bits Provádí se obvykle ve specializované aritmetice právě pro multimediální operace saturovaná aritmetika

86 Závěr Představení Tomasulo algoritmu a princip jeho použití v moderních porocesorech Problematika paralelního vydávání instrukcí Dopady nedokonalostí dnešních procesorů na úroveň ILP Alternativy k dynamickému plánování Vývoj VLIW procesorů Vektorové procesory a princip jejich činnosti

87 Dotazy?

88 Literatura John L. Hennessy, David A. Patterson, Computer Architecture: A Quantitative Approach (4th Edition) Paul H. J. Kelly, Advanced Computer Architecture Lecture notes 332 Andrew S. Tanenbaum, Operating Systems: Design and Implementation 88