Pamět ová hierarchie, návrh skryté paměti cache 2



Podobné dokumenty
Pamět ová hierarchie, návrh skryté paměti 2. doc. Ing. Róbert Lórencz, CSc.

Pamět ová hierarchie, virtuální pamět. doc. Ing. Róbert Lórencz, CSc.

Pokročilé architektury počítačů

Paměťový podsystém počítače

Struktura a architektura počítačů (BI-SAP) 11

Mezipaměti počítače. L2 cache. L3 cache

Paměťová hierarchie. INP 2008 FIT VUT v Brně

Paměti cache. Cache může být realizována softwarově nebo hardwarově.

Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit

Pokročilé architektury počítačů

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Principy operačních systémů. Lekce 3: Virtualizace paměti

Rychlá vyrovnávací paměť v architektuře PC

Systém adresace paměti

Paměti a jejich organizace

Struktura a architektura počítačů (BI-SAP) 10

Operační systémy. Přednáška 8: Správa paměti II

Architektura počítačů Paměťová hierarchie

Přidělování paměti II Mgr. Josef Horálek

2010/2011 ZS P i r i nc č py po ít č čů a PAMĚŤOVÝ ĚŤ SUBSYSTÉM z pohledu OS OS

Cache paměť - mezipaměť

Cílem kapitoly je seznámit studenta s pamětmi. Jejich minulostí, současností a hlavnímu parametry.

Adresování paměti. Adresní prostor. Adresní módy (v instrukcích) T.Mainzer

asociativní paměti Ing. Jakub Št astný, Ph.D. 1 Katedra teorie obvodů FEL ČVUT Technická 2, Praha 6,

Cache paměti (2) Cache paměti (1) Cache paměti (3) Cache paměti (4) Cache paměti (6) Cache paměti (5) Cache paměť:

Katedra informatiky a výpočetní techniky. 10. prosince Ing. Tomáš Zahradnický doc. Ing. Róbert Lórencz, CSc.

Cache paměti (1) Cache paměť: V dnešních počítačích se běžně používají dva, popř. tři druhy cache pamětí:

Cílem kapitoly je seznámit studenta s pamětmi. Jejich minulostí, současností, budoucností a hlavními parametry.

Vstupně - výstupní moduly

Procesor. Procesor FPU ALU. Řadič mikrokód

Řízení IO přenosů DMA řadičem

Správy cache. Martin Žádník. Vysoké učení technické v Brně, Fakulta informačních technologií v Brně Božetěchova 2, Brno

Architektura počítače

Vstupně výstupní moduly. 13.přednáška

Metody připojování periferií BI-MPP Přednáška 2

Ro R dina procesor pr ů Int In e t l Nehalem Šmída Mojmír, SMI108 PAP PA 2009

I. Dalšívnitřní paměti

Principy počítačů a operačních systémů

PROTOKOL O LABORATORNÍM CVIČENÍ

Operační systémy 2. Přednáška číslo 2. Přidělování paměti

Kapitola 10: Diskové a souborové struktury. Klasifikace fyzických médií. Fyzická média

Paměťové prvky. ITP Technika personálních počítačů. Zdeněk Kotásek Marcela Šimková Pavel Bartoš

Základní principy konstrukce systémové sběrnice - shrnutí. Shrnout základní principy konstrukce a fungování systémových sběrnic.

Pohled do nitra mikroprocesoru Josef Horálek

Paměti. Paměť je zařízení, které slouží k ukládání programů a dat, s nimiž počítač pracuje

Dělení pamětí Volatilní paměti Nevolatilní paměti. Miroslav Flídr Počítačové systémy LS /11- Západočeská univerzita v Plzni

Provádění instrukcí. procesorem. Základní model

Přednáška. Správa paměti I. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Základní uspořádání pamětí MCU

09. Memory management. ZOS 2006, L.Pešička

Struktura pamětí a procesů v DB Oracle. Radek Strnad

Princip funkce počítače

Organizace a zpracování dat I (NDBI007) RNDr. Michal Žemlička, Ph.D.

PAMĚŤOVÝ SUBSYSTÉM. Principy počítačů I. Literatura. Parametry paměti. Parametry paměti. Dělení pamětí podle funkce. Kritéria dělení pamětí

Přednášky o výpočetní technice. Hardware teoreticky. Adam Dominec 2010

Operační paměti počítačů PC

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Technické prostředky počítačové techniky

Principy počítačů a operačních systémů

Architektury paralelních počítačů I.

Když konvenční disky nestačí tempu vašich aplikací

ÚVOD DO OPERAČNÍCH SYSTÉMŮ. Správa paměti. Přímý přístup k fyzické paměti, abstrakce: adresový prostor, virtualizace, segmentace

Základní pojmy informačních technologií

HW počítače co se nalézá uvnitř počítačové skříně

Paměť počítače. 0 (neprochází proud) 1 (prochází proud)

Hardware - komponenty počítačů Von Neumannova koncepce počítače. Von Neumannova koncepce počítače

PROCESOR. Typy procesorů

Paměti EEPROM (1) Paměti EEPROM (2) Paměti Flash (1) Paměti EEPROM (3) Paměti Flash (2) Paměti Flash (3)

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Uspořádání cache pamětí procesorů historie a současný stav

požadovan adované velikosti a vlastností Interpretace adresy POT POT

Z{kladní struktura počítače

Bootkity v teorii a praxi. Martin Dráb martin.drab@ .cz

Obecné výpočty na GPU v jazyce CUDA. Jiří Filipovič

Memory Management vjj 1

Identifikátor materiálu: ICT-1-08

Paměti Josef Horálek

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Adresní mody procesoru

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Operační systémy. Přednáška 7: Správa paměti I

Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/

Architektury počítačů

Architektura počítačů Paměťová hierarchie

Metody připojování periferií

Architektury počítačů

DataDomain pod drobnohledem

DUM č. 10 v sadě. 31. Inf-7 Technické vybavení počítačů

Přidělování zdrojů (prostředků)

Mikrokontroléry. Doplňující text pro POS K. D. 2001

Počítač jako prostředek řízení. Struktura a organizace počítače

2.9 Vnitřní paměti. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu

Architektura Intel Atom

OPS Paralelní systémy, seznam pojmů, klasifikace

Petr Krajča. Katedra informatiky Univerzita Palackého v Olomouci. Petr Krajča (UP) KMI/YOS: Přednáška IV. 18. listopad, / 41

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Operační systémy. Správa paměti (SP) Požadavky na SP. Spojování a zavedení programu. Spojování programu (linking) Zavádění programu (loading)

Kubatova Y36SAP procesor - control unit obvodový a mikroprogramový řadič RISC Y36SAP-control unit 1

Pokročilé architektury počítačů

Transkript:

Architektura počítačových systémů Róbert Lórencz 8. přednáška Pamět ová hierarchie, návrh skryté paměti cache 2 http://service.felk.cvut.cz/courses/36aps lorencz@fel.cvut.cz Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 1 / 33

Obsah přednášky Přímo mapovaná skrytá pamět (fully associative cache) Plně asociativní skrytá pamět (fully associative cache) Cache s omezeným stupněm asociativity Strategie výběru oběti Redukce Miss rate Redukce Miss penalty Shrnutí Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 2 / 33

Přímo mapovaná cache - způsob zápisu 1 Přímý zápis Write through současný zápis slova do pamět ového bloku cache a na odpovídající místo v paměti vždy je prováděn současný zápis do cache a do hlavní paměti jednoduchý, ale pomalý způsob udržování shodného obsahu cache a paměti zatěžuje komunikaci s pamětí, vyžaduje zapisovací buffer write buffer Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 3 / 33

Přímo mapovaná cache - způsob zápisu 2 Odložený zápis Write back (copy back) obnovit obsah slova jen v cache a na odpovídajícím místě v paměti ponechat původní slovo přidat dirty bit každé řádce cache, který indikuje potřebu zápisu slova z cache na odpovídající místo v paměti v případě, že blok obsahující slovo bude z cache nahrazen jiným slovem OS musí před operací I/O aktualizovat obsah paměti obsahem cache!! zápis dat jen do cache, zápis hodnoty slova z bloku cache do paměti se provádí jen když je daný blok, který je označený dirty bitem, z cache odstraňován rychlý, ale implementačně složitější, než write through problém konzistence obsahu cache a hlavní paměti Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 4 / 33

Přímo mapovaná cache - velikost bloku 1 Výhody větších bloků využití prostorové lokality větší blok obsahuje více slov v blízkosti požadovaného slova větší blok více instrukcí po sobě jdoucích nebo více dat jednoho pole Nevýhody větších bloků větší blok způsobuje méně výpadků, ale větší miss penalty k načtení většího bloku z nižší úrovně potřebujeme více času, než k načtení menšího bloku pro velké velikosti bloků vzhledem k velikosti cache existuje jen málo bloků v cache, a tak roste miss rate Miss Penalty Velikost bloku + Miss Vyuz Rate ití prost. lokality Ménì blokù: menší využití vyuzití èas. lokality = Velikost bloku Prùmìrná doba pøístupu Miss Penalty & Miss Rate Velikost bloku Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 5 / 33

Přímo mapovaná cache - velikost bloku 2 Extrémní případ: jeden velký blok Bit platnosti Klíè Cache data W 3 W 2 W 1 W 0 velikost cache = 4, slova = 16 B velikost bloku = 16 B jenom jeden vstup do cache! Proè nemáme index? je pravděpodobné, že zpracovávaná položka bude znovu žádána je ale méně pravděpodobné, že bude žádaná bezprostředně! potom je pravděpodobné, že další přístup do cache bude výpadek (miss) musí se načíst požadovaná data a nahradit původní blok novým nahrazená data mohou být požadována v dalších krocích: noční můra návrhářů cache: ping pong efekt. Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 6 / 33

Přímo mapovaná cache - AMAT Průměrná doba přístupu do paměti Average Memory Access Time AMAT AMAT = HT + MP MR HT = Hit Time čas potřebný pro nalezení a získaní hledané položky v cache MP = Miss Penalty průměrný čas získání dat z nižší úrovně pamět ové hierarchie při nenalezení hledané položky v cache (zahrnuje také detekci MR a předání dat procesoru) HR = Hit Rate poměrná úspěšnost nalezení dat v cache k celkovému počtu přístupů do paměti MR = 1 - HR = Miss Rate Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 7 / 33

Přímo mapovaná cache - typy výpadků Studené výpadky Compulsory misses vyskytují se po startu počítače cache po startu neobsahuje žádná data výskyt studených výpadků až do naplnění cache Konfliktní výpadky Conflict misses Výpadky, které se vyskytují z důvodů, že 2 a více rozdílných adres paměti je mapováno na stejné místo v cache 2 a víc bloků je mapováno do téhož místa v cache (stejný index), přítomnost jednoho bloku v cache vylučuje přítomnost jiného bloku se stejným indexem Problém u DM cache, řešení jak zmenšit konfliktní výpadky: 1 zvětšit velikost cache, zvětšení je ale limitováno 2 pro tentýž index mít vícenásobné umístění bloků Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 8 / 33

Plně asociativní cache popis Fully Associative Cache Pamět ové adresní pole: Klíč & Offset: stejné jako u DM a FA cache Index: neexistuje neexistují řádky, každý blok může být umístěn kdekoliv v cache hledat se musí podle Klíče v celé cache, jestli se požadovaná data někde nenacházejí Výhoda: neexistují konfliktní výpadky (s definice), protože data mohou být kdekoliv Nevýhoda:potřeba množství HW komparátorů pro každý jednotlivý blok Kapacitní výpadky Capacity misses: základní typ výpadků pro plně asociativní cache výpadky způsobené omezenou kapacitou plně asociativní cache zmenšení kapacitních výpadků dosáhneme zvětšením velikosti cache (limitováno) Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 9 / 33

Plně asociativní cache příklad Příklad: 64 KB cache, 32 bit adresa, velikost bloku = 32 B Potřebujeme: 2 K 27-bit komparátorů nereálné! Klíè (27 b) Offset (5 b) Platnost Klíè Data = Byte 31 : Byte 1 Byte 0 = Byte 63 : Byte 33 Byte 32 = = = : : : Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 10 / 33

Cache s omezeným stupněm asociativity popis 1 N-Way Set Associative Cache Pamět ové adresní pole: Shrnutí: Klíč & Offset: stejné jako u DM cache Index: Ukazuje na řádek, který obsahuje tzv. set každý set: obsahuje několik bloků! když chceme najít hledané slovo v blocích jednoho setu (ukazuje na něj index), musíme porovnat všechny klíče příslušející blokům s klíčem adresy požadovaného slova cache s omezeným stupněm asociativity je přímo mapovaná s ohledem na sety každý set je plně asociativní v podstatě N přímo mapovaných caches pracuje paralelně, tj. každý blok má svůj bit platnosti a data Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 11 / 33

Cache s omezeným stupněm asociativity popis 2 Činnost cache je dána adresa požadovaného slova adresuje se set odpovídající indexu porovná se klíč žádaného slova s klíči bloků v setu výpadek, pokud není nalezena shoda ani s jedním klíčem pokud hit, potom použití offsetu k adresaci hledaného slova v daném bloku Výhoda cache s omezeným stupněm asociativity: již cache s N=2 vyloučí množství konfliktních výpadků HW není o moc složitější, vyžaduje jen N komparátorů navíc atd. větší N větší hit rate, protože více bloků paměti se stejným indexem může být pamatováno v cache Cache s omezeným stupněm asociativity N a s M bloky v setu je: DM cache N = 1 plně asociativní cache N = M Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 12 / 33

Cache s omezeným stupněm asociativity popis 3 Blok 12 je umíst ován v 8 blokové cache: plně asociativní přímo mapované s omezeným stupněm asociativity N=2 èíslo setu = èíslo bloku % # setù Plnì asociativní: blok 12 umístìn kdekoliv Pøímo mapovaná: blok 12 umístìn jen do bloku 4 (12 mod 8) Omezený stupeò: blok 12 umístìn do setu 0 (12 mod 4) Èíslo bloku 0 1 2 3 4 5 6 7 Èíslo bloku 0 1 2 3 4 5 6 7 Èíslo bloku 0 1 2 3 4 5 6 7 Set 0 Set 1 Set Set 2 3 Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 13 / 33

Cache s omezeným stupněm asociativity popis 4 Pøíklad organizace cache 8 bloková cache # blokù = N Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 14 / 33

Cache s omezeným stupněm asociativity popis 5 Příklad: 4 KB N=4 cache, 4 1024 B, velikost bloku = 4 B (1 slovo) Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 15 / 33

Strategie výběru oběti prinipy Přímo mapovaná cache: úplně specifikuje blok, který má být vyměněn. Cache s omezeným stupněm asociativity: index specifikuje set, ale blok může obsadit kteroukoliv pozici uvnitř setu. Plně asociativní cache: blok může obsadit kterýkoliv blok v cache. Pokud máme na výběr, kam zapsat nový blok, pak jak vybrat místo? Řešení: když je bit platnosti nula potom nový blok na dané místo když dané místo obsahuje blok s platným bitem platnosti, potom se musí určit pravidlo, které určí blok, který má být nahrazen novým blokem Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 16 / 33

Strategie výběru oběti LRU Nejméně používaná položka LRU (Least Recently Used): Výhoda: vyměnit blok v setu, kterého slova byla nejméně čtena/zapisována využívá časovou lokalitu zvyšuje hit rate při N=2 je velmi jednoduché udržovat informaci o nejméně používané položce v setu (1 LRU bit) Nevýhoda: při N>2 je HW komplikovanější, časová složitost pro udržení LRU informace také roste Příklad: Máme cache s N=2, která má kapacitu 4 slova a bloky velikosti jednoho slova. Budeme vykonávat čtení slov na adresách: 0, 2, 0, 1, 4, 0, 2, 3, 5, 4. Kolik hitů a kolik výpadků bude připadat pro strategii výběru oběti pomocí LRU? Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 17 / 33

Strategie výběru oběti LRU 2 Adresesa: 0, 2, 0, 1, 4, 0,... 0: miss, zápis do set 0 (loc 0) 2: miss, zápis do set 0 (loc 1) 0: hit 1: miss, zápis do set 1 (loc 0) 4: miss, zápis do set 0 (loc 1, replace 2) 0: hit set 0 set 1 set 0 set 1 set 0 set 1 set 0 set 1 set 0 set 1 set 0 set 1 loc 0 loc 1 0 lru lru 0 2 0 lru 2 0 lru 2 1 lru lru 0 4 1 lru 0 lru 4 1 lru Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 18 / 33

Strategie výběru oběti LRU vs. Random Miss rates v porovnání LRU Random strategie výběru oběti Asociativita N = 2 N = 4 N = 8 Velikost LRU Random LRU Random LRU Random 16 KB 5.2% 5.7% 4.7% 5.3% 4.4% 5.0% 64 KB 1.9% 2.0% 1.5% 1.7% 1.4% 1.5% 256 KB 1.15% 1.17% 1.13% 1.13% 1.12% 1.12% Je jen malý rozdíl Miss rate pro LRU a Random v případě velkých pamětí cache Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 19 / 33

Redukce Miss rate 1 Doposud známe redukci Miss rate: zvětšením velikosti bloku zvětšením N (stupně asociativity) Větší cache: limitována cenou a technologií Hit time L1 cache < doba taktu Více místa pro bloky paměti v cache: plně asociativní cache blok kdekoliv v cache N > 1 N možností pro umístění bloku paměti v cache pro DM cache N=1 Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 20 / 33

Redukce Miss rate 2 1. Redukce výpadkù pøes vìtší bloky 25% Vyuzití prostorové lokality 20% 15% Miss Rate 10% 5% Ménì blokù: menší vyuzití èasové lokality 1K 4K 16K 64K 256K 0% 16 32 64 128 Velikost bloku [B] 256 Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 21 / 33

Redukce Miss rate 3 2. Redukce konfliktních výpadků prostřednictvím N Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 22 / 33

Redukce Miss rate 4 3. Redukce konfliktních výpadků prostřednictvím L2 cache Příklad 1: HT = 1 takt MR = 5 % MP = 20 taktů AMAT = HT + MP MR = 1 + 0.05 20 = 2 takty Při prvním použití cache: Miss Penalty 10 taktům procesoru. V součastnosti: "1 GHz procesor" (1 ns takt) a 100 ns latence DRAM 100 taktů rozdíl! Řešení: další cache mezi pamětí a procesorem: L2 cache. Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 23 / 33

Redukce Miss rate 5 3. Redukce konfliktních výpadků prostřednictvím L2 cache 2 Otázka správného výběru mezi stupněm asociativity, velikosti bloku, výběru oběti atd., je nejlépe zodpovězena na základě návrhu výkonnostního modelu. Minimalizace: AMAT = HT + MP MR Zahrnout technologii a chování aplikace L1 velikost: desítky KB HT : provedeno v 1 taktu MR: 1-5% L2 velikost: stovky KB HT : několik taktů MR: 10-20% Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 24 / 33

Redukce Miss rate 6 3. Redukce konfliktních výpadků prostřednictvím L2 cache 3 AMAT L1 = HT L1 + MP L1 MR L1 MP L1 = AMAT L2 = HT L2 + MP L2 MR L2 AMAT L1&L2 = HT L1 + MR L1 (HT L2 + MP L2 MR L2 ) Definice: Local miss rate počet výpadků v dané cache dělený počtem přístupů do paměti pro danou cache (Miss rate L2 cache - MR L2 ). Global miss rate počet výpadků v dané cache dělený celkovým počtem přístupů do pamět ového systému generováno CPU (MR L1 MR L2 ). Jde nám hlavně o tyto výpadky. Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 25 / 33

Redukce Miss rate 7 3. Redukce konfliktních výpadků prostřednictvím L2 cache 4 Příklad: 2 HT L1 = 1 takt MR L1 = 5 % HT L2 = 5 takt MR L2 = 15 % (% L1 výpadků) MP L2 = 100 taktů MP L1 = HT L2 + MP L2 MR L2 = 5 + 100 0.15 = 20 taktů AMAT L1&L2 = HT L1 +MP L1 MR L1 = 1+20 0.05 = 2 takty AMAT L1 = HT L1 + MP L1 MR L1 = 1 + 100 0.05 = 6 taktů MP L2 S L2 cache je systém 3 rychlejší! Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 26 / 33

Redukce Miss rate 8 4. Redukce prostřednictvím Victim Cache" pamět oběti L1 cache Využití malého HT DM cache a nějaké malé paměti odstraněných bloků. Klíèe DATA Tím se značně eliminují konfliktní výpadky charakteristické pro DM cache. Klíè & = Øádek dat Klíè & = Øádek dat Jouppi [1990]: 4-úrovňová Klíè & = Øádek dat "victim cache" odstraní Klíè & = Øádek dat 20% až 95% konfliktů pro 4 KB DM cache. (Alpha a HP) L2 cache nebo pamìt' Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 27 / 33

Redukce Miss rate 9 5. Redukce prostřednictvím "HW prefetching" HW přednačtení Přednačtení instrukcí a bloků dat Alpha 21064 načítá 2 bloky v případě výpadku blok je navíc umístěn do paměti stream buffer pokud je výpadek, potom je kontrolován také stream buffer přednačtení vyžaduje rozšířenou šířku přenosu z nižších úrovní paměti Existuje také SW prefeching přednačtení dat. 6. Redukce prostřednictvím pseudoasociativity využití HT DM cache s nízkou hodnotou konfliktních výpadků cache s omezeným stupněm asoc. N = 2 nejdřív se prohlédne 1. polovina cache, když je miss, až pak se prohlíží 2. polovina cache Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 28 / 33

Redukce Miss penalty 1 1. Redukce prostřednictvím zapisovací paměti write buffer 1 Processor Cache DRAM Write Buffer Write buffer je umístěn mezi cache a pamět (vedle cache) procesor zapisuje data do cache a současně do write bufferu řadič zapisuje obsah bufferu do nižší úrovňové paměti (DRAM) write buffer je FIFO, typický počet položek je 4 musí být ošetřeno přetečení zápisů pracuje optimálně pro frekvenci zápisu 1/cyklus zápisu DRAM Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 29 / 33

Redukce Miss penalty 2 1. Redukce prostřednictvím zapisovací paměti write buffer 2 Write buffer problém frekvence zápisu cyklus zápisu DRAM Write buffer saturace řešení: použít Write back cache přidat L2 cache Processor Cache L2 Cache DRAM Write Buffer Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 30 / 33

Redukce Miss penalty 3 2. Redukce prostřednictvím podbloků při výpadku se nenačítá celý blok, ale jen jeho část slovo, podblok atd. každá tato část má svůj vlastní bit platnosti minimálně se ušetří zápis klíče (proto vymyšleno) 100 1 1 1 1 300 1 1 0 0 200 0 1 0 1 204 0 0 0 0 Bity platnosti Podbloky Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 31 / 33

Shrnutí 1 Redukce Hit time zmenšení velikosti cache, ale zvětšení Miss rate použití přímo mapované cache zvětší Miss rate Redukce Miss rate zvětšení velikosti cache může zvětšit také Hit time N > 1, ale může se zvětšit Hit time zvětšení velikosti bloku může zvětšit Miss penalty Redukce Miss penalty redukovat čas přenosu komponent Miss penalty přidat další cache (L2) Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 32 / 33

Shrnutí 2 Pamět ová hierarchie optimalizuje cenu a výkon paměti zahrnuje kompromis mezi velikostí, rychlostí a cenou poskytuje iluzi o paměti, která má dobu přístupu paměti vyšší úrovně a velikost a cenu paměti na nižších úrovních to vše zásluhou platnosti principů časové a prostorové lokality Cache je součásti pamět ové hierarchie využívá princip časové a prostorové lokality přímo mapovaná cache je jednoduchá a rychlá, má ale větší Miss rate cache s omezeným stupněm asociativity má nižší Miss rate, ale je složitější a pomalejší více úrovňové cache systémy mají značnou popularitu, redukují Miss rate, a také Miss penalty Róbert Lórencz (ČVUT FEL, 2005) Architektura počítačových systémů 33 / 33