MI-TSP 12: SYSTÉMY ODOLNÉ PROTI PORUCHÁM FT (FAULT-TOLERANT) SYSTÉMY

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti MI-TSP 12: SYSTÉMY ODOLNÉ PROTI PORUCHÁM FT (FAULT-TOLERANT) SYSTÉMY doc. Ing. Hana Kubátová, CSc. Katedra číslicového návrhu Fakulta informačních technologii ČVUT v Praze 1

OBSAH Poruchy a co s nimi Co je dependability Proč a kdy a jestli vůbec zabezpečovat Ukazatele spolehlivosti Výpočty a grafy zdroje: Dhiraj K. Pradham M. Kaaniche, K. Kanoun, Jean-Claude Laprie Algirdas Avizienis 2

ZÁKLADNÍ TERMINOLOGIE Fault, defect (porucha) fyzický defekt. fyzický prostor error (chyba) projev poruchy informační prostor failure (selhání) chyba vede k selhání funkce systému vnější, uživatelský prostor 3

POKRAČOVÁNÍ. MI-TSP 2011/12 latence poruchy - doba mezi vznikem poruchy a projevem chyby v důsledku této poruchy latence chyby - doba mezi nastáním chyby a selháním funkce typ poruchy (HW, SW, analogová, číslicová) trvání poruchy (trvalé, přechodné, opakované) dosah poruchy (vliv na HW, SW nebo obojí) hodnota poruchy (určitá, neurčitá - měnící se v čase) 4

KLASIFIKACE PORUCH chyby v návrhu Mode IC Failures Duration degradace parametrů Incorrect Design Parameter Degradation Permanant Hard Temporaty Soft trvalé přechodné Transient občasné přerušované Intermittent 5

FAULT AVOIDANCE, MASKING, TOLERANCE Zabránění poruše - návrh, testování, kontrolní metody maskování poruchy - zabránění přechodu poruchy jako chyby do informačního prostoru pokračování funkce po nastání poruchy - zabránění selhání systému 6

TECHNIKY FT Maskování poruch Rekonfigurace detekce poruchy lokalizace poruchy ohraničení - izolace poruchy zotavení po poruše dtto pro chybu v informačním prostoru 7

POŽADAVKY PRO DOSAŽENÍ FT Dependability - provozní spolehlivost Reliability - spolehlivost Availability - pohotovost Safety - bezpečnost Performability - proveditelnost Maintanability - udržovatelnost Testability - testovatelnost 8

UNI. BRISTOL, PŘEDNÁŠEJÍCÍ D PRADHAN HTTP://WWW.CS.BRIS.AC.UK/TOOLS/LOCAL/HANDBOOK0203/ UNITS/COMS30125.HTML Intuitive concepts Reliability continues to work Availability works when I need it Safety does not put me in jeopardy Performability Maintainability Testability Survivability will the system survive catastrophic events? 9

DEPENDABILITY - PROVOZNÍ SPOLEHLIVOST sjednocení všech konceptů kvalita služeb poskytovaných systémem (Laprie, 1985) další termíny slouží ke kvantifikaci provozní spolehlivosti systému 10

RELIABILITY - SPOLEHLIVOST Spolehlivost. pravděpodobnost bezporuchového provozu. R(t) pravděpodobnost, že systém pracuje správně v určitém časovém intervalu R(t) = 0,9999999 0,9 7 Q(t) pravděpodobnost poruchy (unreliability) někdy F(t) př. kontrola letu rakety 11

AVAILABILITY - POHOTOVOST Pravděpodobnost, že systém pracuje správně a provádí své funkce v časovém okamžiku t A(t) záleží nejen na tom, jak často je nefunkční, ale také jak rychle může být opraven př. rezervační systém letenek 12

SAFETY - BEZPEČNOST Pravděpodobnost, že systém provádí svou funkci správně nebo přestane fungovat tak, že nenaruší funkci jiných systémů - selže bezpečným způsobem, nezpůsobí žádnou škodu S(t) 13

PERFORMABILITY - PROVEDITELNOST Pravděpodobnost, že systém bude fungovat na určité úrovni L v časovém okamžiku t P(L,t) R(t) všechny funkce systému se musí provádět správně P určitá podmnožina funkcí je prováděna správně 14

MAINTANABILITY - UDRŽOVATELNOST Jde o možnost opravy v případě selhání pravděpodobnost, že porouchaný systém bude uveden do funkčního stavu v čase t M(t) zjištění (on line testování!) a nalezení poruchy, fyzická oprava, znovuuvedení do činnosti 15

TESTABILITY - TESTOVATELNOST Schopnost testovat určité vlastnosti systému zvýšení testovatelnosti - část testů je integrována do systému úzký vztah k udržovatelnosti 16

CO JE DEPENDABILITY? Dependability = sjednocení: Reliability = continuity of service Availability = readiness for usage Safety = no catastrophic consequences Security = prevention of unauthorized access 23-Oct-2006 School of Computer & Communication Sciences École Polytechnique Fédérale de Lausanne http://dslab.epfl.ch/courses/pods 17

CO JSOU RAMS PARAMETRY? R: Reliability.. spolehlivost A: Availability.pohotovost M: Maintanability udržovatelnost S: Safety..bezpečnost Často užívané i v českých materiálech a normách pro kritické aplikace 18

VÝVOJ SYSTEMATICKÉHO PŘÍSTUPU KE SPOLEHLIVOSTI A FT (1950s) teoretický výzkum v oblasti redundance a kódování Moore, Shannon, Hamming, Von Neumann (1960s) Fault Tolerance je systematicky vestavěna do systémů Bell ESS IBM 360 Space system (SATURN IV) (1970s) Spolehlivost se stává součástí komerčních návrhů Tandem Nonstop 19

TŘÍDY FAULT-TOLERANT SYSTÉMŮ Ultra spolehlivé systémy (Ultra Reliable Systems) Systémy s dlouhou životností (Long Life Systems) Systémy s vysokou pohotovostí (Highly Available systems) 20

ULTRA SPOLEHLIVÉ SYSTÉMY Kritické řídící aplikace v reálném čase Systemová spolehlivost (Reliability pravděpodobnost bezporuchového provozu): Pravděpodobnost, že sysém bude pracovat správně požadovanou dobu. Př: Letecké počítače pro nestabilní letadla (NASA): Pravděpodobnost selhání jmusí být menší než 10-9 po dobu 10 hodin provozu Fault Tolerance: Musí tolerovat maximum poruch, které se mohou objevit kdekoli v systému aniž způsobí jeho selhání. 21

SYSTÉMY S DLOUHOU ŽIVOTNOSTÍ Aplikace s vyloučenou údržbou a/nebo opravou Př. Vesmírné rakety, satelity (bez posádky) Mean time to Failure(MTTF): střední doba do poruchy Př. 20 years MTTF = 20 let pro komunikační satelit Maximum mission time: maximální doba provozu pro specifikovanou minimální úroveň spolehlivosti. Př. R(t) > 0.90 po dobu 10 let pro výzkumné planetární vozítko 22

SYSTÉMY S VYSOKOU POHOTOVOSTÍ Aplikace, kde doba nefungování je drahá Telefoní switching computer Drahé systémy s vysokou výkonností Mean time to repair (MTTR) střední doba opravy: průměrná doba opravy systému následující po jeho poruše. Mean time between Failures (MTBF) střední doba mezi poruchami, někdy Ts (střední doba bezporuchového provozu): MTBF = MTTF + MTTR Maintainability: Pravděpodobnost, že porouchaný systém bude uveden do funkčního stavu v čase t Availability: Pravděpodobnost, že systém pracuje správně v libovolném daném čase t po celou dobu jeho provozu 23

MTTF MTBF MTTR Availability = ---------------------- = --------------------- MTTF + MTTR MTBF Př: Cray-1(1975) MTTF = 4 hodiny MTTR = 0.1 hod 4 Availability = -------- = 0.98 4.1 BELL ESS Cíl: 20 minut nefunkčních stavů za 40 let 24

COST OF OWNERSHIP JAKO FUNKCE RELIABILITY A MAINTAINABILITY Minimální cost of ownership Cena Cost of ownership Pořizovací náklady Náklady na servis a údržbu Reliability a maintainability 25

FAIL-FAST IS GOOD, REPAIR MI-TSP 2011/12 IS NEEDED Životní cyklus modulu: Rychlá porucha znamená Krátkou latenci poruchy Vysoká Availability nízká UN-Availability Unavailability ~ MTTR MTTF Zlepšení buď MTTR nebo MTTF je výhodné Jednoduchá redundance moc nepomůže. 26

Availability MI-TSP 2011/12 0.9.9 12-x Ultra Reliable Systémy Komerční Fault-Tolerant Systémy 0.9999 0.999 0.99 Masivně paralelní / distribuované systémy 0.9 10 1 10 2 10 3 10 4 10 5 10 6 10 7 10 8 Throughput (MFLOPS) 27

Odkazy MI-TSP 2011/12 www.dependability.org www.paradise.caltech.edu www.weibull.com/knowledge/rel_glossary.htm www.crhcuiuc.edu www.reflexsoftware.com 28