MI-TSP 12: SYSTÉMY ODOLNÉ PROTI PORUCHÁM FT (FAULT-TOLERANT) SYSTÉMY

Podobné dokumenty
Spolehlivost. INP 2008 FIT VUT v Brně

Poruchy. Přednášky z Distribuovaných systémů Ing. Jiří Ledvina, CSc.

Řízení jakosti a spolehlivosti. ŘÍZENÍ SPOLEHLIVOSTI - XI Pavel Fuchs David Vališ Josef Chudoba Jan Kamenický Jaroslav Zajíček

Testování a spolehlivost. 4. Laboratoř Spolehlivostní modely 1

Základní parametry tříd serveroven a datových center TIER

PA152: Efektivní využívání DB 2. Datová úložiště. Vlastislav Dohnal

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Chyby software. J. Sochor, J. Ráček 1

Úvod Terminologie, typy defektů, poruch

Formální Metody a Specifikace (LS 2011) Formální metody pro kyber-fyzikální systémy

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Přednáška Principy kvantifikace integrity bezpečnosti železničních zabezpečovacích systémů Autor: Ing. Petr Hloušek, Ph.D

A6M33SSL: Statistika a spolehlivost v lékařství Teorie spolehlivosti

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Systémy a aplikace pro řízení železniční dopravy. Výběrová přednáška na FI MU Brno, 5.V.2016 Ing. Mgr. David Krásenský

VYSOKÉ UČENÍ TECHNICKÉ Fakulta strojního inženýrství Ústav strojírenské technologie

Zjišťování spokojenosti zákazníků se službami MHD a provádění dalších šetření v oblasti veřejné dopravy

Řízení jakosti a spolehlivosti. ŘÍZENÍ SPOLEHLIVOSTI - IV Pavel Fuchs David Vališ Josef Chudoba Jan Kamenický Jaroslav Zajíček

ZMĚNA ČESKÉHO OBRANNÉHO STANDARDU. AAP-48, Ed. B, version 1

Satelitní systém Galileo pro bezpečnostní aplikace na železnici

14 Úvod do plánování projektu Řízení projektu

KIV/ASWI 2007/2008 Techniky zajištění kvality software. Kvalita software Techniky včasné detekce

14 Úvod do plánování projektu Řízení projektu

1 Úvod 1.1 Vlastnosti programového vybavení (SW)

Teorie systémů TES 5. Znalostní systémy KMS

Testování sekvenčních obvodů Scan návrh

UAI/612 - Cloudová Řešení. Návrh aplikací pro cloud

PROCES ZAJIŠTĚNÍ FUNKČNÍ BEZPEČNOSTI STROJE

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

A6M33SSL: Statistika a spolehlivost v lékařství Teorie spolehlivosti Přednáška 2

A6M33SSL: Statistika a spolehlivost v lékařství Teorie spolehlivosti

Hodnocení železničních systémů podle Evropských standardů. Doc. Dr. Ing. Tomáš Brandejský Ing. Martin Leso, PhD Fakulta dopravní ČVUT v Praze

TECHNICKÝ PŘEHLED. Spolehlivost SPR/TPR: VYSOCE VÝKONNÝ FLEXIBILNÍ SS SYSTÉM

Teorie systémů TES 7. Výrobní informační systémy

zpravidla předpokládá, že hodnoty intenzity poruch a oprav jsou konstantní.

PŘÍSPĚVEK K PLÁNOVÁNÍ ÚDRŽBY ŽELEZNIČNÍCH VOZIDEL CONTRIBUTION TO THE MAINTENANCE PLANNING OF RAIL VEHICLES

Globální strategie, IT strategie, podnikové procesy. Jaroslav Žáček

Testování pamětí (Memory BIST)

LOGICKÉ OBVODY X36LOB

ÚDRŽBA ZAMĚŘENÁ NA BEZPORUCHOVOST (RCM)

Diskové paměti nové pojmy a technologie

otázka body

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ

Technológia riadenia tunelových stavieb. Ing. Petr Svoboda,Ph.D., SPEL, spol. s r.o. Ing. Jiří Bartoň, SPEL, spol. s r.o.

PROGRAM SPOLEHLIVOSTI

Střední doba mezi poruchami: vysvětlení a standardy

Centrum kompetence automobilového průmyslu Josefa Božka - AutoSympo a Kolokvium Božek až , Roztoky -

GSM access LXI controller

Tato norma je přeložena z anglického znění bez redakčních změn. V případě, že by vznikl spor o výklad, použije se původní anglické znění normy.

Smart Cities Co znamená udržitelnost v lokálním hledisku?

Přednáška 1. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

lkové lokalizace poruch v distribuční síti v Bratislavě

Globální strategie, podnikové procesy, IT strategie. Jaroslav Žáček

On-line datový list. ICD ICD89x KAMEROVÉ ČTEČKY KÓDŮ

METODIKA NÁVRHU SYSTÉMŮ ODOLNÝCH PROTI PORUCHÁM DO OMEZENÉHO IMPLEMENTAČNÍHO PROSTORU NA BÁZI FPGA

Disková pole (RAID) 1

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

1. Úvod Stacionární radiolokátory pro civilní letiště 24

Analysis techniques for system reliability - Procedure for failure mode and effects analysis (FMEA)

Technologie II. Strojní programování. Přednáška č. 7. Autor: doc. Ing. Martin Vrabec, CSc.

Dlouhodobé zkoušení spalovacích motorů v1.0

Technická podpora IBM Informix. Jan Musil IT Specialist SWG IBM

ČESKÁ TECHNICKÁ NORMA

Filosofie konstruování a dimenzování mechanických částí vozidel z hlediska jejich funkce a provozního zatěžování

On-line datový list. ICD ICD89x KAMEROVÉ ČTEČKY KÓDŮ

PROGRAMOVÁNÍ ŘÍDÍCÍCH SYSTÉMŮ

Analýza spolehlivosti tlakové nádoby metodou Monte Carlo

STOCHASTICKÝ MODEL SPOLEHLIVOSTI MODERNIZOVANÉ MOTOROVÉ LOKOMOTIVY STOCHASTIC RELIABILITY MODEL OF MODERNIZED DIESEL LOCOMOTIVE

Zahájení procesu řízení rizik při provádění technických změn na železničních subsystémech

Přehled technických norem z oblasti spolehlivosti

Nimbus Data All Flash Systems

I. von Neumann, E.F. Moore a C.E. Shannon. Teorie maskující nadbytečnosti. (1965) W.H. Pierce. Pojem odolnost proti poruchám.

Architektury so.warových systémů Architecture of So.ware Systems

V Brně dne a

TECHNICKÁ SPECIFIKACE

Bezpečnost chemických výrob N Petr Zámostný místnost: A-72a tel.:

otázka body

Struktura a architektura počítačů (BI-SAP) 3

Doc. Ing. Daniel Kaminský, CSc. ELCOM, a.s.

Testování kombinačních obvodů Intuitivní zcitlivění cesty, D-algoritmus

Management rizika Bc. Ing. Karina Mužáková, Ph.D. BIVŠ,

Elektronické obvody analýza a simulace

ČSN Část 3: Návod k použití. IEC Oddíl 9: Analýza rizika technologických systémů

SPOLEHLIVOST A PREVENTIVNÍ ÚDRŽBA

Disková pole (RAID) 1

ISMS. Uživatel jako zdroj rizik. V Brně dne 5. a 12. prosince 2013

FMEA - konstrukční. Zpracoval: doc. Dr. Ing. Ivan Mašín

wlsn* obousměrná bezdrátová síť Rychlá cesta ke spolehlivějšímu zabezpečení

On-line datový list. FX3-ANA Flexi Soft / Safe EFI-pro System BEZPEČNOSTNÍ JEDNOTKY / BEZPEČNOSTNÍ SYSTÉMY

Bezpečnost informačních systémů a jejich kvalita

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

(R)evoluce v softwaru Budoucnost je fl exibilní: modulární technické vybavení požární signalizace ESSER

SME instrument v praxi 2014

Ekvivalence. Základy diskrétní matematiky, BI-ZDM ZS 2011/12, Lekce 5

Originální návod k provozu Bezpečnostní spínací přístroj s releovými výstupy G1501S / / 2014

PRŮMYSLOVÉ ŘÍDICÍ SYSTÉMY II

UNIVERZITA PARDUBICE. Fakulta elektrotechniky a informatiky. Shromáždění akademické obce, Simon Karamazov

Univerzita Pardubice Dopravní fakulta Jana Pernera. Vyhodnocení údržby zabezpečovacího zařízení s ohledem na plnění požadavků RAMS.

PROJEKTY SPOLEČNOSTI METROPOLNET, A.S. PRO OBDOBÍ PROJEDNÁNO NA PŘEDSTAVENSTVU SPOLEČNOSTI DNE

ŘPS Průmyslový Ethernet

Transkript:

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti MI-TSP 12: SYSTÉMY ODOLNÉ PROTI PORUCHÁM FT (FAULT-TOLERANT) SYSTÉMY doc. Ing. Hana Kubátová, CSc. Katedra číslicového návrhu Fakulta informačních technologii ČVUT v Praze 1

OBSAH Poruchy a co s nimi Co je dependability Proč a kdy a jestli vůbec zabezpečovat Ukazatele spolehlivosti Výpočty a grafy zdroje: Dhiraj K. Pradham M. Kaaniche, K. Kanoun, Jean-Claude Laprie Algirdas Avizienis 2

ZÁKLADNÍ TERMINOLOGIE Fault, defect (porucha) fyzický defekt. fyzický prostor error (chyba) projev poruchy informační prostor failure (selhání) chyba vede k selhání funkce systému vnější, uživatelský prostor 3

POKRAČOVÁNÍ. MI-TSP 2011/12 latence poruchy - doba mezi vznikem poruchy a projevem chyby v důsledku této poruchy latence chyby - doba mezi nastáním chyby a selháním funkce typ poruchy (HW, SW, analogová, číslicová) trvání poruchy (trvalé, přechodné, opakované) dosah poruchy (vliv na HW, SW nebo obojí) hodnota poruchy (určitá, neurčitá - měnící se v čase) 4

KLASIFIKACE PORUCH chyby v návrhu Mode IC Failures Duration degradace parametrů Incorrect Design Parameter Degradation Permanant Hard Temporaty Soft trvalé přechodné Transient občasné přerušované Intermittent 5

FAULT AVOIDANCE, MASKING, TOLERANCE Zabránění poruše - návrh, testování, kontrolní metody maskování poruchy - zabránění přechodu poruchy jako chyby do informačního prostoru pokračování funkce po nastání poruchy - zabránění selhání systému 6

TECHNIKY FT Maskování poruch Rekonfigurace detekce poruchy lokalizace poruchy ohraničení - izolace poruchy zotavení po poruše dtto pro chybu v informačním prostoru 7

POŽADAVKY PRO DOSAŽENÍ FT Dependability - provozní spolehlivost Reliability - spolehlivost Availability - pohotovost Safety - bezpečnost Performability - proveditelnost Maintanability - udržovatelnost Testability - testovatelnost 8

UNI. BRISTOL, PŘEDNÁŠEJÍCÍ D PRADHAN HTTP://WWW.CS.BRIS.AC.UK/TOOLS/LOCAL/HANDBOOK0203/ UNITS/COMS30125.HTML Intuitive concepts Reliability continues to work Availability works when I need it Safety does not put me in jeopardy Performability Maintainability Testability Survivability will the system survive catastrophic events? 9

DEPENDABILITY - PROVOZNÍ SPOLEHLIVOST sjednocení všech konceptů kvalita služeb poskytovaných systémem (Laprie, 1985) další termíny slouží ke kvantifikaci provozní spolehlivosti systému 10

RELIABILITY - SPOLEHLIVOST Spolehlivost. pravděpodobnost bezporuchového provozu. R(t) pravděpodobnost, že systém pracuje správně v určitém časovém intervalu R(t) = 0,9999999 0,9 7 Q(t) pravděpodobnost poruchy (unreliability) někdy F(t) př. kontrola letu rakety 11

AVAILABILITY - POHOTOVOST Pravděpodobnost, že systém pracuje správně a provádí své funkce v časovém okamžiku t A(t) záleží nejen na tom, jak často je nefunkční, ale také jak rychle může být opraven př. rezervační systém letenek 12

SAFETY - BEZPEČNOST Pravděpodobnost, že systém provádí svou funkci správně nebo přestane fungovat tak, že nenaruší funkci jiných systémů - selže bezpečným způsobem, nezpůsobí žádnou škodu S(t) 13

PERFORMABILITY - PROVEDITELNOST Pravděpodobnost, že systém bude fungovat na určité úrovni L v časovém okamžiku t P(L,t) R(t) všechny funkce systému se musí provádět správně P určitá podmnožina funkcí je prováděna správně 14

MAINTANABILITY - UDRŽOVATELNOST Jde o možnost opravy v případě selhání pravděpodobnost, že porouchaný systém bude uveden do funkčního stavu v čase t M(t) zjištění (on line testování!) a nalezení poruchy, fyzická oprava, znovuuvedení do činnosti 15

TESTABILITY - TESTOVATELNOST Schopnost testovat určité vlastnosti systému zvýšení testovatelnosti - část testů je integrována do systému úzký vztah k udržovatelnosti 16

CO JE DEPENDABILITY? Dependability = sjednocení: Reliability = continuity of service Availability = readiness for usage Safety = no catastrophic consequences Security = prevention of unauthorized access 23-Oct-2006 School of Computer & Communication Sciences École Polytechnique Fédérale de Lausanne http://dslab.epfl.ch/courses/pods 17

CO JSOU RAMS PARAMETRY? R: Reliability.. spolehlivost A: Availability.pohotovost M: Maintanability udržovatelnost S: Safety..bezpečnost Často užívané i v českých materiálech a normách pro kritické aplikace 18

VÝVOJ SYSTEMATICKÉHO PŘÍSTUPU KE SPOLEHLIVOSTI A FT (1950s) teoretický výzkum v oblasti redundance a kódování Moore, Shannon, Hamming, Von Neumann (1960s) Fault Tolerance je systematicky vestavěna do systémů Bell ESS IBM 360 Space system (SATURN IV) (1970s) Spolehlivost se stává součástí komerčních návrhů Tandem Nonstop 19

TŘÍDY FAULT-TOLERANT SYSTÉMŮ Ultra spolehlivé systémy (Ultra Reliable Systems) Systémy s dlouhou životností (Long Life Systems) Systémy s vysokou pohotovostí (Highly Available systems) 20

ULTRA SPOLEHLIVÉ SYSTÉMY Kritické řídící aplikace v reálném čase Systemová spolehlivost (Reliability pravděpodobnost bezporuchového provozu): Pravděpodobnost, že sysém bude pracovat správně požadovanou dobu. Př: Letecké počítače pro nestabilní letadla (NASA): Pravděpodobnost selhání jmusí být menší než 10-9 po dobu 10 hodin provozu Fault Tolerance: Musí tolerovat maximum poruch, které se mohou objevit kdekoli v systému aniž způsobí jeho selhání. 21

SYSTÉMY S DLOUHOU ŽIVOTNOSTÍ Aplikace s vyloučenou údržbou a/nebo opravou Př. Vesmírné rakety, satelity (bez posádky) Mean time to Failure(MTTF): střední doba do poruchy Př. 20 years MTTF = 20 let pro komunikační satelit Maximum mission time: maximální doba provozu pro specifikovanou minimální úroveň spolehlivosti. Př. R(t) > 0.90 po dobu 10 let pro výzkumné planetární vozítko 22

SYSTÉMY S VYSOKOU POHOTOVOSTÍ Aplikace, kde doba nefungování je drahá Telefoní switching computer Drahé systémy s vysokou výkonností Mean time to repair (MTTR) střední doba opravy: průměrná doba opravy systému následující po jeho poruše. Mean time between Failures (MTBF) střední doba mezi poruchami, někdy Ts (střední doba bezporuchového provozu): MTBF = MTTF + MTTR Maintainability: Pravděpodobnost, že porouchaný systém bude uveden do funkčního stavu v čase t Availability: Pravděpodobnost, že systém pracuje správně v libovolném daném čase t po celou dobu jeho provozu 23

MTTF MTBF MTTR Availability = ---------------------- = --------------------- MTTF + MTTR MTBF Př: Cray-1(1975) MTTF = 4 hodiny MTTR = 0.1 hod 4 Availability = -------- = 0.98 4.1 BELL ESS Cíl: 20 minut nefunkčních stavů za 40 let 24

COST OF OWNERSHIP JAKO FUNKCE RELIABILITY A MAINTAINABILITY Minimální cost of ownership Cena Cost of ownership Pořizovací náklady Náklady na servis a údržbu Reliability a maintainability 25

FAIL-FAST IS GOOD, REPAIR MI-TSP 2011/12 IS NEEDED Životní cyklus modulu: Rychlá porucha znamená Krátkou latenci poruchy Vysoká Availability nízká UN-Availability Unavailability ~ MTTR MTTF Zlepšení buď MTTR nebo MTTF je výhodné Jednoduchá redundance moc nepomůže. 26

Availability MI-TSP 2011/12 0.9.9 12-x Ultra Reliable Systémy Komerční Fault-Tolerant Systémy 0.9999 0.999 0.99 Masivně paralelní / distribuované systémy 0.9 10 1 10 2 10 3 10 4 10 5 10 6 10 7 10 8 Throughput (MFLOPS) 27

Odkazy MI-TSP 2011/12 www.dependability.org www.paradise.caltech.edu www.weibull.com/knowledge/rel_glossary.htm www.crhcuiuc.edu www.reflexsoftware.com 28