Poruchy. Přednášky z Distribuovaných systémů Ing. Jiří Ledvina, CSc.

Podobné dokumenty
PDV /2018 Detekce selhání

Spolehlivost. INP 2008 FIT VUT v Brně

MI-TSP 12: SYSTÉMY ODOLNÉ PROTI PORUCHÁM FT (FAULT-TOLERANT) SYSTÉMY

Příprava na zk. z KIV/DS

Disková pole (RAID) 1

Disková pole (RAID) 1

Vzájemné vyloučení procesů

Distribuované algoritmy - přehled. Přednášky z Distribuovaných systémů Ing. Jiří Ledvina, CSc.

Základní parametry tříd serveroven a datových center TIER

Distribuované systémy

Úvod Terminologie, typy defektů, poruch

Konzistentnost. Přednášky z distribuovaných systémů

Kapitola 13: Transakce. Koncept transakce. ACID vlastnosti

Replikace. Pro a proti replikaci. Vztah ke škálovatelnosti (1)

Protokoly pro spolehlivý multicast

Filosofie konstruování a dimenzování mechanických částí vozidel z hlediska jejich funkce a provozního zatěžování

Disková pole (RAID) 1

Chyby software. J. Sochor, J. Ráček 1

Komunikace. Úrovová architektura protokol. Úrovová architektura protokol (2) Pednášky z distribuovaných systém

Vrstvy periferních rozhraní

IT 3. Projekt centrálního zálohovacího systému v ČSOB Pojišťovně. Michal Mikulík. špička v každém směru

Projektování distribuovaných systémů Lekce 2 Ing. Jiří ledvina, CSc

Počítačové sítě Datový spoj

Protokoly: IP, ARP, RARP, ICMP, IGMP, OSPF

Server je v informatice obecné označení pro počítač, který poskytuje nějaké služby nebo počítačový program, který tyto služby realizuje.

Paralelní programování

Výpočet globálního stavu

Elektronická evidence tržeb Seminář pro vývojáře pokladních systémů

Systémy a aplikace pro řízení železniční dopravy. Výběrová přednáška na FI MU Brno, 5.V.2016 Ing. Mgr. David Krásenský

Základy počítačových sítí Model počítačové sítě, protokoly

PROTOKOL RDS. Dotaz na stav stanice " STAV CNC Informace o stavu CNC a radiové stanice FORMÁT JEDNOTLIVÝCH ZPRÁV

Pokročilé architektury počítačů

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Úvod do distribuovaných systémů

Jaké zvolit Softwarově definované datové úložiště?

PROCES ZAJIŠTĚNÍ FUNKČNÍ BEZPEČNOSTI STROJE

4. Co je to modulace, základní typy modulací, co je to vícestavová fázová modulace, použití. Znázorněte modulaci, která využívá 4 amplitud a 4 fází.

Série Paxos advance Redundantní Modulární Spolehlivá. Paxos advance IP

Patrol Management System 2.0

UAI/612 - Cloudová Řešení. Návrh aplikací pro cloud

Replikace je proces kopírování a udržování databázových objektů, které tvoří distribuovaný databázový systém. Změny aplikované na jednu část jsou

Restrukturalizace průmyslové sítě zvyšuje dostupnost a flexibilitu

TECHNICKÁ SPECIFIKACE VEŘEJNÉ ZAKÁZKY

Storage Management Workload Management Backup and Recovery Management

FlowGuard 2.0. Whitepaper

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Zotavení z chyb. Databázové systémy

EMC RecoverPoint. Jan Teuschel EMC Czech Republic GAPP, Copyright 2015 EMC Corporation. All rights reserved.

1. Webové služby. K čemu slouží? 2. RPC Web Service. 3. SOA Web Service. 4. RESTful Web services

Návrh softwarových systémů - mobilita. Jiří Šebek (B6B36NSS)

DATOVÉ SCHRÁNKY - SOUČÁST ICT ŘEŠENÍ TELEFÓNICA O2. Pavel Smolík Top Account Manager

Čas a kauzalita v DS

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Společnost repostor by ráda snížila vaše TCO

Zajištění dostupnosti vybraných IT služeb

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.

Návrh vyhlášky k zákonu o kybernetické bezpečnosti. Přemysl Pazderka NCKB

Úvod do teorie informace

Přepínaný Ethernet. Virtuální sítě.

Novinky v Microsoft SQL Serveru RNDr. David Gešvindr MVP: Data Platform MCSE: Data Platform MCSD: Windows Store MCT

Security of Things. 6. listopadu Marian Bartl

Přednáška. Systémy souborů. FAT, NTFS, UFS, ZFS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

Cloud Slovník pojmů. J. Vrzal, verze 0.9

ISMS. Síťová bezpečnost. V Brně dne 7. a 14. listopadu 2013

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

V kompletním grafu nenastává problém. Každý uzel je soused se zbytkem vrcholů a může s nimi kdykoliv komunikovat.

Jako příklady typicky ch hrozeb pro IT lze uvést: Útok

Paměti Flash. Paměti Flash. Základní charakteristiky

Disaster recovery as a service od společnosti GAPP System

Sériové komunikace KIV/PD Přenos dat Martin Šimek

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

Zápočtová úloha z předmětu KIV/ZSWI DOKUMENT SPECIFIKACE POŽADAVKŮ

Samoopravné kódy. Katedra matematiky a Institut teoretické informatiky Západočeská univerzita

TECHNICKÁ SPECIFIKACE

Rychlá obnova dat efektivně a jednoduše

Úloha 1. Úloha 2. Úloha 3. Text úlohy. Text úlohy. Text úlohy

LED mobilní semafor /code: /

Datová úložiště. Zdroj: IBM

VzorTest-1. Prohlídka náhledu

Informace, kódování a redundance

1 Úvod 1.1 Vlastnosti programového vybavení (SW)

A6M33SSL: Statistika a spolehlivost v lékařství Teorie spolehlivosti

Příloha č. 1 Servisní smlouvy. Katalog služeb. S2_P1_Katalog služeb

TOPOLOGIE DATOVÝCH SÍTÍ

Předejte veškeré zprávy za jakýchkoli okolností.

Paměťový podsystém počítače

Elektronická evidence tržeb Seminář pro vývojáře pokladních systémů

Aplikace. vliv na to, jakou mají strukturu i na to, jak pracné je je vyvinout. Bylo vypozorováno, že aplikace je možné rozdělit do skupin

Architektury Informačních systémů. Jaroslav Žáček

Přednáška Principy kvantifikace integrity bezpečnosti železničních zabezpečovacích systémů Autor: Ing. Petr Hloušek, Ph.D

1. Základy teorie přenosu informací

Xbox 360 Cpu = IBM Xenon

Technická specifikace soutěžených služeb

Testování a spolehlivost. 1. Laboratoř Poruchy v číslicových obvodech

Struktura a architektura počítačů (BI-SAP) 10

Příloha č. 3: Technické zadání zakázky Instalace a služby pro technologické centrum MÚ Pohořelice

Nejbezpečnější prostředí pro vaše data

Unifikovaný modelovací jazyk UML

Přehled paralelních architektur. Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur

Transkript:

Poruchy Přednášky z Distribuovaných systémů Ing. Jiří Ledvina, CSc.

Odolnost proti poruchám partial failure částečná chyba error isolation ostatní komponenty nejsou zasaženy automatická obnova z částečných chyb

Synchronní a asynchronní systémy synchronní systém systém reaguje do stanoveného časového intervalu asynchronní systém u systému není zaručen časový interval, během kterého musí systém odpovědět

Odolnost proti poruchám (spolehlivost) závisí na dostupnost (availability) část doby, během ktéré systém splňuje svou specifikaci pravděpodobnost, že je systém funkční v danou dobu spolehlivost (reliability) Míra úspěchu se kterým systém přizpůsobí své chování k nějaké specifikaci Pravděpodobnost že systém selhal během dané doby. Typicky používané pro popis systémů, které nelze opravit nebo kde je kritický spolehlivý nepřetržitý provoz systému

Odolnost proti poruchám (spolehlivost) závisí na bezpečnost (safety) Jestliže systém dočasně selže, jeho specifikace se přizpůsobí a nic katastrofického se nestane udržovatelnost (maintainability) Míra jak snadno je možné systém opravit

Základní pojmy error (chyba, omyl, odchylka) část stavu systému, která může vézt k poruše. fault (porucha, nedostatek, chyba) chyba ve vnitřních stavech komponent systému nebo v návrhu systému failure (selhání) odchylka z chování, které je popsané v jeho specifikaci erroneous state (chybový stav) takový vnitřní stav systému, při kterém existují okolnosti, za nichž další zpracování normálním algoritmem povede k selhání (failure), které není přisuzované následující poruše.

Závislosti Fault (porucha) error (chyba) failure (selhání)

Typy poruch stálé poruchy (Hard faults) stálá (permanent) pokračování po opravě komponenty programové, technické chyby výsledná selhání jsou označována jako "tvrdá" dočasné poruchy (Soft faults) přechodné nebo občasné přechodná (transient) objeví se a zmizí opakování operací občasný (intermittent) obtížně diagnostikovatelný chybný kontakt představují více než 90% všech chyb výsledná selhání jsou označována jako "měkká"

Zpracování chyb prevence (preventing) odstranění (removing) předpovídání (forecasting)

Odolnost proti poruchám (fault tolerance) systém může provádět služby, vedoucí k prevenci chyb

Typy selhání (failure) zhroucení (crash) server se zastaví, dokud se nezastavil, pracoval dobre vynechání (omission) server neodpoví na příchozí požadavek při příjmu server chybuje při příjmu při posílání server chybuje při výsílání časování reakce je mimo časový interval chybná reakce server odpovídá nekorektně chybná hodnota chybná hodnota v odpovědi chybná změna stavu odchylka od korektního postupu řízení svévolná (arbitrary) libovolné odpovědi v libovolnou dobu Byzantinské chyby

Fail silent systems server nedává najevo své problémy ostatní mohou reagovat nekorektně (zastavení serveru)

Fail-safe server (zabezpečený proti poruše) server produkuje náhodné výstupy rozpoznatelný ostatními procesy

Maskování chyb a redundance cílem je skrýt výskyt selhání (failure) informační (datová) redundance replikace nebo redundantní kódování dat - obnova (Hammingovy kódy), parita v paměti, časová redundance násobné provádění opakování přenosu. timeout fyzikální redundance komponenty navíc hardware, software práce s redundantními komponentami, nikoliv s daty odolnost vůči ztrátě nebo poruchám komponent násobné fyzické komponenty (Pn = pn) nadbytečné procesy podobným významem

Process resilience (pružnost, elastičnost) ochrana proti selhání procesů replikace procesů do skupin organizování několika identických procesů do skupin zprávy ve skupině přijímají všechny procesy skupina může být statická dynamická (join, leave, destroy group management proces může být členem několika skupin

Process resilience (pružnost, elastičnost) organizace skupiny může být plochá (flat) neexistuje centrální prvek, komplikované hierarchická ztráta koordinátora znamená zhroucení členství ve skupinách server skupiny jednoduché, centrální prvek distribuované spolehlivé skupinové doručování problém opuštění skupiny není indikováno zhroucení testování přítomnosti procesů ale zpožděná odpověď opouštění (leave) a připojování (join) musí být synchronní znovuvytvoření skupiny může iniciovat jakýkoliv proces

Maskování poruch a replikace skupina procesů může maskovat poruchy (identické procesy) replikace procesů dva způsoby řešení primary backup protocols replicated write protocols

Maskování poruch a replikace primary backup protocols hierarchické uspořádání (primary, backup) primary koordinuje všechny operace zápisu výpadek se indikuje primary - periodickým vysíláním zprávy (žiji) backup dotazovací zprávou (žiješ?) problém s nastavením timeoutu (asynchronní systém) pokud se primary zhroutí, backup vyvolání algoritmu výběru volba nového primary procesy jsou organizovány hierarchicky

Maskování poruch a replikace replicated write protocol používá aktivní replikaci nebo protokoly založené na hlasování ploché (flat) skupiny protokoly založené na hlasování pro realizaci oprav neexistuje úzké místo vzhledem k chybám

Př. Aktivní replikace Např. trojnásobná modulární redundance

Skupiny procesů a tolerance chyb kolik je třeba replikovat procesů systémy s replikací zápisu pouze zapisují (zjednodušené) systém je k-odolný proti poruchám může přežít chybu v k- komponentách stačí k+1 komponent k nefunguje, jeden stačí Byzantinské chyby pro systém k-odolný proti poruchám musí být 2k+1 procesů k produkuje chybnou odpověď k+1 produkuje správnou odpověď řešení pomocí hlasování a majority neví se ale kolik procesů selhalo

Dohoda v systémech s poruchami náhrada hlasování replikované procesy mají dosáhnout dohody výběr koordinátora rozhodnutí o provedení/zrušení transakce rozdělování úloh mezi dělníky synchronizace základní cíl bezchybné procesy musí dosáhnout dohody v konečném počtu kroků

Dohoda v systémech s poruchami slavný problém problém dvou armád dosažení dohody pomocí jednobitové informace dosažení dohody o započetí útoku komunikace nespolehlivým kanálem dva základní případy pro řešení generálové bez chyby, komunikace nespolehlivá nemá řešení generálové s chybami, komunikace spolehlivá problém Byzantinských generálů výsledek pro 3m+1 procesů musí být 2m+1 korektních není-li spolehlivá komunikace, musí být všechny procesy v pořádku

Byzantinští generálové Problém Byzantinských generálů pro tři věrné a jednoho zrádce. Generálové oznamují sílu svých baterií (v jednotkách 1000 vojáků). Vektory vytvořené generály na základě (a). Vektory které každý generál obdrží ve kroku 3.

Byzantinští generálové

Obnova po chybě redundantnost pomáhá odstranit chyby "za běhu" chyby se stávají transparentní vzhledem k okolí netransparentní zajištění systému proti chybám obnova po chybě (failure recovery) kontrolní body (checkpoint) periodické ukládání stavu koordinované (synchronizované hodiny, blokování) nekoordinované logování (logging) zaznamenávání operací se stavem synchronní, asynchronní

Proces obnovy host obnovený do předchozího stavu musí opakovat všechny operace až do místa chyby musí poslat duplicitní zprávy ostatní musí být schopni rozpoznat duplicitní zprávy a zahazovat je ostatní host systémy se také musí vrátit do předchozího stavu (kaskádní rollback) všechny systémy se musí dostat do téhož stavu (recovery line)

Incarnation Numbers (etapa) sekvenční inkarnační čísla každé období je jimi charakterizováno jsou přítomna v každé zprávě v systému jsou zapamatována ve stálé paměti pokud se systém probouzí (převtěluje), zasílá všem nové inkarnační číslo < - duplicitní zpráva, zahodit > -čekej na zprávy pro obnovu = zpracuj zprávu

Kontrolní body