PDV /2018 Detekce selhání

Podobné dokumenty
Vzájemné vyloučení procesů

Výpočet globálního stavu

Konsensus a Algoritmu Raft

Čas a kauzalita v DS

Poruchy. Přednášky z Distribuovaných systémů Ing. Jiří Ledvina, CSc.

Y36PSI QoS Jiří Smítka. Jan Kubr - 8_rizeni_toku Jan Kubr 1/23

RTP = real=time protocol ST-II = Internet Stream Protocol (náhrada TCP pro streamy, řídicí protokol, datový přenos)

Vlastnosti podporované transportním protokolem TCP:

Přednáška 3. Opakovače,směrovače, mosty a síťové brány

Koncept centrálního monitoringu a IP správy sítě

Zabezpečení dat při přenosu

Load Balancer. RNDr. Václav Petříček. Lukáš Hlůže Václav Nidrle Přemysl Volf Stanislav Živný

P2P komunikace I/O modulů řady E1200 I/O moduly s komunikací přes mobilní telefonní sítě

Směrování- OSPF. Směrování podle stavu linek (LSA) Spolehlivé záplavové doručování

TOPOLOGIE DATOVÝCH SÍTÍ

TFTP Trivial File Transfer Protocol

Vrstva přístupu k médiu (MAC) a/b/g/n

JAK ČÍST TUTO PREZENTACI

Úvod do zpracování signálů

Datové struktury 2: Rozptylovací tabulky

Kendallova klasifikace

Replikace. Pro a proti replikaci. Vztah ke škálovatelnosti (1)

Management sítí OSI management framework SNMP Komerční diagnostické nástroje Opensource diagnostické nástroje

Stochastické modely Informace k závěrečné zkoušce

Distribuované algoritmy - přehled. Přednášky z Distribuovaných systémů Ing. Jiří Ledvina, CSc.

Hot Standby Router Protocol (zajištění vysoké spolehlivosti výchozí brány)

Exponenciální modely hromadné obsluhy

Bezpečnostní monitoring sítě

Přenos signálů, výstupy snímačů

Počítačové sítě IP směrování (routing)

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

DATOVÉ SCHRÁNKY - SOUČÁST ICT ŘEŠENÍ TELEFÓNICA O2. Pavel Smolík Top Account Manager

Počítačové sítě Datový spoj

Replikace je proces kopírování a udržování databázových objektů, které tvoří distribuovaný databázový systém. Změny aplikované na jednu část jsou

Distribuované systémy a počítačové sítě

Počítačové sítě II. 14. Transportní vrstva: TCP a UDP. Miroslav Spousta, 2005

Systémy pro sběr a přenos dat

Intervalová data a výpočet některých statistik

Souborové systémy a práce s daty David Antoš

Protokoly pro spolehlivý multicast

Identifikátor materiálu: ICT-3-03

Pseudospektrální metody

BEZPEČNOSTNĚ PROVOZNÍ KALEIDOSKOP

Diagnostika regrese pomocí grafu 7krát jinak

4. Transportní vrstva

GSM access LXI controller

SMART GRID SYSTEM TECHNOLOGIE PRO ANALYTIKU A SPRÁVU ENERGETICKÝCH SÍTÍ. Představení společnosti Analyzátor sítě

6. Transportní vrstva

Počítačová síť. je skupina počítačů (uzlů), popřípadě periferií, které jsou vzájemně propojeny tak, aby mohly mezi sebou komunikovat.

Úvod do SHO. Výkonnost a spolehlivost programových systémů KIV/VSS. Richard Lipka

Základní komunikační operace

ACASYS-KS Komunikace v systému ACASYS

Počítačové sítě. Lekce 4: Síťová architektura TCP/IP

Local Interconnect Network - LIN

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

Distribuované systémy a počítačové sítě

EU-OPVK:VY_32_INOVACE_FIL9 Vojtěch Filip, 2013

Počítačové sítě II. 13. Směrování. Miroslav Spousta, 2004

Jak se měří síťové toky? A k čemu to je? Martin Žádník

DNS, DHCP DNS, Richard Biječek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Transportní vrstva. RNDr. Ing. Vladimir Smotlacha, Ph.D.

SIEM Mozek pro identifikaci kybernetických útoků. Jan Kolář , Praha, Cyber Security konference 2014

Ukázka testu Informatiky pro přijímací zkoušky do navazujícího magisterského studia

Vícekanálové čekací systémy

Zajištění vysoké dostupnosti služeb

FlowGuard 2.0. Whitepaper

Příklad aplikace Klient/Server s Boss/Worker modelem (informativní)

Numerická stabilita algoritmů

Internet a zdroje. (ARP, routing) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17. listopadu

Počítačové sítě II. 13. Směrování Miroslav Spousta,

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Náhled testu. Přijímací zkouška magisterského studia. konečný automat bez zbytečných stavů, který přijímá jazyk popsaný tímto výrazem, má:

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Management procesu II Mgr. Josef Horálek

Statistická teorie učení

Teorie front. Systém hromadné obsluhy

SIGNÁLY A LINEÁRNÍ SYSTÉMY

wlsn* obousměrná bezdrátová síť Rychlá cesta ke spolehlivějšímu zabezpečení

Příprava na zk. z KIV/DS

PIM Dense mode State Refresh

Řešení správy tiskáren Řešení správy tiskáren

Platforma Juniper QFabric

Náhled testu. Přijímací zkouška magisterského studia. konečný automat bez zbytečných stavů, který přijímá jazyk popsaný tímto výrazem, má:

Analýza aplikačních protokolů

VÝKONOVÉ TRANZISTORY MOS

Komunikace s automaty MICROPEL. správa systému lokální a vzdálený přístup do systému vizualizace, umístění souborů vizualizace

Y36PSI IPv6. Jan Kubr - 7_IPv6 Jan Kubr 1/29

Síťová vrstva. RNDr. Ing. Vladimir Smotlacha, Ph.D.

Efektivita komunikačních protokolů

Studentská unie ČVUT v Praze, klub Silicon Hill. 22. února Ondřej Caletka (SU ČVUT) IPv6 nové (ne)bezpečí? 22.

SPINEL. Komunikační protokol. Obecný popis. Verze 1.0

Sdílení přístupu ke společnému kanálu

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Správa sítí. RNDr. Ing. Vladimir Smotlacha, Ph.D.

Vlastnosti a modelování aditivního

Turris:Sentinel. Nový systém pro sběr dat. Robin Obůrka

Rozdělování dat do trénovacích a testovacích množin

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

Funkce Arcsin. Předpoklady: Některé dosud probírané funkce můžeme spojit do dvojic: 4 je číslo, jehož druhá mocnina se rovná 4.

Transkript:

PDV 08 2017/2018 Detekce selhání Michal Jakob michal.jakob@fel.cvut.cz Centrum umělé inteligence, katedra počítačů, FEL ČVUT

Detekce selhání Systémy založeny na skupinách procesů cloudy / datová centra replikované servery distribuované databáze Frekvence selhání roste lineárně s počtem procesů ve skupině => selhání jsou běžná V následujícím předpokládáme havárii procesu (crash-stop) jako model selhání.

Obecněji: Správa skupin (group membership) proces ve skupině Služba skupinového členství (group membership) Seznam členů Členský protokol komunikace přes nedokonalý FIFO kanál Procesy ze skupiny, které dosud neselhaly Udržuje seznam procesů při 1) příchodu nového procesu, 2) tichého selhání procesu a 3) odchodu procesu

Dva podprotokoly Služba skupinového členství (group membership) Seznam členů p 1 Detekce selhání p 2 p n Šíření informace* *Informace o selhání (a také o vstupu / výstupu procesu do skupiny)

Průběh detekce I) havárie II) detekce selhání aspoň jeden proces detekuje selhání Nedokonalá síť III) rozšíření informace o selhání proces, který detekoval selhání, rozšíří informaci k ostatním procesům

Vlastnosti detektorů selhání

Požadované vlastnosti detektorů selhání Úplnost Přesnost = každé selhání je časem detekováno aspoň jedním bezvadným procesem Detekce vadným (faulty) procesem se nepočítá. = nedochází k mylné detekci Pokud je proces detekován jako havarovaný, tak skutečně havaroval (žádná false positives) Nelze dosáhnout obou vlastností současně při nedokonalé komunikaci (detekce selhání je ekvivalentní problému konsensu)

Požadované vlastnosti detektorů selhání 100% Úplnost <100% Přesnost Úplnost nelze obětovat <= potřebujeme vědět, že proces havaroval Vždy splněna v prakticky používaných detektorech Chybně detekované selhání vede ke zbytečným operacím, ale lepší než přehlédnutí havárie Pouze částečně (pravděpodobnostní garance)

Další vlastnosti detektorů selhání Rychlost detekce = čas do okamžiku, kdy první proces detekuje selhání Škálovatelnost = počet posílaných zpráv a rovnoměrné rozložení komunikační zátěže Nechceme úzká hrdla a centrální body selhání

Vlastnosti detektorů selhání Úplnost Přesnost Rychlost Chceme zajistit i v případě současného selhání více procesů Škálovatelnost

Základní protokoly pro detekci selhání

Centralizovaný heartbeat Hearbeats jsou odesílány periodicky (každých T časových jednotek) jednomu vybranému procesu. Hearbeat má pořadové číslo. (Po odeslání hearbeatů je inkrementován lokální čítač hearbeatů každého procesu.) p i Není-li heartbeat od p i přijat v časovém limitu τ, označ p i jako havarovaný (τ typicky násobek T) Úplný pro všechny procesy s výjimkou Selhání není detekováno. Při vysokém počtu procesů může být přetížený.

Kruhový heartbeat Hearbeats jsou odesílány periodicky sousedům každého procesu (jedno- nebo oboustranně) p i Není centrální bod Neúplné při současném selhání více procesů Je třeba udržovat kruh

Všichni-všem (all-to-all) heartbeating Každý proces posílá periodicky heartbeats všem ostatním procesům. p i p k Rovnoměrná zátěž všech procesů (ale poměrně vysoká). Úplný: pokud zůstane aspoň jede nehavarovaný proces, detekuje selhání libovolného jiného procesu. Nízká přesnost: stačí, když jeden proces nedostane včas heartbeats a může označit všechny procesy jako havarované.

Porovnání a analýza detektorů

Porovnání/analýza detektorů Úplnost (Ne)Přesnost Rychlost Škálovatelnost Vždy garantována p m pravděpodobnost, že dojde k chybné detekci během T časových jednotek T d průměrný počet časových jednotek do první detekce selhání L komunikační zátěž, tj. počet zpráv na proces a jednotku času

Analýza all-to-all heartbeating p i Počet procesů: N Perioda heartbeatu: T Timeout interval: τ Přesnost: závisí na spolehlivosti komunikace Maximální čas do první detekce: T d = τ + T Komunikační zátěž: L = N T Komunikační zátěž je lineární v počtu procesů.

Optimální detektor All-to-all heartbeat má lineární zátěž L = O(N/T) celkový počet posílaných zpráv ve skupině procesů pak roste kvadraticky Proč? Všechny procesy se snaží detekovat selhání samy, informaci o detekovaném selhání si nevyměňují! Pro efektivnější detekci selhání je potřeba oddělit detekci selhání a šíření informace o selhání použít jinou detekci než založenou na heartbeat (ale na opačném mechanismu)

SWIM Detektor Selhání (Scalable weakly consistent infection-style proces group membership protocol) K náhodně vybraných procesů p i ping náhodně vybraného timeout ping-req náhodně vybraných K ack ping perioda protokolu T časových jednotek ack ack

SWIM versus heartbeating O(N) průměrný čas do první detekce T heartbeating Pro danou přesnost detekce p m pravděpodobnost ztráty zpráv p l O(1) SWIM heartbeating O(1) komunikační zátěž L O(N)

Další vlastnosti SWIM Průměrný čas do nezávisí na počtu procesů první detekce T d Lze ukázat, že E[T d ] = e (pro velká N) e 1 T ~ 1.58T Komunikační zátěž L nezávisí na počtu procesů (Ne)přesnost p m lze nastavit nastavením K klesá exponenciálně s rostoucím K Úplnost Selhání bude časem detekováno průměrný čas e e 1 T Čas do detekce lze omezit i deterministicky na O(N) (viz dále).

Časově garantovaná úplnost Hlavní myšlenka: Zvolit každý proces ze seznamu právě jednou při posílání ping zprávy. postupné procházení seznamu prermutace seznamu po obeslání všech procesů Každé selhání je detekováno v maximálně 2N 1 periodách protokolu Ostatní vlastnosti SWIM jsou zachovány.

Šíření informace I) havárie II) detekce selhání aspoň jeden proces detekuje selhání Nespolehlivá síť III) rozšíření informace o Jak? selhání proces, který detekoval selhání, rozšíří informaci k ostatním procesům

Jak šířit informaci? Multicast (hardware / IP) ne vždy k dispozici Point-to-point (TCP / UDP) nákladné Bez dodatečných zpráv: připojit ke zprávám protokolu detekce selhání! tzv. infekční styl šíření informace

SWIM Failure Detector (Scalable weakly consistent infection-style proces group membership protocol) K náhodně vybraných procesů p i ping náhodně vybraného timeout ping-req náhodně vybraných K ack ping perioda protokolu T časových jednotek ack ack připojená informace o seznamu bezvadných procesů

Vlastnosti šíření informace Epidemický styl šíření informací: Po λ log N periodách protokolu lze očekávat, že N 2 λ 1 procesů nedostalo aktualizaci (update). Implementace každý proces udržuje lokální buffer obdržených aktualizací může mít fixní délku nebo fixní dobu expirace doba expirace ovlivňuje míru konzistence

Souhrn Detekce selhání klíčový stavební prvek pro spolehlivé DS. Jednoduchá detekce pomocí heartbeat vyžaduje lineární komunikační zátěž každého uzlu. Pravděpodobnostní SWIM algoritmus je škálovatelný s konstantní zátěží.