Disaster recovery, zálohování dat a efektivní využití cloudových služeb David Gottvald Jan Cipra
Co je to Disaster? Power Failures 26% Hardware Failures 19% Network Outages 10% Software Failures 9% Human Errors 8% Everything else 30% Víte, že? Každá třetí organizace měla v posledních pěti letech zkušenost s Disaster Source: Forrester Disaster Recovery Journal 2013
Jak se proti tomu bránit? Vytvořením Disaster Recovery lokality Data v jiné lokalitě Aplikace v jiné lokalitě Druhé datové centrum Dvě zcela nezávislá datová centra IT infrastruktura v cloudu
Co musí vytvoření DR lokality předcházet Analýza potenciálních rizik (Risk Assessment) Analýza dopadu na podnikání (Business Impact Analysis) Analýza stávajícího stavu Analýza možností umístění DR lokality Výběr způsobu zajištění DR lokality
Analýza potenciálních rizik - Proti čemu se bránit? Vnitřní rizika Infrastruktura objektu (výpadek el. Energie, voda, plyn, kanalizace, WAN) Lidský faktor ( smazání dat, lidské chyby, bezpečnost) Vnější rizika Výpadek dodávky energií Sofistikovaný útok zvenčí (kryptovirus apod.) Katastrofa (pád letadla, záplavy, požár) Jiné specifické vlivy související s lokalitou nebo předmětem podnikání Nutné zvážit události proti kterým se má smysl bránit. Výrobní podnik bez výrobních kapacit nepotřebuje funkční systém řízení výroby
Business Impact analýza Vnitřní diskuze v rámci organizace Jednotlivá oddělení Pobočky Vedení společnosti Stanovení důležitosti aplikací dopad jejich výpadku na business Vyčíslení potenciálních ztrát pro organizaci z důvodů nefunkčnosti identifikovaných aplikací Stanovení SLA parametrů pro jednotlivé aplikace nebo skupiny aplikací Většina organizací nemá BIA zpracovanou! Její zpracování dává jasné mantinely a maximalizuje přínos a účelnost DR řešení
Analýza stávajícího stavu Rozdělení aplikačních serverů do skupin dle jejich důležitosti Analýza potřeb stávající infrastruktury z pohledu zdrojů Určení závislostí a interakcí mezi aplikačními servery společnosti Analýza zálohovacích procesů z pohledu aplikací Analýza LAN infrastruktury Klíčová součást budování DR řešení Bez precizní analýzy současného stavu s velkou pravděpodobností nebude výsledek funkční
Klasifikace aplikačních serverů Definice serverů OS Provozovaná aplikace Definice potřebných zdrojů Disková kapacita Procesorový výkon RAM Kategorizace dle požadovaného SLA Požadovaná hodnota RPO a RTO
Analýza závislostí Závislosti mezi jednotlivými systémy (servery) Servery nutné k funkčnosti kritických systémů Sekvence náběhu jednotlivých serverů v DR Konzistentní skupiny jednotlivých serverů
Analýza potřebných zdrojů Definice potřebných zdrojů v záložní lokalitě Infrastruktura a potřebný výpočetní výkon Virtualizovaná infrastruktura (CPU, RAM) Fyzické servery (počet, CPU, RAM) Diskový prostor Potřebný výkon (plný/nouzový) Potřebná kapacita LAN/SAN Konektivita Topologie
Analýza LAN infrastruktury Jednotlivá oddělení VLANy Servery 100 Mbps MPLS router Office VLAN 1 10.0.128.0/21 300 users VLAN 3 192.168.10.0/24 Uživatelé VLAN 4 143.168.33.0/24 Pobočky a způsob jejich připojení Co bude znamenat přechod do DR z pohledu LAN (L2, L3, MPLS apod.) Fyzické servery Vmware farm Gateway PC DMZ Network VLAN 2 192.168.63.0/24 Gateway PC CCTV VLAN 8 10.0.110.0/24 VLAN 7 192.158.45.0/24 VLAN 5 192.168.20.0/24 VLAN 6 192.168.30.0/24
Kam umístit DR lokalitu? Jaké jsou možnosti v místě kde organizace sídlí? Jiná budova v rámci areálu společnosti Vzdálená pobočka ve stejném městě nebo v jiném městě Vzdálená pobočka v jiném státě Cloud Pronájem místa v racku a vlastní HW Pronájem HW u Cloud Providera (Private Cloud) Kompletní pronájem v Cloudu (Storage, CPU, RAM) Důležité je myslet i na uživatele a jejich připojení na systémy v DR Externí i Interní uživatelé systémů musí být schopni se k nim připojit
Technologie zajištění replikace dat do DR lokality (HW vs. SW) Technologie závislé na HW (replikace na diskových systémech) Determinuje technologie použité v záložní lokalitě Faktická nemožnost využití Cloudových služeb pro DR lokalitu Přepracování DR plánu při obnově HW Softwarově definované technologie (specializovaný DR SW) Flexibilita ve výběru cílové lokality včetně cloudových služeb DR postupy jsou nezávislé na podkladovém HW a jeho výměnách Integrovaná automatizace DR operací
Recovery Point Technologie zajištění replikace dat do DR lokality (RPO/RTO) Zálohování a kopie dat v DR Recovery Point Čas, ke kterému se v rámci DR vracíme (nenulová hodnota značí ztrátu dat). Asynchronní replikace s manuálním spuštěním Asynchronní replikace s automatizovaným spuštěním Bussines Continuity Recovery Time Čas nutný pro obnovu aplikací (zjištění závady, náběh systémů, obnova ztracených dat). Recovery Time
Zálohovací řešení s kopií záloh v DR lokalitě Zálohovací řešení a kopie záloh v DR. Data jsou v DR, ale nejsou ihned k dispozici. Obnova provozu bude trvat řádově dny až týdny. Testování je velmi složité a časově náročné
Asynchronní replikace do DR a manuální spuštění Využití replikačních funkcí zálohovacích softwarů. Data a operační systémy jsou v DR lokalitě v nativní podobě ihned k dispozici. Manuální spuštění zabere určitý čas v řádu maximálně jednotek hodin. Náročné na testování a správu.
Asynchronní replikace do DR s automatizovaným spuštěním aplikací Využití specializovaných softwarových řešení určených pro DR. Data i operační systémy jsou v DR lokalitě v nativní podobě a ihned k dispozici. Spuštění veškerého provozu probíhá dle předem nastavených DR plánů plně automaticky na stisk jednoho tlačítka. Celý proces Disaster recovery je pod kontrolou. Celý průběh replikace dat do DR je sledován a monitorován. Velmi jednoduché testování a nenáročná správa.
Zajištění Business Continuity Geograficky rozložená synchronní kopie dat mezi dvěma vzdálenými lokalitami s plně automatickým přechodem mezi lokalitami. Redundantní datové úložiště rozložené mezi dvě geograficky oddělené lokality a synchronním mirrorem dat. Bezvýpadkové řešení pro zajištění business Continuity i v případě havárie jedné celé lokality nebo jakékoliv komponenty řešení. Jednoduchá správa a monitoring takto koncipovaného řešení. Testování možné za běžného provozu.
Implementací to nekončí Zpracování DR plánů Monitoring prostředí Testování přechodu do DR Aktualizace DR řešení a DR plánů Pravidelné školení zaměstnanců Kvalifikovaná reakce v případě potřeby GAPP System nabízí kompletní portfolio služeb spojených s DR Zaměstnanci IT se mohou věnovat podpoře Bussinesu a obchodních cílů společnosti
Zkušenosti našich zákazníků s budováním DR Advanced World Transport Barbora Lubojacká řešení
Děkujeme za pozornost David Gottvald Jan Cipra