DataDomain pod drobnohledem Lukáš Slabihoudek Petr Rada 1
Agenda Popis deduplikačního procesu Stream Informed Segment Layout Ochrana dat proti poškození DD BOOST Replikace Popis důležitých HW součástí NVRAM CPU Disky 2
DataDomain technický popis pro opravdové profesionály Zálohovací servery Diskové uložiště 8KB # 12KB # 6KB # D IP/FC 10KB # 8KB # 11KB # 16KB # 8KB # 5KB # Generování bloků a hashů IP/FC L A N klienti D NDMP uložiště D Zázrak # # # # # # # # # # Tabulka již uložených hashů S A N-attached klienti D d D d D d D d D D D Komprimovaná data D D D D D D D D Deduplikovaná Data 3
Summary Vector pro nové segmenty Set bitů v SV v RAM pro každý uložený segment Kontrola bitů při procesování nových segmentů Pokud je kterýkoliv pointer 0 pak je segment nový Pokud jsou všechny pointery 1 pak je segment... 4
SISL Proces Kontrola unikátnosti v Summary Vektoru Unikátní data uložena s lokální kompresí Summary Vector neumí rozhodovat o redundanci Pokud kontrola SV ukáže, že segment není unikátní přesune se na další krok Kontrola databáze hashů v paměti Shoda, znamená duplikát, není potřeba nic ukládat Neshoda, kontrola indexů, načtení hashů z disku pro další cykly Tajná přísada = jak dosahuje DD rychlosti, nikoliv jak deduplikuje 5
Sekvenčnost segmentů Metadata Segment data abcd A B C D efgh E F G H ijkl I J K L... stuv S T U V DDFS log struktura Sekvenčnost Stream-informed storage units - kontejnery Sousední segmenty uloženy dohromady Hashe a segmenty uloženy dohromady s ostatními metadaty Jedno čtení znamená nahrání stovky hashů do RAM Rychlé načítaní dat pro porovnání příchozích hashů Rychlé čtení při obnově nebo kopírování dat na pásku 6
End-to-End verifikace při záloze DD OS testuje obnovitelnost asynchronně po záloze Konzistence filesystému Integrita dat na disku Primární úložiště takto verifikovat nemůže Bylo by příliš pomalé Primární úložiště objeví problém až při obnově End-to-end mechanismus kontroluje všechna data na filesystému včetně metadat 7
Ochrana proti chybám a expirace dat Localities Nová data nikdy nepřepisují ta stávající Původní zálohy nejsou ohroženy Jednodušší struktura dat = méně chyb Žádné bitmapy a linky NVRAM pro rychlý a bezpečný restart DD-RAID nezapisuje žádné častečné stripes 8
Kontinuální detekce chyb a jejich řešení Ochrana proti výpadku dvou disků Verifikace integrity dat po zápisu Kontrola dat při každém čtení Všechna data na discích chráněna silnými checksumy Automatická korekce chyb Oprava chyb dříve než se z nich stane problém 9
Obnova filesystému Self-describing datový formát Struktury metadat obnovitelné z logu je-li zapotřebí FSCK, pak je rychlý Kontrola a obnova pouze nad deduplikovaným objemem dat Kontrola běží nad 70 TB dat, nikoliv nad 1.4 PB Metadata Segment data abcd A B C D efgh E F G H ijkl I J K L... stuv S T U V DDFS log struktura 10
Shrnutí Parametry zařízení pro zálohování dat se liší od primárních uložišť DataDomain je od začátku stavěný, jako deduplikační zařízení CPU-centric design podporuje Moore-ův zákon Data Invulnerability Archutektura zajišťuje bezpečí dat Tajná přísada = jak Datadomain funguje rychle a jak chrání data, nikoliv jak deduplikuje 11
DD BOOST Bez DD Boost ID Segment Unikátní? Aplikace Zálohovací server Zkomprimovat Zapsat LAN LAN S DD Boost zrychlení zálohování menší zatížení pásma ID Segment Zkomprimovat Unikátní? Zapsat LAN DD Boost LAN Aplikace Zálohovací server 12
Data Domain Replikace WAN a LAN asynchronní replikace Záloha/obnova vzdálených poboček a Disaster recovery De-duplikace, plánování, nastavení šířky pásma Replikace na úrovni DD, adresáře, poolu One to One Dir 1 Many to 1/1 to many Dir C Dir X Dir A Dir E Dir D Dir X Dir 2 Dir 3 Dir 3 Dir 2 Dir 1 Peer to Peer Cascaded Dir 1 Dir C Dir X Dir A Dir B Dir S Dir X Dir 1 Dir A Dir Z Dir S Dir 1 13
Reálná data od zákazníků 14
Proč právě DataDomain Proměnná velikost bloku Vyšší účinnost de-duplikace In-line de-duplikace Rychlejší zápis Nepotřebuje další prostor pro nededuplikovaná data In-line replikace Šetří zatížení sítě Snižuje RTO a RPO Pro zálohu i archiv Na jedno zařízení můžete zálohovat i archivovat Velké množství podporovaných zálohovacích a archivačních softwarů Jednoduchost nasazení Maximální rychlost Replikace Management SISL Disaster Recovery Jednoduchost Minimální Hardware Data Invulnerability Flexibilita Inline De-Dup Integrita dat Otevřená Architektura 15
Popis HW DataDomain 16
NVRAM kapacity: 512MB, 1GB & 2GB PCI Express x4 DDR paměťový řadič s nízkou latencí detekce a oprava chyb nízko-profilová PCI karta bateriově zálohovaná RAM vyměnitelný bateriový blok Model NVRAM (GB) DD140 0.5 DD610 0.5 DD630 0.5 DD670 1 DD860 1 DD890 2 @1 software RAID filesystem journaling 17
CPU centric architektura Model # CPU patic Série Procesor Jader f (GHz) DD140 1 4300/3200 2 1.8 DD610 1 4300/3200 2 1.8 DD630 1 8400/3000 2 3.0 DD670 1 5500 4 2.54 DD860 2 5500 4 2.54 DD890 2 5600 6 2.8 SISL a SV = menší závislost na počtu a typu disků výkon procesorů roste výrazně strměji než rychlost disků každé navýšení počtu jader nebo zrychlení procesoru přináší zhruba 50% nárůst rychlosti 18
Disky RAID 6 + Hot Spare disk kontejner ~4,6 MB = tzv. full stripe sekvenční zápisy ES20 - police s 16 disky SAS konektivita 14x datový, 2x parita, 1x HS Model Disků (TB) # polic Použitelná kapacita Base 2 (TB) DD140 3x 0.5 0.8 DD610 12x/7x 0.5 3.7 / 1.5 DD630 12x/7x 1 7.8 / 3.3 DD670 12x 1 2 52 / 7.5 DD860 6 129.6 DD890 12 259.2 Diskové police ES20-8T 16x 0.5 5.4 ES20-16T 16x 1 10.8 ES20-32T 16x 2 21.6 19
HW komponenty jednotlivých modelů Model Výška šasi Výrobce šasi # CPU patic Série Procesor Jader f (GHz) RAM NVRAM (GB) (GB) Max/Min Disků (TB) # polic Použitelná kapacita Base 2 (TB) NFS (TB/h) DD140 2U Quanta 1 4300/3200 2 1.8 6 0.5 3x 0.5 0.8 ~0.4 DD610 2U Quanta 1 4300/3200 2 1.8 6 0.5 12x/7x 0.5 3.7 / 1.5 ~0.4 DD630 2U Quanta 1 8400/3000 2 3.0 8 0.5 12x/7x 1 7.8 / 3.3 ~0.9 DD670 2U Inventec 1 5500 4 2.54 36/16 1 12x 1 2 52 / 7.5 ~1.5 DD860 2U Inventec 2 5500 4 2.54 72/36 1 6 129.6 ~2.2 DD860 Archiver 2U Inventec 2 5500 4 2.54 72 1 24 518.4 ~2.2 DD890 2U Inventec 2 5600 6 2.8 96 2 @1 12 259.2 ~4.5 Diskové police ES20-8T 3U Xyratex ---n/a--- 16x 0.5 5.4 ES20-16T 3U Xyratex ---n/a--- 16x 1 10.8 ES20-32T 3U Xyratex ---n/a--- 16x 2 21.6 20