Oprava softwarového RAIDu po selhání. Tomáš Matějíček

Podobné dokumenty
Administrace Unixu a sítí

Linux RAID, LVM. 27. listopadu Uvedené dílo podléhá licenci Creative Commons Uved te autora 3.0 Česko.

Linux RAID, LVM. Ondřej Caletka

Instalační a uživatelský manuál pro Linux Mission 1.0. David Häring a kolektiv autorů LinuxZone

SSD v serveru. Pavel Šnajdr InstallFest 2015

Registrový model HDD

Administrace OS Unix. filesystém UFS mount snapshot RAID

RAID základní informace

Rozhraní ATA a ATAPI. Rozhraní ATA a ATAPI. Koncepce ATA. Řadič je součástí diskové jednotky. Původní fyzické rozhraní odvozeno od sběrnice ISA.

1.1. Proveďte diagnostiku poskytnutého pevného disku (disků) s využitím technologie S.M.A.R.T Zjistěte informace o formátu na pevném disku

Metody připojování periferií

Systémy souborů (File Systems)

Operační systémy 1. Přednáška číslo Souborové systémy

PA152: Efektivní využívání DB 2. Datová úložiště. Vlastislav Dohnal

Storage... co je nového (SSD!)... a co se zatím nepovedlo rozbít:-)

Operační systémy 1. Přednáška číslo Struktura odkládacích zařízení

Linux připojování zařízení. 6 praktická část

Operační systémy 2. Struktura odkládacích zařízení Přednáška číslo 10

Bloková zařízení v LINUXu Jan Vrbata - GOPAS

Rozhraní diskových pamětí

LVM2 logical volume management

Přednáška. Systémy souborů. FAT, NTFS, UFS, ZFS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Rozhraní diskových pamětí

Část 1. Technická specifikace. Posílení ochrany demokratické společnosti proti terorismu a extremismu

Souborové systémy. Architektura disku

Snímače teploty a vlhkosti s komunikací po RS485 protokolem Modbus RTU - řada PHM

Windows a Linux. Přednáška číslo 7

Ukázka zkouškové písemka OSY

Instalace OS, nastavení systému

udev a kamarádi... Středisko UN*Xových technologií

Obsah. Kapitola 1 BIOS 9. Kapitola 2 Start počítače a POST testy 13. Kapitola 3 Setup 21. Úvod 7

5. Čtení/zápis sektorů z/do USB paměťového média I

Přednáška. Úložiště dat: HDD, SDD, RAID, DAS, NAS, SAN. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

RAID, LVM a souborové systémy

Moduly MicroUnit serie. všechny typy s výjimkou řady MU-43x, MU-44x a MU-84x

- program = vykonatelný soubor - proces = jedna instance vykonávaného programu


Paměti Flash. Paměti Flash. Základní charakteristiky


Přednáška. Vstup/Výstup. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Modul analogových vstupů M-AI4

DataDomain pod drobnohledem

FASTPort. Nová sběrnice pro připojení inteligentních karet* k osmibitovým počítačům. aneb. Jak připojit koprocesor

Správa disků (storage) v Linuxu. Milan Brož Software Engineer / Kernel Storage / Red Hat mbroz@redhat.com

Nimbus Data All Flash Systems

Praktická cvičení- teoretická průprava

Práce s disky a ISO soubory

Souborové systémy Mgr. Josef Horálek

MODERNÍ SOUBOROVÉ SYSTÉMY - ZFS. Richard Janča

Knihovna EpsnetLib TXV první vydání září 2012 změny vyhrazeny

Paměťová média. Motto dne: Z Berkeley vzešly dvě důležité věci LSD a BSD. Nevěříme, že je to náhoda.

Xen je volně šířený hypervisor (virtual machine monitor) pro architektury IA-32, x86, x86-64, IA- 64 a PowerPC 970.

SSD vs. HDD / WAL, indexy a fsync

RNDr. Michal Kopecký, Ph.D. Department of Software Engineering, Faculty of Mathematics and Physics, Charles University in Prague

Bezpečn č os o t t dat

Šifrovaný disk v Linuxu

Vrstvy periferních rozhraní

Sběrnicová struktura PC Interní počítačové paměti PC

MyIO - webový komunikátor

RNDr. Michal Kopecký, Ph.D. Department of Software Engineering, Faculty of Mathematics and Physics, Charles University in Prague

Přednáška 2. Systémy souborů OS UNIX. Nástroje pro práci se souborovým systémem. Úvod do Operačních Systémů Přednáška 2

Teploměry a ovladače s digitální komunikací - řada AM. Tango. alpha nea. Základní technické parametry

Použití šifrovaných disků v Linuxu

Koncepce DMA POT POT. Při vstupu nebo výstupu dat se opakují jednoduché činnosti. Jednotlivé kroky lze realizovat pomocí speciálního HW.

JUMO mtron T Měřicí, regulační a automatizační systém

Integrovaná střední škola, Sokolnice 496

UNIVERZITA PARDUBICE Fakulta elektrotechniky a informatiky. Porovnání výkonu softwarových diskových polí. Jan Růžička

Souborový systém (File System FS) Souborové systémy. Souborová fragmentace. Disková fragmentace. Organizace dat na pevném disku

Rozhraní USB. Rozhraní USB. Specifikace USB. Doplnění (upřesnění) 1.0. Rychlosti Low Speed (1.5 Mb/sec) a Full Speed (12 Mb/sec).

Obecné informace o cvičeních

MARIE PACS S PACSem hezky od podlahy když se data sypou!

Web51 I/O Controller lite

Architektura vnějších pamětí

Metody připojování periferií

Bezpečnostní mechanismy serverové infrastruktury

Obvody a architektura počítačů. Jednoprocesorové počítače

Téma 10: Konfigurace HW v systému CentOS. Základní konfigurace

ODBORNÝ VÝCVIK VE 3. TISÍCILETÍ

TX20RS. Měření rychlosti a směru větru. Inteligentní anemometr s RS232 a RS prosince 2014 w w w. p a p o u c h. c o m

Instalace RouterOS pomocí programu NetInstall

QNAP TS-409 a QNAP TS-409 Pro. Jak použít funkci Online RAID Capacity Expansion a RAID Level Migration

SPECIFIKACE DODÁVKY EPS A SERVISU EPS

Linux CryptoFS. Petr Novický

Mobilní malware na platformě Android Přednáška 2. Ing. Milan Oulehla

P íručka k nástroji Computer Setup (F10) Stolní počítače HP Business Desktop model dx5150

Základní principy konstrukce systémové sběrnice - shrnutí. Shrnout základní principy konstrukce a fungování systémových sběrnic.

Image Base Deployment pomocí WDS. Ing. Bohuslav Frk

Wind RS. Měření rychlosti a směru větru. Inteligentní anemometr s RS232 a RS dubna 2016 w w w. p a p o u c h. c o m

External ROM 128KB For Sinclair ZX Spectrum

Inteligentní procesorem řízený U/I převodník MPH 71

Shrnutí Obecné Operační systém Microsoft Windows 7 Ultimate Centrální procesor

V případě potřeby lze snímače nakonfigurovat do kompatibilního režimu se staršími snímači REGMET P21M. Přehled typů: osvětlení

Procesor z pohledu programátora

Převodník na DIN lištu s frekvenčním výstupem typ RF1

Číslicový zobrazovač CZ 5.7

MDOS3 popis služeb pro programátory

Regionální knihovní systémy. Ing. Jiří Šilha, LANius s.r.o.

Rozdělení operačních systémů

Administrace Unixu a sítí

Modul analogových výstupů M-AO2

Transkript:

Oprava softwarového RAIDu po selhání Tomáš Matějíček

Mini kvíz Jaká je šance, že někdy odejde disk s velmi důležitými daty? 5%? 10%? 2

Mini kvíz 100% : ( 3

Důvod použití SW raidu zamezení ztrátě dat při selhání disku (na úkor performance) zvýšení výkonu čtení (i zápisu na úkor bezpečnosti) kombinování kapacity disků levnější oproti hw raidu (netřeba kupovat řadič) transparentnější řešení oproti hw raidu - vidím co se děje LVM, ZFS, MD (Multiple Devices) 4

Základní typy raidu ex1 5

Setup RAIDu příkazem mdadm mdadm (zaznamenejte si přesně příkaz co použijete, může se hodit) smartctl před setupem zarovnání diskových oddílů, klonování partišen boot z raidu, linux umí jen metadata 0.9, lilo resync po setupu přežije reboot jen s metadaty>=1 jména disků nejsou konstantní po setupu pracovat vždy s md device (mkfs, mount), ne s disky přímo 6

Provoz (raid funguje) cat /proc/mdstat iostat -m echo check > /sys/block/md0/md/sync_action echo 200000 > /proc/sys/dev/raid/speed_limit_min Pozor může se lišit cesta v /sys nebo /proc 7

Selhání - příčiny za běhu nebo při rebootu nemožnost čtení dat či metadat z disku - vadné sektory či chybně přepsáno selhání řadiče na disku nebo na základní desce nečekaný reboot/freeze počítače výpadek proudu 8

Selhání - příznaky a detekce dmesg hlášky o chybě čtení sektorů a případně korekci dmesg hlášky o resetu řadiče zvýšený load vytuhnutí vykopnutí disku z raidu, mail z mdadm (pozdě, ale lepší než nic) smartctl -a 9

Příklad smartctl výstupu Error 202 occurred at disk power-on lifetime: 24742 hours (1030 days + 22 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 80 ff ff ff 4f 00 28d+00:53:14.744 READ FPDMA QUEUED 60 00 80 ff ff ff 4f 00 28d+00:53:14.742 READ FPDMA QUEUED 60 00 80 ff ff ff 4f 00 28d+00:53:14.742 READ FPDMA QUEUED 60 00 80 ff ff ff 4f 00 28d+00:53:14.740 READ FPDMA QUEUED 60 00 80 ff ff ff 4f 00 28d+00:53:14.739 READ FPDMA QUEUED 10

Příklad dmesg logu [ 412.575724] ata10.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 [ 412.576452] ata10.00: BMDMA stat 0x64 [ 412.577201] ata10.00: failed command: WRITE DMA EXT [ 412.577897] ata10.00: cmd 35/00:08:97:19:e4/00:00:18:00:00/e0 tag 0 dma 4096 out [ 412.577901] res 51/84:01:9e:19:e4/84:00:18:00:00/e0 Emask 0x10 (ATA bus error) [ 412.579294] ata10.00: status: { DRDY ERR } [ 412.579996] ata10.00: error: { ICRC ABRT } [ 412.580724] ata10: soft resetting link Pozor, nutné převést atan na správné jména disků ls -l /sys/block/sd* \ sed -e 's^.*-> \.\.^/sys^' \ -e 's^/host^ ^' \ -e 's^/target.*/^ ^' \ \ while read Path HostNum ID do echo ${ID}: $(cat $Path/host$HostNum/scsi_host/host$HostNum/unique_id) done 11

Prevence spojovat do raidu prověřené disky smartctl -t long vyvarovat se použití hodně opotřebených všech disků vyměnit podezřelý disk ASAP 12

Oprava - identifikace vadného disku cat /proc/mdadm hlášky dmesg smartctl -a /dev/sda mdadm -D /dev/md0 mdadm -E /dev/sda1 13

Oprava - výměna disku za chodu (hotswap) mdadm --fail /dev/md0 /dev/sda1 mdadm --remove /dev/md0 /dev/sda1 mdadm --add /dev/md0 /dev/sda1 fyzicky odpojit správný disk (check serial), jinak degrade pozor po rebootu může mít disk jiné jméno v /dev ex2 14

Provoz při selhání dočasný provoz bez disku (zvýšené riziko selhání dalšího disku) dočasný provoz s vadným diskem (riziko zablokování) - pokud možno read only resync zatěžuje procesor i všechny disky echo 2000 > /proc/sys/dev/raid/speed_limit_m{in,ax} # min, max 15

Oprava RAID1 - mirror rozpad např. po výpadku proudu všechny disky obsahují kompletní filesystém nechat rozpadlé, mount zvlášť, diff, vybrat nejvhodnější neznamená bezchybný fs, vždy nutné fsck 16

Oprava - problém oživit raid např. při výpadku více disků něž je parit/spare mdadm --force /dev/sda1 /dev/sdb1 vybrat disky s nejvyšším events re-setup v případě poškozených metadat mdadm --create --assume-clean nutné použít stejné parametry jako při setupu, a navíc assume clean opět vybrat disky s nejvyšším events 17

Situace z praxe Po rebootu raid assembled na /dev/md127, nebo degraded - mdadm --stop Po rebootu raid ve stavu recheck, ale má faulty drive - check nejde zastavit - zbytečné čtení když se později bude provádět resync, set speed limit Po hotswapu jsou vidět staré partišny, jako by se disk nevyměnil 18

Doporučení poznačit si příkaz kterým byl raid setupnutý poznačit si seriové čísla všech disků, v případě že nejde zjistit serial pořídit si UPS zálohovat 19

Konec Děkuji za pozornost Tomáš Matějíček 20