Souborové systémy v cloudu



Podobné dokumenty
METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

Využití opensource při stavbě infrastrukturního cloudu Martin Kopta

Moderní privátní cloud pro město na platformě OpenStack a Kubernetes

František Kysela SE Datacenter

Virtualizační platforma ovirt

Jaké zvolit Softwarově definované datové úložiště?

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Přechod na virtuální infrastrukturu

Najde si Software Defined Storage své místo na trhu?

w w w. u l t i m u m t e c h n o l o g i e s. c z Infrastructure-as-a-Service na platformě OpenStack

Virtualizace síťových prvků

Red Hat Enterprise Virtualization

BigData. Marek Sušický

souborových systémů pro Cloud

Cloud. historie, definice, modely a praktické využití Ing. Karel Stýblo K2 atmitec s.r.o.

Softwarově definované úložiště pod taktovkou EMC Lukáš Bělovský, konzultant Gapp System

Virtualizace jako nástroj snížení nákladů. Periodické opakování nákladů nové verze Licence na pevný počet klientů

Datová úložiště v MetaCentru a okolí. David Antoš

OpenNebula pro začátečníky SUT Tomáš Kukrál

Copyright 2012 EMC Corporation. All rights reserved.

IBM Cloud computing. Petr Leština Client IT Architect. Jak postavit enterprise cloud na klíč IBM Corporation

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

Alternativy k SAP HANA appliance? Představení možnosti TDI a cloudové infrastruktury

Nimbus Data All Flash Systems

Cloud Slovník pojmů. J. Vrzal, verze 0.9

Souborové systémy a práce s daty David Antoš

Cloud Computing pro státní správu v praxi. Martin Vondrouš - Software602, a.s. Pavel Kovář - T-Systems Czech Republic a.s.

» STORAGE A SERVERY ABACUS Jan Petrák jp@abacus.cz

Seminář IBM - partnerský program a nabídka pro MSPs

Red Hat Enterprise Virtualization

MetaCentrum - Virtualizace a její použití

DataDomain pod drobnohledem

FORPSI Cloud Computing Virtuální datacentrum v cloudu

O nás. UPC Business. Kontaktní linka (Po - Pá: 8:00-19:00) Klientská linka (Po - Pá: 8:00-19:00)

CHARAKTERISTIKA VEŘEJNÉ ZAKÁZKY

Co by kdyby? Simulační prostředí pro BIG data v energetice. Filip Procházka, Masarykova Univerzita, Mycroft Mind, a.s. filip.prochazka@gmail.

Výpočetní zdroje v MetaCentru a jejich využití

RED HAT ENTERPRISE VIRTUALIZATION 3.0

Město Varnsdorf, nám. E. Beneše 470, Varnsdorf, Česká republika SPECIFIKACE

MetaCentrum. Miroslav Ruda. Skalský Dvůr, Miroslav Ruda (MetaCentrum) MetaCentrum Skalský Dvůr, / 11

CERIT SCIENTIFIC CLOUD. Centrum CERIT-SC. Luděk Matyska. Praha, Seminář MetaCentra,

Příloha č. 1 zadávací dokumentace. Technická dokumentace, specifikace požadovaného plnění a popis hodnocení

Cloud. historie, definice, modely a praktické využití Ing. Karel Stýblo K2 atmitec s.r.o.

Novinky z vývoje v MetaCentru

METACENTRUM. Miroslav Ruda CESNET. Konference CESNET, Praha

Služby datového centra

Prototyping konfigurace linuxových serverů. horizontální škálování Deltacloud API

Část 1. Technická specifikace. Posílení ochrany demokratické společnosti proti terorismu a extremismu

Datová úložiště v roce 2017 aneb jak si vybrat to správné?

Hyperkonvergovaná řešení jako základní stavební blok moderního IT

Softwarově definovaná úložiště a jejich využití

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

Služby datového centra

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Integrace formou virtualizace

Řešení EMC pro VMware

Praha, Martin Beran

Cloudy a gridy v národní einfrastruktuře

KAPITOLA 1 Úvod do zkoušky VMware Certified Professional pro vsphere 25. KAPITOLA 2 Úvod do serverové virtualizace a řady produktů VMware 43

Specifikace předmětu veřejné zakázky

MetaCentrum. Miroslav Ruda CESNET

1 Výchozí nastavení zařízení

METACentrum Český národní gridovýprojekt. Projekt METACentrum. Jan Kmuníček ÚVT MU & CESNET. meta.cesnet.cz

Fujitsu Day Praha 2018

Příloha č. 2A Zadávací dokumentace k Veřejné zakázce Dodávka technologického řešení pro Geoportál

SMB a Enterprise řešení

SERVERY A STORAGE ABACUS Jan Petrák jp@abacus.cz

Cloudová Řešení UAI/612

Vlastnosti Xen na univerzitě. Michal Švamberg

Vy chráníte naše zdraví, my chráníme vaše data. Lubomír Tomány

Příloha č. 2 Zadávací dokumentace Technická specifikace

Virtualizace. Lukáš Krahulec, KRA556

Hadoop a HDFS. Bc. Milan Nikl

STORAGE SPACES DIRECT

LINUX - INSTALACE & KONFIGURACE

Veřejné cloudové služby

IT 3. Projekt centrálního zálohovacího systému v ČSOB Pojišťovně. Michal Mikulík. špička v každém směru

INTEGRACE IS DO STÁVAJÍCÍ HW A SW ARCHITEKTURY

Technická specifikace HW pro rok 2012

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

Příprava na zk. z KIV/DS

Architektura aplikací v Seznam.cz

UAI/612 - Cloudová Řešení. Návrh aplikací pro cloud

Obsah. Úvod 13. Věnování 11 Poděkování 11

CESNET - Datová úložiště

METACentrum zastřešení českých gridových aktivit

CESNET, GRIDy a přenosy dat

Datová úložiště v MetaCentru a okolí II. David Antoš Oddělení datových úložišť

Cloud. Nebo zatím jen mlha? Workshop Day 2011 WG06 Jaromír Šlesinger, CA Technologies Bratislava, 13. október 2011

Virtualizace MetaCentra

Oracle Exalogic: Ideální platforma pro Cloud Computing

NMS. Linux na Strahově. Radim Roška & Moris Bangoura InstallFest Silicon Hill

ČÁST III. zadávací dokumentace technické podmínky ČÁST 1 veřejné zakázky

Zřízení technologického centra ORP Dobruška

Brno. 30. května 2014

Příloha č. 1 k Č.j.: OOP/10039/ Specifikace zařízení

Cloud Computing IBM Corporation

MODERNÍ SOUBOROVÉ SYSTÉMY - ZFS. Richard Janča

VOIPEX Pavel Píštěk, strategie a nové Sdílet projek ts y práv, I né PEX inf a.s orm. ace se správnými lidmi ve správný čas

Transkript:

Souborové systémy v cloudu Filip Hubík @ MetaCloud (hubik@ics.muni.cz) Adam Tomek @ MetaCloud Masarykova univerzita a CESNET 7.10.2014

Obsah a cíle prezentace Obsah Představení MetaCloud skupiny Definice problematiky Cloud a úložiště Náhled na souborové systémy Ceph podrobně Gluster podrobně Benchmarking Testovací infrastruktura Výsledky testů Závěr a otázky Cíle přednášky Vytvořit základní představu o vhodnosti použití vybraných distr. soub. systémů v cloudovém prostředí Porovnat měřením jejich vlastnosti na testovací infrastruktuře a dopomoci tak k případnímu rozhodování o jejich nasazení Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 2 / 37

Kdo jsme MetaCloud team Cloudové služby pro akademické sféry Spolupráce dvou iniciativ CESNET MetaCentrum Xen Masarykova univerzita CERIT-SC KVM Hybridní cloud Malá až střední velikost OpenNebula middleware Více jak 3 roky zkušeností Doprovodné aktivity (HA, support,... ) Výzkumné projekty Kontakt: cloud@metacentrum.cz Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 3 / 37

Úvodem - architektura cloudu Typy cloudů: Service (SaaS) Platform (PaaS) Infrastructure (IaaS) * as a service [3] Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 4 / 37

Úvodem - skladba IaaS cloudu Jádrem cloudu na IaaS úrovni je Middleware (uživ. rozhraní, scheduler, API, managment,... ) OpenNebula, Openstack, CloudStack, Nimbus Virtualizace HW (Xen, KVM, VMWare,... ) Množství uzlů CPU Pamět Síťové prostředky (OpenFlow + Open vswitch) Úložiště obrazů a dat ( Image storage ) Základní rozhodnutí ovlivňující dlouhodobý provoz cloudu Různé formáty obrazů (QCOW, RDB, RAW, VDI,... ) Velikost obrazu alokována předem Problém - distribuce obrazů cloudem Kopírování (rsync, scp, ftp,... ) Distribuovaný souborový systém Jiné přístupy (SAN/NAS magie, replikace, vzdálená úložiště & marketplace,... ) Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 5 / 37

Typy souborových systémů Lokální klasické FS, žádné sdílení dat mezi uzly Síťové lokální + síťový protokol, klient/server 1:N model (NFS, FTP) Distribuované data jsou transparentně distribuována mezi více uzlů úložiště, M:N model (DFS, AFS) Paralelní konkurentní I/O operace nad soubory, striping (GPFS, Ceph, Gluster(!), MooseFS, HDFS, Lustre,... ) Symetrické metadata umístěna na klientské i serverové části Asymetrické metadata umístěna na klientské nebo serverové části Sdílené sdílený přístup všech uzlů, zámky Klastrované symetrické, přímý přístup k blokovému zařízení, drahá kapacita, SAN (GFS, OCFS,... ) User-space běží mimo kernel v uživatelském prostoru Objektové data objekty + metadata + globalid, ne struktura, ploché, méně metadat Globální každý uzel stejný pohled Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 6 / 37

Požadavky na FS v cloudu Každý host dokáže spustit každou VM Distribuovanost (levná a heterogenní infrastruktura) Lineární škálovatelnost kapacity a propustnosti Eliminace SPOF (metadata server) Konkurentní přístup k datům Vysoká dostupnost, tolerance chyb Ideálně paralelní I/O operace Správa přístupu (různé části úložiště různá ACL) Open-source Live migrace Snapshoty bez podpory obrazu Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 7 / 37

Požadavky na škálovatelnost Kapacita Vertikální - počet disků na stroj (omezeno řadičem) Propustnost Horizontální - počet strojů formujících úložiště Problémy u distribuovaných FS Linearita - kapacita úložiště musí být rovna součtu kapacit jedn. strojů Síťová infrastuktura musí mít dostatečnou propustnost Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 8 / 37

Vhodné souborové systémy Cíleny pro použití v cloudu Ceph GlusterFS Další možné varianty GPFS - proprietární, problémy s Xen HDFS - metadata server SPOF, Copy-On-Write model MooseFS, XtreemFS - poměrně mladý, vyhodnocování Lustre - supercomputing... Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 9 / 37

Souboj titánů Ceph v produkci (Inktank, později Red Hat) GlusterFS v produkci (Gluster, poté Red Hat) Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 10 / 37

Ceph Částečně POSIX distribuovaný soub. systém Nativně objektový, blokový (RBD), souborový (CephFS) Metadata oddělena i neoddělena CephFS není v produkční fázi (08-2014) Rados block device vhodné pro cloud bez FUSE Rozsáhlé možnosti konfigurace (v testech výchozí hodnoty) Komplexní ACL CRUSH algoritmus Dynamický, load balancing, prokládání nativně, replikace Stavební kameny OSD CPU, paměť, síťové rozhraní, diskový prostor Monitor Informuje OSD o změnách topologie ( cluster map ) MDS Metadata server (CephFS) Klient Jádro >= 3.9 Není infiniband pouze TCP Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 11 / 37

Ceph architektura Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 12 / 37

GlusterFS Distribuovaný POSIX FS primárně na souborové úrovni Není centralizovaný metadata server (elastický hash) Teoretická velikost až 72 10 6 zettabyte (XFS subvol.) Integrace s QEMU (blokově bez FUSE, libgfapi - drive file=gluster://server[:port]/volname/image[?transport=...]) HA a samoopravné vlastnosti Souborový systém v otevřené formě, user-space model Georeplikace (asynchronní replikace) Pasivní load balancing, prokládání, replikace (synchr.) Dynamická práce se svazky Globální namespace RDMA, TCP Nejsou snapshoty! (potřeba použít QCOW) Jednoduchá konfigurace Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 13 / 37

Gluster architektura a API Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 14 / 37

Gluster terminologie a použití Terminologie Brick zákl. stavební kámen, úl. prostor zapojen do volume Volume (svazek) log. org. souborů, globální namespace Klient uzel připojující volume (i server) Server uzel, na kterém leží brick Translator kód prováděný nad daty (modulárnost) Storage, Debug, Encryption, Scheduler, Protocol,... Subvolume brick, který už byl zpracován translatorem Módy organizace dat ve svazku Distribuce Replikace Prokládání Příklad tvorby svazku $ gluster volume create vol0 replica 2 stripe 2 server1:/data/gv0 server2:/data/gv0 server3:/data/gv0 server4:/data/gv0 Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 15 / 37

Distribuovaný mód Data distribuována na úrovni souborů Žádná redundance Obdoba RAID0 či JBOD Selhání uzlu znamená ztrátu dat Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 16 / 37

Replikace Redundance Selhání disku Self-healing Manuální intervence ( Split-brain scénář) Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 17 / 37

Distribuovaná replikace Koefient replikace r=2 Počet bricků musí být nasobek r Redundance + propustnost při čtení Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 18 / 37

Prokládání ( striping ) souborů Dělení na úrovni souborů (RAID0) Velmi velké soubory Vhodné pro vysoce konkurentní prostředí (DB, HPC) Počet bricků roven koeficientu prokládání Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 19 / 37

Distribuované prokládání Předchozí výhody + škálovatelnost Počet bricků násobkem koeficientu prokládání Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 20 / 37

Prokládaná replikace Obdoba RAID1+0 Velké soubory ve vysoce par. prostředí (MapReduce) Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 21 / 37

Distr. prokládaná replikace Výhody předchozího + škálovatelnost MapReduce Počet bricků násobkem násobků obou koeficientů Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 22 / 37

Gluster georeplikace Asynchronní replikace (checkpointing) Inkrementální rsync Master/slave model LAN, WAN Zálohování dat Čas musí být synchronizován na všech uzlech (NTP) V cloudu použítí s QCOW real-time snapshoty Kaskádování (cíl = zdroj) Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 23 / 37

Testovaná architektura Hardware 10 klientských uzlů, 4 serverové uzly stejného typu Intel Xeon CPU E5472 3.00GHz, 2GB RAM Disk 250GB na uzel hdparm 192MB/s čtení iozone cca 190MB/s čtení i zápis dd 40MB/s zápis Odstranění virt. vrstvy (bez Xen či KVM) Gluster nutno připojovat přes FUSE Debian 7 Wheezy (jádra >= 3.9, 3.14-0.bpo.2-amd64) XFS (produkční u obou FS) IPoIB (Ceph neumí RDMA!) 4X DDR (20 Gb/s) Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 24 / 37

Testovací konfigurace Iozone V praxi 1-10 souběžných procesů na uzel (menší cloud) Souběžné vytížení úložiště ze strany klientů Velikost obrazů 1-4GB na uzel Verze 3.397 Distribuovaný režim (parametr -+m) Velikost záznamu (record size) 256kB Ceph Verze 0.80.4 (06-2014) Koeficient replikace 2, min repl. 1, prokládání výchozí pg_num & pgp_num = 256 Obrazy připojeny přímo přes RBD blokové zařízení GlusterFS Verze 3.5.2 (09-2014) Koeficient replikace 2, prokládání 2 Obrazy připojeny přes FUSE (pokud není uvedeno jinak) Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 25 / 37

Gluster 1-9 uzlů, 1 proces/uzel DR mód ovlivněn replikací, DS pomalejší nelineární Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 26 / 37

Ceph 1-10 uzlů, 4GB image Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 27 / 37

Initial write, 1-10 procesů/uzel Jak se v tom vyznat? Ceph - konst., Gluster DR 1 pr. lineární, další log. Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 28 / 37

Rewrite, 1-10 procesů/uzel Obdobný stav Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 29 / 37

Read, 1-10 procesů/uzel 1 pr. DR 1-6 lineární, 7-10 klesá, Ceph pro 1 uzel taktéž Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 30 / 37

Re-read, 1-10 procesů/uzel Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 31 / 37

Random read, 1-10 proc./uzel Ceph někde rychlejší než DS Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 32 / 37

Random write, 1-10 proc./uzel Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 33 / 37

Výsledky měření - závěr Ceph Kam se poděla škálovatelnost? Konstantní? Nejspíš silně omezena RBD vrstvou na uzlu Pravděpodobně CRUSH - větší infrastruktury Gluster ukázal že to jde Nativní striping také hraje proti Gluster Také omezen, ale snáší to lépe Škáluje lineárně či logaritmicky Ve stripingu propustnost klesá pro >=6 uzlů Ale pozor na čtení pro >= 8 uzlů Gluster padal ve stripingu pro 8 a 10 uzlů Doporučení pro cloud Gluster v distribuovaném replikovaném módu * Výsledky pouze simulují běh v cloudu Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 34 / 37

Další aktivity Bakalářská práce, další výzkum Testování Xen vs. KVM Srovnání z pohledu vhodnosti pro cloudové využití Testování kompatibility Ceph a GlusterFS s virtualizační vrstvou (problém s GPFS) Hrátky s parametry Cephu i Glusteru Revalidace podivné škálovatelnosti Cephu Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 35 / 37

Konec Díky za pozornost Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 36 / 37

Literatura [1] Ceph offfical site http://ceph.com [2] Gluster offical site http://www.gluster.org [3] http://www.katescomment.com/iaas-paas-saas-definition [4] Cloud Storage for the Modern Data Center, Copyright 2011, Gluster, Inc. [5] http://www.inktank.com/partners/ceph-at-the-red-hat-summit/ [6] http://yourstory.com/2011/09/yourstory-exclusive-californiabased-indian-entrepreneurs-powering-petabytes-of-cloud-storagethe-gluster-story/ [7] GlusterFS Cloud Storage, John Mark Walker [8] Red Hat documentation https://access.redhat.com/documentation Hubík, Tomek (MUNI+CESNET) Masarykova univerzita 7.10.2014 37 / 37