Data replication, high availability, load balancing,

Podobné dokumenty
Datové sklady. Zdeněk Kouba

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Litosil - application

PRAVIDLA ZPRACOVÁNÍ STANDARDNÍCH ELEKTRONICKÝCH ZAHRANIČNÍCH PLATEBNÍCH PŘÍKAZŮ STANDARD ELECTRONIC FOREIGN PAYMENT ORDERS PROCESSING RULES

O jedné metodě migrace velkých objemů dat aneb cesta ke snižování nákladů

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

SPECIFICATION FOR ALDER LED

DC circuits with a single source

POPIS TUN TAP. Vysvetlivky: Modre - překlad Cervene - nejasnosti Zelene -poznamky. (Chci si ujasnit o kterem bloku z toho schematu se mluvi.

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Database systems. Normal forms

Efektivní využití SSD v produktech Dell: SSD za cenu HDD. Ondřej Bajer Storage Systems Engineer

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Introduction to MS Dynamics NAV

Postup objednávky Microsoft Action Pack Subscription

MySQL sežere vaše data

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Digitální učební materiál

EU peníze středním školám digitální učební materiál

PG 9.5 novinky ve vývoji aplikací

Compression of a Dictionary

2. Entity, Architecture, Process

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

LOGBOOK. Blahopřejeme, našli jste to! Nezapomeňte. Prosím vyvarujte se downtrade

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

TechoLED H A N D B O O K

Transformers. Produkt: Zavádění cizojazyčné terminologie do výuky odborných předmětů a do laboratorních cvičení

EXACT DS OFFICE. The best lens for office work

CZ.1.07/1.5.00/

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

By David Cameron VE7LTD


SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

Střední škola obchodní, České Budějovice, Husova 9, VY_INOVACE_ANJ_741. Škola: Střední škola obchodní, České Budějovice, Husova 9

Zabezpečení infrastruktury

WORKSHEET 1: LINEAR EQUATION 1

Chapter 7: Process Synchronization

Brno. 30. května 2014

POSLECH. Kate and Jim are friends. It's Thursday afternoon and they are talking about their free time activities.

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Transportation Problem

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

Executive office furniture system LINEART. Systém manažerského nábytku LINEART

Project Life-Cycle Data Management

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Vánoční sety Christmas sets

Distribuované systémy a výpočty

VELKÁ CENA HRADCE KRÁLOVÉ A KRÁLOVÉHRADECKÉHO KRAJE V PLAVÁNÍ 2. ročník ČESKÝ POHÁR V PLAVÁNÍ 1. kolo:

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

III/ 2- Inovace a zkvalitnění výuky prostřednictvím ICT

MO-ME-N-T MOderní MEtody s Novými Technologiemi CZ.1.07/1.5.00/

CZ.1.07/1.5.00/

BLATNÍKY A BEDNY NA NÁŘADÍ MUDGUARDS AND TOOLBOXES

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

5. Učebnice str. 74, cvičení 5. Vybíráme podle jídelního lístku.

CZ.1.07/1.5.00/

Zprávy používané při vypořádání denního trhu 4M MC / Messages used on the day-ahead 4M MC

Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám

PC/104, PC/104-Plus. 196 ept GmbH I Tel. +49 (0) / I Fax +49 (0) / I I

ADC Young Creative. Brief MOBIL.CZ

Travelling Rules for Inbounds in District 2240 Czechia and Slovakia

Aktivita CLIL Chemie I.

UPM3 Hybrid Návod na ovládání Čerpadlo UPM3 Hybrid 2-5 Instruction Manual UPM3 Hybrid Circulation Pump 6-9

World cup #9 and #10 Czech republic

Dynamic programming. Optimal binary search tree

Instrukce: Cvičný test má celkem 3 části, čas určený pro tyto části je 20 minut. 1. Reading = 6 bodů 2. Use of English = 14 bodů 3.

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

Automatika na dávkování chemie automatic dosing

FIRE INVESTIGATION. Střední průmyslová škola Hranice. Mgr. Radka Vorlová. 19_Fire investigation CZ.1.07/1.5.00/

Hejno Bez Ptaku Filip Dousek

Ošetřovací plán Treatment Plan

Introduction to Navision 4.00 Jaromír Skorkovský, MS., PhD.

INTEGRACE IS DO STÁVAJÍCÍ HW A SW ARCHITEKTURY

PAINTING SCHEMES CATALOGUE 2012

Uživatelská příručka. Xperia P TV Dock DK21

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

AŤ ŽIJE MEFANET! VYUŽIJE MEFANET NOVÉ TECHNOLOGIE PRO PODPORU VÝUKY?

ROLZ-2. Portable AV/Conference Center. Assembly Instructions

DATA SHEET. BC516 PNP Darlington transistor. technický list DISCRETE SEMICONDUCTORS Apr 23. Product specification Supersedes data of 1997 Apr 16

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

(

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

Název společnosti: VPK, s.r.o. Vypracováno kým: Ing. Michal Troščak Telefon: Datum:

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Efektivní provoz koncových stanic

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

M-LOCK Magnetický zámek pro křídlové sklněné dveře. M-LOCK Magnetic lock for glass swing doors

RNDr. Jakub Lokoč, Ph.D. RNDr. Michal Kopecký, Ph.D. Katedra softwarového inženýrství Matematicko-Fyzikální fakulta Univerzita Karlova v Praze

ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

stany A B C D tents VÝBAVA stanů Husky 2005/Husky 2005 tents ACCESSORIES

půjčky do 3 tisic jedna noc. Do hlavního vysílacího času se pak mají vrátit některé programy, jako třeba Ozák. Incident 1:Since I started the Qubee

Transkript:

Data replication, high availability, load balancing,

Data replication Publish subscribe model Publish A Subscribe B Subscribe A Subscribe B Subscribe A Publish B

High availability redundancy - primary server, secondary server(s) Failover, switchover, replication, database cluster, split-brain Load Balancing load balancing database servers is easy for r/o access. modification much more complicated write requests must be propagated to all servers in the cluster no single solution. Master servers R/W requests Slave servers R/O requests Stand-by servers not accessible until they become master Some solutions only one server can handle update requests Synchronous solutions the data modifying transaction is not committed until accepted by all servers (distributed transaction) => no data lost on failover Asynchronous solutions commit delay propagation to other servers in the cluster => some data updates may be lost on failover If synchronous too slow => asynchronous

Granularity point of view: per-server high availability solution per-database per-table Types of solution: Shared-disk failover - single disk array shared by multiple servers - if the main DB server fails, another DB server mounts the DB - synchronization overhead avoided by having just one instance of the database - rapid failover with no data loss - SAN (storage area networks) lower level communication protocol than NFS - NFS is OK if mounted synchronously (without caching) - the stand-by server cannot never access the DB while the primary server is ON - disk array single point of failure, when failed/corrupted, the DB becomes unavailable

File-system Replication - HW redundancy - changes to a filesystem mirrored to another filesystem residing on another host - mirroring must assure that the secondary filesystem is a consistent copy of the primary one - the order of writes must be preserved - LINUX world has a popular filesystem mirroring solution called DRBD Warm stand-by through PITR (point-in-time recovery) - a stand-by server is being kept current by reading the stream of write-ahead log (WAL) records (warm standby aka log shipping) - when the master server fails, the stand-by server has almost all data available and can be quickly made the master - asynchronous solution - only the entire DB server granularity Master-slave replication - all data modification queries go to the master server. - the master server asynchronously sends data changes to the slave server => possible data loss during fail over - the slave can answer read-only queries while the master server is running. - the slave server ideal for OLAP queries Example: Slony-I (per-table granularity, support for multiple slaves)

Statement-based replication middleware - a program intercepts every SQL query and sends it to one or all servers. - each server operates independently. - R/W queries are sent to all servers, while R/O queries can be sent to just one server, allowing the read workload to be distributed. If queries are simply broadcast unmodified, functions like random(), CURRENT_TIMESTAMP, and sequences would have different values on different servers. If this is unacceptable, either the middleware or the application must query such values from a single server and then modify the write queries using those values before broadcasting them to the servers. Also, care must be taken that all transactions either commit or abort on all servers, perhaps using two-phase commit. Examples: Pgpool-II, Sequoia

Synchronous Multimaster Replication - each server can accept write requests - modified data is transmitted from the original server to every other server before each transaction commits. - read requests can be sent to any server. - sometimes shared disk used to reduce the communication overhead - no problem with non-deterministic functions like random() - advantage: any server can accept write requests. Hence, no need to distribute workloads between masters and slaves - Heavy write activity can cause excessive locking, leading to poor performance. Asynchronous Multimaster Replication - data synchronization for occasionally connected applications - asynchronous multimaster replication - each server works independently - periodically communicates with the other servers to identify conflicting transactions - the conflicts resolved by users / conflict resolution rules

Datové sklady Zdeněk Kouba

Data cube Sortiment Pečivo Maso Mléčné výrobky Koblihy Housky Chléb Místo Vepřové Hovězí Petrovice Drůbež Vysoký Chlumec Milevsko Mléko Kovářov Sýry Oslov Neveklov Jogurty Vrchotovy Janovice Bystřice 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 2000 2001 2002 Čas Písek Benešov Příbram

Proces ETL Extraction Transformation Load Datové zdroje Datová pumpa Datový sklad

Agregační hierarchie dimenze čas Vše Čtvrtletí Rok Měsíc Týden Den Část dne

Konceptuální model motivačního příkladu místo vše okres prodejna sortime nt vše skupina_zbož í položka_sortiment u sazba_dph čas rok čtvrtletí měsí c den vše týden tržba základ_dph DPH tržba_včetně_dph

Logický model (star-schema) motivačního příkladu místo prodejna okres název_okresu název_prodejny čas rok čtvrtletí měsíc den týden název_měsíce tržba základ_dph DPH rok čtvrtletí měsíc den položka_sortim entu prodejna sortiment položka_sortimentu skupina_zboží sazba_dph název_skupiny_zboží název_položky_sort

Snowflake schema s tabulkou agregovaných hodnot okres okres název_okres u místo prodejna okres název_prodejn y tržba základ_dph DPH rok čtvrtletí měsíc den položka_sortimentu prodejna tržba na okres základ_dph DPH rok čtvrtletí měsíc den položka_sortimentu okres

Data mining (vytěžování/dolování dat) predikce klasifikace detekce odchylek asociační pravidla regrese shlukování modelování závislostí modelování kauzalit sumarizace indikace deskripce

Využití nalezených závislosti k predikci Příklad aplikace datového skladu v predikční úloze: Predikce spotřeby pitné vody Faktory, které mohou spotřebu ovlivňovat, nalezeny metodami data mining: počasí den v týdnu roční období poloha (zahrádkářská kolonie/sídliště)

Star schema datového skladu Area Day Area Name Description Reservoir Reservoir Area Water supply Name Tank Reservoir Tank Max volume Min level Max level Delta level volume Fact_table Date Time Reservoir Tank Inflow Outflow Delta level Consumption Volume Pressure Chlorine Time Date Time Hour Minute Second Day_part Date Day Month Year Week Day of Week Quarter Temperature Weather type Free days seq No Free days seq Cnt Weather Pipe line Water supply Name Description Weather type Weather Description Min Brightness Max Brightness Min Rain Max Rain

Výsledky Reservoir Michal 1800 1600 1400 1200 1000 800 600 400 200 0 day 3 6 9 12 15 18 21 24 27 30 33 36 39 consumption prediction Average error smaller than 19% After removing unpredictable events about 11%

Moderní trendy databázových systémů

Motivace neplatí, že one size fits all (RDBMS/SQL) Cloud Computing + Big Data boom rapidní růst globálních dat potřeba efektivně k datům přistupovat data mining stojové učení umělá inteligence

Motivace http://www.csc.com/insights/flxwd/78931-big_data_universe_beginning_to_explode

Motivace http://www.csc.com/insights/flxwd/78931-big_data_universe_beginning_to_explode

Motivace http://www.csc.com/insights/flxwd/78931-big_data_universe_beginning_to_explode

Přehled Tradiční RDBMS [1970 ] Oracle [1980 ] PostgreSQL [1995 ] MySQL [1997 ] MapReduce (Hadoop) [2005 ] NoSQL (not only SQL) [2007 ] Databáze klíč-hodnota (Redis) Dokumentové databáze (MongoDB, ale i PostgreSQL) Grafové databáze (Neo4j) (Wide) sloupcové databáze (Cassandra) fifth NoSQL částečně strukturované, MultiValue Paralelní/distribuované databáze (Datomic) http://db-engines.com/en/ranking

36DB2 připravovaný předmet 36DB2 (OI magistr) Big Data a NoSQL databáze Princip MapReduce Databáze klíč-hodnota, dokumentové, sloupcové Grafové databáze NewSQL (Traditional RDBMS + NoSQL) Cloud computing Datové sklady a Big Data