PostgreSQL jako platforma pro datové sklady

Podobné dokumenty
CSPUG 2011-květen. GridSQL a pg-pool II. Vratislav Beneš benes@optisolutions.cz

Business Intelligence. Adam Trčka

Analýza a modelování dat 5. přednáška. Helena Palovská

Analýza a modelování dat. Přednáška 8

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Business Intelligence

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Netezza. Martin Pavlík. 2. Února to pravé řešení pro analytický datový sklad

Analýza a modelování dat. Přednáška 9

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU bez limitu Obsahuje podporu

Databázové systémy, MS Access. Autor: Ing. Jan Nožička SOŠ a SOU Česká Lípa VY_32_INOVACE_1130_Databázové systémy, MS Access_PWP

On line analytical processing (OLAP) databáze v praxi

Databázové a informační systémy

Multi-dimensional expressions

TimescaleDB. Pavel Stěhule 2018

Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Databáze s tisíci uložených procedur. Pavel Bláhovec, DiS pavel@blahovec.cz

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Řešení ochrany databázových dat

Nová dimenze rozhodovacího procesu

Business Intelligence

IBA CZ průmyslový partner FI MU

4IT218 Databáze. 4IT218 Databáze

Jan Váša TGB Sales Representative, Oracle Czech 10. června 2011 MRI Kladno

Integrace podnikových Open Source aplikací v praxi. RNDr. Petr Novák, Open Source Conference Praha, 19. duben 2011

Big Data od velkých očekávání k praktickému využití. DSW, Praha,

Služby datového centra

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Služby datového centra

Databázové systémy úvod

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

<Insert Picture Here> EXADATA extrémní infrastruktura pro datové sklady

<Insert Picture Here> Na co se můžete s Oracle BI těšit

QAD Business Intelligence

Datová centra aneb proč by mohl mít CFO svého CIO raději

Datová úložiště. Zdroj: IBM

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka,

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Základy business intelligence. Jaroslav Šmarda

Sísyfos Systém evidence činností

Konsolidovaný reporting CZ/SK v Cognos případová studie sanofi-aventis

Operátory ROLLUP a CUBE

Datové a procesní modely. A zpět k PEPOvi

Paralelní dotazy v PostgreSQL 9.6 (a 10.0)

SPLA. Hostingový model prodeje. Petr Janovský

IW3 MS SQL SERVER 2014

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Aktuální otázky provozu datových skladů PAVEL HNÍK

DEDIKOVANÉ A MANAGED SERVERY GREENHOUSING JEDNODUCHÁ CESTA K PROFESIONÁLNÍMU SERVERHOSTINGU A VIRTUALIZACI

SSD vs. HDD / WAL, indexy a fsync

Historie a současnost datových skladů GE Money ČR

Ukázka knihy z internetového knihkupectví

Nimbus Data All Flash Systems

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

Základy informatiky. 08 Databázové systémy. Daniela Szturcová

GIS a Business Intelligence

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev

Databáze II. 1. přednáška. Helena Palovská

Databázové systémy a SQL

Základy informatiky. 06 Databázové systémy. Kačmařík/Szturcová/Děrgel/Rapant

Inovace a zkvalitnění výuky prostřednictvím ICT. Základní seznámení s MySQL Ing. Kotásek Jaroslav

Produkty třídy BYZNYS

Business Intelligence Hlavní témata, která budou v roce 2015 určovat vývoj business intelligence řešení a služeb.

Michal Krátký, Miroslav Beneš

Použití databází na Webu

Zadávací dokumentace pro výběrové řízení. Zavedení CRM systému pro MEGA a.s.

Healtcheck. databáze ORCL běžící na serveru db.tomas-solar.com pro

Oracle Sales Cloud. moderní řízení obchodu

ArcGIS for Server. V oblasti správy, vizualizace a zpracování prostorových dat nabízí ArcGIS for Server tyto možnosti:

Integrace prostředí pomocí TDI v praxi

Podnikové informační systémy Jan Smolík

IBA CZ průmyslový partner FI MU

Nabízíme řešení. v oblastech: integrací zdrojů dat:

Oracle XML DB. Tomáš Nykodým

Vítáme Vás na 20. uživatelské konferenci firmy ORTEX

Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD

Výměna Databázového serveru MS SQL


Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

RNDr. Michal Kopecký, Ph.D. Department of Software Engineering, Faculty of Mathematics and Physics, Charles University in Prague

Zhodnocení architektury podniku. Jiří Mach

Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad

Jak efektivně řídit životní cyklus dokumentů

Profitabilita klienta v kontextu Performance management

Copyright 2012 EMC Corporation. All rights reserved.

Michal Verner, DAQUAS

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MySQL základní pojmy, motivace Ing. Kotásek Jaroslav

Data v informačních systémech

Cloud Slovník pojmů. J. Vrzal, verze 0.9

Cloud projekt v praxi Zkušenosti a rizika s nasazením řešení v Cloudu

Den pro partnery Masarykova universita - Fakulta informatiky

PODNIKOVÁ INFORMATIKA

Transkript:

PostgreSQL jako platforma pro datové sklady Vratislav Beneš benes@optisolutions.cz

1. Co to jsou datové sklady? 2. Požadavky na datový sklady 3. Technické řešení datového skladu 4. PostgreSQL a datové sklady 5. Paralelní data 6. GridSQL vs MSSQL 2005 7. Funkce v PostgreSQL 8. PostgreSQL a Business 9. PostgreSQL vs MSSQL vs MySQL

Co to jsou datové sklady? jsou kritickou součástí Business Intelligence integrace veškerých data nutných k efektivnímu řízení firmy veškerá data umístěná na jednom místě snadno dostupná i pro rozdílné úrovně požadavků na detail ERP MKG mngm systémy CRM Docházka E T L DWH SAL osobní planování controlling Banka PRD prodejní Výzkumy trhu

Požadavky na datový sklad Bill Inmon datové sklady jsou: subjektově orientované integrované zpětně neměnné v čase se vyvíjející Subjektově orientované cílem je vytvořit takovou strukturu, která je snadno srozumitelná pro koncového uživatele Integrované do datového skladu směřují různorodá data, která je třeba sjednotit a vytvořit z nich logický celek Zpětně neměnné data nahraná do datového skladu by se měla prohlásit za spolehlivá a neměnná V čase se vyvíjející data do DWH se nahrávají po přesně definovaných časových intervalech (denně, týdenně, měsíčně...)

Technické řešení datového skladu Relační databáze Velký objem dat (CZ: jednotky až stovky GB, mobilní operátoři/banky TB, USA: PB) 3. NF Redundance je povolená a přínosná čas 2009/3q 2009/4q 2010/1q 2010/2q 2010/3q 2010/4q 2011/1q p200903 p200904 p201001 p201002 p201003 p201004 p201101 partitioning SATA SAS (SCSI) SSD tablespaces 100% přístupy čas

PostgreSQL a datové sklady Požadavky na DBS PostgreSQL 8.4 + tablespaces partitioning bulk insert škálovatelnost paralelní zpracování pg-pool GridSQL GridSQL EnterpriseDB Open source nic nesdílející cluster paralelní zpracování dotazu velké objemy dat vysoký výkon PostgreSQL jako backend - JDBC only http://sourceforge.net/projects/gridsql/

Paralelní data Table a: time_id sales partitions podle time_id 27 23 21 16 13 12 7 5 1 time_id 1 5 7 12 13 16 1-10 11-20 21-30 PostgreSQL select sum(sales) from a 21 23 27 (1+5+7+12+13+16+21+23+27) CPU0 1 5 7 12 13 16 21 23 27 p1 p2 p3 GridSQL select sum(sales) from p1 & select sum(sales) from p2 & select sum(sales) from p3 (1+12+21) CPU0 & (5+13+23) CPU1 & (7+16+27) CPU2

GridSQL vs MSSQL 2005 Generování XLS reportů pro marketing 1 strana: 26 dotazů report: 5 stran reportů: 13 ROLAP faktová tabulka 32 046 794 záznamů tabulky dimenzí celkem 5 266 záznamů ~10GB dat celkem: 1690 dotazů MDX dotaz with member [periods.monthly].[mat-1] as '[periods.monthly].[matval-1]' member [periods.monthly].[mat] as '[periods.monthly].[matval]' member [periods.monthly].[mat Changes] as '(([periods.monthly].[mat] / [periods.monthly].[mat-1]) - 1.0)' member [periods.monthly].[ytd] as '[periods.monthly].[ytdval]' member [periods.monthly].[ytd-1] as '[periods.monthly].[ytdval-1]' member [periods.monthly].[ytd Changes] as '(([periods.monthly].[ytd] / [periods.monthly].[ytd-1]) - 1.0)' select NON EMPTY Union(Crossjoin({LastPeriods(13.0, ClosingPeriod([periods.monthly].[month]))}, {[Measures].[sales value]}), Crossjoin({[periods.monthly]. [MAT-1], [periods.monthly].[mat], [periods.monthly].[mat Changes], [periods.monthly].[ytd-1], [periods.monthly].[ytd], [periods.monthly].[ytd Changes]}, {[Measures].[sales value]})) ON COLUMNS, NON EMPTY Order(Hierarchize(Union({[segment.segment].[All segment.segments]{segment_param}}, [segment.segment].[all segment.segments] {segment_param}.children)), ([periods.monthly].[mat], [Measures].[sales value]), DESC) ON ROWS from [fbel] where [outlet type.outlet type].[all outlet type.outlet types].[hypermarkets] MSSQL 2005 - IBM 3500 2 x DC Xeon, 4GB RAM - Win 2003, 6 x SAS 15k RAID 10, MOLAP jeden dotaz: ~90s => celkem: ~42.25h Pentaho BI + GridSQL 2 - IBM 3650, QC Xeon, 16GB RAM, Fedora 13, PostreSQL 8.4.4, SSD, ROLAP jeden dotaz: ~12s => celkem: ~5.41h

Funkce v PostgreSQL Statistika pomocí R-project rozšíření základních statistických funkcí SQL PL/R ( http://www.joeconway.com/plr/ ) select time_id, outlet_id, maxfreq(price) from pricing.price_data group by time_id, outlet_id

Funkce v PostgreSQL Neuronové sítě jako modelovací nástroj predikce, klasifikace... BPNN (Back Propagation Neural Network) nelineární závislosti vybavování sítě jako funkce v C volaná z SQL Predikce vývoje kurzu CZK/EURO na den dopředu

PostgreSQL a business Náš zákazník požaduje řešení podporu funkční systém, který řeší jeho problémy minimalizovat dodatečné požadavky na jeho IT adekvátní cenu k výslednému efektu Náš zákazník nepožaduje silnou značku technické složitosti Nechce nic mít společného s IT Kde vidíme prostor pro PostgreSQL střední firmy oddělení velkých firem specifické zařízení vysoký výkon vs nízké rozpočty clustery SaaS

PostgreSQL vs MSSQL vs MySQL MSSQL vynikající DB propracované nástroje velká obliba firem silná značka odstraněný limit na RAM Business Intelligence v ceně licence na CPU partitions až od verze Enterprise MS Windows only MySQL masivně rošířená DB kde kdo ji umí Oracle? vs PostgreSQL vynikající DB GridSQL, pg-pool EnterpriseDB support ohebná a rozšiřitelná (podpora GPU apd) platformě nezávislá

Otázky

Děkuji za pozornost Vratislav Beneš benes@optisolutions.cz