Netezza to pravé řešení pro analytický datový sklad Martin Pavlík 2. Února 2011
Co je Netezza? Napříč odvětvími Retail Telekomunikace Co Netezza dodává Vysoce výkonné appliance Firma Špičková technologie pro oblast datových skladů Kde působí? Po celém světě Zejména však v severní Americe Digitální media Zdravotnictví Věda a výzkum Finanční instituce Veřejný sektor Energetika Řešení pro ukládání a dotazování nad PB dat Datové sklady a pokročilé analýzy Akvizice IBM 11.11.2010 Filozofie Jednoduchost po všech stránkách Zaměstnanci 500+ Zákazníci 500+ Reference 400+ Netezza se stává součástí portfolia produktů brandu Information Management 2
Rychlost Škálovatelnost Co Netezza dodává Vysoce výkonné appliance Co Netezza dodává Řešení Vysoce výkonné pro ukládání appliance a dotazování Jednoduchost se nad PB dat Řešení pro ukládání a dotazování se nad PB dat Datové sklady a pokročilé Datové sklady a pokročilé Chytrost analýzy analýzy 3
Co je to appliancev případěnetezzy?
Pročappliance? Aby to bylo komplikované Aby to bylo hooooodnědrahé A co vlastněmáefektivněfungovat? Vyhodnocování analytických / ad-hoc dotazů Aby to EFEKTIVNĚ FUNGOVALO
Co Netezza není? Není OLTP databázovým serverem Nenívhodnájako db pod ERP, CRM,... Kdy Netezza obvykle není rychlejší? Když jsou konvenční technologie maximálně vyladěné pro konkrétní dotazovací potřebu Kde Netezza fakticky nemá konkurenci? Analytické dotazy Ad-hoc dotazy
Typickábolest DATA MART App Servery DATA MART App Servery DATA MART App Servery Zdrojové systémy CRM ERP Staging EDW BI What-if Analýzy HR Datová integrace Billing External Sources
Potřeboval bych vyhodnotit závislost mezi platem a čerpáním kontokorentu OK. Musíme udělat řadu statistik, nastavit správně indexy a partitioning. 5 dní práce to spraví Analytik IT
Paráda. Mockrát děkuji. Hned to zkusím. Hotovo. Můžete spustit Váš analytický dotaz. Analytik IT
Výborně. Vidím tady pěkné závislosti. Teď bych se na to potřeboval podívat ještě jinak Neeee!!! Tady se nedápracovat! Ale ale, to jsou k nám hosti. No, tak to máme dalších 5 dní práce Analytik IT
A teďs Netezzou...
Potřeboval bych vyhodnotit závislost mezi platem a čerpáním kontokorentu. Pustím si dotaz nad Netezzou Analytik IT
Výborně. Vidím tady pěkné závislosti. Teď bych se na to potřeboval podívat ještě jinak. S Netezzou můžu dotaz zadat hned. Odpověď bude za stejnou dobu Analytik IT IT se můž ůže věnovat něč ěčemu jinému
Základníprincipy architektury Zpracování dat co nejblíže úložišti Vyvážená, masivní paralelní architektura Platforma pro pokročilé analýzy Jednoduchost Flexibilní konfigurace Obrovská škálovatelnost
Masivní paralelní architektura Rozděl a panuj MPP architektura Koncept Shared Nothing Rozdělení práce na několik menších úloh Velká úloha je rozdělena vertikálně do série menších úloh Menší úlohy běží paralelně/ naprosto nezávisle Pro každou menší úlohu je přiděleno stejné množství fyzických zdrojů Komunikace mezi jednotlivými úlohami je jen na začátku a konci Přínosy Obrovské úlohy jsou vykonány ve významně kratším čase Maximální využitelnost zdrojů Body k zamyšlení Složitost systému a náročnost na správu Úzká hrdla v komunikaci
SOLARIS AIX Netezza TwinFin Appliance Client TRU64 HP-UX WINDOWS LINUX ODBC 3.X JDBC Type 4 OLE-DB SQL/92 SQL Compiler 1 2 Query Plan Execution Engine 3 Source Systems ETL Server DBA CLI 3rd Party Apps High-Speed Loader/Unloader Optimize Admin Front End SMP Host Network Fabric 920 High-Performance Database Engine Streaming joins, aggregations, sorts Massively Parallel Intelligent Storage High Performance Loader
SOLARIS AIX Netezza TwinFin Appliance Client TRU64 HP-UX WINDOWS LINUX SQL SQL Compiler Snippets 1 2 3 1 2 1 2 3 1 2 3 Query Plan Execution Engine 3 1 2 3 Source Systems ETL Server DBA CLI 3rd Party Apps High-Speed Loader/Unloader Optimize Admin SQL Front End SMP Host Network Fabric 920 High-Performance Database Engine Streaming joins, aggregations, sorts 1 2 3 Massively Parallel Intelligent Storage High Performance Loader
Zpracování toku dat jednotkou Datová Cache Jádro (Core) FPGA Jádro CPU Dekomprese dat Projekce Selekce, Autorizace Komplexní Joiny, Aggr, atd. Select sex, age, count(*) From MultiBillionRowTable Where BirthDate < 01/01/1967 And PostCode like SW% Group by sex, age; Každý obsahuje 8 n-tic s vlastním: Diskem Datovou cache Jádrem FPGA jednotky Jádrem CPU
Asymmetric Massively Parallel Processing SOLARIS AIX Netezza TwinFin Appliance Client TRU64 HP-UX WINDOWS LINUX ODBC 3.X JDBC Type 4 OLE-DB SQL/92 SQL Compiler Consolidate 1 2 1 2 3 1 2 3 Query Plan Execution Engine 3 1 2 3 Source Systems ETL Server DBA CLI 3rd Party Apps High-Speed Loader/Unloader Optimize Admin Front End SMP Host Network Fabric 920 High-Performance Database Engine Streaming joins, aggregations, sorts, etc. 1 2 3 Massively Parallel Intelligent Storage High Performance Loader
The Netezza TwinFin Appliance Disky SMP Servery Jednotky (s databázovým akcelerátorem FPGA) 20 Každý disk je rozdělen na 3 oblasti: Uživatelská data Swap Mirror SQL Compiler Query Plan Optimalizátor Administrace
Produkty rodiny Netezza 21 Skimmer Většinou jako: systém pro vývoj systém pro testování TwinFin Datový sklad Náročné analytické úlohy 1 TB to 10 TB 1 TB to 1.5 PB
Základní přínosy řešení NETEZZA 22
Konkurenčnítechnologie majíobrovskémnožstvíparametrůa databázových objektů, které pomáhají výrazně zlepšovat výkonnost systémů. Musejí být tedy lepší. Netezza mácelou řadu z nich taky, ale jejich hodnoty si spravuje sama a Tak takhle nějak jsem se na to tvářil nezatěžuje tím uživatele. poprvé, podruhé,... a ještě mockrát,... Používá tedy vlastně jakési implicitní hodnoty parametrů Jenže v případě Netezzy platí: Těším se na Vaše dotazy Výkonnost systému s implicitními mi parametry je dostatečná Martin Pavlík +420 731 435 691 martin_pavlik@cz.ibm.com