IBM BigData Analytics



Podobné dokumenty
Analýzou dat k efektivnějšímu rozhodování

Newstin Real-time Web Content Categorization. Presentation to WebExpo 2008

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

SAP a SUSE - dokonalá symbióza s open source. Martin Zikmund Technical Account Manager

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Novinky v portfoliu software řešení IBM

IBM Information Management

Enterprise Content Management IBM Corporation

Introduction to Navision 4.00 Jaromír Skorkovský, MS., PhD.

Obsah Úvod 11 Jak být úspěšný Základy IT

PROČ UŽ SE NEOBEJDETE BEZ ANALÝZY DAT

Project Life-Cycle Data Management

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

HadoopDX (Hadoop as a Service)

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Nová generace analytik mění zažité způsoby BI

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

Řešení pro internet věcí. 9. prosince 2015

Přejděte chytře na SAP HANA

Petr Vlk KPCS CZ. WUG Days října 2016

Analytika a SAP Quo Vadis? Jiří Přibyslavský Performance Management & Business Intelligence Business Consultant

O jedné metodě migrace velkých objemů dat aneb cesta ke snižování nákladů

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

Risk management in the rhythm of BLUES. Více času a peněz pro podnikatele

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Pomáháme vám využívat vaše informace VYHLEDÁVACÍ TECHNOLOGIE PRO ON-LINE INFORMAČNÍ ZDROJE SEARCH DRIVEN INNOVATION

Jak připravit IBM System x server pro zákazníka

CONNECTING GOVERNMENT AND CITIZENS Creating a Single Citizen View Konference ISSS, Jaroslav Novotný Sun Microsystems Czech


Netezza. Martin Pavlík. 2. Února to pravé řešení pro analytický datový sklad

Nová dimenze rozhodovacího procesu

Research infrastructure in the rhythm of BLUES. More time and money for entrepreneurs

Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

Moderní podnikový informační systém. Pavel Šlesingr Microsoft

Big Data Business snídaně

IBM SWG v roce 2011 UNIVERZITA PRO OBCHODNÍ PARTNERY. Luděk Vyhnalík Software Channel Manager, IBM SWG, IBM Česká republika, s.r.o

Efektivní využití SSD v produktech Dell: SSD za cenu HDD. Ondřej Bajer Storage Systems Engineer

Integrace podnikových Open Source aplikací v praxi. RNDr. Petr Novák, Open Source Conference Praha, 19. duben 2011

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

PC/104, PC/104-Plus. 196 ept GmbH I Tel. +49 (0) / I Fax +49 (0) / I I

HP ProLiant a Converged Infrastructure

SGM. Smart Grid Management THE FUTURE FOR ENERGY-EFFICIENT SMART GRIDS

Microsoft Office 365. SharePoint Online novinky a administrace

Databáze v praxi. RNDr. Ondřej Zýka Principal Consultant

Inteligentní zpracování prostorových dat

Veritas Information Governance získejte zpět kontrolu nad vašimi daty

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU bez limitu Obsahuje podporu

Metadata. RNDr. Ondřej Zýka

Flexibilní komunikační avionika SESAR 9.44 Honeywell Aerospace Advanced Technology

2000s E-business. 2010s Smarter Planet. Client/Server Internet Big Data & Analytics. Global resources and process excellence

Na zelenou jeď! Jen to nepopleť. Pavel Strašlipka HPE Storage Category Manager,

2. Entity, Architecture, Process


Big Data. Josef Šlerka, Ataxo Interactive, SNM FF UK Business & Information Forum 2011, Praha

Introduction to MS Dynamics NAV

IBM Connections pro firmy s Lotus Notes/Domino. Petr Kunc

Vladimír Šulc, Ph.D. MICRORISC s.r.o., CEO Jičín, Czech Republic Průmysl 4.0 v praxi, Liberec, November 30, 2016, Liberec

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Potřebujete mít vaše IS ve shodě s legislativou? Bc. Stanislava Birnerová

Jak efektivně řídit životní cyklus dokumentů

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

WebSphere Software IBM WebSphere Overview

Zabezpečení infrastruktury

System Center Operations Manager

ITICA. SAP Školení přehled Seznam kurzů

DIGITÁLNÍ TRANSFORMACE SE STÁVÁ OTÁZKOU PRO CEO

Zrychlete dodávky nových mobilních služeb k Vašim zákazníkům

Infor Performance management. Jakub Urbášek

The Over-Head Cam (OHC) Valve Train Computer Model

OpenText Process Suite. pomáháme organizacím zlepšit výkonnost

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

MindForge Inovační a technologický hub JAN JANČA

IBM hardwarova infrastruktura pro dlouhodobou archivaci dat

<Insert Picture Here> Hyperion a vazba na reportovací nástroje

Ostrava. 16. dubna 2014

Svalová dystrofie. Prezentace technologických řešení registru Petr Brabec

ELEKTRONICKÝ MARKETING. Pavel Kotyza, B_EM 2. října 2014

Tabulka Nabídková cena za předmět plnění *uchazeč vyplní cenu za celý kurz nebo cenu za 1 účastníka dle zadávací dokumentace a nabídky uchazeče

Compression of a Dictionary

Správa a zabezpečení mobilních zařízení. Ochrana/záloha firemních dat. Ctirad Navrátil Client Technical Professional IBM Corporation

DC circuits with a single source

Petr Vlk KPCS CZ. WUG Days října 2016

IBM Software Group IBM - SWG. Petr Chmelik WebSphere, IBM ČR a SR. Name Title Company IBM Corporation

Počítačová Podpora Studia. Přednáška 4. Nástroje pro vědecko-technické výpočty a zpracování dat. (v rámci PPS) PPS 2014

Víte co Vás čeká?

Komunikační technologie a řešení pro chytrá města

IBM Tivoli Storage Manager 6.2 a IBM Tivoli Storage Manager FastBack 6.1.1

Karel Koucký. Státní oblastní archiv v Praze Národní archiv AKM 2013,

IBM Content Analytics

Industry Robert BOSCH

Business Intelligence. Adam Trčka

SYSTÉM PRO KONFIGURACI KOMUNIKAČNÍCH TERMINÁLŮ A VIZUALIZACI STAVOVÝCH DAT Z KOLEJOVÝCH VOZIDEL

Oddělení interního auditu směřují k vyšší produktivitě pomocí moderních technologií

Správa a sledování SOA systémů v Oracle SOA Suite

Hlava v oblacích s nohama na zemi

Reporting a Monitoring

Transkript:

IBM BigData Analytics

Connectors Transform Extract Analytical process Unstructured data Structured data Processing Indexing Analytics Search Predicition Analytics Reporting DWH Text DMS Index BIG DATA CONCEPT

Connectors Transform Extract Analytical process Unstructured data Structured data Processing Indexing Analytics Search Predicition Analytics Reporting DWH Text DMS Index BIG DATA CONCEPT

Big Data Concept New analytic applications drive the requirements for a big data platform BI / Reporting Analytic Applications Exploration / Visualization Functional App Industry App Predictive Analytics Content Analytics Integrate and manage the full Variety, Velocity, Volume and Veracity of data V 4 Apply advanced analytics to information in its native form Visualize all available data for ad-hoc analysis Development environment for building new analytic applications Workload optimization and scheduling Security and Governance Visualization & Discovery Hadoop System IBM Big Data Platform Application Development Accelerators Stream Computing Systems Management Data Warehouse Information Integration & Governance

Hadoop Open source software framework from Apache Main concept: BRING PROCESSING TO DATA 2 Basic parts of the framework: Map Map function runs in parallel on each node and returns the set of <key, value> pairs Shuffle Pairs with the same key are moved close together Reduce HDFS Distributed file system Files are split to small blocks and each block is stored on 3 places in the whole distributed system Each task is split into 3 phases: Reduce function is performed combined results for the same key together Map/Reduce e.g.: Count number of occuerence of words (like IBM, vendor, ) Map Map function here is: To count number of occurences of defined words on each node (set like < IBM, 6>, < vendor, 8>, is returned from each node) Shuffle Pairs < IBM, 6>, < IBM, 12>, returned from nodes are put close together for processing during the reduce phase Reduce Reduce function here is summing up the final count based on partial ones returned from the nodes: => < IBM, 6+12+ >, < vendor, 8+9+ >

IBM BigData implemenation IBM implementation of Hadoop goes much further then the classic Hadoop distributions First of a feature going far is Adaptive Map/Reduce Hadoop System IBM workload optimization for hi performance Adaptive MapReduce Algorithm to optimize execution time of multiple small jobs Performance gains of 30% reduce overhead of task startup Hadoop System Scheduler Identifies small and large jobs from prior experience Sequences work to reduce overhead Task Map (break task into small parts) Adaptive Map (optimization small units of work) order Reduce (many results to a single result set)

IBM BigData implemenation cont. Other differentiators: User Interfaces Integration More Than Hadoop Visualization Dev Tools Admin Console Databases Performance & workload optimizations Accelerators Application Accelerators Content Management Spreadsheet-style visualization for data discovery & exploration Built-in IDE & admin consoles BigInsights Engine Enterprise-class security Map Reduce + Workload Mgmt Indexing Security Information Governance High-speed connectors to integration with other systems Apache Hadoop Analytical accelerators Product Name: IBM InfoSphere BigInsights Enterprise Ed.

Process Streaming Data Requirement Process & Store huge volume of any data Technology Hadoop Map Reduce Description Distributed File System Can be used as storage and parallel runtime Structure and control data Data Warehouse Parallel Processing Engine Can be populated by the data from analysis Process Streaming Data Analyze Unstructured Data InfoSphere Streams Content Analytics Text Analytics Engine Stream Computing Engine Can be used as data source (stream of events) Analyze textual content for insights Used for data analysis Integrate all data sources ETL, Data Quality Integrate, transform, and manage meta data Can be used for data enrichment

Process Streaming data Technology developed with US Government Technology can execute models developed in SPSS Modeller Technology is represented by IBM InfoSphere Streams product providing: a programming model for defining data flow graphs consisting of data sources (inputs), operators, and sinks (outputs) controls for fusing operators into processing elements (PEs) infrastructure to support the composition of scalable stream processing applications from these components deployment and operation of these applications across distributed x86 processing nodes, when scaled-up processing is required What s different from ETL (data pumps): ETL extracts data already stored somewhere transform it and store it finally somewhere else IBM InfoSphere Streams reads big amount of streaming data with minimum latency

Connectors Transform Extract Unstructured data Unstructured data Structured data Processing Indexing Analytics Search Predicition Analytics Reporting DWH Text DMS Index BIG DATA CONCEPT

Unstructured data Requirement Process & Store huge volume of any data Technology Hadoop Map Reduce Description Distributed File System Can be used as storage and parallel runtime Structure and control data Data Warehouse Parallel Processing Engine Can be populated by the data from analysis Process Streaming Data Analyze Unstructured Data InfoSphere Streams Content Analytics Text Analytics Engine Stream Computing Engine Can be used as data source (stream of events) Analyze textual content for insights Used for data analysis Integrate all data sources ETL, Data Quality Integrate, transform, and manage meta data Can be used for data enrichment

Crawlery Proces získání, zpracování a analýzy dat Zdroje dat Načítání dat Filtrace Zpracování Analýza Klasifikace IBM Content Analytics Klasifikace Anotace Indexace IBM Content Classification Index Data Metadata Analýza Úložiště DBS Existující importy DMS Vztahy i2 Predikce SPSS

ICA BigData Support

Enterprise Search Jednotné vyhledávání napříč organizací Integrace interních i externích zdrojů vyhledávání Podpora přirozeného jazyka (časování, skloňování,...) Strom vyhledávání Detekce duplikace Podobné dokumenty Fazety dokumentů Tvůrce dotazu

Semantic search Nyní je možné indexovat a vyhledávat na základě těchto pojmů a údajů místo pouhých klíčových slov Popis vztahu Oloupen Arg1:Osoba Arg2:Hotel Popis pojmenované entity Osoba Hotel Popis části textu Podmět Přísudek PÚ místa Petr Ulč byl oloupen v hotelu Hiton

ICA supported languages Arabic (ar) Hebrew (he) Chinese (zh) Italian (it) Czech (cs) Japanese (ja) Danish (da) Polish (pl) Dutch (nl) Portuguese (pt) English (en) Russian (ru) French (fr) Spanish (es) German (de)

Analýza vztahů - i2 IBM i2 Intelligence Analysis Platform Investigation tool Data centric multi-user collaborative environment Robust security architecture Extensive multidimensional analysis

PROOF OF CONCEPT IBM CONTENT ANALYTICS

Zadání POC Sběr dat Vyhledávání v datech Analýza dat Vizualizace dat, vazeb, vztahů Integrace, rozšiřitelnost

Zdroje dat Předané pro testovací scénáře Offline soubory získané z internetu Online webové servery Vlastní Twitter WAR Forum

Crawlery pro online a offline zdroje Webové stránky Soubory na disku Sociální sítě

Crawlery Oddělená prostředí Zdroje dat Načítání dat Filtrace Zpracování Analýza Prostředí 1 Prostředí 2 Prostředí 3 Klasifikace Klasifikace Anotace Indexace Index Data Metadata Analýza Úložiště DBS Existující importy (Python) DMS Vztahy Predikce

Zpracování dat Unstructured Information Management Architecture UIMA OASIS Standard Tvorba slovníků Tvorba pravidel Testování

Analýza, vizualizace, integrace Fazety Časové řady Vazby mezi fazetami Duplicity Značkování Integrace s i2 Analyst Notebook

Vícejazyčné vyhledávání Tvorba významových témat v ICA Synonymické slovníky v rámci ICA Externí překlad vyhledávání v ICA Offline databáze Online služba

Výsledek POC Síla klasifikace založené na pravidlech Otevřená platforma včetně napojení na BigData Podpora českého jazyka Podpora platformy výrobcem v regionu

Automatická klasifikace IBM Content Classification Učení báze znalostí se vzorových dat Automatická klasaifikace obsahu Adaptivní učení na základě zpětné vazby IBM Content Analytics Vzory Báze znalostí Rozhodovací plán Test data IBM Content Classification

Connectors Transform Extract Structured data Unstructured data Structured data Processing Indexing Analytics Search Predicition Analytics Reporting DWH Text DMS Index BIG DATA CONCEPT

Structured data Requirement Process & Store huge volume of any data Technology Hadoop Map Reduce Description Distributed File System Can be used as storage and parallel runtime Structure and control data Data Warehouse Parallel Processing Engine Can be populated by the data from analysis Process Streaming Data Analyze Unstructured Data InfoSphere Streams Content Analytics Text Analytics Engine Stream Computing Engine Can be used as data source (stream of events) Analyze textual content for insights Used for data analysis Integrate all data sources ETL, Data Quality Integrate, transform, and manage meta data Can be used for data enrichment

Structured data processing Consume data from any source system and via data integration platform (IBM InfoSphere Information Server) load them to analytic database / big data platform Run data mining analysis, reporting, investigation on top of integrated data Big Data Applications InfoSphere Information Server SPSS PureData for Analytics = Netezza Analytic Applications i2 Big Data Platform IBM Big Data Solutions Client and Partner Solutions Big Data User Environment Developers End Users Administrato rs Traditional data sources (ERP, CRM, databases, etc.) Big Data Enterprise Engine Operators Applications Languages Orchestration Prioritization Quality of Service Optimizations Storage and Indexing 31 Source Data from every source (Web, sensor, data, network, social, RFID, media)

IBM PureData System for Analytics = Netezza Purpose built analytic database engine Appliance = HW (Server + Storage) + SW Very Low TCO Main advantages: Speed: 10 100x faster then traditional systems Simplicity: minimal administration (no indexes, no tables spaces, ) Scalability: up to 1.2PBs for user data Smart: Native integration with IBM SPSS Modeller for data mining and predictive models SPSS analysis can run on the database level (no need to pass tons of data to the SPSS engine for processing)

SPSS SPSS software and solutions enable customers to predict future events and proactively act upon that insight to drive better business outcomes Capture Predict Act Data Collection delivers an accurate view of customer attitudes and opinions Predictive capabilities bring repeatability to ongoing decision making, and drive confidence in your results and decisions Unique deployment technologies and methodologies maximize the impact of analytics in your operation Data Collection Text Analytics Data Mining Platform Statistics Deployment Technologies Pre-built Content Attract Up-sell Retain

Connectors Transform Extract Conclusion Unstructured data Structured data Processing Indexing Analytics Search Predicition Analytics Reporting DWH Text DMS Index BIG DATA CONCEPT