STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

Podobné dokumenty
IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Cíle supervizovaného učení Ondřej Háva

Profitabilita klienta v kontextu Performance management

IBM SPSS Modeler Professional

Příprava dat v softwaru Statistica

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

IBM SPSS Decision Trees

Úvodem Dříve les než stromy 3 Operace s maticemi

Popisná statistika. Komentované řešení pomocí MS Excel

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Moderní systémy pro získávání znalostí z informací a dat

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Informační systémy 2006/2007

IBM SPSS Neural Networks

Kalendář kurzů. zimní semestr. září 2017 leden Podporujeme Váš profesionální růst

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

5EN306 Aplikované kvantitativní metody I

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Časové řady, typy trendových funkcí a odhady trendů

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Jak využít data o zákaznících ke zvýšení příjmů z prodeje

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Časové řady, typy trendových funkcí a odhady trendů

IBM SPSS Modeler Premium

Statistika a analýza dat Data mining Marketingové analýzy Software IBM SPSS. Kalendář kurzů letní semestr únor červen 2018

Lineární regrese. Komentované řešení pomocí MS Excel

Pořízení licencí statistického SW

Obohacení dat o statistické výsledky a potenciál jejich využití

Objevte vzory v historických datech, které budou sloužit k predikci budoucích událostí, dělejte lepší rozhodnutí a dosáhněte lepších výsledků.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

5EN306 Aplikované kvantitativní metody I

Strojové učení Marta Vomlelová

KORELACE. Komentované řešení pomocí programu Statistica

PowerOPTI Řízení účinnosti tepelného cyklu

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Úvod do analýzy časových řad

Neuronové časové řady (ANN-TS)

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Analýza dat na PC I.

Ondřej Bothe, Richard Dobiš

Korelace. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

BA_EM Electronic Marketing. Pavel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTIKA I Metodický list č. 1 Název tématického celku:

Regresní a korelační analýza

Data mining. Letní semestr. únor červen Ondřej Brom lektor, analytik, konzultant spoluautor knihy SPSS Praktická analýza dat

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Učící se klasifikátory obrazu v průmyslu

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Datová kvalita. RNDr. Ondřej Zýka

MODEL TVÁŘECÍHO PROCESU

Získávání znalostí z dat

Tématické okruhy pro státní závěrečné zkoušky. Navazující magisterské studium. studijní obor "Management jakosti"

Popisná statistika kvantitativní veličiny

Korelační a regresní analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Pearsonův korelační koeficient

KGG/STG Statistika pro geografy. Mgr. David Fiedor 4. května 2015

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Návod pro práci s SPSS

Tématické okruhy pro státní závěrečné zkoušky. Navazující magisterské studium. studijní obor "Management kvality"

vzorek vzorek

StatSoft Úvod do data miningu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Kalendář kurzů letní semestr únor červen 2019

Metodologie práce dětí a mládeže na vědeckých a technických projektech

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

STATISTICKÉ PROGRAMY

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Design of Experiment (DOE) Petr Misák. Brno 2017

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Analytické metody v motorsportu

Datová kvalita. RNDr. Ondřej Zýka

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

PRODUKTY. Tovek Tools

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Tabulka 1. Výběr z datové tabulky

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Aplikace moderních analytických a optimalizačních metod na data získaná z technologií Smart Metering

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Charakterizují kvantitativně vlastnosti předmětů a jevů.

Transkript:

SPOLEČNOST ACREA Váš dlouholetý partner v oblasti analýzy dat - od dodání softwaru, přes řešení analytických úkolů, až po výuku statistických a dataminingových metod. STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM picture: Designed by jcomp / Freepik ACREA CR, spol. s r. o. Krakovská 7 110 00 Praha 1 tel.: +420 234 721 400 e-mail: info@acrea.cz web: www.acrea.cz

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM Každý, kdo pracuje s daty, prochází určitými fázemi analytického procesu. Někdy řeší pouze jeho část, jindy ho musí projít kompletně celý. Analytický proces zahrnuje vše od plánování sběru a shromažďování dat, až po samotné zavedení výsledků do praxe. Uvědomit si důležitost jednotlivých fází a kroků je nezbytné pro kvalitní a správnou analýzu. 1. POROZUMĚNÍ DATŮM Jakou úlohu chceme analýzou dat řešit? 5. REPORTOVÁNÍ A ZAVEDENÍ DO PRAXE Jak výsledky z analýzy dat dále využijeme? 2. PŘÍPRAVA DAT Jaká data budeme analyzovat? 3. ANALÝZA DAT Jaké metody při analýze dat budeme používat? 4. PREDIKCE Jaký je budoucí vývoj či odhad predikce chování? 2

1. Porozumění datům Než začneme plánovat jaká data budeme shromažďovat, musíme si být vědomi, jaký typ problému budeme řešit a tomu také přizpůsobit sběr dat. Co zvážit před sběrem dat? jaké využít datové zdroje, jaké proměnné zahrnout do sběru dat, jaké techniky budeme využívat ve fázi analýzy dat. Shromáždění dat Doporučení: Při vytváření datových souborů je důležité dát si pozor na formát dat. Některé softwary nepodporují méně obvyklé datové typy nebo formát konkurenčních programů. Při následném pokusu o import dat, tak dochází k problémům, kterých jsme se mohli vyvarovat. Pokud už víme, co je cílem dalších analýz, můžeme začít data shromažďovat ze všech dostupných datových zdrojů (databáze, internet, měřicí přístroje ), případně zajistit úplně nový zdroj dat, který dosud nebyl potřeba. Tato data je vhodné doplnit o dodatečné informace, které se nazývají metadata. Tato metadata mohou obsahovat: odkud data pochází, jakými metodami byla data sesbírána, jaké problémy se při jejich sběru vyskytly a jakým způsobem byly vyřešeny. V případě více datových zdrojů je sloučení dat jedním z dalších úkolů ve fázi přípravy dat. Popis datových zdrojů Doporučení: Naše data by měla pocházet vždy pouze z důvěryhodných zdrojů. Ať už se jedná například o správnost seřízení měřícího zařízení nebo využití veřejně dostupných či placených databázových zdrojů. Vždy bychom měli být schopni ověřit důvěryhodnost dat a mít přehled o jejich aktuálnosti. Popis má obsahovat informace o datech jako jsou formát dat, počty případů nebo proměnných, názvy všech proměnných a další informace, které nám pomohou správně porozumět získaným datům a pomohou nám orientovat se v datech budoucích analýz, nebo pokud bude data zpracovávat také někdo jiný. 3

Přehled dat Na co se zaměřit v této fázi: rozdělení četností kategorizovaných proměnných, popisné statistiky číselných proměnných, vztahy mezi vybranými proměnnými, vztah k proměnné, kterou chceme predikovat (cílová proměnná) nebo jiným klíčovým proměnným, výsledky jednoduchých agregací. Obr. 1 Histogram rozdělení četností Výsledky těchto analýz by měly opět směřovat k našemu cíli. Také by měly pomoci vylepšit naše pochopení dat a být vodítkem v dalších krocích úpravy a analýzy. Doporučení: V tomto kroku je vhodné využívat různé grafy. Může se jednat například o histogramy, boxploty, Q-Q ploty atp. Díky těmto grafům získáme velice rychle přehled o hlavních charakteristikách datového souboru. Ověření kvality dat Podle čeho ověříme kvalitu dat: jsou data kompletní (obsahují všechny potřebné proměnné)? obsahují data chyby (pokud ano, jak často a jakého druhu)? obsahují data vynechané hodnoty (jak jsou popsány, kde se vyskytují, jak často)? Doporučení: Pokud si nejsme jistí, zda máme nasbíraná data v dostatečné kvalitě, je vhodné konzultovat situaci s expertem z dané oblasti. Můžeme se tím snadno vyvarovat situaci, kdy opomeneme důležitou proměnnou jen proto, že neznáme zvyklosti či nemáme dostatečné zkušenosti z daného oboru. 4

2. Příprava dat Výběr dat V tomto bodě je důležité rozhodnout, jaká data budeme dále analyzovat. Data musí být kvalitní a relevantní pro řešenou úlohu. Jak postupovat při výběru dat: provést testy korelací mezi proměnnými a vybrat neredundantní proměnné, vytvořit z původního výběru podsoubory (vzhledem k cílům analýzy), provést techniky na redukci dimenzionality pokud je to vhodné (např. faktorová analýza). Doporučení: Snažíme se o co největší zjednodušení datové struktury, bez ztráty relevantní informace. Při výběru dat do analýzy je vhodné konkrétní výběr opět konzultovat s odborníkem z daného oboru. Čištění dat V tomto kroku se zajišťuje kvalita dat potřebná pro zvolené analytické techniky. Jak zvýšit kvalitu dat: výběr podsouboru, který neobsahuje žádná chybějící pozorování, nahrazování chybějících hodnot (např. pomocí matematického modelování), identifikovat odlehlá pozorování. Doporučení: Jednou z možností, jak se vypořádat s odlehlými či extrémními hodnotami, je úplně je vyřadit z datového souboru. Při tomto postupu si ale musíme být jistí, neboť se můžeme připravit o část důležité informace, která se v datech vyskytuje. Tvorba nových proměnných Při tvorbě nových proměnných bychom se opět měli řídit cílem naší analýzy a mít jasno jak a proč novou proměnnou odvozujeme. Snažíme se vytvořit zejména proměnné, které mají silný vztah k cílové proměnné. Příklady odvozených proměnných: zisk za měsíc, rok atd., podíl počtu vozidel k počtu obyvatel, plocha = výška * šířka. Doporučení: Tvorbou nových proměnných si můžeme pomoci ke splnění předpokladů pro jednotlivé analytické techniky, např. normalita dat. Může se jednat o logaritmickou transformaci, nebo transformaci odmocninou. Nicméně nesmíme přijít o schopnost interpretovat výsledky! 5

Slučování datových zdrojů Slučováni zdrojů probíhá ve chvíli, kdy máme dvě nebo více tabulek obsahující různé informace o stejných objektech nebo stejné informace za různá období, organizační jednotky či jiný aspekt. Příklad: Maloobchodní řetězec má v jedné tabulce obecné informace o každé jednotlivé prodejně (prodejní plocha, typ obchodu ), v další tabulce jsou uloženy informace o prodejích (zisk, změna v prodejích oproti předchozím letům, ) a další obsahující demografické informace okolní oblasti. Každá z těchto tabulek obsahuje jeden záznam o jedné prodejně. Tyto tabulky můžeme sloučit do jediné, která bude obsahovat jeden záznam o jednom obchodě a kombinovat informace ze všech zdrojů. Obr. 2 Schéma spojování tabulek 3. Analýza dat Výběr modelovacího algoritmu Prvním krokem při samotné analýze dat je výběr konkrétního algoritmu, který bude využit pro modelování. Většina modelovacích technik má určité předpoklady, které by se měly ověřit před začátkem analýzy. Může jít o předpoklady na rozdělení sledovaných veličin, předpoklad úplnosti dat atp. V realitě nejsou předpoklady nikdy přesně splněny, ale snažíme se, aby byly splněny alespoň přibližně. Například odstraníme odlehlé hodnoty, které silně ovlivňují rozdělení veličin, nebo se vhodnou transformací přiblížíme k symetrickému rozdělení okolo průměru. Některé nejčastěji používané modelovací techniky: diskriminační analýza, seskupovací analýza, korelační analýza. Doporučení: Výběr konkrétního algoritmu vždy závisí na typu řešené úlohy. Často jsme také nuceni kombinovat výsledky několika algoritmů či vybírat z několika modelů ten nejvíce vyhovující. Design modelu Ještě před vytvořením modelu bychom měli mít nástroj na měření kvality či přesnosti našeho modelu. Například v supervizovaných (známe cílovou proměnnou) dataminingových úlohách, jako je např. klasifikace, je vhodné model posuzovat podle schopnosti rozlišit kategorie cílové proměnné. K tomu je vhodná např. ROC křivka a z ní vycházející Giniho koeficient. Z tohoto důvodu se data rozdělují na dvě disjunktní datové sady. Jedna z nich je trénovací a druhá je testovací. Model připravíme na trénovací datové sadě a ověříme na sadě testovací. 6

Výstavba modelu Na připravený datový soubor aplikujeme postupy jednotlivých algoritmů a získáme výsledný model, popřípadě více modelů. V téměř každém algoritmu se vyskytuje množství parametrů, které mohou být upravovány. Na co myslet při budování a výběru modelu: splnění předpokladů modelu, hodnoty parametrů modelu společně se zdůvodněním těchto hodnot, schopnost interpretovat výsledky jednotlivých procedur a možnost implementace do jiných procesů. Obr.3 ROC křivka Posouzení modelu Doporučení: Výsledkem modelování by mělo být rozhodnutí, nalezení skupin či odhad budoucího vývoje. Nesmíme zapomenout, že model je pouze nástroj, ne cíl našeho analytického procesu! V tomto kroku se interpretují výsledky jednotlivých modelů. A to vzhledem k požadavkům na přesnost pro jednotlivé dataminingové úlohy, požadovaným obchodním výstupům atd. Také se v tomto bodě pokusíme srovnat jednotlivé modely mezi sebou a vybrat ten, který dává nejlepší výsledky. Běžně upravujeme parametry některých modelů, vracíme se do fáze budování modelu. Proces opakujeme a model zpřesňujeme, dokud s ním nejsme spokojeni. 4. Predikce Skupiny úloh Jedním z možných dělení dataminingových úloh je dělení na skupinu supervizovaných a nesupervizovaných modelů. Supervizované úlohy: (učení s učitelem) regresní modely, klasifikační modely (logistická regrese, klasifikační stromy, diskriminační analýza, neuronové sítě atd.), modely časových řad, asociační a sekvenční pravidla. Supervizované úlohy jsou charakteristické tím, že máme nějakou informaci o tom, jak by řešení mělo vypadat (historická zkušenost, výsledky experimentu ). Náplní úlohy je prozkoumání toho, co známe, vytvoření statisticko-matematického algoritmu (modelu) a jeho následná aplikace na neznámé příklady. 7

Některé konkrétní úlohy, které se řeší pomocí supervizovaných modelů, jsou např. zacílení kampaně, odhad hodnoty zákazníka nebo plánování prodejů do budoucna atd. Nesupervizované úlohy: (učení bez učitele) detekce anomálií, analýza sociálních sítí, seskupování. U nesupervizovaných úloh neexistuje cílová proměnná a nemáme tudíž náznak toho, jak by řešení mělo vypadat. Jedná se o obecné prohledávání dat bez předem definovaného výsledku (hledání skrytých podobností, vztahů a anomálií). Může se také jednat o porovnávání profilů, hledání sociálních vazeb či skupin. Pomocí nesupervizovaných modelů se řeší např. segmentace zákazníků, detekce podvodů, RFM analýza atd. Časové řady Časové řady se svou povahou liší od standardních dataminingových úloh. Jednou z odlišností je například uspořádání v datové matici. V případě časové řady je předmětem analýzy sloupec v datové matici na rozdíl od běžných dataminingových úloh, kde jím je řádek. V případě časové řady jsou také řádky na sobě závislé a musejí být chronologicky uspořádány. Základními přístupy k analýze časových řad je tzv. dekompozice nebo Box Jenkinsonova ARIMA metodologie. V případě dekompozice se snažíme o rozklad časové řady na jednotlivé složky, jako jsou trend, sezónnost, cyklus a náhodná složka. Jedná se o modelování systematické složky v časové řadě. Výhodou tohoto přístupu je relativní jednoduchost (základní regresní funkce) a snadná interpretace modelu. Metoda také nepotřebuje tolik dat, jako ARIMA. Nevýhodu je nemožnost předpovídat složitější časové řady, které se ale v praxi často vyskytují. Obr. 4 Graf autokorelační funkce 8

ARIMA modelování využívá tři druhy procesů. Jedná se o autoregresní proces (AR), proces klouzavých průměrů (MA) a integrovaný proces. Předpoklady pro ARIMA modely jsou dostatek pozorování (uvádí se alespoň 50) a stacionarita. Tu můžeme chápat jako ustálené pravděpodobnostní chování. Důležitými pojmy jsou zde také autokorelační (ACF) a parciální autokorelační funkce (PACF). Tyto funkce ukazují vztahy mezi hodnotami řady vzdálených o daný počet období. Cílem je vyčistit ACF a PACF tak, aby nebyl (téměř) žádný korelační koeficient významný a v časové řadě zůstal pouze tzv. bílý šum. Výhodou tohoto přístupu je jeho všeobecné používání v různých softwarech, dobré vlastnosti krátkodobých a střednědobých predikcí. Nevýhodou je požadavek na dostatečný počet pozorování, použití složitějších statistických postupů a nemožnost interpretace. 5. Reportování a zavedení do praxe Poslední fází analytického procesu by mělo být reportování a prezentace výsledků. Report by měl sloužit jako podpora pro rozhodování. Data by v něm měla být dostatečně přehledná a jednoduchá na pochopení, na druhé straně by měla zachycovat vše podstatné. Také může mít formu pouhého shrnutí nebo se naopak může jednat o finální prezentaci výsledku dataminingového procesu. Určitě by v něm neměly chybět nalezené výsledky, popis procesu, kterým jsme při získávání výsledků prošli, jakékoliv odchylky od původního plánu či doporučení do budoucna. Výsledná podoba reportu je velice závislá na tom, komu jej budeme prezentovat. Může se tedy stát, že pro jednu úlohu budeme mít několik různých výstupů. Obr. 5 Ukázka z reportu ze softwaru PS IMAGO Doporučení: Při zavádění výsledků do praxe, je důležité mít systém na hodnocení přesnosti modelu a při jakékoliv změně situace pružně reagovat. Ať už úpravou modelu stávajícího, nebo vytvořením modelu zcela nového. Také je dobré sledovat vývojové aspekty obchodního prostředí a případné změny okamžitě implementovat. 9

Závěrem je nutné zmínit, že problematika analytického procesu může být mnohem komplexnější a objevují se překážky, které se musí řešit ad hoc. Dalším hlediskem, na které musí člověk myslet, jsou náklady. Celkovým výstupem by mělo být zavedení nového postupu, odhalení podvodů či identifikace nejdůležitějších zákazníků a s tím spojené navýšení zisků či úspora nákladů. Mimo to bychom měli být schopni využít znalosti a zkušenosti získané v průběhu celého procesu, například při řešení budoucího analytického problému. Velice důležitý je také výběr softwaru, pomocí kterého se získaná data analyzují. Na trhu se vyskytuje celá řada více či méně profesionálních softwarů a některé svými schopnostmi na straně jedné a uživatelskou přívětivostí na straně druhé převyšují ostatní. Výše uvedené obrázky a grafy byly vytvořeny pomocí softwaru IBM SPSS Statistics a PS IMAGO. Kdo je ACREA ACREA je certifikovaným partnerem společnosti IBM Česká republika pro prodej softwaru IBM SPSS v České a Slovenské republice a poskytovatelem analytických, statistických a dataminingových služeb. Pomůžeme vám s přípravou vašich dat pro odbornou analýzu a její samotné zpracování naučit se, jak data zpracovat a pochopit základy statistiky a data miningu vytěžit ze svých dat potřebné informace pro predikci budoucího vývoje Jak to dokážeme? Díky dlouholetým zkušenostem z různorodých analytických projektů, spolehlivému softwaru SPSS a především díky znalostem našeho týmu lektorů a analytiků. PS Quaestio Remark Portfolio softwarových produktů ACREA: IBM Cognos IBM SPSS Collaboration & Deployment Services IBM SPSS Statistics PS Imago IBM SPSS Modeler PS Clementine ACREA CR, spol. s r. o. Krakovská 7 110 00 Praha 1 tel.: +420 234 721 400 e-mail: info@acrea.cz web: www.acrea.cz