STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

SPOLEČNOST ACREA Váš dlouholetý partner v oblasti analýzy dat - od dodání softwaru, přes řešení analytických úkolů, až po výuku statistických a dataminingových metod. STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM picture: Designed by jcomp / Freepik ACREA CR, spol. s r. o. Krakovská 7 110 00 Praha 1 tel.: +420 234 721 400 e-mail: info@acrea.cz web: www.acrea.cz

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM Každý, kdo pracuje s daty, prochází určitými fázemi analytického procesu. Někdy řeší pouze jeho část, jindy ho musí projít kompletně celý. Analytický proces zahrnuje vše od plánování sběru a shromažďování dat, až po samotné zavedení výsledků do praxe. Uvědomit si důležitost jednotlivých fází a kroků je nezbytné pro kvalitní a správnou analýzu. 1. POROZUMĚNÍ DATŮM Jakou úlohu chceme analýzou dat řešit? 5. REPORTOVÁNÍ A ZAVEDENÍ DO PRAXE Jak výsledky z analýzy dat dále využijeme? 2. PŘÍPRAVA DAT Jaká data budeme analyzovat? 3. ANALÝZA DAT Jaké metody při analýze dat budeme používat? 4. PREDIKCE Jaký je budoucí vývoj či odhad predikce chování? 2

1. Porozumění datům Než začneme plánovat jaká data budeme shromažďovat, musíme si být vědomi, jaký typ problému budeme řešit a tomu také přizpůsobit sběr dat. Co zvážit před sběrem dat? jaké využít datové zdroje, jaké proměnné zahrnout do sběru dat, jaké techniky budeme využívat ve fázi analýzy dat. Shromáždění dat Doporučení: Při vytváření datových souborů je důležité dát si pozor na formát dat. Některé softwary nepodporují méně obvyklé datové typy nebo formát konkurenčních programů. Při následném pokusu o import dat, tak dochází k problémům, kterých jsme se mohli vyvarovat. Pokud už víme, co je cílem dalších analýz, můžeme začít data shromažďovat ze všech dostupných datových zdrojů (databáze, internet, měřicí přístroje ), případně zajistit úplně nový zdroj dat, který dosud nebyl potřeba. Tato data je vhodné doplnit o dodatečné informace, které se nazývají metadata. Tato metadata mohou obsahovat: odkud data pochází, jakými metodami byla data sesbírána, jaké problémy se při jejich sběru vyskytly a jakým způsobem byly vyřešeny. V případě více datových zdrojů je sloučení dat jedním z dalších úkolů ve fázi přípravy dat. Popis datových zdrojů Doporučení: Naše data by měla pocházet vždy pouze z důvěryhodných zdrojů. Ať už se jedná například o správnost seřízení měřícího zařízení nebo využití veřejně dostupných či placených databázových zdrojů. Vždy bychom měli být schopni ověřit důvěryhodnost dat a mít přehled o jejich aktuálnosti. Popis má obsahovat informace o datech jako jsou formát dat, počty případů nebo proměnných, názvy všech proměnných a další informace, které nám pomohou správně porozumět získaným datům a pomohou nám orientovat se v datech budoucích analýz, nebo pokud bude data zpracovávat také někdo jiný. 3

Přehled dat Na co se zaměřit v této fázi: rozdělení četností kategorizovaných proměnných, popisné statistiky číselných proměnných, vztahy mezi vybranými proměnnými, vztah k proměnné, kterou chceme predikovat (cílová proměnná) nebo jiným klíčovým proměnným, výsledky jednoduchých agregací. Obr. 1 Histogram rozdělení četností Výsledky těchto analýz by měly opět směřovat k našemu cíli. Také by měly pomoci vylepšit naše pochopení dat a být vodítkem v dalších krocích úpravy a analýzy. Doporučení: V tomto kroku je vhodné využívat různé grafy. Může se jednat například o histogramy, boxploty, Q-Q ploty atp. Díky těmto grafům získáme velice rychle přehled o hlavních charakteristikách datového souboru. Ověření kvality dat Podle čeho ověříme kvalitu dat: jsou data kompletní (obsahují všechny potřebné proměnné)? obsahují data chyby (pokud ano, jak často a jakého druhu)? obsahují data vynechané hodnoty (jak jsou popsány, kde se vyskytují, jak často)? Doporučení: Pokud si nejsme jistí, zda máme nasbíraná data v dostatečné kvalitě, je vhodné konzultovat situaci s expertem z dané oblasti. Můžeme se tím snadno vyvarovat situaci, kdy opomeneme důležitou proměnnou jen proto, že neznáme zvyklosti či nemáme dostatečné zkušenosti z daného oboru. 4

2. Příprava dat Výběr dat V tomto bodě je důležité rozhodnout, jaká data budeme dále analyzovat. Data musí být kvalitní a relevantní pro řešenou úlohu. Jak postupovat při výběru dat: provést testy korelací mezi proměnnými a vybrat neredundantní proměnné, vytvořit z původního výběru podsoubory (vzhledem k cílům analýzy), provést techniky na redukci dimenzionality pokud je to vhodné (např. faktorová analýza). Doporučení: Snažíme se o co největší zjednodušení datové struktury, bez ztráty relevantní informace. Při výběru dat do analýzy je vhodné konkrétní výběr opět konzultovat s odborníkem z daného oboru. Čištění dat V tomto kroku se zajišťuje kvalita dat potřebná pro zvolené analytické techniky. Jak zvýšit kvalitu dat: výběr podsouboru, který neobsahuje žádná chybějící pozorování, nahrazování chybějících hodnot (např. pomocí matematického modelování), identifikovat odlehlá pozorování. Doporučení: Jednou z možností, jak se vypořádat s odlehlými či extrémními hodnotami, je úplně je vyřadit z datového souboru. Při tomto postupu si ale musíme být jistí, neboť se můžeme připravit o část důležité informace, která se v datech vyskytuje. Tvorba nových proměnných Při tvorbě nových proměnných bychom se opět měli řídit cílem naší analýzy a mít jasno jak a proč novou proměnnou odvozujeme. Snažíme se vytvořit zejména proměnné, které mají silný vztah k cílové proměnné. Příklady odvozených proměnných: zisk za měsíc, rok atd., podíl počtu vozidel k počtu obyvatel, plocha = výška * šířka. Doporučení: Tvorbou nových proměnných si můžeme pomoci ke splnění předpokladů pro jednotlivé analytické techniky, např. normalita dat. Může se jednat o logaritmickou transformaci, nebo transformaci odmocninou. Nicméně nesmíme přijít o schopnost interpretovat výsledky! 5

Slučování datových zdrojů Slučováni zdrojů probíhá ve chvíli, kdy máme dvě nebo více tabulek obsahující různé informace o stejných objektech nebo stejné informace za různá období, organizační jednotky či jiný aspekt. Příklad: Maloobchodní řetězec má v jedné tabulce obecné informace o každé jednotlivé prodejně (prodejní plocha, typ obchodu ), v další tabulce jsou uloženy informace o prodejích (zisk, změna v prodejích oproti předchozím letům, ) a další obsahující demografické informace okolní oblasti. Každá z těchto tabulek obsahuje jeden záznam o jedné prodejně. Tyto tabulky můžeme sloučit do jediné, která bude obsahovat jeden záznam o jednom obchodě a kombinovat informace ze všech zdrojů. Obr. 2 Schéma spojování tabulek 3. Analýza dat Výběr modelovacího algoritmu Prvním krokem při samotné analýze dat je výběr konkrétního algoritmu, který bude využit pro modelování. Většina modelovacích technik má určité předpoklady, které by se měly ověřit před začátkem analýzy. Může jít o předpoklady na rozdělení sledovaných veličin, předpoklad úplnosti dat atp. V realitě nejsou předpoklady nikdy přesně splněny, ale snažíme se, aby byly splněny alespoň přibližně. Například odstraníme odlehlé hodnoty, které silně ovlivňují rozdělení veličin, nebo se vhodnou transformací přiblížíme k symetrickému rozdělení okolo průměru. Některé nejčastěji používané modelovací techniky: diskriminační analýza, seskupovací analýza, korelační analýza. Doporučení: Výběr konkrétního algoritmu vždy závisí na typu řešené úlohy. Často jsme také nuceni kombinovat výsledky několika algoritmů či vybírat z několika modelů ten nejvíce vyhovující. Design modelu Ještě před vytvořením modelu bychom měli mít nástroj na měření kvality či přesnosti našeho modelu. Například v supervizovaných (známe cílovou proměnnou) dataminingových úlohách, jako je např. klasifikace, je vhodné model posuzovat podle schopnosti rozlišit kategorie cílové proměnné. K tomu je vhodná např. ROC křivka a z ní vycházející Giniho koeficient. Z tohoto důvodu se data rozdělují na dvě disjunktní datové sady. Jedna z nich je trénovací a druhá je testovací. Model připravíme na trénovací datové sadě a ověříme na sadě testovací. 6

Výstavba modelu Na připravený datový soubor aplikujeme postupy jednotlivých algoritmů a získáme výsledný model, popřípadě více modelů. V téměř každém algoritmu se vyskytuje množství parametrů, které mohou být upravovány. Na co myslet při budování a výběru modelu: splnění předpokladů modelu, hodnoty parametrů modelu společně se zdůvodněním těchto hodnot, schopnost interpretovat výsledky jednotlivých procedur a možnost implementace do jiných procesů. Obr.3 ROC křivka Posouzení modelu Doporučení: Výsledkem modelování by mělo být rozhodnutí, nalezení skupin či odhad budoucího vývoje. Nesmíme zapomenout, že model je pouze nástroj, ne cíl našeho analytického procesu! V tomto kroku se interpretují výsledky jednotlivých modelů. A to vzhledem k požadavkům na přesnost pro jednotlivé dataminingové úlohy, požadovaným obchodním výstupům atd. Také se v tomto bodě pokusíme srovnat jednotlivé modely mezi sebou a vybrat ten, který dává nejlepší výsledky. Běžně upravujeme parametry některých modelů, vracíme se do fáze budování modelu. Proces opakujeme a model zpřesňujeme, dokud s ním nejsme spokojeni. 4. Predikce Skupiny úloh Jedním z možných dělení dataminingových úloh je dělení na skupinu supervizovaných a nesupervizovaných modelů. Supervizované úlohy: (učení s učitelem) regresní modely, klasifikační modely (logistická regrese, klasifikační stromy, diskriminační analýza, neuronové sítě atd.), modely časových řad, asociační a sekvenční pravidla. Supervizované úlohy jsou charakteristické tím, že máme nějakou informaci o tom, jak by řešení mělo vypadat (historická zkušenost, výsledky experimentu ). Náplní úlohy je prozkoumání toho, co známe, vytvoření statisticko-matematického algoritmu (modelu) a jeho následná aplikace na neznámé příklady. 7

Některé konkrétní úlohy, které se řeší pomocí supervizovaných modelů, jsou např. zacílení kampaně, odhad hodnoty zákazníka nebo plánování prodejů do budoucna atd. Nesupervizované úlohy: (učení bez učitele) detekce anomálií, analýza sociálních sítí, seskupování. U nesupervizovaných úloh neexistuje cílová proměnná a nemáme tudíž náznak toho, jak by řešení mělo vypadat. Jedná se o obecné prohledávání dat bez předem definovaného výsledku (hledání skrytých podobností, vztahů a anomálií). Může se také jednat o porovnávání profilů, hledání sociálních vazeb či skupin. Pomocí nesupervizovaných modelů se řeší např. segmentace zákazníků, detekce podvodů, RFM analýza atd. Časové řady Časové řady se svou povahou liší od standardních dataminingových úloh. Jednou z odlišností je například uspořádání v datové matici. V případě časové řady je předmětem analýzy sloupec v datové matici na rozdíl od běžných dataminingových úloh, kde jím je řádek. V případě časové řady jsou také řádky na sobě závislé a musejí být chronologicky uspořádány. Základními přístupy k analýze časových řad je tzv. dekompozice nebo Box Jenkinsonova ARIMA metodologie. V případě dekompozice se snažíme o rozklad časové řady na jednotlivé složky, jako jsou trend, sezónnost, cyklus a náhodná složka. Jedná se o modelování systematické složky v časové řadě. Výhodou tohoto přístupu je relativní jednoduchost (základní regresní funkce) a snadná interpretace modelu. Metoda také nepotřebuje tolik dat, jako ARIMA. Nevýhodu je nemožnost předpovídat složitější časové řady, které se ale v praxi často vyskytují. Obr. 4 Graf autokorelační funkce 8

ARIMA modelování využívá tři druhy procesů. Jedná se o autoregresní proces (AR), proces klouzavých průměrů (MA) a integrovaný proces. Předpoklady pro ARIMA modely jsou dostatek pozorování (uvádí se alespoň 50) a stacionarita. Tu můžeme chápat jako ustálené pravděpodobnostní chování. Důležitými pojmy jsou zde také autokorelační (ACF) a parciální autokorelační funkce (PACF). Tyto funkce ukazují vztahy mezi hodnotami řady vzdálených o daný počet období. Cílem je vyčistit ACF a PACF tak, aby nebyl (téměř) žádný korelační koeficient významný a v časové řadě zůstal pouze tzv. bílý šum. Výhodou tohoto přístupu je jeho všeobecné používání v různých softwarech, dobré vlastnosti krátkodobých a střednědobých predikcí. Nevýhodou je požadavek na dostatečný počet pozorování, použití složitějších statistických postupů a nemožnost interpretace. 5. Reportování a zavedení do praxe Poslední fází analytického procesu by mělo být reportování a prezentace výsledků. Report by měl sloužit jako podpora pro rozhodování. Data by v něm měla být dostatečně přehledná a jednoduchá na pochopení, na druhé straně by měla zachycovat vše podstatné. Také může mít formu pouhého shrnutí nebo se naopak může jednat o finální prezentaci výsledku dataminingového procesu. Určitě by v něm neměly chybět nalezené výsledky, popis procesu, kterým jsme při získávání výsledků prošli, jakékoliv odchylky od původního plánu či doporučení do budoucna. Výsledná podoba reportu je velice závislá na tom, komu jej budeme prezentovat. Může se tedy stát, že pro jednu úlohu budeme mít několik různých výstupů. Obr. 5 Ukázka z reportu ze softwaru PS IMAGO Doporučení: Při zavádění výsledků do praxe, je důležité mít systém na hodnocení přesnosti modelu a při jakékoliv změně situace pružně reagovat. Ať už úpravou modelu stávajícího, nebo vytvořením modelu zcela nového. Také je dobré sledovat vývojové aspekty obchodního prostředí a případné změny okamžitě implementovat. 9

Závěrem je nutné zmínit, že problematika analytického procesu může být mnohem komplexnější a objevují se překážky, které se musí řešit ad hoc. Dalším hlediskem, na které musí člověk myslet, jsou náklady. Celkovým výstupem by mělo být zavedení nového postupu, odhalení podvodů či identifikace nejdůležitějších zákazníků a s tím spojené navýšení zisků či úspora nákladů. Mimo to bychom měli být schopni využít znalosti a zkušenosti získané v průběhu celého procesu, například při řešení budoucího analytického problému. Velice důležitý je také výběr softwaru, pomocí kterého se získaná data analyzují. Na trhu se vyskytuje celá řada více či méně profesionálních softwarů a některé svými schopnostmi na straně jedné a uživatelskou přívětivostí na straně druhé převyšují ostatní. Výše uvedené obrázky a grafy byly vytvořeny pomocí softwaru IBM SPSS Statistics a PS IMAGO. Kdo je ACREA ACREA je certifikovaným partnerem společnosti IBM Česká republika pro prodej softwaru IBM SPSS v České a Slovenské republice a poskytovatelem analytických, statistických a dataminingových služeb. Pomůžeme vám s přípravou vašich dat pro odbornou analýzu a její samotné zpracování naučit se, jak data zpracovat a pochopit základy statistiky a data miningu vytěžit ze svých dat potřebné informace pro predikci budoucího vývoje Jak to dokážeme? Díky dlouholetým zkušenostem z různorodých analytických projektů, spolehlivému softwaru SPSS a především díky znalostem našeho týmu lektorů a analytiků. PS Quaestio Remark Portfolio softwarových produktů ACREA: IBM Cognos IBM SPSS Collaboration & Deployment Services IBM SPSS Statistics PS Imago IBM SPSS Modeler PS Clementine ACREA CR, spol. s r. o. Krakovská 7 110 00 Praha 1 tel.: +420 234 721 400 e-mail: info@acrea.cz web: www.acrea.cz