Data Miner Recipes. StatSoft



Podobné dokumenty
StatSoft Úvod do data miningu

Příprava dat v softwaru Statistica

Statistica Enterprise

Manuální kroková regrese Newsletter Statistica ACADEMY

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Omezení funkcionalit v softwaru STATISTICA

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Zpracování chybějících dat a dat mimo rozsah

Diagnostika regrese pomocí grafu 7krát jinak

StatSoft Úvod do neuronových sítí

Popisná statistika kvantitativní veličiny

Export tabulky výsledků

Programujeme v softwaru Statistica

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

MS SQL Server 2008 Management Studio Tutoriál

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Slučování tabulek. Sloučení dvou tabulek

Tvar dat a nástroj přeskupování

Lokality a uživatelé

Generování dat. Generování pomocí funkcí

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Informační systémy 2006/2007

Popisná statistika. Komentované řešení pomocí MS Excel

STATISTICA. Vlastní menu v programu. StatSoft

StatSoft Jak vyzrát na datum

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

Neuronové časové řady (ANN-TS)

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

Analýza dat na PC I.

Předpovídejte snadno a rychle

Kontingenční tabulky v MS Excel 2010

Základní popis Toolboxu MPSV nástroje

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

Manuál k programu EMSoftware

Uživatelská příručka. Marushka Photo. aplikace firmy GEOVAP, spol. s r.o.

Zobrazení zdrojových dat u krabicového grafu

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Regresní a korelační analýza

Profitabilita klienta v kontextu Performance management

Práce s programem MPVaK

MS Excel 2007 Kontingenční tabulky

Tiskové sestavy. Zdroj záznamu pro tiskovou sestavu. Průvodce sestavou. Použití databází

Spuštění a ukončení databázové aplikace Access

EET kalkulačka lite návod k použití

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

StatSoft Jak poznat vliv faktorů vizuálně

Obsah. při vyšetření pacienta. GDT souboru do programu COSMED Omnia GDT souboru z programu COSMED Omnia a zobrazení výsledků měření v programu MEDICUS

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Postupy práce se šablonami IS MPP

KAPITOLA 11 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

3 Makra Příklad 4 Access Ve vytvořené databázi potřebuje sekretářka společnosti Naše zahrada zautomatizovat některé úkony pomocí maker.

MapleSim 4.5 instalační příručka

Analýza časových řad pomoci SAS82 for Win

První krůčky se SAS Enterprise Miner 6.2. Zaškrtněte Personal Workstation a přihlašte se jako localhost\sasdemo.

Regresní a korelační analýza

Programujeme v softwaru Statistica - příklady

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf

Prostředí workspace ve verzi 12

Školní události. v Pozn.: Níže popsaný návod je určen pro uživatele s rolí Administrátor, není-li uvedeno jinak.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Níže uvedená tabulka obsahuje technické údaje a omezení aplikace Excel (viz také článek Technické údaje a omezení aplikace Excel (2007).

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Data Miner Workspaces

Postup přechodu na podporované prostředí. Přechod aplikace BankKlient na nový operační systém formou reinstalace ze zálohy

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Přehledový manuál aplikace GABVAR (verze )

Malý program pro EET Uživatelský manuál

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

AVDAT Mnohorozměrné metody, metody klasifikace

Dobývání a vizualizace znalostí

generi biotech nastavení real-time PCR cykleru Applied Biosystems 7300 a 7500 Fast Real-Time System (Applied Biosystems)

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

Helios RED a Elektronická evidence tržeb (Helios RED verze 10)

Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu

Versiondog Lukáš Rejfek, Pantek (CS) s.r.o. 7/2014

Co je nového v GM EPC

Moje-Projekty.cz Dokumentace k aplikaci

Lineární regrese. Komentované řešení pomocí MS Excel

Textové popisky. Typ dat

Excel a externí data KAPITOLA 2

Historie. Mapový podklad. Aktuální stav jednotek

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Velmi stručný návod jak dostat data z Terminálu Bloomberg do R

Uživatelská příručka pro respondenty

Návod k práci s programem MMPI-2

Návod na práci s katalogem konstrukcí a materiálů Obsah

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců.

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

MIS. Manažerský informační systém. pro. Ekonomický informační systém EIS JASU CS. Dodavatel: MÚZO Praha s.r.o. Politických vězňů Praha 1

Návod pro práci s aplikací

Obsah. Několik slov o Excelu 2007 a Operace při otvírání a ukládání sešitu 15. Operace s okny 27. Kapitola 1

Po prvním spuštění Chrome Vás prohlížeč vyzve, aby jste zadali své přihlašovací údaje do účtu Google. Proč to udělat? Máte několik výhod:

Excel tabulkový procesor

Téma 9: Vícenásobná regrese

Transkript:

StatSoft Data Miner Recipes V tomto článku Vám ukážeme postup dataminingového modelování ve výukovém modulu Data Miner Recipes, který je vhodný pro začínající uživatele, protože Vás krok po kroku provede celou dataminingovou analýzou. Recipes (recepty) ale nejsou jedinou možností, jak modul a metody STATISTICA Data Miner ovládat. Další možností jsou Data Miner Workspaces. Workspaces je pracovní prostor, který slouží k vytváření složitější dataminingové struktury. S trochou praxe se dá ale toto prostředí využít velmi univerzálně prakticky pro jakoukoli analýzu dat a to nemusí být ani dataminingová. Poslední možností jak vytvářet datamingový model je potom klasicky pomocí interaktivního rozhraní softwaru:

O možnostech pracovního prostoru Workspaces a interaktivního menu si povíme někdy příště. Než se podíváme na samotný výukový modul, pojďme si říct něco o jednotlivých krocích dataminingového modelování. Zde nastává otázka, co všechno ještě do dataminingu jako takového řadit a co už ne. V tomto pojetí berme Data Mining jako Soubor pokročilých statistických metod pro odhalení netriviálních informací v datech, tedy soubor metod, které stojí nad datovým souborem a snaží se z těchto dat získat něco víc než základní multidimenzionální kontingenční tabulky a grafy. Již samotné získání relevantních dat, především z redundantní databáze, je někdy také nazýváno Data Miningem. Předpokládejme, že konkrétní klíčové proměnné již máme k dispozici v Data Martu případně v datovém souboru. Úlohy, které stojí nad samostatnými daty, můžeme rozdělit na několik skupin, jako jsou např.: Klasifikace Klasifikační metody mají poměrně široké využití v různých oblastech, kde se shromažduje větší množství dat. Definujeme je jako zařazování objektů (zákazníků, pacientů, dlužníků, příležitostí) do tříd, přičemž třídou rozumíme například: Splatí/nesplatí, zdravý/nemocný, odpoví/neodpoví, registruje se/neregistruje se, koupí/nekoupí, SPAM/non SPAM. Jde o nejčastější dataminingovou úlohu, kterou nad daty děláme. V těchto úlohách máme tzv. cílovou proměnnou (učitele), která definuje příslušnost konkrétního zákazníka do nějaké třídy. V tabulce níže je cílová proměnná Credit Rating, každý řádek reprezentuje konkrétního klienta, kterému byla v minulosti poskytnuta půjčka, a proměnná Credit Rating ukazuje ohodnocení konkrétních klientů. Jde tedy o historická data, nad kterými chceme vystavět model, s jehož pomocí potom budeme klasifikovat nové klienty.

Segmentace Cílem této úlohy je najít objekty, které jsou si vzájemně podobné, případně skupiny vzájemně podobných objektů (zákazníků) bez znalosti či nějaké definice těchto skupin. V této úloze tedy nemáme cílovou proměnnou. Tento typ analýzy nám umožní shlukovat objekty (zákazníky) do skupin dle jejich vzájemné podobnosti, která ale není na první pohled zřejmá. Predikce do této skupiny řadíme úlohy, které se zaměřují na předpovědi vývoje nějakého ukazatele v čase (objem poptávky, ceny a dalších ekonomických, ale také např. průmyslových ukazatelů) pomocí netriviálních statistických technik (neuronové sítě). Regrese regresní úlohy slouží obecně pro vysvětlení a předpověď spojitých proměnných za pomoci dostupných informací z historických dat. Regresní úloha se liší od klasifikační především typem výsledku. V regresi je výsledkem spojitá číselná hodnota, nikoliv odhad dané kategorie (třídy). V některých oblastech se tyto metody nazývají úlohami typu: Co se stane, když. Asociační pravidla specifické metody, které jsou vhodné pro konkrétní typ úloh. Tyto metody umožňují z velkého počtu záznamů stanovit pravidlo, které např. říká, že pokud návštěvník klikne na záložku Pro ženy, tak s určitou pravděpodobností klikne také na hubnutí a diety. Snahou asociačních pravidel je zjistit mezi položkami takový vztah, že přítomnost jedné nebo více položek v transakci implikuje výskyt jiných položek. Text Mining textminingové úlohy obecně řadíme do úloh dataminingových. Text Mining pracuje s nestrukturovaným textem, lze ho tedy definovat jako proces vytěžení cenné informace z textu. V textové proměnné obvykle hledáme klíčová slova, následně děláme jejich frekvenční analýzu. Případy (konkrétní klienti, záznamy apod.), kde se tato klíčová slova vyskytla, indexujeme a následně vrátíme do souboru (databáze) jako novou číselnou proměnnou, kterou využijeme v rámci klasifikačních metod. Dalším typem úlohy je potom porovnávání dokumentů podle frekvence jednotlivých slov. Článek o této problematice si můžete přečíst např. zde: http://www.systemonline.cz/clanky/textminingkladivonanestrukturovanadata.htm, příp. zde: http://modernirizeni.ihned.cz/251556480600000_detail07. Dalším krokem nad z databáze vygenerovanými daty je příprava datového souboru, neboť data z databáze, někdy označovaná jako surová, obsahují velké množství chybějících údajů, extrémních hodnot, mnohdy spolu vzájemně korelují apod. Tato data musíme tedy převést na data analytická. Příprava surových dat na soubor analýzou použitelný je obecně nejpracnější na celém modelování (bez ohledu na typ výše zmiňovaných úloh). Dále se však budeme věnovat úloze klasifikační. S touto úpravou datového souboru také souvisí vlastní účel analýzy, kdy je v některých případech vhodné spojité proměnné spíše kategorizovat do expertně vytvořených intervalů, v některých případech musíme jednotlivé proměnné časově sjednotit (např. modelujemeli retenční model) atd. Součástí přípravy datového souboru je také redukce proměnných, které přinášení téměř totožnou informaci (korelují) a výběr podstatných proměnných.

Další fází je potom vytvoření modelu. Vstupní soubor historických dat si pomocí stratifikačních metod rozdělíme na dvě části, trénovací a validační. Na trénovací části souboru se (zjednodušeně řečeno) konkrétní metoda naučí jednotlivé kombinace vstupů, které vedou k požadovanému výstupu (koupil/nekoupil) a stanoví příslušné váhy. Na validačním souboru je potom vytvořený model otestován. Celý postup zachycuje schéma níže. Pokud je klasifikační schopnost modelu na validačním vzorku dobrá, nastává fáze nasazení modelu. Úspěšnost modelu hodnotíme na tzv. ROC Gains chartech a ROC křivce, které velmi pěkně popisuje článek v starším newsletteru: http://www.statsoft.cz/ofirme/archivnewsletteru/ > Newsletter 15/10/2012.

Po validaci modelu nastává jeho nasazení (deployment). Vytvořený model použijeme na novou sadu dat, např. u klientů, kteří ještě úvěr nedostali, ale žádají o něj. Oskórujeme tyto klienty a získáme odhady konkrétních tříd u jednotlivých případů a jejich pravděpodobnost. Na základě historických zkušeností tedy modelem předpovíme schopnost klienta splatit tento úvěr. O konkrétním využití v oblasti průmyslu si můžete přečíst např. v případové studii Unipetrol RPA, kde neuronová síť odhaduje složení vyráběného produktu. Cílovou proměnnou v historických datech jsou laboratorní výsledky: http://www.statsoft.cz/ofirme/pripadovestudie/. Zajímavé řešení, které kombinuje dataminingové a textminngové techniky ukazuje studie z ČKP, která je k dispozici také v části Případové studie. Nyní pojďme již ke konkrétnímu návodu:

Data Miner Recipes jakýsi Wizard, který Vás provede celou data miningovou analýzou výukový modul pro data mining (z tohoto důvodu má také omezené funkcionality a práce s velkými soubory může být pomalá) Modul předvedeme ukázkovým příkladem v Data Miner Recipes (příkazy postupu ukázkového příkladu jsou černou barvou, poznámky a komentáře k volbám, případně popis voleb, které nebyly využity, jsou modrou barvou). Pracovat budeme se souborem CreditScoring.sta, který je součástí instalace a dostaneme se k němu přes Soubor >Otevřít příklady > Datasets. K modulu Data Miner Recipes se dostaneme přes menu Data mining: Dáme vytvořit nový (případně bychom si mohli vyvolat nějaký již uložený).

Data Preparation Příprava a čištění dat je hlavním a asi i nejpracnějším úkolem při jakékoli analýze dat. Tato fáze zahrnuje validaci a transformaci dat, vytvoření nových proměnných, zpracování odlehlých a chybějících hodnot. Fáze Data preparation v Data Miner Repices využívá metody přítomné v záložce Data, především Náhodné vzorkování, Filtrování dat/překódování, Výrazy pro dávkovou transformaci Tyto metody mají zjednodušené volby! Nejdříve si připojíme data, která budeme analyzovat. Vezměme například data z příkladů: CreditScoring.sta Poznámka: Všechny kroky je potřeba dělat postupně. Pokud přejdeme tlačítkem Next do další fáze a budeme chtít změnit něco v předchozím kroku, ztratím některá nastavení.

Vybereme všechny dostupné proměnné následujícím způsobem v průběhu analýzy budou vyřazovány: Poznámka (další volby): Apply data transformations (stejná možnost jako možnost v záložce data Výrazy pro dávkovou transformaci). V tomto kroku je tedy možné přetransformovat či vytvořit nové proměnné toto je potřeba provést ještě před výběrem proměnných. Use sample dataset viz záložka Advanced Remove duplicate record(s) vymaže duplicitní řádky

Záložka Advanced Systematic, Stratified, Simple random sampling (podobná funkcionalita jako možnost v záložce data Náhodné vzorkování Je možné udělat pro další analýzu pouze výběr z dat. Valid Data Range po naspecifikování minima a maxima pro spojité proměnné budou pozorování mimo rozsah z analýz vyloučeny (například případná proměnná Věk nemůže mít záporné hodnoty). Remove outlier zjednodušená volba pro nahrazení či vyřazení odlehlých hodnot Missing data zjednodušená volba pro nahrazení chybějících pozorování Záložka Annotation Slouží pouze k popisu toho, co jsme provedli, Váš popis se dá poté najít při zobrazení reportu (pod tlačítkem Report).

Příprava dat je nyní hotova, přejdeme do další fáze kliknutím na tlačítko Next step Práci (recept) si můžeme kdykoli uložit kliknutím na Save Recipe. Poznámka: v okně vlevo dole jsou rady a zkrácený postup, co je potřeba udělat

Data for analysis V tomto kroku je potřeba vybrat trénovací a testovací množinu (tedy rozdělit data na data, na kterých se bude model učit a data, která nebyla použita pro stavbu modelu, ale bude se na nich určovat kvalita modelu). V našem příkladě máme proměnnou, která rozděluje data na testovací a trénovací, nyní ji využijeme (pokud nebyla proměnná specifikována v kroku Data preparation, pak možnost rozdělit podle proměnné nebude možná) Poznámka: volba % of cases vytvoří testovací a trénovací množinu náhodně v daném procentuálním zastoupení. Volba none je také možná, v tomto případě nebudou v pozdějších k dispozici výsledky pro testovací množinu a tedy nebude možné ani relevantní porovnání jednotlivých modelů

Data redundancy Dalším krokem je vyřazení nadbytečných proměnných. Jednoduše řečeno, proměnné, které spolu velmi korelují, budou mít na vysvětlovanou proměnnou pravděpodobně stejný vliv, nemá cenu mít v datech tyto proměnné současně. Tento krok slouží k vyřazení korelovaných proměnných z analýzy. Je možnost vybrat typ korelačního koeficientu a jeho hodnotu (v praxi uvádíme hodnoty například 0.8 nebo 0.9, v tomto příkladě uvedena hodnota vyšší, aby bylo vidět, co se stane, když budou některé proměnné výšku korelačního koeficientu přesahovat). Po stisknutí Next step se objeví následující tabulka, z které je potřeba vybrat, které proměnné budou v analýze ponechány a které naopak zrušeny. My necháme u našeho příkladu možnost Both tedy necháme pro další analýzy v datech obě proměnné. Vidíme, že Spearmanův korelační koeficient mezi proměnnými je 0.6.

Important variables Během data miningových analýz máme běžně k dispozici velké množství proměnných, některé z nich ale nenesou žádnou informaci o vysvětlované proměnné v tomto kroku můžeme nechat vybrat daný počet nejdůležitějších proměnných (k dispozici jsou dvě metody). Toto je tedy jedna z technik, jak redukovat dimenzi vysvětlujících proměnných. V našem příkladu vybereme 5 nejdůležitějších proměnných a dáme Next step. Poznámka: vybrané proměnné jsou vidět po kliknutí na Report Summary report v tabulce Feature selection

Model building Proměnné byly vybrány a nyní je potřeba vybrat metody pro samotnou analýzu Tlačítka statistických metod po klepnutí lze volit některé parametry metod Vystaví zatrhnuté modely Aktivní pouze, pokud má uživatel podnikovou verzi STATISTICA (Enterprise), analýza se provede na serveru, tlačítkem Get results poté dostaneme výsledky zpracované na serveru Možnost nahrát PMML kód nějakého již vystavěného modelu Spustíme Build model pro předdefinované analýzy, v okně pod tlačítky se objeví souhrnné výsledky analýz: Poznámka: Detailní výsledky jsou vidět opět v sešitě STATISTICA po klepnutí na Report Summary report. Mezi výsledky můžete vidět například kvalitu zařazení jednotlivých klasifikátorů (v tomto příkladě řešíme pouze klasifikační úlohu) do jednotlivých skupin.

Evaluation Tento krok slouží k vypočítání ztráty špatného zařazení do skupin (může posloužit pro výběr konkrétního modelu). Tlačítkem Define cost matrix lze upravit matici ztrát, tedy, jak moc Vás mrzí zařazení do špatné skupiny. Poznámka: V tomto menu je potřeba zadat všechny desetinná čísla ve tvaru shodném s místním nastavením desetinného oddělovače ve Windows! Defaultně se zobrazí vždy čísla s tečkou jako oddělovačem, což zrovna nemusí souhlasit s Vašim místním nastavením. vybrány a nyní je potřeba vybrat metody pro samotnou analýzu Poznámka: V praxi tato ztrátová matice vůbec nemusí být simetrická například v lékařství je mnohem větší chybou neposlat na vyšetření nemocného než poslat na vyšetření zdravého)možné vypočítat Proměnné byly Tlačítko Evaluate model vygeneruje výsledky vybraných modelů do sešitu s reportem (součástí je Lift chart, klasifikace pro jednotlivá pozorování v testovací množině, celková ztráta). Zaškrneme jeden z modelů, například C&RT strom a dáme Next step.

Deployment Před přechodem do tohoto kroku je potřeba vybrat jeden model, který půjde dále do fáze Deployment. Deployment fáze znamená to, že chceme, aby data byla již vybudovaným modelem pouze ohodnocena (předpovězena hodnota odezvy), model jako takový se již nemění, pouze ohodnocuje. Je možné si vygenerovat kód modelu pomocí Code generator pro budoucí použití na nových datech nebo nasazení do produkčního prostředí.

Příklad Deploymentu souboru: Připojíme si soubor, na kterém chceme předpovědět hodnoty odezvy. Tedy chceme použít model na nová data. Pomocí Data file for deployment si připojíme nová data se stejnou strukturou, poté si vybereme, které proměnné chceme dodat do výstupu. Musíme si přiřadit, do které proměnné dáme výsledky (v tomto případě se do proměnné Credit Rating přiřadí predikce modelu). Pokud nechcete přepisovat stávající proměnné v souboru, je potřeba mít již připravené prázdné proměnné na konci souboru, na který chceme model použít. Kliknutí na Next step přidá deployované výsledky do souboru, ten se zobrazí a proces analýzy přes Data Miner Recipes je hotov.

Všechny provedené analýzy a výsledky si můžeme prohlédnout v Reportu: