IBM SPSS Decision Trees



Podobné dokumenty
IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Pořízení licencí statistického SW

Získávání znalostí z dat

IBM SPSS Neural Networks

IBM SPSS Modeler Professional

Data mining. Letní semestr. únor červen Ondřej Brom lektor, analytik, konzultant spoluautor knihy SPSS Praktická analýza dat

MBI - technologická realizace modelu

Obohacení dat o statistické výsledky a potenciál jejich využití

IBM SPSS Direct Marketing

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

IBM SPSS Modeler Premium

Cíle supervizovaného učení Ondřej Háva

DIGITÁLNÍ POVODŇOVÉ PLÁNY. M. Banseth

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

O nás. To vše a mnohem více Vám je schopna nabídnout již základní verze publikačního systému bravaweb.

EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním materiálem o normě.

Bayesovská statistika. Syntax editor. Vylepšení grafiky. Přidáno ve verzi 24. IBM SPSS Statistics. IBM Software Business Analytics

Business Intelligence

PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION

Projektové řízení a rizika v projektech

LISTOPAD 2009 PŘIPRAVENO PRO. ri. Heřmanova 22, PRAHA 7 Tel.: , Fax: INBOX@MARKENT.

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

PRODUKTY. Tovek Tools

Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu

IBM SPSS Custom Tables

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

PRODUKTY. Tovek Tools

Metody marketingového výzkumu (N_MMV) ZS 09

PROGRAMÁTOR ANALYTIK. Náplň práce:

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

ADVANTA group.cz Strana 1 ze 40. Popis řešení Řízení IT projektů. group.cz

Obsah. Seznámení s prostředím Excelu. Poděkování 25 O přiloženém CD 26 Co je na CD 26 Použití CD 26 Systémové požadavky 26 Podpora 27

The Independent Solution Provider for Industrial and Process Automation, Quality & IT

Rozhodovací stromy a lesy

Statistica, kdo je kdo?

Dobývání znalostí z databází

Způsob řízení architektury ve Skupině ČEZ

CO PRO VÁS A ZA VÁS MŮŽEME UDĚLAT

Analýza dat na PC I.

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová

KOMPETENČNÍ CENTRUM COLLABORATION SOLUTIONS

Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Novinky IBM SPSS Statistics

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

KLASIFIKAČNÍ A REGRESNÍ LESY

D&B Data Integration Toolkit

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Novinky verze SPIRIT 2015

IS SEM - informační systém pro správu a evidenci nemovitého majetku hlavního města Prahy

Vytěžování znalostí z dat

Stručný obsah. K2118.indd :15:27

1. Jak často zjišťujete ve Vaší společnosti spokojenost zákazníka? 2. Jakým způsobem běžně zjišťujete ve Vaší společnosti spokojenost zákazníků?

myavis NG MOBILE SOLUTIONS CRM s podporou obchodních procesů v terénu

IBM SPSS Reports for Surveys

Hodnoticí standard. Manažer velkoobchodního skladu (kód: R) Odborná způsobilost. Platnost standardu. Skupina oborů: Obchod (kód: 66)

Metodické postupy tvorby architektury

Začínáme s Tovek Tools

Mapa Česka:

Software pro analýzu energetických dat W1000

ÚVOD DO DATABÁZÍ. Metodické listy pro předmět

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová Ing. Miloš Uldrich

Profitabilita klienta v kontextu Performance management

1. Webový server, instalace PHP a MySQL 13

Neuronové časové řady (ANN-TS)

Advanced IT infrastructure control: do it better, safer, easier and cheaper. FlowMon ADS Moderní řešení detekce průniků a anomálií

VIBRODIAGNOSTICKÝ SOFTWARE

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Telelogic Focal Point využití pro řízení a optimalizaci projektového portfolia Verze 1.0

KGG/STG Statistika pro geografy

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Business Intelligence nástroje a plánování

Elektronická Kniha jízd.

Dynamické metody pro predikci rizika

Hlavní rysy produktu MapInfo Professional

Statistika - základní informační zdroj ekonomické analýzy

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Program pro flexibilní tvorbu evidencí. VIKLAN - Evidence. Uživatelská příručka. pro seznámení se základními možnostmi programu

Máte již dobře vyzbrojeného firemního SYNTETIKA?

Připomeň: Shluková analýza

Novinky IBM SPSS Statistics

Moderní metody automatizace a hodnocení marketingových kampaní

Snadný a efektivní přístup k informacím

Jak využít data o zákaznících ke zvýšení příjmů z prodeje

DPH v Exact Globe Next 2013

Maturitní témata. Informační a komunikační technologie. Gymnázium, Střední odborná škola a Vyšší odborná škola Ledeč nad Sázavou.

1 Webový server, instalace PHP a MySQL 13

Návod na vypracování semestrálního projektu

5 PŘÍPADOVÉ STUDIE REGIONŮ ŘEŠENÍ DISPARIT ROZVOJEM CESTOVNÍHO RUCHU

Zobrazte si svazy a uspořádané množiny! Jan Outrata

ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA EKONOMICKÁ. Bakalářská práce. Řízení rizik projektu přesunu sběrného dvora

SyMAP. systém majetkoprávní přípravy staveb

PODNIKOVÁ INFORMATIKA

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Datová věda (Data Science) akademický navazující magisterský program

Transkript:

IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích pravidel. Využívá se ve statistické analýze dat i v dataminingovém rozhodovacím procesu a skórování. Modul IBM SPSS Desision Trees nabízí klasifikační, rozhodovací a asociační stromy pro identifikaci skupin, analýzu vztahů mezi skupinami i pro predikci hodnot. Klasifikační a rozhodovací stromy využijete pro segmentaci, stratifikaci, predikci i pro redukci dat a screening, identifikaci interakcí, slučování kategorií a diskretizaci spojitých proměnných. Asociační interpretace stromů uplatníte při tvorbě i ověřování hypotéz o kauzálních vazbách mezi proměnnými a při exploračním post hoc seskupení průměrů v jednoduché ANOVA či řádků v kontingenční tabulce. Intuitivní a názorné zobrazení pomocí stromu dovoluje prezentovat vztahy jasným a přehledným způsobem i laickým uživatelům, což v praxi usnadňuje jejich rozhodování. Stromové grafy rovněž dovolují vizuálně posoudit výsledky a vhodnost modelu. Vizuální analýzou stromového větvení naleznete specifické podskupiny a vztahy, které nejsou na první pohled zřejmé nebo které by tradiční statistika dokázala odhalit pouze obtížně a zdlouhavě. Strom také odstupňuje sílu vlivu na cílovou proměnnou. Klasifikační postupy, a tím i pravidla, jsou v grafu zobrazeny jako větvení a uzly reprezentují podskupiny. Klasifikační pravidlo Vás tímto způsobem postupně vede k přesnějšímu určení cílové proměnné a finálních tříd klasifikace a predikce; vizualizace hierarchickým štěpením zcela jasně ilustruje postupné kroky a též i statistický popis všech dílčích i konečných výsledků. V grafické reprezentaci rozhodovacího procesu je zřetelně vidět, jaké skupiny vznikají štěpením podle daného pravidla a u kterých skupin pravidlo končí. Pořadí vstupu proměnných do stromu v procesu jeho růstu představuje indikaci síly vlivu i predikcí pro jednotlivé proměnné a interakcí mezi nimi. Nejdůležitější IBM SPSS Decision Trees umožňuje: identifikovat v datech vzory, segmenty a skupiny pomocí přehledné vizualizace zvolit ze čtyř zavedených algoritmů pro růst stromu: CHAID, Exhaustive CHAID, C&RT a QUEST prezentovat velmi přehledně a jednoduše výsledky i laikům Na základě získaného klasifikačního stromu vytvořit nové proměnné pro případy v datové matici (koncový uzel, predikce a konfidence odhadu)

IBM SPSS Desision Trees použijete pro: databázový marketing výběr vhodných proměnných pro segmentaci databáze zákazníků (odpověděl/neodpověděl na testovací mail či na předchozí podobné kampaně, patří mezi top/průměrné/ nevýznamné zákazníky, má/nemá rozšířené služby apod.) profilování skupin zákazníků jinými atributy (např. měřitelnými či disponibilními), jako jsou demografické údaje a chování či aktivita zákazníka příprava nové reklamní kampaně, cílená na specifické podskupiny vedoucí ke snížení nákladů a zlepšení ROI výzkum trhu výzkum spokojenosti zákazníků a zaměstnanců stanovení proměnných determinujících spokojenost (např. na škále 1 až 7) profilování úrovně spokojenosti na základě odpovědi na vybrané sociodemografické, postojové charakteristiky a dílčí spokojenosti či otázky o potřebách respondentů opatření vycházející z těch kombinací nalezených faktorů a vlivů, které vedou k vysoké spokojenosti, a tedy i k retenci a loajalitě kreditní skórování a skórování rizik stanovení rizikových skupin (silně/středně/málo rizikové) nalezení rizikových skupin podle informací o zákaznících, např. o jejich transakcích na účtech nebo sociodemografických a ekonomických charakteristikách nabídka vhodných služeb pravé skupině žadatelů o úvěr, a to podle rizik, která jsou s ní spojena nalezení faktorů vedoucích k úspěchu, díky informaci uložené v žádostech o program nebo z historických dat o předchozích programech výběr a přizpůsobení nových programů pro uspokojení potřeb většího počtu lidí za stejné či nižší náklady marketing ve státní sféře výběr cílové proměnné pro segmentaci databáze zákazníků (např. potenciální žadatelé o vysokoškolské studium, kteří již žádali, proti těm, kteří ještě nežádali) profilování skupin založené na predikčních atributech, jako např. demografických údajích či informacích o aktivitách zájemce příprava nové reklamní kampaně, cílené na specifické podskupiny vedoucí ke snížení nákladů a zlepšení ROI Vizualizace stromů v IBM SPSS Decision Trees pro snadnou interpretaci výsledků a nalezení skrytých závislostí. cílení programu identifikace kriteriální proměnné, která charakterizuje úspěšnost programu

IBM SPSS Decision Trees je k dispozici pro instalaci v režimu lokální desktopové aplikace, avšak při požadavku na větší výkon a škálovatelnost lze provést také instalaci v režimu klient/server. Získejte více díky spolupráci Pro efektivní sdílení a využívání souborů, jejich ochranu způsobem, který splňuje interní i externí požadavky, a publikování výsledků tak, aby si je mohl prohlížet a upravovat větší počet uživatelů, lze využít rozšíření a spolupráci IBM SPSS Decision Trees s IBM SPSS Collaboration and Deployment Services. Více informací lze nalézt na www.ibm.com/spss/cds. Vyberte si jeden ze čtyř algoritmů pro růst stromu IBM SPSS Desision Trees obsahuje čtyři algoritmy pro růst stromu: CHAID - rychlý, statistický algoritmus založený na optimální hodnotě testu chí-kvadrát nebo F- testu; zkoumá data rychle a efektivně a tvoří segmenty a profily v sekvenci optimálních kroků; štěpí skupiny vždy na vhodný počet statisticky homogenních podskupin; je založen na statistickém testování hypotéz na každém kroku, optimální krok v pravidle je dán maximální signifikancí; Exhaustive CHAID - modifikace algoritmu CHAID, která prozkoumává všechna možná štěpení pro každý prediktor; CRT (Classification & Regression Trees) - algoritmus, který vytváří binární stromy (skupina je štěpena vždy na dvě části) a maximálně homogenní skupiny podle statistických kritérií; QUEST - statistický algoritmus, který vybírá proměnné bez vychýlení a vytváří přesné binární stromy rychle a efektivně V IBM SPSS Decision Trees vytvoříte stromy pomocí metod CHAID, Exhaustive CHAID, C&RT a QUEST. Rozšiřte své výsledky o další analýzy Jestliže užíváte IBM SPSS Decision Trees společně s Base, můžete při vytváření stromů snadno vložit výslednou klasifikační proměnnou do pracovního souboru a takto definovat skupiny přímo v datech nebo tuto proměnnou využít jako vstup pro další analýzy. Mimo to lze zapsat klasifikační/predikční pravidla pro jednotlivé skupiny ve formě syntaxe, SQL dotazu či prostého textu, což otevírá možnost využití výsledků v budoucích aplikacích - při skórování, rozhodování, predikcích či při kontrolách asociací nezávisle na současném běhu a datech. Tato pravidla si prohlédnete ve výstupu a uložíte je do externího souboru pro pozdější predikce či zařazení nových záznamů. Jestliže chcete využít výsledky pro skórování jiných datových souborů, můžete zapsat informaci z tohoto modelu přímo do Vašich dat nebo vytvořit XML model pro použití s IBM SPSS Statistics Server. Tyto čtyři algoritmy nabízejí různé metody "růstu" stromu, vyzkoušejte je a nalezněte tu nejlepší a nejvhodnější pro Vaše data.

Export pravidel pro výběr případů a predikování k dalšímu využití vytvořeného modelu. Specifikace Stromy zobrazení stromových diagramů, map stromů, sloupcových grafů a četnostních tabulek jednoduchá tvorba stromu díky komplexnímu rozhraní, umožňujícímu tato nastavení: typ proměnné (nominální, ordinální, číselná) nezávislé proměnné závislé proměnné proměnná vlivu algoritmus růstu stromu výběr výstupů (strom, statistiky, grafy, pravidla) design evaluace stromu rozdělení souboru na trénovací a testovací množinu křížová validace zastavovací pravidla uložení proměnných včetně predikovaných hodnot, pravděpodobností a modelu ve formátu XML čtyři algoritmy růstu stromu zobrazení rozložení cílové proměnné v uzlu frekvenční tabulky sloupcové grafy rozložení ve skupinách skrývání větví, změna vzhledu, fontů a barev prohlížení a tisk stromů přiblížení a oddálení stromu automatický růst stromu v produkčním módu automatický zápis syntaxe z dialogového okna volba prvního prediktoru orientační mapa stromu pro jeho prohlížení volba orientace grafu horizontální pravolevá nebo levopravá vertikální zadání apriorních pravděpodobností, penalizací chyb, nákladů, výnosů a vzdálenostních skórů kategorií závislé ordinální proměnné Algoritmy růstu analýza dat jedním ze čtyř algoritmů růstu: CHAID (Kass; 1980) Exhaustive CHAID (Biggs, de Ville, Suen; 1991) Classification & Regression Trees (CRT) (Breiman, Friedman, Olshen, Stone; 1984) QUEST (Loh, Shih; 1997) ošetření chybějících hodnot prediktorů jednou ze dvou metod: zavedení samostatné kategorie, nebo využití náhradního štěpení podle prediktoru s platnou hodnotou diskretizace spojitých proměnných na zvolený počet intervalů prořezávání stromů u algoritmů CRT a QUEST náhodné rozdělení souboru na tréninkovou a testovací množinu nebo rozdělení podle hodnot vybrané proměnné

Evaluace kvality modelu klasifikační tabulka a podíl chybných predikcí, standardní chyba odhadu, reziduální součet čtverců pro spojitou cílovou proměnnou evaluační grafy a tabulky pro identifikaci vhodných skupin (uzlů): přínos / zisk (Gain chart) index (Lift chart) odezva (Response chart) průměr (Mean chart) očekávaný profit (Average Profit chart) ROI (ROI chart) rozdělení dat na tréninkovou a testovací skupinu pro ověření přesnosti zobrazení grafů nebo klasifikačních pravidel pro vybrané uzly v samostatném okně Aplikování modelu export diagramů, grafů a tabulek formáty HTML, text, Word/RTF, Excel a PDF Systémové požadavky Systémové požadavky se liší podle použité systémové a hardwarové platformy, podrobnosti lze nalézt na www.ibm.com/spss/requirements. IBM IBM software poskytuje akční vhled, který manažeři potřebují k dosažení lepších obchodních výsledků. IBM nabízí komplexní, jednotné portfolio složeno z business intelligence, prediktivních a sofistikovaných analýz, finančních výpočtů a strategického managementu, kontroly rizik a podmínek a analytických aplikací. Pomocí IBM software dokážou společnosti odhalit trendy, vzory chování a odchylky od nich, porovnat scénáře co by bylo kdyby, predikovat potencionální hrozby a příležitosti, identifikovat a řídit klíčová obchodní rizika a plány, rozvrhnout a odhadovat zdroje. Díky těmto analytickým možnostem dokážou naši zákazníci po celém světě lépe pochopit, předvídat a formovat obchodní výsledky. uložení informací a predikcí modelu do proměnných v pracovním datovém souboru export rozhodovacích pravidel definujících uzly do SQL (skórování v databázi), do syntaxového jazyka (skórování v systému ) nebo jako prostý text export modelů do XML pro skórování nových případů v aplikacích Server a Portal zveřejnění modelů jako obrázky nebo statické, či interaktivní tabulky pomocí Portal výběr případů pro další analýzy v pracovním datovém souboru pomocí označených uzlů stromu Copyright 2015, ACREA CR, spol. s r.o. Společnost ACREA CR, spol. s r.o. je distributorem softwaru IBM SPSS a poskytovatelem analytických a statistických služeb a kurzů v České a Slovenské republice. ACREA CR, spol. s r.o. (t) +420 234 721 400 Krakovská 7, (e) info@acrea.cz Praha 1, 110 00 (w) www.acrea.cz