IBM SPSS Neural Networks

Podobné dokumenty
IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

IBM SPSS Decision Trees

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Neuronové časové řady (ANN-TS)

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Trénování sítě pomocí učení s učitelem

IBM SPSS Direct Marketing

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Úvod do optimalizace, metody hladké optimalizace

Vytěžování znalostí z dat

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Algoritmy a struktury neuropočítačů ASN - P11

3. Vícevrstvé dopředné sítě

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

Neuronové sítě Ladislav Horký Karel Břinda

Umělé neuronové sítě

StatSoft Úvod do neuronových sítí

2. RBF neuronové sítě

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

5. Umělé neuronové sítě. Neuronové sítě

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

PRODUKTY. Tovek Tools

Cíle supervizovaného učení Ondřej Háva

PRODUKTY. Tovek Tools

Rosenblattův perceptron

Neuronové sítě v DPZ

Využití neuronové sítě pro identifikaci realného systému

IBM SPSS Modeler Professional

PowerOPTI Řízení účinnosti tepelného cyklu

NG C Implementace plně rekurentní

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Státnice odborné č. 20

IBM SPSS Complex Samples

Principy počítačů I Netradiční stroje

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

Emergence chování robotických agentů: neuroevoluce

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

BALISTICKÝ MĚŘICÍ SYSTÉM

PRODUKTY Tovek Server 6

VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI

Objevte vzory v historických datech, které budou sloužit k predikci budoucích událostí, dělejte lepší rozhodnutí a dosáhněte lepších výsledků.

Inovace bakalářského studijního oboru Aplikovaná chemie

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

Microsoft.NET. AppTima Feedback Solution - komplexní systém pro zjišťování a vyhodnocování spokojenosti zákazníků

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

PREDIKCE POČTU UCHAZEČŮ O STUDIUM S VYUŽITÍM NEURONOVÝCH SÍTÍ

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

vzorek vzorek

Diskrétní náhodná veličina

Náhodné (statistické) chyby přímých měření

Neuronové sítě. 1 Úvod. 2 Historie. 3 Modely neuronu

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Náhodná veličina a rozdělení pravděpodobnosti

IBM SPSS Modeler Premium

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

Otázky ke státní závěrečné zkoušce

Mapa Česka:

METODIKA ZPRACOVÁNÍ EKONOMICKÝCH ČASOVÝCH ŘAD S VYUŽITÍM SIMULÁTORŮ NEURONOVÝCH SÍTÍ

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

OSA. maximalizace minimalizace 1/22

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Obohacení dat o statistické výsledky a potenciál jejich využití

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

JUMO LOGOSCREEN 600. Dotyková budoucnost záznamu: Obrazovkový zapisovač

Credit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna Brno

Václav Jirchář, ZTGB

přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod

IQ - SixSigma. IQ SixSigma Software pro analýzu a sledování procesů

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Ilustrační příklad odhadu LRM v SW Gretl

HODNOCENÍ VÝUKY STUDENTY PEDF UK ZS 2016/2017

Simulace. Simulace dat. Parametry

Pojem a úkoly statistiky

Kalibrace a limity její přesnosti

Kontingenční tabulky v MS Excel 2010

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Lineární regrese. Komentované řešení pomocí MS Excel

8. Sběr a zpracování technologických proměnných

Kalkulace závažnosti komorbidit a komplikací pro CZ-DRG

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Úloha 1: Lineární kalibrace

Bayesovská statistika. Syntax editor. Vylepšení grafiky. Přidáno ve verzi 24. IBM SPSS Statistics. IBM Software Business Analytics

4EK211 Základy ekonometrie

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

Analýza dat na PC I.

Transkript:

IBM Software IBM SPSS Neural Networks Nové nástroje pro tvorbu prediktivních modelů Aby mohla Vaše organizace zlepšit rozhodovaní ve všech procesních postupech, potřebuje odhalit vztahy a souvislosti v komplexním a dynamickém prostředí, které ji obklopuje. K tomu Vám pomůže statistický software včetně jeho přídavných modulů. Jako uživatel systému jistě oceníte jeho všestrannost a výkon. Statistický software předčí Vaše očekávání. S modulem IBM SPSS Neural Networks vyhledáte v datech netriviální či skryté vztahy. Objevíte komplexní datové vazby a vybudujete přesnější predikční modely. Procedury modulu IBM SPSS Neural Networks doplňují tradiční statistické nástroje systému. Za pomoci modulu IBM SPSS Neural Networks hledejte v datech nové asociace a pak ověřte jejich statistickou významnost tradičními statistickými postupy. Modul IBM SPSS Neural Networks můžete používat v rámci desktopové instalace statistického softwaru. K dispozici je i jeho serverová verze, jenž se instaluje spolu s Base Server. Serverová verze zajistí větší výkon a lepší škálovatelnost. Nejdůležitější Prozkoumejte skryté vzory ve Vašich datech. Kvalitnější modely Bez nutnosti programování Výběr mezi MLP a RBF sítěmi

Proč využívat neuronové sítě? Neuronovou síť tvoří množina nelineárních převodníků (neuronů), které vytvářejí vstupní, skryté a výstupní vrstvy sítě. Spojení mezi neurony sousedních vrstev jsou reprezentována číselnými vahami. Váhy určí iterační algoritmus při trénování sítě tak, aby minimalizoval predikční chyby a bylo dosaženo co nejlepších výsledků pro budoucí předpovědi. Můžete nastavit podmínky, za kterých učení sítě probíhá, a podrobná pravidla pro ukončení iteračního postupu. Také architekturu sítě (tj. uspořádání neuronů) si stanovíte sami nebo Vám ji automaticky navrhne program. Neuronové sítě budete v různých úlohách obvykle kombinovat s jinými statistickými postupy za účelem lepšího porozumění Vašim datům. Při výzkumu trhu můžete vytvářet zákaznické profily a zjišťovat preference zákazníků. Při databázovém marketingu budete segmentovat zákaznickou bázi a optimalizovat marketingové kampaně. Ve finanční sféře využijete neuronové sítě k analýze úvěrové bonity žadatelů o úvěr a vyfiltrujete pravděpodobné úvěrové podvody. Při operační analýze neuronové sítě použijete k řízení finančních toků a plánování logistiky. Aplikace ve vědě a zdravotnictví zahrnují například predikci nákladů na ošetření, audit léčebných postupů nebo predikci doby hospitalizace pacientů. naučení se dat zpaměti. Validační skupina slouží k nezávislému odhadu kvality hotového modelu, jenž bude využit k predikci u stávajících i u nových dat. Závislé (výstupní) proměnné pro neuronové sítě (může jich být i více) mohou být spojité i kategorizované. Je-li závislá proměnná číselná, neuronová síť odhadne hodnotu na základě aproximace určitou převodní spojitou funkcí vstupů. Je-li závislá proměnná kategorizovaná, síť provádí přiřazení do nejpravděpodobnější kategorie (klasifikaci) v závislosti na hodnotách vstupních proměnných. V procedurách modulu IBM SPSS Neural Networks volíte způsob rozdělení dat, architekturu sítě a postupy, kterými bude síť analyzována. Výsledky se zobrazují v tabulkách a grafech, ukládají se do aktivní datové matice a exportují se do formátu XML pro budoucí využití při skórování nových dat. Spoluprací dosáhnete hodnotnějších výsledků Chcete-li postupy, modely a výsledky efektivně sdílet, mít je připraveny pro opětovné použití, chránit je dle Vašich interních zásad nebo externích požadavků a publikovat je většímu počtu uživatelů tak, aby si je mohli prohlížet a pracovat s nimi, zvažte rozšíření softwaru IBM SPSS Statistics o IBM SPSS Collaboration and Deployment Services. Více informací o těchto užitečných funkcích na internetové adrese www.ibm.com/spss/devcentral. Mějte své postupy plně pod kontrolou od začátku do konce Modul IBM SPSS Neural Networks nabízí procedury Multilayer Perceptron (MLP) a Radial Basis Function (RBF). Obě procedury se řadí mezi supervizované metody (učení s učitelem), protože mapují vztahy v tréninkových datech s cílem předpovědět vytyčený cíl. Využívají dopředné architektury, kdy se informace v síti šíří jednosměrně od vstupní vrstvy přes skryté vrstvy do vrstvy výstupní. Výběr procedury záleží na typu dostupných dat a na složitosti vztahů, které chcete pro predikci využít. Zatímco procedura MLP dokáže zmapovat komplexnější vztahy, procedura RBF se učí rychleji. Ať si zvolíte kteroukoli z procedur, je vhodné před učením sítě data rozdělit do tří skupin: tréninkové, testovací a validační. Tréninková skupina slouží k nastavení parametrů sítě, pomocí testovací skupiny předcházíme

Specifikace Vícevrstvý perceptron Procedura MLP vytváří specifickou neuronovou síť nazývanou vícevrstvý perceptron. Vícevrstvý perceptron se řadí mezi supervizované sítě s dopřednou architekturou. Může obsahovat více skrytých vrstev. Závislé proměnné mohou být číselné, kategorizované nebo obou typů. Pokud je závislá proměnná číselná, pak neuronová síť realizuje odhad na základě aproximace funkcí mezi vstupy a výstupy. Je-li závislá proměnná kategorizovaná, síť provádí přiřazení do nejpravděpodobnější kategorie (klasifikaci) v závislosti na hodnotách vstupních proměnných. prediktory kategorizované spojité Specifikace EXCEPT umožňuje zadat seznam kategorizovaných i spojitých vstupních proměnných, které budou z analýzy vyloučeny. Lze například výhodně použít v situacích, kdy je seznam vstupních proměnných rozsáhlý a je zadán pomocí konstrukcí TO nebo ALL. Specifikace RESCALE slouží ke změně škály vstupních a výstupních spojitých proměnných. transformace spojitých vstupů: standardizace (průměr=0, směrodatná odchylka=1), normalizace (interval 0 až 1), adjustovaná normalizace (interval -1 až 1), bez transformace transformace spojitých výstupů: standardizace (průměr=0, směrodatná odchylka=1), normalizace (interval 0 až 1), adjustovaná normalizace (interval -1 až 1), bez transformace Specifikace PARTITION určuje metodu rozdělení aktivní datové matice na tréninkovou, testovací a validační množinu. Tréninková množina slouží k nastavení parametrů sítě, testovací množina je určena ke sledování predikční chyby během učení, aby nedošlo k naučení se dat zpaměti, a validační množina slouží k nezávislému odhadu kvality hotového modelu. Volby: poměr (zadáno relativními četnosti), v jakém budou případy z aktivní datové matice náhodně rozděleny do tréninkové, testovací a validační množiny přiřazení případů do tréninkové, testovací a validační množiny na základě hodnot vybrané proměnné Specifikace ARCHITECTURE určuje architekturu neuronové sítě. Volby: automatický nebo manuální výběr architektury. Další volby platí pro manuální nastavení: počet skrytých vrstev sítě a počty neuronů v nich aktivační funkce všech neuronů ve skrytých vrstvách (hyperbolický tangens nebo logistická funkce) aktivační funkce všech neuronů výstupní vrstvy (identická funkce, hyperbolický tangens, logistická funkce, pravděpodobnostní transformace softmax) Specifikace CRITERIA určuje způsob využití zdrojových dat při nastavování sítě. Lze specifikovat způsob trénování, který určí po průchodu kolika případů dojde ke změně nastavení. Možnosti jsou batch (změna nastavení po průchodu všech případů), online (změna nastavení po každém případu) a minibatch (rozdělení datové matice na části a změna nastavení po průchodu částí dat). Volby: počet případů v rozdělených částech pro tréninkovou metodu minibatch maximální počet záznamů uložených v paměti při výběru automatického stanovení architektury a/nebo při trénování metodou mini-batch optimalizační algoritmus pro nastavování synaptických vah: ní metoda, sdružený

výchozí rychlost učení v ní metodě dolní mez rychlosti učení v ní metodě při volbách online a mini-batch moment změny vah v ní metodě výchozí hodnota parametru lambda pro sdružený výchozí hodnota parametru sigma pro sdružený rozsah hodnot náhodného nastavování vah [a0-a, a0+a] při simulovaném žíhání Specifikace STOPPINGRULES vymezuje pravidla pro zastavení iteračního algoritmu učení sítě. Volby: maximální počet kroků, během nichž nedojde ke snížení predikční chyby zapnutí nebo vypnutí měření času učení a maximální doba učení Specifikace PLOT udává, které grafy budou zobrazeny ve výstupovém okně. Volby: diagram neuronové sítě graf závislosti predikce a skutečnosti pro každou výstupní proměnnou graf závislosti reziduí na predikované hodnotě pro spojité výstupní proměnné ROC (Reciever Operating Characteristics) křivky pro kategorizované výstupní proměnné včetně tabulky s plochou pod křivkou kumulativní grafy Gain pro kategorizované výstupní proměnné grafy Lift pro kategorizované výstupní proměnné Specifikace SAVE určuje nové proměnné, které se připojí do aktivní datové matice. Uložte: predikované hodnoty nebo kategorie maximální počet průchodů daty minimální relativní změna predikční chyby vzhledem k předchozí epoše/výchozímu řešení Specifikace MISSING určuje způsob zacházení s uživatelem definovanými vynechanými hodnotami kategorizovaných vstupních a výstupních proměnných. Případy lze vyřadit ze zpracování nebo považovat kódy vynechaných hodnot za platné údaje. Specifikace PRINT udává, jaké tabulky budou zobrazeny ve výstupovém okně. Lze také požádat o analýzu senzitivity. Volby: sumární tabulka s počty platných případů a rozdělení do tréninkové, testovací a validační množiny informace o neuronové síti: vstupy a výstupy, počty neuronů ve vrstvách, aktivační funkce sumární tabulka učení sítě: průměrná chyba, pravidlo, které zastavilo učení, doba učení matice záměn (klasifikační tabulka) pro každou kategorizovanou výstupní proměnnou predikované pro jednotlivé kategorie pseudopravděpodobnosti Specifikace OUTFILE uloží model spolu s nastavením synaptických vah ve formátu XML. Radial Basis Function (RBF) Procedura RBF vhodně nastaví neuronové sítě s radiálními bazickými funkcemi. Jedná se o sítě s dopřednou architekturou skládající se ze vstupní vrstvy, skryté vrstvy s radiálními bazickými funkcemi a výstupní vrstvy. Skrytá vrstva transformuje vstupní signály na hodnoty radiálních bazických funkcí. Podobně jako u MLP mohou RBF sítě provádět predikci číselných veličin i klasifikovat do skupin. Procedura RBF trénuje síť ve dvou krocích: 1. Určení počtu radiálních bazických funkcí seskupovacím algoritmem. Stanovení těžiště a šířky každé radiální bazické funkce. 2. Určení synaptických vah mezi skrytou a výstupní vrstvou. Neurony výstupní vrstvy nepoužívají aktivační funkci (identita), proto nastavení vah může být provedeno tradiční metodou nejmenších čtverců. synaptické váhy, které představují odhady koeficientů přiřazených spojení neuronů analýza senzitivity vyčíslující důležitost každé predikční proměnné v neuronové síti

Díky popsanému dvoustupňovému algoritmu se RBF sítě zpravidla učí rychleji než sítě MLP. Specifikace pro proceduru RBF jsou podobné jako specifikace procedury MLP s těmito výjimkami: specifikace ARCHITECTURE umožňuje zvolit typ radiálních bazických funkcí skryté vrstvy: normalizované RBF, běžné Gaussovské RBF specifikace CRITERIA dovoluje nastavit parametry algoritmu učení procedury RBF, tj. míru překrytí radiálních bazických funkcí skryté vrstvy Systémové požadavky Systémové požadavky se liší podle použité platformy. Detaily lze najít na www.ibm.com/spss/requirements. Copyright 2015, ACREA CR, spol. s r.o. Společnost ACREA CR, spol. s r.o. je distributorem softwaru IBM SPSS a poskytovatelem analytických a statistických služeb a kurzů v České a Slovenské republice. ACREA CR, spol. s r.o. (t) +420 234 721 400 Krakovská 7, (e) info@acrea.cz Praha 1, 110 00 (w) www.acrea.cz