6 Vyhodnocení výsledků

Rozměr: px
Začít zobrazení ze stránky:

Download "6 Vyhodnocení výsledků"

Transkript

1 6 Vyhodnocení výsledků Důležitým krokem v celém procesu dobývání znalostí je interpretace a evaluace nalezených znalostí. V případě deskriptivních úloh je hlavním kritériem novost, zajímavost, užitečnost a srozumitelnost. Tyto charakteristiky úzce souvisejí s danou aplikační oblastí, s tím, co přinášejí expertům a koncovým uživatelům. Z tohoto pohledu můžeme hovořit o zřejmých znalostech, které jsou ve shodě se zdravým selským rozumem příkladem může být pravidlo, že pokud měl pacient problémy v těhotenství, tak se jednalo o ženu; takovéto znalosti mohou v expertovi vzbudit pochybnost o smysluplnosti dobývání znalostí odborníkovi na KDD ale potvrzují, že použitý algoritmus funguje tak jak má, zřejmých znalostech, které jsou ve shodě se znalostmi experta z dané oblasti příkladem může být pravidlo, že pokud se účet klienta banky pohybuje v záporném zůstatku, má tento klient problémy se splácením úvěru; takovéto znalosti byť nepřinášejí nic nového, ukazují expertovi, že použitá metoda je schopna nalézat v datech znalosti, nových, zajímavých znalostech, které přinášejí nový pohled toto jsou ideální znalosti, které expert hledá, znalostech, které musí expert podrobit bližší analýze, neboť není zcela jasné co znamenají i tyto znalosti mohou být pro experta přínosem znalosti, které jsou v rozporu se znalostmi experta takováto pravidla, zachycující nejspíše nějaké nahodilé koincidence, expert patrně vyloučí; ovšem pozor, kdoví, jestli se naopak nejedná o zásadní nový pohled na celou oblast. Hodnocení deskriptivních znalostí nezávisle na aplikační oblasti se opírá především o různé numerické parametry 1. Zde je ale třeba zdůraznit, že ne vše, co je v datech přesvědčivě prokázáno, má pro experta význam (viz výše uvedené členění). Pomocí pro hodnocení znalostí ve smyslu porozumění znalostem jsou pak různé vizualizační metody letmo zmíněné v příslušné podkapitole. V této části se tedy budeme věnovat především vyhodnocením znalostí pro úlohy typu klasifikace a predikce. 6.1 Testování modelů Při hledání znalostí pro potřeby klasifikace se obvykle postupuje metodou učení s učitelem. Vychází se tedy z toho, že jsou k dispozici příklady, o kterých víme, do které třídy patří. Metody evaluace jsou pak založeny na testování nalezených znalostí na datech, na možnosti porovnat, jak dobře se nalezené znalosti shodují s informací od učitele. Pro testování se nabízí celá řada variant podle toho, jaká data použijeme pro učení a jaká pro testování: 1 V případě asociačních pravidel nás zajímá např. spolehlivost a podpora. 1

2 testování v celých trénovacích datech křížová validace (cross-validation) leave-one-out bootstrap testování na testovacích datech. Testování v datech použitých pro učení (celá trénovací data) má nejmenší vypovídací schopnost o tom, jak budou nalezené znalosti použitelné pro klasifikování nových případů. Často totiž může dojít k přeučení (overfitting), kdy nalezené znalosti vystihují spíše náhodné charakteristiky trénovacích dat a neodhalí to podstatné, co lze použít pro generalizaci. Trénovací data tedy nejsou příliš vhodná pro testování nalezených znalostí 2 a proto se obvykle používají data jiná. Otázkou je, jak taková data získat. Jeden problém může být, že dat je k dispozici málo, jiný problém je, že je žádoucí, aby data použitá pro testování se podobala datům trénovacím 3. Oba problémy umožní řešit různé způsoby výběru trénovacích a testovacích dat. Při testování metodou křížová validace se data dopředu rozdělí např. na 10 částí tak, že vždy jedna desetina se vyjme pro testování a zbylých devět desetin se použije pro učení. Celý tento postup se zopakuje desetkrát a výsledek testování se zprůměruje. Proto se tomuto způsobu testování říká desetinásobná křížová validace (10 fold cross-validation). Variantou tohoto přístupu je metoda leave-one-out. Z dat, která jsou k dispozici se vyjme jeden příklad pro testování a zbylá data se použijí pro učení. Toto se opakuje tolikrát, kolik příkladů máme. Vznikne tedy n souborů znalostí, které se otestují na n příkladech 4. Výsledek testování dává odhad, jak by se znalosti získané ze všech dostupných n příkladů chovaly při klasifikování příkladů neznámých. V případě že počet příkladů n je veliký (tisíce, desetitisíce), vypadá představa n běhů algoritmu poněkud absurdně. Naštěstí lze leave-one-out test implementovat efektivněji. Tak např. v algoritmu ESOD [Ivánek, Stejskal, 1988] se využívá toho, že při výpočtu platnosti implikace Ant Class pro celá data můžeme spočítat i platnosti pro případ, že z dat vyjmeme jeden příklad. Je-li a a + b platnost implikace Ant Class pro celá data 5, je a a + b - 1 platnost implikace Ant Class pro případ, že vyjmutý příklad splňoval Ant a nesplňoval Class, a 2 Výjimku z tohoto pravidla představuje metoda pesimistického odhadu na základě trénovacích dat kterou používá Quinlan ve svém C4.5. Pro každý list stromu počítá počet všech pokrytých příkladů (analogie s hodnotou a+b ze čtyřponí tabulky) a počet chybně pokrytých příkladů (analogie s hodnotou b). Výskyt chybné klasifikace pak chápe jako náhodný jev (pozorovaný na vzorku příkladů pokrytých listem), který se řídí binomickým rozdělením. Pro zvolenou hladinu významnosti CF pak spočítá horní (pesimistický) odhad pravděpodobnosti výskytu chybné klasifikace U CF (a,b). Odhad počtu chybných klasifikací v uvažovaném listu je pak U CF (a,b) (a+b). Součet těchto počtů přes všechny listy je pak odhadem počtu chyb celého stromu. 3 V tom smyslu, že rozdělení příkladů do tříd v testovacích datech se řídí stejnými zákonitostmi jako rozdělení příkladů do tříd v datech trénovacích, jinými slovy, že je stejný podíl tříd v obou vzorcích. 4 Jde tedy vlastně o n-fold cross-validation. 5 Vycházíme z toho, že implikace Ant Class má v celých datech čtyřpolní tabulku Class Ant a r b Ant c r d Class

3 a - 1 a + b - 1 je platnost implikace Ant Class pro případ, že vyjmutý příklad splňoval Ant i Class. Obě uvedené varianty platnosti tedy pokrývají všech n podob trénovacích dat. Pokud je uvažujeme současně, získáme při jednom průchodu daty informace potřebné pro všech n variant. Pro vlastní algoritmus tvorby pravidel 6 to tedy znamená, že kromě implikací (a pravidel) pro plná data paralelně pracujeme s implikacemi (a pravidly) zohledňujícími všechny možnosti pří leave-one-out testu. Při metodě zvané bootstrap se příklady vybrané pro učení mohou opakovat. Na rozdíl od křížové validace, kdy jeden příklad se použije buď pro učení nebo pro testování, zde se tentýž příklad může pro učení vybrat několikrát. Máme-li opět k dispozici n příkladů, n-krát provedeme výběr s navracením, abychom získali n příkladů pro učení. Pravděpodobnost, že příklad bude vybrán je 1/n, pravděpodobnost že vybrán nebude je 1-1/n. Při n opakováních je pravděpodobnost, že příklad vybrán nebude n 1 lim n 1 = e 1 = n Pro rozumě velká data se tedy vybere zhruba 63,2% příkladů pro učení a 36.8% příkladů pro testování. V trénovací množině se budou příklady opakovat, to co zbude se použije při testování. Tomuto poměru zhruba odpovídá náhodný výběr 75% příkladů pro učení a 25% příkladů pro testování 7. Na rozdíl od bootstrapu se opět každý příklad použije jen jednou; pro učení nebo pro testování. Na rozdíl od křížové validace se učení i testování provede jen jednou. Ať tak či onak, cílem testování je určit, v kolika případech se klasifikátor shoduje s učitelem a v kolika případech se dopustil chyb. Tyto údaje bývá zvykem zachycovat v tzv. matici záměn (confusion matrix), viz Tab. 1. V matici jsou ve sloupcích uvedeny informace o tom, jak postupoval při klasifikaci systém využívající nalezené znalosti, v řádcích informace o tom, jak to má (alespoň jak učitel říká) být. Tab. 1 zachycuje situaci, kdy jde o klasifikaci do dvou tříd, + a - 8. TP (správně positivní, true positive) je počet příkladů, které systém správně zařadil do třídy +, FP (falešně positivní, false positive) je počet příkladů, které systém chybně zařadil do třídy + (patří do třídy - ) TN (správně negativní, true negative) je počet příkladů, které systém správně zařadil do třídy -, a FN (falešně negativní, false negative) je počet příkladů, které systém nesprávně zařadil do třídy - (patří do třídy + ). Klasifikace systémem Správné zařazení TP FN - FP TN Tab. 1 Matice záměn 6 Jde o algoritmus ESOD popsaný na jiném místě knihy. 7 Jedná se o empiricky doporučený poměr trénovacích a testovacích dat. 8 V případě více tříd je vhodnější zvětšit počet sloupců i řádků tak, aby odpovídal počtu tříd. Často nás totiž nezajímá pouze prosté zjištění, že systém udělal chybu ale i to, kterou chybu udělal. 3

4 Matice záměn sleduje pouze počty správně a nesprávně zařazených příkladů. V řadě případů může být důležitý i typ chyby, kterého se systém dopustil (FP vs. FN). Jestliže se systém, který hodnotí bonitu klientů banky za účelem rozhodnutí o úvěru dopustí chyby, nastane buď situace, že doporučí půjčku klientovi, který nesplatí, nebo situace, že zamítne půjčku klientovi, který by ji splatil. V prvním případě tak banka prodělá, ve druhém případě banka nevydělá. První chyba je z hlediska banky jistě závažnější 9. Skutečnost, že různé chyby jsou různě závažné, lze do testování (i učení) zahrnout pomocí tzv. matice cen (cost matrix). Zde se uvede, jaká je cena za různé typy rozhodnutí; čím horší chyba, tím vyšší cena 10. Při hodnocení znalostí se tedy nemusí brát do úvahy prostý počet chybných rozhodnutí, ale i cena těchto chyb (ztráta, způsobená uživateli) Celková správnost Celková správnost (overall accuracy) resp. úspěšnost (succesfulness), nebo komplementární celková chyba (overall error) jsou nejjednodušší charakteristiky toho, jak jsou získané znalosti kvalitní. Celková správnost se spočítá jako relativní počet správných rozhodnutí systému Acc = TP + TN TP + TN + FP + FN, celková chyba se spočítá jako relativní počet chybných rozhodnutí systému Err = FP + FN TP + TN + FP + FN. Celková správnost by měla být v intervalu [Acc def, Acc max ], kde Acc def je správnost systému, který všchny příklady přiřadí k majoritní třídě 11, a Acc max je maximální správnost dosažitelná pro daná data 12. V případě, že nás při testování zajímá jen počet správných resp. nesprávných rozhodnutí systému, je Err = 1 Acc. Pokud bereme do úvahy i matici cen, výše uvedená rovnost neplatí a je vhodnější použít jako kritérium celkovou chybu spočítanou tak, že se počty chybných rozhodnutí (FP, FN) vynásobí cenou za příslušný typ chyby: Err = FP * c(p,n) + FN * c(n,p), kde c(p,n) je cena zařazení negativního příkladu do třídy + a c(n,p) je cena zařazení pozitivního příkladu do třídy -. 9 Ve statistice se v podobných situacích používá pojem chyba prvního druhu a chyba druhého druhu. 10 Správné rozhodnutí (TP, TN) má obvykle cenu Znalosti tohoto systému jsou např. tvořeny pouze implicitním (default) pravidlem. 12 V případě, že v datech nejsou kontradikce (příklady se stejnými hodnotami vstupních atributů které se liší v přiřazení ke třídě), je tato správnost 1 (100%). V případě kontradikcí je tato správnost nižší neboť systém zařadí všechny stejně popsané případy to téže třídy.

5 6.1.2 Správnost pro jednotlivé třídy V případě, že třídy jsou v datech rozloženy výrazně nerovnoměrně (např. pouze 5% klientů banky je podezřelých, zbylých 95% je v pořádku), bude celková správnost dávat zkreslený obraz o nalezených znalostech. 95% celková správnost může znamenat, že jsme nerozpoznali žádného podezřelého klienta (95% je implicitní správnost), nebo že jsme rozpoznali všechny podezřelé klienty (a dopustili se chyb při rozpoznávání klientů spolehlivých). V takové situaci je vhodnější sledovat správnost (resp. chybu) pro jednotlivé třídy: Acc + = TP TP + FP Acc - = TN TN + FN Přesnost a úplnost Přesnost a úplnost (precision and recall) jsou pojmy používané v oblasti vyhledávání informací. Hledáme-li např. na webu nějaké dokumenty týkající se určitého tématu (třeba pomocí vyhledávače jako je altavista), pak : 1. ne všechny nalezené dokumenty se týkají tématu, 2. určitě jsme nenalezli vše co je o tématu k dispozici. Přesnost nám říká, kolik nalezených dokumentů se skutečně týká daného tématu a úplnost nám říká, kolik dokumentů týkajících se tématu jsme nalezli. Tyto míry shody lze použít i pro hodnocení znalostí: TP Přesnost = TP + FP Úplnost = TP TP + FN Jak je vidět, je přesnost totéž jako správnost pro danou třídu. Někdy se používá souhrnná charakteristika F-míra 2 * přesnost * úplnost 2TP F = přesnost + úplnost = 2TP + FP + FN Sensitivita a specificita Sensitivita a specificita (sensitivity a specificity) jsou charakteristiky převzaté z mediciny. V případě nasazení nějakého nového léku nás zajímá, u kolika nemocných pacientů lék zabere (sensitivita), a zda lék zabírá pouze na danou chorobu (specificita). Z matice záměn se tyto hodnoty spočítají jako: Sensitivita = TP TP + FN Specificita = TN TN + FP 5

6 A opět můžeme pozorovat shodu používaných kritérií; sensitivita je totéž co úplnost. Sensitivita a specificita se buď uvádějí samostatně nebo jako vzájemný součin obou čísel Spolehlivost klasifikace V [Berka, 1997] jsme uvedli jiný pohled na hodnocení klasifikátoru založený na meta učení. Meta učení (meta learning) je postup, při kterém se na výsledky klasifikátorů opětovně použije nějaký učící se algoritmus. Koncept meta učení nalezneme v této kapitole ještě několikrát. Zde konkrétně bylo meta učení použito pro určení spolehlivosti klasifikace. Celý postup je znázorněn na Obr. 1. Z původních trénovacích dat se vytvoří model, který se použije pro klasifikaci těchto trénovacích dat i pro testování na datech testovacích (krok klasifikace). V kroku verifikace se nejprve vytvoří nová trénovací a testovací data tak, že se k původním datům přidá nový binární atribut vyjadřující, zda při klasifikaci došlo nebo nedošlo ke shodě se skutečností. Pro nová trénovací data vytvoříme model, který bude tentokrát pro daný příklad predikovat zda dojde ke shodě (atribut shoda je cíl, původní vstupní atributy zůstávají stejné). Model pak otestujeme na nových testovacích datech. Při použití tohoho přístupu při klasifikaci nových příkladů klasifikačním modelem příklad zařadíme do třídy a verifikačním modelem určíme spolehlivost tohoto přiřazení. Obr. 1 Určení spolehlivosti klasifikace

7 Doposud jsme hodnotili znalosti na základě jednoho testování; pomocí jednoho čísla 13. Komplexnější popis chování modelu nám mohou dát následující analýzy. Při hodnocení na základě více testů může jít opět o hodnocení jednoho modelu (křivka učení, lift chart) nebo o hodnocení více modelů 14 (ROC, DEA). Všechny tyto metody používají grafické znázornění výsledků testování Křivka učení Křivka učení (learning curve) dává do souvislosti počet příkladů v trénovací množině a správnost klasifikace (Obr. 2). Vychází se z předpokladu, že čím více příkladů je k dispozici ve fázi učení, tím budou nalezené znalosti přesnější. Pro různé počty příkladů tak dostaneme různé hodnoty správnosti při testování (Tab. 2). Testování se často provádí opakovaně, takže kromě průměrné hodnoty správnosti Acc získáme ještě její chybu (třetí sloupec v Tab. 2). Tato chyba se obvykle počítá jako S Acc ( ) n, kde Acci - Acc 2 S i Acc = n - 1 Počet příkladů Prům.Správnost chyba % % % % % % % % % % % % % % % % % % Tab. 2 Data pro křivku učení 2 Obr. 2 Křivka učení 13 V případě např. desetinásobné křížové validace jednomu číslu odpovídá průměrná hodnota z výsledků na deseti maticích záměn. 14 Zvolený učící se algoritmus může mít celou řadu parametrů, které ovlivňují nalezeneé znalosti. Nejmarkantněji je to vidět u neuronových sítí, ale můžeme to pozorovat i u rozhodovacích stromů a pravidel. 7

8 Jistou analogií tohoto přístupu je křivka učení používaná při učení neuronových sítí jako indikace toho, kdy je možno učení ukončit. Zde se jedná o závislost správnosti na počtu iterací (průchodů týmiž trénovacími daty) viz Obr. 3. Obr. 3 Závislost správnosti na počtu iterací Křivka navýšení Křivka navýšení (lift curve) se často používá v marketingu. Vezměme si situaci, kdy je třeba poslat klientům nabídku nějakého produktu. Ze zkušenosti víme, že na takovou nabídku odpoví velice málo (řekněme 1%) oslovených zákazníků. To znamená, že většina dopisů s nabídkou je odeslána zbytečně. Při tvorbě modelu bychom tuto skutečnost chtěli vzít v úvahu. To umožní křivka navýšení, která dává do souvislosti podíl respondentů, kteří odpověděli (TP) s podílem odeslaných dopisů (TP+TN+ FP+FN). Jak takovou křivku vytvořit? Lze to pouze u modelů, které neprovádějí pouze binární klasifikaci (ano/ne) ale klasifikace je doprovázena numerickou hodnotou, která vyjadřuje, jak moc si klasifikátor věří při svém rozhodnutí pro daný příklad (pravděpodobnost, váha). Lze tedy křivku navýšení vytvořit např. pro neuronové sítě, bayesovské klasifikátory nebo KEX. Nejprve seřadíme příklady použité při testování sestupně podle váhy klasifikace. U každého příkladu máme samozřejmě k dispozici informaci o tom, do které třídy patří (Tab. 3). Pak pro libovolný úsek setříděných příkladů počínaje příkladem klasifikovaným s nejvyšší vahou vytvoříme dílčí matici záměn s hodnotami TP, TN, FP a FN. Hodnoty TP /TP a (TP + TN + FP + FN )/(TP +TN + FP + FN) 15 pak vyneseme do grafu. Křivka navýšení vždy prochází bodem [0,0] (nepošleme-li žádný dopis, nebude žádná odpověď) a [1,1] (pošleme-li dopisy všem, zachytíme všechny respondenty). Model bude tím lepší, čím bude křivka navýšení ležet nad diagonálou reprezentující náhodný výběr. Z křivky navýšení uvedené na Obr. 4 lze vyčíst, že pošleme-li nabídku 40% nejperspektivnějším klientům, oslovíme 80% všech respondentů. Dosáhli jsme tedy dvojnásobného navýšení odezvy klientů ve srovnání s náhodným výběrem 40% adresátů. 15 Hodnoty TP, TN, FP a FN odpovídají celým testovacím datům.

9 Pořadí skutečná třída predikce pro , ,93 3-0, , , Tab. 3 Data pro křivku navýšení Obr. 4 Křivka navýšení V případě, že máme k dispozici informace o cenách za odeslání nabídky i o cenách nabízeného produktu, můžeme křivku navýšení převést na křivku návratnosti investic (ROI). Z této křivky je přímo vidět jak se mění náš zisk v závislosti na počtu oslovených klientů (Obr. 5) 16 Obr. 5 Křívka návratnosti investic 16 Celý přiklad je převzat z demo dat k systému Clementine. 9

10 6.1.8 Křivka ROC Křivka ROC (ROC curve) byla převzata pro evaluaci modelů z oblasti radiotechniky 17 nedávno [Provost, Fawcett, 1997]. Tato křivka dává do souvislosti podíl TP s podílem FP: poměrně TP % = FP % = TP TP + FN FP FP + TN Uvedené charakteristiky již známe; TP % = Sensitivita, FP % = 1 Specificita. Používá se tedy i kritérium TP % * (1 FP % ). ROC křivku lze použít u modelů, které klasifikaci doprovázejí váhou resp. pravděpodobností. Křivku vytvoříme tak, že budeme měnit práh při kterém bude výsledek klasifikace interpretován jako třída Bodu [0,0] (žádná predikce třídy +) odpovídá práh 1, bodu [1,1] (všechny příklady zařazeny do třídy + ) odpovídá práh 0. Změnou prahu lze simulovat chování modelu v případě změny poměru mezi počty příkladů obou tříd i změny cen za chybnou klasifikaci, ROC křivka tedy dává obraz o chování klasifikátoru bez ohledu na rozdělení tříd a na cenu chyb. Poznamenejme, že je žádoucí se v grafu pohybovat vlevo nahoře, tedy blízko bodu [0,1], který odpovídá bezchybné klasifikaci. Obr. 6 ROC křivka Variantu tohoto pohledu nalezneme v [Berka, Pelikán, 1997]. Zde s přímo sleduje, jak se mění celková správnost klasifikace v závislosti na prahu (Obr. 7 vlevo). Opět se tedy předpokládá klasifikace v celé škále [0,1]. Jistý rozdíl oproti ROC křivce zde ale přece jenom je; model (v tomto případě KEX) může odmítnout rozhodnutí. To se stane v případě, že predikovaná váha leží v intervalu [1-práh, práh]. S rostoucím prahem tedy klesá počet klasifikovaných příkladů (Obr. 7 vpravo). 17 ROC znamená receiver oerating characteristic, tedy pracovní charakteristika přijímače. 18 ROC křivku můžeme tedy vytvořit podobně jako křivku navýšení; na základě volby vzorku ze seznamu příkladů uspořádaného podle výsledků klasifikace (predikce + ).

11 Obr. 7 Závislost správnosti a počtu rozhodnutí na prahu DEA analýza DEA analýza (DEA analysis, data envelope analysis) je metoda používaná v ekonometrii. Při testování modelů ji můžeme použít, podobně jako ROC křivky, pro volbu optimálního nastavení parametrů učícího se algoritmu Numerické predikce Zatím jsme se zabývali situací, kdy cílem modelu je klasifikovat příklady do tříd. V případě numerické predikce 19 se jako kritérium správnosti používají např. střední kvadratická chyba (mean-squared error, MSE), odmocnina ze střední kvadratické chyby (root mean-squared error, RMSE), střední absolutní chyba (mean absolute error, MAE), relativní kvadratická chyba (relative squared error, RSE), nebo korelační koeficient ρ. MSE = (p 1-s 1 ) (p n -s n ) 2 n RMSE = (p 1 -s 1 ) (p n -s n ) 2 n ρ = RSE MAE = p 1-s p n -s n n 2 2 p1 s1 ) + + (pn sn ) = ( 1, kde s = 2 2 (s1 s) + + (s n s) i s i n, n - 1 S ps ( S 2 p S, kde p - p)( s - s) i i i S = 2 ps s 2 ( p - p), 2 i i Sp = n - 1 ( s - s) 2 i i Ss = n - 1 Ve výše uvedených vzorcích je p i predikovaná hodnota a s i skutečná hodnota pro i-tý přiklad ze souboru n příkladů tvořících trénovací data Při numerické predikci může být cílem např. určit budoucí cenu akcií. Nespokojíme se tedy pouze s klasifikací vzrůst ceny vs. pokles ceny. 11

12 6.2 Vizualizace Přestože vizualizace hraje důležitou roli především ve fázi porozumění datům resp. při interpretaci deskriptivních znalostí, můžeme se s ní setkat i při hodnocení modelů určených pro klasifikaci. Jako na jiných místech procesu dobývání znalostí, tak i zde jde o to umožnit expertovi lépe porozumět tomu, co se děje Vizualizace modelů Většina systémů pro dobývání znalostí z databází klade velký důraz na vizualizaci. Ta se projevuje i při vizualizaci modelů. Příkladem může být různý způsob znázornění rozhodovacího stromu od nejjednoduššího textového (systém Weka) až po trojrozměrné mrakodrapy okolo kterých je možno kroužit jako v letovém simulátoru (systém MineSet). Podoba rozhodovacích stromů je uvedena v kapitole věnované jednotlivým systémům; zde tuto věc zmiňujeme jen pro úplnost. Jiným příkladem je tzv. web uzel v systému Clementine, který zobrazuje asociace mezi hodnotami atributů. Síla čáry odpovídá síle vztahu (Obr. 8 převzatý z demo dat k systému). Obr. 8 Web uzel Vizualizovat můžeme i jednotlivá pravidla. Obr. 9 ukazuje koláčový graf odpovídající pravidlu IF nezamestnany(ne) THEN uver(ano) Hodnoty v grafu jsou převzaty z kontingenční tabulky, která má pro naše demonstrační data podobu

13 uver(ano) uver(ne) nezamestnany(ne) nezamestnany (ano) Uvedený graf názorněji ukazuje, že platnost pravidla 5/6 je větší než relativní četnost třídy úvěr(ano) v datech (ta je rovna 8/12) a že tedy toto pravidlo dobře charakterizuje bonitní klienty. Obr. 9 Vizualizace jednoho pravidla Vizualizace klasifikací Michalski [Michalski, 1978] navrhl použití tzv. obecných logických diagramů (general logic diagrams) pro zobrazování výsledků klasifikace pro jednotlivé příklady. Tento způsob je použitelný (tj. srozumitelný) jen pro relativně malý počet atributů. V tabulce 20, která zachycuje všechny možné hodnoty jednotlivých atributů (a tedy i všechny možné příklady), se znázorní rozhodnutí systému (výsledek klasifikace do tříd barvou), resp. chyby při klasifikaci (shoda rozhodnutí systému s informací od učitele jako kolečko, neshoda jako křížek). Obr. 10 ukazuje způsob implementace v knihovně programů pro strojové učení MLC++ [Kohavi, 1994]. 20 Tato tabulka připomíná Karnaghovu mapu používanou při syntéze logických obvodů. 13

14 Obr. 10 Obecný logický diagram Propojí-li se systém pro dobývání znalostí s geografickým informačním systémem (GIS), získáme přírozenou možnost vizualizace např. tak, že v mapě zobrazíme objekty, které splňují nějakou vlastnost, nebo které splňují nějaký vztah. Obr. 11 ukazuje příklad vizualizace sídel na jižní Moravě, vzhledem k jednomu asociačnímu pravidlu (tedy k jedné čtyřpolní tabulce) nalezenému systémem KEX. 21 Obr. 11 Vizualizace asociací 21 O KEXu se píše na jiném místě. Tato ukázka je ze společného projektu s firmou TERPLAN [Berka a kol, 1991].

15 6.3 Porovnávání modelů Máme-li k dispozici více algoritmů pro dobývání znalostí, můžeme je použít na tatáž data. Naskýtá se pak otázka, který z modelů je nejlepší. Odpověď se opět hledá na základě provedeného testování jednotlivých modelů. Výsledky testování se pak navzájem porovnávají T-test Dvouvýběrový t-test je statistický test, který umožňuje porovnávat dvě sady čísel, tak, že zjišťuje, zda se od sebe statisticky významně liší jejich průměry. Základem t-testu je statistika t počítaná jako x - y 1 t( x, y) =, kde x = S( x, y) 1/m + 1/n i x i m, y= 1 n y a i i S2 (x,y) = (m-1) S x 2 + (n-1) S 2 y m+n-2, přičemž S x a S z se spočítají analogicky jako S p a S s uvedené v odstavci o numerických predikcích. V našem případě budou oněmi sadami čísel správnosti (resp. chyby) stanovené např. násobnou křížovou validací pro dva různé modely. Model A bude lepší než model B, pokud t-testem zjistíme, že jeho průměrná správnost je signifikantně vyšší, tedy že t(acc A, Acc B ) > t(1- α/2, m + n 2), kde t(1- α/2, m + n 2), je (1- α/2)-kvantil Studentova t rozložení s m + n 2 stupni volnosti [Havránek, 1993] ROC křivky ROC křivky umožňují zachytit chování modelu (klasifikátoru) bez ohledu na rozdělení tříd a cen. Očekávaná cena klasifikace modelu, který odpovídá bodu [TP, FP] křivky je Cost = p(p) * FP % * c(p,n) + p(n) * FN % * c(n,p), kde p(p) a p(n) jsou apriorní pravděpodobnosti (relativní četnosti) pozitivních a negativních příkladů, c(p,n) a c( N,p) jsou ceny za chybnou klasifikaci, a FP % a FN % jsou poměry správně positivních a správně negativních klasifikací. Dva body [TP 1, FP 1 ], [TP 2, FP 2 ] budou odpovídat stejně kvalitním modelům, pokud TP 2 - TP 1 FP 2 - FP = p(n)c(p,n) 1 p(p)c(n,p) Tato rovnice definuje směrnici linie stejného výkonu (iso-performance lines); všechny modely ležící na jedné linii mají stejné očekávané ceny klasifikace. Obr. 12 ukazuje ROC křivky pro tři modely. Je zřejmé, že model C je nejhorší, protože jeho křivka leží všude pod křivkami zbývajících modelů. Jiné je to pro modely A a B. Při některých strategiích rozhodování bude vhodnější model A (minimalizujeme poměr FP % i za cenu nižšího poměru TP % ), při jiných strategiích bude vhodnější model B (maximalizujeme poměr TP % i za cenu vyššího poměru FP % ). Pro hodnoty směrnic linií stejného výkonu v intervalu [0,1] (tedy např 0.1 pro p(n)/p(p)=1 a 15

16 c(p,n)/c(n,p)=0.1) bude lepši model B, pro hodnoty směrnic v intervalu [1, ] (např. 2 pro p(n)/p(p)=10 a c(p,n)/c(n,p)=0.2) bude lepší model A. Jak tedy nalézt metodu, která bude optimální pro danou strategii (pro danou matici cen resp. poměr tříd)? K tomu se použije tzv. konvexní obal (convex hull) ROC prostoru, který obepíná dané ROC křivky. Klasifikátor, který bude ležet na tomto obalu bude (pro danou strategii) optimální. Lze totiž ukázat, že neleží-li bod ROC křivky na konvexním obalu, lze pro libovolnou rodinu linií stejného výkonu (tedy pro linie se stejnou směrnicí) nalézt bod, který leží na linii se stejnou směrnici, ale s větším průsečíkem s osou TP %. Vidíme tedy, že pro určité strategie nabude ani model A ani model B optimální, protože příslušné ROC křivky leží pod konvexním obalem (tato část je v grafu vyznačena šedou barvou). Zlepšení klasifikace lze pak dosáhnout kombinací obou modelů. A B C Obr. 12 ROC křivky s konvexním obalem Occamova břitva V případě shody správnosti (chyby) vstupují do hry další kritéria. Nejznámějším je tzv. Occamova břitva. Jedná se filosofický předpoklad, který říká, že nejlepší vědecká teorie je ta nejjednodušší, která popisuje všechna fakta. Převedeno na porovnávání modelů jde o kritérium, které říká, že lepší je menší model (méně pravidel, menší strom apod.). V teorii učících se systémů má tento předpoklad jednoduchosti podobu principu minimální délky popisu (minimum description length, MDL) o kterém byla již zmínka v souvislosti s bayesovským klasifikátorem.

17 6.4 Volba nejvhodnějšího algoritmu Vzhledem k tomu, že neexistuje algoritmus, který by předčil ostatní na libovolných datech 22, dostává se do popředí otázka jak dopředu poznat, který algoritmus zvolit pro danou úlohu. Odpověď můžeme hledat na základě znalosti silných a slabých stránek jednotlivých algoritmů, nebo experimentálně. Mezi známé charakteristiky algoritmů, které můžeme brát do úvahy patří např. Rozdíl mezi způsobem reprezentace příkladů (hodnoty atributů nebo relace), rozdíl mezi vyjadřovací silou jednotlivých algoritmů (rozhodovací stromy a pravidla rozdělují prostor atributů rovnoběžně s osami, neuronové sítě nebo diskriminační funkce naleznou i diagonální hranici mezi třídami), schopnost práce s numerickými atributy (některé algoritmy vyžadují pouze kategoriální atributy), schopnost práce se zašuměnými a chybějícími daty (vyhození vs. extrapolace), schopnost práce s maticí cen (ve fázi učení, ve fázi testování, vůbec ne), předpoklad nezávislosti mezi atributy (např. naivní Bayesovský klasifikátor), ostrá vs. neostrá klasifikace (jen indikátor třídy nebo i pravděpodobnost či váha klasifikace). K empirickým studiím vhodnosti jednotlivých algoritmů na různé typy dat patří dva rozsáhlé výzkumné projekty celoevropského rozsahu, STATLOG a METAL STATLOG V letech se v rámci výzkumného programu Evropského společenství řešil projekt 23, jehož cílem bylo komparativní testování a vyhodnocení různých učících se algoritmů na rozsáhlých aplikacích v oblasti klasifikace a predikce [Michie a kol., 1994]. V rámci projektu bylo porovnáváno okolo 20 různých algoritmů na zhruba 20 různých datových souborech. Cílem bylo zjistit, na jaké typy dat se hodí ten který algoritmus. Jednotlivé datové soubory byly popsány souborem 24 jednoduchých charakteristik, statistických charakteristik a charakteristik z oblasti teorie informace. Vznikla tak jakási metadata (data o datech) která byla použita při následné analýze. Pro každý datový soubor se (běžnými metodami testování) zjistilo, jaké dávají jednotlivé algoritmy výsledky (správnost, chyba). Byla tedy k dispozici informace, které algoritmy jsou na daná data vhodné (dávají malou chybu) a které jsou nevhodné. Tato informace byla (jakožto cílový atribut) přidána k metadatům; vznikla tak trénovací množina, na kterou byl nasazen algoritmus C Výsledkem byla řada pravidel typu: If charakteristiky dat jsou CH then použij algoritmus A. Příkladem může být pravidlo IF počet příkladů < 6435 AND šikmost > 0.57 THEN použij CART K souhrnným výsledkům patří: 22 Tato skutečnost je známa pod názvem no free lunch teorem. 23 ESPRIT projekt č. 5170, známý pod akronymem STATLOG. 24 Mezi jednoduché charkteristiky patří počet příkladů, počet atributů, počet tříd, počet binárních atributů. Mezi statistické charakteristiky patří parametry rozdělení dat jako šikmost, špičatost nebo různé korelační charakterisitky (střední korelace atributů, první kanonická korelace). K charakteristikám z teorie informace patří entropie třídy, střední entropie atributů, střeení vzájemná informace třídy a atributů nebo poměr signál/šum. 25 Důvodem volby tohoto algoritmu byla snadná interpretovatelnost vytvořených rozhodovacích stromů i skutečnost, že C4.5 si v testech na vlastních datech vedl poměrně dobře. 17

18 pro rozsáhlá data se hodí diskriminační analýza (lineární, kvadratická), není velký rozdíl mezi obyčejnou a logistickou diskriminační analýzou, na rozsáhlých datech je nejpomalejší metoda k nejbližších sousedů, použité algoritmy na tvorbu rozhodovacích stromů se chovaly zhruba stejně; nezdá se tedy, že by nějak zvlášť záleželo na kritériu pro volbu větvení, neuronové sítě dávaly výborné výsledky u dat, kde se nepoužívala matice cen. Řešitelé projektu STATLOG správně upozorňují na různé možné příčiny odlišností v správnosti jednotlivých algoritmů na daných datech: různá vhodnost algoritmů jako takových, různě vhodná implicitní nastavení parametrů jednotlivých modelů, různá zkušenost uživatelů s laděním parametrů, vliv předzpracování dat (např. diskretizace do různých intervalů) METAL Projekt METAL (Meta Learning) volně navazuje na projekt STATLOG. Tento projekt, řešený jako ESPRIT projekt č v rámci 5. programu, byl zahájen v roce Cílem projektu je pomoci běžnému uživateli s volbou vhodné metody strojového učení i s volbou metod pro předzpracování dat. V současné době se práce zaměřily na otázku řazení klasifikátorů. Zatím je navrženo několik metod využívajících správnosti a doby výpočtu pro hodnocení klasifikátorů testovaných na různých datech [Brazdil, Soares, 2000]: Průměrné pořadí (na základě uspořádání všech klasifikátorů pro jednotlivé datové soubory) Poměr úspěšnosti (na základě vyhodnocení dvojic klasifikátorů) Významní vítězové (na základě vyhodnocení dvojic klasifikátorů) 6.5 Kombinování modelů Možností jak zlepšit výsledky dosažené jednotlivými modely je jejich vzájemná kombinace. Nejběžnějším způsobem je kombinovat rozhodnutí z více modelů do výsledného závěru některou z variant hlasování. Přehled různých metod lze nalézt v [Diettrich, 2000] nebo [Bauer, Kohavi, 1999]. Při metodě zvané bagging (bootstrap aggregating) mají všechny modely rovný hlas. Předpokládejme použití jednoho algoritmu (např. rozhodovacích stromů). Pro potřeby učení se z daných dat vytvoří několik stejně velkých trénovacích množin pomocí náhodného výběru s opakováním (viz dříve zmíněná metoda bootstrap). Učení probíhá na jednotlivých trénovacích množinách nezávisle. Výsledné modely (rozhodovací stromy) se pak v procesu testování nechají hlasovat o přiřazení testovaného příkladu ke třídě. Při metodě zvané boosting se postupně vytvářejí modely se stále větší váhou hlasu. Každý nový model je ovlivněn modely vytvořenými v předcházejících krocích. Ve fázi učení se nový model zaměřuje na ty příklady, které se nepodařilo zatím správně klasifikovat. Na počátku (při vytváření prvního modelu) mají všechny příklady stejnou váhu. Na základě výsledků klasifikace se váhy příkladů změní; u správně klasifikovaných se váha sníží, u chybně klasifikovaných se váha zvýší. To umožní od sebe odlišit jednoduché příklady (ty s nižší vahou) a složité příklady (ty s vyšší vahou). Celý postup se několikrát opakuje. Ve fázi klasifikace jednotlivé modely váženě hlasují o zařazení příkladu do třídy. Obr. 13 ukazuje podobu tohoto algoritmu známou jako AdaBoost ([Shapire, 1999]). Podobně jako u předcházející metody i zde se předpokládá použití stejného algoritmu u všech modelů.

19 AdaBoost algoritmus učení 1. Přiřaď stejnou váhu všem trénovacím příkladům, 2. Pro každou iteraci (vytvářený model) 2.1. Vytvoř model 2.2. Spočítej chybu err na vážených datech 2.3. If err=0 nebo err>0.5 konec 2.4. Pro každý příklad If klasifikace je správně then váha w=w*err/(1-err) 2.5. Normalizuj váhy příkladů (součet nových vah stejný jako součet původních) klasifikace jednoho příkladu 1. Přiřaď váhy 0 všem třídám 2. Pro každý model Přiřaď třídě určené modelem váhu w=w-log(err/1-err) 3. Vydej třídu s nejvyšší váhou Obr. 13 Algoritmus AdaBoost V případě kombinování modelů vzniklých na základě různých algoritmů vyvstává jeden základní problém. Kterému modelu více věřit. Hlasování klasifikátorů má totiž smysl jen tehdy, jestliže všechny klasifikátory dávají srovnatelné výsledky. Pokud jsou ale některé modely výrazně horší, jejich zahrnutím do hlasování získáme horší výsledky než při použití jednoho lepšího modelu. Otázkou jak rozpoznat spolehlivost jednotlivých modelů se zabývá metoda zvaná stacking (stacked generalization). Zavádí se zde koncept meta učení, což je použití metod učení pro zjištění, jak nejlépe kombinovat jednotlivé modely. Tedy při meta učení se provádí učení z výsledků jednotlivých klasifikátorů. Vstupem do uvedené metody jsou výsledky klasifikace jednotlivými systémy. Počet vstupních atributů pro meta učení (pro model na první úrovni) je tedy dán počtem modelů na nulté úrovni (základní klasifikátor, base classifier); v nejjednodušším případě může být pro každý základní klasifikátor jeden atribut (indikátor predikované třídy), složitější varianta může brát z každého základního klasifikátoru tolik atributů, kolik je tříd (např. pravděpodobnost zařazení objektu do těchto tříd). Cílovým atributem pro meta učení je skutečná třída. Výsledkem meta učení tedy jsou znalosti o tom, který základní klasifikátor se má použít (např. vždy věř modelu A a ignoruj model B). Klasifikace nových příkladů probíhá tak, že nejprve je příklad klasifikován základními klasifikátory a na základě těchto výsledků vydá model na první úrovni výsledné rozhodnutí. Schéma tohoto přístupu podle [Chan, Stolfo, 1993] je uvedena na Obr. 14. Obr. 14 Obecné schéma metaklasifikace 19

20 Literatura [Bauer, Kohavi, 1999] Bauer,E., and Kohavi,R.: An Empirical Comparison of Voting Classification Algorithms: Bagging, Boosting, and Variants. Machine Learning, 36(1/2): , [Berka, 1993] Berka,P.: Vybrané znalostní systémy, SAK, SAZE, KEX. Skripta VŠE, Praha 1993, 245s. [Berka, 1997] Berka,P.: Recognizing Reliability of Discovered Knowledge. In: (Komorowski, Zytkow eds.) Proc. Principles of Data Mining and Knowledge Discovery PKDD'97, LNAI 1263, Springer, 1997, [Berka a kol., 1991] Berka,P. Ivánek,J. - Jirků,P. - Stejskal,B.: Knowledge Acquisition from Data - a Tool for Regional Planning. In: UNIDO/CSFR Workshop of Interactive Decision Support Systems to Industrial and Territorial Planning, Bratislava, 1991 [Berka, Pelikán, 1997] Berka,P. Pelikán,E.: Data Computers in Finance and Economics. 1997, Mining Methods in Prediction. In: PASE'97, [Brazdil, Soares, 2000] Brazdil,P. Soares,C.: A Comparison of Ranking Methods for Classification Algorithm Selection. In: (Mantaras, Plaza eds.) Proc. European Conf. On Machine Learning ECML2000, LNAI 1810, Springer 2000, [Diettrich, 2000] Dietterich,T.G.: An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization. Machine Learning, 40(2): , [Havránek, 1993] Havránek,T.: Statistika pro biologické a lékařské vědy. Academia, ISBN [Chan, Stolfo, 1993] Chan,P.K. - Stolfo,S.J.: Experiments on Multistrategy Learning by Meta-Learning. In: Proc. 2 nd Int. Conf. on Information and Knowledge Management, [Ivánek, Stejskal, 1988] Ivánek,J. - Stejskal,B.: Automatic acquisition of knowledge base from data without expert: ESOD (Expert System from Observational Data). In: Proc. COMPSTAT'88 Copenhagen, Physica-Verlag, 1988, [Kohavi, 1994] Kohavi,R.: MLC++. A Machine Learning Library in C++, Tech.Rep. CS229B, Stanford Univ [Michalski, 1978] Michalski,R.S.: A Planar Geometric Model for Presenting Multidimensional Discrete Spaces and Multiple-valued Logic Functions. Tech. Rep. UIUCDCS-R , Univ. of Illinois, [Michie a kol., 1994] Michie,D. Spiegelhalter,D.J. Taylor.: Machine Learning, Neural and Statistical Classification. Ellis Horwood, 1994, ISBN X. [Provost, Fawcett, 1997] Provost,F. Fawcett,T.: Analysis and Visualization of Classifier Performance: Comparison under Imprecise Class and Cost Distributions. In: Proc. KDD-97, AAAI Press, 1997, [Shapire, 1999] Shapire,R.: Theoretical Views of Boosting and Applications. In: Proc.10 th Algorithmic Learning Theory. Int. Conf. on [Witten, Frank, 1999] Witten,I.H. Frank,E.: Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufman, 1999, ISBN

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

Rozhodovací pravidla

Rozhodovací pravidla Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? 2 Osnova Úvod různé klasifikační modely a jejich kvalita Hodnotící míry (kriteria kvality) pro zvolený model. Postup vyhodnocování

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Metody analýzy modelů. Radek Pelánek

Metody analýzy modelů. Radek Pelánek Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza

Více

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality RNDr. Alena Mikušková FN Brno Pracoviště dětské medicíny, OKB amikuskova@fnbrno.cz Analytické znaky laboratorní metody

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/ Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy

Více

Kombinování klasifikátorů Ensamble based systems

Kombinování klasifikátorů Ensamble based systems Kombinování klasifikátorů Ensamble based systems Rozhodování z více hledisek V běžném životě se často snažíme získat názor více expertů, než přijmeme závažné rozhodnutí: Před operací se radíme s více lékaři

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace

Více

Rozdělování dat do trénovacích a testovacích množin

Rozdělování dat do trénovacích a testovacích množin Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Připomeň: Shluková analýza

Připomeň: Shluková analýza Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory

Více

ÚLOHY S POLYGONEM. Polygon řetězec úseček, poslední bod je totožný s prvním. 6 bodů: X1, Y1 až X6,Y6 Y1=X6, Y1=Y6 STANOVENÍ PLOCHY JEDNOHO POLYGONU

ÚLOHY S POLYGONEM. Polygon řetězec úseček, poslední bod je totožný s prvním. 6 bodů: X1, Y1 až X6,Y6 Y1=X6, Y1=Y6 STANOVENÍ PLOCHY JEDNOHO POLYGONU ÚLOHY S POLYGONEM Polygon řetězec úseček, poslední bod je totožný s prvním 6 bodů: X1, Y1 až X6,Y6 Y1=X6, Y1=Y6 STANOVENÍ PLOCHY JEDNOHO POLYGONU 3 úsečky (segmenty) v horní části 2 úsečky ve spodní části

Více

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

Testování modelů a jejich výsledků. tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z

Více

Tabulka 1. Výběr z datové tabulky

Tabulka 1. Výběr z datové tabulky 1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat

Více

4EK213 LINEÁRNÍ MODELY

4EK213 LINEÁRNÍ MODELY 4EK213 LINEÁRNÍ MODELY Úterý 11:00 12:30 hod. učebna SB 324 3. přednáška SIMPLEXOVÁ METODA I. OSNOVA PŘEDNÁŠKY Standardní tvar MM Základní věta LP Princip simplexové metody Výchozí řešení SM Zlepšení řešení

Více

Úvod do problematiky měření

Úvod do problematiky měření 1/18 Lord Kelvin: "Když to, o čem mluvíte, můžete změřit, a vyjádřit to pomocí čísel, něco o tom víte. Ale když to nemůžete vyjádřit číselně, je vaše znalost hubená a nedostatečná. Může to být začátek

Více

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Statistické zpracování naměřených experimentálních dat za rok 2012

Statistické zpracování naměřených experimentálních dat za rok 2012 Statistické zpracování naměřených experimentálních dat za rok 2012 Popis dat: Experimentální data byla získána ze tří měřících sloupů označených pro jednoduchost názvy ZELENA, BILA a RUDA. Tyto měřící

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Jana Vránová, 3. lékařská fakulta, UK Praha

Jana Vránová, 3. lékařská fakulta, UK Praha Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Jméno: Lucie Krechlerová, Karel Kozma, René Dubský, David Drobík Ročník: 2015/2016

Více

StatSoft Jaký je mezi nimi rozdíl?

StatSoft Jaký je mezi nimi rozdíl? StatSoft Jaký je mezi nimi rozdíl? GAINS ROC X P okud se zabýváte klasifikačními úlohami, pak většinou potřebujete nějakým způsobem mezi sebou porovnat kvalitu vyprodukovaných modelů. Mezi základní pomůcky

Více

Segmentace bankovních zákazníků algoritmem k- means

Segmentace bankovních zákazníků algoritmem k- means Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22 Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování...

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

Vzdělávací oblast: Matematika a její aplikace Vzdělávací obor: Matematický kroužek pro nadané žáky ročník 9.

Vzdělávací oblast: Matematika a její aplikace Vzdělávací obor: Matematický kroužek pro nadané žáky ročník 9. Vzdělávací oblast: Matematika a její aplikace Vzdělávací obor: Matematický kroužek pro nadané žáky ročník 9. Školní rok 2013/2014 Mgr. Lenka Mateová Kapitola Téma (Učivo) Znalosti a dovednosti (výstup)

Více

Cvičení 12: Binární logistická regrese

Cvičení 12: Binární logistická regrese Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná Cíl analýz Odhadnout hodnot

Více

Plánování experimentu

Plánování experimentu SEMESTRÁLNÍ PRÁCE Plánování experimentu 05/06 Ing. Petr Eliáš 1. NÁVRH NOVÉHO VALIVÉHO LOŽISKA 1.1 Zadání Při návrhu nového valivého ložiska se v prvotní fázi uvažovalo pouze o změně designu věnečku (parametr

Více

7 Kardinální informace o kritériích (část 1)

7 Kardinální informace o kritériích (část 1) 7 Kardinální informace o kritériích (část 1) Předpokládejme stejná značení jako v předchozích cvičeních. Kardinální informací o kritériích se rozumí ohodnocení jejich důležitosti k pomocí váhového vektoru

Více

Chybějící atributy a postupy pro jejich náhradu

Chybějící atributy a postupy pro jejich náhradu Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

1.1 Příklad z ekonomického prostředí 1

1.1 Příklad z ekonomického prostředí 1 1.1 Příklad z ekonomického prostředí 1 Smysl solidního zvládnutí matematiky v bakalářských oborech na Fakultě podnikatelské VUT v Brně je především v aplikační síle matematiky v odborných předmětech a

Více

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu http://akademie.ldf.mendelu.cz/cz (reg. č. CZ.1.07/2.2.00/28.

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu http://akademie.ldf.mendelu.cz/cz (reg. č. CZ.1.07/2.2.00/28. Základy lineárního programování Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Tvar dat a nástroj přeskupování

Tvar dat a nástroj přeskupování StatSoft Tvar dat a nástroj přeskupování Chtěli jste někdy použít data v jistém tvaru a STATISTICA Vám to nedovolila? Jistě se najde někdo, kdo se v této situaci již ocitl. Není ale potřeba propadat panice,

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více