Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Podobné dokumenty
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ANALÝZA A KLASIFIKACE DAT

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Regresní a korelační analýza

Statistická teorie učení

Vytěžování znalostí z dat

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Regresní a korelační analýza

Regresní a korelační analýza

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Normální (Gaussovo) rozdělení

Pravděpodobně skoro správné. PAC učení 1

Regresní a korelační analýza

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a aplikovaná statistika

Testování statistických hypotéz

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Návrh a vyhodnocení experimentu

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

INDUKTIVNÍ STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Statistická analýza dat

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

KGG/STG Statistika pro geografy

Rozdělování dat do trénovacích a testovacích množin

STATISTICKÉ ODHADY Odhady populačních charakteristik

7. Rozdělení pravděpodobnosti ve statistice

Porovnání dvou výběrů

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Testování hypotéz. 4. přednáška

KGG/STG Statistika pro geografy

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Testování statistických hypotéz

Pravděpodobnost a matematická statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Odhad parametrů N(µ, σ 2 )

Zápočtová práce STATISTIKA I

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

12. cvičení z PST. 20. prosince 2017

Regresní analýza 1. Regresní analýza

Jana Vránová, 3. lékařská fakulta UK

Jednostranné intervaly spolehlivosti

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Testování hypotéz o parametrech regresního modelu

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

4ST201 STATISTIKA CVIČENÍ Č. 7

Charakteristika datového souboru

Kontingenční tabulky, korelační koeficienty

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Statistická analýza jednorozměrných dat

Lineární regrese. Komentované řešení pomocí MS Excel

S E M E S T R Á L N Í

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Neparametrické metody

= = 2368

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jednofaktorová analýza rozptylu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Ing. Michael Rost, Ph.D.

Řízení projektů. Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Posouzení přesnosti měření

Vybraná rozdělení náhodné veličiny

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Testování hypotéz o parametrech regresního modelu

Statistické testování hypotéz II

15. T e s t o v á n í h y p o t é z

10. Předpovídání - aplikace regresní úlohy

Úvod do problematiky měření

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Cvičení ze statistiky - 8. Filip Děchtěrenko

Kontingenční tabulky, korelační koeficienty

Transkript:

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2

Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich základě navrhnout rozhodovací strom. Jaká bude jeho skutečná chyba na nových datech? Z dostupných dat strom vytvoříme a na těchto datech zjistíme, s jakou chybou strom klasifikuje tímto postupem získáme tzv. trénovací chybu Err train. V tabulce jest Err train ze 3 různých datových souborů. Err train 0,210 0,100 0,300 Bude Err train odpovídat Err REAL, tedy chybě skutečné? Ano? Ne? Bude větší? Menší? Proč? 3

Kde je problém? Mějme množinu dat D, každý záznam definován dvojicí (x,y) Hledám funkční závislost f takovou, že f(x)=y Můžeme vytvořit neomezeně mnoho modelů. Jaká funkce (model) f je optimální? Rozdělme data na trénovací (x R,y R ) a testovací (x S,y S ) Pak pro každou f existuje f * takové, že f(x R,y R )=f * (x R,y R ) a přitom f(x S,y S ) f * (x S,y S ) Uvažme, že máme pouze trénovací data. Jaká funkce je potom správná? 4

Příklad y 5

Odhad chyby modelu z trénovacích dat Jak rozdělit data, aby byla chyba modelu co nejmenší (vhodný výběr trénovacích dat)? Jak potom odhadnout skutečnou chybu modelu z trénovacích dat? Obecný princip: opakované rozdělení použitých dat na trénovací a testovací data a určení průměrné chyby máme málo dat máme dostatek dat známe kapacitu modelu (specifické) 6

Nejjednodušší způsob odhadu chyby Proto rozdělíme data (metoda hold out) dělení trénovací : testovací např. 2/3 : 1/3 dělení trénovací : validační : testovací přibližně ½ : ¼ : ¼ Nevýhody takového postupu máme-li málo dat, není možné realizovat existuje riziko, že rozdělení vytvoří neodpovídající rozložení (např. outliers pouze v trénovacích nebo pouze v testovacích datech) => velký rozptyl odhadnuté chyby v závislosti na rozdělení dat s rostoucím počtem dat roste šance na přesnější model Resubstituční chyba chyba zjištěná na datech použitých na trénování vede k podhodnocení skutečné chyby Vysvětli pojem resubstituční chyba? 7

Metoda bootstrap když je dat málo Bootstrap je postup, jak rozdělit data na trénovací a testovací získat odhad skutečné chyby modelu vytvořeného ze všech dat základní princip spočívá v tom, že je vygenerován velký počet trénovacích souborů B i o četnosti N prvků výběrem s opakováním ze základního souboru všech N dostupných dat doporučovaný počet těchto B i souborů je 50 až 2000, může jich být však i řádově více soubory B i budou opakovaně použity jako trénovací ve statistice slouží bootstrap k robustnímu určení intervalů spolehlivosti základních charakteristik vzorku (průměr, rozptyl, medián, korelační koeficient atd.) při testování modelů je typické jeho použití v případech, kdy 8 máme nedostatek dostupných dat (např. N<30)

Bootstrap - výpočet datový soubor o N záznamech, B i výběrů s opakováním tradiční bootstrap: B N 1 1 ~ B j Err boot LF y, f x kde ~ f B j j1 i1 je model naučený na B j -tý výběr, testuje se na původním souboru existuje přesnější varianta, tzv. 0,632 bootstrap prvky, které nebyly vybrány, budou použity jako testovací data pravděpodobnost nevybrání jednoho vzorku je (1-1/N) N e -1 =0,368 N B i i Err Btest 1 B B 1 C C j1 j i1 j LF y i, ~ f B j x C ji kde C i je množina všech prvků neobsažených ve výběru B i odhad celkové chyby modelu metodou 0,632 bootstrap je: Err = 0,632. Err Btest + 0,368. Err boot 9

Příklady - pokračování Předpokládáme tedy (teoreticky) následující pořadí ve velikosti odhadu chyby: Err Boots < Err 632 < Err REAL < Err Btest V našich příkladech jsme získali následující výsledky: Err Boots < Err 632 < Err Btest gen1 0,237 0,284 0,311 gen2 0,112 0,156 0,174 Titanic 0,349 0,408 0,442 Zkuste zpřesnit odhad skutečné chyby pro jednotlivé datové soubory 10

Cross Validation - princip CV je metoda sloužící k odhadu skutečné chyby modelu, tedy k posouzení hypotézy, do jaké míry data odpovídají danému modelu. Princip spočívá v tom, že je datový soubor rozdělen na určitý počet pokud možno stejně velkých disjunktních množin K. Na základě tohoto dělení je K-krát nastaven a vyhodnocen model tak, že je postupně vždy jedna množina použita jako testovací a sjednocení ostatních množin jako trénovací soubor dat. Je tak získáno K různě nastavených modelů. Součet všech vypočtených odchylek slouží k určení skutečné chyby modelu vytvořeného na základě použitých dat.? co je to Cross Validation 11

Cross Validation - schéma Datový soubor rozdělený na K podmnožin (1) (2)... (K) Trén. Trén. Test. Test. Model 1 Model K 12

Cross Validation typické nastavení K=10 typické dělení je K=10, tzv. Tenfold Cross Validation nebo K=5, zdůvodnění tohoto nastavení je experimentální zkušenost Celková chyba modelu metodou Err CV je dána průměrem chyby Err všech dílčích modelů: Err CV 1 K K i1 Err y kde K je počet podmnožin vytvořených z úplného datového souboru, (i) je i-tá podmnožina, y (i) a x (i) jsou výstupní a vstupní data obsažená v podmnožině (i) a ~ i f je model nastavený bez použití podmnožiny (i).? vysvětlete princip Cross Validation i ~, f i x i 13

Cross Validation přecenění chyby graf znázorňuje hypotetickou křivku chyby modelu v závislosti na počtu použitých trénovacích dat (velikost trénovací množiny na ose x jen hypotetická ve skutečnosti je individuální pro každý případ) důsledkem je přecenění chyby metodou CV při menším počtu dat, což lze řešit zvětšením K, tedy počtu skupin, na které data rozdělíme Chyba modelu Err CV [-] 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 50 100 150 200 250 300 Počet dat N [-]? co je to přecenění chyby a proč k němu dochází u metody CV 14

Cross Validation Leave-one-out (K=N) metoda Cross Validation s dělením odpovídajícím počtu samotných prvků naučíme model na N-1 prvků a na posledním ověříme správnost klasifikace; to zopakujeme N-krát pro všechny prvky nejpřesnější odhad chyby modelu chyba však vykazuje velký rozptyl časově velice náročné Err CV 1 N N i1 L y i ~, f i x i? co je to Leave-one-out 15

Vliv počtu dělení CV na odhad přesnosti 1/2 Mějme model se známou přesností 80% na 100 záznamech Rozdělme data na 5, 10 a 100 foldů (prům. přesnost vždy 80%) Podívejme se na vývoj směrodatné odchylky 5 fold CV 10 fold CV 100 fold CV průměr 80,0 80,0 průměr 80,0 80,0 průměr 80,0 směr. odch. 40,0 4,0 směr. odch. 40,0 5,4 směr. odch. 40,0 fold 1 0 78 fold 1 0 85 fold 1 0 fold 2 100 85 fold 2 0 88 fold 2 0 fold 3 100 84 fold 3 100 71 fold 3 0 fold 4 100 74 fold 4 100 76 fold 4 0 fold 5 100 79 fold 5 100 79 fold 5 0 fold 6 100 78 fold 6 0 fold 7 100 82...... fold 8 100 81 fold 95 100 fold 9 100 73 fold 96 100 fold 10 100 87 fold 97 100 fold 98 100 fold 99 100 fold 100 100

Vliv počtu dělení CV na odhad přesnosti 2/2 experiment na jednom datovém souboru 779 trénovacích záznamů, 26 tříd skutečná přesnost, odhad pomocí CV, směrodatná odchylka 17

Cross Validation použití, vlastnosti použití srovnání více přístupů, výběr nejlepšího (různé typy modelů, různá nastavení jednoho typu modelu) stanovení předpokládané přesnosti modelu (průměrem parametrů jednotlivých modelů, použití stejné metodiky pro všechna dostupná data) vlastnosti výhody: vyšší přesnost, kompromis k-fold má výhody přesnosti (oneleave-out) a zároveň rozumné výpočetní náročnosti nadhodnocení chyby, u one-leave-out velký rozptyl odhadu, časová náročnost 18

Příklady - pokračování Předpokládáme tedy (teoreticky) následující pořadí ve velikosti odhadu chyby: Err REAL < Err CV V našich příkladech jsme získali následující výsledky: Err CV gen1 0,312 gen2 0,133 Titanic 0,433 Zkuste zpřesnit odhad skutečné chyby pro jednotlivé datové soubory 19

Základní srovnání CV a Bootsrap Pozitivní Cross Validation nepřekrývání testovacích dat jednoduché K=10 snížená výpočetní náročnost Negativní nejednoznačné stanovení velikosti K požaduje více dat Bootstrap lze použít při malém počtu dat statisticky zajímavé pro intervalové odhady charakteristik datových souborů chyba překrytím trénovacích a testovacích dat (resubstituční chyba) výpočetně náročné? Která metoda (CV,Bootstrap) chybu přeceňuje a která podceňuje, proč? 20

Očekávaní a experimenty: CV vs. Bootstrap Err train <Err Boots <Err 632 <Err REAL <Err CV <Err Btest gen1 0,210 0,237 0,284 0,287 0,312 0,311 gen2 0,100 0,112 0,156 0,343 0,133 0,174 Titanic 0,300 0,349 0,408 0,302 0,433 0,442 Z uvedených experimentů je zřejmé, že k odhadům chyby je třeba přistupovat obezřetně, jejich přesnost je velice citlivá na kvalitu výběru (z chybných dat korektním postupem dobrý model nikdy nezískáte!). V příkladech je pracováno s výběrem 30 záznamů, takže zkreslení je velké. Použití CV není s tímto výběrem smysluplné (použito pro ukázku růstu odhadu chyby). 21

Cross Validation výběr modelu Typické použití při stejném dělení do foldů model s největší průměrnou přesností Možné testování H0: chyba obou modelů je stejná (tedy rozdíl průměrů je roven nule) Možné použít párový t-test, při větším počtu dělení (>30) nemusí mít normální rozdělení Data by měla mít stejný rozptyl (F-test) Ideální použití alternativního neparametrického testu Two-sample Wilcoxon Signed- Rank Test Riziko přeučení CV mějme 100 záznamů, 1000 příznaků opakovaným hledáním pomocí CV lze najít modely s nulovou chybou takové modely však lze vytvořit i na datech s náhodnou klasifikací Přeučení se lze bránit buď snížením kapacity modelu nebo regularizací Použitím hold out metody, nechat si pro selekci bokem data, která se neúčastní CV 22

Cross Validation v Rapid Mineru T-test Hold out 23

Vapnik-Chervonenkisova dimenze - princip hlavní myšlenka spočívá v tom, že každá funkce má svoji kapacitu h, jejíž hodnota odpovídá počtu prvků, které je funkce schopna rozlišit (h je závislá na modelu, ne na datech) tato metoda umožňuje určení testovací chyby z chyby trénovací a kapacity modelu h mějme N prvků binárně klasifikovaných; pak existuje právě 2 N kombinací jejich klasifikací funkce má kapacitu N, pokud existuje taková množina prvků, které lze rozlišit ve všech možných 2 N kombinacích (přímka, RS) existuje více algoritmů pro vyjádření kapacity funkce, její určení je zásadní problém? co je to kapacita funkce 24

Vapnik - Chervonenkisova dimenze odhad chyby modelu trénovací chyba Err train Err train 1 N N 1 i1 2 f x i y i hodnota skutečné chyby Err REAL : Err REAL Err train h, N, výpočet intervalu spolehlivosti Φ: 1 2N 4 h, N, h ln 1 ln kde h je kapacita funkce, N je počet prvků a je pravděpodobnost, že chyba bude větší než ve výše uvedené nerovnici N h 25