Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Podobné dokumenty
ANALÝZA A KLASIFIKACE DAT

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

KGG/STG Statistika pro geografy

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Intervalové Odhady Parametrů

9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Jana Vránová, 3. lékařská fakulta, UK Praha

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

KGG/STG Statistika pro geografy

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

PRAVDĚPODOBNOST A STATISTIKA

Statistická analýza dat

Dálkový průzkum Země. Klasifikace obrazu

Normální (Gaussovo) rozdělení

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

PRAVDĚPODOBNOST A STATISTIKA

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Charakteristika datového souboru

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

Vytěžování znalostí z dat

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a aplikovaná statistika

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Cvičení 12: Binární logistická regrese

Kontingenční tabulky, korelační koeficienty

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

AVDAT Klasický lineární model, metoda nejmenších

Instance based learning

STATISTICKÉ ZJIŠŤOVÁNÍ

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Bodové a intervalové odhady parametrů v regresním modelu

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

Úvodem Dříve les než stromy 3 Operace s maticemi

Šárka Došlá. Matematicko-fyzikální fakulta Univerzita Karlova v Praze. Bimodální rozdělení. Šárka Došlá. Motivace. Základní pojmy

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

4EK211 Základy ekonometrie

Výběrové charakteristiky a jejich rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Korelace. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

Regresní a korelační analýza

Pokročilé neparametrické metody. Klára Kubošová

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

KGG/STG Statistika pro geografy

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Normální (Gaussovo) rozdělení

Bootstrap - konfidenční intervaly a testy

Poznámky k předmětu Aplikovaná statistika, 11. téma

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

AVDAT Mnohorozměrné metody, metody klasifikace

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Přednáška X. Testování hypotéz o kvantitativních proměnných

Testování statistických hypotéz

Úvod do problematiky měření

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Základy vytěžování dat

y = 0, ,19716x.

4EK211 Základy ekonometrie

Rozvoj metodiky tvorby map znečištění. Jan Horálek Pavel Kurfürst, Nina Benešová, Roman Juras, Jana Ďoubalová

Vytěžování znalostí z dat

Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

KVADRATICKÁ KALIBRACE

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

LINEÁRNÍ REGRESE. Lineární regresní model

Regresní a korelační analýza

Intervalové Odhady Parametrů II Testování Hypotéz

IDENTIFIKACE BIMODALITY V DATECH

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

pravděpodobnosti, popisné statistiky

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Pokročilé neparametrické metody. Klára Kubošová

Trénování sítě pomocí učení s učitelem

INDUKTIVNÍ STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

4EK211 Základy ekonometrie

Transkript:

Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117

O čem se bude mluvit? Čtyřpolní tabulky

Osnova prezentace Čtyřpolní tabulky 1. přístupy k hodnocení výsledky při klasifikaci oblouků a přímých úseků 2. Pearsonův χ 2 -test a risk ratio riziko poškození silnice sesuvem

Čtyřpolní tabulka B 1 B 2 celkem A 1 n 11 n 12 n 1+ A 2 n 21 n 22 n 2+ celkem n +1 n +2 N A 1, A 2 klasifikace B 1, B 2 skutečnost A 1, A 2 expozice B 1, B 2 onemocnění Čtyřpolní tabulky

odhad chyby klasifikátoru Skutečnost 1 2 celkem Klasifikace 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ celkem n +1 n +2 N Error = n 21+ n 12 N Accuracy = 1 Error

Diskriminační analýza

Chyba klasifikátoru 40 Testovaci mnozina Overfitting 30 Error (%) 20 10 Trenovaci mnozina 0 0 5 10 15 20 Pocet uzlu

Odhad chyby klasifikátoru Optimistický přístup Error=chyba na trénovací množině Pesimistický přístup Error=chyba na trénovací množině+penalizace Pomocí validační množiny rozdělení dat náhodné seskupování cross-validace bootstrap

Rozdělení dat Problémy menší trénovací množina v jakém poměru množiny rozdělit? trénovací a testovací množina nejsou nezávislé

Náhodné seskupování Accuracy= 1 k k acc i i=1 Problém Nevíme, kolikrát je daný objekt použit pro trénink (pro testování).

Cross-validace Accuracy = k i=1 N i N acc i

Bootstrap výběr objektů s vracením.632 bootstrap Accuracy= 1 k k (0,632acc i + 0,368acc S ) i=1 ( 1 1 1 ) N as. 1 e 1 0,632 N

Porovnání dvou modelů Klasifikátor 1 přesnost 85% 30 objektů v testovací množině Klasifikátor 2 přesnost 75% 3000 objektů v testovací množině Jak spolehlivý je odhad přesnosti? Liší se významně přesnost klasifikátorů?

Konfidenční interval přesnosti klasifikátoru N počet objektů X počet správně klasifikovaných objektů p skutečná přesnost klasifikátoru acc = X/N empirická přesnost klasifikátoru P ( Z 1 α/2 acc p p(1 p)/n Z 1 α/2 )=1 α

Porovnání dvou modelů e 1, e 2 chyby klasifikátorů n 1, n 2 počet objektů v testovacích množinách d t = e 1 e 2 σ 2 =ˆσ 2 d = e 1(1 e 1 ) + e 2(1 e 2 ) n 1 n 2 = d t ±ˆσZ 1 α/2 Pokud interval neobsahuje číslo 0, řekneme, že se modely významně liší.

Příklad z biomedicíny Nemocný ANO NE celkem Výsledek Pozitivní 10 90 100 testu Negativní 5 900 905 celkem 15 990 1005 senzitivita = specificita = PPV = NPV = 10 10+5 66,7% 900 900+90 91% 10 10+90 = 10% 900 900+5 99,5%

Prostor ROC 1 0.9 senzitivita 0.8 0.7 0.6 0.5 0.4 C A B 0.3 0.2 0.1 C 0 0 0.2 0.4 0.6 0.8 1 1 specificita

Paradox přesnosti B 1 B 2 A 1 70 110 A 2 20 1800 Accuracy=94% senz=94%, spec= 78% B 1 B 2 A 1 0 0 A 2 90 1910 Accuracy=96% senz=100%, spec=0%

Zadání úlohy Úkoly identifikovat oblouky a přímé úseky určit poloměry oblouků x 10 6 1.1626 1.1626 1.1626 1.1627 1.1627 1.1627 6.1055 6.105 6.1045 6.104 x 10 5 Čtyřpolní tabulky

Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

Použité klasifikační metody logistická regrese klasifikační strom neuronová sít Odhad chyby pomocí cross-validace.

Přesnost klasifikace logistická regrese Významné parametry velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů poloměr oskulační kružnice Úplný model Accuracy = 79,0% (74,2%; 83,1%) Zjednodušený model Accuracy = 79,3% (74,5%; 83,4%)

Přesnost klasifikace klasifikační strom Accuracy = 82,8% (78,2%; 86,5%)

Přesnost klasifikace neuronová sít Accuracy = 81,8% (77,2%; 85,7%)

ROC prostor senzitivita 1 0.9 0.8 0.7 0.6 0.5 0.4 Strom Threshold LogReg 3 LogReg 2 Neuronova sit LogReg 1 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 1 specificita

5400 5600 oblouk prima cast 5800 6000 6200 6400 6600 6800 500 0 500 1000 1500 2000 2500 3000 3500

5400 5600 správná klasifikace oblouk, klasifikovan jako prima cast prima cast, klasifikovana jako oblouk 5800 6000 6200 6400 6600 6800 500 0 500 1000 1500 2000 2500 3000 3500

4.55 x 104 4.6 4.65 oblouk prima cast 4.7 4.75 4.8 4.85 4.9 4.95 5 5.05 1.7 1.6 1.5 1.4 1.3 1.2 1.1 1 0.9 x 10 4

a risk ratio Onemocnění 1 2 celkem Expozice 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ celkem n +1 n +2 N Čtyřpolní tabulky

Příklad z biomedicíny p 1 = P(D/E) p 2 = P(D/non E) ˆp 1 = n 11 /n 1+ ˆp 2 = n 21 /n 2+ RR = p 1 /p 2 RR ˆ = ˆp 1 /ˆp 2 H 0 : p 1 = p 2 D non D celkem E n 11 n 12 n 1+ non E n 21 n 22 n 2+ celkem n +1 n +2 N Testová statistika T 2 =(ˆp 1 ˆp 2 ) 2 = N(n 11n 22 n 12 n 21 ) 2 n +1 n +2 n 1+ n 2+ má asymptoticky χ 2 -rozdělení o jednom stupni volnosti.

Úkoly Určení rizika přerušení dopravní komunikace vlivem sesuvu. závislost mezi poškozením silnice a sesuvem? kvantifikace rizika pro jednotlivé silniční úseky poškození bez poškození celkem sesuv 51 227 278 bez sesuvu 11 698 709 celkem 62 925 987 T 2 95,67 > 3,84=χ 2 1(0,95)

Statistika T 2 D non D celkem E x 278 x 278 non E 62 x 647+x 709 celkem 62 925 987 180 160 140 120 T 2 100 80 60 40 20 0 0 10 20 30 40 50 60 x

Kvantifikace rizika K počet bodů určujících silniční úsek M počet bodů v blízkosti sesuvu (do 50 m) N = K M P:N 0 N 0 R + 0 (i) P(0, 0)=0 (ii) P je rostoucí v obou proměnných (iii) P(M 1 + M 2, N 1 + N 2 )=P(M 1, N 1 )+P(M 2, N 2 ) P(M, N)=aM+bN

Koeficienty a, b poškození bez poškození celkem sesuv 51 227 278 bez sesuvu 11 698 709 celkem 62 925 987 a= 51 278 b= 11 709 ˆ RR= a b 12

Histogram koeficientu rizika 578 600 500 400 Cetnost 300 200 173 100 77 34 26 24 22 10 8 7 4 7 3 3 4 0 1 2 0 0 0 1 2 1 0 0 6 12 18 24 30 36 42 48 Koeficient rizika

Hustota koeficientu rizika poskozene neposkozene 0.3 Hustota 0.2 0.1 0 0 10 20 30 40 50 60 Koeficient rizika

Diskuze a dotazy e-mail: andrasik.richard@gmail.com