Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

HTML
DOWNLOAD

Rozměr: px

Začít zobrazení ze stránky:

Download "Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/"

Kryštof Neduchal
před 8 lety
Počet zobrazení:

1 Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

2 O čem se bude mluvit? Čtyřpolní tabulky

3 Osnova prezentace Čtyřpolní tabulky 1. přístupy k hodnocení výsledky při klasifikaci oblouků a přímých úseků 2. Pearsonův χ 2 -test a risk ratio riziko poškození silnice sesuvem

4 Čtyřpolní tabulka B 1 B 2 celkem A 1 n 11 n 12 n 1+ A 2 n 21 n 22 n 2+ celkem n +1 n +2 N A 1, A 2 klasifikace B 1, B 2 skutečnost A 1, A 2 expozice B 1, B 2 onemocnění Čtyřpolní tabulky

5 odhad chyby klasifikátoru Skutečnost 1 2 celkem Klasifikace 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ celkem n +1 n +2 N Error = n 21+ n 12 N Accuracy = 1 Error

6 Diskriminační analýza

7 Chyba klasifikátoru 40 Testovaci mnozina Overfitting 30 Error (%) Trenovaci mnozina Pocet uzlu

8 Odhad chyby klasifikátoru Optimistický přístup Error=chyba na trénovací množině Pesimistický přístup Error=chyba na trénovací množině+penalizace Pomocí validační množiny rozdělení dat náhodné seskupování cross-validace bootstrap

9 Rozdělení dat Problémy menší trénovací množina v jakém poměru množiny rozdělit? trénovací a testovací množina nejsou nezávislé

10 Náhodné seskupování Accuracy= 1 k k acc i i=1 Problém Nevíme, kolikrát je daný objekt použit pro trénink (pro testování).

11 Cross-validace Accuracy = k i=1 N i N acc i

12 Bootstrap výběr objektů s vracením.632 bootstrap Accuracy= 1 k k (0,632acc i + 0,368acc S ) i=1 ( ) N as. 1 e 1 0,632 N

13 Porovnání dvou modelů Klasifikátor 1 přesnost 85% 30 objektů v testovací množině Klasifikátor 2 přesnost 75% 3000 objektů v testovací množině Jak spolehlivý je odhad přesnosti? Liší se významně přesnost klasifikátorů?

14 Konfidenční interval přesnosti klasifikátoru N počet objektů X počet správně klasifikovaných objektů p skutečná přesnost klasifikátoru acc = X/N empirická přesnost klasifikátoru P ( Z 1 α/2 acc p p(1 p)/n Z 1 α/2 )=1 α

15 Porovnání dvou modelů e 1, e 2 chyby klasifikátorů n 1, n 2 počet objektů v testovacích množinách d t = e 1 e 2 σ 2 =ˆσ 2 d = e 1(1 e 1 ) + e 2(1 e 2 ) n 1 n 2 = d t ±ˆσZ 1 α/2 Pokud interval neobsahuje číslo 0, řekneme, že se modely významně liší.

16 Příklad z biomedicíny Nemocný ANO NE celkem Výsledek Pozitivní testu Negativní celkem senzitivita = specificita = PPV = NPV = ,7% % = 10% ,5%

17 Prostor ROC senzitivita C A B C specificita

18 Paradox přesnosti B 1 B 2 A A Accuracy=94% senz=94%, spec= 78% B 1 B 2 A A Accuracy=96% senz=100%, spec=0%

19 Zadání úlohy Úkoly identifikovat oblouky a přímé úseky určit poloměry oblouků x x 10 5 Čtyřpolní tabulky

20 Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

21 Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

22 Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

23 Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

24 Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

25 Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice

26 Použité klasifikační metody logistická regrese klasifikační strom neuronová sít Odhad chyby pomocí cross-validace.

27 Přesnost klasifikace logistická regrese Významné parametry velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů poloměr oskulační kružnice Úplný model Accuracy = 79,0% (74,2%; 83,1%) Zjednodušený model Accuracy = 79,3% (74,5%; 83,4%)

28 Přesnost klasifikace klasifikační strom Accuracy = 82,8% (78,2%; 86,5%)

29 Přesnost klasifikace neuronová sít Accuracy = 81,8% (77,2%; 85,7%)

30 ROC prostor senzitivita Strom Threshold LogReg 3 LogReg 2 Neuronova sit LogReg specificita

31 oblouk prima cast

32 správná klasifikace oblouk, klasifikovan jako prima cast prima cast, klasifikovana jako oblouk

33 4.55 x oblouk prima cast x 10 4

34 a risk ratio Onemocnění 1 2 celkem Expozice 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ celkem n +1 n +2 N Čtyřpolní tabulky

35 Příklad z biomedicíny p 1 = P(D/E) p 2 = P(D/non E) ˆp 1 = n 11 /n 1+ ˆp 2 = n 21 /n 2+ RR = p 1 /p 2 RR ˆ = ˆp 1 /ˆp 2 H 0 : p 1 = p 2 D non D celkem E n 11 n 12 n 1+ non E n 21 n 22 n 2+ celkem n +1 n +2 N Testová statistika T 2 =(ˆp 1 ˆp 2 ) 2 = N(n 11n 22 n 12 n 21 ) 2 n +1 n +2 n 1+ n 2+ má asymptoticky χ 2 -rozdělení o jednom stupni volnosti.

36 Úkoly Určení rizika přerušení dopravní komunikace vlivem sesuvu. závislost mezi poškozením silnice a sesuvem? kvantifikace rizika pro jednotlivé silniční úseky poškození bez poškození celkem sesuv bez sesuvu celkem T 2 95,67 > 3,84=χ 2 1(0,95)

37 Statistika T 2 D non D celkem E x 278 x 278 non E 62 x 647+x 709 celkem T x

38 Kvantifikace rizika K počet bodů určujících silniční úsek M počet bodů v blízkosti sesuvu (do 50 m) N = K M P:N 0 N 0 R + 0 (i) P(0, 0)=0 (ii) P je rostoucí v obou proměnných (iii) P(M 1 + M 2, N 1 + N 2 )=P(M 1, N 1 )+P(M 2, N 2 ) P(M, N)=aM+bN

39 Koeficienty a, b poškození bez poškození celkem sesuv bez sesuvu celkem a= b= ˆ RR= a b 12

40 Histogram koeficientu rizika Cetnost Koeficient rizika

41 Hustota koeficientu rizika poskozene neposkozene 0.3 Hustota Koeficient rizika

42 Diskuze a dotazy andrasik.richard@gmail.com

Podobné dokumenty

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost