Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117
O čem se bude mluvit? Čtyřpolní tabulky
Osnova prezentace Čtyřpolní tabulky 1. přístupy k hodnocení výsledky při klasifikaci oblouků a přímých úseků 2. Pearsonův χ 2 -test a risk ratio riziko poškození silnice sesuvem
Čtyřpolní tabulka B 1 B 2 celkem A 1 n 11 n 12 n 1+ A 2 n 21 n 22 n 2+ celkem n +1 n +2 N A 1, A 2 klasifikace B 1, B 2 skutečnost A 1, A 2 expozice B 1, B 2 onemocnění Čtyřpolní tabulky
odhad chyby klasifikátoru Skutečnost 1 2 celkem Klasifikace 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ celkem n +1 n +2 N Error = n 21+ n 12 N Accuracy = 1 Error
Diskriminační analýza
Chyba klasifikátoru 40 Testovaci mnozina Overfitting 30 Error (%) 20 10 Trenovaci mnozina 0 0 5 10 15 20 Pocet uzlu
Odhad chyby klasifikátoru Optimistický přístup Error=chyba na trénovací množině Pesimistický přístup Error=chyba na trénovací množině+penalizace Pomocí validační množiny rozdělení dat náhodné seskupování cross-validace bootstrap
Rozdělení dat Problémy menší trénovací množina v jakém poměru množiny rozdělit? trénovací a testovací množina nejsou nezávislé
Náhodné seskupování Accuracy= 1 k k acc i i=1 Problém Nevíme, kolikrát je daný objekt použit pro trénink (pro testování).
Cross-validace Accuracy = k i=1 N i N acc i
Bootstrap výběr objektů s vracením.632 bootstrap Accuracy= 1 k k (0,632acc i + 0,368acc S ) i=1 ( 1 1 1 ) N as. 1 e 1 0,632 N
Porovnání dvou modelů Klasifikátor 1 přesnost 85% 30 objektů v testovací množině Klasifikátor 2 přesnost 75% 3000 objektů v testovací množině Jak spolehlivý je odhad přesnosti? Liší se významně přesnost klasifikátorů?
Konfidenční interval přesnosti klasifikátoru N počet objektů X počet správně klasifikovaných objektů p skutečná přesnost klasifikátoru acc = X/N empirická přesnost klasifikátoru P ( Z 1 α/2 acc p p(1 p)/n Z 1 α/2 )=1 α
Porovnání dvou modelů e 1, e 2 chyby klasifikátorů n 1, n 2 počet objektů v testovacích množinách d t = e 1 e 2 σ 2 =ˆσ 2 d = e 1(1 e 1 ) + e 2(1 e 2 ) n 1 n 2 = d t ±ˆσZ 1 α/2 Pokud interval neobsahuje číslo 0, řekneme, že se modely významně liší.
Příklad z biomedicíny Nemocný ANO NE celkem Výsledek Pozitivní 10 90 100 testu Negativní 5 900 905 celkem 15 990 1005 senzitivita = specificita = PPV = NPV = 10 10+5 66,7% 900 900+90 91% 10 10+90 = 10% 900 900+5 99,5%
Prostor ROC 1 0.9 senzitivita 0.8 0.7 0.6 0.5 0.4 C A B 0.3 0.2 0.1 C 0 0 0.2 0.4 0.6 0.8 1 1 specificita
Paradox přesnosti B 1 B 2 A 1 70 110 A 2 20 1800 Accuracy=94% senz=94%, spec= 78% B 1 B 2 A 1 0 0 A 2 90 1910 Accuracy=96% senz=100%, spec=0%
Zadání úlohy Úkoly identifikovat oblouky a přímé úseky určit poloměry oblouků x 10 6 1.1626 1.1626 1.1626 1.1627 1.1627 1.1627 6.1055 6.105 6.1045 6.104 x 10 5 Čtyřpolní tabulky
Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice
Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice
Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice
Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice
Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice
Vysvětlující proměnné velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů vzdálenost bodů poloměr kružnice opsané poloměr oskulační kružnice
Použité klasifikační metody logistická regrese klasifikační strom neuronová sít Odhad chyby pomocí cross-validace.
Přesnost klasifikace logistická regrese Významné parametry velikost úhlu kumulativní úhel tří bodů kumulativní úhel pěti bodů poloměr oskulační kružnice Úplný model Accuracy = 79,0% (74,2%; 83,1%) Zjednodušený model Accuracy = 79,3% (74,5%; 83,4%)
Přesnost klasifikace klasifikační strom Accuracy = 82,8% (78,2%; 86,5%)
Přesnost klasifikace neuronová sít Accuracy = 81,8% (77,2%; 85,7%)
ROC prostor senzitivita 1 0.9 0.8 0.7 0.6 0.5 0.4 Strom Threshold LogReg 3 LogReg 2 Neuronova sit LogReg 1 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 1 specificita
5400 5600 oblouk prima cast 5800 6000 6200 6400 6600 6800 500 0 500 1000 1500 2000 2500 3000 3500
5400 5600 správná klasifikace oblouk, klasifikovan jako prima cast prima cast, klasifikovana jako oblouk 5800 6000 6200 6400 6600 6800 500 0 500 1000 1500 2000 2500 3000 3500
4.55 x 104 4.6 4.65 oblouk prima cast 4.7 4.75 4.8 4.85 4.9 4.95 5 5.05 1.7 1.6 1.5 1.4 1.3 1.2 1.1 1 0.9 x 10 4
a risk ratio Onemocnění 1 2 celkem Expozice 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ celkem n +1 n +2 N Čtyřpolní tabulky
Příklad z biomedicíny p 1 = P(D/E) p 2 = P(D/non E) ˆp 1 = n 11 /n 1+ ˆp 2 = n 21 /n 2+ RR = p 1 /p 2 RR ˆ = ˆp 1 /ˆp 2 H 0 : p 1 = p 2 D non D celkem E n 11 n 12 n 1+ non E n 21 n 22 n 2+ celkem n +1 n +2 N Testová statistika T 2 =(ˆp 1 ˆp 2 ) 2 = N(n 11n 22 n 12 n 21 ) 2 n +1 n +2 n 1+ n 2+ má asymptoticky χ 2 -rozdělení o jednom stupni volnosti.
Úkoly Určení rizika přerušení dopravní komunikace vlivem sesuvu. závislost mezi poškozením silnice a sesuvem? kvantifikace rizika pro jednotlivé silniční úseky poškození bez poškození celkem sesuv 51 227 278 bez sesuvu 11 698 709 celkem 62 925 987 T 2 95,67 > 3,84=χ 2 1(0,95)
Statistika T 2 D non D celkem E x 278 x 278 non E 62 x 647+x 709 celkem 62 925 987 180 160 140 120 T 2 100 80 60 40 20 0 0 10 20 30 40 50 60 x
Kvantifikace rizika K počet bodů určujících silniční úsek M počet bodů v blízkosti sesuvu (do 50 m) N = K M P:N 0 N 0 R + 0 (i) P(0, 0)=0 (ii) P je rostoucí v obou proměnných (iii) P(M 1 + M 2, N 1 + N 2 )=P(M 1, N 1 )+P(M 2, N 2 ) P(M, N)=aM+bN
Koeficienty a, b poškození bez poškození celkem sesuv 51 227 278 bez sesuvu 11 698 709 celkem 62 925 987 a= 51 278 b= 11 709 ˆ RR= a b 12
Histogram koeficientu rizika 578 600 500 400 Cetnost 300 200 173 100 77 34 26 24 22 10 8 7 4 7 3 3 4 0 1 2 0 0 0 1 2 1 0 0 6 12 18 24 30 36 42 48 Koeficient rizika
Hustota koeficientu rizika poskozene neposkozene 0.3 Hustota 0.2 0.1 0 0 10 20 30 40 50 60 Koeficient rizika
Diskuze a dotazy e-mail: andrasik.richard@gmail.com