Aplikace 2: Hledání informativních příznaků pro rozpoznávání

Podobné dokumenty
Síla a významnost asociace mezi proměnnými v systému

Síla a významnost asociace mezi proměnnými v systému

Pravděpodobnost a aplikovaná statistika

PRAVDĚPODOBNOST A STATISTIKA

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Definice spojité náhodné veličiny zjednodušená verze

Pravděpodobnost a matematická statistika

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Rekonstrukce diskrétního rozdělení psti metodou maximální entropie

PRAVDĚPODOBNOST A STATISTIKA

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Vybraná rozdělení náhodné veličiny

KGG/STG Statistika pro geografy

Výběrové charakteristiky a jejich rozdělení

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

12. cvičení z PST. 20. prosince 2017

I. D i s k r é t n í r o z d ě l e n í

Téma 22. Ondřej Nývlt

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

p(x) = P (X = x), x R,

AVDAT Náhodný vektor, mnohorozměrné rozdělení

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Apriorní rozdělení. Jan Kracík.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Charakterizace rozdělení

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Náhodné vektory a matice

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Normální (Gaussovo) rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Fisherův exaktní test

Jana Vránová, 3. lékařská fakulta UK

Kontingenční tabulky, korelační koeficienty

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Regresní analýza 1. Regresní analýza

1. Přednáška. Ing. Miroslav Šulai, MBA

Intervalová data a výpočet některých statistik

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Základy teorie pravděpodobnosti

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

TECHNICKÁ UNIVERZITA V LIBERCI

Poznámky k předmětu Aplikovaná statistika, 4. téma

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Normální (Gaussovo) rozdělení

Schéma identifikační procedury

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Charakteristika datového souboru

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Odhady Parametrů Lineární Regrese

Tomáš Karel LS 2012/2013

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Poznámky k předmětu Aplikovaná statistika, 11. téma

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Náhodná veličina a rozdělení pravděpodobnosti

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Bayesovské metody. Mnohorozměrná analýza dat

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Testy. Pavel Provinský. 19. listopadu 2013

MATEMATICKÁ STATISTIKA - XP01MST

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Cvičení ze statistiky - 7. Filip Děchtěrenko

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

7. Rozdělení pravděpodobnosti ve statistice

Vícerozměrná rozdělení

15. T e s t o v á n í h y p o t é z

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Intervalové Odhady Parametrů

Poznámky k předmětu Aplikovaná statistika, 4. téma

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Odhad parametrů N(µ, σ 2 )

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Přednáška X. Testování hypotéz o kvantitativních proměnných

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Statistika II. Jiří Neubauer

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Transkript:

Aplikace : Hledání informativních příznaků pro rozpoznávání Sonogram štítné žlázy v podélném řezu zdravá lymfocitická thyroitida Zajímá nás, kolik se lze z dat dozvědět o třídě c a kde ta informace je. Příznaky x i, i =,,... n. Informace o třídě v příznaku x i je podmíněná entropie H(c x i ). Entropie; R. Šára, CMP (p. )

Aplikace 3: Normovaná střední vzájemná informace i(x, Y ) = I(X, Y ) H(X, Y ), i(x, Y ) i(x, Y ) = pokud X, Y jsou nezávislé i(x, Y ) = pokud mezi X, Y existuje bijekce Y 6 5 4 3 a b c d e f X = {,, 3, 4, 5}, Y = {3, 5,,, 6, 4} X Y {(, 3), (, 5), (3, ), (4, ), (5, 6), (5, 4)} H(X) =.567 nat, H(Y ) =.798 nat H(X, Y ) =.798 nat, I(X, Y ) =.567 nat normovaná stř. vzájemná inf. i(x, Y ) =.87 normalizovaný korelační koeficient ρ(x, Y ) =.964 3 4 5 6 X Spearmanův rankový koeficient r(x, Y ) =.69 Dva aspekty relace mezi proměnnými. síla asociace i(x, Y ) : jak moc jsou závislé?. statistická významnost této asociace : postačují data k takovému závěru? Entropie; R. Šára, CMP (p. )

Odhad entropie z histogramu Máme histogram {n, n,..., n k } proměnné x se šířkou přihrádky h >. Platí n = k i= n i případy:. diskrétní náhodná proměnná: chceme entropii v přirozeném rozlišení. kvantizovaná spojitá náhodná proměnná: chceme entropii původní spojité proměnné Ĥ(x) = ln h k i= n i n ln n i n h... v přirozených jednotkách oboru hodnot Bez členu ln h by hodnota statistiky rostla se zmenšováním rozlišení histogramu h Entropie; R. Šára, CMP (p. 3)

Je histogram kvalitním odhadem rozdělení psti? x {,..., 5} : náhodná proměnná s rovnoměrným rozdělením 5 vzorku 5 vzorku 4 4 3.5 3 cetnost n i 3 cetnost n i 5 H.5.5 5.5 3 4 5 hodnota x i 3 4 5 hodnota x i ^ ^ ^ ^3 ^4 ^5 vzorku Ĥ = 3.6874 nat Ĥ = 3.995 nat teoretická entropie ln(5) = 3.9 nat hodnota četnosti je náhodná proměnná Entropie; R. Šára, CMP (p. 4)

Volba šířky přihrádky histogramu Systém S = {s, s,..., s q } q n ˆσ i h i dimenze histogramu počet měření odhad rozptylu proměnné s i šířka přihrádky pro proměnnou s i Předpoklad normálního rozdělení s diagonální kovarianční maticí f(x) = e (x x) S (x x) det(πs) S = diag(σ, σ,..., σ q) Scottovo pravidlo h i 3.5 ˆσ +q i n Scott, D. W. Multivariate Density Estimation: Theory Practice, and Visualization, John Wiley & Sons, Chichester 99. Entropie; R. Šára, CMP (p. 5)

Příklad x spojitá náhodná proměnná s rozdělením N(, ) H(x) = ln σ πe =. n = vzorků, dimenze q =, takže h = 3.5 3.5 3 optimalni histogram h=.54 5 h=..5 5 5 5 5 5 Ĥ =.79 nat 4 3 5 5 Ĥ =.36 nat H + log(h).5.5 teorie h =. Scott.5 ^ ^ ^3 ^4 ^5 vzorku Scott: pokaždé vypočteme novou hodnotu h a přepočteme histogram entropie z optimálního histogramu je lepším odhadem H(x) Entropie; R. Šára, CMP (p. 6)

Estimátor entropie bez histogramování (Kozačenko-Leoněnko) Dáno: množina vektorových měření {x i, i =,..., n} z neznámého spojitého rozdělení pravděpodobnosti Cíl: výpočet entropie bez diskretizace a histogramování q dimenze vektoru měření n počet měření r i euklidovská (L ) vzdálenost k nejbližšímu sousedu x i γ Euler-Mascheroniho konstanta (γ.57756649) H = q n n i= ln r i + ln (n )π q Γ( + q ) + γ Poznámky množina nejbližších sousedů pro všechna x i lze teoreticky nalézt za dobu O(c q n log n) pro libovolné q. degenerovanost: použít ln max(r i, n ) místo ln r i. vhodné pro velká q (viz příklad) vhodné pro multimodální rozdělení psti Γ(x) = R t x e t dt, x R, Γ(k) = (k )!, k N Entropie; R. Šára, CMP (p. 7)

Příklad d =, pokusu 3 d =, pokusu.5 d =, pokusu.4.3.5...9.8.5.5.5.7.6 teorie.5 K L Scott.4 4 6 8 vzorku 9.5 teorie K L Scott 9 4 6 8 vzorku x N(, ), q = x N(, ), q = 9.5 teorie Scott 9 3 4 5 6 log (n) (vzorku) malá dimenze q: histogramovací metoda má lepší rozptyl velká dimenze q: KL je méně vychýlený, rozptyly srovnatelné velká q: histogramová metoda konverguje (pro velmi velká n) Entropie; R. Šára, CMP (p. 8)

Odhad entropie a její chyby Dáno: množina D = {x i, i =,,..., n} Cíl: odhad entropie Ĥ(D) včetně chyby var[ĥ(d)] Jackknife. Pro i =,,..., n dělej: a. zkonstruuj D i = D \ {x i } vynecháním jednoho bodu b. odhadni Ĥ i = Ĥ(D i) z D i. Vypočti odhad entropie Ĥ a chyby var[ĥ]: Ĥ = n n i= Ĥ i, var[ĥ] = n n n (Ĥi Ĥ) i= Poznámky jackknife může být použit na jakoukoliv statistiku, nejen entropii, např. na medián,... Je to metoda Resampling Theory Entropie; R. Šára, CMP (p. 9)

Kontingenční analýza Jaká je pravděpodobnost, že v i-té přihrádce histogramu bude n i hodnot když celkem udělám n měření (pokusů)? Sekvence, jejíž prvky jsou četnosti náhodných pokusů: pravděpodobnost takové sekvence { Ei se vyskytne n i krát v daném pořadí } k i= p n pn pn 3 3 pn k k víme, v jakém pořadí padaly kuličky do přihrádek { Ei se vyskytne n i krát v libovolném pořadí } k i= nevíme, v jakém pořadí padaly do přihrádek Pravděpodobnost, že v. přihrádce je n hodnot, ve. přihrádce n hodnot,... : P (x = n, x = n,..., x k = n k ) = n! n! n! n k! pn pn pn k k permutace s opak. To je multinomické rozdělení s parametry n, p, p,..., p k. Entropie; R. Šára, CMP (p. 3)

Příklad Jaké hodnoty relativní četnosti k/n mohu očekávat v první přihrádce dvoupřihrádkového histogramu, když se hodnota vyskytuje s pravděpodobností p =.5 (a druhá s p =.75)? ( ) n P (x = k) = p k ( p ) n k k pst s jakou se k/n vyskytne při opakovaných výsledcích histogramování Entropie; R. Šára, CMP (p. 3) P.35.3.5..5..5 Binomicke rozdeleni pro p =.5 n = n = 6 n =.5.5.75 k/n relativní četnost v přihrádce nejistotu musíme brát v úvahu, když činíme nějaký závěr z relativních četností

Vlastnosti multinomického rozdělení Nechť H = {n, n,..., n k } má multinomické rozdělení a k je počet nezávislých prvků v H. Pak: ( ni ) E = p i var n ( ni cov n, n ) j = p i p j n n ( ni ) = p i ( p i ) n n k (n i n p i ) q = n p i Veličina q má při n asymptoticky rozdělení χ k s hustotou: i= (Pearson) m = k : počet nezávislých prvků v {n,..., n k } f m (x) = xm e x m Γ ( ) m Funkce inverzní k distribuční je Q( m, x ), tj. neúplná gama funkce Q(a, x) = Γ(a) x e t t a dt, a > Entropie; R. Šára, CMP (p. 3)

Pearsonova Statistika q = k i= (n i n p i ) n p i n i nahistogramované četnosti p i model tj., co v histogramu očekáváme Př:. -D histogram nezávislých veličin x, y, pak p ij = p i p j = p(x = x i ) p(y = y j ) a my použijeme odhad p ij modelu p ij = n i n nj n. p i = p(x i Θ) (možné, ale nepraktické) Potom ( m Q, x ) = P (q x) je pravděpodobnost, že změřená hodnota statistiky q je větší než práh x, za předpokladu platnosti modelu. Q.8.6 P(q x T ) m počet přihrádek minus počet dodatečných podmínek, které musí splňovat soubor {n i } a které jsou potřeba k výpočtu hodnoty p i (např. k i= n i = n a k i= n ij = n i pro Př. ). Entropie; R. Šára, CMP (p. 33).4. 3 4 x T x

Standardní kontingenční test Nulová hypotéza H : tvrzení X platí Chyba: Odmítnu H, a (ale) H ve skutečnosti platí Cíl: P (error) α chyba. druhu α: hladina významnosti α: penále, které musím zaplatit, když udělám chybu. Řešení: Procedura statistického testu. vyslov H např. složky x jsou statisticky nezávislé. změř n hodnot D = {x, x,..., x n } 3. vypočti nějakou statistiku q z D např. Pearsonovu statistiku 4. zvol (malé) α typicky α =. nebo α =.5 5. odmítni H když q T (α) musím znát T ( ), T = Q q roste s rostoucí odchylkou dat od H T monotonicky klesá s α Entropie; R. Šára, CMP (p. 34) dostanu velké T pro malé α Což znamená: Jsem velmi tolerantní a odmítnu H jen, když je ve zřejmém rozporu s daty.

Náš problém Například: H : p(a, b) = p(a) p(b) pro test nezávislosti subsystémů H : p(a, b, c) = p(a, b) p(c b) pro test statistické významnosti rekonstrukce struktury systému Pozn: {a, b}, {a, b, c} jsou rozklady množiny (vzorkovacích) proměnných systému. Můžeme si představit, že a, b, c jsou vektorové proměnné. Procedura testu. vyslov H. změř n hodnot D = {x, x,..., x n } 3. vypočti Pearsonovu statistiku q z D 4. vypočti α takové, že q = T (α) 5. je-li dáno D, H platí s pravděpodobností alespoň α odmítnutím H udělám chybu α: P (odmítnu platí) = α malé α mohu odmítnout velké α nemohu odmítnout = musím přijmout P (H platí) = P (přijmu platí) + P (odmítnu platí) α Entropie; R. Šára, CMP (p. 35)

α Postup pro p(a, b) = p(a) p(b). Z kontingenční tabulky vypočteme skutečná četnost n(a i, b j ) četnost predikovaná modelem n p(a i ) p(b j ) q = i j ( nij n i n j n n i n j n ). stupně volnosti: DOF = (r )(c ) 3. vypočteme α = Q ( DOF, q ) 4. vyjde-li malé α, pak tvrdím, že a a b závislé 5. vyjde-li velké α, pak tvrdím, že a a b jsou nezávislé s pravděpodobností alespoň α.8.6.4. α = Q ( DOF, q ) 3 4 q Entropie; R. Šára, CMP (p. 36)

poznámky Počet stupňů volnosti DOF = rc (r + c) + = (r )(c ) Máme rc prvků v tabulce, ale použili jsme dodatečné vztahy n j = i n ij a n i = j n ij, kterých je dohromady r + c. Ale tyto podmínky nejsou nezávislé, protože j n j + i n i = n, odečteme. rychlost růstu prahu přijatelnosti s rostoucím rozlišením 3.5 α=.9 α=.5 α=. T (α, DOF) DOF : q/dof.5 mnoho měření velký DOF T DOF.5 4 6 8 DOF Anděl, J. Statistické metody, MATFYZPRESS Praha 998. Press, WH. Teukolsky SA. et al. Numerical Recipes in C, Cambridge University Press. 99. Entropie; R. Šára, CMP (p. 37)