Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012
Osnova Úvod (Neparametrické) odhady hustoty pravděpodobnosti Bootstrap Použití logistické regresi při klasifikaci
Odhady hustoty pravděpodobnosti motivace Zhodnotit pravidelnost daných struktur Rozdělení vzdáleností d-tých nejbližších sousedů Radiální distribuční funkce Naměřené hodnoty realizace náhodného jevu - odhad hustoty pravděpodobnosti
Odhady hustoty pravděpodobnosti motivace Naměřené hodnoty beru jako realizace náhodného jevu Histogramy jsou pouze odhady hustoty pravděpodobnosti tohoto jevu
Odhady hustoty pravděpodobnosti rozdělení xi - naměřené hodnoty, ρ - hustota pravděpodobnosti Histogram, frekvenční polynom, jádrové odhady
Odhady hustoty pravděpodobnosti rozdělení xi - naměřené hodnoty, ρ - hustota pravděpodobnosti Histogram, frekvenční polynom, jádrové odhady θ - vektor parametrů Bayes, MLE
Histogram - po částech konstantní odhad hustoty pravděpodobnosti k - počet binů, h - šířka binu k = ceiling( (max(x)-min(x)) / h ) k, resp. h jsou klíčové
Histogram - šířka binu Sturgesovo pravidlo (1926) to odpovídá! nepoužívat pro větší soubory dat!
Histogram - šířka binu Sturgesovo pravidlo (1926) to odpovídá! nepoužívat pro větší soubory dat! Scott (1979) - optimální ve smyslu minimalizace MSE
Histogram - šířka binu Sturgesovo pravidlo (1926) to odpovídá! nepoužívat pro větší soubory dat! Scott (1979) - optimální ve smyslu minimalizace MSE Odhady R(ρ') (Scott 1979, Friedman a Diaconis 1981)
Řád konvergence, citlivost Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1).
Řád konvergence, citlivost Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1). Citlivost
Řád konvergence, citlivost Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1). Citlivost
Porovnání pravidel
Literatura
Kernel density estimation Jádrové odhady, Parzenovo okénko... Klouzavý vážený průměr
Tvar jádra, šířka jádra, citlivost Optimální šířka jádra (Scott - kniha) Optimální je tzv. Epanechnikovo jádro Vyšší citlivost na nesprávně zvolenou šířku
Shrnutí Histogram je vhodný pro prvotní náhled Pokud je to možné použijeme parametrické metody (vyšší řád konvergence) Pro velké soubory dat (řádově >104) použít raději jádrové odhady Šířky binů/jádra ovlivní přesnost - záleží na nich Problémy ve více dimenzích
Software Matlab Histogram (fce hist) - není implementováno žádné pravidlo pro počet binů Jádrové odhady (ksdensity) - pravidla pro šířku jádra - pouze to nejjednodušší R - všechny zmiňovaná pravidla: hist(x,breaks="volba_pravidla"), resp. plot(density(x,kernel="tvar_jádra", breaks="volby_pravidla"))
Další využití Klasifikace Statistické zpracování výsledků Segmentace...
Časosběrné snímky Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) Rozdělení hodnot - superpozice dvou gausovek
Časosběrné snímky Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) Rozdělení hodnot - superpozice dvou gausovek
Výsledky Matlab - statistický toolbox "Gaussian mixture" Viditelné jpg artefakty Úspěšnost srovnatelná s nejlepší volbou prahu
Intermezzo Strategie vědeckého poznání, filozofie vědy Jak psát články, pracovat se zdroji, komunikovat s recenzenty
Bootstrap Simulační statistická metoda Efron (1979) - první článek Jak recyklovat data tak, abych je mohl považovat za data nová (nezávislá na původních) Vhodné, pokud je získání dalších dat příliš drahé, náročné či nemožné
Princip Na základě dat {xi} chci získat rozdělení statistiky s
Princip Na základě dat {xi} chci získat rozdělení statistiky s Provedu náhodný výběr s vracením z {xi} a spočtu statistiku na těchto datech
Princip Na základě dat {xi} chci získat rozdělení statistiky s Provedu náhodný výběr s vracením z {xi} a spočtu statistiku na těchto datech Opakuji dostatečně-krát
Příklad Statistický výzkum mezi lidmi (známky ve škole)
Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent
Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost?
Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost? Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent
Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost? Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent Z rozdělení bootstrapových odhadů spočítám směrodatnou odchylku pro vlastní čísla a vektory (a cokoli dalšího, co mě zajímá)
Kolikrát opakovat? Podle toho, co chci získat
Kolikrát opakovat? Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí 200600 opakování (podle některých zdrojů jen 50200)
Kolikrát opakovat? Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí 200600 opakování (podle některých zdrojů jen 50200) Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování
Kolikrát opakovat? Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí 200600 opakování (podle některých zdrojů jen 50200) Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování Existují metody, jak snížit počet opakování
Kde nepoužívat? Když vím, že odhadovaná statistika je divoká Není vhodné pro odhady extrémů Pokud jsou data v původním souboru navzájem závislá, musíme modifikovat Můžeme používat i pokud máme odlehlé hodnoty, výsledky na to nejsou příliš citlivé
Literatura Efron, Tibshirani - An introduction to bootstrap Prášková (ROBUST 2004) - Metoda bootstrap Davison, Hinkley - Bootstrap Methods and Their Application
Intermezzo Kurz: Úvod do programování v Matlabu Doktorandští studenti numeriky www.papez.org/matlab 13. - 17. února od 9 do 13h přihlásit se do 5. února
Regrese vs. klasifikace - shrnutí Je možné provádět klasifikaci pomocí logistické regrese - model pro učení Získáme pravděpodobnosti
Logistická regrese Není to matematicky ekvivalentní se SVM minimalizujeme různé veličiny Výsledky můžou být srovnatelně dobré
Transformace souřadnic U regrese jsou užitečné triky, které se dají použít v klasifikaci - transformace souřadnic
Data z tunelovacího mikroskopu Poissonovský proces velikost šumu závisí na intezitě signálu Škálujeme pomocí log
Děkuji za pozornost Diskuze