Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012

Osnova Úvod (Neparametrické) odhady hustoty pravděpodobnosti Bootstrap Použití logistické regresi při klasifikaci

Odhady hustoty pravděpodobnosti motivace Zhodnotit pravidelnost daných struktur Rozdělení vzdáleností d-tých nejbližších sousedů Radiální distribuční funkce Naměřené hodnoty realizace náhodného jevu - odhad hustoty pravděpodobnosti

Odhady hustoty pravděpodobnosti motivace Naměřené hodnoty beru jako realizace náhodného jevu Histogramy jsou pouze odhady hustoty pravděpodobnosti tohoto jevu

Odhady hustoty pravděpodobnosti rozdělení xi - naměřené hodnoty, ρ - hustota pravděpodobnosti Histogram, frekvenční polynom, jádrové odhady

Odhady hustoty pravděpodobnosti rozdělení xi - naměřené hodnoty, ρ - hustota pravděpodobnosti Histogram, frekvenční polynom, jádrové odhady θ - vektor parametrů Bayes, MLE

Histogram - po částech konstantní odhad hustoty pravděpodobnosti k - počet binů, h - šířka binu k = ceiling( (max(x)-min(x)) / h ) k, resp. h jsou klíčové

Histogram - šířka binu Sturgesovo pravidlo (1926) to odpovídá! nepoužívat pro větší soubory dat!

Histogram - šířka binu Sturgesovo pravidlo (1926) to odpovídá! nepoužívat pro větší soubory dat! Scott (1979) - optimální ve smyslu minimalizace MSE

Histogram - šířka binu Sturgesovo pravidlo (1926) to odpovídá! nepoužívat pro větší soubory dat! Scott (1979) - optimální ve smyslu minimalizace MSE Odhady R(ρ') (Scott 1979, Friedman a Diaconis 1981)

Řád konvergence, citlivost Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1).

Řád konvergence, citlivost Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1). Citlivost

Porovnání pravidel

Literatura

Kernel density estimation Jádrové odhady, Parzenovo okénko... Klouzavý vážený průměr

Tvar jádra, šířka jádra, citlivost Optimální šířka jádra (Scott - kniha) Optimální je tzv. Epanechnikovo jádro Vyšší citlivost na nesprávně zvolenou šířku

Shrnutí Histogram je vhodný pro prvotní náhled Pokud je to možné použijeme parametrické metody (vyšší řád konvergence) Pro velké soubory dat (řádově >104) použít raději jádrové odhady Šířky binů/jádra ovlivní přesnost - záleží na nich Problémy ve více dimenzích

Software Matlab Histogram (fce hist) - není implementováno žádné pravidlo pro počet binů Jádrové odhady (ksdensity) - pravidla pro šířku jádra - pouze to nejjednodušší R - všechny zmiňovaná pravidla: hist(x,breaks="volba_pravidla"), resp. plot(density(x,kernel="tvar_jádra", breaks="volby_pravidla"))

Další využití Klasifikace Statistické zpracování výsledků Segmentace...

Časosběrné snímky Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) Rozdělení hodnot - superpozice dvou gausovek

Výsledky Matlab - statistický toolbox "Gaussian mixture" Viditelné jpg artefakty Úspěšnost srovnatelná s nejlepší volbou prahu

Intermezzo Strategie vědeckého poznání, filozofie vědy Jak psát články, pracovat se zdroji, komunikovat s recenzenty

Bootstrap Simulační statistická metoda Efron (1979) - první článek Jak recyklovat data tak, abych je mohl považovat za data nová (nezávislá na původních) Vhodné, pokud je získání dalších dat příliš drahé, náročné či nemožné

Princip Na základě dat {xi} chci získat rozdělení statistiky s

Princip Na základě dat {xi} chci získat rozdělení statistiky s Provedu náhodný výběr s vracením z {xi} a spočtu statistiku na těchto datech

Princip Na základě dat {xi} chci získat rozdělení statistiky s Provedu náhodný výběr s vracením z {xi} a spočtu statistiku na těchto datech Opakuji dostatečně-krát

Příklad Statistický výzkum mezi lidmi (známky ve škole)

Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent

Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost?

Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost? Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent

Příklad Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost? Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent Z rozdělení bootstrapových odhadů spočítám směrodatnou odchylku pro vlastní čísla a vektory (a cokoli dalšího, co mě zajímá)

Kolikrát opakovat? Podle toho, co chci získat

Kolikrát opakovat? Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí 200600 opakování (podle některých zdrojů jen 50200)

Kolikrát opakovat? Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí 200600 opakování (podle některých zdrojů jen 50200) Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování

Kolikrát opakovat? Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí 200600 opakování (podle některých zdrojů jen 50200) Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování Existují metody, jak snížit počet opakování

Kde nepoužívat? Když vím, že odhadovaná statistika je divoká Není vhodné pro odhady extrémů Pokud jsou data v původním souboru navzájem závislá, musíme modifikovat Můžeme používat i pokud máme odlehlé hodnoty, výsledky na to nejsou příliš citlivé

Literatura Efron, Tibshirani - An introduction to bootstrap Prášková (ROBUST 2004) - Metoda bootstrap Davison, Hinkley - Bootstrap Methods and Their Application

Intermezzo Kurz: Úvod do programování v Matlabu Doktorandští studenti numeriky www.papez.org/matlab 13. - 17. února od 9 do 13h přihlásit se do 5. února

Regrese vs. klasifikace - shrnutí Je možné provádět klasifikaci pomocí logistické regrese - model pro učení Získáme pravděpodobnosti

Logistická regrese Není to matematicky ekvivalentní se SVM minimalizujeme různé veličiny Výsledky můžou být srovnatelně dobré

Transformace souřadnic U regrese jsou užitečné triky, které se dají použít v klasifikaci - transformace souřadnic

Data z tunelovacího mikroskopu Poissonovský proces velikost šumu závisí na intezitě signálu Škálujeme pomocí log

Děkuji za pozornost Diskuze