ANALÝZA A KLASIFIKACE DAT prof. Ing. Jří Holčík, CSc. INVESTICE Insttut DO bostatstky ROZVOJE VZDĚLÁVÁNÍ a analýz
IV - pokračování KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI
METRIKY PRO URČENÍ VZDÁLENOSTI MEZI DVĚMA OBRAZY S KVALITATIVNÍMI PŘÍZNAKY
KONTINGENČNÍ MATICE vycházejí z pojmu kontngenční matce (tabulka; předpokládejme, že hodnoty uvažovaných vektorů patří do konečné k-prvkové množny F kategorálních, nebo případně dskrétně kvanttatvních hodnot. Dále předpokládejme, že máme vektory,y F n, kde n je jejch délka a nechť A(,y {a j },,j F, je matce o rozměru k k, a její prvky a j jsou určeny počtem případů, kdy se hodnota nachází na určté pozc ve vektoru a současně se na téže pozc nachází hodnota j ve vektoru y. Matc A nazýváme kontngenční tabulkou (matcí. Pokud je kontngenční tabulka rozměru, tj. k, nazýváme j čtyřpolní tabulkou, slouží ke srovnání dchotomckých znaků.
KONTINGENČNÍ MATICE - PŘÍKLAD předpokládejme, že množna F obsahuje symboly {,, }, tj. k 3 a vektory a y jsou (,,,,, T a y (,,,,, T, n 6. Potom kontngenční matce A(,y je A (, y součet hodnot všech prvků matce A(,y je roven délce n obou vektorů, tj. v našem případě a j 6 j
HAMMINGOVA METRIKA je defnována počtem pozc, v nchž se oba vektory lší ρ (, y k k HQ a j j j tj. je dána součtem všech prvků matce A, které leží mmo hlavní dagonálu.
HAMMINGOVA METRIKA pro k, kdy jsou hodnoty obou vektorů bnární, se defnční vztah Hammngovy vzdálenost transformuje na n ρhqb (, y ( y y kde třetí člen v závorce kompenzuje případ, kdy jsou hodnoty y rovny jedné a součet prvních členů v závorce je tím pádem roven dvěma, ncméně nastává shoda hodnot, která k celkové vzdálenost nemůže přspět. protože a y nabývají hodnot pouze a, můžeme také psát n ρhqb (, y ( y y ( y díky specálnímu případu hodnot a y je možná nejjednodušší forma n ρ HQB (, y n y
HAMMINGOVA METRIKA v případě bpolárních vektorů, kdy jednotlvé složky vektorů nabývají hodnot a -, je Hammngova vzdálenost určena vztahem ρhqp (, y n n y
HAMMINGOVA METRIKA PŘÍKLAD Určete Hammngovu vzdálenost vektorů z předchozího příkladu, tj. (,,,,, T a y (,,,,, T. Vzájemným porovnáním obou vektorů lze určt, že oba vektory se lší v první, druhé a páté souřadnc, to znamená, že se oba vektory lší ve třech pozcích, což defnuje hodnotu Hammngovy vzdálenost obou vektorů, tj. d HQ (,y 3.
HAMMINGOVA METRIKA PŘÍKLAD Určete Hammngovu vzdálenost vektorů z předchozího příkladu, tj. (,,,,, T a y (,,,,, T. A(, y Z kontngenční matce A(,y je vzdálenost určena součtem všech prvků matce A(,y mmo hlavní dagonálu. Tedy d HQ (,y a a a 3 3.
HAMMINGOVA METRIKA PŘÍKLAD Určete Hammngovu vzdálenost bnárních vektorů (,,,, T a y (,,,, T. Podle defnčního prncpu je vzdálenost obou vektorů dána počtem pozc, ve kterých se oba vektory lší, tj. d HQB (,y 3.
HAMMINGOVA METRIKA PŘÍKLAD Určete Hammngovu vzdálenost bnárních vektorů (,,,, T a y (,,,, T. Použjeme-l vztah (.. ( d HQB (, y n ( y y.. (.. (.. (.. 3.
HAMMINGOVA METRIKA PŘÍKLAD Určete Hammngovu vzdálenost bnárních vektorů (,,,, T a y (,,,, T. Podle vztahu dhqb (, y ( y n ( ( ( ( ( 3.
HAMMINGOVA METRIKA PŘÍKLAD Určete Hammngovu vzdálenost bnárních vektorů (,,,, T a y (,,,, T. Konečně, podle vztahu d HQB (, y y n 3.
HAMMINGOVA METRIKA PŘÍKLAD 3 Určete Hammngovu vzdálenost bpolárních vektorů (,,, -, T a y (, -,, -, - T. Podle defnčního prncpu se oba vektory lší ve dvou pozcích, tj. d HQP (,y.
HAMMINGOVA METRIKA PŘÍKLAD 3 Určete Hammngovu vzdálenost bpolárních vektorů (,,, -, T a y (, -,, -, - T. Z kontngenční matce, která je pro tento případ rovna A(, y je d HQP (,y rovna součtu hodnot prvků ležících mmo hlavní dagonálu, tj. d HQP (,y.
HAMMINGOVA METRIKA PŘÍKLAD 3 Určete Hammngovu vzdálenost bpolárních vektorů (,,, -, T a y (, -,, -, - T. Pomocí vztahu n n y d HQP (, y 5 (. (.( (. ((.( (.( 5 ( 5. (
METRIKY PRO URČENÍ PODOBNOSTI MEZI DVĚMA OBRAZY S KVALITATIVNÍMI PŘÍZNAKY
případy obecné případy s dchotomckým příznaky, pro které je defnována celá řady tzv. asocačních koefcentů. (Asocační koefcenty až na výjmky nabývají hodnot z ntervalu,, hodnoty v případě shody vektorů, pro případ nepodobnost.
OBECNÉ METRIKY HAMMINGOVA METRIKA pro nedchotomcké příznaky σ HQ (, y bma ρhq (, y.
TANIMOTOVA METRIKA Předpokládejme, že máme dvě množny X a Y a n X, n Y a n X Y jsou kardnalty (počty prvků množn X, Y a X Y. V tom případě je Tanmotova míra podobnost dvou množn určena podle vztahu σt( T X, Y n X n n X Y Y n X Y. - jným slovy, Tanmotova podobnost dvou množn je určena počtem společných prvků obou množn vztaženým k počtu všech rozdílných prvků.
TANIMOTOVA METRIKA Pro výpočet Tanmotovy podobnost dvou vektorů s kvaltatvním příznaky jsou použty všechny páry složek srovnávaných vektorů, kromě těch, jejchž hodnoty jsou obě nulové. Defnujme pro porovnávané vektory a y hodnoty n k k k k a j j a n y a j j kde k je počet hodnot souřadnc obou vektorů a a j jsou prvky kontngenční matce A(,y, tzn. že n, resp. n y udává počet nenulových položek vektoru, resp. y.
TANIMOTOVA METRIKA n k k k k a j j n y a j j k a σ TQ(, y k k n n y a j
TANIMOTOVA TANIMOTOVA METRIKA METRIKA - PŘÍKLAD PŘÍKLAD Určete hodnoty Tanmotových podobností s (,, s (,y a Určete hodnoty Tanmotových podobností s TQ (,, s TQ (,y a s TQ (,z, jsou-l vektory (,,,,, T a (,,,,, T a y (,,,,, T a z (,,,,, T. Ze zadání je množna symbolů F {,, }, k 3, n 6. Ze zadání je množna symbolů F {,, }, k 3, n 6. Kontngenční tabulky jsou ;, ( ; 3, ( y A A., ( z A ;, ( ; 3, ( y A A., ( z A
TANIMOTOVA METRIKA - PŘÍKLAD V prvním případě př mamální podobnost jsou nenulové prvky kontngenční tabulky pouze na hlavní dagonále, v případě nejmenší podobnost jsou naopak na hlavní dagonále jen nulové prvky. V případě první podobnost s TQ (, je n 5, n Y 5, součet prvků na hlavní dagonále Σa také 5 a konečně součet ΣΣa j opět 5. Hodnota podobnost pak po dosazení je 5 s TQ (,. 5 5 5
TANIMOTOVA METRIKA - PŘÍKLAD Pro podobnost s TQ (,y je n 5, n y 4, součet prvků na hlavní dagonále Σa 3 a konečně součet ΣΣa j 3. Hodnota podobnost pak po dosazení je 3 s TQ (, y,5. 5 4 3 Konečně, pro podobnost s TQ (,z, což představuje srovnání dvou nejméně podobných vektorů, je n 5, n y, součet prvků na hlavní dagonále Σa a konečně součet ΣΣa j. Hodnota podobnost pak po dosazení je s TQ (, z 5.
DALŠÍ OBECNÉ METRIKY Další míry podobnost vektorů,y F n jsou defnovány pomocí různých prvků kontngenční matce A(,y. Některé z nch používají pouze počet shodných pozc v obou vektorech (ovšem s nenulovým hodnotam, jné míry používají shodu s nulovým hodnotam. Příkladem metrky podobnost z první uvedené kategore může být např. metrka defnovaná vztahem σ k (, y n a nebo metrka k a σ (, y n a Příkladem metrky druhé uvedené skupny je např. σ3 (, y k n a
ASOCIAČNÍ KOEFICIENTY false/ true/ false/ D C true/ B A j A. hodnota k-té souřadnce obou vektorů sgnalzuje, že u obou obrazů sledovaný jev nastal (oba odpovídající s příznaky mají hodnotu true, resp. poztvní shoda; B. ve vektoru jev nastal ( k true, zatímco ve vektoru j nkolv ( jk false, resp. ; C. u obrazu jev nenastal (k-tá souřadnce má hodnotu k false, zatímco u obrazu j ano ( jk true; D. sledovaný jev nenastal (oba odpovídající s příznaky mají hodnotu false negatvní shoda. Př výpočtu podobnost dvou vektorů sledujeme kolkrát pro všechny souřadnce obou vektorů j a j nastaly případy shody č neshody AD určuje celkový počet shod, BC celkový počet neshod a ABCD n, tj. celkový počet souřadnc obou vektorů (obrazů.
JACCARDŮV TANIMOTŮV ASOCIAČNÍ KOEFICIENT σ ( JT, y A A B C což je díky zjednodušení dchotomcká varanta metrky podle vztahu k a σtq (, y k k n n y Tento vztah se domnantně používá v ekologckých studích. a j
RUSSELŮV RAOŮV ASOCIAČNÍ KOEFICIENT σ RR(, y A A B C D je to dchotomcká varanta metrky podle vztahu σ k (, y na
SOKALŮV MICHENERŮV ASOCIAČNÍ KOEFICIENT σ SM(, y A D A B C D je dchotomcká varanta vztahu σ k 3(, y n a
DICEŮV (CZEKANOWSKÉHO ASOCIAČNÍ KOEFICIENT σ DC(, y A A A B C (A B (A C V případě Jaccardova a Dceova koefcentu je třeba vyřešt (pokud jsou používány v stuacích, kdy může nastat úplná negatvní shoda jejch hodnotu, když A B C. Pak zpravdla předpokládáme, že σ JT (,y σ DC (,y.
ROGERSŮV TANIMOTŮV ASOCIAČNÍ KOEFICIENT σ RT(, y A A D D.(B C (B C A D (A B C D oba posledně uvedené koefcenty zvyšují význam shod v datech Dceův koefcent zvýšením váhy počtu poztvních shod v čtatel jmenovatel, v druhém případě zvýšením váhy počtu neshod ve jmenovatel.
HAMANŮV ASOCIAČNÍ KOEFICIENT σ HA(, y A D (B C A B C D nabývá na rozdíl od všech dříve uvedených koefcentů hodnot z ntervalu -,. Hodnoty - nabývá, pokud se příznaky pouze neshodují, je roven nule, když je počet shod a neshod v rovnováze a v případě úplné shody všech příznaků.
Z asocačních koefcentů, které vyjadřují míru podobnost, lze jednoduše odvodt míry nepodobnost (vzdálenost pomocí formule ρ (, y σ (, y. X( X
Na základě četností A až D lze pro případ bnárních příznaků vytvářet zajímavé vztahy pro jž dříve uvedené míry: Hammngova metrka ρ (, y B C ; H Eukldova metrka ρ (, y B C ; H Pearsonův korelační koefcent σ PC(, y (A A.D B.C B.(C D.(A C.(B D
DETERMINISTICKÉ METRIKY PRO URČENÍ VZDÁLENOSTI MEZI DVĚMA MNOŽINAMI OBRAZŮ
PODOBNOST MEZI TŘÍDAMI podobnost jednoho obrazu s více obrazy jedné třídy (skupn, množn, shluků; podobnost obrazů dvou tříd (skupn, množn, shluků; zavedeme funkc, která ke každé dvojc skupn obrazů (C,C j přřazuje číslo D(C,C j, které podobně jako míry podobnost č nepodobnost (metrky jednotlvých obrazů musí splňovat mnmálně podmínky:
PODOBNOST MEZI TŘÍDAMI PODMÍNKY (S D(C,C j (S D(C,C j D(C j,c (S3 D(C,C ma,j D(C,C j (S3 (pro míry podobnost D(C,C pro všechna (pro míry vzdálenost
METODA NEJBLIŽŠÍHO SOUSEDA je-l d lbovolná míra nepodobnost (vzdálenost dvou obrazů a C ac j jsou lbovolné skupny množny obrazů { },,,K, potom metoda nejblžšího souseda defnuje mez skupnam C ac j vzdálenost Pozn.: D NN ( C, C mn d(, p C C Př použtí této metody se mohou vyskytovat v jednom shluku často poměrně vzdálené obrazy. Tzn. metoda nejblžšího souseda může generovat shluky protáhlého tvaru. q j p q
METODA K NEJBLIŽŠÍCH SOUSEDŮ Je zobecněním metody nejblžšího souseda. Je defnována vztahem D NNk ( C, C mn p C C q j k d( tj. vzdálenost dvou shluků je defnována součtem k nejkratších vzdáleností mez obrazy dvou skupn obrazů. p, q, Pozn.: Př shlukování metoda částečně potlačuje generování řetězcových struktur.
METODA NEJVZDÁLENĚJŠÍHO SOUSEDA opačný prncp než nejblžší soused Pozn.: D FN ( C, C ma d( p C C Generování protáhlých struktur tato metoda potlačuje, naopak vede ke tvorbě nevelkých kompaktních shluků. je možné zobecnění pro více nejblžších sousedů q j p, q D FNk ( C, C ma p C q C j k d( p, q,
METODA CENTROIDNÍ vychází z geometrckého modelu v eukldovském n rozměrném prostoru a určuje vzdálenost dvou tříd jako čtverec Eukldovy vzdálenost těžšť obou tříd. je-l těžště třídy defnováno jako střední hodnota z obrazů patřících do této třídy, tj. pak rk {rk,rk,...,rkn}, r rk, D C ( C, C ρ E ( K k, j,,...,n,
METODA PRŮMĚRNÉ VAZBY vzdálenost dvou tříd C ac j je průměrná vzdálenost mez všem obrazy tříd C ac j. Obsahuje-l shluk C P obrazů ac j Q obrazů, pak jejch vzdálenost je defnována vztahem Pozn.: D GA P Q ( C, C d( p,q. PQ p q Metoda často vede k podobným výsledkům jako metoda nejvzdálenějšího souseda.
WARDOVA METODA vzdálenost mez třídam (shluky je defnována přírůstkem součtu čtverců odchylek mez těžštěm a obrazy shluku vytvořeného z obou uvažovaných shluků C ac j oprot součtu čtverců odchylek mez obrazy a těžšt v obou shlucích C ac j.
WARDOVA METODA jsou-l a j těžště tříd C ac j a těžště sjednocené množny, pak Wardova vzdálenost obou shluků je defnována výrazem Pozn.: D W ( C, C ( n C C k n n (k k ( C k C j k j k k Metoda má tendenc vytvářet shluky zhruba stejné velkost, tedy odstraňovat shluky malé, resp. velké. k.
WARDOVA METODA
METRIKY PRO URČENÍ VZDÁLENOSTI MEZI DVĚMA MNOŽINAMI OBRAZŮ POUŽÍVAJÍCÍ JEJICH PRAVDĚPODOBNOSTNÍ CHARAKTERISTIKY
NA ÚVOD Klasfkační třídy (množny obrazů se společným charakterstkam nemusí být defnovány jen výčtem obrazů, nýbrž vymezením obecnějších vlastností - defncí hranc oddělujících část obrazového prostoru, která náleží dané klasfkační třídě, dskrmnační funkcí, pravděpodobnostním charakterstkam výskytu obrazů v dané třídě, atd.
NA ÚVOD Pokud s na metrky klademe určté požadavky, metrky pro stanovení vzdálenost dvou množn, pro něž využíváme rozložení pravděpodobnost výskytu obrazů, by měly vyhovovat standardním požadavkům. Logcky tyto metrky splňují následující vlastnost (protože jejch výpočet je založen na poněkud jném přístupu a protože dále uvedené vlastnost nesplňují vše, co od metrk očekáváme, bývá zvykem je značt jným písmenem, zpravdla J:. J, pokud jsou hustoty pravděpodobnost obou množn dentcké, tj. když p( ω p( ω ;. J ; 3. J nabývá mama, pokud jsou obě množny dsjunktní, tj. když p ( ω.p( ω d (Jak vdíme, není mez vlastnostm pravděpodobnostních metrk uvedena trojúhelníková nerovnost, jejíž splnění by se zajšťovalo vskutku jen velm obtížně.
NA ÚVOD Základní myšlenkou, na které jsou pravděpodobnostní metrky založeny, je využtí pravděpodobnost způsobené chyby. Čím více se hustoty pravděpodobnost výskytu obrazů v jednotlvých množnách překrývají, tím je větší pravděpodobnost chyby.
NA ÚVOD Pravděpodobnost P e chybného zařazení je (VIZ Bayesův klasfkátor rovna P e X J( a * mnj( a mnl ( d [ p( p(.p( ]d ] X a ωr ωr p( d a X X ma p( ω r r r.p( ω r d X ma p( ω.p( ω d Pro dchotomcký případ (R je celková pravděpodobnost chybného rozhodnutí určena vztahem Pe p( ω.p( ω p( ω.p( ω X X r r d, což lze podle Bayesova vzorce upravt do tvaru Pe P( ω P( ω X.p(.d. Kolmogorovova varační vzdálenost r.
NA ÚVOD Hodnota Kolmogorovovy varační vzdálenost přímo souvsí s pravděpodobností chybného rozhodnutí. Ostatní dále uvedené pravděpodobnostní vzdálenost odvozené z obecné formule J( [ p( ω,p( ω,,. ] d f už tuto přímou souvslost nemají.
PRAVDĚPODOBNOSTNÍ METRIKY Chernoffova metrka s s JC( ω, ω ln p ( ω.p ( ω Bhattacharyyova metrka.d, s J B( ω, ω ln [p( ω.p( ω ],5 ;;.d. (Jak lze snadno rozpoznat, Bhattacharyyova metrka je specální případ Chernoffovy metrky pro s,5. Dvergence J D ( ω, ω [p( ω p( ω Patrckova -Fsherova metrka ].ln p( ω.d ; p( ω J PF ( ω, ω { },5 [p( ω p( ω ].d.
ZPRŮMĚRNĚNÉ PRAVDĚPODOBNOSTNÍ METRIKY zprůměrněná Chernoffova metrka J AC ( ω, ω ln [p( ω.p( ω ] s.[p( ω.p( ω ] s.d,. s ; ; zprůměrněná Bhattacharyyova metrka J AB ( ω, ω ln [p( ω.p( ω.p( ω.p( ω ],5.d ; zprůměrněná dvergence J AD ( ω, ω [p( ω.p( ω p( ω.p( ω p( ω.p( ω ].ln.d; p(.p( ω ω zprůměrněná Patrckova -Fsherova metrka J PF ( ω, ω { },5 [p( ω.p( ω p( ω.p( ω ].d.
Příprava nových učebních materálů oboru Matematcká bologe je podporována projektem ESF č. CZ..7/../8.43 INTERDISCIPLINÁRNÍ ROZVOJ STUDIJNÍHO OBORU MATEMATICKÁ BIOLOGIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ