ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc.

III. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD

PŘÍZNAKOVÝ POPIS Příznakový obraz x zpracovávaných dat je vyjádřen n-rozměrným loupcovým vektorem hodnot x i, i=,,,n příznakových proměnných veličin charakterizujících vlatnoti těchto dat, tj. platí x=x,x,,x n T.

PŘÍZNAKOVÝ POPIS Příznakové proměnné mohou popiovat kvantitativní i kvalitativní vlatnoti ouboru dat. Jejich hodnoty nazýváme příznaky. Podle definičního oboru rozlišujeme proměnné: pojité nepojité, dikrétní, vyjmenovatelné logické, binární, alternativní, dichotomické

PŘÍZNAKOVÝ POPIS Vrchol každého příznakového vektoru obrazu předtavuje bod n-rozměrného protoru X n, který nazýváme obrazovým protorem. Obrazový protor je definován kartézkým oučinem definičních oborů všech příznakovým proměnných, tzn. že jej tvoří všechny možné obrazy zpracovávaného ouboru dat.

PŘÍZNAKOVÝ POPIS Při vhodném výběru příznakových veličin je podobnot ignálů jedné klaifikační třídy vyjádřena blízkotí jejich obrazů v obrazovém protoru. Vymezení klaifikační třídy: etalony - charakteritické reprezentativní obrazy hranice

PŘÍZNAKOVÝ KLASIFIKÁTO Příznakový klaifikátor je troj tolika vtupy, kolik je příznaků a jedním dikrétním výtupem, který udává třídu, do které klaifikátor zařadil rozpoznávaný obraz. ω r = dx dx je kalární funkce vektorového argumentu x, kterou nazýváme rozhodovací pravidlo klaifikátoru; ω r je identifikátor klaifikační třídy

PŘÍZNAKOVÝ KLASIFIKÁTO determinitický a nedeterminitický pevným a proměnným počtem příznaků bez učení a učením

PŘÍZNAKOVÝ KLASIFIKÁTO determinitický a nedeterminitický pevným a proměnným počtem příznaků bez učení a učením Nadále e nějaký ča věnujme determinitickým klaifikátorům pevným počtem příznaků.

PŘÍZNAKOVÝ KLASIFIKÁTO Obrazový protor je rozhodovacím pravidlem rozdělen na dijunktních protorů r, r=,,, přičemž každá podmnožina r obahuje ty obrazy x, pro které je ω r = dx. Návrh rozhodovacího pravidla je základním problémem návrhu klaifikátoru.

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ hranice klaifikačních tříd definujeme pomocí kalárních funkcí g x, g x,, g x takových, že pro obraz x z podmnožiny r pro všechna r platí g r x > g x, pro =,,, a r funkce g r x mohou vyjadřovat např. míru výkytu obrazu x patřícího do r-té klaifikační třídy v daném mítě obrazového protoru nazýváme je dikriminační funkce

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ hranice mezi dvěma ouedními podmnožinami r a je určena průmětem průečíku funkcí g r x a g x, definovaného rovnicí g r x = g x, do obrazového protoru.

BLOKOVÉ SCHÉMA KLASIFIKÁTOU POMOCÍ DISKIMINAČNÍCH FUNKCÍ

BLOKOVÉ SCHÉMA KLASIFIKÁTOU POMOCÍ DISKIMINAČNÍCH FUNKCÍ u dichotomického klaifikátoru dvě třídy je ω = ign g x g x

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ nejjednodušším tvarem dikriminační funkce je funkce lineární, která má tvar g r x = a r0 + a r x + a r x + + a rn x n kde a r0 je práh dikriminační funkce poouvající počátek ouřadného ytému a a ri jou váhové koeficienty i-tého příznaku x i lineárně eparabilní třídy

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ LINEÁNĚ NESEPAABILNÍ TŘÍDY zachováme původní obrazový protor a zvolíme nelineární dikriminační funkci definovanou obecně loženou po čátech z lineárních úeků zobrazíme původní n-rozměrný obrazový protor X n nelineární tranformací Φ: X n X m do nového m-rozměrného protoru X m, obecně je m n, tak, aby v novém protoru byly klaifikační třídy lineárně eparabilní a v novém protoru použijeme lineární klaifikátor Φ převodník

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI reprezentativní obrazy klaifikačních tříd - etalony je-li v obrazovém protoru zadáno poloh etalonů vektory x E, x E,, x E, zařadí klaifikátor podle minimální vzdálenoti klaifikovaný obraz x do té třídy, jejíž etalon má od bodu x minimální vzdálenot. ozhodovací pravidlo je určeno vztahem d x x x minx x re E

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI uvažme případ dvou tříd reprezentovaných etalony x E = x E, x E a x E = x E, x E ve dvoupříznakovém euklidovkém protoru; vzdálenot mezi obrazem x = x,x a libovolným z obou etalonů je pak definována v x E, x xe x x E x x E x hledáme menší z obou vzdálenotí, tj. min =, vx E,x, ale také min =, v x E,x; min v x, min v, minx x x x Ex xex E E minx x [x x x x x x E E E E /]

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI dikriminační kuželové plochy e protínají v parabole a její průmět do obrazové roviny je přímka definovaná vztahem x x E - x E + x x E - x E - x E + x E - x E - x E / = 0 Tato hraniční přímka mezi klaifikačními třídami je vždy kolmá na pojnici obou etalonů a tuto pojnici půlí klaifikátor pracující na základě kritéria minimální vzdálenoti je ekvivalentní lineárnímu klaifikátoru dikriminačními funkcemi.

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI Klaifikace podle minimální vzdálenoti třídami reprezentovanými více etalony je ekvivalentní klaifikaci podle dikriminační funkce po čátech lineární hraniční plochou

UČENÍ DISKIMINAČNÍCH FUNKCÍ ZE STATISTICKÝCH VLASTNOSTÍ MNOŽINY OBAZŮ

ZÁKLADNÍ POJMY A PŘEDPOKLADY při řešení praktických úloh je třeba předpokládat, že obrazy ignálů jou ovlivněny víceméně náhodnými fluktuacemi zdroje ignálu, v přenoové cetě, při předzpracování i analýze, které e nepodaří zcela eliminovat. ztrátová funkce r udává ztrátu při chybné klaifikaci obrazu ze třídy do třídy r. matice ztrátových funkcí λ třední ztráta Ja udává průměrnou ztrátu při chybné klaifikaci obrazu x

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY pokud e outředíme na obrazy pouze ze třídy, je třední ztráta dána průměrnou hodnotou z dx,a vzhledem ke všem obrazům ze třídy, tj. J a x d xa,. p x d kde px je podmíněná hutota pravděpodobnoti výkytu obrazu x ve třídě x

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Celková třední ztráta Ja je průměrná hodnota ze ztrát J a J a J a. P x d xa,. p x. P dx nebo podle Bayeova vzorce Pω x.px = px ω.pω J a x d xa, kde px je hutota pravděpodobnoti výkytu obrazu x v celém obrazovém protoru a P x je podmíněná pravděpodobnot, že daný obraz patří do třídy tzv. apoteriorní pravděpodobnot třídy.. p x. P x dx

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Návrh optimálního klaifikátoru, který by minimalizoval třední ztrátu, počívá v nalezení takové množiny parametrů rozhodovacího pravidla a*, že platí J a* min J a Doadíme-li za Ja z předchozího vztahu, je J a* min d xa,. p x. P a x Je-li ztrátová funkce r kontantní pro všechny obrazy z, je dále J a* min r. p x. P dx r x a d x

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Označíme-li ztrátu při klaifikaci obrazu x do třídy r L x r r. p x. P tak po doazení dotaneme J a* minl dx x Úloha nalezení minima celkové třední ztráty e tak převedla na minimalizaci funkce L x r. Optimální rozhodovací pravidlo dx,a* podle kritéria minimální celkové třední ztráty je L x dme x, a* r x r minl r x r

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Chceme-li využít principu dikriminačních funkcí Dikriminační funkci optimálního klaifikátoru podle kritéria minimální chyby pak definujeme r x L x r r. p x. P g minl x r maxl x r

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY DICHOTOMICKÝ KLASIFIKÁTO Celková třední ztráta v případě dvou tříd je J a. p x. P d x P.. P. P. p x p x P.. dx. dx. P. P. P.. p x. p x p x. P. dx. dx d x P.

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY DICHOTOMICKÝ KLASIFIKÁTO Dikriminační funkce pro dichotomický klaifikátor bude g x g x g x p. x. P. p x P. p. x. P L x L x p. p. x. P. P p. x. P Položíme-li tento výraz nule dotaneme vztah pro hraniční plochu dichotomického klaifikátoru, ze kterého můžeme určit poměr hutot pravděpodobnoti výkytu obrazu x v každé z obou klaifikačních tříd - věrohodnotní poměr P. p p x x P. Obraz x zařadíme do třídy, když je věrohodnotní poměr větší než výraz na pravé traně, je-li menší pak obraz x zařadíme do třídy.

VĚOHODNOSTNÍ POMĚ I. Sumarizuje veškerou informaci zíkanou experimentem. Pravděpodobnot, že jev data natane za daných podmínek hypotéza děleno pravděpodobnotí, že tejný jev natane za jiných podmínek. Podmínky jou vzájemně e vylučující.

VĚOHODNOSTNÍ POMĚ II. Věrohodnotní poměr likelihood ratio L udává podíl pravděpodobnoti, že e vykytne nějaký jev A za určité podmínky jev B, k pravděpodobnoti, že e jev A vykytne, když podmínka neplatí jev nonb. Má-li například pacient náhlou ztrátu paměti jev A, chceme znát věrohodnotní poměr výkytu jevu A v případě, že má mozkový nádor jev B, tj. podíl pravděpodobnoti, jakou ztráta paměti vzniká při nádoru mozku, k pravděpodobnoti, jakou vzniká v otatních případech. Věrohodnotní poměr je tedy podíl podmíněných pravděpodobnotí L PAB PAnonB

KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ Díky obtížnému tanovení hodnot ztrátových funkcí r e kritérium minimální chyby zjednodušuje použitím jednotkových ztrátových funkcí definovaných Matice jednotkových ztrátových funkcí má pak tvar a celková ztráta je r λ J a 0 pror pror což je hodnota pravděpodobnoti chybného rozhodnutí. 0 0 r X- 0 p x. P dx

KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ Doadíme-li hodnoty jednotkových ztrátových funkcí do vztahu pro ztrátu při klaifikaci obrazu do chybné třídy Lx r p x r r r. P p x. P p x. P r a využitím Bayeova vztahu Lx r p x P x p x r. P r p x p x r. P r px nezávií na klaifikační třídě a tedy neovlivňuje výběr minima. Dikriminační funkci tedy můžeme určit jako g x p x r. P r

KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ V případě dichotomického klaifikátoru je dikriminační funkce g x p x. P p x. P A věrohodnotní poměr je potom p x p x P P

KITÉIUM MAXIMÁLNÍ APOSTEIONÍ PAVDĚPODOBNOSTI Modifikujeme-li vztah pro ztrátu při chybné klaifikaci obrazu podle Bayeova vztahu Pω x.px = px ω.pω platí L x r r. p x. P x p x r. P x Hutota pravděpodobnoti px nezávií na klaifikační třídě a tedy míto L x ω r lze použít L' x r x r L p x r. P x a jednotkovými ztrátovými funkcemi je L' x r r P x P x P r x P r x

nebo KITÉIUM MAXIMÁLNÍ APOSTEIONÍ PAVDĚPODOBNOSTI Minimum ztráty L x ω r je právě tehdy, když Pω r x je maximální. Tzn. že jako dikriminační funkci můžeme zvolit právě hodnotu apoteriorní pravděpodobnoti třídy ω r, tj. g r x = Pω r x Pro případ dichotomického klaifikátoru je dikriminační funkce gx = Pω x - Pω x = 0. Z toho plyne, že hranicí mezi třídami určuje vztah Pω x = Pω x P x x P Podle tohoto kritéria zatřídíme obraz do té třídy, jejíž apoteriorní pravděpodobnot je při výkytu obrazu x větší.

KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI MINIMAX Neznáme-li apriorní pravděpodobnoti všech tříd, předpokládáme rovnoměrné rozložení pravděpodobnot všech tříd je táž Pω = Pω =/. Potom celková třední ztráta J a doáhne minima, když J a* x min a x Dikriminační funkci lze jako v předchozích případech definovat jako g r r. p x. p x dx dx r x L x r r. p x

KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI MINIMAX V případě dichotomie je věrohodnotní poměr p x p x Pokud jou ceny právného rozhodnutí nulové, tj. = = 0, je p x p x Obraz je zařazen do třídy, když je věrohodnotní poměr než poměr cen ztrát chybných zatřídění. Jou-li obě ceny tejné, je obraz zařazen do té třídy, pro kterou je hodnota px ω větší.

KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI MINIMAX