ANALÝZA A KLASIFIKACE DAT pof. Ing. Jiří Holčík, CSc. INVESTICE Intitut DO biotatitiky OZVOJE VZDĚLÁVÁNÍ a analýz
II. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD
PŘÍZNAKOVÝ POPIS Příznakový obaz zpacovávaných dat je vyjádřen n-ozměným (loupcovým vektoem hodnot i, i,2,,n příznakových poměnných (veličin chaakteizujících vlatnoti těchto dat, tj. platí (, 2,, n T.
PŘÍZNAKOVÝ POPIS Příznakové poměnné mohou popiovat kvantitativní i kvalitativní vlatnoti oubou dat. Jejich hodnoty nazýváme příznaky. Podle definičního obou ozlišujeme poměnné: pojité nepojité, dikétní, vyjmenovatelné logické, binání, altenativní, dichotomické
PŘÍZNAKOVÝ POPIS Vchol každého příznakového vektou (obazu předtavuje bod n-ozměného potou X n, kteý nazýváme obazovým potoem. Obazový poto je definován katézkým oučinem definičních oboů všech příznakovým poměnných, tzn. že jej tvoří všechny možné obazy zpacovávaného oubou dat.
PŘÍZNAKOVÝ POPIS Při vhodném výběu příznakových veličin je podobnot objektů (je popiujících dat z jedné klaifikační třídy vyjádřena blízkotí jejich obazů v obazovém potou. Vymezení klaifikační třídy: etalony - chaakteitické epezentativní obazy hanice dikiminační funkce
PŘÍZNAKOVÝ KLASIFIKÁTO Příznakový klaifikáto je toj tolika vtupy, kolik je příznaků a jedním dikétním výtupem, kteý udává třídu, do kteé klaifikáto zařadil ozpoznávaný obaz. d( d( je kalání funkce vektoového agumentu, kteou nazýváme ozhodovací pavidlo klaifikátou; je identifikáto klaifikační třídy
PŘÍZNAKOVÝ KLASIFIKÁTO deteminitický a nedeteminitický pevným a poměnným počtem příznaků bez učení a učením
PŘÍZNAKOVÝ KLASIFIKÁTO deteminitický a nedeteminitický pevným a poměnným počtem příznaků bez učení a učením Nadále e nějaký ča věnujme deteminitickým klaifikátoům pevným počtem příznaků.
PŘÍZNAKOVÝ KLASIFIKÁTO Obazový poto je ozhodovacím pavidlem ozdělen na dijunktních potoů,,,, přičemž každá podmnožina obahuje ty obazy, po kteé je d(. Návh ozhodovacího pavidla je základním poblémem návhu klaifikátou.
III. KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ DISKIMINAČNÍ ANALÝZA týká e obecně vztahu mezi kategoiální poměnnou a množinou vzájemně vázaných příznakových poměnných. Konkétně, předpokládejme že eituje konečný počet, řekněme, ůzných a pioi známých populací, kategoií, tříd nebo kupin, kteé označujeme,,, a úkolem dikiminační analýzy je nalézt vztah, na základě kteého po daný vekto příznaků popiujících konkétní objekt tomuto vektou přiřadíme hodnotu.
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ hanice klaifikačních tříd definujeme pomocí kaláních funkcí g (, g 2 (,, g ( takových, že po obaz z podmnožiny po všechna platí g ( > g (, po,2,, a funkce g ( mohou vyjadřovat např. míu výkytu obazu patřícího do -té klaifikační třídy v daném mítě obazového potou nazýváme je dikiminační funkce
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ hanice mezi dvěma ouedními podmnožinami a je učena půmětem půečíku funkcí g ( a g (, definovaného ovnicí g ( g (, do obazového potou.
BLOKOVÉ SCHÉMA KLASIFIKÁTOU POMOCÍ DISKIMINAČNÍCH FUNKCÍ
BLOKOVÉ SCHÉMA KLASIFIKÁTOU POMOCÍ DISKIMINAČNÍCH FUNKCÍ u dichotomického klaifikátou (dvě třídy je ign (g ( g 2 (
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ nejjednodušším tvaem dikiminační funkce je funkce lineání, kteá má tva g ( a 0 + a + a 2 2 + + a n n kde a 0 je páh dikiminační funkce poouvající počátek ouřadného ytému a a i jou váhové koeficienty i-tého příznaku i lineáně epaabilní třídy
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ nejjednodušším tvaem dikiminační funkce je funkce lineání, kteá má tva g ( a 0 + a + a 2 2 + + a n n kde a 0 je páh dikiminační funkce poouvající počátek ouřadného ytému a a i jou váhové koeficienty i-tého příznaku i lineáně epaabilní třídy
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ nejjednodušším tvaem dikiminační funkce je funkce lineání, kteá má tva g ( a 0 + a + a 2 2 + + a n n kde a 0 je páh dikiminační funkce poouvající počátek ouřadného ytému a a i jou váhové koeficienty i-tého příznaku i lineáně epaabilní třídy
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ nejjednodušším tvaem dikiminační funkce je funkce lineání, kteá má tva g ( a 0 + a + a 2 2 + + a n n kde a 0 je páh dikiminační funkce poouvající počátek ouřadného ytému a a i jou váhové koeficienty i-tého příznaku i lineáně epaabilní třídy
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ LINEÁNĚ NESEPAABILNÍ TŘÍDY zachováme původní obazový poto a zvolíme nelineání dikiminační funkci definovanou obecně loženou po čátech z lineáních úeků zobazíme původní n-ozměný obazový poto X n nelineání tanfomací Φ: X n X m do nového m-ozměného potou X m, obecně je m n, tak, aby v novém potou byly klaifikační třídy lineáně epaabilní a v novém potou použijeme lineání klaifikáto (Φ převodník
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ BAYESŮV KLASIFIKÁTO
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ BAYESŮV KLASIFIKÁTO při řešení paktických úloh je třeba předpokládat, že obazy ignálů jou ovlivněny víceméně náhodnými fluktuacemi zdoje ignálu, v přenoové cetě, při předzpacování i analýze, kteé e nepodaří zcela eliminovat.
KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ BAYESŮV KLASIFIKÁTO P( p(.p( p( P( je apoteioní podmíněná pavděpodobnot zatřídění obazového vektou do třídy ; p( je podmíněná hutota pavděpodobnoti obazů ve třídě ; P( je apioní pavděpodobnot třídy ; p( je hutota pavděpodobnoti ozložení všech obazů v celém obazovém potou.
ZÁKLADNÍ POJMY A PŘEDPOKLADY ZÁKLADNÍ POJMY A PŘEDPOKLADY ztátová funkce λ( udává ztátu při chybné klaifikaci λ obazu ze třídy do třídy. matice ztátových funkcí matice ztátových funkcí λ λ λ ( ( ( 2 L λ λ λ ( ( ( 2 2 2 2 M O M M L λ λ λ λ ( ( ( 2 L třední ztáta J(a udává půměnou ztátu při chybné klaifikaci obazu
KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY pokud e outředíme na obazy pouze ze třídy, je třední ztáta dána půměnou hodnotou z λ(d(,a vzhledem ke všem obazům ze třídy, tj. J ( a λ (d(, a.p( d kde p( je podmíněná hutota pavděpodobnoti výkytu obazu ve třídě
KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Celková třední ztáta J(a je půměná hodnota ze ztát J (a J( a J( a.p( λ(d(, a.p(.p( d nebo podle Bayeova vzoce ( P(.p( p(.p( J( a λ (d(, a.p(.p( d kde p( je hutota pavděpodobnoti výkytu obazu v celém obazovém potou a P( je podmíněná pavděpodobnot, že daný obaz patří do třídy (tzv. apoteioní pavděpodobnot třídy.
KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Návh optimálního klaifikátou, kteý by minimalizoval třední ztátu, počívá v nalezení takové množiny paametů ozhodovacího pavidla a*, že platí J( a* minj( a Doadíme-li za J(a z předchozího vztahu, je J( a * min λ (d(, a a a.p(.p( d Je-li ztátová funkce λ( kontantní po všechny obazy z, je dále J( a* min λ (.p(.p( d
KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Označíme-li ztátu při klaifikaci obazu do třídy L ( λ(.p(.p( tak po doazení dotaneme J( a* min L ( d Úloha nalezení minima celkové třední ztáty e tak převedla na minimalizaci funkce L (. Optimální ozhodovací pavidlo d(,a* podle kitéia minimální celkové třední ztáty je L ( d (, a* min L ( ME
KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Chceme-li využít pincipu dikiminačních funkcí min L ( ma ( L ( Dikiminační funkci optimálního klaifikátou podle kitéia minimální chyby pak definujeme g ( L ( λ(.p(.p(
λ KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY DICHOTOMICKÝ KLASIFIKÁTO Celková třední ztáta v případě dvou tříd je J( a 2 λ(.p(.p( d + λ( 2.p(.P( d 2 λ(.p( p(.d + λ( 2.P( 2 p( 2.d + + λ( 2.P( p(.d + λ( 2 2.P( 2 p( 2.d 2 2 ( 2.P(.( α + λ( 2.P( 2. β + λ( 2.P(. α + λ( 2 2.P( ( β 2
KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY DICHOTOMICKÝ KLASIFIKÁTO Dikiminační funkce po dichotomický klaifikáto bude λ( g( g ( g.p( 2 (.P( L λ( ( 2 + L (.p( 2 2.P( + λ( 2.p(.P( + λ( 2 2.p( 2.P( 2 ( λ( λ (.p(.p( + ( λ ( λ (.p(.p( ( 2 2 2 2 2 2 Položíme-li tento výaz nule dotaneme vztah po haniční plochu dichotomického klaifikátou, ze kteého můžeme učit pomě hutot pavděpodobnoti výkytu obazu v každé z obou klaifikačních tříd - věohodnotní pomě p( ( λ( 2 λ( 2 2.P( 2 Λ2 p( λ( λ (.P( ( 2 ( 2 Obaz zařadíme do třídy, když je věohodnotní pomě větší než výaz na pavé taně, je-li menší pak obaz zařadíme do třídy 2. 2 + 2
VĚOHODNOSTNÍ POMĚ I. Sumaizuje veškeou infomaci zíkanou epeimentem. Pavděpodobnot, že jev (data natane za daných podmínek (hypotéza děleno pavděpodobnotí, že tejný jev natane za jiných podmínek. Podmínky jou vzájemně e vylučující.
VĚOHODNOSTNÍ POMĚ II. Věohodnotní pomě (likelihood atio L udává podíl pavděpodobnoti, že e vykytne nějaký jev A za učité podmínky (jev B, k pavděpodobnoti, že e jev A vykytne, když podmínka neplatí (jev nonb. Má-li například pacient náhlou ztátu paměti (jev A, chceme znát věohodnotní pomě výkytu jevu A v případě, že má mozkový nádo (jev B, tj. podíl pavděpodobnoti, jakou ztáta paměti vzniká při nádou mozku, k pavděpodobnoti, jakou vzniká v otatních případech. Věohodnotní pomě je tedy podíl podmíněných pavděpodobnotí L P(A B P(A nonb
KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ Díky obtížnému tanovení hodnot ztátových funkcí λ( e kitéium minimální chyby zjednodušuje použitím jednotkových ztátových funkcí definovaných λ( 0 po po Matice jednotkových ztátových funkcí má pak tva a celková ztáta je 0 L 0 L λ M M O M L 0 J( a X - p(.p( d což je hodnota pavděpodobnoti chybného ozhodnutí.
KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ Doadíme-li hodnoty jednotkových ztátových funkcí do vztahu po ztátu při klaifikaci obazu do chybné třídy L ( p(.p( p(.p( p(.p( a využitím Bayeova vztahu L ( p( P( p(.p( p( p(.p( p( nezávií na klaifikační třídě a tedy neovlivňuje výbě minima. Dikiminační funkci tedy můžeme učit jako g( p(.p(
KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ V případě dichotomického klaifikátou je dikiminační funkce g ( p(.p( p(.p( g 2 2 A věohodnotní pomě je potom Λ 2 p( P( 2 p( 2 P(
KITÉIUM MAXIMÁLNÍ APOSTEIONÍ KITÉIUM MAXIMÁLNÍ APOSTEIONÍ PAVDĚPODOBNOSTI PAVDĚPODOBNOSTI PAVDĚPODOBNOSTI PAVDĚPODOBNOSTI Modifikujeme-li vztah po ztátu při chybné klaifikaci obazu podle Bayeova vztahu ( P(.p( p(.p( platí λ λ.p( ( p(.p(.p( ( ( L Hutota pavděpodobnoti p( nezávií na klaifikační třídě a tedy míto L ( lze použít λ.p( ( p( ( L ( ' L a jednotkovými ztátovými funkcemi je P( P( P( P( ( ' L
KITÉIUM MAXIMÁLNÍ APOSTEIONÍ PAVDĚPODOBNOSTI Minimum ztáty L ( je pávě tehdy, když P( je maimální. Tzn. že jako dikiminační funkci můžeme zvolit pávě hodnotu apoteioní pavděpodobnoti třídy, tj. g ( P( Po případ dichotomického klaifikátou je dikiminační funkce nebo g( P( - P( 2 0. Z toho plyne, že hanicí mezi třídami učuje vztah P( P( 2 P( P( Podle tohoto kitéia zatřídíme obaz do té třídy, jejíž apoteioní pavděpodobnot je při výkytu obazu větší. 2
KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI (MINIMAX Neznáme-li apioní pavděpodobnoti všech tříd, předpokládáme ovnoměné ozložení (pavděpodobnot všech tříd je táž (P( P( /. Potom celková třední ztáta J( a doáhne minima, když λ(.p( d J( a* min a λ(.p( d Dikiminační funkci lze jako v předchozích případech definovat jako g ( L ( λ(.p(
KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI (MINIMAX V případě dichotomie je věohodnotní pomě Λ 2 ( λ( ( 2 λ 2 ( λ( λ( p( 2 ( p 2 2 Pokud jou ceny pávného ozhodnutí nulové, tj. λ( λ( 2 2 0, je Λ 2 p( p( ( λ( 2 ( λ( 2 Obaz je zařazen do třídy, když je věohodnotní pomě než pomě cen ztát chybných zatřídění. Jou-li obě ceny tejné, je obaz zařazen do té třídy, po kteou je hodnota p( větší. 2
KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI (MINIMAX
Přípava nových učebních mateiálů obou Matematická biologie je podpoována pojektem ESF č. CZ..07/2.2.00/28.0043 INTEDISCIPLINÁNÍ OZVOJ STUDIJNÍHO OBOU MATEMATICKÁ BIOLOGIE INVESTICE DO OZVOJE VZDĚLÁVÁNÍ