.3. Klasifikace podle miimálí vzdáleosti Tato podkapitola je věováa popisu podstaty klasifikace podle miimálí vzdáleosti, jež úzce souvisí s klasifikací pomocí etaloů klasifikačích tříd. Představíme si podroběji klasifikaci pomocí metody ejbližšího souseda, metody k ejbližších sousedů, cetroidové metody a metody průměré vazby. Na závěr si ukážeme, že klasifikace podle miimálí vzdáleosti má souvislost s klasifikací pomocí diskrimiačích fukcí i s klasifikací pomocí hraic. Následující tet je součástí učebích tetů předmětu Bi0034 Aalýza a klasifikace dat a je urče především pro studety matematické biologie. Příosem může být rověž pro studety medicíských a dalších biologických oborů - zejméa botaiky, zoologie a atropologie. U studetů se předpokládá zalost biostatistiky. Dále by studeti měli mít zalosti o metrikách vzdáleosti a podobosti ve vícerozměrém prostoru [odkaz a kapitolu 4] a vhodá je i zalost hierarchického aglomerativího shlukováí [odkaz a http://portal.matematickabiologie.cz/ide.php?pg=aalyza-a-hodocei-biologickych-dat-- vicerozmere-metody-pro-aalyzu-dat--shlukova-aalyza--shlukova-hierarchicka-aalyza-- hierarchicke-shlukovai--hierarchicke-aglomerativi-shlukovai], protože uvedeé metody lze použít i pro účely shlukováí. Studeti by rověž měli být schopi provádět základí operace s vektory a maticemi [odkaz a přílohu A]..3.. Výstupy z výukové jedotky Studet: umí popsat pricip klasifikace podle miimálí vzdáleosti umí vysvětlit podstatu, výhody a evýhody klasifikace pomocí metody ejbližšího souseda, metody k ejbližších sousedů, cetroidové metody a metody průměré vazby zá souvislost klasifikace podle miimálí vzdáleosti s klasifikací pomocí diskrimiačích fukcí i s klasifikací pomocí hraic.3.. Pricip klasifikace podle miimálí vzdáleosti Jak již ázev apovídá, klasifikace podle miimálí vzdáleosti je založea a zařazeí objektu či subjektu do té skupiy (klasifikačí třídy), ke které má ejmeší vzdáleost. Klasifikace podle miimálí vzdáleosti (resp. ekvivaletě klasifikace podle maimálí podobosti) je úzce spojea s klasifikací pomocí etaloů klasifikačích tříd. Již v úvodí kapitole o klasifikaci [odkaz a kapitolu.] bylo zmíěo, že počet etaloů může být růzý, od jedoho reprezetativího vzorku daé třídy (apř. u metody ejbližšího souseda či u cetroidové metody), přes ěkolik vzorků daé třídy (apř. u metody k ejbližších sousedů), až po všechy vzorky daé třídy (apř. u metody průměré vazby). U klasifikace podle miimálí vzdáleosti je uto zvolit: metriku vzdáleosti či podobosti mezi objekty [odkaz a podkapitolu 3 kapitoly 4], metriku vzdáleosti či podobosti skupi objektů [odkaz a podkapitolu 4 kapitoly 4]. Obdobou volbu je třeba provést i při shlukováí [odkaz a kapitolu 6]. Na rozdíl od shlukováí jsou tu však metriky vzdáleosti (či podobosti) skupi objektů použity pro zjištěí vzdáleosti jedoho objektu (u ěhož evíme, do jaké skupiy patří) od etaloů daých skupi objektů.
Z metrik vzdáleostí skupi objektů si pro účely klasifikace podle miimálí vzdáleosti představíme použití metody ejbližšího souseda a jejího zobecěí (což je metoda k ejbližších sousedů), cetroidové metody a metody průměré vazby. Metoda ejvzdáleějšího souseda je pro klasifikaci obtížě použitelá a Wardova metoda je pro klasifikaci používáa zřídka, proto tyto metody ebudou v ásledujících podkapitolách rozebíráy..3... Metoda ejbližšího souseda Jak již víme z kapitoly o podobostech a vzdáleostech ve vícerozměrém prostoru [odkaz a podkapitolu 4... kapitoly 4], metoda ejbližšího souseda defiuje vzdáleost mezi skupiami C i a C j jako D NN ( Ci, C j ) = mid( p, q ). () p C C Teto vztah přepíšeme pro účely klasifikace podle miimálí vzdáleosti a q i j D NN, C ) = mid(, ). () ( j q C Cílem metody ejbližšího souseda je tedy alezeí subjektu (či objektu) z celé možiy všech subjektů C, který má ejmeší vzdáleost od subjektu, jež chceme klasifikovat. Subjekt poté přiřadíme do té třídy, ze které je alezeý ejbližší soused. Metoda ejbližšího souseda je zázorěa a Obr.. Testovací subjekt bude zařaze do skupiy pacietů vzhledem k tomu, že jeho ejbližší soused je paciet. pacieti kotroly testovací subjekt Obr.. Ilustrace klasifikace pomocí metody ejbližšího souseda. Testovací subjekt zatřídíme do skupiy pacietů, protože ejbližší soused testovacího subjektu patří do skupiy pacietů. Nevýhodou metody ejbližšího souseda je její začá citlivost a odlehlé hodoty. Obzvlášť v situaci, kdy se třídy částečě překrývají, zpravidla edává dobré výsledky. Proto se v prai častěji používá její zobecěí, což je metoda k ejbližších sousedů, při íž zařadíme subjekt, který chceme klasifikovat, do té třídy, která převažuje mezi jeho k ejbližšími sousedy. Ukázka pro k=3 je uvedea a Obr., kdy
testovací subjekt zařadíme do třídy kotrol, protože mezi jeho třemi ejbližšími sousedy jsou dva kotrolí subjekty a pouze jede paciet. Ze srováí s Obr. vyplývá, že metoda ejbližšího souseda a metoda k ejbližších sousedů mohou pro stejá data dávat růzé výsledky. pacieti kotroly testovací subjekt Obr.. Ilustrace klasifikace pomocí metody k ejbližších sousedů (zde kokrétě k=3). Testovací subjekt zatřídíme do skupiy kotrol, protože mezi jeho třemi ejbližšími sousedy převažují kotrolí subjekty. U metody k ejbližších sousedů zpravidla volíme za k liché číslo, protože pokud by k bylo sudé, mohlo by se stál, že by byl mezi k sousedy stejý počet subjektů z jedé i druhé skupiy, a tudíž by ebylo možé rozhodout, do jaké třídy se má subjekt zařadit. Pokud by taková situace shody astala, většiou se subjekt áhodě zařadí do jedé z daých skupi ebo případě do té skupiy, která je rizikovější. Protože bohužel dopředu evíme, jaké k je ejvhodější a aše kokrétí data, obvykle se klasifikace provádí za použití růzých hodot k a poté se vybere takové k, pro ěž jsme dostali ejlepší výsledky. Abychom výběr k (tedy tréováí klasifikátoru) eprováděli a stejém datovém souboru, a kterém klasifikátor i testujeme, protože to by to mohlo vést k přetréováí klasifikátoru, zpravidla se provádí výběr k pomocí křížové validace, jež je podrobě popsáa v kapitole věovaé hodoceí úspěšosti klasifikace [odkaz a kapitolu.6.3]. Metoda ejbližšího souseda ai metoda k ejbližších sousedů emají žádé předpoklady o rozložeí dat (apř. a rozdíl od Fisherovy lieárí diskrimiace [odkaz a kapitolu.4.]), což je jejich výhoda. Použití obou těchto metod však často eí vhodé v situaci, kdy jsou začě evyvážeé počty subjektů v daých klasifikačích třídách. Protože pokud avíc daé třídy ejsou velmi od sebe vzdáleé, budou obě metody zařazovat subjekty častěji do té třídy, která má větší počet subjektů..3... Cetroidová metoda U cetroidové metody a rozdíl od metody ejbližšího souseda a metody k ejbližších sousedů ebývá problém při evyvážeém počtu subjektů ve skupiách. Tato metoda totiž vychází z výpočtu cetroidů pro jedotlivé skupiy, přičemž subjekt (či objekt) je zařaze do skupiy s ejbližším cetroidem od tohoto subjektu (Obr. 3). Postup cetroidové metody lze jedoduše popsat a příkladu klasifikace do skupiy pacietů a kotrol ásledujícím způsobem:
. Výpočet cetroidu skupiy pacietů pomocí = i= i, kde je počet pacietů a i je vektor hodot proměých u i-tého pacieta; a výpočet cetroidu skupiy kotrol pomocí = i= i, kde je počet kotrolích subjektů a i je vektor hodot proměých u i-tého kotrolího subjektu.. Zařazeí klasifikovaého subjektu do skupiy, k jejímuž cetroidu má teto klasifikovaý mid,, D,. subjekt ejmeší vzdáleost (apř. Euklidovskou), tedy hledá se ( ( ) ( )) pacieti kotroly testovací subjekt cetroid pacietů cetroid kotrol Obr. 3. Ilustrace klasifikace pomocí cetroidové metody. Testovací subjekt zatřídíme do skupiy pacietů, protože má kratší Euklidovskou vzdáleost k cetroidu pacietů ež k cetroidu kotrol..3..3. Metoda průměré vazby Na základě metody průměré vazby zařadíme subjekt (či objekt) do té skupiy, od jejíchž čleů má daý subjekt ejmeší průměrou vzdáleost. Jedotlivé kroky metody průměré vazby jsou ásledující:. Výpočet průměré (apř. Euklidovské) vzdáleosti klasifikovaého subjektu od všech D i i= pacietů pomocí vztahu D( ) = (, ),, kde je počet pacietů a i je vektor hodot proměých u i-tého pacieta; a výpočet průměré vzdáleosti klasifikovaého subjektu od všech kotrolích subjektů pomocí vztahu D D i i= ( ) = (, ), i, kde je počet kotrol a y i je vektor hodot proměých u i-tého kotrolího subjektu.. Zařazeí klasifikovaého subjektu do té skupiy, k jejímž čleům má teto klasifikovaý mid, D,. subjekt ejmeší průměrou vzdáleost, tedy hledá se ( ( ) ( )) Zázorěí metody průměré vazby je uvedeo a Obr. 4. i,
pacieti kotroly testovací subjekt Obr. 4. Ilustrace klasifikace pomocí metody průměré vazby. Na prví pohled eí patré, zda bude subjekt zařaze do skupiy pacietů či kotrol, protože je uto vypočítat průměrou vzdáleost testovacího subjektu od všech pacietů a průměrou vzdáleost testovacího subjektu od všech kotrol a tyto průměré vzdáleosti srovat. Metoda průměré vazby stejě jako cetroidová metoda emívá problémy při evyvážeém počtu subjektů ve skupiách. Oproti cetroidové metodě však může být časově áročější, pokud je celkový počet subjektů velký, protože se musí počítat vzdáleost testovacího subjektu od všech subjektů..3.3. Souvislost klasifikace podle miimálí vzdáleosti s dalšími pricipy klasifikace Začěme se srováím klasifikace podle miimálí vzdáleosti a klasifikací podle diskrimiačích fukcí. Uvažme příklad dvou tříd reprezetovaých etaloy E = ( E, E ) a E = ( E, E ) v dvourozměrém euklidovském prostoru. Výpočet vzdáleosti mezi subjektem = (, ) a libovolým z obou etaloů je v tomto prostoru defiová vztahem D( re, ) = re - = mire - = ( r E ) + ( re ) ; r =,. r (3) Podle defiice rozhodovacího pravidla klasifikátoru podle miimálí vzdáleosti hledáme meší z obou vzdáleostí, tj. mid( re, ). Protože ám ejde o staoveí kokrétí vzdáleosti, ale o r =, alezeí miima a rověž díky tomu, že vzdáleost mezi dvěma body prostoru je vždy kladá, můžeme psát, že hledáme mid (, ). To zameá, že r=, re mid( r re, ) ~ mid ( r = mi r + re, ) = re - = mi r ( re + re + re [( ) + ( ) ] re re ). re = (4)
Výraz ve složeých závorkách představuje pro každý etalo kuželovou plochu s vrcholem v daém etalou (pokud je vektor totožý s etaloem, je výraz ve složeých závorkách rove ule) a rozšiřující se do kladých hodot fukce g(), přičemž pro souřadice vektoru = ( ke ± c, ke ± c ) je hodota výrazu ve složeých závorkách rova c + c (Obr. 5). Jak je z obrázku patré, tato orietace kuželové plochy bohužel esplňuje podmíku pro diskrimiačí fukci. Ovšem dvojčle + ve složeých závorkách ve výrazu (4) ezávisí a klasifikačí třídě pro daý vektor, proto jej můžeme považovat za aditiví kostatu, která se epodílí a rozhodováí. Poěvadž je teto čle vždy kladý, můžeme určit miimum celého výrazu právě tehdy, když ajdeme ve vztahu (4) maimum výrazu v hraatých závorkách. Tím se orietace kuželové plochy měí a v souladu s pricipem klasifikace podle diskrimiačích fukcí lze teto výraz považovat za defiičí vztah diskrimiačí fukce r-té třídy g r (). Kuželové plochy se v obou případech protíají v parabole a její průmět do obrazové roviy je přímka (viz. Obr. 5), která je defiovaá vztahem E + E E E (E - E ) + (E - E) = 0. Tato hraičí přímka mezi klasifikačími třídami je vždy kolmá a spojici obou etaloů a tuto spojici půlí. Z uvedeého plye, že klasifikátor pracující a základě miimálí vzdáleosti je ekvivaletí lieárímu klasifikátoru s diskrimiačími fukcemi. Dále je teto příklad ukázkou toho, že i elieárí diskrimiačí fukce může vyústit v lieárí separaci klasifikačích tříd. (5) Obr. 5. Klasifikace podle miimálí vzdáleosti Jiou možostí, jak zkostruovat diskrimiačí fukci a základě pricipu staoveí vzdáleosti, resp. podobosti mezi klasifikovaým obrazem a etaloy klasifikačích tříd, je použití metriky podobosti. Dle závislosti mezi vzdáleostí a podobostí metrikou se měí tvar kuželové plochy, icméě její vrchol leží vždy ad etaloy klasifikačích tříd a kuželová plocha se rozšiřuje směrem k obrazovému prostoru. Měí se sice tvar průsečíků kuželových ploch odpovídajících jedotlivým etaloům, ale jejich průmět do obrazové roviy zůstává lieárí za předpokladu, že metriky pro jedotlivé etaloy ejsou růzě váhovaé.
Mějme yí případ, kdy je třída ω reprezetováa etaloem E a třída ω dvěma etaloy () E a () E, přičemž subjekt klasifikujeme opět pomocí kritéria ejmeší vzdáleosti. Protože třídu ω představují dva etaloy, je hraice mezi oběma třídami lomeá přímka půlící vzdáleosti mezi () () etaloy E a E a etaloy E a E (Obr. 6). Klasifikace podle miimálí vzdáleosti s třídami reprezetovaými více etaloy je tedy ekvivaletí klasifikaci s po částech lieárí hraicí. Obr. 6. Klasifikace podle miimálí vzdáleosti s víceetaloovými klasifikačími třídami.3.4. Příklad Bylo provedeo měřeí objemu hipokampu a objemu mozkových komor u 3 pacietů se schizofreií (,, ) a 3 kotrolích subjektů (,, ). Naměřeé hodoty byly (v řádcích) zazameáy do matic resp. (ozačeí D diseased, H healthy): 4 0, 3 8 5 7 3 9. 4 5 Určete, zda testovací subjekt 3,5 9 patří do skupiy pacietů či kotrolích subjektů pomocí klasifikace podle miimálí vzdáleosti. Řešeí odkaz a PDFko (Vicerozmerky - kap.3 - resei prikladu.pdf).3.5. Literatura [] Bishop, C. Patter Recogitio ad Machie Learig. Spriger, New York. (006) [] Holčík, J. Aalýza a klasifikace dat. Akademické akladatelství CERM, s.r.o., Bro. (0)
Obsah.3. Klasifikace podle miimálí vzdáleosti....3.. Výstupy z výukové jedotky....3.. Pricip klasifikace podle miimálí vzdáleosti....3... Metoda ejbližšího souseda....3... Cetroidová metoda... 3.3..3. Metoda průměré vazby... 4.3.3. Souvislost klasifikace podle miimálí vzdáleosti s dalšími pricipy klasifikace... 5.3.4. Příklad... 7.3.5. Literatura... 7