U klasifikace podle minimální vzdálenosti je nutno zvolit:

Podobné dokumenty
6. Posloupnosti a jejich limity, řady

2 IDENTIFIKACE H-MATICE POPISUJÍCÍ VEDENÍ Z NAMĚŘENÝCH HODNOT

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

Iterační výpočty projekt č. 2

P2: Statistické zpracování dat

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

Přijímací řízení akademický rok 2012/2013 Kompletní znění testových otázek matematické myšlení

2 STEJNORODOST BETONU KONSTRUKCE

8.2.1 Aritmetická posloupnost

23. Mechanické vlnění

3. Lineární diferenciální rovnice úvod do teorie

MATICOVÉ HRY MATICOVÝCH HER

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

Přijímací řízení akademický rok 2013/2014 Bc. studium Kompletní znění testových otázek matematika

IAJCE Přednáška č. 12

Náhodný výběr 1. Náhodný výběr

2.4. INVERZNÍ MATICE

8.2.1 Aritmetická posloupnost I

Základní požadavky a pravidla měření

1.2. NORMA A SKALÁRNÍ SOUČIN

8.1.3 Rekurentní zadání posloupnosti I

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Spojitost a limita funkcí jedné reálné proměnné

Petr Šedivý Šedivá matematika

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

6. FUNKCE A POSLOUPNOSTI

7. Analytická geometrie

8. Analýza rozptylu.

1 ROVNOMĚRNOST BETONU KONSTRUKCE

DERIVACE FUNKCÍ JEDNÉ REÁLNÉ PROM

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

1. Číselné obory, dělitelnost, výrazy

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus

f x a x DSM2 Cv 9 Vytvořující funkce Vytvořující funkcí nekonečné posloupnosti a0, a1,, a n , reálných čísel míníme formální nekonečnou řadu ( )

Pravděpodobnostní modely

12. N á h o d n ý v ý b ě r

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL

Pravděpodobnost a aplikovaná statistika

13 Popisná statistika

11. přednáška 16. prosince Úvod do komplexní analýzy.

2,3 ČTYŘI STANDARDNÍ METODY I, ČTYŘI STANDARDNÍ METODY II

6. P o p i s n á s t a t i s t i k a

Abstrakt. Co jsou to komplexní čísla? K čemu se používají? Dá se s nimi dělat

8 DALŠÍ SPOJITÁ ROZDĚLENÍ PRAVDĚPODOBNOSTI

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Obsah. skentest. 1. Úvod. 2. Metoda výpočtu Základní pojmy

OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN

1.3. POLYNOMY. V této kapitole se dozvíte:

Matematika I, část II

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické

Laboratorní práce č. 10 Úloha č. 9. Polarizace světla a Brownův pohyb:

GRADIENTNÍ OPTICKÉ PRVKY Gradient Index Optical Components

TECHNICKÝ AUDIT VODÁRENSKÝCH DISTRIBUČNÍCH

Užití binomické věty

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Kapitola 4 Euklidovské prostory

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Odhady parametrů 1. Odhady parametrů

Matematika NÁRODNÍ SROVNÁVACÍ ZKOUŠKY ÚNORA 2018

Zimní semestr akademického roku 2015/ listopadu 2015

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

definované pro jednotlivé řády takto: ) řádu n nazýváme číslo A = det( A) a a a11 a12

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

ANALÝZA A KLASIFIKACE DAT

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

Geometrická optika. Zákon odrazu a lomu světla

Aritmetická posloupnost, posloupnost rostoucí a klesající Posloupnosti

Deskriptivní statistika 1

Cyklické namáhání, druhy cyklických namáhání, stanovení meze únavy vzorku Ing. Jaroslav Svoboda

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Komplexní čísla. Definice komplexních čísel

Diskrétní matematika

Vzorový příklad na rozhodování BPH_ZMAN

DIFERENCIÁLNÍ POČET FUNKCE JEDNÉ PROMĚNNÉ. 1) Pojem funkce, graf funkce

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

Sekvenční logické obvody(lso)

POLYNOM. 1) Základní pojmy. Polynomem stupně n nazveme funkci tvaru. a se nazývají koeficienty polynomu. 0, n N. Čísla. kde

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

1 Uzavřená Gaussova rovina a její topologie

1. Základy měření neelektrických veličin

ARITMETICKÉ POSLOUPNOSTI VYŠŠÍCH ŘÁDŮ

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

PRAVDĚPODOBNOST A STATISTIKA

Matematika NÁRODNÍ SROVNÁVACÍ ZKOUŠKY DUBNA 2018

DISKRÉTNÍ MATEMATIKA PRO INFORMATIKY

Analýza a zpracování signálů. 4. Diskrétní systémy,výpočet impulsní odezvy, konvoluce, korelace

2. Náhodná veličina. je konečná nebo spočetná množina;

5. Posloupnosti a řady

Vyhledávání v tabulkách

Matematika NÁRODNÍ SROVNÁVACÍ ZKOUŠKY BŘEZNA 2018

Zkoušková písemná práce č. 1 z předmětu 01MAB3

4EK212 Kvantitativní management 4. Speciální úlohy lineárního programování

Téma: 11) Dynamika stavebních konstrukcí

Transkript:

.3. Klasifikace podle miimálí vzdáleosti Tato podkapitola je věováa popisu podstaty klasifikace podle miimálí vzdáleosti, jež úzce souvisí s klasifikací pomocí etaloů klasifikačích tříd. Představíme si podroběji klasifikaci pomocí metody ejbližšího souseda, metody k ejbližších sousedů, cetroidové metody a metody průměré vazby. Na závěr si ukážeme, že klasifikace podle miimálí vzdáleosti má souvislost s klasifikací pomocí diskrimiačích fukcí i s klasifikací pomocí hraic. Následující tet je součástí učebích tetů předmětu Bi0034 Aalýza a klasifikace dat a je urče především pro studety matematické biologie. Příosem může být rověž pro studety medicíských a dalších biologických oborů - zejméa botaiky, zoologie a atropologie. U studetů se předpokládá zalost biostatistiky. Dále by studeti měli mít zalosti o metrikách vzdáleosti a podobosti ve vícerozměrém prostoru [odkaz a kapitolu 4] a vhodá je i zalost hierarchického aglomerativího shlukováí [odkaz a http://portal.matematickabiologie.cz/ide.php?pg=aalyza-a-hodocei-biologickych-dat-- vicerozmere-metody-pro-aalyzu-dat--shlukova-aalyza--shlukova-hierarchicka-aalyza-- hierarchicke-shlukovai--hierarchicke-aglomerativi-shlukovai], protože uvedeé metody lze použít i pro účely shlukováí. Studeti by rověž měli být schopi provádět základí operace s vektory a maticemi [odkaz a přílohu A]..3.. Výstupy z výukové jedotky Studet: umí popsat pricip klasifikace podle miimálí vzdáleosti umí vysvětlit podstatu, výhody a evýhody klasifikace pomocí metody ejbližšího souseda, metody k ejbližších sousedů, cetroidové metody a metody průměré vazby zá souvislost klasifikace podle miimálí vzdáleosti s klasifikací pomocí diskrimiačích fukcí i s klasifikací pomocí hraic.3.. Pricip klasifikace podle miimálí vzdáleosti Jak již ázev apovídá, klasifikace podle miimálí vzdáleosti je založea a zařazeí objektu či subjektu do té skupiy (klasifikačí třídy), ke které má ejmeší vzdáleost. Klasifikace podle miimálí vzdáleosti (resp. ekvivaletě klasifikace podle maimálí podobosti) je úzce spojea s klasifikací pomocí etaloů klasifikačích tříd. Již v úvodí kapitole o klasifikaci [odkaz a kapitolu.] bylo zmíěo, že počet etaloů může být růzý, od jedoho reprezetativího vzorku daé třídy (apř. u metody ejbližšího souseda či u cetroidové metody), přes ěkolik vzorků daé třídy (apř. u metody k ejbližších sousedů), až po všechy vzorky daé třídy (apř. u metody průměré vazby). U klasifikace podle miimálí vzdáleosti je uto zvolit: metriku vzdáleosti či podobosti mezi objekty [odkaz a podkapitolu 3 kapitoly 4], metriku vzdáleosti či podobosti skupi objektů [odkaz a podkapitolu 4 kapitoly 4]. Obdobou volbu je třeba provést i při shlukováí [odkaz a kapitolu 6]. Na rozdíl od shlukováí jsou tu však metriky vzdáleosti (či podobosti) skupi objektů použity pro zjištěí vzdáleosti jedoho objektu (u ěhož evíme, do jaké skupiy patří) od etaloů daých skupi objektů.

Z metrik vzdáleostí skupi objektů si pro účely klasifikace podle miimálí vzdáleosti představíme použití metody ejbližšího souseda a jejího zobecěí (což je metoda k ejbližších sousedů), cetroidové metody a metody průměré vazby. Metoda ejvzdáleějšího souseda je pro klasifikaci obtížě použitelá a Wardova metoda je pro klasifikaci používáa zřídka, proto tyto metody ebudou v ásledujících podkapitolách rozebíráy..3... Metoda ejbližšího souseda Jak již víme z kapitoly o podobostech a vzdáleostech ve vícerozměrém prostoru [odkaz a podkapitolu 4... kapitoly 4], metoda ejbližšího souseda defiuje vzdáleost mezi skupiami C i a C j jako D NN ( Ci, C j ) = mid( p, q ). () p C C Teto vztah přepíšeme pro účely klasifikace podle miimálí vzdáleosti a q i j D NN, C ) = mid(, ). () ( j q C Cílem metody ejbližšího souseda je tedy alezeí subjektu (či objektu) z celé možiy všech subjektů C, který má ejmeší vzdáleost od subjektu, jež chceme klasifikovat. Subjekt poté přiřadíme do té třídy, ze které je alezeý ejbližší soused. Metoda ejbližšího souseda je zázorěa a Obr.. Testovací subjekt bude zařaze do skupiy pacietů vzhledem k tomu, že jeho ejbližší soused je paciet. pacieti kotroly testovací subjekt Obr.. Ilustrace klasifikace pomocí metody ejbližšího souseda. Testovací subjekt zatřídíme do skupiy pacietů, protože ejbližší soused testovacího subjektu patří do skupiy pacietů. Nevýhodou metody ejbližšího souseda je její začá citlivost a odlehlé hodoty. Obzvlášť v situaci, kdy se třídy částečě překrývají, zpravidla edává dobré výsledky. Proto se v prai častěji používá její zobecěí, což je metoda k ejbližších sousedů, při íž zařadíme subjekt, který chceme klasifikovat, do té třídy, která převažuje mezi jeho k ejbližšími sousedy. Ukázka pro k=3 je uvedea a Obr., kdy

testovací subjekt zařadíme do třídy kotrol, protože mezi jeho třemi ejbližšími sousedy jsou dva kotrolí subjekty a pouze jede paciet. Ze srováí s Obr. vyplývá, že metoda ejbližšího souseda a metoda k ejbližších sousedů mohou pro stejá data dávat růzé výsledky. pacieti kotroly testovací subjekt Obr.. Ilustrace klasifikace pomocí metody k ejbližších sousedů (zde kokrétě k=3). Testovací subjekt zatřídíme do skupiy kotrol, protože mezi jeho třemi ejbližšími sousedy převažují kotrolí subjekty. U metody k ejbližších sousedů zpravidla volíme za k liché číslo, protože pokud by k bylo sudé, mohlo by se stál, že by byl mezi k sousedy stejý počet subjektů z jedé i druhé skupiy, a tudíž by ebylo možé rozhodout, do jaké třídy se má subjekt zařadit. Pokud by taková situace shody astala, většiou se subjekt áhodě zařadí do jedé z daých skupi ebo případě do té skupiy, která je rizikovější. Protože bohužel dopředu evíme, jaké k je ejvhodější a aše kokrétí data, obvykle se klasifikace provádí za použití růzých hodot k a poté se vybere takové k, pro ěž jsme dostali ejlepší výsledky. Abychom výběr k (tedy tréováí klasifikátoru) eprováděli a stejém datovém souboru, a kterém klasifikátor i testujeme, protože to by to mohlo vést k přetréováí klasifikátoru, zpravidla se provádí výběr k pomocí křížové validace, jež je podrobě popsáa v kapitole věovaé hodoceí úspěšosti klasifikace [odkaz a kapitolu.6.3]. Metoda ejbližšího souseda ai metoda k ejbližších sousedů emají žádé předpoklady o rozložeí dat (apř. a rozdíl od Fisherovy lieárí diskrimiace [odkaz a kapitolu.4.]), což je jejich výhoda. Použití obou těchto metod však často eí vhodé v situaci, kdy jsou začě evyvážeé počty subjektů v daých klasifikačích třídách. Protože pokud avíc daé třídy ejsou velmi od sebe vzdáleé, budou obě metody zařazovat subjekty častěji do té třídy, která má větší počet subjektů..3... Cetroidová metoda U cetroidové metody a rozdíl od metody ejbližšího souseda a metody k ejbližších sousedů ebývá problém při evyvážeém počtu subjektů ve skupiách. Tato metoda totiž vychází z výpočtu cetroidů pro jedotlivé skupiy, přičemž subjekt (či objekt) je zařaze do skupiy s ejbližším cetroidem od tohoto subjektu (Obr. 3). Postup cetroidové metody lze jedoduše popsat a příkladu klasifikace do skupiy pacietů a kotrol ásledujícím způsobem:

. Výpočet cetroidu skupiy pacietů pomocí = i= i, kde je počet pacietů a i je vektor hodot proměých u i-tého pacieta; a výpočet cetroidu skupiy kotrol pomocí = i= i, kde je počet kotrolích subjektů a i je vektor hodot proměých u i-tého kotrolího subjektu.. Zařazeí klasifikovaého subjektu do skupiy, k jejímuž cetroidu má teto klasifikovaý mid,, D,. subjekt ejmeší vzdáleost (apř. Euklidovskou), tedy hledá se ( ( ) ( )) pacieti kotroly testovací subjekt cetroid pacietů cetroid kotrol Obr. 3. Ilustrace klasifikace pomocí cetroidové metody. Testovací subjekt zatřídíme do skupiy pacietů, protože má kratší Euklidovskou vzdáleost k cetroidu pacietů ež k cetroidu kotrol..3..3. Metoda průměré vazby Na základě metody průměré vazby zařadíme subjekt (či objekt) do té skupiy, od jejíchž čleů má daý subjekt ejmeší průměrou vzdáleost. Jedotlivé kroky metody průměré vazby jsou ásledující:. Výpočet průměré (apř. Euklidovské) vzdáleosti klasifikovaého subjektu od všech D i i= pacietů pomocí vztahu D( ) = (, ),, kde je počet pacietů a i je vektor hodot proměých u i-tého pacieta; a výpočet průměré vzdáleosti klasifikovaého subjektu od všech kotrolích subjektů pomocí vztahu D D i i= ( ) = (, ), i, kde je počet kotrol a y i je vektor hodot proměých u i-tého kotrolího subjektu.. Zařazeí klasifikovaého subjektu do té skupiy, k jejímž čleům má teto klasifikovaý mid, D,. subjekt ejmeší průměrou vzdáleost, tedy hledá se ( ( ) ( )) Zázorěí metody průměré vazby je uvedeo a Obr. 4. i,

pacieti kotroly testovací subjekt Obr. 4. Ilustrace klasifikace pomocí metody průměré vazby. Na prví pohled eí patré, zda bude subjekt zařaze do skupiy pacietů či kotrol, protože je uto vypočítat průměrou vzdáleost testovacího subjektu od všech pacietů a průměrou vzdáleost testovacího subjektu od všech kotrol a tyto průměré vzdáleosti srovat. Metoda průměré vazby stejě jako cetroidová metoda emívá problémy při evyvážeém počtu subjektů ve skupiách. Oproti cetroidové metodě však může být časově áročější, pokud je celkový počet subjektů velký, protože se musí počítat vzdáleost testovacího subjektu od všech subjektů..3.3. Souvislost klasifikace podle miimálí vzdáleosti s dalšími pricipy klasifikace Začěme se srováím klasifikace podle miimálí vzdáleosti a klasifikací podle diskrimiačích fukcí. Uvažme příklad dvou tříd reprezetovaých etaloy E = ( E, E ) a E = ( E, E ) v dvourozměrém euklidovském prostoru. Výpočet vzdáleosti mezi subjektem = (, ) a libovolým z obou etaloů je v tomto prostoru defiová vztahem D( re, ) = re - = mire - = ( r E ) + ( re ) ; r =,. r (3) Podle defiice rozhodovacího pravidla klasifikátoru podle miimálí vzdáleosti hledáme meší z obou vzdáleostí, tj. mid( re, ). Protože ám ejde o staoveí kokrétí vzdáleosti, ale o r =, alezeí miima a rověž díky tomu, že vzdáleost mezi dvěma body prostoru je vždy kladá, můžeme psát, že hledáme mid (, ). To zameá, že r=, re mid( r re, ) ~ mid ( r = mi r + re, ) = re - = mi r ( re + re + re [( ) + ( ) ] re re ). re = (4)

Výraz ve složeých závorkách představuje pro každý etalo kuželovou plochu s vrcholem v daém etalou (pokud je vektor totožý s etaloem, je výraz ve složeých závorkách rove ule) a rozšiřující se do kladých hodot fukce g(), přičemž pro souřadice vektoru = ( ke ± c, ke ± c ) je hodota výrazu ve složeých závorkách rova c + c (Obr. 5). Jak je z obrázku patré, tato orietace kuželové plochy bohužel esplňuje podmíku pro diskrimiačí fukci. Ovšem dvojčle + ve složeých závorkách ve výrazu (4) ezávisí a klasifikačí třídě pro daý vektor, proto jej můžeme považovat za aditiví kostatu, která se epodílí a rozhodováí. Poěvadž je teto čle vždy kladý, můžeme určit miimum celého výrazu právě tehdy, když ajdeme ve vztahu (4) maimum výrazu v hraatých závorkách. Tím se orietace kuželové plochy měí a v souladu s pricipem klasifikace podle diskrimiačích fukcí lze teto výraz považovat za defiičí vztah diskrimiačí fukce r-té třídy g r (). Kuželové plochy se v obou případech protíají v parabole a její průmět do obrazové roviy je přímka (viz. Obr. 5), která je defiovaá vztahem E + E E E (E - E ) + (E - E) = 0. Tato hraičí přímka mezi klasifikačími třídami je vždy kolmá a spojici obou etaloů a tuto spojici půlí. Z uvedeého plye, že klasifikátor pracující a základě miimálí vzdáleosti je ekvivaletí lieárímu klasifikátoru s diskrimiačími fukcemi. Dále je teto příklad ukázkou toho, že i elieárí diskrimiačí fukce může vyústit v lieárí separaci klasifikačích tříd. (5) Obr. 5. Klasifikace podle miimálí vzdáleosti Jiou možostí, jak zkostruovat diskrimiačí fukci a základě pricipu staoveí vzdáleosti, resp. podobosti mezi klasifikovaým obrazem a etaloy klasifikačích tříd, je použití metriky podobosti. Dle závislosti mezi vzdáleostí a podobostí metrikou se měí tvar kuželové plochy, icméě její vrchol leží vždy ad etaloy klasifikačích tříd a kuželová plocha se rozšiřuje směrem k obrazovému prostoru. Měí se sice tvar průsečíků kuželových ploch odpovídajících jedotlivým etaloům, ale jejich průmět do obrazové roviy zůstává lieárí za předpokladu, že metriky pro jedotlivé etaloy ejsou růzě váhovaé.

Mějme yí případ, kdy je třída ω reprezetováa etaloem E a třída ω dvěma etaloy () E a () E, přičemž subjekt klasifikujeme opět pomocí kritéria ejmeší vzdáleosti. Protože třídu ω představují dva etaloy, je hraice mezi oběma třídami lomeá přímka půlící vzdáleosti mezi () () etaloy E a E a etaloy E a E (Obr. 6). Klasifikace podle miimálí vzdáleosti s třídami reprezetovaými více etaloy je tedy ekvivaletí klasifikaci s po částech lieárí hraicí. Obr. 6. Klasifikace podle miimálí vzdáleosti s víceetaloovými klasifikačími třídami.3.4. Příklad Bylo provedeo měřeí objemu hipokampu a objemu mozkových komor u 3 pacietů se schizofreií (,, ) a 3 kotrolích subjektů (,, ). Naměřeé hodoty byly (v řádcích) zazameáy do matic resp. (ozačeí D diseased, H healthy): 4 0, 3 8 5 7 3 9. 4 5 Určete, zda testovací subjekt 3,5 9 patří do skupiy pacietů či kotrolích subjektů pomocí klasifikace podle miimálí vzdáleosti. Řešeí odkaz a PDFko (Vicerozmerky - kap.3 - resei prikladu.pdf).3.5. Literatura [] Bishop, C. Patter Recogitio ad Machie Learig. Spriger, New York. (006) [] Holčík, J. Aalýza a klasifikace dat. Akademické akladatelství CERM, s.r.o., Bro. (0)

Obsah.3. Klasifikace podle miimálí vzdáleosti....3.. Výstupy z výukové jedotky....3.. Pricip klasifikace podle miimálí vzdáleosti....3... Metoda ejbližšího souseda....3... Cetroidová metoda... 3.3..3. Metoda průměré vazby... 4.3.3. Souvislost klasifikace podle miimálí vzdáleosti s dalšími pricipy klasifikace... 5.3.4. Příklad... 7.3.5. Literatura... 7