ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Podobné dokumenty
ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

ANALÝZA A KLASIFIKACE DAT

Náhodné vektory a matice

ANALÝZA A KLASIFIKACE DAT

Úvodem Dříve les než stromy 3 Operace s maticemi

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodný vektor a jeho charakteristiky

Pravděpodobnost a aplikovaná statistika

Poznámky k předmětu Aplikovaná statistika, 4. téma

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Poznámky k předmětu Aplikovaná statistika, 4. téma

Charakterizace rozdělení

ANALÝZA A KLASIFIKACE DAT

Shluková analýza dat a stanovení počtu shluků

Vícerozměrná rozdělení

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

1. Přednáška. Ing. Miroslav Šulai, MBA

Základy teorie pravděpodobnosti

NÁHODNÝ VEKTOR. 4. cvičení

Statistická analýza jednorozměrných dat

Regresní analýza 1. Regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Náhodné chyby přímých měření

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Rosenblattův perceptron

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Příklady ke čtvrtému testu - Pravděpodobnost

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

MATEMATICKÁ STATISTIKA - XP01MST

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Stavový model a Kalmanův filtr

ANALÝZA A KLASIFIKACE DAT

NÁHODNÁ VELIČINA. 3. cvičení

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?

Cvičná bakalářská zkouška, 1. varianta

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Výběrové charakteristiky a jejich rozdělení

Klasifikace a rozpoznávání. Lineární klasifikátory

Kontingenční tabulky, korelační koeficienty

12. cvičení z PST. 20. prosince 2017

Náhodné (statistické) chyby přímých měření

1 Báze a dimenze vektorového prostoru 1

AVDAT Mnohorozměrné metody metody redukce dimenze

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

1 Rozptyl a kovariance

Základní pojmy teorie množin Vektorové prostory

Testování hypotéz o parametrech regresního modelu

Úloha - rozpoznávání číslic

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

NADSTAVBOVÝ MODUL MOHSA V1

Statistika II. Jiří Neubauer

stránkách přednášejícího.

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Téma 22. Ondřej Nývlt

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Pravděpodobnost a statistika

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Lineární klasifikátory

Testování hypotéz o parametrech regresního modelu

You created this PDF from an application that is not licensed to print to novapdf printer (

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Mnohorozměrná statistická data

PRAVDĚPODOBNOST A STATISTIKA

7. Analýza rozptylu.

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

AVDAT Mnohorozměrné metody, metody klasifikace

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:


1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Náhodná veličina a rozdělení pravděpodobnosti

UČENÍ BEZ UČITELE. Václav Hlaváč

Úvod do lineární algebry

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Detekce kartografického zobrazení z množiny

Texty k přednáškám z MMAN3: 4. Funkce a zobrazení v euklidovských prostorech

NMAI059 Pravděpodobnost a statistika

Míry podobnosti, základy fuzzy matematiky

Státnice odborné č. 20

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44

Bayesovské metody. Mnohorozměrná analýza dat

Transkript:

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.

VII. VOLBA A VÝBĚR PŘÍZNAKŮ

ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké náklady; KOMPROMIS (potřebujeme kritérium)

ZAČÍNÁME KOMPROMIS (potřebujeme kritérium) přípustná míra spolehlivosti klasifikace (např. pravděpodobnost chybné klasifikace, odchylka obrazu vytvořeného z vybraných příznaků vůči určitému referenčnímu); určit ty příznakové proměnné, jejichž hodnoty nesou nejvíce informace z hlediska řešené úlohy, tj. ty proměnné, kterou jsou nejefektivnější pro vytvoření co nejoddělenějších klasifikačních tříd;

ZAČÍNÁME algoritmus pro určení příznakových veličin nesoucích nejvíce informace pro klasifikátor není dosud teoreticky formalizován - pouze dílčí suboptimální řešení spočívající: ve výběru nezbytného množství veličin z předem zvolené množiny; vyjádření původních veličin pomocí menšího počtu skrytých nezávislých veličin, které zpravidla nelze přímo měřit, ale mohou nebo také nemusí mít určitou věcnou interpretaci

VOLBA PŘÍZNAKŮ počáteční volba příznakových veličin je z velké části empirická, vychází ze zkušeností získaných při empirické klasifikaci člověkem a závisí, kromě rozboru podstaty problému i na technických (ekonomických) možnostech a schopnostech hodnoty veličin určit

ZÁSADY PRO VOLBU PŘÍZNAKŮ výběr veličin s minimálním rozptylem uvnitř tříd

ZÁSADY PRO VOLBU PŘÍZNAKŮ výběr veličin s maximální vzdáleností mezi třídami

ZÁSADY PRO VOLBU PŘÍZNAKŮ výběr vzájemně nekorelovaných veličin pokud jsou hodnoty jedné příznakové veličiny závislé na příznacích druhé veličiny, pak použití obou těchto veličin nepřináší žádnou další informaci pro správnou klasifikaci stačí jedna z nich, jedno která

ZÁSADY PRO VOLBU PŘÍZNAKŮ výběr veličin invariantních vůči deformacím volba elementů formálního popisu závisí na vlastnostech původních i předzpracovaných dat a může ovlivňovat způsob předzpracování

VÝBĚR PŘÍZNAKŮ formální popis objektu původně reprezentovaný m rozměrným vektorem se snažíme vyjádřit vektorem n rozměrným tak, aby množství diskriminační informace obsažené v původním vektoru bylo v co největší míře zachováno Z: Y m X n

VÝBĚR PŘÍZNAKŮ dva principiálně různé způsoby: selekce nalezení a odstranění těch příznakových funkcí, které přispívají k separabilitě klasifikačních tříd nejméně; extrakce transformace původních příznakových proměnných na menší počet jiných příznakových proměnných

VÝBĚR PŘÍZNAKŮ dva principiálně různé způsoby: selekce nalezení a odstranění těch příznakových funkcí, které přispívají k separabilitě klasifikačních tříd nejméně; extrakce transformace původních příznakových proměnných na menší počet jiných příznakových proměnných Abychom dokázali realizovat libovolný z obou způsobů výběru, je třeba definovat a splnit určité podmínky optimality.

VÝBĚR PŘÍZNAKŮ PODMÍNKY OPTIMALITY Nechť J je kriteriální funkce, jejíž pomocí vybíráme příznakové veličiny. V případě selekce vybíráme vektor x= T (x 1,,x n ) ze všech možných n-tic χ příznaků y i, i=1,2,,m. Optimalizaci selekce příznaků formálně zapíšeme jako Problémy k řešení: Z( y) = extr J( χ) stanovení kriteriální funkce; χ stanovení nového rozměru kriteriální funkce; stanovení optimalizačního postupu

VÝBĚR PŘÍZNAKŮ PODMÍNKY OPTIMALITY Nechť J je kriteriální funkce, jejíž pomocí vybíráme příznakové veličiny. V případě extrakce transformujeme příznakový prostor na základě výběru zobrazení Z z množiny všech možných zobrazení ζ prostoru Y m do X n, tj. Z( y) = extr J( ζ) Příznakový prostor je pomocí optimálního zobrazení Z dán vztahem x =Z(y) Problémy k řešení: stanovení kriteriální funkce; stanovení nového rozměru kriteriální funkce; zvolení požadavků na vlastnosti zobrazení; ζ stanovení optimalizačního postupu

SELEKCE PŘÍZNAKŮ PRAVDĚPODOBNOSTNÍ MÍRY pro bayesovské klasifikátory je-li χ = (χ 1, χ 2,, χ n ) možná n-tice příznaků, vybraných ze všech možných m hodnot y i, i=1,,m, n m, pak pravděpodobnost chybného rozhodnutí P eme je pro tento výběr rovna P eme = J(a*) = minj(a) = minlχ ( ωr )dχχ = a [ p( χ) p( χ ω). P( ω ] = min = ω ω = χ r r)dχ p( χ)dχ maxp( χ r). P( r) dχ r r χ χ 1 maxp( χ ωr). P( ωr χ r χ r = ) dχ

SELEKCE PŘÍZNAKŮ PRAVDĚPODOBNOSTNÍ MÍRY pro dichotomický bayesovský klasifikátor (R=2) je celková pravděpodobnost chybného rozhodnutí e = 1 p( χ ω ). P( ω ) p( χ ω ). P( ω ) d χ e 1 1 2 2 χ pravděpodobnost chyby bude maximální, když integrál bude nulový obě váhované hustoty pravděpodobnosti budou stejné, pravděpodobnost chyby bude minimální, když se obě hustoty nebudou překrývat. Čím větší vzdálenost mezi klasifikačními třídami, tím menší pravděpodobnost chyby Integrál může být považován za vyjádření pravděpodobnostní vzdálenosti

SELEKCE PŘÍZNAKŮ PRAVDĚPODOBNOSTNÍ MÍRY zobecnění J( χ) [ p( χ ω). P( ω),i 1,2 ] = f i i = dχ χ J(χ) χ 0; J(χ) = 0, když jsou hustoty pravděpodobnosti totožné; J(χ) χ je maximální, když se hustoty nepřekrývají

SELEKCE PŘÍZNAKŮ PRAVDĚPODOBNOSTNÍ MÍRY

SELEKCE PŘÍZNAKŮ PRAVDĚPODOBNOSTNÍ MÍRY

SELEKCE PŘÍZNAKŮ PRAVDĚPODOBNOSTNÍ MÍRY pro více klasifikačních tříd tzv. bayesovská vzdálenost J R = ω 2 P( r χ).p( χ) dχ r 1 BA χ =

SELEKCE PŘÍZNAKŮ POMĚR ROZPTYLŮ rozptyl uvnitř třídy pomocí disperzní matice D( χ) kde R T = P( ω) ( χ µ ). ( χ µ ). p( χ ω)dχ, χ r = 1 r χ µ = ( χ ω) dχ r p r r r r

SELEKCE PŘÍZNAKŮ POMĚR ROZPTYLŮ rozptyl mezi třídami může být dán pokud R 1 R = B ( χ) P( ω µ r = 1s = r + 1 rs T r ).P( ωs). µ rs. rs, kde µ = µ µ R = µ 0 P( ωr).µ r = χ. p( χ) dχ lze r = 1 také psát R = T B( χ ) P( ωr ).( µ r µ 0 ). ( µ r µ 0 r= 1 r χ s ),

SELEKCE PŘÍZNAKŮ POMĚR ROZPTYLŮ vyjádření vztahu obou rozptylů J r1 (χ)=tr(d -1 (χ).b(χ)) J r2 (χ)=tr(b(χ)/tr(d(χ)) J r3 (χ)= D -1 (χ).b(χ) = B(χ) / D(χ) J r4 (χ) = ln(j r3 (χ))

NEPRAVDĚPODOBNOSTNÍ METRIKY Euklidovská metrika (s nejnázornější geometrickou interpretaci) ρ 1/ 2 n 2 E ( x1, x2) = (x1i x2i) i = 1 Hammingova metrika (Manhattan m.) ρ H ( x, x 1 2 ) n = x i=1 Minkovského metrika ρ 1/ m n m ( M x1, x2) = x1i x2i i= 1 ( 1i x 2i

NEPRAVDĚPODOBNOSTNÍ METRIKY Euklidovská metrika (s nejnázornější geometrickou interpretaci) ρ 1/ 2 n 2 E ( x1, x2) = (x1i x2i) i = 1 Hammingova metrika (Manhattan m.) ρ H ( x, x 1 2 ) n = x i=1 Minkovského metrika ρ 1/ m n m ( M x1, x2) = x1i x2i i= 1 ( 1i x 2i

NEPRAVDĚPODOBNOSTNÍ METRIKY Euklidovská metrika (s nejnázornější geometrickou interpretaci) ρ 1/ 2 n 2 E ( x1, x2) = (x1i x2i) i = 1 Hammingova metrika (Manhattan m.) ρ H ( x, x 1 2 ) n = x i=1 Minkovského metrika ρ 1/ m n m ( M x1, x2) = x1i x2i i= 1 ( 1i x 2i

NEPRAVDĚPODOBNOSTNÍ METRIKY Čebyševova metrika ρ C x, x ) = max { x x } ( 1 2 i Čebyševovu metriku lze vyjádřit jako limitu 1i 2i ρ x, x ) = lim ρ ( x, x ) C( 1 2 M 1 2 m Sokalova metrika ρ S ( x 1, x 2 ) ρ = 2 ρe( x1, x2 n ) 1/ 2

NEPRAVDĚPODOBNOSTNÍ METRIKY Čebyševova metrika ρ C x, x ) = max { x x } ( 1 2 i Čebyševovu metriku lze vyjádřit jako limitu 1i 2i ρ x, x ) = lim ρ ( x, x ) C( 1 2 M 1 2 m Sokalova metrika ρ S ( x 1, x 2 ) ρ = 2 ρe( x1, x2 n ) 1/ 2

NEPRAVDĚPODOBNOSTNÍ METRIKY Čebyševova metrika ρ C x, x ) = max { x x } ( 1 2 i Čebyševovu metriku lze vyjádřit jako limitu 1i 2i ρ x, x ) = lim ρ ( x, x ) C( 1 2 M 1 2 m Sokalova metrika ρ S ( x 1, x 2 ) ρ = 2 ρe( x1, x2 n ) 1/ 2

NEPRAVDĚPODOBNOSTNÍ METRIKY Volba podle toho jak potřebujeme posílit vliv proměnných, u nichž je pro dané obrazy x 1 a x 2 velký rozdíl.

NEPRAVDĚPODOBNOSTNÍ METRIKY nevýhody: fyzikální nesmyslnost vytvářet kombinaci veličin s různým fyzikálním rozměrem jsou-li příznakové veličiny zahrnovány do výsledné vzdálenosti se stejnými vahami, zvyšuje se vliv korelovaných veličin

NEPRAVDĚPODOBNOSTNÍ METRIKY možné odstranění (potlačení) nevýhod: vztažením k nějakému vyrovnávacímu faktoru, např. střední hodnotě, směrodatné odchylce, normě daného obrazu x=(x 1, x 2,,x n ) rozpětí i x = = maxx j n i=1= ij x 2 i, minx j ij, resp. standardizací podle vztahu xij xj uij =, i = 1,...,n; j = σ σ j 1,...,K

NEPRAVDĚPODOBNOSTNÍ METRIKY možné odstranění (potlačení) nevýhod: lze i subjektivně či na základě nějaké apriorní informace o úloze přiřadit každé příznakové proměnné váhový koeficient, např. váhovaná Minkovského metrika má tvar 1/ m n m ρ ( x, x ) a.x x WM 1 2 = i 1i 2i i= 1

NEPRAVDĚPODOBNOSTNÍ METRIKY možné odstranění (potlačení) nevýhod: váhování příznaků lze zapsat maticově u i = T C.x i, kde prvky transformační matice C jsou definovány jako c ii = a i, pro i = 1,, n c ij = 0, pro i j Za tohoto formalismu je Euklidova metrika definována vztahem ρ [ ] T T ( x x ). C. C.( x 1/ 2 E ( x1, x2) = 1 2 1 x2)

NEPRAVDĚPODOBNOSTNÍ METRIKY možné odstranění (potlačení) nevýhod: pokud jsou složky transformovaného obrazu dány lineární kombinací více složek původního obrazu, není ani matice C, ani matice C. T C čistě diagonální. Použijeme-li místo matice C. T C inverzní kovarianční matice K -1, pak definiční vztah pro váhovanou Euklidovu metriku je definičním vztahem pro Mahalanobisovu metriku ρ [ ] 2 T 1 1/ 2 E ( u1, u2) = ρma( x1, x2) = ( x1 x2). K.( x1 x2)

NEPRAVDĚPODOBNOSTNÍ METRIKY možné odstranění (potlačení) nevýhod: pokud jsou složky transformovaného obrazu dány lineární kombinací více složek původního obrazu, není ani matice C, ani matice C. T C čistě diagonální. Použijeme-li místo matice C. T C inverzní kovarianční matice K -1, pak definiční vztah pro váhovanou Euklidovu metriku je definičním vztahem pro Mahalanobisovu metriku ρ [ ] 2 T 1 1/ 2 E ( u1, u2) = ρma( x1, x2) = ( x1 x2). K.( x1 x2) Kovarianční matice dvou (náhodných) vektorů x= T (x 1,,x m ) a y= T (y 1,,y n ) je dána vztahem T K(x,y)=E((x-Ex). T (y-ey)) = [cov(x i,y j )] m,n

KOEFICIENTY KORELACE

KOEFICIENTY KORELACE TO SNAD OPAKOVAT NEMUSÍME

KOEFICIENTY ASOCIACE

KOEFICIENTY ASOCIACE Koeficienty asociace jsou míry podobnosti mezi obrazy obsahujícími logické (binární, dichotomické) příznakové veličiny. Ke zjištění podobnosti je třeba sledovat shodu či neshodu hodnot odpovídajících si příznaků čtyři možné situace

KOEFICIENTY ASOCIACE a) u obou obrazů sledovaný jev nastal (oba odpovídající si příznaky mají hodnotu true) pozitivní shoda; b) u obrazu x i jev nastal (x ik = true), zatímco u obrazu x j nikoliv (x jk = false); c) u obrazu x i jev nenastal (x ik = false), zatímco u obrazu x j ano (x jk = true); d) u obou obrazů sledovaný jev nenastal (oba odpovídající si příznaky mají hodnotu false) negativní shoda;

KOEFICIENTY ASOCIACE

KOEFICIENTY ASOCIACE sledujeme, kolikrát pro všechny příznaky obrazů x i a x j nastaly případy shody a neshody A+D celkový počet shod příznaků; B+C celkový počet neshod příznaků; A+B+C+D =n tj. počet příznaků obou obrazů Na základě počtu zjištěných shod a neshod jsou definovány různé koeficienty asociace.

KOEFICIENTY ASOCIACE Jaccardův (Tanimotův) koeficient A s J( x i, x j) = A + B + C (není definován pro dvojice obrazů, které vykazují negativní shodu ve všech příznacích); Soklův- Michenerův koeficient A + D s SM( x i, x j) = A + B + C + D Diceův koeficient 2A 2A sd ( xi, xj ) = = 2A + B + C (A + B) + (A + C)

KOEFICIENTY ASOCIACE Russelův- Raoův koeficient A s RR ( x i, x j ) = A + B + C + D Asociační koeficienty zpravidla nabývají hodnot z intervalu 0,1. V případě R-R koeficientu je při srovnání dvou týchž obrazů hodnota s RR = 1 pouze když došlo u všech příznaků jen k pozitivní shodě.

KOEFICIENTY ASOCIACE Rogersův-Tanimotův koeficient A + D A + D s RT( x i, x j) = = A + D + 2.(B + C) (B + C) + (A + B + C + D) Hammanův koeficient A + D (B + C) sh ( xi, xj ) = A + B + C + D Na rozdíl od všech předcházejících nabývá Hammanův koeficient hodnot z intervalu -1,1, přičemž hodnoty -1 nabývá, pokud se příznaky neshodují ani jednou, 0 nabývá když je počet shod a neshod v rovnováze a +1 je v případě úplné shody mezi všemi příznaky.

KOEFICIENTY ASOCIACE Na základě četností A až D lze vytvářet také dříve uvedené míry: Pearsonův korelační koeficient A.D B.C sr( xi, xj) = (A + B).(C + D).(A + C).(B + kritérium shody χ 2 ) D) s χ ( x, x) = i j n.s 2 r ( x i, x j

KOEFICIENTY ASOCIACE Na základě četností A až D lze vytvářet také dříve uvedené míry: Hammingova vzdálenost ρ H ( xi, xj ) = B + C Euklidova vzdálenost ρe ( xi, xj) = B + C

KOEFICIENTY ASOCIACE Z koeficientů asociace, které vyjadřují míru podobnost lze odvodit koeficienty nepodobnosti d ( x, x) = 1 s ( x, x) X i j V případě Jaccardova a Dicova koeficientu nepodobnosti je dodefinována hodnota i pro případy úplné negativní shody tak, že d J (x i,x j ) = d D (x i,x j ) = 0 pro A = B = C = 0 x i j

KOEFICIENTY ASOCIACE NÁZEV ROZSAH VZTAH Cosine 0.0,1.0 Dice 0.0,1.0 Euclid 0.0,1.0 Forbes 0.0, Hamman -1.0,1.0 Jaccard 0.0,1.0 Kulczynski 0.0,1.0 Manhattan 1.0,0.0

KOEFICIENTY ASOCIACE NÁZEV ROZSAH VZTAH Sokal-Michener 0.0,1.0 Pearson -1.0,1.0 Rogers-Tanimoto 0.0,1.0 Russell-Rao 0.0,1.0 Simpson 0.0,1.0 Yule -1.0,1.0

PODOBNOST MEZI TŘÍDAMI podobnost jednoho obrazu s více obrazy jedné třídy (skupin, množin, shluků); podobnost obrazů dvou tříd (skupin, množin, shluků); zavedeme funkci, která ke každé dvojici skupin obrazů (C i,c j) přiřazuje číslo D(C i,c j), které podobně jako míry podobnosti či nepodobnosti (metriky) jednotlivých obrazů musí splňovat minimálně podmínky:

PODOBNOST MEZI TŘÍDAMI PODMÍNKY (S1) D(C i,c) j 0 (S2) D(C i,c j ) = D(C j,c i ) (S3) D(C i,c i ) = max i,j D(C i,c j ) (S3 ) (pro míry podobnosti) D(C i,c i ) = 0 pro všechna i (pro míry podobnosti)

METODA NEJBLIŽŠÍHO SOUSEDA je-li d libovolná míra nepodobnosti (vzdálenosti) dvou obrazů a C i ac j jsou libovolné skupiny množiny obrazů {x i }, i=1,,k, potom metoda nejbližšího souseda definuje mezi skupinami C i ac j vzdálenost Pozn.: D NN ( C i, C i ) = min d(x,x ) xp C i x C Při použití této metody se mohou vyskytovat v jednom shluku často i poměrně vzdálené obrazy. Tzn. metoda nejbližšího souseda může generovat shluky protáhlého tvaru. q j p q

METODA K NEJBLIŽŠÍCH SOUSEDŮ Je zobecněním metody nejbližšího souseda. Je definována vztahem D NNk ( C i, C i ) = min xp C x C k d(x tj. vzdálenost dvou shluků je definována součtem k nejkratších vzdáleností mezi obrazy dvou skupin obrazů. q i j p,x q ), Pozn.: Při shlukování metoda částečně potlačuje generování řetězcových struktur.

METODA NEJVZDÁLENĚJŠÍHO SOUSEDA opačný princip než nejbližší sousedi Pozn.: D ( C, C ) = FN i i max d(x xp C i x C Generování protáhlých struktur tato metoda potlačuje, naopak vede ke tvorbě nevelkých kompaktních shluků. je možné i zobecnění pro více nejbližších sousedů D FNk ( C i, C i ) = q max x C p i xq C j j k p d(x,x p q,x ) q ),

METODA CENTROIDNÍ vychází z geometrického modelu v euklidovském n rozměrném prostoru a určuje vzdálenost dvou tříd jako čtverec Euklidovy vzdálenosti těžišť obou tříd. je-li těžiště třídy definováno jako střední hodnota z obrazů patřících do této třídy, tj. pak x rk = {xrk1,xrk2,...,xrkn}, xrj = xrik, i = D C ( C i, C i ) = ρ 2 E ( x i K k= 1, x j ), 1,...,n,

METODA PRŮMĚRNÉ VAZBY vzdálenost dvou tříd C i ac j je průměrná vzdálenost mezi všemi obrazy tříd C i ac j. Obsahuje-li shluk C i P obrazů ac j Q obrazů, pak jejich vzdálenost je definována vztahem Pozn.: D GA P Q 1 ( C i, Ci) = d(xp,xq). PQ p= 1 q= 1 Metoda často vede k podobným výsledkům jako metoda nejvzdálenějšího souseda.

WARDOVA METODA vzdálenost mezi třídami (shluky) je definována přírůstkem součtu čtverců odchylek mezi těžištěm a obrazy shluku vytvořeného z obou uvažovaných shluků C i ac j oproti součtu čtverců odchylek mezi obrazy a těžišti v obou shlucích C i ac j.

WARDOVA METODA x x x jsou-li xi a j těžiště tříd C i ac j a těžiště sjednocené množiny, pak Wardova vzdálenost obou shluků je definována výrazem Pozn.: D W ( C i, C i ) x i i j n = x C C k = 1 (x n n 2 (x x ) ik k + xi Cik= 1 xi Cjk= 1 Metoda má tendenci vytvářet shluky zhruba stejné velikosti, tedy odstraňovat shluky malé, resp. velké. ik (x x ik k ) 2 x k ) 2.

WARDOVA METODA

ALGORITMY SELEKCE PŘÍZNAKŮ výběr optimální podmnožiny obsahující n (n m) příznakových proměnných kombinatorický problém (m!/(m-n)!n! možných řešení) hledáme jen kvazioptimální řešení

ALGORITMUS OHRANIČENÉHO VĚTVENÍ předpoklad: monotónnost kritéria selekce - označíme-li X j množinu obsahující j příznaků, pak monotónnost kritéria znamená, že podmnožiny X 1 X 2 X j X m splňuje selekční kritérium vztah J(X 1 ) J(X 1 ) J(X m )

ALGORITMUS OHRANIČENÉHO VĚTVENÍ uvažme případ selekce dvou příznaků z pěti

ALGORITMUS SEKVENČNÍ DOPŘEDNÉ SELEKCE algoritmus začíná s prázdnou množinou, do které se vloží proměnná s nejlepší hodnotou selekčního kritéria; v každém následujícím kroku se přidá ta proměnná, která s dříve vybranými veličinami dosáhla nejlepší hodnoty kritéria, tj. J({X k+1 })=max J({X k y j }), y j {Y-X k }

ALGORITMUS SEKVENČNÍ ZPĚTNÉ SELEKCE algoritmus začíná s množinou všech příznakových veličin; v každém následujícím kroku se eliminuje ta proměnná, která způsobuje nejmenší pokles kriteriální funkce, tj. po (k+1). kroku platí J({X m-k-1 })=max J({X m-k -y j }), y j {X m-k }

ALGORITMY SEKVENČNÍ SELEKCE SUBOPTIMALITA Suboptimalita nalezeného řešení sekvenčních algoritmů je způsobena: dopředná selekce - tím, že nelze vyloučit ty veličiny, které se staly nadbytečné po přiřazení dalších veličin; zpětná selekce neexistuje možnost opravy při neoptimálním vyloučení kterékoliv proměnné; Dopředný algoritmus je výpočetně jednodušší, protože pracuje maximálně v n-rozměrném prostoru, naopak zpětný algoritmus umožňuje průběžně sledovat množství ztracené informace.

ALGORITMUS PLUS P MÍNUS Q po přidání p veličin se q veličin odstraní; proces probíhá, dokud se nedosáhne požadovaného počtu příznaků; je-li p>q, pracuje algoritmus od prázdné množiny; je-li p<q, varianta zpětného algoritmu

ALGORITMUS MIN - MAX Heuristický algoritmus vybírající příznaky na základě výpočtu hodnot kriteriální funkce pouze v jedno- a dvourozměrném příznakovém prostoru. Předpokládejme, že bylo vybráno k příznakových veličin do množiny {X k } a zbývají veličiny z množiny {Y-X k }. Výběr veličiny y j {Y-X k } přináší novou informaci, kterou můžeme ocenit relativně k libovolné veličině x i X k podle vztahu J(y j,x i ) = J(y j,x i ) - J(x i )

ALGORITMUS MIN - MAX Informační přírůstek J musí být co největší, ale musí být dostatečný pro všechny veličiny již zahrnuté do množiny X k. Vybíráme tedy veličinu y k+1, pro kterou platí J(y k+1,x k ) = max j min i J(y j,x i ), x i X k