Vícerozměrné statistické metody

Podobné dokumenty
Vícerozměrné statistické metody

Úvodem Dříve les než stromy 3 Operace s maticemi

Vícerozměrné statistické metody

Vícerozměrné statistické metody

Vícerozměrné statistické metody

Vícerozměrné statistické metody

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

vzorek vzorek

PRAVDĚPODOBNOST A STATISTIKA

Statistická analýza jednorozměrných dat

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Regresní a korelační analýza

Kanonická korelační analýza

6. Lineární regresní modely

PRAVDĚPODOBNOST A STATISTIKA

Pokročilé neparametrické metody. Klára Kubošová

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Aplikovaná statistika v R - cvičení 3

6. Lineární regresní modely

Statistika (KMI/PSTAT)

Regresní a korelační analýza

AVDAT Mnohorozměrné metody, metody klasifikace

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Inovace bakalářského studijního oboru Aplikovaná chemie

You created this PDF from an application that is not licensed to print to novapdf printer (

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Regresní a korelační analýza

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Vícerozměrné statistické metody

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Tomáš Karel LS 2012/2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

AVDAT Výběr regresorů v mnohorozměrné regresi

Regresní analýza 1. Regresní analýza

Tomáš Karel LS 2012/2013

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Pokročilé neparametrické metody. Klára Kubošová

LINEÁRNÍ REGRESE. Lineární regresní model

Přednáška 13 Redukce dimenzionality

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Měření závislosti statistických dat

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

odpovídá jedna a jen jedna hodnota jiných

Klasická a robustní ortogonální regrese mezi složkami kompozice

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

INDUKTIVNÍ STATISTIKA

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Shluková analýza dat a stanovení počtu shluků

Cvičná bakalářská zkouška, 1. varianta

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Testování hypotéz a měření asociace mezi proměnnými

Regresní analýza. Eva Jarošová

10. Předpovídání - aplikace regresní úlohy

Lineární regrese. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Faktorová analýza (FACT)

, Brno Hanuš Vavrčík Základy statistiky ve vědě

AVDAT Klasický lineární model, metoda nejmenších

LINEÁRNÍ MODELY. Zdeňka Veselá

Ilustrační příklad odhadu LRM v SW Gretl

8 Coxův model proporcionálních rizik I

Statistická analýza dat

Korelační a regresní analýza

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Partial Least Squares regrese (PLS-R)

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

5EN306 Aplikované kvantitativní metody I

x T 1 matici & S 1 kovarianční matici &

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

Semestrální práce. 3.1 Matematické principy analýzy vícerozměrných dat

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

kompoziční data s aplikací v metabolomice

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

AVDAT Geometrie metody nejmenších čtverců

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Vícerozměrné statistické metody Diskriminační analýza Jiří Jarkovský, Simona Littnerová

Typy vícerozměrných analýz y Faktorové osy SHLUKOVÁ NLÝZ x y x ORDINČNÍ METODY podobnost KLSIFIKCE y Diskriminační prostor x 2

Obecné zásady tvorby predikčních modelů Požadavky na kvalitní predikční model Maximální predikční síla Maximální interpretovatelnost Minimální složitost Tvorba modelů Neobsahuje redundantní proměnné Je otestován na nezávislých datech Výběr proměnných lgoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při výběru proměnných finálního modelu Při výběru proměnných se uplatní jak klasické statistické metody (NOV), tak expertní znalost významu proměnných a jejich zastupitelnosti 3

Vytváření modelů 1.Tvorba modelu Vysvětlovaná proměnná Prediktory Parametry ovlivňující vysvětlovanou charakteristiku pacienta Rovnice umožňující predikci Platnost modelu pouze v rozsahu prediktorů 2.Validace modelu Nebezpečí přeučení modelu Testování modelu na známých datech Krosvalidace 3. plikace modelu??? Individuální predikce stavu nenámých pacientů Model musí být podložen korektní statistikou a rozsáhlými daty 4

Diskriminační analýza Cíle diskriminační analýzy Identifikace proměnných (prediktorů) diskriminujících mezi předem danými skupinami objektů Klasifikace objektů do skupin Předpoklady diskriminační analýza Obdoba lineární regrese Oddělení objektů podél přímky ve vícerozměrném prostoru (lineární vztah); existuje nicméně kvadratická diskriminační analýza Předpoklad vícerozměrného normálního rozdělení prediktorů v každé ze skupin Citlivá na přítomnost odlehlých hodnot Citlivá na redundantní proměnné v modelu Typy diskriminační analýzy Podle typu vztahu Lineární Kvadratická Podle účelu Kanonická diskriminační analýza identifikace proměnných významných pro diskrminaci Klasifikační diskriminační analýza klasifikace neznámých objektů do skupin 5

Princip diskriminační analýzy Kombinací několika proměnných získáme nový pohled odlišující existující skupiny objektů, které není možné odlišit žádnou z proměnných samostatně 6 X 2 X 1

Kroky diskriminační analýzy Metoda lineárního modelování obdobná analýze rozptylu, regresi nebo kanonické korelační analýze (nejsnáze pochopitelná je její analogie k NOV) Výpočet probíhá v následujících základních krocích: Testování významnosti rozdílů v hodnocených proměnných mezi existujícími skupinami objektů; tato část výpočtu je vlastně MNOV (multivariate analysis of variance, vícerozměrná NOV) Pokud je potvrzena alternativní hypotéza rozdílů mezi skupinami objektů následuje tvorba vlastního modelu Nalezení lineární kombinace proměnných, která nejlépe odlišuje mezi skupinami objektů (diskriminační funkce) 7

Historie diskriminační analýzy Popsána pod názvem canonical variate analysis (CV) Fisherem v roce 1936 pro dvě skupiny; Rao (1948, 1952) ji rozšířil pro více než 2 skupiny Je spjata se slavnými Fisherovými kosatci na nichž ji Fisher v roce 1936 popsal Fisherovy kosatce Shromážděny na poolostrově Gaspé (Quebec v Kanadě) botanikem Edgarem ndersonem Petals Versicola Virginic Setosa Sepals 8

Předstupeň diskriminační analýzy: popis vztahu prediktorů a existujících skupin objektů SEPLLEN SEPLWID SEPLLEN 8.5 8.0 7.5 7.0 6.5 6.0 5.5 5.0 4.5 4.0 SEPLWID 4.6 4.4 4.2 4.0 3.8 3.6 3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 PETLLEN PETLWID PETLLEN 8 7 6 5 4 3 2 1 0 SETOS VIRGINIC VERSICOL PETLWID 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 SETOS SETOS VIRGINIC VERSICOL VIRGINIC VERSICOL SETOS VIRGINIC VERSICOL Nicméně pozor na pouze jednorozměrný výběr proměnných diskriminace objektů může být dána pouze jejich kombinací 9

Význam identifikace redundantních proměnných Redundantní proměnné snižují stabilitu modelu a mohou vést až k nesmyslným výsledkům X Proměnná se silnější diskriminační silou a nekorelovaná s druhou proměnnou snadno vyhrává zařazení do modelu, další proměnné následují dle jejich významu X V případě dvou korelovaných proměnných s obdobnou diskriminační silou pouze jedna vyhrává zařazení do modelu (výsledek dán nepatrnými náhodnými odlišnostmi), druhá je vyřazena nebo vstupuje s do modelu s minimálním významem > problém s interpretací a stabilitou 10

Identifikace redundantních proměnných Korelační analýza a XY grafy Jednoduchý výpočet nalyzuje vztahy pouze dvojic proměnných nalýza hlavních komponent nebo faktorová analýza nalyzuje vzájemné vztahy sady proměnných Usnadňuje výběr neredundantních proměnných nebo nahrazení proměnných faktorovými osami nalýza vzájemného vysvětlení proměnných (analýza redundance) Ve statistických software často součást regresní analýzy nebo diskriminační analýzy R 2 a Tolerance R 2 popisuje kolik variability dané proměnné je vysvětleno ostatními proměnnými v modelu? Tolerance je 1 R 2, tedy kolik unikátní variability na proměnnou připadá (principem je vícerozměrná regrese, ta determinuje i předpoklady výpočtu) VIF (Variance Inflation Factor) je počítán jako 1/Tolerance, při VIF>10 je kolinearita považována za velmi závažnou (nicméně nejsou dány žádné závazné hranice VIF) Expertní znalost proměnných Vyřazovány jsou korelované proměnné s obtížným měřením, zatížené chybami, nízkou vyplněností apod. 11

Ověření diskriminační funkce na nezávislém souboru Při tvorbě modelů může dojít k problému, kdy vytvořený model je perfektně vycvičen řešit danou úlohu na datovém soubor na němž byla vytvořena Z tohoto důvodu je problematické testovat výsledky modelu na stejném souboru, na němž byla vytvořena > jde o důkaz kruhem Řešením je testování výsledků modelu na souboru se známým výsledkem (zde známým zařazením objektů do skupin), který se nepodílel na definici modelu Krosvalidace datový soubor je náhodně rozdělen na několik podsouborů (2 nebo více) Na jednom podsouboru je vytvořen model a jeho výsledky testovány na zbývajících podsouborech Výpočet je proveden postupně na všech podsouborech One out leave out Model je vytvořen na celém souboru bez jednoho objektu na tomto objektu je model testován postup je zopakován pro všechny objekty Permutační metody Jackknife, bootstrap model je postupně vytvářen na náhodných podvýběrech souboru a testován na zbytku dat Testování Model I Podsoubor I Model I Podsoubor II Model II Testování Model II 12

lgebra diskriminační analýzy Výpočet diskriminační analýzy je možné snadno popsat analogií s NOV a PC NOV definice matice rozptylu jako rozptylu vztaženého k rozdílům mezi skupinami PC identifikace faktorových os vysvětlujících maximum rozptylu (zde rozptylu mezi skupinami) G počet skupin, n počet objektů Suma čtverců Matice rozptylu Celkový rozptyl Sloučený rozptyl uvnitř skupin Rozptyl mezi skupinami Pro rozptyl mezi skupinami pak hledáme pohled maximalizující vysvětlenou variabilitu; v obecném tvaru jde o stejný vzorec jako v případě PC 1 ( I ) = 0 Eigenvektory jsou různě standardizovány T W = W +... + 1 = T W W g = T n 1 2 Normalizované eigenvektory C = U ( U ' VU ) definují tzv. kanonický prostor diskriminační analýzy; transformace vede k maximalizaci variability mezi centroidy skupin a sféricitě rozptylu uvnitř skupin Další metody jsou standardizace na délku 1 nebo druhou odmocninu z eigenvalue; ty nicméně nezaručují sfericitu rozptylu uvnitř skupin S V = W n g = g 1 V λ k u k ( λkv ) uk = 0 Kde λ jsou eigenvalue a u eigenvektory Počet os definovaných eigenvektory je g 1 1 13

Vztah původních proměnných a kanonických os Kanonické osy nejsou v prostoru původních proměnných ortogonální Kanonické osy použité jako ortogonální mění rotaci skupin objektů v prostoru Normalizace eigenvektorů 1 2 pomocí C = U ( U ' VU ) vede ke sféricitě variability (pouze v případě homogenity rozptylu) Původní proměnné Kanonické osy Skupiny objektů Dle Legendre a Legendre, 1998, Numerical ecology 14

Pojmy a výstupy diskriminační analýzy Popis významu proměnných v modelu Wilks lambda modelu Wilks lambda proměnných Partial lambda Tolerance Kanonická analýza Eigenvektory Eigenvalues Klasifikace neznámých objektů Diskriminační funkce priori probability Posterior probability 15

Wilks lambda Měří odlišnost v pozici centroidů skupin definovaných danými proměnnými Je počítána jako poměr determinantů matice sumy čtverců a vektorového součinu W a T, kde W je složená matice sumy čtverců uvnitř každé analyzované skupiny (analogie k variabilitě uvnitř skupin v NOV) T je matice skalárních produktů centrovaných proměnných pro všechny objekty bez ohledu na to, z jaké skupiny pochází (obdoba celkové variability v NOV) W Λ = T Tento poměr má rozsah od 0 (maximální rozdíl v pozici centroidů skupin) až 1 (žádný rozdíl mezi centroidy skupin) Wilks lambda může být následně převedeno na chi square nebo F statistiku a statisticky testováno 16

Popis modelu 1 2 3 4 5 6 7 1 Celkové Wilks lambda na škále 0 (nejlepší diskriminace) až 1 (žádná diskriminace) popisuje celkovou kvalitu modelu všech proměnných 2 Wilks lambda jednotlivých proměnných jde o wilks lambda celého modelu při vyřazení dané proměnné 3 Partial lambda unikátní příspěvek dané proměnné k diskriminaci 4 F to remove F statistika asociovaná s příslušnou partial lambda 5 P value statistická významnost F to remove a tedy i partial lambda 6 Tolerance unikátní variabilita proměnné nevysvětlená ostatními proměnnými v modelu 7 R 2 variabilita proměnné vysvětlená kombinací ostatních proměnných v modelu 17

Mahalanobisova vzdálenost (Mahalanobis 1936) Jde o obecné měřítko vzdálenosti beroucí vúvahu korelaci mezi parametry a je nezávislá na rozsahu hodnot parametrů. Počítá vzdálenost mezi objekty vsystému souřadnic jehož osy nemusí být na sebe kolmé. Vpraxi se používá pro zjištění vzdálenosti mezi skupinami objektů. Jsou dány dvě skupiny objektů w1 a w2 o n1 a n2 počtu objektů a popsané p parametry: D 2 1 ` 5 ( w1, w2 ) = d12v d12 Kde d 12 je vektor o délce p rozdílů mezi průměry p parametrů vobou skupinách. Vje vážená disperzní matice (matice kovariancí parametrů) uvnitř skupin objektů. 1 V = [( n1 1) S1 + ( n 2) S 2 ] n + n 2 1 2 kde S1 a S2 jsou disperzní matice jednotlivých skupin. Vektor měří rozdíl mezi p rozměrnými průměry skupin a Vvkládá do rovnice kovarianci mezi parametry. d 12

Mahalanobisova vzdálenost v diskriminační analýze Používána pro popis vzájemných vzdáleností centroidů skupin Používána pro popis vzdáleností objektů od centroidů skupin a následně pro výpočet posterior probabilities zařazení objektů do skupin Vzdálenosti centroidů Vzdálenosti objektů od centroidů 19

Dopředná a zpětná eliminace Dopředná a zpětná eliminace proměnných z modelu (forward, backward stepwise) je obecná technika používaná při tvorbě regresních, diskriminačních a jiných modelů Proměnné jsou do modelu postupně přidávány (ubírány) podle jejich významu v modelu Schéma dopředné eliminace proměnných v modelu V případě zpětné eliminace začíná proces od modelu se všemi proměnnými a postupně jsou vyřazovány proměnné s nejmenším příspěvkem k diskriminační síle modelu Proces je třeba expertně kontrolovat, riziková je např. přítomnost redundantních proměnných Každá proměnná je individuálně zhodnocena co do významu pro diskriminaci skupin V 1. kroku je vybrána proměnná s největším individuálním významem pro diskriminaci skupin K vybrané proměnné jsou postupně přidávány další proměnné a je hodnocen význam dvojic proměnných pro diskriminaci skupin V 2. kroku je do modelu přidána ta proměnná, která v kombinaci s již dříve vybranými proměnnými nejvíce přispívá k diskriminaci skupin Postup je opakován až do vyčerpání všech proměnných nebo do situace kdy přidání další proměnné již nevylepšuje diskriminační schopnosti modelu 20

Definice modelu prostřednictvím stepwise analýzy Před zahájením výpočtu je třeba nastavit Toleranci přidání proměnné (=hodnota při které nebude proměnná do modelu zařazena z důvodu redundance), F to enter a F to remove jsou hodnoty F spjaté s danou proměnnou, při které je daná proměnná zařazena/ vyřazena z modelu Forward stepwise ackward stepwise N=150 PETLLEN SEPLWID PETLWID Discriminant Function nalysis Summary (Spreadsheet1) Step 3, N of vars in model: 3; Grouping: IRISTYPE (3 grps) Wilks' Lambda:.02498 approx. F (6,290)=257.50 p<0.0000 Wilks' Partial F-remove p-value Toler. 1-Toler. Lambda Lambda (2,145) (R-Sqr.) 0.038316 0.651835 38.72447 0.000000 0.736416 0.263584 0.043777 0.570520 54.57693 0.000000 0.749212 0.250788 0.036884 0.677135 34.56869 0.000000 0.668905 0.331095 21

Kanonická analýza nalogická k výpočtu analýzy hlavních komponent, liší se významem vytvořených os (kanonických kořenů; eigenvektorů) Na rozdíl od PC, kde význam osy je spjat s vyčerpanou variabilitou dat u diskriminační analýzy je význam os určen následovně: 1. osa největší diskriminace mezi centroidy skupin objektů 2. osa druhá největší diskriminace mezi centroidy skupin objektů td. Počet kanonických kořenů je dán jako počet skupin objektů 1 Na rozdíl od PC nemusí být kanonické kořeny ortogonální 22

Kanonická analýza výsledky Eigenvektory popisují příspěvek jednotlivých proměnných k definici kanonických kořenů Eigenvalues popisují variabilitu spjatou s kanonickými osami (tedy s rozdílem mezi centroidy skupin) 5 4 3 2 Root 1 vs. Root 2 SETOS VERSICOL VIRGINIC Root 2 1 0-1 -2-3 -4-15 -10-5 0 5 10 15 Root 1 23

PC vs. Diskriminační analýza Maximální vyčerpaná variabilita (PC) vs. Maximální diskriminace (D) 3 3 2 2 1 1 Factor2 0 ROOT_2 0-1 -1-2 -2-3 -4-3 -2-1 0 1 2 3 4-3 -10-8 -6-4 -2 0 2 4 6 8 10 12 Factor1 ROOT_1 24

Klasifikace neznámých objektů pomocí diskriminační analýzy Využívá tzv. klasifikační funkci Jde o sadu rovnic (pro každou skupinu jedna rovnice) Objekt je zařazen do skupiny, jejíž klasifikační funkce nabývá nejvyšší hodnoty V kombinaci s apriori a posterior probabilities je určena finální pravděpodobnost zařazení objektu do skupiny SETOS = 23.5* SEPLLEN + 23.6* SEPLWID +... atd. 25

priori a posterior probabilities priori probabilities přirozeně daná pravděpodobnost výskytu skupiny objektů Proporcionální předpokládáme, že struktura souboru odpovídá realitě a tedy i poměr skupin objektů v souboru odpovídá realitě Rovnoměrná každá skupina má pravděpodobnost dánu jako 100 / počet skupin Uživatelské dány expertní znalostí a nastaveny analytikem Posterior probabilities Vznikají jako kombinace apriori pravděpodobností a Mahalanobisových vzdáleností objektu od centroidů skupin 26

Klasifikace objektů dle vzdálenosti 0.1174 14.4403 28.7633 43.0862 57.4092 71.7321 86.0550 100.3780 114.7009 129.0238 143.3468 157.6697 171.9927 186.3156 200.6385 214.9615 229.2844 243.6073 257.9303 272.2532 286.5761 60 50 40 30 20 10 0 Inconclusive area nejednoznačné zařazení, nízké p vzhledem ke všem skupinám 60 60 IRISTYPE: SETOS IRISTYPE: VERSICOL IRISTYPE: VIRGINIC 50 40 50 40 30 30 20 20 10 10 0 0 0.3734 7.6246 14.8758 22.1270 29.3782 36.6294 43.8806 51.1318 58.3830 65.6342 72.8854 80.1366 87.3878 94.6390 101.8902 109.1414 116.3926 123.6438 130.8950 138.1462 145.3975 0.8865 13.3054 25.7243 38.1431 50.5620 62.9809 75.3997 87.8186 100.2375 112.6564 125.0752 137.4941 149.9130 162.3318 174.7507 187.1696 199.5884 212.0073 224.4262 236.8450 249.2639 SETOS VERSICOL VIRGINIC Mahalanobisova vzdálenost od daného centroidu 27

Celkové vyhodnocení výsledků diskriminační analýzy Popis výsledků klasifikace vůči známému zařazení objektů do skupin Pro validní výsledky a hodnocení kvality modelu by mělo být provedeno na souboru, který se nepodílel na definici modelu (viz. crossvalidace apod.) Kromě vlastní klasifikační funkce a Mahalanobisových vzdáleností ovlivňuje zařazení objektů do skupin i apriori pravděpodobnost zařazení Výsledky při různé apriori pravděpodobnosti 28

Diskriminační analýza shrnutí Cílem analýzy je: Identifikace proměnných odlišujících vícerozměrně skupiny objektů Vytvoření modelu pro klasifikaci neznámých objektů Omezení analýzy Vícerozměrné normální rozdělení v každé skupině Pozor na odlehlé hodnoty Pozor na redundantní proměnné Rovnice modelu je v základní verzi lineární a tedy i hodnocený problém musí mít lineární řešení Testování modelu provádět na souboru, který se nepodílel na definici modelu Výstupy Klasifikační funkce pro zařazení objektů do skupin Pravděpodobnost zařazení jednotlivých objektů do skupin > interpretace 29

Ordinační analýzy: shrnutí nalýza hlavních komponent, faktorová analýza, korespondenční analýza, multidimensional scaling i diskriminační analýza se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os Metody se liší v logice tvorby těchto os Maximální variabilita (analýza hlavních komponent, korespondenční analýza) Maximální interpretovatelnost os (faktorová analýza) Převod asociační matice do Euklidovského prostoru (multidimensional scaling) Odlišení existujících skupin (diskriminační analýza) 30

Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOOROVÁ INOVCE STUDI MTEMTICKÉ IOLOGIE 31