Diskriminační analýza DA

Rozměr: px
Začít zobrazení ze stránky:

Download "Diskriminační analýza DA"

Transkript

1 Diskriminační analýza DA Diskriminační analýza patří mezi metody zkoumání závislosti mezi skupinou p nezávisle proměnných, nazvaných diskriminátory, tj. sloupců zdrojové matice na jedné straně a jednou kvalitativní závisle proměnnou na druhé straně. Umožňuje zařazení objektu do jedné z již existujících tříd. Ve vstupních datech jsou svými hodnotami diskriminátorů u všech objektů dány zařazené objekty do primárních tříd. Dále jsou dány nezařazené objekty, pro které budeme hledat zařazení do třídy. Objekt zařadíme do třídy na základě jeho největší míry podobnosti, např. nejmenší Mahalanobisovy vzdálenosti. Diskriminační (zařazovací) pravidla: při diskriminační analýze se snažíme vyčíslit hodnotu diskriminační funkce, která nám usnadní zařazení do primární třídy. akto vyčíslené hodnoty funkce používáme také ke třídění nezařazených objektů do předem známých primárních tříd,a tonazákladě p diskriminátorů x, x,..., x p.každá primární třída je charakterizována svou funkcí hustoty pravděpodobnosti f(x), j kde x =[x, x,..., x p]. Existuje citlivé pravidlo pro zařazení, diskriminaci objektu vektoru x do třídy G j f j (x) max f i (x) i,...,g Uveďme příklady diskriminace:. Existuje jednoduchá binární proměnná x advě třídy G a G. Nejprve předpokládejme, že pravděpodobnost Pr(x =) = Pr(x = ) = / a dále pravděpodobnost Pr(x = ) = /4 a pravděpodobnost Pr(x = ) = 3/4. Pravidlo zařadí objekt x =dog aobjektx =dog.. Předpokládejme spojitou jednoduchou proměnnou x aopět dvě třídy G a G.Vetřídě G má proměnná normální rozdělení se střední hodnotou µ a rozptylem σ,avetřídě G má proměnná rovněž normální rozdělení se střední hodnotou µ a rozptylem σ,při čemž budeme předpokládat µ < µ a σ > σ. Pomocí diskriminačního pravidla f(x) bude objekt o skóre x zařazen do třídy G, když bude platit f(x) > f(x). Nahrazením skutečnou j hustotou pravděpodobnosti normálního rozdělení dostaneme pravidlo k zařazení objektu x do třídy G : σ σ exp (x µ ) σ (x µ ) σ > apozlogaritmování a úpravě bude toto pravidlo ve tvaru x σ σ x µ σ µ σ µ σ (µ µ ) S x µ µ µ σ > <ln σ Dle tohoto pravidla dojde k rozdělení hodnot x do dvou tříd: první třída G bude obsahovat malé hodnoty x a druhá třída G velké hodnoty x. Ve zvláštním případě σ = σ dostaneme pravidlo pro zařazení do třídy G ve znění *x - µ* > *x - µ*. Bude-li navíc µ < µ, objekt se skóre x padne do třídy G, když bude platit, že x <(µ +µ)/. Zobecnění diskriminačního pravidla: G je třída objektů svícerozměrným normálním rozdělením astřední hodnotou µ a G obdobně se střední hodnotou µ. Předpokládejme, že kovarianční matice obou tříd jsoustejné a užijeme proto pro ně společné označení S. Obecné pravidlo zařazení objektu o vektoru x do třídy G bude Když třídy mají známé hustoty pravděpodobnosti rozličných rozdělení π, π,..., π, bude pravidlo o zařazení do třídy p upraveno následovně: jde-li o třídy, bude pravidlo ve tvaru σ (µ µ ) S x µ µ >ln π π

2 / / / / Lineární diskriminační funkce (LDA): z diskriminačních funkcí je neznámější Fisherova lineární diskriminační funkce tvaru z i a i x a i x a i3 x 3... a ip x p, kde p je počet proměnných primárních tříd čili počet diskriminátorů a x, x,..., xpjsou standardizované hodnoty těchto proměnných. Parametry zi nazýváme standardi-zované klasifikační koeficienty Fisherovy diskriminační funkce a =[a, a,..., a p], které byly nalezeny tak, že poměr rozptylu mezi třídami B a rozptylu uvnitř tříd S V = a B a /(a S a) je maximální. ZdeB je kovarianční matice třídních průměrů a S je celková kovarianční matice uvnitř tříd. Vektor a, který maximalizuje poměr V, sevypočte ze vztahu (B λ S) a. Vpřípadě pouze dvou tříd budou klasifikační koeficienty diskriminační funkce a =[a, a,..., a p]vypočteny jednoduchým vztahem a S ( x x ). Vzorováúloha 4.7 Užití lineární diskriminační funkce Předpokládejme, že máme data o třídách objektů ibetských lebek v úloze B4.4 Aglomerativní hierarchické shlukování při analýze lebek ibeťanů: prvních 3 bylo nalezeno v hrobech v Sikkimu a okolí, zatímco druhých 5 lebek na bojištích okolo Lhasy. První třída vede ke středním hodnotám x = [74.8, 39.35, 3., 69.8, 3.35] akovarianční matici S Druhá třída vede ke střednímhodnotám x = [85.73, 38.73, 34.77, 76.47, 37.5] a kovarianční matici S Koeficienty diskriminační funkce jsou vyčísleny vztahem a S ( x x ) = [-.9,.6,., -.8, -.8] avedoukprůměrům u obou tříd: z = -8.7 a z = -3.. Hraniční bod, dle kterého se budou nezařazené objekty třídit do první nebo druhé třídy se vyčíslí jako polosuma obou průměrů ( z + z )/ = ((-8.7) + (-3.))/ = Diskriminace: vezmeme lebku prvního ibetana z dat všech lebek a pokusíme se ji diskriminovat čili zařadit do. nebo. třídy. Vyčísleme pro ní hodnotu lineární diskriminační funkce z = = -9.74, aprotože je menší než hraniční bod -3.46, patří lebka prvního ibeťana do první třídy. Kvadratická diskriminační funkce (QDA): jsou-li střední hodnoty dvou souborů µ a µ shodné, ale soubory se liší vkovariančních maticích S a S, lineární diskriminační funkci nelze použít, což dokumentuje příklad.. Soubor G : µ = [, ], S..

3 4.. Soubor G : µ = [, ], S. 4. Potom se užije kvadratická diskriminační funkce. Objekt o vektoru x bude patřit do třídy G, když bude splněna nerovnost µ (S S )x x (S µ S µ ) (µ S µ µ S µ ) $ ln *S * *S * lnπ π kde S a S jsou kovarianční matice pro. a. třídu, G a G. Diskriminace mezi více než třídami: pro tři třídy budou tři lineární diskrimi-nační funkce nabývat následujících tvarů: h ( x x ) S x x x h 3 ( x x 3 ) S x x x 3 h 3 ( x x 3 ) S x x x 3 kde S je vážená kovarianční matice všech tříd. Klasifikační pravidla zařazení objektu do dotyčné třídy jsou umístění objektu do první třídy G nastane, když h (x) > ah 3(x) >, umístění objektu do druhé třídy G nastane, když h (x) < ah 3(x) >, umístění objektu do třetí třídy G3 nastane, když h 3(x) > ah 3(x) <. Kvalita zařazení objektů do tříd (diskriminace): předpokládejme, že máme data o K třídách s N k, k =,..., K, objektyvkaždé třídě, N představuje celkový počet objektů (např. N = N + N + N 3 = 5). Každý objekt je popsán p diskriminátory. akže každý i-tý objekt je prezentován prvkem x ki. Nechť x představuje vektor průměrů těchto diskriminátorů ve všech třídách a x k pak vektor průměrů objektů v k-té třídě. Definujme sumy čtverců S, S W, SB odchylek od středních hodnot vztahy S j K i k jnk (x ki x)(x ki x) S W j K k jnk i (x ki x k )(x ki x k ) S = S - S B W a definujme stupně volnosti, df a df, vztahy df = K - a df = N - K. Diskriminační funkcí je vážený průměr hodnot nezávisle proměnných. Váhy jsou přitom voleny tak, že výsledný vážený průměr rozděluje objekty do tříd. Vysoké hodnoty průměru pocházejí zjedné třídy, nízké hodnoty průměru pocházejí z jiné třídy. Problémspočívá v nalezení vah tak, aby dobře diskriminovaly objekty do tříd. Řešení spočívá v nalezení vlastních vektorů V matice - SW S B. Kanonické koeficienty jsou totiž prvky těchto vlastních vektorů. Mírou těsnosti proložení je potom Wilkovo kritérium λ, definované vztahem λ *S W * *S * k m kde λ je j-té vlastní číslo, odpovídající vlastnímu vektoru, popsanému výše a m je minimum ze dvou čísel, K- a p. j Kanonická korelace mezi j-tou diskriminační funkcí a nezávisle proměnnými či diskriminátory je vztažena k těmto vlastním číslům následovně j λ j

4 r cj λ j λ j Řada rozličných matic potřebných v diskriminační analýze je definována vztahy: celková kovarianční matice N S, kovarianční matice uvnitř tříd W, N K S W K S B - lineární diskriminační funkce z k = W x k, kovarianční matice mezi třídami B, standardizované kanonické koeficienty, v ij w ij kde vji jsou prvky V a wij prvky matice W. Korelace mezi nezávisle proměnnými a kanonickými proměnnými jsou dány vztahem Corr jk w jj j p v ik w ji i. Logistická diskriminace: Fisherova lineární diskriminace je optimální, když dva soubory mají vícerozměrné normální rozdělení se stejnými kovariančními maticemi. ato diskriminační funkce se jeví také dostatečně robustní na odchylky od normality. Existuje však řada případů silné nenormality, např. přítomnost binárních proměnných. Pak je možné užít logistický model k výpočtu pravděpodobnosti, že objektječlenem dotyčné třídy: Pr(G *x) exp(β β x β x... β p x p ) exp(β β x β x... β p x p ), Pr(G *x) exp(β β x β x... β p x p ) Neznámé parametry β, β, β,..., βpjsou odhadovány na základě maximální věrohodnosti. Důležité je, že odhadje zcela nezávislý na funkci hustoty třídní pravděpodobnosti. Po vyčíslení odhadů b, b, b,..., bp neznámých parametrů β, β, β,..., βp se uplatní klasifikační pravidlo zařazení objektu do třídy G,platí-li b b x b x... b p x p >, což odpovídá pravděpodobnosti Pr(G * x) > Pr(G * x). Vzorováúloha 4.8 Užití logistické diskriminace Logistickou diskriminaci budeme demonstrovat na Úloze B4. Aplikace logistické diskriminační analýzy u rakoviny prostaty. Režim léčení je závislý na rozšíření rakoviny na lymfatické uzliny. Rozhodující metodou vyšetření je laparotomie, vyjádřená proměnnou B4x6:je-livýsledek laparotomického vyšetření, jde o absenci a je-li roven, jde o přítomnost nodálního rozšíření rakoviny. Brownův postup následujícího vyšetření pěti diskriminantů u 53 pacientů by měl do jisté míry nahradit právě toto obtížnější laparotomické vyšetření. Brown ve své studii použil databázi: i je index pacienta, B4x věk pacienta, B4x hladina sérové kyselé fosfatázy v King-Armstrongových jednotkách, B4x3 výsledek roentgenového vyšetření (=, negativní, = pozitivní), B4x4 velikost tumoru rektálním vyšetřením(= malý, = velký), B4x5 závěr pathologického bodování z biopsie (= méně vážný, = velmi vážný). Diskriminace: odhady parametrů (včetně svých směrodatných odchylek v závorce) k vyčíslení logistické diskriminační funkce jsou b.5 (3.56), b. (.6), b.64 (.33), b.68 (.8), b.4 (.83), b.35 (.8)

5 yto odhady vedou k formulaci klasifikačního pravidla, zda má pacient rakovinu lymfatických uzlin či ne. Pacient rakovinu lymfatických uzlin nemá a je diskriminována do. třídy, je-li splněna nerovnost.5 -. x +.64x +.68x 3 +.4x x 5 >. Není-li splěna tato nerovnost, je pacient diskriminován do. třídy s rakovinou lymfatických uzlin. Dosadíme-li do této nerovnosti hodnoty prvního pacienta z databáze, dostaneme = Protože výsledek -3.8 není větší než nula, je pacient diskriminován do. třídy bez rakoviny lymfatických uzlin, což potvrdilo konečně i laparotomické vyšetření. Posouzení správnosti diskriminace: po aplikaci diskriminační funkce k zařazení objektů do tříd je třeba posoudit správnost diskriminace. Aplikaci diskriminace na data objektů vyhodnotíme jejich chybné zařazení do tříd: (a) Křížová tabulka diskriminace: ukážeme křížovou tabulku zařazených objektů na konkrétnímpříkladu např. databáze lebek ibeťanů. Sestavíme křížovou tabulku původního (správného) umístění objektů (lebek) do tříd a nalezeného zařazení do tříd diskriminací. Výsledkem bude tabulka správnosti klasifikace diskriminační analýzou, kde nesprávné zařazení je zvýrazněno tučnýmpísmem: Známo (správné třídy) Nalezeno diskriminací Nesprávného umístění je %. 6/3 = 9%. Výhodou této techniky je právě její jednoduchost, nevýhodou příliš optimistické závěry, ke kterýmvětšinou metoda dospěje. (b) Postupné vypouštění vždy jednoho objektu : spolehlivější výsledky přináší modifikace předešlého způsobu. Vytvoříme primární třídy pro n - objektů a vyšetřujeme zařazení jediného dosud nezařazeného objektu. Postup n krát opakujeme tak, že postupně vyšetřujeme zařazení všech objektů testovaného souboru. Užijeme-li i zde databáze lebek ibeťanů, obdržíme tabulku správnosti klasifikace diskriminační analýzou, kde nesprávné zařazení je zvýrazněno tučným písmem: Známo (správné třídy) Nalezeno diskriminací Nesprávného umístění je %. /3 = 34%, což je téměř dvojnásobek než upředešlé příliš optimistické metody. Volba proměnných: otázkou v diskriminační analýze je, zda volba proměnných je schopna provést zařazení objektů do tříd čili diskriminaci. Byla navržena řada postupů jak provést volbu těch nejúčinnějších proměnných. Principem většiny metod je zajištění dostatečné separability tříd avolbatakových proměnných, které vedou k maximalizaci nějaké míry. Jindy se volí postup, který začne se všemi původními proměnnými a postupně se vypouštějí takové, které vedou k nedostatečné redukci separace. K ilustraci užijeme databáze lebek ibeťanů z úlohy B4.4 Aglomerativní hierarchické shlukování při analýze lebek ibeťanů. Užijeme pouze jednu proměnnou, B44x4 výšku horní části obličeje [mm]. Dostaneme velmi jednoduché klasifikační pravidlo: zařazení lebky do. třídy bude tehdy, když výška horní části obličeje bude menší než 73.4 mm. Optimistický odhad chybné klasifikace je 5%. Krokový postup u logistické diskriminace úlohy B4. Aplikace logistické diskriminační analýzy u rakoviny prostaty vede k volbě tří nejúčinnějších proměnných: B4x hladina sérové kyselé fosfatázy v King- Armstrongových jednotkách, B4x3 výsledek roentgenového vyšetření (=, negativní, = pozitivní), B4x4 velikost tumoru rektálnímvyšetřením(=malý, =velký). Postup klasifikace diskriminační analýzou. Bodové odhady parametrů polohy a rozptýlení všech diskriminátorů: vyčíslí se (a) aritmetické průměry ve třídách, (b) směrodatné odchylky ve třídách, (c) celková korelační a kovarianční matice všech diskriminátorů, (d)

6 mezitřídní korelaceakovariancezapoužití průměrů místo hodnot objektů, (e) vnitrotřídní korelace a kovariance za použití dat, ve kterých byly třídní průměry odečteny a provede se zhodnocení dosažených výsledků.. Vyšetření vlivu jednotlivých diskriminátorů: vliv jednotlivých diskriminátorů na výsledky diskriminační analýzy se sleduje pomocí testačních statistik přiodstranění tohoto diskriminátoru. 3. Odhady neznámých parametrů b, b,..., b lineární diskriminační funkce pro každou třídu: odhady neznámých p parametrů b, b,..., b jsou mezivýpočtem k vyčíslení diskriminačního skóre. p 4. Odhady regresních parametrů b, b,..., b lineárního regresní modelu pro každou třídu: predikované hodnoty p těmito regresními parametry budou ležet mezi nulou a jedničkou. Zařazení se provede na základě třídy s nejvyššímskóre blízkýmjedničce. 5. Klasifikace objektů diskriminační funkcí (diskriminace do tříd): provede se(a)vyčíslení klasifikačních počtů objektů v jednotlivých třídách po diskriminaci do tříd, (b) přehled chybně klasifikovaných objektů tak, že vedle skutečné třídy je predikovaná třída a procento pravděpodobnosti výskytu objektu v predikované třídě, (c)přehled klasifikovaných objektů - skutečná (primární) třída, predikovaná třída všech objektů a procento pravděpodobnosti výskytu objektu v predikované třídě. 6. Kanonická korelační analýza: (a) analýza kanonických proměnných: první soubor obsahuje diskriminátory a druhý soubor třídní proměnné, (b) odhady parametrů u kanonických proměnných, (c) kanonické proměnné u třídních průměrů, (d) standardizované kanonické koeficienty slouží k výpočtu kanonického skóre, což jsou vážené průměry objektů, (e) korelace původních a kanonických proměnných představuje zátěže (korelace) původních proměnných na kanonické proměnné. ímseusnadní vysvětlení dotyčné kanonické proměnné. 7. Lineární diskriminační skóre všech objektů: jsou vyčísleny hodnoty predikovaných skóre lineárních diskriminačních proměnných pro všechny objekty. 8. Regresní skóre všech objektů: hodnoty predikovaných skóre regresních proměnných pro všechny objekty jsou založeny na regresních koeficientech. 9. Kanonické skóre: hodnotypredikovaných skóre kanonických proměnných pro všechny objekty jsou založeny na kanonických koeficientech.. Volba proměnných: z velké palety diskriminátorů se vybírají pouze ty, které jsou dostatečně účinné, maximálně 8 proměnných. Výběr se provádí krokově: k nejlepšímu diskriminátoru se nalezne druhý nejlepší tak, že se prověří zda diskriminace bude tak dokonalá jako když byl jeden diskriminátor odebrán. U nové proměnné se ověřuje, zda její F má hodnotu pravděpodobnosti menší než α =.5.. Výklad grafů: výsledkem diskriminační analýzy je grafické zařazení do tříd. Zobrazení se provede na třech grafech: (a) zobrazení lineárních diskriminačních skóre, (b) zobrazení regresního skóre, a (c) zobrazení kanonického skóre. Vzorováúloha 4.9 Užití postupu diskriminační analýzy V úloze S.8 Fisherova úloha rozměrů okvětních lístků u 5 kosatců analyzujte předložený výběr kosatců, obsahujících čtvero popisných rozměrů okvětních lístků (čili diskriminátorů) u 5 květů kosatců (čili objektů), pocházejících ze tří základních tříd: () setosa, () versicolor, (3) virginica. Z botaniky je známo, že druh versicolor je hybridem zbývajících dvou druhů. setosa je diploidní květ s 38 chromosomy, virginica je tetraploidní a versicolor je hexaploidní s 8 chromosomy. Květy kosatců jsou popsány čtyřmi diskriminátory: délkou kališních lístků v mm anglicky lsepal, šířkou wsepal, dále délkou korunních plátků v mm lpetal a šířkou wpetal. Budeme proto formulovat úlohu: jsou dána data o K třídách, např. K = 3, tři druhy čili třídy kosatců:, a s N, k =,..., K, objekty v každé třídě, např. prosetosu k =N = 5, pro k = k N =5apro k = 3 N 3= 5, N představuje celkový počet objektů,např. N = N + N + N 3= 5. Každý objekt je popsán p diskriminátory, např. p =4,atoSepal Length, Sepal Width, Petal Length, Petal Width. akže každý i-tý objekt je prezentován prvkem x ki. Nechť x představuje vektor průměrů diskriminátorů ve všech třídách dohromady a x k je vektor průměrů objektů v k-té třídě. Cílem diskriminační analýzy je vyšetřit a ověřitbotanické třídění a odpovědět na otázku, zda botanické třídění kosatců do tří tříd je správné. Nelze zařadit 5 kosatců do jiného počtu tříd? Řešení: Výstup z bloku Discriminant Analysis (NCSS) pro Fisherovu úlohu:. Výpočet bodových odhadů parametrů polohy a rozptýlení všech diskriminátorů: (a) Aritmetický průměr [mm] u tříd G (), G (), G () a celkově: 3 G G G 3

7 Proměnná Celkově SepalLength SepalWidth PetalLength PetalWidth Počet abulka obsahuje průměry každého diskriminátoru, a to v každé třídě kosatců. Poslední řádek obsahuje počet objektů ve třídě. Nadpisy sloupců jsou názvy dotyčné třídy kosatců. Celkově značí všechny třídy dohromady. (b) Směrodatné odchylky [mm] u tříd G (), G (), G 3 () a celkově: G G G3 Proměnná Celkově SepalLength SepalWidth PetalLength PetalWidth Počet abulka obsahuje směrodatné odchylky každého diskriminátoru, a to v každé třídě kosatců. Poslední řádek obsahuje počet objektů ve třídě. Nadpisy sloupců jsou názvy dotyčné třídy kosatců. Celkově značí všechny třídy dohromady. Diskriminační analýza je postavena na předpokladu, že kovarianční matice jsou stejné pro každou třídu. ato tabulka umožňuje posoudit tento předpoklad, zda totiž jsou směrodatné odchylky ve třídách zhruba stejné. (c) Celkové korelace/kovariance: Proměnná Proměnná SepalLength SepalWidth PetalLength PetalWidth SepalLength SepalWidth PetalLength PetalWidth abulka obsahuje korelace a kovariance, vytvořené když smíšené proměnné diskriminátorů jsou ignorovány. Korelace jsou v dolní levé části, kovariance jsou v pravé horní části matice. Rozptyly jsou na diagonále matice. (d) Mezitřídní korelace/kovariance: Proměnná Proměnná SepalLength SepalWidth PetalLength PetalWidth SepalLength SepalWidth PetalLength PetalWidth abulka obsahuje korelace a kovariance, vytvořené za použití průměrů místo jednotlivých objektů. Korelace jsou v dolní levé části, mezitřídní kovariance jsou na diagonále matice a v horní pravé části matice. Všimněte si, že když by byly jenom dvě třídy kosatců,všechny korelace by byly rovny jedné,protože byly vytvořeny pouze ze dvou řádků, totiž ze dvou třídních průměrů. (e) Vnitrotřídní korelace/kovariance: Proměnná Proměnná SepalLength SepalWidth PetalLength PetalWidth SepalLength SepalWidth

8 PetalLength PetalWidth abulka obsahuje korelace a kovariance, vytvořené zdat, vekterých byly třídní průměry odečteny. Korelace jsou vdolní levé části, vnitrotřídní kovariance jsou na diagonáleavpravé horní části matice.. Vyšetření vlivu jednotlivých diskriminátorů: Při odstranění této proměnné Protutosamotnouproměnnou R Proměnná Lambda F-test Spočtená α Lambda F-test Spočtená α ostatní X SepalLength SepalWidth PetalLength PetalWidth abulka ukazuje na vliv jednotlivých diskriminátorů proměnných na výsledky diskriminační analýzy. Proměnná: jméno diskriminátoru. Lambda při odstranění této proměnné: hodnota Wilkova lambda, vypočtená ktestování důsledku odstranění této diskriminační proměnné. F-test při odstranění této proměnné: hodnota F-kritéria, vyčísleného k testování statistické významnosti Wilkova lambda. Spočtená hladina významnosti při odstranění této proměnné: vypočtená hladina významnosti výše uvedeného F-testu při odstranění této diskriminační proměnné. est je totiž statisticky významný a diskriminátor je důležitý, je-li tato hodnota menší než uživatelem zadaná hladina významnosti α =.5. Lambda pro tuto samotnou proměnnou: jde o hodnotu Wilkova lambda, kterou dostaneme za použití této jediné nezávisle proměnné. F-test pro tuto samotnou proměnnou: jde o testační kritérium, vyčíslené k testování statistické významnosti Wilkova lambda. Spočtená hladina významnosti pro tuto samotnou proměnnou: výše uvedený F-test je statisticky významný a diskriminátor je důležitý, je-li tato hodnota menší než uživatelem zadaná hladina významnosti α = Odhady neznámých parametrů b, b,..., b lineární diskriminační funkce pro každou třídu G (), p G (), G (): 3 G G G3 Proměnná Absolutní člen SepalLength SepalWidth PetalLength PetalWidth abulka obsahuje odhady neznámých parametrů b, b,..., b lineární diskriminační funkce. yto parametry jsou také p nazývány diskriminačními koeficienty. echnika předpokládá, že diskriminátory v každé třídě kosatců vykazují vícerozměrné normální rozdělení se shodnými variančně-kovariančními maticemi ve třídách. echnika je dostatečně robustní ipřinesplnění těchto předpokladů. abulka obsahuje celkem tři klasifikační funkce, jednu pro každou třídu. Každá funkce je prézentována vertikálně hodnotami ve sloupci. Když vytvoříme vážený průměr diskriminátorů užitím těchto koeficientů jako vah (a přidáním konstanty jako absolutního členu), dostaneme diskriminační skóre. 4. Odhady regresních parametrů b, b,..., b lineárního regresní modelu pro každou třídu G (), G p (), G (): 3 G G G3 Proměnná Absolutní člen SepalLength E E E-3 SepalWidth.48479E E-.7684E- PetalLength E-.669E E-4 PetalWidth E E E- abulka obsahuje regresní parametry b, b,..., bp lineárního regresní modelu pro každou třídu G (), G (), G 3 (), které byly vyčísleny následujícím postupem: () Vytvoříme tři indikátorové proměnné, jedna jeprokaždou ze tří druhů kosatců (, a Virdinica). Každá indikátorová proměnná je položena rovna jedné. () Proložíme vícenásobnou regresí nezávisle proměnných každý ze tří kosatců. (3) Obdržíme odhady regresních parametrů, uvedené výše v tabulce. Predikované hodnoty těmito regresními parametry budou pak ležet mezi nulou a jedničkou. Určit, ke které třídě jedinec patří se provede tak, že sevyberetřída s nejvyššímskóre.

9 5. Klasifikace objektů diskriminační funkcí (diskriminace objektů do tříd): (a) abulka klasifikačních počtů pro kosatce u diskriminace do tříd G (), G (), G3 () a celkově: Predikovaná G G G3 Známá otal Celkově Redukce v klasifikační správnosti v důsledku proměnných X = 77.%. abulka ukazuje, jak navržené diskriminační funkce klasifikují objekty v datech. Bylo-li dosaženo perfektní klasifikace, obdržíme v matici mimo diagonálu nuly. Řádky tabulky představují aktuální třídy kosatců, zatímco sloupce představují predikované třídy kosatců. Redukce v klasifikační správnosti: obsahuje procento redukce v klasifikační správnosti, dosažené diskriminačními funkcemi vůči očekávané hodnotě, když objektybylynáhodně klasifikovány. (b) Přehled chybně klasifikovaných objektů v řádcích u diskriminace do tříd G (), G (), G 3 (): Procento zařazení do jednotlivé třídy Řádek Známá Predikovaná řída řída řída 3 5 Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo V řádku se u každého chybně klasifikovaného objektu nachází vždy název známé třídy kosatců a predikované třídy kosatců. Následuje zvětšená hodnota pravděpodobnosti (v procentech), že objekt se nachází vdané třídě kosatců. Procento pravděpodobnosti se jeví totiž názornější než normovaný odhad v rozmězí a. Hodnota blízko % ukazuje, že objekt patří do dotyčné třídy. P(i): při užití lineární diskriminační techniky se vyčíslí pravděpodobnosti, že tento řádek patří do i-té třídy: nechť f, i =,..., K, je hodnota lineární diskriminační funkce i amax(f) k je maximální skóre ze všech tříd. Označme P(G i) celkovou pravděpodobnost, klasifikující jednotlivce do třídy i. Hodnota P(i) se vypočte dle vztahu P( i) j K j exp[f i max(f k )] P( G i ) exp[f i max(f k )] P(G i ) Když užijeme regresní klasifikační techniku, bude toto představovat predikovanou hodnotu regresní rovnice. Implicitně je Y v regresní rovnici rovno nebo v závislosti, zda objekt patří do i-té třídy kosatců či ne. Proto

10 predikovaná hodnota blízko nuly ukazuje, že objekt nepatří do i-té třídy zatímco blízko ukazuje na silný důkaz, že objekt patří do i-té třídy. V žádnémpřípadě nemůže být vyčíslena hodnota větší než amenší než. (c) Zařazení objektů predikovanou klasifikací pomocí diskriminační funkce do tříd G (), G (), G 3 (): Procento zařazení do jednotlivé třídy Řádek Známá Predikovaná řída řída řída Versicolo Versicolo abulka obsahuje pro každý objekt kosatců vždy skutečnou čili známou třídu kosatců, predikovanou třídu kosatců a procento pravděpodobnosti zařazení do dotyčné třídy kosatců. 6. Kanonická korelační analýza: (a) Analýza kanonických proměnných: Inv(W)B Ind. otal Kanon. Kanon. Čitatel Jmenov. Spočten Wilkovo Fn vlast.číslo Pcnt Pcnt korel. korel F-test SV SV α Lambda F-test testuje zda tato funkce a další níže jsou statisticky významné. abulka obsahuje výsledky kanonické korelační analýzy diskriminačního problému. U kanonické korelační analýzy jsou dva soubory proměnných, které jsou zde definovány následovně: první soubor obsahuje diskriminátory. řídní proměnná definuje druhý jiný soubor, který je generovánvytvořenímindikátorové proměnné pro každou třídu kromě - poslední. Inv(W)B vlastn. číslo: vlastní čísla matice WBukazují, jak mnoho je celková proměnlivost vysvětlena různými diskriminačními funkcemi. První diskriminační funkce totiž odpovídá prvnímu vlastnímu číslu, atd. Počet vlastních čísel je roven minimu počtu diskriminátorů ak-, kdekjepočet tříd kosatců. Ind. Pcnt: procento, jež toto vlastní číslo představuje z celku vlastních čísel. otal Pcnt: kumulativní procento tohoto a všech předešlých vlastních čísel. Kanon korel.: kanonický korelační koeficient. Kanon korel: čtverec kanonického korelačního koeficientu je podobný R ve vícenásobně regresi. F-test: hodnota F-kritéria, testujícího Wilkovo lambda, které odpovídá tomuto řádku a řádkům níže. V tomto případě testuje F-kritérium statistickou významnost obou, první adruhé, kanonické korelace, zatímco druhá F-hodnotatestujevýznamnost pouze druhé korelace. Čitatel SV: počet stupňů volnostipro čitatele v tomto F-testu. Jmenov. SV: počet stupňů volnosti pro jmenovatele v tomto F-testu. Spočtená α: spočtená hladina významnosti pro F-test. Je-li tato hodnota α menší než uživatelem zadané.5, je test statisticky významný. Wilkovo lambda: hodnotawilkovalambdaprotentořádek se užívá ktestování statistické významnosti diskriminační funkce, odpovídající tomuto řádku a řádkům níže. Wilkovo lambda je vícerozměrným zobecněním R.Výše uvedený F-test je aproximativním testem Wilkova lambda. (b) Odhady parametrů u kanonických proměnných: Kanonická proměnná Proměnná Proměnná Proměnná Absolutní člen SepalLength SepalWidth PetalLength..939 PetalWidth Obsahuje koeficienty k výpočtu kanonického skóre. Kanonická skóre jsou vážené průměry objektů, a tyto koefienty jsou pak váhy s přidaným absolutním členem. (c) Kanonické proměnné utřídních průměrů: Kanonická funkce Funkce Funkce

11 abulka obsahuje výsledky kanonických koeficientů pro průměry u každé třídy. (d) Standardizované kanonické koeficienty: Kanonická proměnná Proměnná Proměnná Proměnná SepalLength SepalWidth PetalLength PetalWidth abulka obsahuje standardizované kanonické koeficienty. (e) Korelace původních a kanonických proměnných: Kanonická proměnná Proměnná Proměnná Proměnná SepalLength SepalWidth PetalLength PetalWidth abulka obsahuje zátěže (korelace) původních proměnných na kanonické proměnné. Každý výstup je korelací mezi kanonickou proměnnou a diskriminátorem. ato tabulka usnadní interpretovat dotyčné kanonické proměnné. 7. Lineární diskriminační skóre všech objektů : Řádek Skóre Skóre Skóre abulka obsahuje jednotlivé hodnoty lineárních diskriminačních skóre pro všechny objekty, tj. pro všech 5 kosatců. 8. Regresní skóre všech objektů: Řádek Skóre Skóre Skóre Versicolo abulka obsahuje jednotlivé hodnoty predikovaných skóre, založené na regresních koeficientech. I když tyto hodnoty jsou predikované indikátorové proměnné, může nastatpřípad, že hodnota bude menší než nulaavětší než. 9. Kanonická skóre všech objektů: Řádek Skóre Skóre Versicolo

12 abulka obsahuje skóre kanonických proměnných pro každý řádekuvšech objektů, tj. 5 kosatců.. Automatická volba účinných diskriminátorů: Dosavadní tabulky jsou postaveny na čtyřech diskriminátorech: Petal Length, Petal Width, Sepal Length a Sepal Width. Stěžejním úkolem v diskriminační analýze je však výběr diskriminátorů. Často máme velikou paletu možných diskriminátorů, ze kterých potřebujeme vybrat menší výběr, asi tak maximálně 8 účinných proměnných, který se bude chovat jako původní velký soubor. Činnost Nezávisle % změny v Spočtená Wilkovo Iterace v kroku proměnná lambda F-test hladina α lambda None. Entered PetalLength Entered SepalWidth Entered PetalWidth Entered SepalLength Detail ve 4. kroku automatického výběru proměnné: Nezávisle % změny v Spočtená R Status proměnná lambda F-test hladina α ostatních X In SepalLength In SepalWidth In PetalLength In PetalWidth Celkové Wilkovo lambda =.3439 abulka Automatický výběr diskriminátorů se provádí krokově: nejprve se nalezne nejlepší diskriminátor a potom druhý nejlepší. Když byly nalezeny první dva, prověří se, zda diskriminace bude tak dokonalá, jako když byl jeden diskriminátor odebrán. Postupný (či krokový) proces přidávání nejlepšího zbývajícího diskriminátoru a následným ověřením, zda by jeden aktivní diskriminátor mohl být odebrán a pokračuje dokud není žádný nový diskriminátor k dispozici. U tohoto nového diskriminátoru se ověřuje, zda jeho F-hodnota má pravděpodobnost menší než uživatelem zadaná vstupní hodnota hladiny významnosti α =.5. Přehled výběru proměnných: obsahuje protokol o činnosti v každém kroku. Iterace: uvádí pořadové číslo (index) kroku. Činnost v tomto kroku: uvádí zda diskriminátor byl zaveden do souboru aktivních diskriminátorů nebo odstraněn z tohoto souboru. %změny v lambda: procento snížení vhodnotě lambda, jež je výsledkem tohoto kroku. Všimněte si, že Wilkovo lambdaje analogické (-R ) ve vícenásobné regresi. Abychom zlepšili model, budeme žádat snížit Wilkovo lambda. Např. od iteraci k iteraci 3 se lambda sníží z hodnoty na o je 3.9% snížení hodnoty lambda. F-test: jde o F-kritérium k testování statistické významnosti tohoto diskriminátoru. Je-li diskriminátor zaveden, testuje se hypotéza, že diskriminátor je třeba přidat. Je-li diskriminátor odstraněn, testujesehypotéza, že diskriminátor je třeba odstranit. Spočtená hladina významnosti α: od výše uvedeného F-testu. Wilkovo lambda: víceparametrické rozšíření R redukuje (-R ) ve dvojtřídě. Může být vysvětleno právě opačně než R.Mění se v intervalu od do. Hodnoty blízkovedouknízké prediktibilitě, zatímco hodnoty blízko kvysoké. Wilkovo lambda odpovídá právě aktivním diskriminátorům.. Výklad grafů diskriminace všech objektů do tříd: Nabízí se několik zobrazení (a) lineárních diskriminačních skóre, (b) regresních skóre nebo (c) kanonických skóre: Na základě diagramů těchto tří druhů skóre pak snáze vytvoří svou interpretaci. Diagramy totiž poskytnou vizuální vysvětlení jak diskriminační funkce klasifikují objekty v datech. Níže předložený diagram ukazuje hodnoty prvního a druhého kanonického skóre. Z grafu je patrné klasifikační pravidlo: postačuje první kanonická funkce k diskriminování mezi kosatci, protože třídy kosatců mohou být snadno odděleny vertikální osou. Existuje software (S-Plus), které umožňuje 3D-obrázek, ve kterém by se obrazec otáčel podél os v prostoru. Potom by bylo vytvoření arozlišení tříd kosatců ještě názornější.

13 Linear-Discriminant Scores Linear-Discriminant Scores 4,, 4,, 6, 6,,, -,, 5, 8,, 4, Score -, -5,, 5,, 5, Score3 Linear-Discriminant Scores Regression Scores 4,,,5, 8,,5 5,,, -5,, 5,, 5, Score3 -,5 -,4 -,5,3,65, Score Regression Scores Regression Scores,5,,,65,5,3, -,5 -,5 -,4,,4,8, Score3 -,4 -,4,,4,8, Score3 Canonical-Variates Scores, 5, Obr. 4.5a, b Graflineárního diskriminačního skóre (. a 3. skóre), -5, Obr. 4.6a, b, cgrafregresního skóre (. a. skóre,. a 3. skóre,. a 3. skóre) -, -3, -,5,,5 3, Score Obr. 4.7 Grafkanonických proměnných (. a. skóre)

x T 1 matici 45.53 25.22 57.81 12.39 11.88 36.09 22.15 7.52 &0.31 20.94 27.97 48.06 1.41 16.77 66.21 S 1 kovarianční matici 74.42 &9.52 37.

x T 1 matici 45.53 25.22 57.81 12.39 11.88 36.09 22.15 7.52 &0.31 20.94 27.97 48.06 1.41 16.77 66.21 S 1 kovarianční matici 74.42 &9.52 37. Vzorová úloha 4.7 Užití lineární diskriminační funkce Předpokládejme, že máme data o 2 třídách objektů tibetských lebek v úloze B4.14 Aglomerativní hierarchické shlukování při analýze lebek Tibeťanů: prvních

Více

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována

Více

Kanonická korelační analýza

Kanonická korelační analýza Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

Faktorová analýza (FACT)

Faktorová analýza (FACT) Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Klasifikace podzemních vod diskriminační analýzou

Klasifikace podzemních vod diskriminační analýzou Klasifikace podzemních vod diskriminační analýzou Prof. RNDr. Milan Meloun, DrSc., Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.meloun@upce.cz, a Jindřich Freisleben Český hydrometeorologický

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Klasifikace analýzou vícerozměrných dat Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce je písemným vypracováním zkouškových otázek z okruhu Klasifikace analýzou vícerozměrných dat.

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Tabulka 1. Výběr z datové tabulky

Tabulka 1. Výběr z datové tabulky 1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat

Více

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2 Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik

Více

Jana Vránová, 3. lékařská fakulta, UK Praha

Jana Vránová, 3. lékařská fakulta, UK Praha Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně

Více

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz IV. LINEÁRNÍ KLASIFIKACE PRINCIPY KLASIFIKACE pomocí diskriminačních funkcí funkcí,

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu. Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program: Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných

Více

Náhodný vektor a jeho charakteristiky

Náhodný vektor a jeho charakteristiky Náhodný vektor a jeho číselné charakteristiky 1 Náhodný vektor a jeho charakteristiky V následující kapitole budeme věnovat pozornost pouze dvourozměřnému náhodnému vektoru, i když uvedené pojmy a jejich

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Plánování experimentu

Plánování experimentu Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Semestrální práce. 2. semestr

Semestrální práce. 2. semestr Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná Cíl analýz Odhadnout hodnot

Více

Téma 22. Ondřej Nývlt

Téma 22. Ondřej Nývlt Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené

Více

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y) 5. NÁHODNÝ VEKTOR 5.1. Rozdělení náhodného vektoru Náhodný vektor X = (X 1, X 2,..., X n ) T n-rozměrný vektor, složky X i, i = 1,..., n náhodné veličiny. Vícerozměrná (n-rozměrná) náhodná veličina n =

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Inovace bakalářského studijního oboru Aplikovaná chemie

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

AVDAT Náhodný vektor, mnohorozměrné rozdělení

AVDAT Náhodný vektor, mnohorozměrné rozdělení AVDAT Náhodný vektor, mnohorozměrné rozdělení Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování, náhodná veličina, rozdělení Náhodná veličina zobrazuje elementární

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Normální rozložení a odvozená rozložení

Normální rozložení a odvozená rozložení I Normální rozložení a odvozená rozložení I.I Normální rozložení Data, se kterými pracujeme, pocházejí z různých rozložení. Mohou být vychýlena (doleva popř. doprava, nebo v nich není na první pohled vidět

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

8 Coxův model proporcionálních rizik I

8 Coxův model proporcionálních rizik I 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

Tvorba nelineárních regresních

Tvorba nelineárních regresních Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Tvorba nelineárních regresních modelů v analýze dat Zdravotní ústav

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro

Více

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Příklad Tahová síla papíru používaného pro výrobu potravinových sáčků je důležitá charakteristika kvality. Je známo, že síla

Více

odpovídá jedna a jen jedna hodnota jiných

odpovídá jedna a jen jedna hodnota jiných 8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Bodové a intervalové odhady parametrů v regresním modelu

Bodové a intervalové odhady parametrů v regresním modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie KALIBRACE A LIMITY JEJÍ PŘESNOSTI Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2016

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

Charakterizace rozdělení

Charakterizace rozdělení Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

11 Analýza hlavních komponet

11 Analýza hlavních komponet 11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu

Více

Průzkumová analýza dat

Průzkumová analýza dat Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se

Více

Téma 9: Vícenásobná regrese

Téma 9: Vícenásobná regrese Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

http: //meloun.upce.cz,

http: //meloun.upce.cz, Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,

Více

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.

Více

Vícerozměrná rozdělení

Vícerozměrná rozdělení Vícerozměrná rozdělení 7. září 0 Učivo: Práce s vícerozměrnými rozděleními. Sdružené, marginální, podmíněné rozdělení pravděpodobnosti. Vektorová střední hodnota. Kovariance, korelace, kovarianční matice.

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Úloha 1: Lineární kalibrace

Úloha 1: Lineární kalibrace Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé

Více