Vícerozměrné statistické metody

Podobné dokumenty
Vícerozměrné statistické metody

Vícerozměrné statistické metody

Úvodem Dříve les než stromy 3 Operace s maticemi

Normální rozložení a odvozená rozložení

Jednofaktorová analýza rozptylu

PRAVDĚPODOBNOST A STATISTIKA

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

AVDAT Mnohorozměrné metody, metody klasifikace

Cvičná bakalářská zkouška, 1. varianta

Pravděpodobnost a aplikovaná statistika

Vícerozměrné statistické metody

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Vícerozměrné regulační diagramy. Josef Křepela, Jiří Michálek OSSM

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Úlohy nejmenších čtverců

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

4EK211 Základy ekonometrie

7. Analýza rozptylu.

Vícerozměrné statistické metody

STATISTICKÉ CHARAKTERISTIKY

Charakteristika datového souboru

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Statistická analýza jednorozměrných dat

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

1. Přednáška. Ing. Miroslav Šulai, MBA

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

4. Aplikace matematiky v ekonomii

KGG/STG Statistika pro geografy

Analýza dat na PC I.

VĚTY Z LINEÁRNÍ ALGEBRY

Zápočtová práce STATISTIKA I

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Náhodná veličina a rozdělení pravděpodobnosti

Přednáška IX. Analýza rozptylu (ANOVA)

15. T e s t o v á n í h y p o t é z

Algoritmy pro shlukování prostorových dat

1. Statistická analýza dat Jak vznikají informace Rozložení dat

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

LINEÁRNÍ MODELY. Zdeňka Veselá

AVDAT Geometrie metody nejmenších čtverců

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Testování hypotéz o parametrech regresního modelu

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Testování hypotéz o parametrech regresního modelu

Numerická stabilita algoritmů

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

MATEMATICKÁ STATISTIKA - XP01MST

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Tomáš Karel LS 2012/2013

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Přednáška X. Testování hypotéz o kvantitativních proměnných

SVD rozklad a pseudoinverse

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

ANALÝZA A KLASIFIKACE DAT

Praktická statistika. Petr Ponížil Eva Kutálková

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

ANALÝZA A KLASIFIKACE DAT

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvod do lineární algebry

Náhodný vektor a jeho charakteristiky

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Základy počtu pravděpodobnosti a metod matematické statistiky

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Matematika pro geometrickou morfometrii

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

15. T e s t o v á n í h y p o t é z

Jednofaktorová analýza rozptylu

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Normální (Gaussovo) rozdělení

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Univerzita Pardubice 8. licenční studium chemometrie

Matematika PRŮŘEZOVÁ TÉMATA

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Vytyčení polohy bodu polární metodou

Náhodné vektory a matice

Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.

Transkript:

Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová

FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení a testy

Význam rozdělení ve vícerozměrném prostoru Použitelnost mnohých klasických statistických metod a postupů vyžaduje předpoklad o normálním rozdělení sledovaných proměnných. Podmínka normality vyplývá ztoho, že metody založené na tomto předpokladu mohou využít kompletní matematický aparát schovaný za danou statistickou metodou. Tyto metody jsou také relativně snadno pochopitelné a se získanými řešeními se dobře pracuje. Ovšem v reálném světě bývá obtížné předpoklad o normálním rozložení dodržet, vmnohých oblastech přírodních a mnohdy i technických oborů není tento předpoklad samozřejmostí. Předpokládejme však normalitu a předpoklad o jedné normálně rozložené náhodné proměnné můžeme rozšířit na předpoklad simultánního normálního rozložení dvou a více náhodných proměnných. Některé vícerozměrné postupy a metody vycházejí zpředpokladu vícerozměrného normálního rozdělení. Vícerozměrné normální rozdělení může být také velmi užitečnou aproximací různých jiných simultánních rozdělení. 3

Rozdělení dat ve vícerozměrném prostoru Klasická jednorozměrná rozdělení a testy mají svůj protějšek ve vícerozměrném prostoru; analogii lze nalézt v podstatě ke každému z nich Obrázky zobrazují 1D, 2D a 3D normální rozdělení Při popisu vícerozměrných dat se uplatňují stejné charakteristiky jako při popisu dat jednorozměrných, nicméně nyní již ne jako jedno číslo, ale jako vektor 400 350 300 250 200 150 100 50 0 5 6 7 8 9 10 11 12 13 14 15 4

Pojmy popisu vícerozměrných rozdělení Centroid průměr nebo medián nebo jiná charakteristika středu spočtená pro všechny dimenze Je popsán vektorem charakteristik středu Používán jako popisná statistika nebo i jako součást výpočtu shlukovacích metod virtuální střed vícerozměrného shluku Medoid Medoid je reprezentativní objekt datového souboru nebo shluku vdatech, jehož průměr podobnosti od všech ostatních objektů vdatech nebo ve shluku je minimální. Medoid má podobný význam jako průměr nebo centroid, jen je vždy reprezentován reálným objektem zdatového souboru. Medoid bývá nejčastěji používán tam, kde není definován průměr nebo centroid (např. tří a vícerozměrný prostor). Tento termín se používá při shlukové analýze. 5

Vícerozměrné charakteristiky rozdělení Základní charakteristikou vícerozměrného rozdělení je vektor středních hodnot (vektor průměrů) a kovariačnímatice kde je kovariance dvou náhodných veličin, tj. 6 ( ) = ) E(X ) E(X ) E(X E p 2 1 M X = = = 2 2 1 2 2 2 1 2 1 2 1 2 1 ) cov( ) var( p p p p p L M O M M L L X X Σ ij ( ) ( ) ( ) ( ) ( ) j j i i j i ij X E X X E X E X, X cov = =

R knihovna MSBVAR Příklady vícerozměrného rozdělení 7

Příklad vícerozměrného rozdělení I vmat1=matrix(c(1,0,0, 0,1,0, 0,0,1),3,3) x1< rmultnorm(1000,c(10,10, 10), vmat1, tol = 1e 10) write.table(x1,"x1.txt") 8

Příklad vícerozměrného rozdělení II vmat2=matrix(c(1,0.5,0.5, 0.5,1,0.5, 0.5,0.5,1),3,3) x2< rmultnorm(1000,c(10,10, 10), vmat2, tol = 1e 10) write.table(x2,"x2.txt") 9

Příklad vícerozměrného rozdělení III vmat4=matrix(c(1,0.7,0.7, 0.7,1,0.7, 0.7,0.1,1),3,3) x4< rmultnorm(1000,c(10,10, 10), vmat4, tol = 1e 10) write.table(x4,"x4.txt") 10

Příklad vícerozměrného rozdělení IV vmat3=matrix(c(1,1,1, 1,1,1, 1,1,1),3,3) x3< rmultnorm(1000,c(10,10, 10), vmat3, tol = 1e 10) write.table(x3,"x3.txt") 11

Wishartovo rozdělení Wishartovo rozdělení je vícerozměrným zobecněním chi square rozdělení Přiodvozeníněkterých důležitých algoritmů ve vícerozměrné statistické analýze se uplatňuje dále uvedená vlastnost Wishartova rozdělení. Součet nezávislých náhodných matic s Wishartovým rozdělením se shodnou střední hodnotou je rovněžwishartovorozdělení se stejnou střední hodnotou, přičemžstupně volnosti se sčítají. A h = A + A A 1 2 ~ W p ( ν, Σ) h +... + A H A,h = 1,2,...,H h ~ Wp H h= 1 ν h, Σ 12

Hotellingovo rozdělení Jedná se o zobecnění t rozdělení pro p rozměrný prostor Uvažujme regulární čtvercovou matici A p tého řádu a rozdělením W p ( ν, Σ) a na A nezávislý p položkový vektor a srozdělením N ( Σ ) Potom kvadratická forma má op, p Q a T A 1 a Hotellingovo rozdělení T 2 c 1 = cν (p, ν p+1). V jednorozměrném normálním rozdělení se při testování hypotéz o střední hodnotě používá statistika (jednovýběrový t test) 2 x μ X ~ N( μ, ) ~ t( n -1) 2 s ( x) 2 2 1 Druhou mocninu této statistiky můžeme upravit a zapsat ve tvaru t = n x μ s x x μ Tento výraz odpovídá p rozměrné statistice, vhodné k úsudku o μ, která má Hotellingovo rozdělení T 2 sp a n p stupni volnosti, jedná se tedy o zobecnění t rozdělení pro p rozměrný prostor. Můžeme tedy psát T 1 2 x ~ N ( μ,σ) n( x μ) S ~ T ( p,n p) p n ( )[ ( )] ( ) 13

Normalita ve vícerozměrném prostoru Normalita ve vícerozměrném prostoru 14

Nenormální rozložení ve vícerozměrném prostoru 450 500 400 350 300 250 200 150 100 50 + 450 400 350 300 250 200 150 100 50 0 0 10 20 30 40 50 60 70 80 90 100 110 0 0 10 20 30 40 50 60 70 80 90 15

450 400 350 300 250 200 150 100 50 0 Nenormální rozložení ve vícerozměrném prostoru 0 10 20 30 40 50 60 70 80 90 100 110 16

Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 400 350 300 400 350 300 250 200 150 100 50 + 250 200 150 100 50 0 5 6 7 8 9 10 11 12 13 14 15 0 6 7 8 9 10 11 12 13 14 17

200 180 160 140 120 100 80 60 40 20 0 Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 + 200 180 160 140 120 100 80 60 40 20 0 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 18

200 180 160 140 120 100 80 60 40 20 0 Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 + 200 180 160 140 120 100 80 60 40 20 0 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 14 13 12 11 10 9 8 7 6 6 7 8 9 10 11 12 13 14 19

Vícerozměrný outlier 400 350 300 250 200 150 100 50 + 400 350 300 250 200 150 100 50 0 5 6 7 8 9 10 11 12 13 14 15 0 6 7 8 9 10 11 12 13 14 20

Srovnání průměrů ve vícerozměrném prostoru Pro zobecnění t testu pro p rozměrů se využívá Hottelingovo rozdělení n1n = n T 1 ( x x δ) S ( x x δ) 2 2 T 1 2 1 2 kde δ = μ 1 μ 2 (nejčastěji δ = 0), má opět Hotellingovo rozdělení s parametry p, n p 1 21

FSTA: Pokročilé statistické metody Operace s vektory a maticemi

Pojmy vícerozměrných analýz Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. 23

Vstupní matice vícerozměrných analýz NxP MATICE ASOCIAČNÍ MATICE Výpočet metriky podobností/ vzdáleností Hodnoty parametrů pro jednotlivé objekty Korelace, kovariance, vzdálenost, podobnost 24

Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE 25