Statistická analýza jednorozměrných dat

Podobné dokumenty
6. Lineární regresní modely

Regresní a korelační analýza

Korelační a regresní analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Úvodem Dříve les než stromy 3 Operace s maticemi

Inovace bakalářského studijního oboru Aplikovaná chemie

Regresní analýza 1. Regresní analýza

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Tomáš Karel LS 2012/2013

LINEÁRNÍ REGRESE. Lineární regresní model

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Kontingenční tabulky, korelační koeficienty

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Statistická analýza jednorozměrných dat

odpovídá jedna a jen jedna hodnota jiných

Tomáš Karel LS 2012/2013

Statistická analýza jednorozměrných dat

Testování hypotéz o parametrech regresního modelu

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Kontingenční tabulky, korelační koeficienty

INDUKTIVNÍ STATISTIKA

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

KGG/STG Statistika pro geografy

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Testování hypotéz o parametrech regresního modelu

Měření závislosti statistických dat

Charakterizace rozdělení

KORELACE. Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Porovnání dvou výběrů

6. Lineární regresní modely

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

4ST201 STATISTIKA CVIČENÍ Č. 10

PRAVDĚPODOBNOST A STATISTIKA

Cvičení ze statistiky - 3. Filip Děchtěrenko

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Regresní a korelační analýza

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pearsonův korelační koeficient

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Regresní a korelační analýza

Regresní a korelační analýza

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

You created this PDF from an application that is not licensed to print to novapdf printer (

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Testování statistických hypotéz

AVDAT Geometrie metody nejmenších čtverců

Náhodné vektory a matice

Korelace. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Pravděpodobnost a aplikovaná statistika

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

KGG/STG Statistika pro geografy

Kalibrace a limity její přesnosti

PRAVDĚPODOBNOST A STATISTIKA

Normální rozložení a odvozená rozložení

Testování hypotéz a měření asociace mezi proměnnými

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

6. Lineární regresní modely

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Jana Vránová, 3. lékařská fakulta UK

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

4EK211 Základy ekonometrie

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Téma 22. Ondřej Nývlt

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

6. Lineární regresní modely

Vícerozměrná rozdělení

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Statistika (KMI/PSTAT)

Normální (Gaussovo) rozdělení

Neparametrické metody

Semestrální práce. 2. semestr

Mnohorozměrná statistická data

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Aplikovaná statistika v R - cvičení 2

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Transkript:

Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky. 1

Kapitola 7.1 STATISTICKÁ ZÁVISLOST 2

Statistická závislost Korelace popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a platí pro kvantitativní (měřené) znaky; Kontingence popisuje závislost kvalitativních (slovních, popisných) znaků, které mají více než dvě alternativy, tzv. množných znaků (např. druh dřeviny, národnost, apod.); Asociace popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze dvě alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, ). 3

Korelace - typy podle počtu korelovaných znaků Jednoduchá popisuje vztah dvou znaků, Mnohonásobná popisuje vztahy více než dvou znaků, Parciální popisuje závislost dvou znaků ve vícerozměrném statistickém souboru při vyloučení vlivu ostatních znaků na tuto závislost 4

Korelace - typy podle smyslu změny hodnot Kladná značí, že se zvyšováním hodnot jednoho znaku se zvyšují i hodnoty druhého znaku, Záporná značí, že se zvyšováním hodnot jednoho znaku se zmenšují hodnoty druhého znaku, 5

Korelace - typy podle tvaru závislostí Přímková (lineární) značí, že grafickým obrazem závislosti je přímka (lineární trend), Křivková (nelineární) značí, že grafickým obrazem závislosti je křivka (nelineární trend). 6

Korelační počet Korelační analýza zjišťuje existenci závislosti a její druhy, měří těsnost závislosti, ověřuje hypotézy o statistické významnosti závislosti; Regresní analýza zabývá se vytvořením vhodného matematického modelu závislosti, stanoví parametry tohoto modelu, ověřuje hypotézy o vhodnosti a důležitých vlastnostech modelu. 7

Míra korelační závislosti x 2 CELKOVÁ VARIABILITA Y (odchylka měřené hodnoty od průměru) REZIDUÁLNÍ VARIABILITA (odchylka měřených a modelových - vypočítaných hodnot) x 2 VARIABILITA VYSVĚTLENÁ MODELEM (odchylka modelových hodnot od průměru) x 1 8

Koeficient determinace vyjadřuje, jakou část celkové variability závisle proměnné (vysvětlované proměnné) objasňuje regresní model. r 2 = 0.9 r 2 = 0.05 r 2 = 1 9

Korelační koeficient Pro jednoduchou korelaci: Párový představuje zvláštní případ vícenásobného korelačního koeficientu, kdy vyjadřuje míru lineární stochastické závislosti mezi náhodnými veličinami x i a x j, Pearsonův Spearmanův (korelace pořadí) 10

Korelační koeficient Pro vícenásobnou korelaci: Vícenásobný definuje míru lineární stochastické závislosti mezi náhodnou veličinou x 1 a nejlepší lineární kombinací složek x 2, x 3,, x m náhodného vektoru x Parciální definuje míru lineární stochastické závislosti mezi náhodnými veličinami x i a x j při skonstantnění ostatních složek vektoru x x 1 x 2 x 3 x 4 x 1 x 2 x 3 x 4 11

Pearsonův korelační koeficient r Podmínkou je dodržení dvourozměného normálního rozdělení r x1 x 2 = r x2 x 1 = cov (x 1,x 2 ) S x 1 S x2 cov (x 1, x 2 ) je normovaná kovariance 12

Pearsonův korelační koeficient r Kovariance: míra intenzity vztahu mezi složkami vícerozměrného souboru je mírou intenzity lineární závislosti je vždy nezáporná její limitou je součin směrodatných odchylek je symetrickou funkcí svých argumentů její velikost je závislá na měřítku argumentů nutnost normování cov x 1, x 2 = 1 n n i=1 (x 1i x 1 ) (x 2i x 2) 13

Pearsonův korelační koeficient r Základní vlastnosti Pearsonova korelačního koeficientu: je to bezrozměrná míra lineární korelace; nabývá hodnoty 0 1 pro kladnou korelaci, 0 (-1) pro zápornou korelaci; hodnota 0 znamená, že mezi posuzovanými veličinami není žádný lineární vztah (může být nelineární) nebo tento vztah zůstal na základě dat, které máme k dispozici, neprokázán; hodnota 1 nebo (-1) indikuje funkční závislost; hodnota korelačního koeficientu je stejná pro závislost x 1 na x 2 i pro opačnou závislost x 2 na x 1. 14

Spearmanův korelační koeficient Neparametrický korelační koeficient, vycházející nikoli z hodnot, ale z jejich pořadí. Používá se tehdy, nejsou-li závažným způsobem splněny předpoklady pro použití Pearsonova korelačního koeficientu. r s = 1 6 n 2 i=1 d i n 3 n Diference mezi pořadími hodnot x a y v jednom řádku 15

Spearmanův korelační koeficient vlivné body Pearsonův R = -0,412 (započítává se účinek vlivných bodů) Spearmanův R = +0,541 (účinek vlivných bodů je značně omezen) 16

Mnohonásobný korelační koeficient vyjadřuje sílu závislosti jedné proměnné na dvou a více jiných proměnných x I1 x x x II1 III1 m1 x x x x In IIn IIIn mn 17

Mnohonásobný korelační koeficient Základní vlastnosti: a) 0 R 1 b) Pokud je R = 1, znamená to, že závisle proměnná x 1 je přesně lineární kombinací veličin x 2,, x m. c) Pokud je R = 0, potom jsou také všechny párové korelační koeficienty nulové. d) S růstem počtu vysvětlujících (nezávislých) proměnných hodnota vícenásobného korelačního koeficientu neklesá, tj. platí R 1(2) R 1(2,3) R 1(2,,m). 18

Parciální korelační koeficient Používá se k posouzení síly závislosti dvou veličin ve vícerozměrném souboru při vyloučení vlivu ostatních veličin. Podle počtu vyloučených proměnných se stanovují řády parciálního R v příkladu vlevo to je parciální korelace III. řádu (3 vyloučené proměnné) 19

Testy výynamnosti v korelační a regresní analýze test významnosti korelačního koeficientu test významnosti modelu jako celku test významnosti jednotlivých regresních parametrů test shody lineárních regresních modelů a mnoho dalších.. 20

Test významnosti R Test významnosti odpoví, zda je korelace mezi výběrovými proměnnými R natolik silná, abychom ji mohli považovat za dostatečně prokázanou i pro základní soubor ρ. Pro párový R: Pro násobný R: t F R R R 1 n R 2 2 2 R n m 2 1 R m 1 KH t,n-2 t,n-m n počet hodnot výběru m počet proměnných Pro parciální R: t R R n k 1 R 2 2 t,n-k-2 k počet vyloučených proměnných 21

Povrch simultánní hustoty pravděpodobnosti pro ρ 12 = 0 22

Povrch simultánní hustoty pravděpodobnosti pro ρ 12 = 0.9 23

Korelační charakteristiky Míry lineární závislosti mezi dvěma či více náhodnými veličinami x i korelace x j x j Velká korelace r ij 1 Malá korelace r ij 0.2 x j 24

Dvourozměrné normální rozdělení Dvě náhodné veličiny x 1 a x 2 : střední hodnoty μ 1 a μ 2, rozptyly σ 1 2 a σ 2 2, kovariance σ 12, korelační koeficient r 12. Řez rovinou dá elipsy konstantní hustoty. 25

Dvourozměrné normální rozdělení Úhel charakterizuje stupeň lineární závislosti mezi x 1 a x 2 26

Dvourozměrné normální rozdělení Postačuje nahradit střední hodnoty μ 1 a μ 2 aritmetickými průměry x 1 a x 2, dále rozptyly σ 1 2 a σ 2 2 výběrovými royptyly s 1 2 a s 2 2 a konečně korelační koeficient ρ výběrovým korelačním koeficientem R = n i=1 x 1i x 1 (x 2i x 2) n x 1i x 2 n i=1 1 i=1 x 2i x 2 2 Směrnice b 1 a úsek b 2 regrese E(ξ 2 /x 1 ) odpovídají odhadům určeným metodou nejmenších čtverců a D(ξ 2 /x 1 ) odpovídá reziduálnímu součtu čtverců odchylek. 27