KGG/STG Statistika pro geografy



Podobné dokumenty
Regresní a korelační analýza

Inovace bakalářského studijního oboru Aplikovaná chemie

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

6. T e s t o v á n í h y p o t é z

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

KGG/STG Statistika pro geografy

Dynamické metody pro predikci rizika

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

LINEÁRNÍ REGRESE. Lineární regresní model

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza 1. Regresní analýza

Biostatistika a matematické metody epidemiologie- stručné studijní texty

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

Regresní analýza. Eva Jarošová

Statistika pro geografy

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Korelační a regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

Testování hypotéz o parametrech regresního modelu

4ST201 STATISTIKA CVIČENÍ Č. 8

odpovídá jedna a jen jedna hodnota jiných

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Bodové a intervalové odhady parametrů v regresním modelu

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Tomáš Karel LS 2012/2013

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Regresní a korelační analýza

6. Lineární regresní modely

You created this PDF from an application that is not licensed to print to novapdf printer (

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Porovnání dvou výběrů

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Aplikovaná statistika v R - cvičení 3

Simulace. Simulace dat. Parametry

Lineární regrese. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

Cvičení ze statistiky - 3. Filip Děchtěrenko

Měření závislosti statistických dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

INDUKTIVNÍ STATISTIKA

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Regresní a korelační analýza

Poznámky k předmětu Aplikovaná statistika, 9.téma

Statistika (KMI/PSTAT)

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

Zápočtová práce STATISTIKA I

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Tomáš Karel LS 2012/2013

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Aplikovaná statistika v R - cvičení 2

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Matematická statistika

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Mnohorozměrná statistická data

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

Matematická vsuvka I. trojčlenka.

Plánování experimentu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

PRAVDĚPODOBNOST A STATISTIKA

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Semestrální práce. 2. semestr

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

AVDAT Geometrie metody nejmenších čtverců

Charakteristika datového souboru

Pořízení licencí statistického SW

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

KGG/STG Statistika pro geografy

2.2 Kalibrace a limity její p esnosti

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Funkce zadané implicitně

Hledání závislostí technologických a nákladových charakteristik při tavení oceli na elektrických obloukových pecích

Základy matematiky kombinované studium /06

Transkript:

KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015

Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí prvky výběru závisle proměnné y i rozdělíme podle hodnot nezávisle proměnné x i do skupin označených y j a pro každou skupinu se vypočítá průměr ȳ j korelační poměr se vypočítá podle vztahu η yx = (ȳ j ȳ) n j (y i ȳ) 2 = (ȳ j n j nȳ) 2 y 2 i nȳ 2 n j je četnost v y j porovnání hodnot korelačního koeficientu a korelačního poměru lze použít jako kritéria linearity vztahu

Koeficient mnohonásobné korelace vztah dvou proměnných je často ovlivněn dalšími proměnnými - chceme zjistit celkovou sílu vztahu mezi zvolenou proměnnou na jedné straně a několika dalšími proměnnými pro hodnocení korelační závislosti tří nebo více výběrů náhodných veličin - koeficient mnohonásobné korelace vyjadřuje číselně míru predikce cílové proměnné X pomocí proměnných Y a Z r x.yz = r 2 xz + r 2 yz 2r xy r xz r yz 1 r 2 xy

Parciální korelační koeficient zabývá se otázkou vlivu jedné nebo více nezávisle proměnných na závisle proměnnou při vyloučení vlivu zbývajících nezávisle proměnných, u nichž předpokládáme konstantní hodnotu tento koeficient lze považovat za zvláštní případ koeficientu mnohonásobné korelace, kdy další proměnné považujeme za rušivé r xy.z = r xy r xz r yz (1 rxz) 2 (1 ryz) 2 příkladem z lékařské praxe mohou být proměnné věk, krevní tlak a koncentrace cholesterolu v krvi u žen (parametr věku bereme jako rušivý element)

Korelační pole Doplnění korelační analýzy bodový graf znázorňující obě náhodné veličiny (závisle proměnnou na ose x a nezávisle proměnnou na ose y pomocí tohoto grafu lze posoudit dvourozměrnou normalitu dat (při dostatečně velkém počtu pozorování by měly body tvořit elipsu)

Korelační pole Doplnění korelační analýzy

- úvod již se nejedná o určení síly závislosti statistických znaků (korelační analýza), ale o určení druhu závislosti úkolem je tedy sestavit vztah (model) závislosti mezi závisle a nezávisle proměnnou regresní analýza se zabývá odhadem neznámých parametrů regresní funkce, testováním hypotéz o těchto parametrech a také ověřováním předpokladů regresního modelu především se budeme věnovat lineární regresní závislosti (regresní přímkou)

Lineární regresní závislost nejjednodušší případ regresní závislosti - přímka y = a + bx symbol y se používá pro označení nejpravděpodobnější teoretické hodnoty y odpovídající danému x - hodnoty, která leží na regresní přímce (většinou se tato hodnota odlišuje od konkrétní hodnoty y i nacházející se mimo přímku) vyvstává otázka: jak určit rovnici regresní přímky?

Metoda nejmenších čtverců určuje průběh regresní přímky - její parametry určující podmínka: součet čtverců vzdáleností všech bodů pole od přímky musí být minimální, tj.: (y i y i) 2 = min

Metoda nejmenších čtverců výpočet vertikální vzdálenosti bodů korelačního pole od regresní přímky se provádí podle předchozího obrázku vzdálenost konkrétní hodnoty závisle proměnné y i od bodu regresní přímky y i musí platit vztah: y i y i = y i a bx i součet čtverců svislých vzdáleností y i od regresní přímky je potom (y i y i) 2 = (y i a bx i ) 2 = A pro metodu nejmenších čtverců musí platit A = (y i a bx i ) 2 = min

Výpočet koeficientů regresní přímky Úpravami vztahů dostaneme výrazy pro výpočet koeficientů regresní přímky: b = x iy i nxy xi 2 n x 2 Tento koeficient je směrnicí přímky (tangenta úhlu, který svírá přímka s osou x. a = ȳ b x Udává průsečík přímky a osy y.

Výpočet koeficientů regresní přímky Výpočet koeficientu b lze zjednodušit pomocí vztahů pro kovarianci a směrodatnou odchylku, tedy: b = S xy S 2 x

Intervaly a pásy spolehlivosti lineární regresní závislosti regresní přímku konstruujeme z dat výběrového souboru z tohoto důvodu se mohou rovnice této přímky lišit pro různé náhodné výběry ze stejného základního souboru obdobně jako bodový a intervalový odhad parametrů základního souboru funguje i regresní přímka doplnění průběhu regresní přímky intervalem spolehlivosti - při vykreslení vzniknou pásy spolehlivosti určujeme interval v němž se pro dané x s danou pravděpodobností bude nacházet i hodnota y příslušná hodnotě x

Intervaly a pásy spolehlivosti lineární regresní závislosti zvolíme míru spolehlivosti pro pásy spolehlivosti poloviční šířka tohoto intervalu je dána vztahem l = t 1 α (n 2) h A n 2, 1 (x x)2 kde h = n + (n 1)Sx 2 hodnota t 1 α (n 2) je hodnota kvantilu Studentova t rozdělení 1 α pro n 2 stupňů volnosti

Pásy spolehlivosti Doplnění korelační analýzy Dolní mez: Horní mez: y l y + l

k testování lze využít jednovýběrového t-testu (nulová hypotéza bude tvrdit, že se směrnice přímky b neliší významně od nuly) častěji používáme ale analýzu rozptylu zjistíme celkovou variabilitu hodnot y vypočítáme, z kolika procent je tato celková variabilita vysvětlena variabilitou hodnot x celková variabilita: celková suma čtverců odchylek hodnot od průměru rozdělíme ji na variabilitu regresní (tj. vysvětlena regresní přímkou) a variabilitu reziduální (tj. zbytkovou - nevysvětlenou regresním modelem)

konkrétním způsobem se však již nebudeme zabývat (postačí postup v systému STATISTICA)

Příklad Doplnění korelační analýzy Příklad z přednášky Korelační analýza Jaká je závislost mezi ph půdy na výsypkách a počtem rostlinných druhů?

Řešení Doplnění korelační analýzy Statistiky Vícenásboná regrese volba proměnných - závisle a nezávisle proměnná Výpočet: Výsledky regrese OK, na záložce Bodové grafy Korelace 2 proměnných - vykreslení grafu korelačního pole s pásy spolehlivosti a regresní přímkou

Další typy regresních funkcí - nelineární

Postupovat lze dvěma způsoby: volba vhodného modelu na základě praktické zkušenosti či teoretických předpokladů posouzením bodového grafu a interpretací nástrojů regresní analýzy Způsoby hodnocení vhodnosti regresního modelu: analýza reziduálních hodnot výpočet směrodatné chyby odhadu výpočet koeficientu determinace

Analýza reziduálních hodnot rezidua jsou vzdálenosti skutečných hodnot y i od modelem odhadnutých hodnot y i model je vhodný, pokud reziduální hodnoty splňují následující podmínky 1 rezidua jsou náhodná a nezávislá 2 mají normální rozdělení s nulovým průměrem a konstantním rozptylem

Směrodatná chyba odhadu vyjadřuje směrodatnou odchylku, resp. rozptyl reziduálních hodnot a je vhodnou mírou pro posouzení vhodnosti použité regresní závislosti čím je hodnota reziduálního rozptylu nižší, tím je model vhodnější n i=1 s e = (y i y i) 2 n 2

Koeficient determinace zavedli jsme jej již dříve (korelační počet) čím je hodnota koeficientu determinace větší, tím je model vhodnější r 2 = SS regres SS total

Vícerozměrná regrese popisuje závislost více proměnných vysvětlujících jednu proměnnou v případě, že máme dvě vysvětlující proměnné, tak je regresní model rovinou odhad parametrů se opět provádí pomocí metody nejmenších čtverců y = a + b 1 x 1 + b 2 x 2 +...

Děkuji za pozornost...