Úvod do korelační a regresní analýzy



Podobné dokumenty
Metody zkoumání závislosti numerických proměnných

PRAVDĚPODOBNOST A STATISTIKA

, jsou naměřené a vypočtené hodnoty závisle

Generování dvojrozměrných rozdělení pomocí copulí

a další charakteristikou je četnost výběrového souboru n.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Odhady parametrů 1. Odhady parametrů

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

11. Časové řady Pojem a klasifikace časových řad

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

9. Měření závislostí ve statistice Pevná a volná závislost

4.2 Elementární statistické zpracování Rozdělení četností

1. Základy měření neelektrických veličin

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Mendelova univerzita v Brně Statistika projekt

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

12. N á h o d n ý v ý b ě r

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

12. Neparametrické hypotézy

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Testování statistických hypotéz

S1P Popisná statistika. Popisná statistika. Libor Žák

Náhodný výběr 1. Náhodný výběr

Optimalizace portfolia

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Spolehlivost a diagnostika

Chyby přímých měření. Úvod

9.3.5 Korelace. Předpoklady: 9304

Jednoduchá lineární regrese

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

PRAVDĚPODOBNOST A STATISTIKA

Lineární regrese ( ) 2

Úvod do teorie měření

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Doc. Ing. Dagmar Blatná, CSc.

VY_52_INOVACE_J 05 01

Odhady a testy hypotéz o regresních přímkách

SP2 Korelační analýza. Korelační analýza. Libor Žák

APLIKOVANÁ STATISTIKA

Přednáška č. 2 náhodné veličiny

Regresní a korelační analýza

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík

PRAVDĚPODOBNOST A STATISTIKA

Intervalové odhady parametrů některých rozdělení.

Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.

8 NELINEÁRNÍ REGRESNÍ MODELY

TECHNICKÁ UNIVERZITA V LIBERCI

NEPARAMETRICKÉ METODY

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Deskriptivní statistika 1

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

Měření závislostí. Statistická závislost číselných znaků

v. Úkolem regrese (vyrovnání) argumentu y je nalézt vhodnou regresní funkci Y f (x)

PRAVDĚPODOBNOST A STATISTIKA

[ jednotky ] Chyby měření

PRAVDĚPODOBNOST A STATISTIKA

0,063 0,937 0,063 0, P 0,048 0,078 0,95. = funkce CONFIDENCE.NORM(2α; p(1 p)

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL

KVALITA REGRESNÍHO MODELU Radek Fajfr

2. Vícekriteriální a cílové programování

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

8. Analýza rozptylu.

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

T e c h n i c k á z p r á v a. Pokyn pro vyhodnocení nejistoty měření výsledků kvantitativních zkoušek. Technická zpráva č.

Náhodné jevy, jevové pole, pravděpodobnost

Závislost slovních znaků

Pravděpodobnostní modely

Statistika - vícerozměrné metody

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

8.2.1 Aritmetická posloupnost

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Model poptávky po železniční osobní dopravě Českých drah, a. s. na tuzemském přepravním trhu

ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY

Téma 6: Indexy a diference

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

K čemu slouží regrese?

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík

jsou reálná a m, n jsou čísla přirozená.

P1: Úvod do experimentálních metod

6. Posloupnosti a jejich limity, řady

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

8. Zákony velkých čísel

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Petr Šedivý Šedivá matematika

Chyby měření: 1. hrubé chyby - nepozornost, omyl, únava pozorovatele... - významně převyšuje rozptyl náhodné chyby 2. systematické chyby - chybné

Transkript:

Úvod do korelačí a regresí aalýz Bude ás zajímat, jak těsě spolu souvsí dva sledovaé jev Příklad: vztah mez rchlostí auta a brzdou dráhou vztah mez věkem žáka a rchlostí v běhu a 60 m vztah mez spotřebou hojva a výosem Jeda velča je považováa za ezávslou vsvětlující začíme. Já velča je považovaá za závslou vsvětlovaou, obvkle j začíme.

Pokud děláme ějaký epermet pokus, jedu velču vějším zásahem měíme a sledujeme, co se děje s druhou velčou. Statstka se zabývá zkoumáím, zda se př změě prví velč změí druhá velča tak, že změu elze vsvětlt pouhou áhodou. Přestože b blo vhodější používat pojm vsvětlující a vsvětlovaá velča, budeme pro ázorost používat pojm závslá a ezávslá velča. Naší sahou je obvkle prokázat závslost velč. Nezávslost edokazujeme - pouze v ěkterých případech eumíme statstck prokázat závslost. V souladu s teorí testováí hpotéz bude ulová hpotéza H 0 zameat ezávslost velč a alteratví hpotéza H A závslost velč.

Pro statstcké sledováí vztahu musíme mít k dspozc výběr s hodotam jedé proměé a tomu odpovídajícím hodotam druhé proměé resp. dalších proměých. Jedá se o data: dvourozměrá: apř. př sledováí spotřeb palva v závslost a rchlost - vžd dostaeme uspořádaou dvojc hodot vícerozměrá vektor, kd pro jede prvek výběru jsou současě zjště hodot více proměých: apř. př zjšťováí závslost příjmů a vzděláí, délce prae a pohlaví jsou to čtř hodot pro každého vbraého jedce.

Př sledováí vztahu mez zjštěým hodotam závsle a ezávsle proměé můžeme ve statstce řešt otázk: Zda estuje č eestuje závslost vztah, korelace mez velčam Pokud závslost estuje, sledujeme míru tezt těsost tohoto vztahu: - zda je vztah blízký fukčí závslost - ebo se aopak se blíží ezávslost Statstcký obor, který se zabývá estecí závslost a mírou těsost vztahu velč, pokud estuje, se azývá korelačí aalýza. V případě, že prokážeme závslost, může ás zajímat tvar této závslost. Matematckým popsem závslost velč se zabývá regresí aalýza.

Př statstckém šetřeí závslost bchom ejprve měl řešt problém korelace sledovaých velč. Např. kdž měříme velč a stejé úrov hladu cholesterolu, HDL-cholesterolu, trglcerdů v krv. Pokud se mez sledovaým velčam prokáže závslost tj. zalost ezávslé velč ám pomůže odhadout hodot závslé velč, pak se sažíme j vjádřt matematckým vztahem, tj. řešt otázku regrese. podle výšk otců odhadujeme výšku sů a základě výšk odhadujeme váhu výška dítěte závsí a jeho věku kreví tlak souvsí s věkem a dalším velčam

Podle těsost vazb, příp. síl závslost, můžeme rozlšt. fukčí závslost pevá. stochastcká závslost volá 3. ezávslost áhodá souvslost Podle tpu vztahu můžeme rozlšt. leárí závslost. eleárí závslost

. Fukčí pevá závslost. Kd určté hodotě vsvětlující proměé odpovídá právě jeda hodota vsvětlovaé proměé. Lze vjádřt vztahem f výsvětlovaá proměá 0 0 0 fukčí závslost 0 4 6 8 0 vsvětlující proměá

. Závslost stochastcká volá. Závslost, kd vsvětlovaá proměá, případě vsvětlující proměá jsou áhodé velč. Určté hodotě vsvětlující proměé pak přísluší možé hodot vsvětlovaé proměé vbraé z určtého rozděleí. Lze vjádřt E f středí hodota áhodé velč je fukcí proměé. výsvětlovaá proměá 0 0 0 stochastcká závslost 0 4 6 8 0 vsvětlující proměá

3. Nezávslost. Náhodá velča sledovaá jako vsvětlovaá se měí pouze áhodě bez ohledu a vsvětlující proměou; středí hodota jedé velč se eměí, kdž se hodot druhé velč měí. výsvětlovaá proměá 5,5 0 -,5-5 ezávslost 0 4 6 8 0 vsvětlující proměá

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN - aaloge Př aalýze jedotlvých velč zjšťujeme - mír poloh - mír měřítka v případě ormálě rozložeých velč - průměr - rozptl Pokusme se ajít mír vztahu mez dvěm spojtým ormálě rozložeým velčam u kterých předpokládáme leárí závslost. - Aalogí mír poloh bude přímka ejlépe vsthující průběh jejch závslost - Aalogí mír měřítka bude míra těsost dat vzhledem k této přímce. Tuto charakterstku budeme azývat kovarace.

KOVARIANCE míra leárího vztahu dvou velč Matematck je kovarace zobecěím pojmu rozptlu: výběrovou kovarac vpočteme vzorcem cov, a tutvě s j můžeme vsvětlt podobě jako u rozptlu epracujeme přímo s hodotam sledovaých velč, ale s jejch odchlkam od průměru Z defce kovarace ple: cov, cov, může abývat kladých záporých hodot pokud cov, 0... eestuje leárí vazba mez,

Omezeí: kovarace je mírou pouze leárí vazb eumí charakterzovat eleárí závslost. Musíme předem ověřt leárí závslost dat. Kovarace je závslá a rozptlu velč, kolem jejch středích hodot. Čím je rozptl zkoumaých velč větší, tím je hodota kovarace větší. Stejou úvahu jako jsme provedl pro zobecěí rozptlu, můžeme provést pro tzv. z-skór s, s a výraz po úpravě je tzv. Pearsoův korelačí koefcet, ebol koefcet leárí korelace, ebol výběrový Pearsoův leárí korelačí koefcet. s s r, r,

,, cov s s r Z-skór jsou kostruová tak, ab jejch rozptl bl rove jedé, proto korelačí koefcet eí závslý a varabltě velč a a abývá hodot z tervalu < -, + > KOEFICIENT LINEÁRNÍ KORELACE je ěco jako "ormovaá" ebol "stadardzovaá" míra kovarace a můžeme ho odvodt také dosazeím do vztahu r,

Po úpravě se zjedoduší a tvar r,

Korelačí aalýza pomocí leárího korelačího koefcetu. Zjšťujeme estec závslost mez,. Určujeme těsost závslost korelačí koefcet kladý r > 0 roste s rostoucím přímá úměra korelačí koefcet záporý r < 0 s rostoucím klesá epřímá úměra leárí závslost se záporou směrcí teoretcká hodota koefcetu korelace ρ emprcký výběrový koefcet vpočteý z výsledků výběru r

Je l ρ r fukčí závslost tj. je-l absolutí hodota koefcetu korelace, jde o fukčí závslost -> bod leží a přímce Je l ρ0 resp. r 0 aprostá ezávslost tj. pokud je parametr ρ rove 0, jedá se o aprostou ezávslost mez velčam -> bod jsou rozhoze v elpse, jejíž osa je rovoběžá s osou Čím je r blíže, tím těsější je závslost. Pozor! Vztah je všetřová pouze jako leárí závslost!

Př složtější fukčí závslost může astat kurózímu případ, kd př jasé závslost je korelačí koefcet ulový apř. fukčí závslost ve tvaru parabol r, Př výpočtech odhadu korelace základího souboru použjeme výběrový Pearsoův leárí korelačí koefcet: ze vzorce je zřejmé, že se eměí, zaměíme-l za je stejý pro závslost a pro závslost a. Př určováí koefcetu korelace mohou být obě velč áhodé.

Výpočt koefcetu lze provést v programu EXCEL: fukce CORREL ebo Korelace v Aalýze dat Př malých výběrech je odhad koefcetu korelace základího souboru ρ výběrovým koefcetem r zkresleý, eboť r adhodocuje teztu závslost. Nezkresleý odhad získáme ze vztahu ρ r

Test ezávslost velč a ρ 0 korelačí koefcet základího souboru má hodotu ula, kdž eí mez velčam závslost. Jestlže ted statstck prokážeme, že se vpočteá hodota výběrového koefcetu r výzamě lší od ul, prokážeme tím, že mez velčam je leárí závslost K tomu potřebujeme: hodotu výběrového korelačího koefcetu r krtckou hodotu korelačího koefcetu r k pro zvoleou hladu výzamost α a počet stupňů volost -, kde je počet měřeí a je počet odhadovaých parametrů odhadujeme a

ebo r t r testovací statstku t, která má Studetovo t-rozděleí s stup volost krtckou hodotu Studetova rozděleí t k zjstíme v Ecelu fukcí TINVα, - Příklad: Na hladě výzamost 0,05 testujte, zda estuje statstck výzamý vztah mez výrobím áklad a hektarovým výosem oblí; data bla zjštěa v růzých zemědělských podcích

výr. áklad v ts. Kč a ha 9,5 40,5 3,8 34,0 46, 4,5 3,9 38, 3,0 3,0 33,0 hektarový výos oblí v tuách 3,5 3,9 3,4 3,7 4,5 4,9 3,5 3,9 4,8 4,6 4,6 Výběrový korelačí koefcet r 0,43, α 0,05 krtcká hodota r k z tabulek 0,60 r < r k -> elze zamítout hpotézu H 0, ebla prokázáa statstck výzamá závslost mez áklad a výosem.

Mír mootóího vztahu - robustí varat koefcetů korelace V ěkterých případech eí vhodé ebo přímo elze použít klascký korelačí koefcet pro sledováí závslost mez dvěma zak. Nevhodé je použtí apř. tehd, kdž mez aměřeým hodotam jsou hodot odlehlé eí splě předpoklad ormálího rozděleí, ebo kdž hodot sledovaých zaků je možé ebo vhodé matematck srovat pouze pořadím. Např. sledujeme, zda estuje vztah mez umístěím určtých závodíků a mstrovství světa a a Olmpjských hrách. Nebo hledáme vztah mez pořadím dokoalost vpráí prádla ohodoceo čísl a ceou použtého pracího prášku. V těchto případech lze s výhodou použít Spearmaův ebo Kedalův pořadový korelačí koefcet.

Spearmaův korelačí koefcet porovává do jaké mír je uspořádáí aalzovaých dat podle velč X stejé jako podle velč Y. Je vhodý pro mootóí závslost - evžaduje leartu. Kedalův koefcet Všech bod rozdělíme pomocí medáů velč X a Y do čtř kvadratů a uděláme součet počtu bodů v I. a III. kvadratu C a ve II. a IV. kvadratu D. Rozdíl C - D je uprave tak, ab kostruovaý koefcet bl v rozsahu < -; +> τ j sg R R j sg Q Q j

Spearmaův korelačí koefcet pořadový a test ezávslost - postup Sledujeme výzamost korelace mez dvěma zak,. Pro oba zak určíme podle velkost pořadí a z párů pořadí, vpočteme Spearmaův koefcet korelace r s dle vztahu r s 6 Krtckou hodotu koefcetu r sα, pro daý počet sledovaých dvojc a hladu výzamost α můžeme ajít v tabulkách. Je-l vpočteé r s větší ež krtcká hodota, zamítáme hpotézu o ezávslost obou zaků o ulové hodotě r s. Hodota r s rověž formuje o teztě závslost mez oběma sledovaým zak.

Příklad: Pro áhodý výběr šest států USA bl zjště spotřeb cgaret a hlavu a ročí míra úmrtost a 00 000 ldí ásledkem rakov plc. Určete, zda estuje výzamá korelace mez Spotřeba cgaret Úmrtost těmto zak. Stát USA - Suma kvadrátů 0,5 v posledím sloupc r s 6 * 0,5 / [6.6 -] 0,7 Krtcká hodota r sα, 0,89 pro α 0,05, 6 Delaware 3400 6 4 5 Idaa 600 4 0 3,5 0,5 Iowa 00 7 Motaa 400 3 9 New Yers 900 5 6 6 Washgto 00 0 3,5 6,5 Závěr: r s 0,7 < 0,89, korelace ted ebla prokázáa.

Pozámk ke korelačí aalýze Krtcká hodota korelačího koefcetu klesá s počtem bodů! podle ν- Přímka určea dvěma bod pro dvojce, vžd jedozačě určeá přímka fukčí závslost r b všlo ebo - r eí v tomto případě defováo, kdž žádá závslost mez, emusí být Čím větší počet bodů tím větší možost alezeí případé závslost bez ohledu a chb měřeí hodota krtcké hodot koefcetu klesá. Jým slov: žší hodota korelačího koefcetu z více měřeí může prokázat větší míru závslost ež všší hodota korelačího koefcetu z malého počtu měřeí.

Přítomost vchýleého bodu v datech Př korelačí aalýze hledáí, zda estuje výzamá přímková závslost jedý bod vzdáleý odlehlý od ostatích může zajstt alezeí výzamé korelace, ač zblé bod mohou vkazovat aprostou ezávslost mez,., 0,8 0,6 0,4 0, 0-0, -0,4 0 5 0 5 0 5 Velký počet shluklých bodů jevících jasou ezávslost zajstí ízkou krtckou hodotu korelačího

koefcetu a jedý vzdáleý, možá problematcký bod, ovlví hodotu korelačího koefcetu tak, že může překročt krtckou hodotu. V takovém případě elze brát výsledek testu přílš vážě rozděleí bodů zřejmě odporuje předpokladu o ormálím rozděleí. Z tohoto důvodu musí korelačí aalýze předcházet aalýza vstupích dat s výpočtem základích charakterstk mír poloh a mír měřítka, abchom zjstl, zda data splňují předpoklad použtí daých statstckých metod. r -0,055 r 0,74 bez odlehlého bodu s odlehlým bodem Pro α 5% a 0 je krtcká hodota korelačího koefcetu 0,444.

SOUHRN KORELACE je matematcký postup, který vjadřuje číselě zjštěí o souvslostech dvou velč. Neřeší, zda mez velčam estuje závslost a rozdíl od REGRESE. Může estovat áhodá, zdálvá ebo bezvýzamá korelace? ANO Může estovat úplá matematcká ezávslost dvou proměých zaků? NE a v případě, kd prokazatelě eestují žádé souvslost Zdálvé a áhodé korelace vzkají pokud výběrové soubor mají malý rozsah. A zřetelá korelace evpovídá o vtří přímé souvslost.

Pearsoův koefcet leárí korelace r Žlutě vzače úhel obou regresích přímek: - malý úhel - vsoká korelace - velký úhel - ízká korelace r N N N - r Výška sa 50 60 70 80 90 00 60 65 70 75 80 85 90 95 Výška otce

Tvar závslostí r,000 r -,000 r 0,000 r 0,934 r 0,967 r 0,857 r -0,43 r 0,608

Tvar závslostí Korelačí koefcet r Pearsoův s Spearmaův k - Kedalův r,000 s,000 k,000 r -,000 s -,000 k -,000 r 0,000 s 0,000 k 0,000 r 0,934 s,000 k,000 r 0,967 s 0,836 k 0,966 r 0,857 s 0,7 k 0,889 r -0,43 s -0,099 k -0,50 r 0,608 s 0,953 k 0,964

Další past a pastčk u Pearsoova korelačího koefcetu Problém rozložeí hodot Problém tpu modelu Y Y r 0,98 p < 0,00 r 0,76 p < 0,03 X X Y Problém velkost vzorku Y r 0, p < 0,008 r 0,89 p < 0,4 X X