Poznámky k tématu Korelace a jednoduchá lineární regrese (Téma není ve skriptech)



Podobné dokumenty
9.3.5 Korelace. Předpoklady: 9304

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

Dvourozměrná tabulka rozdělení četností

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

Téma 3: Popisná statistika

Odhady a testy hypotéz o regresních přímkách

Vztahy mezi základním souborem a výběry. Základní pojmy a symboly. K čemu to je dobré? Výběrové metody zkoumání

Korelační analýza. sdružené regresní přímky:

Kapitola 5.: Analýza rozptylu jednoduchého třídění

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

Úvod do korelační a regresní analýzy

8 DALŠÍ SPOJITÁ ROZDĚLENÍ PRAVDĚPODOBNOSTI

PRAVDĚPODOBNOST A STATISTIKA

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

} kvantitativní znaky

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

SP2 Korelační analýza. Korelační analýza. Libor Žák

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

Interval spolehlivosti pro podíl

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Momenty a momentové charakteristiky

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Generování dvojrozměrných rozdělení pomocí copulí

a my chceme data proložit nějakou hladkou funkcí, která by vystihovala hlavní vlastnosti dat, ale ignorovala malé fluktuace a nepřesnosti.

1. Základy měření neelektrických veličin

3. cvičení 4ST201 - řešení

Petr Šedivý Šedivá matematika

Testování statistických hypotéz

Obr. DI-1. K principu reverzibility (obrácení chodu paprsků).

Metody zkoumání závislosti numerických proměnných

a q provedeme toto nahrazení a dostane soustavu dvou rovnic o dvou neznámých: jsou nenulová čísla (jinak by na pravé straně rovnice byla 0)

Testování statistických hypotéz

, jsou naměřené a vypočtené hodnoty závisle

8.2.7 Vzorce pro geometrickou posloupnost

Univerzita Karlova v Praze Pedagogická fakulta

[ jednotky ] Chyby měření

,6 32, ,6 29,7 29,2 35,9 32,6 34,7 35,3

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Odhady parametrů 1. Odhady parametrů

Aktivita 1 Seminář základů statistiky a workshop (Prof. Ing. Milan Palát, CSc., Ing. Kristina Somerlíková, Ph.D.)

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Statistické metody ve veřejné správě ŘEŠENÉ PŘÍKLADY

ARITMETICKÉ POSLOUPNOSTI s-tého STUPNĚ. Daniela Bittnerová

Přehled vztahů k problematice jednoduchého úročení a úrokové sazby

FINANČNÍ MATEMATIKA- INFLACE

9. REGRESNÍ A KORELAČNÍ ANALÝZA

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

VY_52_INOVACE_J 05 01

Statistické charakteristiky (míry)

11 TESTOVÁNÍ HYPOTÉZ. Čas ke studiu kapitoly: 360 minut. Cíl

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

11 TESTOVÁNÍ PARAMETRICKÝCH HYPOTÉZ

4.2 Elementární statistické zpracování Rozdělení četností

U. Jestliže lineární zobrazení Df x n n

Soustava momentů. k s. Je-li tedy ve vzorci obecného momentu s = 1, získáme vzorec aritmetického průměru.

7 VYUŽITÍ METOD OPERAČNÍ ANALÝZY V TECHNOLOGII DOPRAVY

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

INŽENÝRSKÁ GEODÉZIE I

Mendelova univerzita v Brně Statistika projekt

Směrnice 1/2011 Statistické vyhodnocování dat, verze 4 Verze 4 je shodná se Směrnicí 1/2011 verze 3, pouze byla rozšířena o robustní analýzu

Beta faktor a ekvitní prémie z cizího trhu: přenositelnost a statistická spolehlivost

Deskriptivní statistika 1

ANALÝZA ZÁVISLOSTÍ. Dvourozměrná tabulka rozdělení četností

1.3. POLYNOMY. V této kapitole se dozvíte:

Charakteristiky úrovně

a) Hypotézy o parametru jedné populace (o stední hodnot, mediánu, rozptylu, relativní

P1: Úvod do experimentálních metod

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství. Matematika IV. Semestrální práce

Lineární regrese ( ) 2

LABORATORNÍ CVIČENÍ Z FYZIKY. Měření objemu tuhých těles přímou metodou

Téma 5: Analýza závislostí

Téma 4: Výběrová šetření

jsou reálná a m, n jsou čísla přirozená.

3. cvičení 4ST201. Míry variability

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

ANALÝZA A KLASIFIKACE DAT

nazveme číselným vektorem. Čísla a Definice. Vektor, jehož všechny složky se rovnají nule, se nazývá nulový vektor o r = (0, 0, 0,, 0).

Náhodné jevy, jevové pole, pravděpodobnost

11. Časové řady Pojem a klasifikace časových řad

Základy korelační analýzy

3. Lineární diferenciální rovnice úvod do teorie

PRAVDĚPODOBNOST A STATISTIKA

1.3. ORTOGONÁLNÍ A ORTONORMÁLNÍ BÁZE

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Univerzita Karlova Přírodovědecká fakulta Katedra analytické chemie

K čemu slouží regrese?

Úvod do teorie měření

PŘÍKLAD NA PRŮMĚRNÝ INDEX ŘETĚZOVÝ NEBOLI GEOMETRICKÝ PRŮMĚR

8. Odhady parametrů rozdělení pravděpodobnosti

9 NÁHODNÉ VÝBĚRY A JEJICH ZPRACOVÁNÍ. Čas ke studiu kapitoly: 30 minut. Cíl:

USTÁLENÉ PROUDĚNÍ V OTEVŘENÝCH KORYTECH

stavební obzor 1 2/

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

Spolehlivost a diagnostika

Transkript:

Pozámk k tématu Koelace a jedoduchá leáí egee (Téma eí ve kptech) Mějme data, ),...,(, ), kteá jou áhodým výběem z ějaké populace. Data ted pokládáme za ezávlé ealzace dvojce áhodých velč ( X, Y ). Půmě a měodaté odchlk dat jou x, a. x, Kovaace mez oběma velčam v oubou je defováa jako cov, ) = ( x x) ( ). = Rozptl (vaace) je kovaace velč e ebou amou. Kovaace záví a jedotkách, v jakých jou data vjádřea. Koelačí koefcet (též Peaoův koelačí koefcet) dotaeme z kovaace zomováím : cov, ) =. x Koelačí koefcet je bezozměý a abývá hodot od do +. (Neí defovaý, pokud ěkteá ze měodatých odchlek ve jmeovatel je ulová, tj. kdž jeda z velč je v oubou kotatí.) Hodot ebo + koelačí koefcet abývá pouze v případě, že všecha data (př zobazeí pomocí x-bodového gafu) leží přeě a přímce. (Zaméko koelačího koefcetu pak záví a tom, jetl přímka má kladý, ebo zápoý klo.) Koelačí koefcet je míou kocetace dat kolem přímk (kokétě kolem egeí přímk taoveé metodou ejmeších čtveců vz dále) ebo jým lov míou (leáí) závlot mez velčam. Příklad: Data (=) koelačím koefcetem,99; -,9; -,7; -,5; -,5; ; +,5; +,5; +,7; +,9; +,99. 8 5 - - - -5 - -5-5 5-8 - - - -5 5 - - -5-5 - -5 - - - - - - - - - 5 - -5-5 - - -5 5-8 -5 - -5 5 - -8 - - - - -5 -

V Excelu počítají Peaoův koelačí koefcet fukce CORREL a PEARON a také átoj Aalýza dat. Koelačí koefcet vpočteý z empckých dat je apoxmací (bodovým odhadem) ezámého koelačího koefcetu ρ mez týmž velčam v populac. Čato e tetuje ulová hpotéza H : ρ =, tj. hpotéza, že tudovaé velč jou tzv. ekoelovaé. (Ne zcela přeě e říká, že jou ezávlé. Nezávlé velč jou vžd také ekoelovaé, ale obáceě to platt emuí. Jemotm jako je ozdíl mez ezávlotí a ekoelovaotí e ovšem ebudeme podobě zabývat.) Podíváme e a oboutaý tet alteatví hpotéza je H A : ρ a ulová hpotéza e zamítá př velké kladé zápoé koelac. (Extují také jedotaé tet.) Tetová tattka má tva T =. Pokud tudovaé velč mají omálí ozděleí, má tetová tattka T za předpokladu platot ulové hpotéz tudetovo ozděleí t tup volot. Nulová hpotéza e poto a hladě výzamot α zamítá (tj. koelačí koefcet e pohláí za tattck výzamě odlšý od ), pokud abolutí hodota T překočí ktckou hodotu ( α / ) -kvatl ozděleí t. (Po α =, 5 e jedá o 97,5% kvatl, kteý e po velké blíží,9.) Příklad - hlad mléčé kel (v mg a ml) v kv matek a dětí: matka dítě 5 57 5 5 Vchází =,95 a odtud T = 5,7. Ktcká hodota a hladě α =, 5 je,975-kvatl ozděleí t, tj.,78 (vpočte e apř. pomocí excelovké fukce TINV). Můžeme případě (apř. v Excelu pomocí fukce TDIT) vpočítat p-hodotu tetu (doažeou hladu výzamot) vchází p =,. Koelace mez hladou mléčé kel u matk a dítěte je ted a hladě 5 % ( %) tattck výzamě odlšá od ul (tučěj: koelace je tattck výzamá). Ve tattckých tabulkách e dají ajít také ktcké hodot přímo po př ůzém počtu dat ( e př použtí takových tabulek emuí přepočítávat a T). Tak po = e uvádí po ktcká hodota,8. (Koelace,95 v ašem příkladu tuto hac překačuje.) Po větší je ktcká hodota daleko žší, apř. po = 5 je koelace tattck výzamá a hladě 5 % jž př >,79. Tetováí, jetl koelace eí ulová, eí zdaleka jedá úloha o koelačích koefcetech, kteou umí tattka řešt dá e apř. tetovat ulová hpotéza, že koelace ρ je ova ějaké eulové kotatě ebo lze po ρ etojt kofdečí teval. Těmto dalším úloham e však zabývat ebudeme. Peaoův koelačí koefcet ěkd eí deálím átojem po všetřováí íl závlot mez velčam. Důvod mohou být áledující: tudovaé velč emají omálí ozděleí. V datech jou odlehlé hodot (přdáí č odtaěí jedého odlehlého pozoováí může apoto změt). Mez tudovaým velčam lze předpokládat vztah, kteý je ce mootóí (čím větší x, tím většou větší ; popř. aopak), ale e leáí ( datový oblak je kocetovaý kolem křvk, kol přímk). Data jou vou povahou odálí. (Peaoův koelačí koefcet pak emá dobý ml.) V takových tuacích e hodí použít peamaův (pořadový) koelačí koefcet (říká e také peamaův koefcet koelace pořadí). Te e vpočte tak, že e původí data (zvlášť x a

zvlášť ) ahadí pořadím podle velkot (př hodě dvou č více hodých datech e pořadí způměuje) a z takto zíkaých dat (pořadí) e vpočte Peaoův koelačí koefcet. V předchozím příkladu b to vpadalo takto: matka pořadí mez matkam dítě pořadí mez dětm 5 5 57 5 5 5 peamaův koelačí koefcet mez hladou mléčé kel matk a dítěte dotaeme jako občejý (Peaoův) koelačí koefcet mez. a. loupcem tabulk. Vchází =,9. Hpotéza, že koelace pořadí je (v populac) ulová, e tetuje jým (ložtějším) způobem ež aalogcká hpotéza o Peaoově koelačím koefcetu. Pokud emáme k dpozc pogam, kteý vpočte p-hodotu, dají e po malé použít tabulk ktckých hodot po. Po áš případ = uvádějí tabulk ktckou hodotu po a hladě 5 % ovou,89 (míto,8 po ). Po větší ěkd e dopoučuje už od =, učtě po e ale ktcké hodot po a lší velm málo (apř. př = je o cca,), takže tet po lze, až bchom e doputl velké chb, povádět úplě tejě jako tet po. Excel pecálí átoj a výpočet emá. počítat pořadí podle velkot (v ašem příkladu. a. loupec tabulk) e dá pomocí fukce RANK alepoň v případě, že ve loupc dat ejou žádé dvě hodot tejé. (Pokud b e apř.. a. ejmeší čílo hodovalo, potřebujeme oběma čílům přřadt pořadí,5, ale fukce RANK učí po obě číla pořadí. Evetuálí hod je třeba vhledat a pořadí vpočteé fukcí RANK upavt.) Dále e a vpočteé pořadí použje fukce po výpočet Peaoova koelačího koefcetu. Koelačí koefcet vjadřuje, jak těý je (leáí) vztah mez dvěma velčam, ale eříká, jaká je kokétí podoba takového vztahu, apř. jaká hodota zhuba příluší daé hodotě x. Takovým úloham e ve tattce zabývá egeí aalýza. Všmeme je ejjedodušší úloh egeí aalýz, tzv. jedoduché leáí egee. Ta e týká leáí závlot jedé poměé tzv. závle poměé (též vvětlovaé poměé, egeadu aj.) a jedé ezávle poměé (též vvětlující poměé, egeou atp.). V úloze jedoduché leáí egee chceme data, ),...,(, ) položt egeí přímkou tvau = a + b x, ted ajít pávé hodot koefcetů a, b takové přímk. Koefcet a e azývá úek a oe, popř. tecept, koefcet b je klo (popř. měce) egeí přímk. (Aglck e těmto koefcetům říká tecept a lope.) Data, jakým e v medcíě etkáváme, zpavdla umožňují vjádřt závlot a x pomocí přímk pouze přblžě. Pacujeme poto obvkle egeí ovcí = a + b x + e, kde komě dat a koefcetů egeí přímk fguuje také chba e. Chbu e lze zapat také jako e = a + b x ). Odtud vdíme, že vjadřuje, o kolk e egeí přímka etefla do bodu (, ) o kolk výše ebo íže egeí přímka pobíhá. (Vzdáleot mez bodem a přímkou e v tomto případě měří ve vlém měu e tak, jak jme zvklí apř. ze tředoškolké geomete, tj. ve měu kolmce puštěé z bodu a přímku.) O chbách e, e, K, e e obvkle předpokládá, že jou hodotam (ealzacem) ezávlých áhodých velč, kteé mají vemě omálí ozděleí ulovou tředí hodotou a ezámým ozptlem σ. Co jou pávé hodot koefcetů a, b, bchom mohl defovat ejůzějším způob, a každé takové defc b odpovídala ějaká přímka položeá dat. Nejběžější způob

pokládáí přímk dat ovšem předtavuje metoda ejmeších čtveců: Každá volba číel a, b učuje (po kokétí data x, ),...,(, ) ) -tc chb e, e, K, e, a té odpovídá oučet ( čtveců chb e. Metoda ejmeších čtveců volí ze všech možých hodot koefcetů a, b = takové, kteé dávají ejmeší možý oučet čtveců chb. To, že používáme metodu ejmeších čtveců, aštětí ezameá, že bchom kutečě muel ložtě řešt optmalzačí úlohu mmalzace oučtu čtveců chb. Z ktéa ejmeších čtveců e dají matematck odvodt jedoduché vzoce, do kteých tačí jeom doadt. Použjeme-l tejé začeí půměů, měodatých odchlek a koelace vpočteých z dat, ),...,(, ) jako v předcházejícím textu, dá e klo egeí přímk taoveé metodou ejmeších čtveců vjádřt vzocem b =. x Vzoec po a pak lze pamatovat podle toho, že egeí přímka pochází bodem, ) : a = b x. V Excelu tto vzoce ealzují apř. fukce LOPE a INTERCEPT ebo átoj Aalýza dat, popř. lze ovc egeí přímk zobazt jako oučát x-bodového gafu. Po dříve uvedeá data (hlad mléčé kel v kv matek a dětí), máme (x je hlada u matk, u dítěte) x =,5, = 5,, = 7,, = 5, 9 a =,95, takže dotáváme 5,9 b =,95 =,85, a = 5,,85,5 =,. 7, Gaf z Excelu dat a egeí přímkou může vpadat áledově: x Kocetace kel mléčé v kv matk a dítěte 5 =,85x -,8 dítě 5 7 matka Čato e tetuje hpotéza, že klo egeí přímk v populac (mohl bchom ho začt apř. B; koefcet b je jeho bodovým odhadem) je ulový (tj. že závle poměá a x faktck ezáví). Tetová tattka tohoto tetu e v lteatuře zapuje v ůzém tvau, ale důležté je, že koefcet b je tattck výzamě odlšý od ul pávě tehd, kdž je tattck výzamě od Je po zajímavot: Extují jé možot ež metoda ejmeších čtveců. V ěkteých aplkacích e apř. používá egeí přímka taoveá tak, ab bl ejmeší možý medá abolutích hodot chb. Výhodou takové egeí přímk obecě odlšé od přímk etojeé metodou ejmeších čtveců je to, že a její půběh emají velký vlv odlehlá pozoováí. Výpočet koefcetů takové egeí přímk je dot áočý, ale a ozdíl od dob před ěkolka deítkam let e a oučaých počítačích paktck povét dá.

ul odlšý (a téže hladě výzamot) koelačí koefcet. tačí ted tetovat výzamot. Případě e dá použít také opačý tk tetovat koelac pomocí egee. Např. átoj Aalýza dat v Excelu, zvolíme-l koelac, je počítá koelačí koefcet, ale epovede žádý tet. Zvolíme-l ovšem míto koelace ege, dotaeme tet hpotéz o ulovém klou egeí přímk, jehož výledek (kde e ajde: vz dokumet o výpočtech) e vztahuje a koelac. V čát tohoto textu věovaé koelačímu koefcetu blo bez hlubšího zdůvoděí řečeo, že koelačí koefcet je míou kocetace dat kolem (egeí) přímk. Toto tvzeí e dá v kotextu leáí egee zdůvodt áledujícím způobem. Předtavme, že máme data, ),...,(, ), po kteá e hodí model jedoduché leáí egee. Kdž potřebujeme tpout hodotu u ějakého objektu, o kteém c evíme (pecálě ezáme hodotu velč x), ezbude ám c lepšího ež použít půmě. Čím větší je ozptl, tím mlhavější fomac o kokétí hodotě u daého objektu půmě podává. Jým lov, emáme-l žádou pomocou fomac, kteá b o hodotě ěco apověděla, je míou ejtot o. Kdbchom u ového objektu zal x a opět měl hodotu tpovat, mohl bchom jako odhad použít a + b x. Tetokát b míou ejtot o už ebl celkový ozptl, ale ozptl chb (ebol egeích ezduí) e,, e K, e, tzv. ezduálí ozptl. ouvlot mez kocetací dat kolem egeí přímk a ezduálím ozptlem je evdetí. Co to má polečého koelací? Mez celkovým ozptlem, ezduálím ozptlem a koelačím koefcetem platí vztah e =, což e také dá zapat jako e =. Čtatel zlomku a levé taě e říká ozptl vvětleý vaabltou ebo tučěj vvětleý ozptl. Vvětleý ozptl udává, o kolk e zmeší ejtota o tím, že záme x. Duhá moca koelačího koefcetu, tzv. koefcet detemace, tak říká, jak velká čát celkového ozptlu závle poměé e dá vvětlt (ep. odtat) a základě zalot hodot ezávle poměé x. Lze to vjádřt gafck (dole je uvedeo, jakou čát celkového ozptlu jedotlvé ložk předtavují ): e celkový ozptl vvětleý ozptl ezduálí ozptl V čeké vez Excelu je to je jeda z mohých překladatelkých peel e míto koefcet detemace říká polehlvot. Kdo e ebojí vzoců, může všmout, že pomě délek dvou čátí úečk má moho polečého tetovou tattkou T uvedeou a. taě tohoto textu.