Poznámky k tématu Korelace a jednoduchá lineární regrese (Téma není ve skriptech)

Pozámk k tématu Koelace a jedoduchá leáí egee (Téma eí ve kptech) Mějme data, ),...,(, ), kteá jou áhodým výběem z ějaké populace. Data ted pokládáme za ezávlé ealzace dvojce áhodých velč ( X, Y ). Půmě a měodaté odchlk dat jou x, a. x, Kovaace mez oběma velčam v oubou je defováa jako cov, ) = ( x x) ( ). = Rozptl (vaace) je kovaace velč e ebou amou. Kovaace záví a jedotkách, v jakých jou data vjádřea. Koelačí koefcet (též Peaoův koelačí koefcet) dotaeme z kovaace zomováím : cov, ) =. x Koelačí koefcet je bezozměý a abývá hodot od do +. (Neí defovaý, pokud ěkteá ze měodatých odchlek ve jmeovatel je ulová, tj. kdž jeda z velč je v oubou kotatí.) Hodot ebo + koelačí koefcet abývá pouze v případě, že všecha data (př zobazeí pomocí x-bodového gafu) leží přeě a přímce. (Zaméko koelačího koefcetu pak záví a tom, jetl přímka má kladý, ebo zápoý klo.) Koelačí koefcet je míou kocetace dat kolem přímk (kokétě kolem egeí přímk taoveé metodou ejmeších čtveců vz dále) ebo jým lov míou (leáí) závlot mez velčam. Příklad: Data (=) koelačím koefcetem,99; -,9; -,7; -,5; -,5; ; +,5; +,5; +,7; +,9; +,99. 8 5 - - - -5 - -5-5 5-8 - - - -5 5 - - -5-5 - -5 - - - - - - - - - 5 - -5-5 - - -5 5-8 -5 - -5 5 - -8 - - - - -5 -

V Excelu počítají Peaoův koelačí koefcet fukce CORREL a PEARON a také átoj Aalýza dat. Koelačí koefcet vpočteý z empckých dat je apoxmací (bodovým odhadem) ezámého koelačího koefcetu ρ mez týmž velčam v populac. Čato e tetuje ulová hpotéza H : ρ =, tj. hpotéza, že tudovaé velč jou tzv. ekoelovaé. (Ne zcela přeě e říká, že jou ezávlé. Nezávlé velč jou vžd také ekoelovaé, ale obáceě to platt emuí. Jemotm jako je ozdíl mez ezávlotí a ekoelovaotí e ovšem ebudeme podobě zabývat.) Podíváme e a oboutaý tet alteatví hpotéza je H A : ρ a ulová hpotéza e zamítá př velké kladé zápoé koelac. (Extují také jedotaé tet.) Tetová tattka má tva T =. Pokud tudovaé velč mají omálí ozděleí, má tetová tattka T za předpokladu platot ulové hpotéz tudetovo ozděleí t tup volot. Nulová hpotéza e poto a hladě výzamot α zamítá (tj. koelačí koefcet e pohláí za tattck výzamě odlšý od ), pokud abolutí hodota T překočí ktckou hodotu ( α / ) -kvatl ozděleí t. (Po α =, 5 e jedá o 97,5% kvatl, kteý e po velké blíží,9.) Příklad - hlad mléčé kel (v mg a ml) v kv matek a dětí: matka dítě 5 57 5 5 Vchází =,95 a odtud T = 5,7. Ktcká hodota a hladě α =, 5 je,975-kvatl ozděleí t, tj.,78 (vpočte e apř. pomocí excelovké fukce TINV). Můžeme případě (apř. v Excelu pomocí fukce TDIT) vpočítat p-hodotu tetu (doažeou hladu výzamot) vchází p =,. Koelace mez hladou mléčé kel u matk a dítěte je ted a hladě 5 % ( %) tattck výzamě odlšá od ul (tučěj: koelace je tattck výzamá). Ve tattckých tabulkách e dají ajít také ktcké hodot přímo po př ůzém počtu dat ( e př použtí takových tabulek emuí přepočítávat a T). Tak po = e uvádí po ktcká hodota,8. (Koelace,95 v ašem příkladu tuto hac překačuje.) Po větší je ktcká hodota daleko žší, apř. po = 5 je koelace tattck výzamá a hladě 5 % jž př >,79. Tetováí, jetl koelace eí ulová, eí zdaleka jedá úloha o koelačích koefcetech, kteou umí tattka řešt dá e apř. tetovat ulová hpotéza, že koelace ρ je ova ějaké eulové kotatě ebo lze po ρ etojt kofdečí teval. Těmto dalším úloham e však zabývat ebudeme. Peaoův koelačí koefcet ěkd eí deálím átojem po všetřováí íl závlot mez velčam. Důvod mohou být áledující: tudovaé velč emají omálí ozděleí. V datech jou odlehlé hodot (přdáí č odtaěí jedého odlehlého pozoováí může apoto změt). Mez tudovaým velčam lze předpokládat vztah, kteý je ce mootóí (čím větší x, tím většou větší ; popř. aopak), ale e leáí ( datový oblak je kocetovaý kolem křvk, kol přímk). Data jou vou povahou odálí. (Peaoův koelačí koefcet pak emá dobý ml.) V takových tuacích e hodí použít peamaův (pořadový) koelačí koefcet (říká e také peamaův koefcet koelace pořadí). Te e vpočte tak, že e původí data (zvlášť x a

zvlášť ) ahadí pořadím podle velkot (př hodě dvou č více hodých datech e pořadí způměuje) a z takto zíkaých dat (pořadí) e vpočte Peaoův koelačí koefcet. V předchozím příkladu b to vpadalo takto: matka pořadí mez matkam dítě pořadí mez dětm 5 5 57 5 5 5 peamaův koelačí koefcet mez hladou mléčé kel matk a dítěte dotaeme jako občejý (Peaoův) koelačí koefcet mez. a. loupcem tabulk. Vchází =,9. Hpotéza, že koelace pořadí je (v populac) ulová, e tetuje jým (ložtějším) způobem ež aalogcká hpotéza o Peaoově koelačím koefcetu. Pokud emáme k dpozc pogam, kteý vpočte p-hodotu, dají e po malé použít tabulk ktckých hodot po. Po áš případ = uvádějí tabulk ktckou hodotu po a hladě 5 % ovou,89 (míto,8 po ). Po větší ěkd e dopoučuje už od =, učtě po e ale ktcké hodot po a lší velm málo (apř. př = je o cca,), takže tet po lze, až bchom e doputl velké chb, povádět úplě tejě jako tet po. Excel pecálí átoj a výpočet emá. počítat pořadí podle velkot (v ašem příkladu. a. loupec tabulk) e dá pomocí fukce RANK alepoň v případě, že ve loupc dat ejou žádé dvě hodot tejé. (Pokud b e apř.. a. ejmeší čílo hodovalo, potřebujeme oběma čílům přřadt pořadí,5, ale fukce RANK učí po obě číla pořadí. Evetuálí hod je třeba vhledat a pořadí vpočteé fukcí RANK upavt.) Dále e a vpočteé pořadí použje fukce po výpočet Peaoova koelačího koefcetu. Koelačí koefcet vjadřuje, jak těý je (leáí) vztah mez dvěma velčam, ale eříká, jaká je kokétí podoba takového vztahu, apř. jaká hodota zhuba příluší daé hodotě x. Takovým úloham e ve tattce zabývá egeí aalýza. Všmeme je ejjedodušší úloh egeí aalýz, tzv. jedoduché leáí egee. Ta e týká leáí závlot jedé poměé tzv. závle poměé (též vvětlovaé poměé, egeadu aj.) a jedé ezávle poměé (též vvětlující poměé, egeou atp.). V úloze jedoduché leáí egee chceme data, ),...,(, ) položt egeí přímkou tvau = a + b x, ted ajít pávé hodot koefcetů a, b takové přímk. Koefcet a e azývá úek a oe, popř. tecept, koefcet b je klo (popř. měce) egeí přímk. (Aglck e těmto koefcetům říká tecept a lope.) Data, jakým e v medcíě etkáváme, zpavdla umožňují vjádřt závlot a x pomocí přímk pouze přblžě. Pacujeme poto obvkle egeí ovcí = a + b x + e, kde komě dat a koefcetů egeí přímk fguuje také chba e. Chbu e lze zapat také jako e = a + b x ). Odtud vdíme, že vjadřuje, o kolk e egeí přímka etefla do bodu (, ) o kolk výše ebo íže egeí přímka pobíhá. (Vzdáleot mez bodem a přímkou e v tomto případě měří ve vlém měu e tak, jak jme zvklí apř. ze tředoškolké geomete, tj. ve měu kolmce puštěé z bodu a přímku.) O chbách e, e, K, e e obvkle předpokládá, že jou hodotam (ealzacem) ezávlých áhodých velč, kteé mají vemě omálí ozděleí ulovou tředí hodotou a ezámým ozptlem σ. Co jou pávé hodot koefcetů a, b, bchom mohl defovat ejůzějším způob, a každé takové defc b odpovídala ějaká přímka položeá dat. Nejběžější způob

pokládáí přímk dat ovšem předtavuje metoda ejmeších čtveců: Každá volba číel a, b učuje (po kokétí data x, ),...,(, ) ) -tc chb e, e, K, e, a té odpovídá oučet ( čtveců chb e. Metoda ejmeších čtveců volí ze všech možých hodot koefcetů a, b = takové, kteé dávají ejmeší možý oučet čtveců chb. To, že používáme metodu ejmeších čtveců, aštětí ezameá, že bchom kutečě muel ložtě řešt optmalzačí úlohu mmalzace oučtu čtveců chb. Z ktéa ejmeších čtveců e dají matematck odvodt jedoduché vzoce, do kteých tačí jeom doadt. Použjeme-l tejé začeí půměů, měodatých odchlek a koelace vpočteých z dat, ),...,(, ) jako v předcházejícím textu, dá e klo egeí přímk taoveé metodou ejmeších čtveců vjádřt vzocem b =. x Vzoec po a pak lze pamatovat podle toho, že egeí přímka pochází bodem, ) : a = b x. V Excelu tto vzoce ealzují apř. fukce LOPE a INTERCEPT ebo átoj Aalýza dat, popř. lze ovc egeí přímk zobazt jako oučát x-bodového gafu. Po dříve uvedeá data (hlad mléčé kel v kv matek a dětí), máme (x je hlada u matk, u dítěte) x =,5, = 5,, = 7,, = 5, 9 a =,95, takže dotáváme 5,9 b =,95 =,85, a = 5,,85,5 =,. 7, Gaf z Excelu dat a egeí přímkou může vpadat áledově: x Kocetace kel mléčé v kv matk a dítěte 5 =,85x -,8 dítě 5 7 matka Čato e tetuje hpotéza, že klo egeí přímk v populac (mohl bchom ho začt apř. B; koefcet b je jeho bodovým odhadem) je ulový (tj. že závle poměá a x faktck ezáví). Tetová tattka tohoto tetu e v lteatuře zapuje v ůzém tvau, ale důležté je, že koefcet b je tattck výzamě odlšý od ul pávě tehd, kdž je tattck výzamě od Je po zajímavot: Extují jé možot ež metoda ejmeších čtveců. V ěkteých aplkacích e apř. používá egeí přímka taoveá tak, ab bl ejmeší možý medá abolutích hodot chb. Výhodou takové egeí přímk obecě odlšé od přímk etojeé metodou ejmeších čtveců je to, že a její půběh emají velký vlv odlehlá pozoováí. Výpočet koefcetů takové egeí přímk je dot áočý, ale a ozdíl od dob před ěkolka deítkam let e a oučaých počítačích paktck povét dá.

ul odlšý (a téže hladě výzamot) koelačí koefcet. tačí ted tetovat výzamot. Případě e dá použít také opačý tk tetovat koelac pomocí egee. Např. átoj Aalýza dat v Excelu, zvolíme-l koelac, je počítá koelačí koefcet, ale epovede žádý tet. Zvolíme-l ovšem míto koelace ege, dotaeme tet hpotéz o ulovém klou egeí přímk, jehož výledek (kde e ajde: vz dokumet o výpočtech) e vztahuje a koelac. V čát tohoto textu věovaé koelačímu koefcetu blo bez hlubšího zdůvoděí řečeo, že koelačí koefcet je míou kocetace dat kolem (egeí) přímk. Toto tvzeí e dá v kotextu leáí egee zdůvodt áledujícím způobem. Předtavme, že máme data, ),...,(, ), po kteá e hodí model jedoduché leáí egee. Kdž potřebujeme tpout hodotu u ějakého objektu, o kteém c evíme (pecálě ezáme hodotu velč x), ezbude ám c lepšího ež použít půmě. Čím větší je ozptl, tím mlhavější fomac o kokétí hodotě u daého objektu půmě podává. Jým lov, emáme-l žádou pomocou fomac, kteá b o hodotě ěco apověděla, je míou ejtot o. Kdbchom u ového objektu zal x a opět měl hodotu tpovat, mohl bchom jako odhad použít a + b x. Tetokát b míou ejtot o už ebl celkový ozptl, ale ozptl chb (ebol egeích ezduí) e,, e K, e, tzv. ezduálí ozptl. ouvlot mez kocetací dat kolem egeí přímk a ezduálím ozptlem je evdetí. Co to má polečého koelací? Mez celkovým ozptlem, ezduálím ozptlem a koelačím koefcetem platí vztah e =, což e také dá zapat jako e =. Čtatel zlomku a levé taě e říká ozptl vvětleý vaabltou ebo tučěj vvětleý ozptl. Vvětleý ozptl udává, o kolk e zmeší ejtota o tím, že záme x. Duhá moca koelačího koefcetu, tzv. koefcet detemace, tak říká, jak velká čát celkového ozptlu závle poměé e dá vvětlt (ep. odtat) a základě zalot hodot ezávle poměé x. Lze to vjádřt gafck (dole je uvedeo, jakou čát celkového ozptlu jedotlvé ložk předtavují ): e celkový ozptl vvětleý ozptl ezduálí ozptl V čeké vez Excelu je to je jeda z mohých překladatelkých peel e míto koefcet detemace říká polehlvot. Kdo e ebojí vzoců, může všmout, že pomě délek dvou čátí úečk má moho polečého tetovou tattkou T uvedeou a. taě tohoto textu.