Regresní a korelační analýza

Podobné dokumenty
Regresní a korelační analýza

Metody zkoumání závislosti numerických proměnných

9. Měření závislostí ve statistice Pevná a volná závislost

PRAVDĚPODOBNOST A STATISTIKA

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

a další charakteristikou je četnost výběrového souboru n.

Spolehlivost a diagnostika

Úvod do korelační a regresní analýzy

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Lineární regrese ( ) 2

, jsou naměřené a vypočtené hodnoty závisle

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Generování dvojrozměrných rozdělení pomocí copulí

Měření závislostí. Statistická závislost číselných znaků

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

KVALITA REGRESNÍHO MODELU Radek Fajfr

Testování statistických hypotéz

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Mendelova univerzita v Brně Statistika projekt

Úvod do teorie měření

4.2 Elementární statistické zpracování Rozdělení četností

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Odhady parametrů 1. Odhady parametrů

PRAVDĚPODOBNOST A STATISTIKA

Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.

Optimalizace portfolia

8 NELINEÁRNÍ REGRESNÍ MODELY

Model poptávky po železniční osobní dopravě Českých drah, a. s. na tuzemském přepravním trhu

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Pravděpodobnost a aplikovaná statistika

Jednoduchá lineární regrese

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

11. Popisná statistika

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

PRAVDĚPODOBNOST A STATISTIKA

11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod

v. Úkolem regrese (vyrovnání) argumentu y je nalézt vhodnou regresní funkci Y f (x)

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

8. Analýza rozptylu.

1. Základy měření neelektrických veličin

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Výstup a n. Vstup. obrázek 1: Blokové schéma a graf paralelní soustavy

Deskriptivní statistika 1

Chyby přímých měření. Úvod

IV. MKP vynucené kmitání

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

VY_52_INOVACE_J 05 01

Pravděpodobnostní modely

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

} kvantitativní znaky

Statistická analýza dat

Pravděpodobnost a aplikovaná statistika

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

11. Časové řady Pojem a klasifikace časových řad

P1: Úvod do experimentálních metod

Závislost slovních znaků

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Pravděpodobnost a aplikovaná statistika

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

Testy statistických hypotéz

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

TECHNICKÁ UNIVERZITA V LIBERCI

Náhodný výběr 1. Náhodný výběr

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Intervalové odhady parametrů některých rozdělení.

Lineární regresní model (VJ REGMOD-2)

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík

PRAVDĚPODOBNOST A STATISTIKA

P2: Statistické zpracování dat

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

IAJCE Přednáška č. 12

MATICOVÉ HRY MATICOVÝCH HER

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

Interpolace a aproximace. Interpolace algebraickým polynomem a aproximace metodou nejmenších čtverců

Doc. Ing. Dagmar Blatná, CSc.

B a k a l ářská práce

14. B o d o v é o d h a d y p a r a m e t r ů

Logistic regression a tool for discrimination in surgery

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

12. Neparametrické hypotézy

Testování hypotéz. 3.1 Základní pojmy a obecný postup při testování

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

S1P Popisná statistika. Popisná statistika. Libor Žák

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

SP2 Korelační analýza. Korelační analýza. Libor Žák

Transkript:

Regresí a korelačí aalýza Závslost příčá (kauzálí). Závslostí pevou se ozačuje případ, kdy výskytu jedoho jevu utě odpovídá výskyt druhé jevu (a často aopak). Z pravděpodobostího hledska jde o vztah, který se projeví s jstotou. Průběh závslost (v určtém tervalu) lze přesě charakterzovat určtou matematckou fukcí. Volá závslost je závslost, př íž jede jev podmňuje jev jý je s určtou pravděpodobostí a v růzé teztě. Určté hodotě jedé velčy odpovídá celá řada růzých hodot druhé velčy. U této závslost lze charakterzovat teoretcký průběh závslost a její těsost. Regresí aalýza se zabývá jedostraým závslostm. Jedá se o stuac, kdy prot sobě stojí vysvětlující (ezávsle) proměá v úloze příč a vysvětlovaá (závsle) proměá v úloze ásledků. Korelačí aalýza se zabývá vzájemým (většou leárím) závslostm, kdy se klade důraz především a teztu (sílu) vzájemého vztahu ež a zkoumáí velč ve směru příča ásledek. 1

Kotgečí (korelačí) tabulka Řádek korelačí tabulky obsahuje rozděleí četostí zaku Y za podmíky, že zak X abyl určté kokrétí hodoty (příp. hodot určtého tervalu). - podmíěé rozděleí četostí zaku Y. oučtový řádek epodmíěé rozděleí četostí zaku Y. loupec korelačí tabulky obsahuje rozděleí četostí zaku X za podmíky, že zak Y abyl určté kokrétí hodoty (hodot z určtého tervalu), - podmíěé rozděleí četostí zaku X. oučtový sloupec epodmíěé rozděleí četostí zaku X. Četost v součtovém řádku a součtovém sloupc azýváme okrajovým (margálím) četostm. Příklad 1 Př sledováí tělesé výšky chlapců byl vyslove předpoklad, že výška dítěte je do začé míry ovlvěa výškou rodčů. Následé šetřeí bylo provedeo celkem u 5 chlapců a jejch otců. Z výsledků šetřeí byla sestavea korelačí tabulka pro zaky výška otce v cm (X) a výška sya v cm (Y) : Y 17 17,9 175 179,9 1 1,9 15 19,9 X 19 a více. 1 1,9 1 3 19 173,9 3 1 17 17,9 3 1 1 15 179 13,9 3 9 1 1,9 3 5 19 a více 1 1.j 11 1 5

Výška sya (cm) Příklad 1 5 195 19 15 1 175 17 15 1 Bodový korelačí graf pro zázorěí závslost mez výškou otce a výškou sya 1 15 17 175 1 15 19 195 Výška otce (cm) 3

Výška sya (cm) Postup př staoveí ejvhodější fukce logcké posouzeí daého vztahu které proměé a fukce přcházejí v úvahu, využtí zkušeostí z podobých aalýz apod. vytvořeí bodového korelačího grafu (scatter plot) jako ejvhodější zvolíme tu fukc, která má ejvyšší hodotu koefcety determace, příp. lze využít dalších matematckostatstckých krtérí (F test). Leárí regrese Metoda ejmeších čtverců Parametry fukce hledáme tak, aby součet čtverců chyb e byl mmálí. Pro daou regresí fukc teto součet azýváme rezduálí součet čtverců. 5 195 19 15 1 175 17 15 1 Bodový korelačí graf pro zázorěí závslost mez výškou otce a výškou sya rez 1 e x, y x, y 1 e ( y Hledáme koefcety b=(b, b 1 ) y) m. 1 15 17 175 1 15 19 195 Výška otce (cm) y b b x 1

Leárí regrese Metoda ejmeších čtverců Mějme dáo bodů [x, y ]. V deálím případě všechy leží a přímce. y b b x 1 1 1 y b b x 1 y b b x 1 y1 1 x1 y 1 x b b1 y 1 b x y A y A b y b b x A A b 1 Hledáme koefcety b=(b, b 1 ) Leárí aproxmačí problém y A b A y 1 b A A A y b A y Moore-Peroseova pseudoverzí matce 1 A A A A Mějme dáo bodů [x, y ]. Leárí regrese Metoda ejmeších čtverců Hledáme koefcety b=(b, b 1 ) y A b b A y A A A 1 A x= rad(5,1); %Norm dstrbuto y=-*x+rad(,1)/; % Nose lear depedece scatter(x,y,'flled','g') x(:,)=1; % colum wth 1 koef = v(x'*x)*x'*y %lear coeffcet vector b koef = lsolve(x,y) koef3 = x\y xx = m(x):.1:max(x); yy = koef(1).*xx+koef(); hold o plot(xx,yy) hold off y b b x 1 5

Leárí regrese y=b 1 x+b Z podmíky mmálost čtverců jsou vyvozey ormálí rovce, ze kterých se jejch řešeím vypočtou ezámé parametry b 1 a b. cov( xy, ) b1 var( x) xy xx b y b1 x Kovarace: Pearsoův korelačí koefcet: cov( x, y) x x y y 1 cov( xy, ) ( xy, ) var( x) var( y) Root Mea quare Error: xy ( xy, ) ( x) ( y) ( xy, ) 1,1 RME 1 Y Y Korelace áhodých proměých

Leárí regrese v Matlabu 1 y=b(1)*x+b() 9 7 5 3 1 =1; x=rad(,1); y=*x+rad(,1)/+3; % data scatter(x,y,5,'g','flled') [C,P]=corr(x,y) %R correlato, p-values H: No correlato. If P(,j) s small, say less tha.5, the the correlato R(,j) s sgfcat..5 1 1.5.5 3 3.5 [b,bt,r,rt,stats]=regress(y,[x,oes(,1)]); % stats: R^, F statstcs, p-value, refle(b) fprtf('r^ %1.3g \',stats(1)) fprtf('p-hodota = %1.3g \',stats(3)) % Rezduálí a regresí součet čtverců Rezduálí součet čtverců (ME* ) Regresí součet čtverců odchylek predkcí od průměru rez 1 e reg ( y y ) 1 ( y y) 1 Celkový součet = součet čtverců odchylek dat od průměru yy ( y y) 1 Regresí detta Koefcet determace R yy reg yy reg rez 1 rez yy Mea quared Error = rez / Root Mea quared Error RME rez 7

y Iterval spolehlvost pro predkc Pás spolehlvost Leárí regrese y=x y =,7x +,377 R =,973 1 - - -1-1 1 1 - - - x Leárí regrese v Matlabu 1 y=b(1)*x+b() 9 7 5 3 =1; x=rad(,1); y=*x+rad(,1)/+3; % data scatter(x,y,5,'g','flled') [R,P]=corr(x,y); % l. korelace, p-value, 1 [b,bt,r,rt,stats]=regress(y,[x,oes(,1)]); % stats: R^, F statstcs, p-value, refle(b).5 1 1.5.5 3 3.5 fprtf('r^ %1.3g \',stats(1)) fprtf('p-hodota = %1.3g \',stats(3)) %

Resduals Leárí regrese v Matlabu rcoplot(r,rt) Resdual Case Order Plot 1.5 1.5 -.5-1 -1.5-1 3 5 7 9 1 Case Number Leárí regrese v Matlabu polytool(x,y,1) - - - -1.5-1 -.5.5 1 1.5 9

Robustí leárí regrese v Matlabu robustdemo(x,y); [b_r,stats_r]=robustft(x,y) Use left mouse butto to select ad drag pots Use rght mouse butto to query pot propertes 7 5 rez 1 e ( y y ) 1 Mea quared Error = rez / Root Mea quared Error yleast 3 squares Robust 1-1 - -.5 - -1.5-1 -.5.5 1 1.5.5 x RME rez Least squares: Robust: Y =.957 + 1.911*X Y =.93 + 1.95*X RM error =.5 RM error =.53759 y a b x l y l a x l b b b1 Expoecálí regrese Použjeme leárí regres a trasformovaé y-souřadce. x,l y.5 1 1.5.5 3 b l a a e b l b b e x= rad(,1)*3; %uform dstrbuto (,3) yo=*3.^x+rad(,1); % ose exp. depedece y=a*b^x y=log(yo); scatter(x,yo,'flled','g') [C,P]=corr(x,y) %R - Lear correlato coeffcets x(:,)=1; % backward trasformato a=exp(koef()); b=exp(koef(1)); xx=m(x):.1:max(x); yy=a*b.^xx; 5 3 1 1 b b1 1

Neleárí regrese Neleárí regrese Fukc hledám v předepsaém tvaru (expoecálí, polyomálí, ) parametry alezeme metodou ejmeších čtverců Koefcet determace R popsá míra vhodost použtí regresí rovce pro predkováí. Hodoty blízké ule azačují, že zvoleá fukce eí vhodá. Naopak, hodoty blízké 1 azačují, že rovce je velm vhodá pro extrapolac. Malá hodota ale emusí zameat ízký stupeň závslost mez proměým, ale může sgalzovat špatě zvoleou regresí fukc R N 1 N 1 y y y y R reg yy 1 rez yy Mea quared Error = rez / Root Mea quared Error RME rez rez 1 e ( y y ) 1 11

y Neleárí regrese v Matlabu 1 y=b(1)*x +b()*x+b(3) 9 7 5 3 1 x=rad(1,1); y=x.^ + 3 + rad(1,1)/; scatter(x,y,5,'g','flled') b=polyft(x,y,); refcurve(b) -3 - -1 1 3 x Neleárí regrese v Matlabu polytool(x,y,) 1 1 1 - -1.5-1 -.5.5 1 1.5.5 1

y Neleárí regrese v Matlabu fuc=@(a,x)(a(1)*x.^+a()*x+a(3)); 9 a=[1;;3]; ahat=lft(x,y,fuc,a); %graf xrage = m(x):.:max(x); 7 hold o scatter(x,y) plot(xrage,fuc(ahat,xrage),'m') hold off 1 5 lft: @(a,x)(a(1)*x. +a()*x+a(3)); 3 - -1.5-1 -.5.5 1 1.5.5 3 x Neleárí regrese v Matlabu ltool(x,y,fuc,a) 1 9 7 5 3 -.5 - -1.5-1 -.5.5 1 1.5 13

esty korelačí aalýzy Kotgečí tabulky umožňují testováí růzých statstckých hypotéz: hypotéza o ezávslost zaků - oba zaky se vzájemě eovlvňují (výška rodčů emá vlv a výšku dětí) hypotéza o shodost struktury (homogetě) - očekávaé četost jsou v políčcích každého řádku ve stejém vzájemém poměru bez ohledu a kokrétí volbu řádku (rozložeí výšky je stejé u otců u syů) Klascký test ezávslost ebo homogety je založe a testu dobré shody, tedy porováí očekávaých četostí v jedotlvých políčcích tabulky za předpokladu, že hodoty obou sledovaých zaků a sobě ezávsí, a skutečých četostí Korelačí aalýza ordálích velč Je důležté odlšt případy, kdy je ordálího charakteru pouze jeda proměá a kdy obě. V případech, kdy jsou obě sledovaé proměé ordálího charakteru, můžeme použít testováí, založeé a pořadí. Wlcoxoův test Ma-Whtey test Kedallův korelačí koefcet τk - tau k Goodma-Kruskalův koefcet γ je varatou kedallova τk Pokud je ordálí je jeda, pak: Kruskal-Wallsův test 1