Regresní a korelační analýza



Podobné dokumenty
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

REGRESNÍ ANALÝZA. 13. cvičení

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Regresní a korelační analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Využití logistické regrese pro hodnocení omaku

STATISTIKA (pro navazující magisterské studium)

Statistická analýza jednorozměrných dat

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Tomáš Karel LS 2012/2013

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresní a korelační analýza

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Regresní a korelační analýza

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Regresní analýza 1. Regresní analýza

LINEÁRNÍ REGRESE. Lineární regresní model

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

4ST201 STATISTIKA CVIČENÍ Č. 10

KGG/STG Statistika pro geografy

6 LINEÁRNÍ REGRESNÍ MODELY

4EK211 Základy ekonometrie

Mnohorozměrná statistická data

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Mnohorozměrná statistická data

Regresní a korelační analýza

MODELOVÁNÍ A SIMULACE

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

AVDAT Klasický lineární model, metoda nejmenších

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4EK211 Základy ekonometrie

Korelační a regresní analýza

Statistická šetření a zpracování dat.

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Regresní analýza. Eva Jarošová

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Inovace bakalářského studijního oboru Aplikovaná chemie

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

Analýza závislosti veličin sledovaných v rámci TBD

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

KGG/STG Statistika pro geografy

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

odpovídá jedna a jen jedna hodnota jiných

Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Přednáška č. 11 Analýza rozptylu při dvojném třídění

6. Lineární regresní modely

You created this PDF from an application that is not licensed to print to novapdf printer (

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

INDUKTIVNÍ STATISTIKA

4EK211 Základy ekonometrie

Testování hypotéz a měření asociace mezi proměnnými

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úvodem Dříve les než stromy 3 Operace s maticemi

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Technická univerzita v Liberci

Národníinformačnístředisko pro podporu jakosti

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

4EK211 Základy ekonometrie

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Ilustrační příklad odhadu LRM v SW Gretl

Kontingenční tabulky, korelační koeficienty

Porovnání dvou výběrů

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Bodové a intervalové odhady parametrů v regresním modelu

Kontingenční tabulky, korelační koeficienty

2. Najděte funkce, které vedou s těmto soustavám normálních rovnic

Teoretické modely diskrétních náhodných veličin

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Obsah. 3 Testy z test z test t test t test 2s... 35

10. Předpovídání - aplikace regresní úlohy

Statistické metody uţívané při ověřování platnosti hypotéz

PRAVDĚPODOBNOST A STATISTIKA

Odhady Parametrů Lineární Regrese

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Statistika (KMI/PSTAT)

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Teoretické modely diskrétních náhodných veličin

Simulační metody hromadné obsluhy

Transkript:

Regresní a korelační analýza

Závslost příčnná (kauzální). Závslostí pevnou se označuje případ, kdy výskytu jednoho jevu nutně odpovídá výskyt druhé jevu (a často naopak). Z pravděpodobnostního hledska jde o vztah, který se projeví s jstotou. Průběh závslost (v určtém ntervalu) lze přesně charakterzovat určtou matematckou funkcí. Volná závslost je závslost, př níž jeden jev podmňuje jev jný jen s určtou pravděpodobností a v různé ntenztě. Určté hodnotě jedné velčny odpovídá celá řada různých hodnot druhé velčny. U této závslost lze charakterzovat teoretcký průběh závslost a její těsnost. Regresní analýza se zabývá jednostranným závslostm. Jedná se o stuac, kdy prot sobě stojí vysvětlující (nezávsle) proměnná v úloze příčn a vysvětlovaná (závsle) proměnná v úloze následků. Korelační analýza se zabývá vzájemným (většnou lneárním) závslostm, kdy se klade důraz především na ntenztu (sílu) vzájemného vztahu než na zkoumání velčn ve směru příčna následek.

Dvourozměrné rozdělení četnost (x,y) = 0.0 6 4 y 0 - -4-6 -6-4 - 0 4 6 x

Kontngenční (korelační) tabulka Řádek korelační tabulky obsahuje rozdělení četností znaku Y za podmínky, že znak X nabyl určté konkrétní hodnoty (příp. hodnot určtého ntervalu). - podmíněné rozdělení četností znaku Y. oučtový řádek nepodmíněné rozdělení četností znaku Y. loupec korelační tabulky obsahuje rozdělení četností znaku X za podmínky, že znak Y nabyl určté konkrétní hodnoty (hodnot z určtého ntervalu), - podmíněné rozdělení četností znaku X. oučtový sloupec nepodmíněné rozdělení četností znaku X. Četnost v součtovém řádku a součtovém sloupc nazýváme okrajovým (margnálním) četnostm.

Příklad 1 Př sledování tělesné výšky chlapců byl vysloven předpoklad, že výška dítěte je do značné míry ovlvněna výškou rodčů. Následné šetření bylo provedeno celkem u 45 chlapců a jejch otců. Z výsledků šetření byla sestavena korelační tabulka pro znaky výška otce v cm (X) a výška syna v cm (Y) : Y 170 174,9 175 179,9 180 184,9 185 189,9 X 190 a více n. 164 168,9 1 3 169 173,9 3 1 8 174 178,9 3 8 1 1 15 179 183,9 3 6 9 184 188,9 3 5 8 189 a více 1 1 n.j 6 6 11 14 8 45

Výška syna (cm) Příklad 1 05 00 195 190 185 180 175 170 165 160 Bodový korelační graf pro znázornění závslost mez výškou otce a výškou syna 160 165 170 175 180 185 190 195 Výška otce (cm)

Postup př stanovení nejvhodnější funkce logcké posouzení daného vztahu které proměnné a funkce přcházejí v úvahu, využtí zkušeností z podobných analýz apod. vytvoření bodového korelačního grafu (scatter plot) jako nejvhodnější zvolíme tu funkc, která má nejvyšší hodnotu koefcenty determnace, příp. lze využít dalších matematckostatstckých krtérí (F test).

Výška syna (cm) Lneární regrese Metoda nejmenších čtverců Parametry funkce hledáme tak, aby součet čtverců chyb e byl mnmální. Pro danou regresní funkc tento součet nazýváme rezduální součet čtverců. 05 00 195 190 185 180 175 170 165 160 Bodový korelační ngraf pro n znázornění závslost mez výškou otce a výškou rez e ( y y ) mn. syna 1 1 y a x, y x, y e bx 160 165 170 175 180 185 190 195

Lneární regrese y=b 1 x+b 0 Z podmínky mnmálnost čtverců jsou vyvozeny normální rovnce, ze kterých se jejch řešením vypočtou neznámé parametry b 1 a b 0. b 1 cov( xy, ) var( x) Výběrový lneární korelační koefcent xy xx b0 y b1 x n 1 cov( x, y) x x y y n 1 1 Root Mean quare Error: RME n 1 Y Y n

Rezduální a regresní součet čtverců Rezduální součet čtverců (ME* n) Regresní součet čtverců odchylek predkcí od průměru rez n 1 e reg n ( y 1 n ( y 1 y) y) Celkový součet = součet čtverců odchylek dat od průměru yy n ( y 1 y) Regresní dentta Koefcent determnace R yy reg yy reg rez 1 rez yy Mean quared Error = rez /n Root Mean quared Error RME rez n

Výška syna (cm) 00 Korelační pole pro závslost výšky syna na výšce otce 195 190 185 180 175 y = 0,573x + 80,178 170 165 160 160 165 170 175 180 185 190 195 00 05 Výška otce (cm)

y Interval spolehlvost pro predkc Pás spolehlvost Lneární regrese y=x y =,007x +,3778 R = 0,6973 10 8 6 4 0 - - -1-1 0 1 1 - -4-6 x

Lneární regrese v Matlabu 10 y=b(1)*x+b() 9 8 7 6 5 4 3 n=100; x=randn(n,1); y=*x+randn(n,1)/+3; % data scatter(x,y,50,'g','flled') [R,P]=corr(x,y); % ln. korelace, p-value, 1 0 0 0.5 1 1.5.5 3 3.5 4 [b,bnt,r,rnt,stats]=regress(y,[x,ones(n,1)]); % stats: R^, F statstcs, p-value, reflne(b) fprntf('r^ %1.3g \n',stats(1)) fprntf('p-hodnota = %1.3g \n',stats(3)) %

Resduals Lneární regrese v Matlabu rcoplot(r,rnt) Resdual Case Order Plot 1.5 1 0.5 0-0.5-1 -1.5-10 0 30 40 50 60 70 80 90 100 Case Number

Lneární regrese v Matlabu polytool(x,y,1) 8 6 4 0 - -4 - -1.5-1 -0.5 0 0.5 1 1.5

Robustní lneární regrese v Matlabu robustdemo(x,y); [b_r,stats_r]=robustft(x,y) Use left mouse button to select and drag ponts Use rght mouse button to query pont propertes 8 7 6 5 4 rez n 1 e ( y 1 Mean quared Error = rez /n Root Mean quared Error n y) yleast 3 squares Robust 1 0-1 - -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5 x RME rez n Least squares: Robust: Y =.95067 + 1.9411*X Y =.9483 + 1.9454*X RM error = 0.50848 RM error = 0.534759

Nelneární regrese

Nelneární regrese Funkc hledám v předepsaném tvaru (exponencální, polynomální, ) parametry nalezneme metodou nejmenších čtverců Koefcent determnace R popsná míra vhodnost použtí regresní rovnce pro predkování. Hodnoty blízké nule naznačují, že zvolená funkce není vhodná. Naopak, hodnoty blízké 1 naznačují, že rovnce je velm vhodná pro extrapolac. Malá hodnota ale nemusí znamenat nízký stupeň závslost mez proměnným, ale může sgnalzovat špatně zvolenou regresní funkc R N 1 N 1 y y y y R reg yy 1 rez yy Mean quared Error = rez /n Root Mean quared Error RME rez n rez n 1 e n ( y 1 y)

Korelace náhodných proměnných 6 (x,y) = 0.0 0.0 (x,y) = 0.7 6 (x,y) = 0.7 4 4 y 0 y 0 - - -4-4 -6-6 -4-0 4 6-6 -6-4 - 0 4 6 x x N = 10000

Korelace náhodných proměnných (x,y) (x,y) = -0.7 = - (x,y) (x,y) = = 0.96 6 6 4 4 y 0 y 0 - - -4-4 -6-6 -4-0 4 6-6 -6-4 - 0 4 6 x x N = 10000

Korelace náhodných proměnných

Nelneární regrese v Excelu Graf > přdat spojnc trendu koefcent spolehlvost R je koefcent determnace

Nelneární regrese v Excelu Graf > přdat spojnc trendu koefcent spolehlvost R je koefcent determnace R reg yy

y Nelneární regrese v Matlabu 10 y=b(1)*x +b()*x+b(3) 9 8 7 6 5 4 3 1 x=randn(100,1); y=x.^ + 3 + randn(100,1)/; scatter(x,y,50,'g','flled') b=polyft(x,y,); refcurve(b) 0-3 - -1 0 1 3 x

Nelneární regrese v Matlabu polytool(x,y,) 14 1 10 8 6 4 0 - -1.5-1 -0.5 0 0.5 1 1.5.5

y Nelneární regrese v Matlabu func=@(a,x)(a(1)*x.^+a()*x+a(3)); 9 a0=[1;0;3]; ahat=nlnft(x,y,func,a0); %graf xrange = mn(x):.0:max(x); 7 hold on scatter(x,y) 6 plot(xrange,func(ahat,xrange),'m') hold off 10 8 5 nlnft: @(a,x)(a(1)*x. +a()*x+a(3)); 4 3 - -1.5-1 -0.5 0 0.5 1 1.5.5 3 x

Nelneární regrese v Matlabu nlntool(x,y,func,a0) 10 9 8 7 6 5 4 3 -.5 - -1.5-1 -0.5 0 0.5 1 1.5

Testy korelační analýzy Kontngenční tabulky umožňují testování různých statstckých hypotéz: hypotéza o nezávslost znaků - oba znaky se vzájemně neovlvňují (výška rodčů nemá vlv na výšku dětí) hypotéza o shodnost struktury (homogentě) - očekávané četnost jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku (rozložení výšky je stejné u otců u synů) Klascký test nezávslost nebo homogenty je založen na testu dobré shody, tedy porovnání očekávaných četností v jednotlvých políčcích tabulky za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávsí, a skutečných četností

Chí-kvadrát test v Excelu H 0 náhodné výběry pocházejí ze stejného rozdělené CHITET(aktuální;očekávané) aktuální četnost získáné použtím funkce četnost(data, hodnoty). očekávané jak by četnost vypadaly pro teoretcké rozdělení sestejným počtem pozorování a stejným hodnotam. funkce CHITET vrací p-hodnotu. Pro p<a zamítáme hypotézu, že jsou rozdělení stejná Chí-kvadrát test v Matlabu (procedury I.Nagy) chsquare_test.m chsquare_test_h.m H 0 :obě rozdělení jsou shodná chsquare_test_.m H 0 :rozdělení jsou nezávslá

Testování lneární regrese T test korelačního koefcentu (Pearsonův test) H 0 : data nejsou vhodná k lneární regres t_test_reg.m F test poměru vysvětleného a nevysvětleného rozptylu H 0 : data nejsou vhodná k lneární regres f_test_reg.m y kx q =LINREGREE(pole_y;pole_x;PRAVDA;PRAVDA) =INTERCEPT(pole_y;pole_x) =LOPE(pole_y;pole_x) absolutní člen q směrnce k

y Kvadratcká regrese Koefcent determnace 10 9 y = 1,9733x - 0,0103x + 0,5794 R = 0,9898 8 7 6 5 4 3 1 0 - - -1-1 0 1 1 x rez 3,617 reg 349,6751 `=VAR(f(x))*n průměr y,89,89 xx 56,75074 `=VAR(x)*n Celkový součet čtverců yy 353,3079 353,9 =rez+reg `=VAR(y)*n Rezduální rozptyl e 0,075357 =rez/(n-) Koefcent determnace R 0,98976 0,04605 =reg/(rez+reg) `=R^ Pearsonův korel. Koefcent R -0,14597-0,146 =PEARON(data_x;data_y)

F test poměru vysvětleného a nevysvětleného rozptylu H0: Data nejsou vhodná pro regres F ( n ) reg rez F(1, n ) pravostranný test p hodnota P F F 0 LINREGREE y=kx+q směrnce k, q,7158689 7,534689 st.chyba koefcentů 0,44474 0,749496 Koef. Determnace R,st. Chyba odhadu y 0,4603464 5,45447 F statstka, df 40,945939 48 regresn a rezdualn součet čtverců reg, rez 116,6159 130,706

Korelační analýza ordnálních velčn Je důležté odlšt případy, kdy je ordnálního charakteru pouze jedna proměnná a kdy obě. V případech, kdy jsou obě sledované proměnné ordnálního charakteru, můžeme použít testování, založené na pořadí. Wlcoxonův test Mann-Whtney test Kendallův korelační koefcent τk - tau k Goodman-Kruskalův koefcent γ je varantou kendallova τk Pokud je ordnální jen jedna, pak: Kruskal-Wallsův test