KORELACE. Komentované řešení pomocí programu Statistica

Podobné dokumenty
Korelace. Komentované řešení pomocí MS Excel

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Testy nezávislosti kardinálních veličin

Lineární regrese. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel

Vzorová prezentace do předmětu Statistika

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

KGG/STG Statistika pro geografy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Tomáš Karel LS 2012/2013

Statistická analýza jednorozměrných dat

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Pearsonův korelační koeficient

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Návrhy dalších možností statistického zpracování aktualizovaných dat

Tomáš Karel LS 2012/2013

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Korelační a regresní analýza

Regresní a korelační analýza

Téma 9: Vícenásobná regrese

Zápočtová práce STATISTIKA I

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Aplikovaná statistika v R - cvičení 2

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Regresní a korelační analýza

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Charakteristika datového souboru

Průzkumová analýza dat

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Ilustrační příklad odhadu LRM v SW Gretl

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

NEPARAMETRICKÉ TESTY

INDUKTIVNÍ STATISTIKA

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Cvičení 12: Binární logistická regrese

Jednofaktorová analýza rozptylu

Jednovýběrové testy. Komentované řešení pomocí MS Excel

4. Zpracování číselných dat

= = 2368

Cvičení 9: Neparametrické úlohy o mediánech

Cvičení ze statistiky - 9. Filip Děchtěrenko

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Úvodem Dříve les než stromy 3 Operace s maticemi

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Regresní analýza. Eva Jarošová

Testování hypotéz a měření asociace mezi proměnnými

, Brno Hanuš Vavrčík Základy statistiky ve vědě

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

TECHNICKÁ UNIVERZITA V LIBERCI

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Pravděpodobnost a aplikovaná statistika

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Vybrané partie z biostatistiky

S E M E S T R Á L N Í

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Pravděpodobnost a matematická statistika

Porovnání dvou výběrů

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Národníinformačnístředisko pro podporu jakosti

Analýza dat na PC I.

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Regresní analýza 1. Regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

6. Lineární regresní modely

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Inovace bakalářského studijního oboru Aplikovaná chemie

4ST201 STATISTIKA CVIČENÍ Č. 10

PRAVDĚPODOBNOST A STATISTIKA

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Transkript:

KORELACE Komentované řešení pomocí programu Statistica

Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná statistika. Zajímá nás, zdali účast na cvičeních ovlivňuje výsledky zápočtových písemek (v součtu bodů za celý semestr). Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne bodový graf proložený grafem regresní funkce: Grafy Bodové grafy Proměnné na osu x zvolíme Docházku a na osu y Body OK OK Spočteme ještě koeficient determinace R 2 =,687: Statistiky Vícenásobná regrese Proměnné nezáv. prom. je Docházka a záv. prom. je Body OK OK

Body Vstupní data II Bodový graf z Body proti Docházka v % Body = 28,7569+,3624*x 2 18 16 14 12 1 8 6 4 2-2 -2 2 4 6 8 1 12 Docházka v % Z bodového grafu je patrné, že mezi docházkou a počtem bodů je pozitivní lineární závislost. Tato závislost je však dosti slabá, o čemž svědčí i velmi malý koeficient determinace R 2 =,687. Pomocí docházky by se nám tedy podařilo vysvětlit pouze necelých 7 % variability počtu bodů. Proto jsou bodové rozdíly jednotlivých studentů z převážné části ovlivněny jinými faktory. Z bodového grafu je též patrné, že studenty lze rozdělit v zásadě do dvou skupin na ty, kteří chodí pravidelně (účast nad 7 %), těch je většina, a na ty, kteří nechodí skoro vůbec (účast pod 2 %).

Základní statistiky Abychom získali základní představu o studovaných datech, spočítáme si základní charakteristiky dat Statistiky Základní statistiky Detailní výsledky zvolíme si, co nás zajímá Proměnné vybereme vše OK Výpočet a dále např. krabicové grafy Grafy Krabice zvolíme si úpravu, jakou si přejeme, např.

Krabicové grafy 2 Krabicový graf z více proměnných Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh. 18 16 14 12 1 8 6 4 2-2 Docházka v % Body Medián 25%-75% Rozsah neodleh. Odlehlé Extrémy

Grafické výstupy histogram, Q Q plot Chceme-li použít test nulovosti korelačního koeficientu, musíme nejdříve ověřit normalitu obou proměnných (ve skutečnosti bychom měli ověřit dvourozměrnou normalitu, to je však obtížné). K ověření (jednorozměrné) normality použijeme histogram a Q Q plot. Grafy Histogram nastavení Proměnné Docházka OK OK, stejně pro Body dále Detaily Shapiro Wilkův test (což je test normality dat), abychom se přesvědčili o našich úsudcích početně, nejen na základě grafických výstupů Grafy Grafy vstupních dat Pravděpodobnostní graf Body (či Docházka, podle toho, v které buňce tabulky s daty se nachází kurzor) Normál. pravděpodobnost

Histogramy I Histogram z Docházka v % Histogram z Body 26 Docházka v % = 83*1*normal(x; 71,4566; 29,956) 2 Body = 83*2*normal(x; 54,656; 41,462) 24 18 22 2 16 18 14 Počet pozorování 16 14 12 1 Počet pozorování 12 1 8 8 6 6 4 4 2 2-2 -1 1 2 3 4 5 6 7 8 9 1 11-2 2 4 6 8 1 12 14 16 18 2 22 Docházka v %: SW-W =,7771; p =. Docházka v % Body: SW-W =,9353; p =,4 Body

Histogram z Docházka v % Histogram z Body 26 Docházka v % = 83*1*normal(x; 71,4566; 29,956) 2 Body = 83*2*normal(x; 54,656; 41,462) Histogramy II Počet pozorování 24 22 2 18 16 14 12 1 8 Počet pozorování 18 16 14 12 1 8 6 Docházka Z histogramu je patrné, že empirické rozdělení docházky se výrazně liší od normálního rozdělení (jeho hustota je vyznačena červeně). Empirické rozdělení je bimodální, čímž se potvrdila naše domněnka o existenci dvou skupin studentů, s pravidelnou účastí a s minimální účastí. Z výše uvedeného vyplývá, že normalitu v případě docházky předpokládat nemůžeme, což nám ostatně potvrzuje i Shapirova Wilkův test (na výstupu bílý rámeček vlevo dole), jehož p hodnota je blízká nule. -2-1 1 2 3 4 5 6 7 8 9 1 11 Body Ve srovnání s docházkou je rozdělení počtu bodů blíže normálnímu rozdělení. Ale i v případě počtu bodů jsou patrné jisté rozdíly oproti normálnímu rozdělení. Hlavní rozdíl je zjevné zešikmení empirického rozdělení, zatímco normální rozdělení je symetrické. Shapirův Wilkův test normalitu bodů zamítá na hladině,4 %. 6 4 2 Docházka v %: SW-W =,7771; p =. Docházka v % 4 2-2 2 4 6 8 1 12 14 16 18 2 22 Body: SW-W =,9353; p =,4 Body

Q Q plot Q Q grafy potvrzují naše předchozí zjištění. Rozdělení docházky se výrazně liší od normálního. Rozdělení bodů se více podobá normálnímu rozdělení, ale i tak je zde patrný systematický rozdíl. 2, Normální p-graf z Docházka v % 3 Normální p-graf z Body 1,5 2 1, Oček. normál. hodnoty,5, -,5-1, Oček. normál. hodnoty 1-1 -1,5-2 -2, -2,5-2 2 4 6 8 1 12-3 -2 2 4 6 8 1 12 14 16 18 2 Pozorovaný kvantil Pozorovaný kvantil

Asymptotický test nezávislosti I Předpoklad normality tedy přijmout nemůžeme a nadále musíme s testem nulovosti korelačního koeficientu pracovat jako s asymptotickým testem. Výsledky pak musíme interpretovat opatrněji. Statistiky Základní statistiky Korelační matice 1 seznam proměn. Vybrat vše OK Výpočet Chceme-li znát p hodnota testu, v Možnosti zvolíme Zobrazit r, p-hodnoty a N

Asymptotický test nezávislosti II Úloha A) Na základě p hodnoty,17 můžeme zamítnout na hladině významnosti 5 % nulovou hypotézu o nezávislosti ve prospěch oboustranné alternativy. Prokázali jsme existenci lineární závislosti. Připomeňme ovšem, že na hladině významnosti 1 % už bychom nulovou hypotézu o nezávislosti nezamítali. Navíc spočítaná p hodnota je jen přibližná, protože se jedná o asymptotický test. Závěr o existenci lineární závislosti je tedy na hranici prokazatelnosti. Úloha B) V případě jednostranné alternativy je p hodnota,85, což je polovina p hodnoty pro oboustrannou alternativu. Tvrzení o existenci pozitivní lineární závislosti docházky a počtu bodů je tedy prokázáno i na hladině významnosti 1 %. I v tomto případě se však jedná pouze o přibližnou p hodnotu. Prokázali jsme tedy, že dobrá docházka má pozitivní vliv na výsledky studentů v testech. Tento vliv je však relativně slabý.

Spermanův test nezávislosti 2 18 Bodový graf z Body proti Docházka v % Jak je vidět, data nevypadají, že by byla lineárně 14 12 závislá. Přesto bychom přirozeně čekali, že by 1 vysoká docházka mohla mít pozitivní vliv na 8 6 výsledky testu. Neboli, že vztah mezi body a 4 docházkou je (až na náhodný faktor) rostoucí 2 funkce. Tímto monotónním typem závislosti se -2 zabývá Spearmanův korelační koeficient. Docházka v % Statistiky Neparametrické statistiky Korelace Vytvořit Detailní report Proměnné 1. seznam: Docházka, 2. seznam: Body OK Spearman. R Body 16-2 2 4 6 8 1 12 Ježto je p hodnota testu menší než 1 %, je to pro nás dostačující údaj, abychom zamítli nekorelovanost ve prospěch alternativy, že vztah mezi body a docházkou je rostoucí funkce.