charakteristiky variability Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 směrodatná odchylka rozptyl(variance)

Podobné dokumenty
literatura Statistika (MD360P03Z, MD360P03U) ak. rok 2010/2011

literatura Statistika (MD360P03Z, MD360P03U) ak. rok 2011/2012

příklad: předvolební průzkum Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 příklad: souvisí plánované těhotenství se vzděláním?

Informační technologie a statistika 1

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

charakteristiky polohy v geografii/demografii Statistika míry nerovnoměrnosti charakteristiky polohy v geografii/demografii(2)

Třídění statistických dat

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Číselné charakteristiky

Statistika pro geografy

Mnohorozměrná statistická data


MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Statistická analýza jednorozměrných dat

Měření závislosti statistických dat

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Základní statistické charakteristiky

Mnohorozměrná statistická data

INDUKTIVNÍ STATISTIKA

Cvičení ze statistiky - 3. Filip Děchtěrenko

Statistika. (MD360P03Z, MD360P03U) ak. rok 2013/2014. Karel Zvára

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

6. Lineární regresní modely

Praktická statistika. Petr Ponížil Eva Kutálková

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Charakterizace rozdělení

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

VNITROSKUPINOVÝ ROZPTYL. Je mírou variability uvnitř skupin Jiný název: průměr rozptylů Vypočítává se jako průměr rozptylů v jednotlivých skupinách

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika (MD360P03Z, MD360P03U) ak. rok 2008/2009

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Zápočtová práce STATISTIKA I

Charakteristika datového souboru

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

STATISTICKÉ CHARAKTERISTIKY

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

KGG/STG Statistika pro geografy

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Metodologie pro Informační studia a knihovnictví 2

Úvodem Dříve les než stromy 3 Operace s maticemi

Regresní a korelační analýza

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Metodologie pro ISK II

Základy pravděpodobnosti a statistiky. Popisná statistika

NÁHODNÝ VEKTOR. 4. cvičení

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

literatura Statistika (MD360P03Z, MD360P03U) ak. rok 2008/2009 cvičení, zápočet, zkouška přehled témat

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Základy biostatistiky (MD710P09) ak. rok 2007/2008

Kanonická korelační analýza

Základy biostatistiky (MD710P09) ak. rok 2008/2009

Metodologie pro Informační studia a knihovnictví 2

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

You created this PDF from an application that is not licensed to print to novapdf printer (

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Analýza dat na PC I.

Základní statistické pojmy

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

UKAZATELÉ VARIABILITY

Číselné charakteristiky a jejich výpočet

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

KGG/STG Statistika pro geografy

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

MATEMATIKA III V PŘÍKLADECH

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Základy popisné statistiky

Regresní a korelační analýza

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Kontingenční tabulky, korelační koeficienty

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Aplikovaná statistika v R

Jednofaktorová analýza rozptylu

Transkript:

Statistika MD360P03Z, MD360P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara 8. října 007 18) charakteristiky variability charakteristiky tvaru závislost dvojice znaků 418) charakteristiky variability měří nestejnostvariabilitu) hodnot spojité veličiny obecně pro míru variability sx) sax)=sx), sb x)=b sx), b >0 přičtením stejné konstanty aposunutím) se charakteristika variability nezměnínezávisí na poloze) vynásobení kladnou konstantou znamená, že stejnou konstantou nutno vynásobit charakteristiku variability rozpětí[range] R=x n) x 1) kvartilovérozpětí[quartilerange] R Q =Q 3 Q 1 Úvod 1. října 007 Statistika MD360P03Z, MD360P03U)ak. rok 007/008 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 48) rozptylvariance) výběrový) rozptylvariance)[variance][var.výběr][varx)] nevyhovujedruhémupožadavku,místotoho:s ab x =b s x) sx= 1 x1 x) x x)...x n x) ) = 1 ) x i x) = 1 xi n x = 1 k j=1 n j x j x) = 1 nechťx 1 =1,x =3,x 3 =8,pakje x=138)/3=1/3=4 k n j xj n x sx= 1 1 4) 3 4) 8 4) ) = 6 3 1 =13 =3,6. j=1 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 438) směrodatná odchylka rozptyl měří průměrný čtverec vzdálenosti od průměru směrodatná odchylka[std. deviation]: odmocnina z rozptylu [SMODCH.VÝBĚR][sdx)] s x = sx zcela vyhovuje požadavkům na míry variability výhoda směrodatné odchylky: stejný fyzikální rozměr jako původní data výběrový rozptyl z třídních četností: Sheppardova korekcejsou-li všechny intervaly délky h): odečti h 1

charakteristiky variability charakteristiky tvaru závislost dvojice znaků 448) příklad věk matek charakteristiky variability charakteristiky tvaru závislost dvojice znaků 458) příklad věkmatek rozpětí: R=38 18=0 kvartilovérozpětí: R Q =8 3=5 rozptyl s = 1 6 35...1 3 ) 99 98 =16,97. =4,1 směrodatná odchylka je 4,1 ) ) 544 99 pomocí třídních četností s = 1 98 5 19 7... 37 ) 99 =16,36=4,05) navíc Sheppardova korekce s =16,36 3 1 =3,95) ) ) 547 99 Var. řada věku matek charakteristiky variability charakteristiky tvaru závislost dvojice znaků 468) střední odchylka střední odchylka[mean deviation]: průměr odchylek od mediánuněkdy od průměru) [meanabsx-medianx)))] d= 1 n x i x střednídiference:průměrvzájemnýchvzdálenostívšechn dvojic = 1 n j=1 x i x j = ) xj) n x i) j>i charakteristiky variability charakteristiky tvaru závislost dvojice znaků 478) normované charakteristiky rozptýlenosti dosud zavedené charakteristiky variability závisejí na volbě měřítkanapř.délkavmnebovkm) hledáme charakteristiky nezávislé na měřítku, nutně poměrové měřítko, kladné hodnoty umožní porovnání z různých souborů variační koeficient [sdx)/meanx)] v= s x x Giniho) koeficient koncentrace G= = n i x i) x n n x n1 ) i n například měří nerovnoměrnost příjmů, velikostí územních jednotek, souvisí s plochou u Lorenzovy křivky

charakteristiky variability charakteristiky tvaru závislost dvojice znaků 488) z-skór, standardizace charakteristiky variability charakteristiky tvaru závislost dvojice znaků 498) charakteristiky tvaru: šikmost variačníkoeficientv,ginihokoeficientg příklady bezrozměrných veličinzásluhou průměru ve jmenovateli závisí Givnaposunutí!) z-skóry [STANDARDIZEx;průměrx);smodch.výběrx))] *[x-meanx))/sdx)]nebo[cscalex))] z i = x i x s x,,,...,n dostanemenulovýprůměr z=0),jednotkovýrozptyls z =1) z-skóry jsou bezrozměrné umožní hodnotit vlastnosti nezávislé na poloze a variabilitě, např. tvar rozdělení x 1 =1,x =,x 3 =3 x=,s x =1 z 1 = 1 1 = 1,z = 1 =0,z 3 = 3 1 =1 invariantní vůči posunutí i změně měřítka: γax)=γx) γb x)=γx) b >0 šikmost b 1 průměrz3.mocninz-skórů [SKEW)] [meanscalex)ˆ3)] b1 = 1 n xi x prosymetrickýhistogram b 1 blízkénule s x ) 3 dopravaprotaženýhistogrampro b 1 >>0 dolevaprotaženýhistogrampro b 1 <<0 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 508) charakteristiky tvaru: špičatost charakteristiky variability charakteristiky tvaru závislost dvojice znaků 518) přehled závislostí špičatostb průměrze4.mocninz-skórů někdy se odečítá 3)[KURT)] [meanscalex)ˆ4)] b = 1 n xi x někdy se počítají odhady populační šikmosti a špičatosti jinak Excel:s x jinak,fisherovog 1,g prozajímavost) n) g 1 = b1, g = n s x ) 4 n1)) b n )n 3) šikmost a špičatost slouží k hodnocení, zda lze předpokládat normální rozděleníbude zavedeno později) ) 3) n1 abychom mohli vyšetřovat závislost, musíme na jedné statistické jednotce měřit aspoň dva znaky postupyi grafické) závisí na měřítcích obou znaků kvalitativní kvalitativní vzdělání pracovní zařazení) kvalitativní kvantitativní vzdělání roční příjem) kvantitativní kvantitativní věk roční příjem) zatím popisné charakteristiky a grafy, prokazování závislosti později

charakteristiky variability charakteristiky tvaru závislost dvojice znaků 58) kvalitativní kvalitativní charakteristiky variability charakteristiky tvaru závislost dvojice znaků 538) příklad vzdělání matek pozor na orientaci grafu!) kvalitativní data znak v nominálnímordinálním) měřítku hodnoty vyjadřujeme pomocí četností dvaznaky četnostimožnýchdvojichodnotn ij sdružené četnosti) zapisujeme do kontingenční tabulky[contingency table] [tablex,y)] nebo[xtabs xy)] doplňujeme marginální četnosti[marginal frequencies] součtypořádcíchaposloupcích četnostijednotlivýchhodnotkaždéhozeznakůzvlášť oba znaky nula-jedničkové kontingenční tabulka, čtyřpolní tabulka[fourfold table] základní 3 11 34 střední 30 17 47 VŠ 17 1 18 celkem 70 9 99 základní 3,9% 37,9% 34,3% střední 4,8% 58,6% 47,5% VŠ 4,3% 3,5% 18,% celkem 100% 100% 100% 0 0 40 60 80 100 Praha venkov charakteristiky variability charakteristiky tvaru závislost dvojice znaků 548) příklad vzdělání matek pozor na orientaci) charakteristiky variability charakteristiky tvaru závislost dvojice znaků 558) kvalitativní kvantitativní základní 3 11 34 střední 30 17 47 VŠ 17 1 18 celkem 70 9 99 základní 67,6% 3,4% 100% střední 63,8% 36,% 100% VŠ 94,4% 6,6% 100% celkem 70,7% 9,3% 100% 0 0 40 60 80 100 zákl. str. V podle kvalitativní proměnné rozdělíme hodnoty kvantitativní proměnné do dílčích souborů porovnáme charakteristiky dílčích souborůzejména charakteristiky polohy) mezi sebou, pokud se hodně liší, svědčí to pro závislost celkový průměr = vážený průměr dílčích souborů. celkový rozptyl = vážený průměr rozptylů vážený rozptyl průměrůpřesně jen pro populační rozptyly s n ve jmenovateli) snáze jako rozklad součtu čtverců

charakteristiky variability charakteristiky tvaru závislost dvojice znaků 568) příklad: platy u tří skupin zaměstnanců skup. příjem n j x j s j sj žlutí 00 150 175,00 35,4 150,0 modří 80706060 4 67,50 9,6 91,7 černí 00181815151010 8 15,75 4,0 16, celkem 746 14 53,9 57,7 3334,4 x= 175,04 67,508 15,75 =53,9 48 s =3334,4 > 150,04 91,78 16, =14,0 48 neváženýnesmyslný) průměr by byl 86,08! rozptyl celkem je mnohem větší, než jsou rozptyly ve skupinách příčina: nestejné průměry charakteristiky variability charakteristiky tvaru závislost dvojice znaků 578) rozklad součtu čtverců velikost kolísání všech platůcelková variabilita): SST=00 53,9) 150 53,9) 80 53,9)... 10 53,9) =43346,86 velikost kolísání uvnitř skupin: SSE=00 175) 150 175) 80 67,5)... 10 15,75) =1638,5 kolísání průměrůmezi skupinami): SSA= 175 53,9) 4 67,5 53,9) 8 15,75 53,9) =41708,36 kontrola: 1 638,541 708,36=43 346,86 charakteristiky variability charakteristiky tvaru závislost dvojice znaků 588) rozklad součtu čtverců obecně x ij j-táhodnotavi-téskupiněplatj-téosobyvi-téskupině) n i počethodnotvi-téskupině,kpočetskupin x i průměrvi-téskupiněprůměrnýplatvi-téskupině) x celkovýprůměrprůměrvšechplatů) SST= = k n i x ij x ) j=1 k k n i n i x i x ) x ij x i ) j=1 =SSASSE charakteristiky variability charakteristiky tvaru závislost dvojice znaků 598) kvantitativní kvantitativní [plotiq zn7,data=iq,col=1divka,pch= )] IQ 70 80 90 110 130 záporná korelace 1.0 1.5.0.5 3.0 známky delka 65 70 75 kladná korelace 6000 8000 10000 hmotnost r= 0,69 r=0,45

charakteristiky variability charakteristiky tvaru závislost dvojice znaků 608) popis závislosti spojitých veličin charakteristiky variability charakteristiky tvaru závislost dvojice znaků 618) příklad: hmotnost a délka dětí4. týden věku) výběrová) kovariance[covariance] [covvek.o,vek.m)] s xy = 1 x i x)y i ȳ) zřejmějes xx = 1 n 1 n x i x)x i x)=s x,s yy =s y Pearsonův, momentový) korelační koeficient [Pearson, product-moment) correlation coefficient] lze zapsat pomocí z-skórů r= s xy s x s y = 1 ) xi x ȳ yi s x s y [corvek.o,vek.m)] délka[cm]: x=68,5 s x =3,8 hmotnost[g]:ȳ=7690, s y =845 kovariance[cm g]:s xy =157 korelačníkoeficient:r= 157 3,8 845 =0,45 hmotnost[kg]:ȳ=7,69 s y =0,845 kovariance[cm kg]:s xy =1,57 korelačníkoeficient:r= 1,57 3,8 0,845 =0,45 které charakteristiky závisí na použitém měřítku? charakteristiky variability charakteristiky tvaru závislost dvojice znaků 68) vlastnosti Pearsonova korelačního koeficient vypovídá o směru závislosti přir <0srostoucímxvprůměruyklesánapř.IQaznámky) přir >0srostoucímxvprůměruyrostenapř.váhaavýška) platí 1 r 1 r =1jedinětehdy,kdyžbody[x;y]ležínapřímce vzájemné nezávislosti x, y odpovídají r blízká nule upřesníme!) nemusí zachytit křivočarounelineární) závislost