letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Podobné dokumenty
Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

Základy popisné statistiky

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Náhodný vektor a jeho charakteristiky

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Základy teorie pravděpodobnosti

Zápočtová práce STATISTIKA I

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Poznámky k předmětu Aplikovaná statistika, 4. téma

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Poznámky k předmětu Aplikovaná statistika, 4. téma

Pravděpodobnost a aplikovaná statistika

Chyby měření 210DPSM

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Základy pravděpodobnosti a statistiky. Popisná statistika

Charakterizace rozdělení

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Statistika pro geografy

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Základy teorie odhadu parametrů bodový odhad

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

1. Přednáška. Ing. Miroslav Šulai, MBA

Organizační pokyny k přednášce. Matematická statistika. Co je statistika? Přehled témat

NÁHODNÝ VEKTOR. 4. cvičení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Odhady Parametrů Lineární Regrese

MATEMATICKÁ STATISTIKA - XP01MST

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Informační technologie a statistika 1

Náhodné (statistické) chyby přímých měření

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

23. Matematická statistika

Praktická statistika. Petr Ponížil Eva Kutálková

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

PRAVDĚPODOBNOST A STATISTIKA

Mnohorozměrná statistická data

Analýza dat na PC I.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Statistika II. Jiří Neubauer

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Porovnání dvou výběrů

KGG/STG Statistika pro geografy

Výběrové charakteristiky a jejich rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Odhad parametrů N(µ, σ 2 )

Pojem a úkoly statistiky

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

Kontingenční tabulky, korelační koeficienty

Normální (Gaussovo) rozdělení

Mnohorozměrná statistická data

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tomáš Karel LS 2012/2013

STATISTICKÉ ODHADY Odhady populačních charakteristik

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Regresní analýza 1. Regresní analýza


Téma 22. Ondřej Nývlt

Číselné charakteristiky a jejich výpočet

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

STATISTICKÉ CHARAKTERISTIKY

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Jevy a náhodná veličina

Popisná statistika. Komentované řešení pomocí MS Excel

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Návrh a vyhodnocení experimentu

Neparametrické metody

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

I. D i s k r é t n í r o z d ě l e n í

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Šárka Hudecová Katedra pravděpodobnosti a matematické Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 1 1 Založeno na materiálech doc. Michala Kulicha

Opakování populace a výběr z populace náhodný výběr nezávislé náhodné veličiny X 1,...,X n se stejným m výběrový průměr X n a jeho vlastnosti střední hodnota rozptyl chování pro n, asymptotické

Pravděpodobnost vs. Teorie pravděpodobnosti pracuje s jednou nebo více teoretickými náhodnými veličinami, jejichž je známo odvozovali jsme y těchto atd. Statistika pracuje s pozorováními (daty) náhodný výběr z nějakého neznámého na základě dat se snažíme něco říci o, z něhož pocházejí (např. o střední hodnotě apod.) někdy pozorujeme více náhodných veličin (více náhodných výběrů) a chceme něco usoudit o jejich vzájemném vztahu

Statististický přístup k řešení problémů 1 co nejpřesnější stanovení problému, otázky apod. 2 plán experimentu 3 sběr pozorování datový soubor 4 výběr vhodného pravděpodobnostního modelu popisujícího pozorovaných dat 5 formulace řešeného problému v řeči matematiky (matematické ) 6 analýza dat pomocí statistické 7 správná interpretace řešení odpověd na původní otázku

Data pozorování (měření), která provádíme kvůli zodpovězení položené otázky upravujeme do formátu datové tabulky a uchováváme v elektronické podobě jako počítačový soubor pozorování týkající se nezávislých subjektů náhodného výběru (osob, experimentů,...) většinou v řádcích, jednotlivé měřené veličiny ve sloupcích k zaznamenávání dat a manipulacím s nimi se používají různé druhy počítačového softwaru (databázové systémy, Excel, R, SAS,...) statistická analýza pomocí statistických softwarů (R, SAS,...)

Příklad datového souboru Tabulka: Část datové tabulky představující náhodný výběr z populace studentů 1. ročníku id pohl vys vaha n.sour v.o v.m bydl........ 23 1 183 70 3 49 50 Vysočina 24 1 192 85 2 51 53 Jižní Morava 25 1 178 90 1 45 41 Karlovy Vary 26 0 168 55 1 53 53 Praha........ (celkem 269 pozorování v letech 2006 2011)

Příklady problémů k řešení Jaká je typická hmotnost studentů? Jaké procento studentů je z Prahy? Jaké je věku studentů na přednášce? Jsou otcové dětí starší než matky? Pokud ano, o kolik? Závisí výška na pohlaví? Pokud ano, tak jak? Závisí velikost bot na výšce? Dva typy problémů: odhady neznámých kvantit odhady parametrů rozhodování o platnosti nějakého výroku testování hypotéz

Příklad datového souboru Studie zkoumající účinky nového léku pro snižování krevního tlaku: id lék tlak pred tlak po pohl. váha... kuřák........ 103 T 145 120 M 82... ano 104 C 155 130 M 97... ano 105 T 140 135 Z 74... ne 106 C 160 150 M 123... ano........ Je nový lék (T) účinnější než standardní lék (C)? O kolik? Liší se účinnost pro muže a ženy? Jak?

Teorie odhadu máme data x 1,...,x n (např. hodnoty výšky studentů) považujeme je za realizaci náhodného výběru X 1,...,X n z nějakého neznámého chceme něco usuzovat o ách tohoto (střední hodnota, rozptyl, hustota...) budeme konstruovat jejich odhady odhadů je mnoho, chceme vybrat ty dobré

Teorie odhadu máme data x 1,...,x n (např. hodnoty výšky studentů) považujeme je za realizaci náhodného výběru X 1,...,X n z nějakého neznámého chceme něco usuzovat o ách tohoto (střední hodnota, rozptyl, hustota...) budeme konstruovat jejich odhady odhadů je mnoho, chceme vybrat ty dobré Jak by měl vypadat dobrý odhad? Neměl by mít žádnou systematickou výchylku (v průměru by měl odhadovat to, co chceme odhadovat). S přibývajícím počtem pozorování by měl být přesnější a přesnější.

Teorie odhadu příklad Příklad Chceme odhadnout typickou výšku (tj. střední hodnotu) studentů 1. ročníku na základě měření provedeného na n náhodně vybraných studentech. Měření odpovídají nezávislým náhodným veličinám X 1,...,X n z nějakého neznámého, jehož střední hodnota EX = µ X nás zajímá. Už víme, že: X n má střední hodnotu µ X X n µ X pro n X n tedy v průměru dosahuje hodnoty µ X, kterou chceme odhadnout, a se zvyšujícím se počtem pozorování se k této hodně bĺıží X je dobrý odhad střední hodnoty

Formální definice Definice Odhadem neznámé y θ rozumíme jakoukoli funkci θ n pozorování X 1,...,X n. 1 Odhad θ n nazýváme nestranný (nevychýlený), pokud E θ n = θ. 2 Odhad θ n nazýváme konzistentní, pokud lim n θn = θ. Závěr: Rozumné odhady by měly být konzistentní a pokud možno nestranné (ale malá výchylka nevadí). Poznámka: Odhad je z principu náhodná veličina proto lze uvažovat jeho, střední hodnotu atd.

Co všechno budeme odhadovat? Problém: Máme náhodný výběr X 1,...,X n z nějakého neznámého. Potom nás můžou zajímat odhady následujících : střední hodnota rozptyl kvantily (včetně mediánu) distribuční funkce hustota pro spojité pravděpodobnosti P(X = x j ) pro diskrétní...

Odhad střední hodnoty Situace: X 1,...,X n náhodný výběr, chceme odhadnout EX Odhad: výběrový průměr X n = 1 n n X i, i=1 už víme, že tento odhad má dobré vlastnosti. Charakteristika střední hodnota EX = x i P(X = x i ) nebo EX = x f(x)dx platí E(a+bX) = a+bex platí E(X +Y) = EX +EY Odhad výběrový průměr X n = 1 n n 1 X i platí totéž platí totéž

Příklad Příklad Odhadněte střední hodnotu výšky studentů 1. ročníku PřF. Řešení: Máme zaznamenaných 266 hodnot (3 chybějící hodnoty) náhodný výběr z populace studentů 1. ročníku PřF X = 1 (174+159+167+ +165+172+178) = 174.1 cm. 266 Podobně bychom mohli spočítat odhad střední hodnoty veličin váha, BMI index, věk otce, věk matky, rozdíl věku rodičů, velikost bot, počet sourozenců,... Má smysl počítat střední hodnotu veličiny udávající pohlaví a měsíc narození?

Odhad pravděpodobnosti Situace: Máme náhodný výběr X 1,...,X n z diskrétního, chceme odhad pravděpodobností p j = P[X i = j] Odhad: relativní četnost hodnoty j p j = #[X i = j] n je počet pozorování, která nabyla hodnoty j, dělený celkovým počtem pozorování n. Poznámka: popis tzv. kategoriálních znaků (pohlaví, bydliště...) analogicky lze odhadovat pravděpodobnosti typu P(X i < 80) pro spojitá X i

Odhad pravděpodobnosti Příklad Odhadněte pravděpodobnost, s jakou se vybraný(á) student(ka) 1. ročníku PřF narodil(a) v daném měsíci. zaznamenán měsíc narození pro 269 studentů 23 se narodilo v lednu odhadnutá pravděpodobnost narození studenta v lednu je tedy 23/269 = 0.086. Kompletní tabulka pro všechny měsíce: Leden Únor Březen Duben Květen Červen 0.086 0.0631 0.067 0.093 0.108 0.078 Červenec Srpen Září Říjen Listopad Prosinec 0.093 0.089 0.097 0.074 0.078 0.074

Odhad rozptylu a směrodatné odchylky Situace: X 1,...,X n náhodný výběr, chceme odhadnout rozptyl varx = E(X EX) 2 a směrodatnou odchylku σ X = varx : výběrový rozptyl S 2 n = 1 n 1 n (X i X n ) 2 i=1 a výběrová směrodatná odchylka S n = 1 n (X i X n ) n 1 2. i=1 Dá se ukázat, že tyto odhady mají dobré vlastnosti

Odhad rozptylu a směrodatné odchylky Charakteristika rozptyl varx = E(X EX) 2 platí varx = EX 2 (EX) 2 var(a+bx) = b 2 varx varx 0 a varx = 0 právě tehdy, když X konstanta Odhad výběrový rozptyl Sn 2 = 1 n n 1 i=1 (X i X n ) 2 platí Sn 2 = n ( 1 n 1 n platí totéž n i=1 ) Xi 2 X 2 n S 2 n 0 a S 2 n = 0 právě tehdy, když jsou všechna X i stejná

Odhad rozptylu a směrodatné odchylky S 2 n je nestranný a konzistentní odhad σ2 X jiný možný odhad rozptylu je 1 n n (X i X n ) 2. i=1 Tento odhad je konzistentní, ale není nestranný. S n je konzistentní odhad σ X, ale není nestranný

Odhad rozptylu a směrodatné odchylky Příklad Odhadněte rozptyl a směrodatnou odchylku výšky studentů 1. ročníku PřF zvlášt pro muže a pro ženy. Ve výběru máme 159 hodnot výšek žen (označíme je X 1,...,X n, kde n = 159) a 110 hodnot výšek mužů (označíme je Y 1,...,Y m, kde m = 110). Výpočet výběrových rozptylů a směrodatných odchylek dá Skupina Výb. rozptyl Výb. směr. odchylka Ženy 41.86 cm 2 6.47 cm Muži 41.62 cm 2 6.45 cm

Odhad distribuční funkce Problém: X 1,...,X n náhodný výběr, chceme odhadnout distribuční funkci F(x) = P(X x) Odhad: empirická distribuční funkce definovaná jako F n (x) = #[i : X i x] n lze ukázat, že má dobré vlastnosti hodnota funkce F n v bodě x je odhadem pravděpodobnosti P[X i x] pomocí relativní četnosti jevu [X i x] F n má stejné vlastnosti jako distribuční fce diskrétní veličiny

Odhad distribuční funkce Vlastnosti empirické distribuční funkce po částech konstantní skoky v pozorovaných hodnotách veličin X 1,...,X n velikost skoku v daném bodě x je rovna počtu veličin nabývající hodnoty x dělenému n Příklad: F n náhodného výběru 2,5,1,2,6,4,5,2. 1.0 0.8 0.6 F^n(x) 0.4 0.2 0.0 0 1 2 3 4 5 6 7 x

Odhad distribuční funkce Empirická distribuční funkce váhy studentů 1. ročníku PřF (muži a ženy zvlášt ). EDF 0.0 0.2 0.4 0.6 0.8 1.0 zeny muzi 40 60 80 100 120 Hmotnost

Odhad hustoty Problém: X 1,...,X n náhodný výběr ze spojitého, chceme odhadnout hustotu f odhad hustoty je relativně složitý problém spokojíme se s jednoduchou grafickou metodou histogram dává vizuální představu o hustotě Histogram of vyska Odhad hustoty 0.00 0.01 0.02 0.03 0.04 150 160 170 180 190 200 Vyska [cm]

Konstrukce histogramu vezmeme interval A = (a, b, který pokrývá celé rozmezí dat rozděĺıme jej na K navazujících stejně velkých podintervalů A k, k = 1,...,K, všechny délky h = b a K označíme N k počet pozorování, které padly do A k potom N k nh je dobrý odhad hustoty na intervalu A k Histogram grafické znázornění N k nh na intervalech A k někdy se zobrazují relativní četnosti N k anebo jen četnosti n N k stejný tvar, ale liší se škála na ose y

Histogram příklad Histogram výšky studentů s proloženou hustotou normálního Histogram of vyska Odhad hustoty 0.00 0.01 0.02 0.03 0.04 150 160 170 180 190 200 Vyska [cm]

Různé druhy histogramů Histogram of vyska Histogram of vyska Odhad hustoty 0.00 0.01 0.02 0.03 0.04 Pocty 0 10 20 30 40 50 150 170 190 Vyska [cm] 150 170 190 Vyska [cm]

Histogram tvar histogramu závisí na volbě K, tj. počtu uvažovaných intervalů 0.035 0.030 0.04 0.025 0.020 0.03 0.015 0.02 0.010 0.005 0.01 0.000 0.00 150 170 190 Vyska [cm] 150 170 190 Vyska [cm]

Odhad kvantilu Problém: X 1,...,X n náhodný výběr, chceme odhadnout hodnotu kvantilu q X (α). Speciálně, budeme chtít odhad mediánu m X q X (0.5). Připomenutí: na kvantil se můžeme dívat jako na hodnotu, kterou X i ve 100α % případů nedosáhne a ve 100(1 α) % případů ji přesáhne spec. pro spojitou veličinu P(X < q X (α)) = α a P(X > q X (α)) = 1 α odhady sestrojíme pomocí tzv. uspořádaného výběru

Uspořádaný náhodný výběr Definice Uspořádaným náhodným výběrem rozumíme seznam hodnot původního náhodného výběru uspořádaný vzestupně podle velikosti. Uspořádaný výběr značíme indexem v závorce X (1),X (2),...,X (n 1),X (n). Musí tedy platit X (1) X (2) X (n 1) X (n). X (1) je tedy nejmenší pozorování (minimum) z celého náhodného výběru a X (n) je největší pozorování (maximum).

Odhad mediánu náhodný výběr X 1,...,X n uspořádaný náhodný výběr medián by měl odpovídat prostřední hodnotě pro n liché máme X (1)... X ( n 1 2 }{{} ) X ( n+1 2 ) X ( n+3 2 ) X (n) }{{} n 1 n 1 2 2 pak za odhad mediánu vezmeme X ( n+1 2 ) pro n sudé máme X (1)...X ( n 2 ) }{{} n 2 X ( n 2 +1) X (n) }{{} n 2 a žádná naměřená hodnota prostřední není za odhad mediánu vezmeme průměr X ( n 2 ) a X ( n 2 +1)

Odhad kvantilu použijeme analogické úvahy označíme n α = (n+1)α je-li n α celé číslo, pak odhadu q n (α) odpovídá X (nα) Odhad: Kvantil q n (α) odhadneme pomocí α-tého výběrového kvantilu q n (α) = { X (nα), je-li n α celé číslo, (1 n α +[n α ])X ([nα]) +(n α [n α ])X ([nα]+1), jinak, kde [x] je celá část čísla x. pro α = 0.5 dostaneme tzv. výběrový medián, již diskutovaný q n (α) je dobrý (konzistentní ale ne nestranný) odhad q n (α)

Odhad kvantilu Jak chápat výraz v definici výběrového kvantilu? Příklad: q n (α) = (1 n α +[n α ])X ([nα]) +(n α [n α ])X ([nα]+1) uvažujme n = 33 počet pozorování a α = 0.2, tj. chceme 20% kvantil logicky bychom měli bychom vzít (n+1)α = 6.8-té pozorování z uspořádaného výběru to nelze místo toho vezmeme 7 6.8 = 0.2 z šestého a 6.8 6 = 0.8 ze sedmého pozorování

Odhad kvantilu příklad Příklad Odhadněte medián věku otce a matky studentů 1. ročníku PřF v době narození studenta. známe současný věk rodičů, rok narození studenta a rok záznamu dat spočítáme věk rodičů při narození dítěte 258 pozorování věku otce, 262 pozorování věku matky otcové: výběrový medián ze 258 pozorování = průměr pozorování č. 129 a 130 v uspořádaném náhodném výběru (dvě prostřední pozorování) pro matky podobně dostaneme 27 let pro věk otce a 26 let pro věk matky polovina otců byla při narození dítěte nejvýše 27 let stará a polovina matek nejvýše 26 let stará

Odhad kvantilu příklad (pokrač.) Spočítáme ještě další výběrové kvantily věku rodičů při narození dítěte: kvantil 5% 10% 25% 75% 90% 95% otcové 20.85 22 24 31 35 37.30 matky 19.00 20 22 29 32 34.95

Odhad kovariance a korelace Problém: náhodný výběr ( X 1 ) ( Y 1,..., Xn ) Y n z dvourozměrného, chceme odhadnout kovarianci a korelaci znaků X a Y Připomenutí kovariance cov(x,y) = E[(X EX)(Y EY)] měří závislost X a Y korelace ρ XY = cov(x,y) varx vary je normalizovaná verze, 1 ρ XY 1 jsou-li X,Y nezávislé cov(x,y) = 0 = ρ XY

Výběrová kovariance Kovariance: cov(x,y) = E[(X EX)(Y EY)] Odhad: výběrová kovariance S XY = 1 n 1 n (X i X)(Y i Y) i=1 X je výběrový průměr X 1,...,X n Y je výběrový průměr Y 1,...,Y n S XY má stejnou struktura jako teoretická kovariance, jen střední hodnoty nahrazeny průměry a místo E průměrujeme S XY je dobrý odhad cov(x,y)

Odhad korelace Korelace: ρ XY = cov(x,y) varx vary Odhad: výběrový korelační koeficient r XY = S XY S X S Y = n i=1 (X i X)(Y i Y) n i=1 (X i X) 2. n i=1 (Y i Y) 2 S 2 X je výběrový rozptyl X 1,...,X n S 2 Y je výběrový rozptyl Y 1,...,Y n r XY je podílem výběrové kovariance a součinu výběrových směrodatných odchylek r XY je dobrý (konzistentní ale ne nestranný) odhad ρ XY

Odhad kovariance a korelace Charakteristika kovariance covx = E[(X EX)(Y EY)] platí cov(x,y) = EXY EXEY korelace ρ XY ρ XY = cov(x,y) varxvary 1 ρ XY 1 znaménko udává směr závislosti Odhad výběrová kovariance S XY = 1 n n 1 i=1 (X i X)(Y i Y) platí S XY = n i=1 X iy i X Y ) n 1 n 1( n výběrová korelace r XY r XY = S XY S X S Y 1 r XY 1 znaménko naznačuje směr závislosti

Odhad kovariance a korelace příklad Příklad Odhadněte korelační koeficient mezi výškou a váhou studentů 1. ročníku PřF. zaznamenáno 266 hodnot dvojice výška/váha (3 chybějící pozorování) náhodný výběr z populace studentů 1. ročníku PřF výška X 1,...,X n, váha Y 1,...,Y n, n = 266 nutné spočíst X, Y, S 2 X, S2 Y, S XY a dosadit do vzorečku (nebo použít statistický software) vyjde r XY = 0.72

Odhad kovariance a korelace: příklad Graf váhy proti výšce (r XY = 0.72): Vyska 50 60 70 80 90 100 110 150 160 170 180 190 200 Vaha hodnota r XY koresponduje s obrázkem zdá se, že větší výška se pojí s vyšší hmotností

nic nenaznačuje, že by výška nějak souvisela s věkem otce při narození dítěte Odhad kovariance a korelace příklad Graf výšky proti věku otce při narození dítěte (r XY = 0.04): Vyska 150 160 170 180 190 200 20 25 30 35 40 45 Vek otce pri narozeni ditete

shrnutí Teorie náhodný výběr střední hodnota E X rozptyl var X medián, kvantily q X (α) distribuční funkce F hustota f korelace ρ XY data realizace náh.výběru výběrový průměr X n výběrový rozptyl S 2 X výběrový medián, kvantily q X (α) empirická distribuční fce F n histogram výběrová korelace r XY

Grafická prezentace dat grafické pro zkoumání veličin a vztahů mezi nimi dává nám vizuální představu o analyzovaných datech kvantitativní znaky již známe histogram a empirickou distribuční funkci krabicový graf bodový graf kategoriální znaky sloupcový diagram výsečový (koláčový) diagram Vyska 150 160 170 180 190 200 zeny muzi 20 25 30 35 40 45 Vek otce pri narozeni ditete Odhad hustoty 0.00 0.01 0.02 0.03 0.04 Histogram of vyska 150 160 170 180 190 200 150 160 170 180 190 200 zena muz 150 160 170 180 190 200 jaro leto podzim zima Cetnosti 0 50 100 150 200 nadvaha podvaha normalni nadvaha podvaha Vyska [cm]

Krabicový diagram (angl. boxplot) simultánně zobrazuje několik vybraných nemá závaznou definici konkrétní podoba se liší podle použitého softwaru a zadaných parametrů obvykle zakreslen výběrový medián a kvartily (ale lze i průměr a směr. odchylka) vek otcu pri narozeni ditete 20 25 30 35 40 45 svisle položená krabice horní a dolní okraj určují výběrové kvartily uprostřed čára určující výběrový medián vousy (angl. whiskers) ukazují rozmezí dat od kvartilu k minimu/maximu (není-li odlehlé) odlehlé pozorování je dál než 3/2 (Q 3 Q 1 ) od bližšího kvartilu

Krabicový diagram Obrázek: Krabicový diagram výšky studentů podle pohlaví a podle ročního období při narození. 150 160 170 180 190 200 150 160 170 180 190 200 zena muz jaro leto podzim zima

Bodový diagram (angl. scatterplot) slouží k zobrazení dvou spojitých náhodných veličin dvojice pozorování obou zkoumaných veličin zakreslené do kartézské soustavy souřadnic vhodný k neformálnímu zkoumání závislosti mezi náhodnými veličinami Příklad: Bodový diagram výšky studentů proti věku otce s rozlišením pohlaví Vyska 150 160 170 180 190 200 zeny muzi 20 25 30 35 40 45 Vek otce pri narozeni ditete

Obdélníkový a výsečový diagram angl. barplot a pie chart zobrazují četnosti, relativní četnosti nebo procenta pro hodnoty diskrétních (kategoriálních) veličin Příklad: obdélníkový a výsečový diagram veličiny udávající, zda má daný student nadváhu, podváhu nebo normální váhu Cetnosti 0 50 100 150 200 normalni nadvaha podvaha nadvaha podvaha