Pravděpodobnost vs. statistika. Data. Teorie pravděpodobnosti pracuje s jednou nebo více teoretickými náhodnými

Podobné dokumenty
letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Pravděpodobnost a aplikovaná statistika

Odhady parametrů 1. Odhady parametrů

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Náhodný výběr 1. Náhodný výběr

PRAVDĚPODOBNOST A STATISTIKA

12. N á h o d n ý v ý b ě r

Deskriptivní statistika 1

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

P2: Statistické zpracování dat

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Intervalové odhady parametrů

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

8. Odhady parametrů rozdělení pravděpodobnosti

V. Normální rozdělení

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

Intervalové odhady parametrů některých rozdělení.

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

vají statistické metody v biomedicíně

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Pravděpodobnostní model doby setrvání ministra školství ve funkci

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Pravděpodobnostní modely

Úloha II.S... odhadnutelná

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

14. B o d o v é o d h a d y p a r a m e t r ů

13 Popisná statistika

Úloha III.S... limitní

10.3 GEOMERTICKÝ PRŮMĚR

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Popisná statistika. Zdeněk Janák 9. prosince 2007

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

6. P o p i s n á s t a t i s t i k a

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

6. Posloupnosti a jejich limity, řady

8. Analýza rozptylu.

Elementární zpracování statistického souboru

2. Náhodná veličina. je konečná nebo spočetná množina;

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

3. Lineární diferenciální rovnice úvod do teorie

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Pravděpodobnost a aplikovaná statistika

4. B o d o v é o d h a d y p a r a m e t r ů

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Číselné charakteristiky náhodných veličin

NEPARAMETRICKÉ METODY

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

0,063 0,937 0,063 0, P 0,048 0,078 0,95. = funkce CONFIDENCE.NORM(2α; p(1 p)

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

2 EXPLORATORNÍ ANALÝZA

8.2.1 Aritmetická posloupnost I

Seriál XXX.II Zpracování dat fyzikálních měření

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství. Matematika IV. Semestrální práce

Náhodný výběr, statistiky a bodový odhad

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y

8. Základy statistiky. 8.1 Statistický soubor

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

PRAVDĚPODOBNOST A STATISTIKA

PŘÍKLAD NA PRŮMĚRNÝ INDEX ŘETĚZOVÝ NEBOLI GEOMETRICKÝ PRŮMĚR

Odhad parametrů normálního rozdělení a testy hypotéz o těchto parametrech * Věty o výběru z normálního rozdělení

17. Statistické hypotézy parametrické testy

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

Pravděpodobnost a statistika - absolutní minumum

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Komplexní čísla. Definice komplexních čísel

z možností, jak tuto veličinu charakterizovat, je určit součet

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

Závislost slovních znaků

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

1. Základy počtu pravděpodobnosti:

1.3. POLYNOMY. V této kapitole se dozvíte:

Teorie odhadů 2 Teorie odhadů... 3 Odhad parametrů... 4

Užití binomické věty

7. P o p i s n á s t a t i s t i k a

3. Charakteristiky a parametry náhodných veličin

8.2.1 Aritmetická posloupnost

Statistika pro metrologii

Kvantily. Problems on statistics.nb 1

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

7. Odhady populačních průměrů a ostatních parametrů populace

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Národní informační středisko pro podporu jakosti

Transkript:

Pravděpodobost vs. Teorie pravděpodobosti pracuje s jedou ebo více teoretickými áhodými veličiami, jejichž je zámo odvozovali jsme y těchto atd. Šárka Hudecová Katedra pravděpodobosti a matematické Matematicko-fyzikálí fakulta Uiverzity Karlovy letí semestr 2012 1 Statistika pracuje s pozorováími (daty) áhodý výběr z ějakého ezámého a základě dat se sažíme ěco říci o, z ěhož pocházejí (apř. o středí hodotě apod.) ěkdy pozorujeme více áhodých veliči (více áhodých výběrů) a chceme ěco usoudit o jejich vzájemém vztahu 1 Založeo a materiálech doc. Michala Kulicha Statististický přístup k řešeí problémů Data 1 co ejpřesější staoveí problému, otázky apod. 2 plá experimetu 3 sběr pozorováí datový soubor 4 výběr vhodého pravděpodobostího modelu popisujícího pozorovaých dat 5 formulace řešeého problému v řeči matematiky (matematické ) 6 aalýza dat pomocí statistické 7 správá iterpretace řešeí odpověd a původí otázku pozorováí (měřeí), která provádíme kvůli zodpovězeí položeé otázky upravujeme do formátu datové tabulky a uchováváme v elektroické podobě jako počítačový soubor pozorováí týkající se ezávislých subjektů áhodého výběru (osob, experimetů,...) většiou v řádcích, jedotlivé měřeé veličiy ve sloupcích k zazameáváí dat a maipulacím s imi se používají růzé druhy počítačového softwaru (databázové systémy, Excel, R, SAS,...) statistická aalýza pomocí statistických softwarů (R, SAS,...)

datového souboru y problémů k řešeí Tabulka: Část datové tabulky představující áhodý výběr z populace studetů 1. ročíku id pohl vys vaha.sour v.o v.m bydl........ 23 1 183 70 3 49 50 Vysočia 24 1 192 85 2 51 53 Jiží Morava 25 1 178 90 1 45 41 Karlovy Vary 26 0 168 55 1 53 53 Praha........ (celkem 269 pozorováí v letech 2006 2011) Jaká je typická hmotost studetů? Jaké proceto studetů je z Prahy? Jaké je věku studetů a předášce? Jsou otcové dětí starší ež matky? Pokud ao, o kolik? Závisí výška a pohlaví? Pokud ao, tak jak? Závisí velikost bot a výšce? Dva typy problémů: odhady ezámých kvatit odhady parametrů rozhodováí o platosti ějakého výroku testováí hypotéz datového souboru Teorie odhadu Studie zkoumající účiky ového léku pro sižováí krevího tlaku: id lék tlak pred tlak po pohl. váha... kuřák........ 103 T 145 120 M 82... ao 104 C 155 130 M 97... ao 105 T 140 135 Z 74... e 106 C 160 150 M 123... ao........ Je ový lék (T) účiější ež stadardí lék (C)? O kolik? Liší se účiost pro muže a žey? Jak? máme data x1,...,x (apř. hodoty výšky studetů) považujeme je za realizaci áhodého výběru X1,...,X z ějakého ezámého chceme ěco usuzovat o ách tohoto (středí hodota, rozptyl, hustota...) budeme kostruovat jejich odhady odhadů je moho, chceme vybrat ty dobré Jak by měl vypadat dobrý odhad? Neměl by mít žádou systematickou výchylku (v průměru by měl odhadovat to, co chceme odhadovat). S přibývajícím počtem pozorováí by měl být přesější a přesější.

Teorie odhadu příklad Formálí defiice Chceme odhadout typickou výšku (tj. středí hodotu) studetů 1. ročíku a základě měřeí provedeého a áhodě vybraých studetech. Měřeí odpovídají ezávislým áhodým veličiám X1,..., X z ějakého ezámého, jehož středí hodota EX = µx ás zajímá. Už víme, že: X má středí hodotu µx X µx pro X tedy v průměru dosahuje hodoty µx, kterou chceme odhadout, a se zvyšujícím se počtem pozorováí se k této hodě bĺıží X je dobrý odhad středí hodoty Defiice Odhadem ezámé y θ rozumíme jakoukoli fukci θ pozorováí X1,...,X. 1 Odhad θ azýváme estraý (evychýleý), pokud E θ = θ. 2 Odhad θ azýváme kozistetí, pokud lim θ = θ. Závěr: Rozumé odhady by měly být kozistetí a pokud možo estraé (ale malá výchylka evadí). Pozámka: Odhad je z pricipu áhodá veličia proto lze uvažovat jeho, středí hodotu atd. Co všecho budeme odhadovat? Odhad středí hodoty Problém: Máme áhodý výběr X1,...,X z ějakého ezámého. Potom ás můžou zajímat odhady ásledujících : středí hodota rozptyl kvatily (včetě mediáu) distribučí fukce hustota pro spojité pravděpodobosti P(X = xj) pro diskrétí... Situace: X1,...,X áhodý výběr, chceme odhadout EX Odhad: výběrový průměr X = 1 Xi, i=1 už víme, že teto odhad má dobré vlastosti. Charakteristika středí hodota EX = xip(x = xi) ebo EX = x f(x)dx platí E(a+bX) = a+bex platí E(X +Y) = EX +EY Odhad výběrový průměr X = 1 1 Xi platí totéž platí totéž

Odhad pravděpodobosti Odhaděte středí hodotu výšky studetů 1. ročíku PřF. Řešeí: Máme zazameaých 266 hodot (3 chybějící hodoty) áhodý výběr z populace studetů 1. ročíku PřF X = 1 (174+159+167+ +165+172+178) = 174.1 cm. 266 Podobě bychom mohli spočítat odhad středí hodoty veliči váha, BMI idex, věk otce, věk matky, rozdíl věku rodičů, velikost bot, počet sourozeců,... Má smysl počítat středí hodotu veličiy udávající pohlaví a měsíc arozeí? Situace: Máme áhodý výběr X1,...,X z diskrétího, chceme odhad pravděpodobostí pj = P[Xi = j] Odhad: relativí četost hodoty j #[Xi = j] pj = je počet pozorováí, která abyla hodoty j, děleý celkovým počtem pozorováí. Pozámka: popis tzv. kategoriálích zaků (pohlaví, bydliště...) aalogicky lze odhadovat pravděpodobosti typu P(Xi < 80) pro spojitá Xi Odhad pravděpodobosti Odhad rozptylu a směrodaté odchylky Odhaděte pravděpodobost, s jakou se vybraý(á) studet(ka) 1. ročíku PřF arodil(a) v daém měsíci. zazameá měsíc arozeí pro 269 studetů 23 se arodilo v ledu odhadutá pravděpodobost arozeí studeta v ledu je tedy 23/269 = 0.086. Kompletí tabulka pro všechy měsíce: Lede Úor Březe Dube Květe Červe 0.086 0.0631 0.067 0.093 0.108 0.078 Červeec Srpe Září Říje Listopad Prosiec 0.093 0.089 0.097 0.074 0.078 0.074 Situace: X1,...,X áhodý výběr, chceme odhadout rozptyl varx = E(X EX) 2 a směrodatou odchylku σx = varx : výběrový rozptyl S 2 = 1 (Xi X) 2 1 i=1 a výběrová směrodatá odchylka S = 1 (Xi X) 1 2. i=1 Dá se ukázat, že tyto odhady mají dobré vlastosti

Odhad rozptylu a směrodaté odchylky Odhad rozptylu a směrodaté odchylky Charakteristika rozptyl varx = E(X EX) 2 platí varx = EX 2 (EX) 2 var(a+bx) = b 2 varx varx 0 a varx = 0 právě tehdy, když X kostata Odhad výběrový rozptyl S 2 = 1 1 platí i=1 (Xi X)2 S 2 = ( 1 1 i=1 platí totéž ) Xi 2 X 2 S 2 0 a S 2 = 0 právě tehdy, když jsou všecha Xi stejá S 2 je estraý a kozistetí odhad σ2 X jiý možý odhad rozptylu je 1 (Xi X) 2. i=1 Teto odhad je kozistetí, ale eí estraý. S je kozistetí odhad σx, ale eí estraý Odhad rozptylu a směrodaté odchylky Odhad distribučí fukce Odhaděte rozptyl a směrodatou odchylku výšky studetů 1. ročíku PřF zvlášt pro muže a pro žey. Ve výběru máme 159 hodot výšek že (ozačíme je X1,...,X, kde = 159) a 110 hodot výšek mužů (ozačíme je Y1,...,Ym, kde m = 110). Výpočet výběrových rozptylů a směrodatých odchylek dá Skupia Výb. rozptyl Výb. směr. odchylka Žey 41.86 cm 2 6.47 cm Muži 41.62 cm 2 6.45 cm Problém: X1,...,X áhodý výběr, chceme odhadout distribučí fukci F(x) = P(X x) Odhad: empirická distribučí fukce defiovaá jako #[i : Xi x] F(x) = lze ukázat, že má dobré vlastosti hodota fukce F v bodě x je odhadem pravděpodobosti P[Xi x] pomocí relativí četosti jevu [Xi x] F má stejé vlastosti jako distribučí fce diskrétí veličiy

Odhad distribučí fukce Odhad distribučí fukce Vlastosti empirické distribučí fukce po částech kostatí Empirická distribučí fukce váhy studetů 1. ročíku PřF (muži a žey zvlášt ). skoky v pozorovaých hodotách veliči X1,...,X velikost skoku v daém bodě x je rova počtu veliči abývající hodoty x děleému : F áhodého výběru 2,5,1,2,6,4,5,2. F^(x) 1.0 0.8 0.6 0.4 EDF 0.0 0.2 0.4 0.6 0.8 1.0 zey muzi 0.2 40 60 80 100 120 0.0 0 1 2 3 4 5 6 7 Hmotost x Odhad hustoty Kostrukce histogramu Problém: X1,...,X áhodý výběr ze spojitého, chceme odhadout hustotu f odhad hustoty je relativě složitý problém spokojíme se s jedoduchou grafickou metodou histogram dává vizuálí představu o hustotě Histogram of vyska vezmeme iterval A = (a, b, který pokrývá celé rozmezí dat rozděĺıme jej a K avazujících stejě velkých poditervalů Ak, k = 1,...,K, všechy délky h = b a K ozačíme Nk počet pozorováí, které padly do Ak potom Nk h je dobrý odhad hustoty a itervalu Ak Odhad hustoty 0.00 0.01 0.02 0.03 0.04 Histogram grafické zázorěí Nk h a itervalech Ak ěkdy se zobrazují relativí četosti Nk aebo je četosti Nk stejý tvar, ale liší se škála a ose y

Histogram příklad Růzé druhy histogramů Histogram výšky studetů s proložeou hustotou ormálího Histogram of vyska Histogram of vyska Odhad hustoty 0.00 0.01 0.02 0.03 0.04 Histogram of vyska Odhad hustoty 0.00 0.01 0.02 0.03 0.04 Pocty 0 10 20 30 40 50 150 170 190 150 170 190 Histogram Odhad kvatilu tvar histogramu závisí a volbě K, tj. počtu uvažovaých itervalů 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 0.04 0.03 0.02 0.01 0.00 Problém: X1,...,Xáhodý výběr, chceme odhadout hodotu kvatilu qx(α). Speciálě, budeme chtít odhad mediáu mx qx(0.5). Připomeutí: a kvatil se můžeme dívat jako a hodotu, kterou Xi ve 100α % případů edosáhe a ve 100(1 α) % případů ji přesáhe spec. pro spojitou veličiu P(X < qx(α)) = α a P(X > qx(α)) = 1 α odhady sestrojíme pomocí tzv. uspořádaého výběru 150 170 190 150 170 190

Uspořádaý áhodý výběr Odhad mediáu Defiice Uspořádaým áhodým výběrem rozumíme sezam hodot původího áhodého výběru uspořádaý vzestupě podle velikosti. Uspořádaý výběr začíme idexem v závorce Musí tedy platit X (1),X (2),...,X ( 1),X (). áhodý výběr X1,...,X uspořádaý áhodý výběr mediá by měl odpovídat prostředí hodotě pro liché máme X (1)... X ( 1 2 }{{} ) X ( +1 2 ) X ( +3 2 ) X () }{{} 1 2 pak za odhad mediáu vezmeme X ( +1 2 ) pro sudé máme 1 2 X (1) X (2) X ( 1) X (). X (1) je tedy ejmeší pozorováí (miimum) z celého áhodého výběru a X () je ejvětší pozorováí (maximum). X (1)...X ( 2 ) } {{ } 2 X ( 2 +1) X () }{{} a žádá aměřeá hodota prostředí eí za odhad 2 mediáu vezmeme průměr X ( 2 ) a X ( 2 +1) Odhad kvatilu Odhad kvatilu použijeme aalogické úvahy ozačíme α = (+1)α je-li α celé číslo, pak odhadu q(α) odpovídá X (α) Jak chápat výraz v defiici výběrového kvatilu? Odhad: Kvatil q(α) odhademe pomocí α-tého výběrového kvatilu q(α) = { X (α), je-li α celé číslo, (1 α +[α])x ([α]) +(α [α])x ([α]+1), jiak, kde [x] je celá část čísla x. pro α = 0.5 dostaeme tzv. výběrový mediá, již diskutovaý q(α) je dobrý (kozistetí ale e estraý) odhad q(α) : q(α) = (1 α +[α])x ([α]) +(α [α])x ([α]+1) uvažujme = 33 počet pozorováí a α = 0.2, tj. chceme 20% kvatil logicky bychom měli bychom vzít (+1)α = 6.8-té pozorováí z uspořádaého výběru to elze místo toho vezmeme 7 6.8 = 0.2 z šestého a 6.8 6 = 0.8 ze sedmého pozorováí

Odhad kvatilu příklad Odhad kvatilu příklad (pokrač.) Odhaděte mediá věku otce a matky studetů 1. ročíku PřF v době arozeí studeta. záme současý věk rodičů, rok arozeí studeta a rok zázamu dat spočítáme věk rodičů při arozeí dítěte 258 pozorováí věku otce, 262 pozorováí věku matky otcové: výběrový mediá ze 258 pozorováí = průměr pozorováí č. 129 a 130 v uspořádaém áhodém výběru (dvě prostředí pozorováí) pro matky podobě dostaeme 27 let pro věk otce a 26 let pro věk matky polovia otců byla při arozeí dítěte ejvýše 27 let stará a polovia matek ejvýše 26 let stará Spočítáme ještě další výběrové kvatily věku rodičů při arozeí dítěte: kvatil 5% 10% 25% 75% 90% 95% otcové 20.85 22 24 31 35 37.30 matky 19.00 20 22 29 32 34.95 Odhad kovariace a korelace Výběrová kovariace Problém: áhodý výběr ( ) ( X1 Y1,..., X Y) z dvourozměrého, chceme odhadout kovariaci a korelaci zaků X a Y Připomeutí: kovariace cov(x,y) = E[(X EX)(Y EY)] měří závislost X a Y korelace ρxy = cov(x,y) varx vary je ormalizovaá verze, 1 ρxy 1 Kovariace: cov(x,y) = E[(X EX)(Y EY)] Odhad: výběrová kovariace SXY = 1 (Xi X)(Yi Y) 1 i=1 X je výběrový průměr X1,...,X Y je výběrový průměr Y1,...,Y SXY má stejou struktura jako teoretická kovariace, je středí hodoty ahrazey průměry SXY je dobrý odhad cov(x,y) jsou-li X,Y ezávislé cov(x,y) = 0 = ρxy

Odhad korelace Odhad kovariace a korelace Korelace: ρxy = cov(x,y) varx vary Odhad: výběrový korelačí koeficiet rxy = SXY SX SY = i=1 (Xi X)(Yi Y) i=1 (Xi X)2 i=1 (Yi Y)2. Charakteristika kovariace covx = E[(X EX)(Y EY)] platí cov(x,y) = EXY EXEY Odhad výběrová kovariace SXY = 1 1 i=1 (Xi X)(Yi Y) platí SXY = 1 1( i=1xiyi X Y) SX 2 je výběrový rozptyl X1,...,X S 2 Y je výběrový rozptyl Y1,...,Y rxy je podílem výběrové kovariace a součiu výběrových směrodatých odchylek rxy je dobrý (kozistetí ale e estraý) odhad ρxy korelace ρxy ρxy = cov(x,y) varxvary 1 ρxy 1 zaméko udává směr závislosti výběrová korelace rxy rxy = SXY SXSY 1 rxy 1 zaméko azačuje směr závislosti Odhad kovariace a korelace příklad Odhad kovariace a korelace: příklad Graf váhy proti výšce (rxy = 0.72): Odhaděte korelačí koeficiet mezi výškou a váhou studetů 1. ročíku PřF. zazameáo 266 hodot dvojice výška/váha (3 chybějící pozorováí) áhodý výběr z populace studetů 1. ročíku PřF výška X1,...,X, váha Y1,...,Y, = 266 uté spočíst X, Y, SX 2, S2 Y, SXY a dosadit do vzorečku (ebo použít statistický software) vyjde rxy = 0.72 Vyska 50 60 70 80 90 100 110 Vaha hodota rxy korespoduje s obrázkem zdá se, že větší výška se pojí s vyšší hmotostí

Histogram of vyska zea muz jaro leto podzim zima advaha podvaha 20 25 30 35 40 45 ormali Vek otce pri arozei ditete advaha podvaha zey muzi Odhad kovariace a korelace příklad shrutí Graf výšky proti věku otce při arozeí dítěte (rxy = 0.04): Vyska 20 25 30 35 40 45 Vek otce pri arozei ditete Teorie áhodý výběr středí hodota EX rozptyl varx mediá, kvatily qx(α) distribučí fukce F hustota f korelace ρxy data realizace áh.výběru výběrový průměr X výběrový rozptyl S 2 X výběrový mediá, kvatily qx(α) empirická distribučí fce F histogram výběrová korelace rxy ic eazačuje, že by výška ějak souvisela s věkem otce při arozeí dítěte Grafická prezetace dat Krabicový diagram (agl. boxplot) Odhad hustoty 0.00 0.01 0.02 0.03 0.04 grafické pro zkoumáí veliči a vztahů mezi imi dává ám vizuálí představu o aalyzovaých datech kvatitativí zaky již záme histogram a empirickou distribučí fukci krabicový graf bodový graf kategoriálí zaky sloupcový diagram výsečový (koláčový) diagram Cetosti 0 50 100 150 200 Vyska vek otcu pri arozei ditete 20 25 30 35 40 45 simultáě zobrazuje ěkolik vybraých emá závazou defiici kokrétí podoba se liší podle použitého softwaru a zadaých parametrů obvykle zakresle výběrový mediá a kvartily (ale lze i průměr a směr. odchylka) svisle položeá krabice horí a dolí okraj určují výběrové kvartily uprostřed čára určující výběrový mediá vousy (agl. whiskers) ukazují rozmezí dat od kvartilu k miimu/maximu (eí-li odlehlé) odlehlé pozorováí je dál ež 3/2 (Q3 Q1) od bližšího kvartilu

Krabicový diagram Bodový diagram (agl. scatterplot) Obrázek: Krabicový diagram výšky studetů podle pohlaví a podle ročího období při arozeí. zea muz jaro leto podzim zima slouží k zobrazeí dvou spojitých áhodých veliči dvojice pozorováí obou zkoumaých veliči zakresleé do kartézské soustavy souřadic vhodý k eformálímu zkoumáí závislosti mezi áhodými veličiami : Bodový diagram výšky studetů proti věku otce s rozlišeím pohlaví Vyska zey muzi 20 25 30 35 40 45 Vek otce pri arozei ditete Obdélíkový a výsečový diagram agl. barplot a pie chart zobrazují četosti, relativí četosti ebo proceta pro hodoty diskrétích (kategoriálích) veliči : obdélíkový a výsečový diagram veličiy udávající, zda má daý studet adváhu, podváhu ebo ormálí váhu Cetosti 0 50 100 150 200 ormali advaha podvaha advaha podvaha