Šárka Hudecová Katedra i a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 1 1 Založeno na materiálech doc. Michala Kulicha
Organizační pokyny k přednášce přednáškové slidy v tisknutelné formě viz http://www.karlin.mff.cuni.cz/~hudecova zkouška písemná, podrobnosti (bodování, počet otázek apod.) budou upřesněny ke konci semestru konzultace cvičení
Co je? Co je? Statistika = věda o získávání, zpracování a interpretaci informace obsažené v empirických pozorováních skutečného světa (v naměřených datech, průzkumech apod.) Základní dělení popisná (deskriptivní) popis konkrétních dat několika čísly a obrázky stručně vystihnout důležité závěry pouze o daných datech, nelze zobecňovat induktivní (konfirmatorní) na základě dat umožňuje odpovídat na obecné otázky o populaci závěry lze zobecnit odhady populačních parametrů předpoklady, znalost statistických metod důležitá je interpretace
Populace vs. data Co je? Konkrétní data Celá populace
Populace vs. data Co je? Konkrétní data Celá populace
Kde, kdy a proč se používá? Co je? Zkoumáme složitý systém nelze jednoduše pochopit nebo popsat pouze na základě teorie (tj. potřebujeme empirické zkušenosti) za stejných nebo podobných podmínek se může projevovat odlišným způsobem náhoda příklady: lidská společnost, ekonomika, lidské tělo, ekosystém, sport, vědecký experiment,...
Kde, kdy a proč se používá? Co je? Zkoumáme složitý systém nelze jednoduše pochopit nebo popsat pouze na základě teorie (tj. potřebujeme empirické zkušenosti) za stejných nebo podobných podmínek se může projevovat odlišným způsobem náhoda příklady: lidská společnost, ekonomika, lidské tělo, ekosystém, sport, vědecký experiment,... Druhy statistických úloh odhady parametrů výpočet číselných charakteristik testování hypotéz ověřování pravdivosti výroků predikce předpovědi optimalizace hledání optimálních parametrů
Příklad: data z přednášek z minulých let Co je? Na základě údajů z let 2006 2011 lze usuzovat že by tu dnes mělo být 60 % žen a 40% mužů přítomné studentky budou v průměru 168 cm vysoké, s hmotností 60 kg a velikostí bot asi 38,5 přítomní studenti budou v průměru 183 cm vysocí s hmotností 76 kg a velikostí bot asi 43 přes 30 % přítomných bude z Prahy, kolem 11 % ze středočeského kraje a jen velmi málo studentů bude ze Slovenska a Moravy nejvíce z přítomných má narozeniny v květnu, nejméně v únoru a březnu
Statistický přístup k řešení problémů Co je? 1 reálný problém, domněnka apod. 2 plán experimentu 3 sběr dat 4 výběr vhodného ního modelu 5 formulace problému v řeči matematické statistiky 6 aplikace statistických metod 7 interpretace, závěry, publikace...
Oblasti aplikace statistiky Co je? Přírodní vědy medicína, genetika, farmakologie, biologie, chemie, fyzika, meteorologie... Ekonomie makro & mikroekonomie, bankovnictví, pojišt ovnictví,... Technické vědy telekomunikace, doprava, počítače, strojírenství, kontrola jakosti, řízení a organizace výroby,... Společenské vědy sociologie, behaviorální vědy, archeologie, lingvistika, antropologie... A mnoho dalších (sport, marketing,...)
Obsah přednášky Co je? Cíl přednášky= porozumět základním principům statistických metod a pochopit řešení vybraných jednoduchých problémů.
Obsah přednášky Co je? Cíl přednášky= porozumět základním principům statistických metod a pochopit řešení vybraných jednoduchých problémů. Dvě základní části Základy i nezbytný teoretický základ pro výklad statistických metod, náhodná veličina a její rozdělení, střední hodnota, nezávislost,... Statistika popisné statistiky jako odhady populačních parametrů odhady, intervaly spolehlivosti, testy statistických hypotéz základní metody (vybrané testy) Důležité je osvojení si hlavních principů, pojmů, základních metod. Nikoliv učení se vzorečků.
Teorie i : matematický model náhody zkoumá náhodné jevy, tj. jevy, které mohou, ale nemusí nastat. S jakou í daný jev nastane? Jsou dané jevy na sobě nezávislé?
Teorie i : matematický model náhody Co to je náhoda? Kde se s ní setkáváme? zkoumá náhodné jevy, tj. jevy, které mohou, ale nemusí nastat. S jakou í daný jev nastane? Jsou dané jevy na sobě nezávislé?
náhodný pokus výsledek předem neurčitý (náhoda) množina všech možných výsledků Ω náhodný jev je tvrzení o výsledku pokusu, tj. A Ω prvky Ω se nazývají elementární náhodné jevy jev nemožný nenastává nikdy jev jistý je celá množina Ω a nastává vždy
náhodný pokus výsledek předem neurčitý (náhoda) množina všech možných výsledků Ω náhodný jev je tvrzení o výsledku pokusu, tj. A Ω prvky Ω se nazývají elementární náhodné jevy jev nemožný nenastává nikdy jev jistý je celá množina Ω a nastává vždy Příklad (Hod kostkou) Ω = {1,2,3,4,5,6} A = [padne sudé číslo] = {2,4,6}
náhodný pokus výsledek předem neurčitý (náhoda) množina všech možných výsledků Ω náhodný jev je tvrzení o výsledku pokusu, tj. A Ω prvky Ω se nazývají elementární náhodné jevy jev nemožný nenastává nikdy jev jistý je celá množina Ω a nastává vždy Příklad (Hod kostkou) Ω = {1,2,3,4,5,6} A = [padne sudé číslo] = {2,4,6} Příklad (Pohlaví 2 sourozenců) Ω = {KK,DK,KD,DD} nebo Ω = {KK,DK,DD} A = [alespoň jeden kluk] = {KK,KD,DK} nebo à = [alespoň jeden kluk] = {KK,KD}
Operace s náhodnými jevy Uvažujme náhodné jevy A,B Ω. podjev A B znamená A B jev opačný A c nastane A nenastane průnik jevů A B nastane nastanou zároveň A i B sjednocení jevů A B nastane nastane alespoň jeden z jevů A a B neslučitelné (disjunktní) jevy: A B =
Operace s náhodnými jevy Uvažujme náhodné jevy A,B Ω. podjev A B znamená A B jev opačný A c nastane A nenastane průnik jevů A B nastane nastanou zároveň A i B sjednocení jevů A B nastane nastane alespoň jeden z jevů A a B neslučitelné (disjunktní) jevy: A B = Podobně průnik a sjednocení více jevů A 1,...,A k : k A i = A 1 A 2 A k (všechny musí nastat); i=1 k A i = A 1 A 2 A k (alespoň jeden musí nastat). i=1
Operace s náhodnými jevy - příklady Příklad (Hod kostkou) Množina všech výsledků: Ω = {1,2,3,4,5,6} A = [padne sudé číslo] = {2,4,6}, B = [padne číslo větší než 3] = {4,5,6} jev opačný A c = [padne liché číslo] = {1,3,5}, B c = [padne číslo menší rovno třem] = {1,2,3} průnik A B = [padne sudé číslo větší než 3] = {4,6} sjednocení A B = [padne číslo sudé nebo větší než 3] = {2,3,4,6}
objektivní číselné vyjádření naděje, že nastane jev A přiřazuje náhodnému jevu A reálné číslo z intervalu [0, 1] (zkráceně pst, značeno P) musí mít následující vlastnosti: 1 0 P(A) 1 2 P(Ω) = 1, P( ) = 0, 3 je-li A B =, pak P(A B) = P(A)+P(B) Z těchto vlastností pak dále vyplývá 4 P(A c ) = 1 P(A), 5 pro B A je P(B) P(A) a P(A B) = P(A) P(B) 6 P(A B) = P(A)+P(B) P(A B)
i Předpoklady: Ω je konečná, tj. Ω = {ω 1,...,ω N } všechny elementární jevy ω i Ω jsou stejně pravděpodobné jevu A Ω je definována jako P(A) = A Ω = A N, kde A značí počet prvků množiny A. má zjevně všechny požadované vlastnosti.
i příklad 1 Příklad (Hod kostkou) Ω = {1,2,3,4,5,6}, uvažujeme náhodné jevy A = [padne sudé číslo] = {2,4,6}, B = [padne číslo větší než 3] = {4,5,6} Pak P(A) = 3 6 = 1 2, P(B) = 3 6 = 1 2, P(A B) = 2 6 = 1 3, P(A B) = 4 6 = P(A)+P(B) P(A B) = 1 1 3
i příklad 2 Příklad (Hod dvěma kostkami) Házímeme dvěma kostkami (modrá a zelená). Zajímá nás jevu A = [součet je alespoň 10]..
i příklad 2 Příklad (Hod dvěma kostkami) Házímeme dvěma kostkami (modrá a zelená). Zajímá nás jevu A = [součet je alespoň 10]. Ω je množina všech uspořádaných dvojic z čísel 1,2,3,4,5,6. Všech možností je: Ω = 6 6 = 36.
i příklad 2 Příklad (Hod dvěma kostkami) Házímeme dvěma kostkami (modrá a zelená). Zajímá nás jevu A = [součet je alespoň 10]. Ω je množina všech uspořádaných dvojic z čísel 1,2,3,4,5,6. Všech možností je: Ω = 6 6 = 36. Příznivé možnosti: (4,6), (5,5), (5,6), (6,4), (6,5), (6,6). Proto B = 6
i příklad 2 Příklad (Hod dvěma kostkami) Házímeme dvěma kostkami (modrá a zelená). Zajímá nás jevu A = [součet je alespoň 10]. Ω je množina všech uspořádaných dvojic z čísel 1,2,3,4,5,6. Všech možností je: Ω = 6 6 = 36. Příznivé možnosti: (4,6), (5,5), (5,6), (6,4), (6,5), (6,6). Proto B = 6 a tedy P(B) = 6 36 = 1 6.
i příklad 2 Příklad (Hod dvěma kostkami) Házímeme dvěma kostkami (modrá a zelená). Zajímá nás jevu A = [součet je alespoň 10]. Ω je množina všech uspořádaných dvojic z čísel 1,2,3,4,5,6. Všech možností je: Ω = 6 6 = 36. Příznivé možnosti: (4,6), (5,5), (5,6), (6,4), (6,5), (6,6). Proto B = 6 a tedy P(B) = 6 36 = 1 6. Poznámka: Kombinatorické pojmy (permutace, kombinační čísla apod.)
Nevýhody klasické i má dva velmi omezující předpoklady: 1 konečný počet elementárních jevů 2 elementární jevy ω musí být stejně pravděpodobné
Nevýhody klasické i má dva velmi omezující předpoklady: 1 konečný počet elementárních jevů 2 elementární jevy ω musí být stejně pravděpodobné Kdy nám klasická nestačí? nestejně pravděpodobné elem. jevy ω (nesymetrická mince) Ω není konečná (házíme na koš, dokud se netrefíme) Ω je abstraktní, nelze jednoduše popsat ω (chceme mluvit o i bankrotu banky apod.)
Nevýhody klasické i má dva velmi omezující předpoklady: 1 konečný počet elementárních jevů 2 elementární jevy ω musí být stejně pravděpodobné Kdy nám klasická nestačí? nestejně pravděpodobné elem. jevy ω (nesymetrická mince) Ω není konečná (házíme na koš, dokud se netrefíme) Ω je abstraktní, nelze jednoduše popsat ω (chceme mluvit o i bankrotu banky apod.) Obou předpokladů se potřebujeme zbavit obecnější a abstraktnější axiomatická i.
i Necht Ω je libovolná množina. í nazveme libovolnou funkci P definovanou na podmnožinách Ω, která má následující vlastnosti: 1 0 P(A) 1 pro libovolné A Ω, 2 P(Ω) = 1, 3 pro všechny A 1,A 2,... Ω takové, že A i A j = i j, platí ( ) P A i = P(A i ). i=1 i=1
Poznámky i: připouští konečné, spočetné i nespočetné množiny Ω elementární jevy nemusí být stejně pravděpodobné pro danou Ω lze zavést mnoho různých í mezi nimi si musíme sami zvolit (většinou to přirozeně vyplyne) Dále budeme (teoreticky) pracovat s obecnou axiomatickou definicí i. V příkladech ale budeme většinou používat klasickou.
Poznámky Poznámka pro náročné: Ve skutečnosti se zavádí jen pro tzv. měřitelné množiny, ne nutně pro všechny podmnožiny Ω (neměřitelnou množinu nepovažujeme za náhodný jev). Při nespočetné Ω (třeba Ω = R) nelze totiž rozumně zavést, která funguje pro všechny podmnožiny Ω.
Definice Necht jev B Ω má kladnou, P(B) > 0. Podmíněnou jevu A za podmínky, že nastal jev B, definujeme vztahem P(A B) = P(A B). P(B)
poznámky Nepodmíněná P(A) vypovídá o i výskytu jevu A v situaci, kdy nemáme žádné dodatečné informace o průběhu nebo výsledku experimentu. P(A B) vypovídá o i výskytu jevu A v situaci, kdy víme, že nějaký jiný jev B určitě nastal (tj. máme dodatečnou informaci) Poznámka Pozor, jevy A a B nelze prohazovat, protože obecně P(A B) P(B A).
Příklad dostihy Příklad Favority dostihu jsou koně Lívanec a Škobrt ák. Kursy bookmakerů naznačují, že vítězství Lívance je 0.2 a Škobrt áka 0.25. Škobrt ák však před startem spolkl hřebík a nepoběží. Jaká je, že vyhraje Lívanec?
Příklad dostihy Příklad Favority dostihu jsou koně Lívanec a Škobrt ák. Kursy bookmakerů naznačují, že vítězství Lívance je 0.2 a Škobrt áka 0.25. Škobrt ák však před startem spolkl hřebík a nepoběží. Jaká je, že vyhraje Lívanec? Řešení: Jevy: L = [vyhraje Lívanec], Š = [vyhraje Škobrt ák]. Máme P(L) = 0.2, P(Š) = 0.25, L Š =.
Příklad dostihy Příklad Favority dostihu jsou koně Lívanec a Škobrt ák. Kursy bookmakerů naznačují, že vítězství Lívance je 0.2 a Škobrt áka 0.25. Škobrt ák však před startem spolkl hřebík a nepoběží. Jaká je, že vyhraje Lívanec? Řešení: Jevy: L = [vyhraje Lívanec], Š = [vyhraje Škobrt ák]. Máme P(L) = 0.2, P(Š) = 0.25, L Š =. Odtud P(L Šc ) = P(L Šc ) P(Šc ) = P(L) P(Šc ) = 1/5 3/4 = 4 15., že vyhraje Lívanec, je 4/15 = 0.2667.
Příklad Příklad V šupĺıku jsou tři páry ponožek ze stejného materiálu: zelené, modré a bílé. Po tmě náhodně vyberete dvě ponožky a aniž byste ověřili jejich barvu, vyrazíte v nich do školy. Zjistěte, s jakou í máte obě ponožky stejné barvy, alespoň jedna obutá ponožka je zelená, na pravé noze je zelená ponožka máte obě ponožky stejné, jestliže v šupĺıku určitě zbyl pár zelených ponožek, máte obě ponožky stejné, jestliže na pravé noze máte zelenou.
Nezávislost dvou jevů Máme prostor elementárních jevů Ω a P. Definice A, B Ω nazýváme nezávislé, jestliže platí P(A B) = P(A)P(B). V opačném případě je nazýváme závislé.
Nezávislost dvou jevů Máme prostor elementárních jevů Ω a P. Definice A, B Ω nazýváme nezávislé, jestliže platí P(A B) = P(A)P(B). V opačném případě je nazýváme závislé. Necht jsou jevy A, B nezávislé a P(A) > 0, P(B) > 0. Pak P(A B) = P(A B) P(B) = P(A)P(B) P(B) = P(A) a podobně P(B A) = P(B). Jevy jsou tedy nezávislé, pokud jednoho jevu není nijak ovlivněna tím, zda druhý jev nastal nebo ne.
Nezávislost příklady Příklad Házíme dvěma kostkami (zelenou a modrou). Označme jevy A = [na modré kostce padlo sudé číslo], B = [součet čísel na obou kostkách je lichý]. Jsou jevy A a B nezávislé?
Nezávislost příklady Příklad Házíme dvěma kostkami (zelenou a modrou). Označme jevy A = [na modré kostce padlo sudé číslo], B = [součet čísel na obou kostkách je lichý]. Jsou jevy A a B nezávislé? Máme Ω = {(SS),(LL),(SL),(LS)}, kde S značí sudé číslo a L liché. Pak P(A) = 1 2, P(B) = 1 2, P(A B) = 1 4. Tj. platí podmínka P(A B) = P(A) P(B) a jevy jsou nezávislé.
Nezávislost příklady Příklad Házíme dvěma kostkami (zelenou a modrou). Označme jevy A = [na modré kostce padlo sudé číslo], B = [součet čísel je větší než 10]. Jsou jevy A a B nezávislé?
Nezávislost příklady Příklad Házíme dvěma kostkami (zelenou a modrou). Označme jevy A = [na modré kostce padlo sudé číslo], B = [součet čísel je větší než 10]. Jsou jevy A a B nezávislé? Ω je množina všech uspořádaných dvojic z čísel 1,2,3,4,5,6, Ω = 36 P(A) = 3 6 36 = 1 2, P(B) = 3 36 = 1 12, P(A B) = 2 36 = 1 18. Tj. neplatí podmínka P(A B) = P(A) P(B) a jevy jsou závislé.
Nezávislost příklady Příklad (Vtip o statistikovi v letadle) Statistik procházel bezpečnostní kontrolou na letišti, když byla v jeho kufru nalezena bomba. Vysvětloval: Podle statistik je přítomnosti bomby v letadle 0, 001. Takže šance, že na palubě budou dvě bomby, je 0,000001. Když si vezmu svoji bombu, cítím se pak mnohem bezpečněji. Bez své osobní bomby proto nikdy necestuji.
Nezávislost příklady Příklad (Vtip o statistikovi v letadle) Statistik procházel bezpečnostní kontrolou na letišti, když byla v jeho kufru nalezena bomba. Vysvětloval: Podle statistik je přítomnosti bomby v letadle 0, 001. Takže šance, že na palubě budou dvě bomby, je 0,000001. Když si vezmu svoji bombu, cítím se pak mnohem bezpečněji. Bez své osobní bomby proto nikdy necestuji. Označme A = [já mám v letadle bombu], B = [někdo jiný má v letadle bombu]. Jevy A a B jsou zjevně nezávislé (já nejsem člen žádné teroristické skupiny). Proto P(B A) = P(B) = 1 1000, a proto si bombu do letadla brát nemusíte.
Nezávislost poznámky Poznámka Jsou-li A,B nezávislé, pak (A,B c ), (A c,b), (A c,b c ) jsou též dvojice nezávislých jevů. Definice A 1,A 2,...,A n Ω nazýváme nezávislé právě když platí P(A 1 A 2 A n ) = P(A 1 )P(A 2 ) P(A n ).