? Šárka Hudecová Katedra i a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 1? Statistika = věda o získávání, zpracování a interpretaci informace obsažené v empirických pozorováních skutečného světa (v naměřených datech, průzkumech apod.) Základní dělení popisná (deskriptivní) popis konkrétních dat několika čísly a obrázky stručně vystihnout důležité závěry pouze o daných datech, nelze zobecňovat induktivní (konfirmatorní) na základě dat umožňuje odpovídat na obecné otázky o populaci závěry lze zobecnit odhady populačních parametrů předpoklady, znalost statistických metod důležitá je interpretace 1 Založeno na materiálech doc. Michala Kulicha Populace vs. data Kde, kdy a proč se používá? Zkoumáme složitý systém?? nelze jednoduše pochopit nebo popsat pouze na základě teorie (tj. potřebujeme empirické zkušenosti) za stejných nebo podobných podmínek se může projevovat odlišným způsobem náhoda příklady: lidská společnost, ekonomika, lidské tělo, ekosystém, sport, vědecký experiment,... Druhy statistických úloh Konkrétní data Celá populace odhady parametrů výpočet číselných charakteristik testování hypotéz ověřování pravdivosti výroků predikce předpovědi optimalizace hledání optimálních parametrů
: data z přednášek z minulých let Statistický přístup k řešení problémů? Na základě údajů z let 2006 2011 lze usuzovat že by tu dnes mělo být 60 % žen a 40% mužů přítomné studentky budou v průměru 168 cm vysoké, s hmotností 60 kg a velikostí bot asi 38,5 přítomní studenti budou v průměru 183 cm vysocí s hmotností 76 kg a velikostí bot asi 43 přes 30 % přítomných bude z Prahy, kolem 11 % ze středočeského kraje a jen velmi málo studentů bude ze Slovenska a Moravy? 1 reálný problém, domněnka apod. 2 plán experimentu 3 sběr dat 4 výběr vhodného ního modelu 5 formulace problému v řeči matematické statistiky 6 aplikace statistických metod 7 interpretace, závěry, publikace... nejvíce z přítomných má narozeniny v květnu, nejméně v únoru a březnu Oblasti aplikace statistiky Obsah přednášky? Přírodní vědy medicína, genetika, farmakologie, biologie, chemie, fyzika, meteorologie... Ekonomie makro & mikroekonomie, bankovnictví, pojišt ovnictví,... Technické vědy telekomunikace, doprava, počítače, strojírenství, kontrola jakosti, řízení a organizace výroby,... Společenské vědy sociologie, behaviorální vědy, archeologie, lingvistika, antropologie...? Cíl přednášky= porozumět základním principům statistických metod a pochopit řešení vybraných jednoduchých problémů. Dvě základní části Základy i nezbytný teoretický základ pro výklad statistických metod, náhodná veličina a její rozdělení, střední hodnota, nezávislost,... Statistika popisné statistiky jako odhady populačních parametrů odhady, intervaly spolehlivosti, testy statistických hypotéz základní metody (vybrané testy) A mnoho dalších (sport, marketing,...) Důležité je osvojení si hlavních principů, pojmů, základních metod. Nikoliv učení se vzorečků.
Teorie i : matematický model náhody Co to je náhoda? Kde se s ní setkáváme? zkoumá náhodné jevy, tj. jevy, které mohou, ale nemusí nastat. S jakou í daný jev nastane? Jsou dané jevy na sobě nezávislé? náhodný pokus výsledek předem neurčitý (náhoda) množina všech možných výsledků Ω náhodný jev je tvrzení o výsledku pokusu, tj. A Ω prvky Ω se nazývají elementární náhodné jevy jev nemožný nenastává nikdy jev jistý je celá množina Ω a nastává vždy (Hod kostkou) Ω = {1,2,3,4,5,6} A = [padne sudé číslo] = {2,4,6} (Pohlaví 2 sourozenců) Ω = {KK,DK,KD,DD} nebo Ω = {KK,DK,DD} A = [alespoň jeden kluk] = {KK,KD,DK} nebo à = [alespoň jeden kluk] = {KK,KD} Operace s náhodnými jevy Operace s náhodnými jevy - příklady Uvažujme náhodné jevy A,B Ω. podjev A B znamená A B jev opačný A c nastane A nenastane průnik jevů A B nastane nastanou zároveň A i B sjednocení jevů A B nastane nastane alespoň jeden z jevů A a B neslučitelné (disjunktní) jevy: A B = Podobně průnik a sjednocení více jevů A 1,...,A k : k A i = A 1 A 2 A k (všechny musí nastat); i=1 k A i = A 1 A 2 A k (alespoň jeden musí nastat). i=1 (Hod kostkou) Množina všech výsledků: Ω = {1,2,3,4,5,6} A = [padne sudé číslo] = {2,4,6}, B = [padne číslo větší než 3] = {4,5,6} jev opačný A c = [padne liché číslo] = {1,3,5}, B c = [padne číslo menší rovno třem] = {1,2,3} průnik A B = [padne sudé číslo větší než 3] = {4,6} sjednocení A B = [padne číslo sudé nebo větší než 3] = {2,3,4,6}
i objektivní číselné vyjádření naděje, že nastane jev A přiřazuje náhodnému jevu A reálné číslo z intervalu [0, 1] (zkráceně pst, značeno P) musí mít následující vlastnosti: 1 0 P(A) 1 2 P(Ω) = 1, P( ) = 0, 3 je-li A B =, pak P(A B) = P(A)+P(B) Z těchto vlastností pak dále vyplývá 4 P(A c ) = 1 P(A), 5 pro B A je P(B) P(A) a P(A B) = P(A) P(B) 6 P(A B) = P(A)+P(B) P(A B) Předpoklady: Ω je konečná, tj. Ω = {ω 1,...,ω N } všechny elementární jevy ω i Ω jsou stejně pravděpodobné jevu A Ω je definována jako P(A) = A Ω = A N, kde A značí počet prvků množiny A. má zjevně všechny požadované vlastnosti. i příklad 1 i příklad 2 (Hod kostkou) (Hod dvěma kostkami) Ω = {1,2,3,4,5,6}, uvažujeme náhodné jevy A = [padne sudé číslo] = {2,4,6}, B = [padne číslo větší než 3] = {4,5,6} Pak P(A) = 3 6 = 1 2, P(B) = 3 6 = 1 2, P(A B) = 2 6 = 1 3, Házímeme dvěma kostkami (modrá a zelená). Zajímá nás jevu A = [součet je alespoň 10]. Ω je množina všech uspořádaných dvojic z čísel 1,2,3,4,5,6. Všech možností je: Ω = 6 6 = 36. Příznivé možnosti: (4,6), (5,5), (5,6), (6,4), (6,5), (6,6). Proto B = 6 a tedy P(B) = 6 36 = 1 6. P(A B) = 4 6 = P(A)+P(B) P(A B) = 1 1 3 Poznámka: Kombinatorické pojmy (permutace, kombinační čísla apod.)
Nevýhody klasické i i má dva velmi omezující předpoklady: 1 konečný počet elementárních jevů 2 elementární jevy ω musí být stejně pravděpodobné Kdy nám klasická nestačí? nestejně pravděpodobné elem. jevy ω (nesymetrická mince) Ω není konečná (házíme na koš, dokud se netrefíme) Ω je abstraktní, nelze jednoduše popsat ω (chceme mluvit o i bankrotu banky apod.) Necht Ω je libovolná množina. í nazveme libovolnou funkci P definovanou na podmnožinách Ω, která má následující vlastnosti: 1 0 P(A) 1 pro libovolné A Ω, 2 P(Ω) = 1, 3 pro všechny A 1,A 2,... Ω takové, že A i A j = i j, platí ( ) P A i = P(A i ). i=1 i=1 Obou předpokladů se potřebujeme zbavit obecnější a abstraktnější axiomatická i. Poznámky Poznámky i: připouští konečné, spočetné i nespočetné množiny Ω elementární jevy nemusí být stejně pravděpodobné pro danou Ω lze zavést mnoho různých í mezi nimi si musíme sami zvolit (většinou to přirozeně vyplyne) Dále budeme (teoreticky) pracovat s obecnou axiomatickou definicí i. V příkladech ale budeme většinou používat klasickou. Poznámka pro náročné: Ve skutečnosti se zavádí jen pro tzv. měřitelné množiny, ne nutně pro všechny podmnožiny Ω (neměřitelnou množinu nepovažujeme za náhodný jev). Při nespočetné Ω (třeba Ω = R) nelze totiž rozumně zavést, která funguje pro všechny podmnožiny Ω.
poznámky Definice Necht jev B Ω má kladnou, P(B) > 0. Podmíněnou jevu A za podmínky, že nastal jev B, definujeme vztahem P(A B) = P(A B). P(B) Nepodmíněná P(A) vypovídá o i výskytu jevu A v situaci, kdy nemáme žádné dodatečné informace o průběhu nebo výsledku experimentu. P(A B) vypovídá o i výskytu jevu A v situaci, kdy víme, že nějaký jiný jev B určitě nastal (tj. máme dodatečnou informaci) Poznámka Pozor, jevy A a B nelze prohazovat, protože obecně P(A B) P(B A). dostihy Favority dostihu jsou koně Lívanec a Škobrt ák. Kursy bookmakerů naznačují, že vítězství Lívance je 0.2 a Škobrt áka 0.25. Škobrt ák však před startem spolkl hřebík a nepoběží. Jaká je, že vyhraje Lívanec? Řešení: Jevy: L = [vyhraje Lívanec], Š = [vyhraje Škobrt ák]. Máme P(L) = 0.2, P(Š) = 0.25, L Š =. Odtud P(L Š c ) = P(L Šc ) P(Šc ) = P(L) P(Šc ) = 1/5 3/4 = 4 15., že vyhraje Lívanec, je 4/15 = 0.2667. V šupĺıku jsou tři páry ponožek ze stejného materiálu: zelené, modré a bílé. Po tmě náhodně vyberete dvě ponožky a aniž byste ověřili jejich barvu, vyrazíte v nich do školy. Zjistěte, s jakou í máte obě ponožky stejné barvy, alespoň jedna obutá ponožka je zelená, na pravé noze je zelená ponožka máte obě ponožky stejné, jestliže v šupĺıku určitě zbyl pár zelených ponožek, máte obě ponožky stejné, jestliže na pravé noze máte zelenou.
Nezávislost dvou jevů Nezávislost příklady Máme prostor elementárních jevů Ω a P. Definice A, B Ω nazýváme nezávislé, jestliže platí P(A B) = P(A)P(B). V opačném případě je nazýváme závislé. Necht jsou jevy A, B nezávislé a P(A) > 0, P(B) > 0. Pak Házíme dvěma kostkami (zelenou a modrou). Označme jevy A = [na modré kostce padlo sudé číslo], B = [součet čísel na obou kostkách je lichý]. Jsou jevy A a B nezávislé? Máme Ω = {(SS),(LL),(SL),(LS)}, kde S značí sudé číslo a L liché. Pak P(A B) = P(A B) P(B) = P(A)P(B) P(B) = P(A) a podobně P(B A) = P(B). Jevy jsou tedy nezávislé, pokud jednoho jevu není nijak ovlivněna tím, zda druhý jev nastal nebo ne. P(A) = 1 2, P(B) = 1 2, P(A B) = 1 4. Tj. platí podmínka P(A B) = P(A) P(B) a jevy jsou nezávislé. Nezávislost příklady Nezávislost příklady Házíme dvěma kostkami (zelenou a modrou). Označme jevy A = [na modré kostce padlo sudé číslo], B = [součet čísel je větší než 10]. Jsou jevy A a B nezávislé? Ω je množina všech uspořádaných dvojic z čísel 1,2,3,4,5,6, Ω = 36 P(A) = 3 6 36 = 1 2, P(B) = 3 36 = 1 12, P(A B) = 2 36 = 1 18. (Vtip o statistikovi v letadle) Statistik procházel bezpečnostní kontrolou na letišti, když byla v jeho kufru nalezena bomba. Vysvětloval: Podle statistik je přítomnosti bomby v letadle 0, 001. Takže šance, že na palubě budou dvě bomby, je 0,000001. Když si vezmu svoji bombu, cítím se pak mnohem bezpečněji. Bez své osobní bomby proto nikdy necestuji. Označme A = [já mám v letadle bombu], B = [někdo jiný má v letadle bombu]. Jevy A a B jsou zjevně nezávislé (já nejsem člen žádné teroristické skupiny). Proto Tj. neplatí podmínka P(A B) = P(A) P(B) a jevy jsou závislé. P(B A) = P(B) = 1 1000, a proto si bombu do letadla brát nemusíte.
Nezávislost poznámky Poznámka Jsou-li A,B nezávislé, pak (A,B c ), (A c,b), (A c,b c ) jsou též dvojice nezávislých jevů. Definice A 1,A 2,...,A n Ω nazýváme nezávislé právě když platí P(A 1 A 2 A n ) = P(A 1 )P(A 2 ) P(A n ).