Statistika Cvičení z matematické statistiky na PřF Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy léto 2012 Základní dělení popisná (deskriptivní) popis konkrétních dat několika čísly a obrázky stručně vystihnout důležité aspekty závěry pouze o daných datech, nelze zobecňovat induktivní (konfirmatorní) na základě dat umožňuje odpovídat na obecnější otázky závěry lze zobecnit předpoklady (pravděpodobnostní model), znalost statistických metod důležitá je interpretace Program R popisná popis konkrétních datových souborů doplnění přednášky procvičení probírané látky ilustrace tvrzení z přednášky doplňující příklady vybrané metody matematické statistiky (induktivní ) praktická aplikace konkrétních metod kdy, proč a jak kterou metodu použít interpretace a prezentace výsledků Pracovat budeme s programem R volně a zdarma dostupný na http://wwwr-projectorg/ nádstavba R-commander (package Rcmdr) nabízí jak uživatelsky sympatické prostředí, tak i dostatečnou flexibilitu (možnost psaní vlastních funkcí, otevřený kód apod)
Požadavky k zápočtu docházka (možnost 3 absence) vypracování závěrečného domácího projektu praktické zpracování konkrétních dat od popisné statistiky přes odhady až po testování hypotéz výsledek pozorování (měření) pozorování provádíme na nezávislých subjektech osoby, experimenty, státy, pacienti, rostliny, měříme (zjišt ujeme) hodnoty znaků (veličin, vlastností) hmotnost, koncentrace určité látky, politický názor, na jednom subjektu můžeme měřit více znaků na základě dat bychom rádi vypovídali o obecných vlastnostech populace, odkud subjekty pochází induktivní statistické metody popis konkrétního datového souboru je nedílnou součástí každé analýzy popisná Příklad datového souboru upravujeme do formátu datové tabulky a uchováváme v elektronické podobě jako počítačový soubor pozorování na jednotlivých subjektech jsou většinou v řádcích, jednotlivé měřené ve sloupcích k zaznamenávání dat a manipulacím s nimi se používají různé druhy počítačového softwaru (např Excel, databázové systémy atd) statistická analýza pomocí specializovaných statistických softwarů (např program R) Tabulka: Část dat sesbíraných na přednášce Matematická v minulých letech (6 2011) id pohl vyska vaha nsour vot vmat bydliste 23 1 183 70 3 49 50 Vysočina 24 1 192 85 2 51 53 Jižní Morava 25 1 178 90 1 45 41 Karlovy Vary 26 0 168 55 1 53 53 Praha
, na kterých měříme znaky Jiné dělení měřítek nominální hodnoty jsou pouze označení různých kategoríı pohlaví, rasa, politický názor, barva vlasů, ordinální uspořádané nominální hodnoty vzdělání, spokojenost v práci (stupnice 1 až 5), stupeň bolesti, intervalové lze uvažovat jejich rozdíly, ale nelze se ptát kolikrát např rok narození, teplota ve stupních Celsia, poměrové většina veličin, které měříme hmotnost, výška, čas, suma v Kč, počet obyvatel dané země, kvalitativní kategoriální faktory jen několik možných hodnot (kategoríı) zajímají nás četnosti jednotlivých kategoríı uvažovat charakteristiky jako průměr nemá smysl kvantitativní spojité hodnoty jsou čísla zajímají nás charakteristiky jako průměr apod odlišné metody pro popis kvalitativních a kvantitativních veličin Poznámka: Zařazení daného znaku nemusí být jednoznačné (např počet sourozenců) Vhodné popisné charakteristiky Příklad tabulka četností jednotlivých kategoríı tabulka relativních četností jednotlivých kategoríı modus = nejčastější hodnota U cestujících v tramvaji pozorujeme barvu očí: H, H, Z, M, H, Z, Z, M, H, Z, Z Tabulka četností H Z M celkem 4 5 2 11 Tabulka relat četností H Z M celkem 0364 0455 0181 1 Vhodné grafické znázornění sloupcový graf (obdelníkový diagram, barplot) koláčový graf (výsečová diagram, pieplot) Frequency 0 1 2 3 4 5 barva H M Z H M Z barva
míry polohy průměr n Pozorujeme hodnoty x 1,,x n míry polohy jakých zhruba hodnot veličina nabývá? průměr, minimum, maximu, (ještě si je uvedeme) míry variability jak velmi se liší hodnoty znaku u jednotlivých subjektů? x = 1 n minimum, maximum z x 1,,x n (výběrový) medián děĺı data na dvě poloviny: polovina je menší (nebo rovna) a polovina větší (nebo rovna) (výběrové) kvantily percentily α 100% kvantil je hodnota taková, že α 100% hodnot v datech je a zbytek je dolní kvartil Q 1 = 25% kvantil čtvrtina hodnot je menších (nebo rovných) a tři čtvrtiny jsou větší (nebo stejné) horní kvartil Q 3 = 75% kvantil tři čtvrtiny hodnot jsou menší (nebo rovné) a čtvrtina je větší (nebo stejná) x i míry variability grafické znázornění (výběrový) rozptyl s 2 = 1 n 1 n (x i x) 2 (výběrová) směrodatná odchylka s = 1 n (x i x) n 1 2 Odhad hustoty 005 004 003 002 001 000 histogram krabicový diagram (boxplot) Zena Muz Zima Jaro Leto mezikvartilové rozpětí R = Q 3 Q 1
Histogram Histogram dává nahlédnout, jak jsou jednotlivé hodnoty znaku v našich datech rozloženy (které hodnoty se objevují často a které ojediněle) interval A = (a,b pokrývá celé rozmezí dat rozděĺıme jej na K navazujících stejně velkých podintervalů A k, k = 1,,K, všechny délky h = b a K n k počet pozorování, které padly do A k grafické znázornění těchto intervalových četností n k výška obdelníku rovna n k nebo n k /(n h) Histogram se může lišit podle toho, kolik intervalů A k uvažujeme 0035 0030 0025 0020 0015 0010 004 003 002 005 004 0005 001 Odhad hustoty 003 002 001 000 0000 000 Krabicový diagram Krabicový diagram simultánní zobrazení několika vybraných charakteristik nemá závaznou definici konkrétní podoba se liší podle konkrétního softwaru a zadaných parametrů obvykle zakreslen výběrový medián a kvartily (ale lze i průměr a směr odchylka) svisle položená krabice horní a dolní okraj určují výběrové kvartily uprostřed čára určující výběrový medián vousy ukazují rozmezí dat od kvartilu k minimu/maximu (není-li odlehlé) odlehlé pozorování je dál než 3/2 (Q 3 Q 1 ) od bližšího kvartilu vekmatky 40 50 60 70 80 90 Obrázek: Krabicový diagram výšky studentů podle pohlaví a podle ročního období při narození Zena Muz Zima Jaro Leto