Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika



Podobné dokumenty
Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Základy popisné statistiky

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Organizační pokyny k přednášce. Matematická statistika. Co je statistika? Přehled témat

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Základy pravděpodobnosti a statistiky. Popisná statistika

Popisná statistika. Statistika pro sociology

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Robust ledna 5. února 2010, Králíky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Metodologie pro ISK II

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava


Zápočtová práce STATISTIKA I

KGG/STG Statistika pro geografy

Praktická statistika. Petr Ponížil Eva Kutálková

Drsná matematika IV 7. přednáška Jak na statistiku?

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Analýza dat na PC I.

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Základy popisné statistiky

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Přednáška 5. Výběrová šetření, Exploratorní analýza

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Číselné charakteristiky a jejich výpočet

Obsah. Předmluva 9 Poděkování 10. Statistické pojmy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pojem a úkoly statistiky

Analýza výsledků testu čtenářské gramotnosti v PRO /11

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Diskrétní rozdělení Náhodná veličina má diskrétní rozdělení pravděpodobnosti, jestliže existuje seznam hodnot

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Popisná statistika. Komentované řešení pomocí MS Excel

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Náhodná veličina a rozdělení pravděpodobnosti

Základy teorie pravděpodobnosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Simulace systému hromadné obsluhy Nejčastější chyby v semestrálních pracích

Popisná statistika kvantitativní veličiny

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

Charakteristika datového souboru

Poznámky k předmětu Aplikovaná statistika, 9.téma

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Kontingenční tabulky v Excelu. Představení programu Statistica

Metodologie pro Informační studia a knihovnictví 2

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Statistická analýza dat v psychologii

Třídění statistických dat

Metodologie pro Informační studia a knihovnictví 2

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistika I (KMI/PSTAT)

IES FSV UK. Domácí úkol Pravděpodobnost a statistika I. Cyklistův rok

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Informační technologie a statistika 1

Lineární regrese. Komentované řešení pomocí MS Excel

Číselné charakteristiky

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Tomáš Karel LS 2012/2013

Aplikovaná statistika v R

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika pro geografy

Transkript:

Statistika Cvičení z matematické statistiky na PřF Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy léto 2012 Základní dělení popisná (deskriptivní) popis konkrétních dat několika čísly a obrázky stručně vystihnout důležité aspekty závěry pouze o daných datech, nelze zobecňovat induktivní (konfirmatorní) na základě dat umožňuje odpovídat na obecnější otázky závěry lze zobecnit předpoklady (pravděpodobnostní model), znalost statistických metod důležitá je interpretace Program R popisná popis konkrétních datových souborů doplnění přednášky procvičení probírané látky ilustrace tvrzení z přednášky doplňující příklady vybrané metody matematické statistiky (induktivní ) praktická aplikace konkrétních metod kdy, proč a jak kterou metodu použít interpretace a prezentace výsledků Pracovat budeme s programem R volně a zdarma dostupný na http://wwwr-projectorg/ nádstavba R-commander (package Rcmdr) nabízí jak uživatelsky sympatické prostředí, tak i dostatečnou flexibilitu (možnost psaní vlastních funkcí, otevřený kód apod)

Požadavky k zápočtu docházka (možnost 3 absence) vypracování závěrečného domácího projektu praktické zpracování konkrétních dat od popisné statistiky přes odhady až po testování hypotéz výsledek pozorování (měření) pozorování provádíme na nezávislých subjektech osoby, experimenty, státy, pacienti, rostliny, měříme (zjišt ujeme) hodnoty znaků (veličin, vlastností) hmotnost, koncentrace určité látky, politický názor, na jednom subjektu můžeme měřit více znaků na základě dat bychom rádi vypovídali o obecných vlastnostech populace, odkud subjekty pochází induktivní statistické metody popis konkrétního datového souboru je nedílnou součástí každé analýzy popisná Příklad datového souboru upravujeme do formátu datové tabulky a uchováváme v elektronické podobě jako počítačový soubor pozorování na jednotlivých subjektech jsou většinou v řádcích, jednotlivé měřené ve sloupcích k zaznamenávání dat a manipulacím s nimi se používají různé druhy počítačového softwaru (např Excel, databázové systémy atd) statistická analýza pomocí specializovaných statistických softwarů (např program R) Tabulka: Část dat sesbíraných na přednášce Matematická v minulých letech (6 2011) id pohl vyska vaha nsour vot vmat bydliste 23 1 183 70 3 49 50 Vysočina 24 1 192 85 2 51 53 Jižní Morava 25 1 178 90 1 45 41 Karlovy Vary 26 0 168 55 1 53 53 Praha

, na kterých měříme znaky Jiné dělení měřítek nominální hodnoty jsou pouze označení různých kategoríı pohlaví, rasa, politický názor, barva vlasů, ordinální uspořádané nominální hodnoty vzdělání, spokojenost v práci (stupnice 1 až 5), stupeň bolesti, intervalové lze uvažovat jejich rozdíly, ale nelze se ptát kolikrát např rok narození, teplota ve stupních Celsia, poměrové většina veličin, které měříme hmotnost, výška, čas, suma v Kč, počet obyvatel dané země, kvalitativní kategoriální faktory jen několik možných hodnot (kategoríı) zajímají nás četnosti jednotlivých kategoríı uvažovat charakteristiky jako průměr nemá smysl kvantitativní spojité hodnoty jsou čísla zajímají nás charakteristiky jako průměr apod odlišné metody pro popis kvalitativních a kvantitativních veličin Poznámka: Zařazení daného znaku nemusí být jednoznačné (např počet sourozenců) Vhodné popisné charakteristiky Příklad tabulka četností jednotlivých kategoríı tabulka relativních četností jednotlivých kategoríı modus = nejčastější hodnota U cestujících v tramvaji pozorujeme barvu očí: H, H, Z, M, H, Z, Z, M, H, Z, Z Tabulka četností H Z M celkem 4 5 2 11 Tabulka relat četností H Z M celkem 0364 0455 0181 1 Vhodné grafické znázornění sloupcový graf (obdelníkový diagram, barplot) koláčový graf (výsečová diagram, pieplot) Frequency 0 1 2 3 4 5 barva H M Z H M Z barva

míry polohy průměr n Pozorujeme hodnoty x 1,,x n míry polohy jakých zhruba hodnot veličina nabývá? průměr, minimum, maximu, (ještě si je uvedeme) míry variability jak velmi se liší hodnoty znaku u jednotlivých subjektů? x = 1 n minimum, maximum z x 1,,x n (výběrový) medián děĺı data na dvě poloviny: polovina je menší (nebo rovna) a polovina větší (nebo rovna) (výběrové) kvantily percentily α 100% kvantil je hodnota taková, že α 100% hodnot v datech je a zbytek je dolní kvartil Q 1 = 25% kvantil čtvrtina hodnot je menších (nebo rovných) a tři čtvrtiny jsou větší (nebo stejné) horní kvartil Q 3 = 75% kvantil tři čtvrtiny hodnot jsou menší (nebo rovné) a čtvrtina je větší (nebo stejná) x i míry variability grafické znázornění (výběrový) rozptyl s 2 = 1 n 1 n (x i x) 2 (výběrová) směrodatná odchylka s = 1 n (x i x) n 1 2 Odhad hustoty 005 004 003 002 001 000 histogram krabicový diagram (boxplot) Zena Muz Zima Jaro Leto mezikvartilové rozpětí R = Q 3 Q 1

Histogram Histogram dává nahlédnout, jak jsou jednotlivé hodnoty znaku v našich datech rozloženy (které hodnoty se objevují často a které ojediněle) interval A = (a,b pokrývá celé rozmezí dat rozděĺıme jej na K navazujících stejně velkých podintervalů A k, k = 1,,K, všechny délky h = b a K n k počet pozorování, které padly do A k grafické znázornění těchto intervalových četností n k výška obdelníku rovna n k nebo n k /(n h) Histogram se může lišit podle toho, kolik intervalů A k uvažujeme 0035 0030 0025 0020 0015 0010 004 003 002 005 004 0005 001 Odhad hustoty 003 002 001 000 0000 000 Krabicový diagram Krabicový diagram simultánní zobrazení několika vybraných charakteristik nemá závaznou definici konkrétní podoba se liší podle konkrétního softwaru a zadaných parametrů obvykle zakreslen výběrový medián a kvartily (ale lze i průměr a směr odchylka) svisle položená krabice horní a dolní okraj určují výběrové kvartily uprostřed čára určující výběrový medián vousy ukazují rozmezí dat od kvartilu k minimu/maximu (není-li odlehlé) odlehlé pozorování je dál než 3/2 (Q 3 Q 1 ) od bližšího kvartilu vekmatky 40 50 60 70 80 90 Obrázek: Krabicový diagram výšky studentů podle pohlaví a podle ročního období při narození Zena Muz Zima Jaro Leto