ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Podobné dokumenty
PŘÍPRAVA BAKALÁŘSKÉ PRÁCE 4. METODIKA A VÝSLEDKY

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Metodologie pro ISK II

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika pro geografy

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Analýza dat na PC I.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Popisná statistika. Statistika pro sociology

STATISTICKÉ CHARAKTERISTIKY


Číselné charakteristiky

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Aplikovaná statistika v R

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Popisná statistika kvantitativní veličiny

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Metodologie pro Informační studia a knihovnictví 2

Základy pravděpodobnosti a statistiky. Popisná statistika

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Statistická analýza dat v psychologii

Praktická statistika. Petr Ponížil Eva Kutálková

Základy popisné statistiky

Základy popisné statistiky

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Náhodná veličina a rozdělení pravděpodobnosti

Popisná statistika. Komentované řešení pomocí MS Excel

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Metodologie pro Informační studia a knihovnictví 2

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pravděpodobnost a statistika

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Charakteristika datového souboru

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Základní statistické charakteristiky

Nejčastější chyby v explorační analýze

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Matematická statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Zápočtová práce STATISTIKA I

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

IES FSV UK. Domácí úkol Pravděpodobnost a statistika I. Cyklistův rok

23. Matematická statistika

Náhodné (statistické) chyby přímých měření

Číselné charakteristiky a jejich výpočet

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Obecné momenty prosté tvary

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Protokol č. 1. Tloušťková struktura. Zadání:

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Přednáška 5. Výběrová šetření, Exploratorní analýza

Vybraná rozdělení náhodné veličiny

1. PŘEDNÁŠKA - ZPRACOVÁNÍ DAT ZÁKLADNÍ ANALÝZA DAT

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Náhodné chyby přímých měření

Chyby měření 210DPSM

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Deskriptivní statistika (kategorizované proměnné)

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

MATEMATIKA III V PŘÍKLADECH

Základní analýza dat. Úvod

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

Kontingenční tabulky v Excelu. Představení programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

PRAVDĚPODOBNOST A STATISTIKA

NÁHODNÁ VELIČINA. 3. cvičení

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Charakterizace rozdělení

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Simulace. Simulace dat. Parametry

Pravděpodobnost a aplikovaná statistika

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Jevy a náhodná veličina

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Transkript:

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz

CO SE SKRÝVÁ V DATECH data sbíráme proto, abychom porozuměli skutečnosti, principům, zákonitostem musíme umět data nějak popsat, zestručnit rozsah hodnot rozložení hodnot jsou některé hodnoty významnější, častější než jiné? klademe si otázky po podstatě jsou naměřené hodnoty stejné jako naměřené dříve / jinde? existuje nějaké pravidlo, podle kterého měřené hodnoty vznikají?

CO SE SKRÝVÁ V DATECH Házíme 100x kostkou Popis: Absolutní četnost a relativní četnost, tabulka, histogram Podstata: Existuje nějaké pravidlo za výsledky?

CO SE SKRÝVÁ V DATECH Házíme 100x kostkou Popis: Absolutní četnost a relativní četnost, tabulka, histogram Podstata: Jsou kostky stejné? Liší se od předpokládaného principu rovnoměrného výskytu?

KATEGORIÁLNÍ PROMĚNNÁ počet ok absolutní četnost relativní četnost 1 15 0.15 2 16 0.16 3 7 0.07 4 6 0.06 5 15 0.15 6 41 0.41 celkem 100 1.00 tabulka ukazuje konkrétní data sloupcový graf / histogram vizualizuje četnosti umožňuje okometrické srovnání koláčový graf vypadá pěkně, ale nedává reálnou představu o konkrétních hodnotách jen velmi výjimečně

SPOJITÁ PROMĚNNÁ Vzorek 99 novorozených dětí, porodní hmotnost Jak data popsat? rozsah nejčastější hodnota prostřední hodnota symetrie, sešikmenost rozpláclost...

POPISNÉ STATISTIKY - POLOHA minimum, maximum odkud kam jdou data dávají hodnoty smysl? pokrývají správný rozsah? jsou tam nějaká extrémní měření? jsou správně? aritmerický průměr součet všech hodnot / počet všech hodnot

POPISNÉ STATISTIKY - POLOHA modus nejčastější hodnota, může jich být i víc (více hrbů) medián dělí soubor na polovinu pod ním je polovina dat, nad ním je polovina dat často výrazně spolehlivější informace než průměr kvartily dělí soubor na čtvrtiny pod 1. kvartilem leží čtvrtina dat nad 3. kvartilem leží čtvrtina dat

MEDIÁN, KVARTILY JAK VYPOČÍST seřadíme data podle velikosti (novorozenci: 99 hodnot) najdeme polovinu (novorozenci: 50. hodnota) pokud sudý počet: vezmeme průměr z těch dvou uprostřed

MEDIÁN, KVARTILY JAK VYPOČÍST

MEDIÁN vs. PRŮMĚR průměr dobře určuje prostředek u symetrických dat (novorozenci: 3470g) nejlépe funguje, když je rozložení typu Gaussova křivka nefunguje v případech typu A: 1 kuře B, C: žádné kuře, každý snědl třetinu kuřete klasický příklad: 2/3 zaměstnanců mají podprůměrný plat bohatí táhnou průměr svým směrem medián u symetrických dat bude poblíž průměru (novorozenci: 3480g) u nesymetrických dat bude blíže těžší straně ignoruje výši extrémů, bere v potaz jen jejich počet plat pod mediánem má vždy 1/2 zaměstnanců bohatých je málo, a tak hrají ve výpočtu menší roli u kuřat: jaký bude medián?

MEDIÁN vs. PRŮMĚR

POPISNÉ STATISTIKY - POLOHA Vlastnosti dobré míry polohy přičteme-li ke každé hodnotě x stejnou konstantu a, posune se míra polohy také o a příklad: asijské děti jsou o cca 250g menší než evropské vynásobíme-li každou hodnotu x stejnou konstantou b, míra polohy bude také vynásobena b příklad: zachovává změny jednotek tedy citlivost vůči změně posunutí a změně měřítka

Boxplot shrnuje míry polohy uprostřed medián okraj boxu kvartily vousky 1.5 x IQR tečky jsou outliers

POPISNÉ STATISTIKY - VARIABILITA rozpětí (range) maximum - minimum základní informace o variabilitě dat interkvartilové rozpětí (interquartile range) třetí - první kvartil výběrový rozptyl čím dále od průměru tím větší váha mocnina zdůrazňuje vzdálenější směrodatná odchylka (SD) odmocnina rozptylu má stejnou jednotku jako data

POPISNÉ STATISTIKY - VARIABILITA Vlastnosti dobré míry variability nezávisí na míře polohy když celá data posunu o a, tak míra variability zůstane stejná když data vynásobím b, tak je míra variability také b-krát vyšší tedy citlivost na změnu měřítka, necitlivost na změnu polohy