ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Podobné dokumenty
ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Analýza dat na PC I.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.


Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Charakterizace rozdělení

Náhodná veličina a rozdělení pravděpodobnosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PŘÍPRAVA BAKALÁŘSKÉ PRÁCE 4. METODIKA A VÝSLEDKY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost a aplikovaná statistika

Simulace. Simulace dat. Parametry

Pravděpodobnost a matematická statistika

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

INDUKTIVNÍ STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Fyzikální korespondenční seminář MFF UK

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Cvičení z biostatistiky 06

Základy pravděpodobnosti a statistiky. Popisná statistika

Měření závislosti statistických dat

Popisná statistika. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Zápočtová práce STATISTIKA I

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pravděpodobnost a statistika I KMA/K413

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Vybraná rozdělení náhodné veličiny

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

pravděpodobnosti, popisné statistiky

Metodologie pro ISK II

Informační technologie a statistika 1

Popisná statistika. Statistika pro sociology

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Výběrové charakteristiky a jejich rozdělení

Tomáš Karel LS 2012/2013

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Mnohorozměrná statistická data

Statistická analýza jednorozměrných dat

MATEMATICKÁ STATISTIKA - XP01MST

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy popisné statistiky

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Třídění statistických dat

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Téma 22. Ondřej Nývlt

STATISTICKÉ ODHADY Odhady populačních charakteristik

Mnohorozměrná statistická data

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Náhodné (statistické) chyby přímých měření

Inovace bakalářského studijního oboru Aplikovaná chemie

Úvodem Dříve les než stromy 3 Operace s maticemi

Chyby měření 210DPSM

Statistická analýza jednorozměrných dat

Tomáš Karel LS 2012/2013

Výpočet pravděpodobností

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

KORELACE. Komentované řešení pomocí programu Statistica

Návrh a vyhodnocení experimentu

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Pojem a úkoly statistiky

Tomáš Karel LS 2012/2013

Praktická statistika. Petr Ponížil Eva Kutálková

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Jevy a náhodná veličina

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Číselné charakteristiky

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Charakteristika datového souboru

Cvičení ze statistiky - 3. Filip Děchtěrenko

23. Matematická statistika

Transkript:

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz

POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní (kategoriální) proměnná absolutní četnost, relativní četnost, sloupcový graf počet ok absolutní četnost relativní četnost 1 15 0.15 2 16 0.16 3 7 0.07 4 6 0.06 5 15 0.15 6 41 0.41 celkem 100 1.00

POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvantitativní (spojitá) proměnná poloha: minimum, maximum, medián, průměr, kvantily variabilita: rozsah, IQR, rozptyl, SD histogram, empirická distribuční funkce, boxplot

Z-SKÓRY normovaná veličina hodnoty zi ztratily informaci o poloze a variabilitě: průměr je vždy 0 rozptyl a SD jsou vždy 1 nemění se přičtením konstanty ani násobením konstantou umožňují porovnatelnost základ testování R: scale(x) nebo (x-mean(x))/sd(x)

POPISNÉ STATISTIKY Dvě proměnné: popis vztahu, hledání (ne)závislosti Podle typu proměnných kvantitativní a kvantitativní kvantitativní a kvalitativní bodový graf (scatterplot), korelační koeficient regrese krabicový graf (boxplot), RSS t-test, ANOVA, Wilcoxonův test,... kvalitativní a kvalitativní kontingenční tabulka, sloupcový graf c2-test, Fisherův test

KVANITATIVNÍ A KVANTITATIVNÍ Data Kojeni.csv (vlevo) a data Iq3.csv (vpravo)

KVANITATIVNÍ A KVANTITATIVNÍ pozn: pokud záleží na směru závislosti, pak vysvětlovanou (závislou) proměnnou dáme na osu y

VÝBĚROVÝ KORELAČNÍ KOEFICIENT

KVANITATIVNÍ A KVANTITATIVNÍ r = 0.429 r = -0.688

KVANITATIVNÍ A KVANTITATIVNÍ r = 0.429 r = -0.688

KORELACE vs. KAUZALITA r = 0.77

KVANITATIVNÍ A KVALITATIVNÍ máme několik kategorií (skupin) a v nich mají jednotlivci naměřené kvantitativní hodnoty srovnáváme soubory dat v těchto skupinách lze chápat jako (ne)závislost kvantitativní na kvalitativní zobrazení boxplotem nebo empirické distribuční funkce nezávislost pokud krabice podobně umístěné

KVANITATIVNÍ A KVALITATIVNÍ

KVANITATIVNÍ A KVALITATIVNÍ vidíme dokonce i jistý trend lze posuzovat jak různost výšky otců mezi skupinami navzájem, tak možnost, že každý stupeň vzdělání výšku někam posune výš

NÁHODNÁ VELIČINA

PLATONOVA JESKYNĚ A STÍN NA ZDI Naházeli jsme si 100 výsledků. O kostce ale už principiálně něco předem předpokládáme.

PLATONOVA JESKYNĚ A STÍN NA ZDI V hlavě chaos měření přibližujeme teoretickou křivkou Předpokládáme rovnoměrnost rozložení (nefalešná kostka) Máme pro to i logické odůvodnění, proč by to tak mělo být.

PLATONOVA JESKYNĚ A STÍN NA ZDI Chaos měření přiblížíme teoretickou křivkou Předpokládáme normální rozdělení, ale nemáme pro to žádný teoretický důvod.

NÁHODNÁ VELIČINA to, co máme naměřeno, vnímáme jako konkrétní realizaci nějaké skryté vlastnosti říkáme jí náhodná veličina příklad náhodné veličiny číslo, které padne na kostce pohlaví narozeného dítěte porodní hmotnost narozeného dítěte teoretický model náhodné veličiny slouží k srozumitelnému zjednodušenému popisu možného principu k tvorbě testů, modelů a analytických technik bez zjednodušení se nikam nehneme

NÁHODNÁ VELIČINA Náhodná veličina může nabývat různých hodnot hod kostkou: 1,2,3,4,5,6 pohlaví novorozence: dívka, chlapec, nerozhodnutelné/nestandardní hmotnost novorozence: cca 400g až 10kg Teoretická pravděpodobnost výskytu konkrétní realizace: hod nefalešnou kostkou: 1/6 pohlaví novorozence klasický model 1/2 a 1/2 korigovaný model: něco pod 1/2, něco nad 1/2, cca 1/1000 hmotnost novorozence: hodně malé a hodně velké hmotnosti se vyskytnou málo často až výjimečně nejčastěji se narodí dítě s hmotností cca 2.5 kg až 4.5 kg

HUSTOTA PRAVDĚPODOBNOSTI Jak pravděpodobný je výskyt konkrétní realizace? U kostky teoreticky odvozujeme, u hmotnosti tvar předpokládáme

DISTRIBUČNÍ FUNKCE Jak pravděpodobné je, že konkrétní realizace bude menší (nebo rovna) než nějaká daná hodnota? U kostky teoreticky odvozujeme, u hmotnosti předpokládáme

DISTRIBUČNÍ FUNKCE Jak pravděpodobné je, že padne cokoli menší nebo rovno 4? Výsledek čteme přímo z grafu distribuční funkce: p = 0.67

DISTRIBUČNÍ FUNKCE Jak pravděpodobné je, že se narodí dítě s hmotností 4000g a méně? Výsledek čteme přímo z grafu distribuční funkce: p = 0.80

PROČ UVAŽOVAT TEORETICKÉ ROZDĚLENÍ Převedení do funkce umožňuje veličinu (princip) přesně popsat interval hodnot (výčet, (0, ), (-, ),...) střední hodnota E(X) rozptyl Var(X) šikmost, špičatost,... tvar - normální, rovnoměrné, lognormální, gamma, exponenciální, Poissonovo,... směs různých rozdělení, asymptotické,... hledáme, který tvar nejlépe sedí a pak odhadujeme jeho parametry (z dat) s matematickou funkcí se dají konstruovat testy a modely

Cauchyho log-normální Poissonovo exponenciální

TEORETICKÝ MODEL A DATA pro řadu rozdělení je aritmetický průměr dat vhodným odhadem střední hodnoty podobně je výběrový rozptyl vhodným odhadem teoretické variance u hodu kostkou je relativní četnost odhadem pravděpodobnosti výskytu dané hodnoty výběrový korelační koeficient je nejlepším odhadem teoretické kovariance u normálního rozdělení...

A CO PŘÍŠTĚ? To, čím jsme popisovali konkrétní data, můžeme použít jako první/jediný dostupný odhad skrytých parametrů. Je to ale zatíženo nějakou nejistotou. S tím se musíme nějak vypořádat. To budeme řešit příště. Dostaneme se tím ke konstrukci jednoduchých statistických testů.

DĚKUJI ZA POZORNOST www.biostatisticka.cz