1. Statistická analýza dat Jak vznikají informace Rozložení dat

Podobné dokumenty
Základy teorie pravděpodobnosti

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Intuitivní pojem pravděpodobnosti

Matematika III. 27. září Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika I 2a Konečná pravděpodobnost

7. Rozdělení pravděpodobnosti ve statistice

Pravděpodobnost a statistika

2. přednáška - PRAVDĚPODOBNOST

Pravděpodobnost a její vlastnosti

Pravděpodobnost a statistika

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

Obsah. Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Pravděpodobnost. Pravděpodobnost. Děj pokus jev

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Teorie pravěpodobnosti 1

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

NMAI059 Pravděpodobnost a statistika

PRAVDĚPODOBNOST A STATISTIKA

Náhodný pokus Náhodným pokusem (stručněji pokusem) rozumíme každé uskutečnění určitého systému podmínek resp. pravidel.

Základy teorie pravděpodobnosti

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Biostatistika základní kurz

Tomáš Karel LS 2012/2013

ZÁKLADY TEORIE PRAVDĚPODOBNOSTI

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

PRAVDĚPODOBNOST A STATISTIKA

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Úvod do problematiky měření

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Pravděpodobnost a aplikovaná statistika

Chyby měření 210DPSM

PRAVDĚPODOBNOST Náhodné pokusy. Náhodný jev

Téma 22. Ondřej Nývlt

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Základní pojmy teorie množin Vektorové prostory

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Vybraná rozdělení náhodné veličiny

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Inovace bakalářského studijního oboru Aplikovaná chemie

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Úvod do teorie pravděpodobnosti

Informační a znalostní systémy

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Charakterizace rozdělení

Pojem a úkoly statistiky

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Výběrové charakteristiky a jejich rozdělení

IB112 Základy matematiky

TECHNICKÁ UNIVERZITA V LIBERCI

Pravděpodobnost a aplikovaná statistika

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

0. ÚVOD - matematické symboly, značení,

Náhodná veličina a rozdělení pravděpodobnosti

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Tomáš Karel LS 2012/2013

Mnohorozměrná statistická data

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

1 Báze a dimenze vektorového prostoru 1

Populace vs. data. popisná (deskriptivní) popis konkrétních dat. letní semestr

PRAVDĚPODOBNOST A STATISTIKA

You created this PDF from an application that is not licensed to print to novapdf printer (

Pravděpodobnost je. Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTIKA jako vědní obor

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

5.1. Klasická pravděpodobnst

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

KGG/STG Statistika pro geografy

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Ing. Michael Rost, Ph.D.

Cvičení ze statistiky - 5. Filip Děchtěrenko

Náhodný jev a definice pravděpodobnosti

2. Definice pravděpodobnosti

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

TEORIE MÍRY V některých předchozích kapitolách jste se setkali s měřením velikostí množin a víte, jaké byly těžkosti s měřením množin i na reálné ose.

8. Normální rozdělení

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

oddělení Inteligentní Datové Analýzy (IDA)

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

STATISTICKÉ ZJIŠŤOVÁNÍ

Náhodný vektor a jeho charakteristiky

Transkript:

1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení reality. Chápání reality je vždy nedokonalé a nepřesné. Statistika umožňuje vnést do pochopení reality určitou spolehlivost a ukázat, jak je velká. J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

Význam statistické analýzy dat Realita je variabilní a statistika je věda zabývající se variabilitou. Korektní analýza variability a její pochopení přináší užitečné informace o realitě. V případě deterministického světa by statistická analýza nebyla potřebná. V případě zcela chaotického světa by nebyla možná. J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

Práce s variabilitou v analýze dat Dva hlavní přístupy k variabilitě: J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

Práce s variabilitou v analýze dat Statistika není schopna činit závěry o jevech neobsažených ve zkoumaném vzorku. Statistika je nasazena v procesu získání informací ze vzorkovaných dat a je podporou v získání znalosti a pochopení problému. Statistika není náhradou naší inteligence! J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

Práce s variabilitou v analýze dat Neznámá cílová populace Vzorek Analýza Díky zobecnění výsledků známe vlastnosti cílové populace (s určitou pravděpodobností chyby) Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci. Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům.

Význam vzorkování ve statistice J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

Velikost vzorku a přesnost statistických výstupů Existuje skutečné rozložení a skutečný průměr měřené proměnné Z jednoho měření nezjistíme nic Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případů nereálný. J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

Obecné schéma aplikace statistické analýzy Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina

1a. Teoretické pozadí statistické analýzy Jak vznikají informace Rozložení dat

Anotace Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí. Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu (a tím je také nákladnější analýza). n = 1 m = 0 n = 4 m = 0,25 n = 9 m = 0,22 n = 16 m = 0,19

Definice Náhodný jev značíme velkým latinským písmenem, např. A. Jde o jev, pro který požadujeme tzv. statistickou stabilitu, tj. aby při n opakování pokusu platilo pro relativní četnost výsledku: Elementární jev nejjemnější možný náhodný jev, tj. náhodný jev, který nelze vyjádřit jako sjednocení dvou jiných neprázdných náhodných jevů. Značí se obvykle ω. Prostor elementárních jevů značíme obvykle Ω, jde o libovolnou neprázdnou množinu (její prvky nazýváme elementárními jevy). Platí tedy, že elementární jevy jsou prvky prostoru elementárních jevů, rovněž jsou prvky náhodných jevů a náhodné jevy jsou podmnožiny prostoru elementárních jevů.

Definice Ω prostor elementárních jevů A náhodný jev ω elementární jev ω elementární jev A náhodný jev ω elementární jev A náhodný jev ω elementární jev

Definice σ-algebra systém (množina) podmnožin prostoru elementárních jevů A (označujeme A) splňující následující podmínky: 1. A je neprázdná množina, 2. A A A \A A 3. sjednocení libovolného počtu Ai A. Jevové pole uspořádaná dvojice prostoru elementárních jevů a na něm definované σalgebry (Ω, A). Jevové pole se také někdy nazývá měřitelný prostor. Pravděpodobnost (podle Kolmogorova) reálná množinová funkce P definovaná na množině A σ-algebry (Ω, A) tak, že jsou dodrženy následující podmínky: 1. P(Ω) = 1 2. A A: P(A) 0 3. pravděpodobnost součtu neslučitelných jevů je rovna součtu pravděpodobnosti těchto neslučitelných jevů.

Definice Pravděpodobnostní prostor Borelovská σ-algebra uspořádaná trojice prostoru elementárních jevů, na něm definované σ-algebry a jim příslušné pravděpodobnostní funkce (Ω, A, P). je σ-algebra B generovaná systémem borelovských množin S, tj. množin splňujících podmínku: 1. S = (,x, kde x ℝ. Náhodná veličina reálná množinová funkce X definovaná na prostoru elementárních jevů Ω nějakého pravděpodobnostního prostoru (Ω, A, P), splňující pro nějakou borelovskou σ-algebru B předpoklad: 1. B B {ω Ω: X(ω) B} A. Pravděpodobnostní prostor je měřitelný prostor s přidanou funkcí pravděpodobnosti.

Definice Náhodná veličina se někdy také nazývá náhodná proměnná nebo měřitelná funkce, borelovské množiny se někdy též nazývají měřitelné množiny. Lze ukázat, že dostatečnou podmínkou pro to, aby X byla náhodná veličina je vztah x ℝ: {X < x} A. Rozdělení pravděpodobnosti množinová funkce, která každé borelovské množině B přiřadí pravděpodobnost tak, že je dodržena následující podmínka: 1. PX(B) = P({ω Ω: X(ω) B)} pro B B. Náhodná veličina přiřazuje náhodným jevům měřitelné hodnoty (reálná čísla), rozdělení pravděpodobnosti pak každé takové hodnotě (reprezentované nějakou borelovskou množinou B) přiřazuje pravděpodobnost, tj. hodnotu mezi 0 a 1 takovou, že jsou dodrženy předpoklady po definici pravděpodobnosti uvedené dříve.

Definice 1 Ω prostor elementárních jevů Jevové pole A náhodný jev ω elementární jev ω elementární jev A množinová σ-algebra B borelovská σ-algebra P X rozdělení pravděpodobnosti 0 B borelovské množiny

JAK vznikají informace? základní pojmy Skutečnost Náhoda (vybere jednu z možností pokusu) Jev podmnožina množiny všech možných výsledků (elementárních jevů) pokusu/děje, o které lze říct, zda nastala nebo ne Pozorovatel Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje Jevové pole třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost

JAK vznikají informace? Empirical approach Classical approach Empirický postup f n 0,3 n = 10 f n 0,3 n = 50 f n 0,3 n = 0,2 0,2 0,2 0,1 0,1 0,1 0 0 0 0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6 možné jevy: čísla 1 6 n počet hodů (opakování) U složitých stochastických systémů se pravdě blížíme až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit

JAK vznikají informace? Empirický postup f n 0,3 n = 10 f n 0,3 n = 50 f n 0,3 n = 0,2 0,2 0,2 0,1 0,1 0,1 0 0 0 0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6 možné jevy: čísla 1 6 n počet hodů (opakování) Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) diskutabilní je ale ovšem míra zobecnění konkrétního experimentu

Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0-1.. A. C. B. D P(A) A Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost 0 1 P (A) = 1 jev jistý P (A) = 0 jev nemožný P (A P (A B) = P (A). P (B). nezávislé jevy B) = P (A). P (B/A).. závislé jevy P (A / B) = P (A B) / P (B).podmíněná pravděpodobnost

Pravděpodobnost výskytu jevu rozložení dat existuje pravděpodobnost výskytu jevů (nedeterministické závěry) vše je možné : pouze jev s pravděpodobností 0 nikdy nenastane pravděpodobnost lze zkoumat retrospektivně i prospektivně pravděpodobnost výskytu (x) plocha = pravděpodobnost výskytu 0 1 2 3 4 5 počet chlapců v rodině s X dětmi x výška postavy x

Centrální limitní věta Pokud lze náhodnou veličinu X vyjádřit jako součet náhodných veličin X 1, X 2,, X n, které mají shodné rozdělení, konečnou střední hodnotu a konečný rozptyl, platí, že rozdělení veličiny X se vzrůstajícím n konverguje (poměrně rychle) k normálnímu rozdělení.

Instalace R Webová stránka https://cran.r-project.org/ J. Kalina

Instalace R studia Webová stránka https://www.rstudio.com/products/rstudio/download3/ J. Kalina