2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Podobné dokumenty
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Kontingenční tabulky v Excelu. Představení programu Statistica

Analýza dat na PC I.

Náhodná veličina a rozdělení pravděpodobnosti

7. Rozdělení pravděpodobnosti ve statistice

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Praktická statistika. Petr Ponížil Eva Kutálková

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Biostatistika základní kurz

Základy pravděpodobnosti a statistiky. Popisná statistika

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Číselné charakteristiky

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Popisná statistika. Statistika pro sociology

Základy teorie pravděpodobnosti

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu

Mnohorozměrná statistická data

KGG/STG Statistika pro geografy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci


Statistika pro geografy

23. Matematická statistika

Základy popisné statistiky

Třídění statistických dat

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Chyby měření 210DPSM

Vybraná rozdělení náhodné veličiny

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Charakterizace rozdělení

Mnohorozměrná statistická data

Zápočtová práce STATISTIKA I

Škály podle informace v datech:

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika kvantitativní veličiny

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

PRAVDĚPODOBNOST A STATISTIKA

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

KGG/STG Statistika pro geografy

Náhodné (statistické) chyby přímých měření

I. D i s k r é t n í r o z d ě l e n í

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

p(x) = P (X = x), x R,

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Charakteristika datového souboru

Výběrové charakteristiky a jejich rozdělení

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Aplikovaná statistika v R

MATEMATIKA III V PŘÍKLADECH

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

STATISTICKÉ CHARAKTERISTIKY

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

Základy štatistiky. Charakteristiky štatistického znaku

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Inovace bakalářského studijního oboru Aplikovaná chemie

Jevy a náhodná veličina

Renáta Bednárová STATISTIKA PRO EKONOMY

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

NÁHODNÁ VELIČINA. 3. cvičení

Náhodné chyby přímých měření

Induktivní statistika. z-skóry pravděpodobnost

Pravděpodobnost a aplikovaná statistika

Základy biostatistiky

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Informační technologie a statistika 1

Metodologie pro ISK II

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Téma 22. Ondřej Nývlt

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Diskrétní náhodná veličina. November 12, 2008

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Pojem a úkoly statistiky

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Tomáš Karel LS 2012/2013

Charakterizují kvantitativně vlastnosti předmětů a jevů.

KGG/STG Statistika pro geografy

Transkript:

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací histogramů.

Typy proměnných (dat) Binární = dummy data Nominální = kategoriální data Proměnná, která může nabývat pouze dvou hodnot. Bývá definovaná odpovědí na otázku (např. TRUE FALSE, ). Proměnná, která může nabývat počtu hodnot (n ℕ), pro které neeistuje přirozené pořadí (např. barvy vzorků). Ordinální data Kardinální data Nominální proměnná, pro kterou ale eistuje jasné pořadí kategorií (např. velikost oděvů S, M, L, XL). Ordinální proměnná, u které lze určit rozdíl mezi kategoriemi. Ty jsou stejně vzdálené (např. počet dětí v rodině). Intervalová data Poměrová data Spojitá proměnná, u které můžeme určit rozdíl mezi kategoriemi obvykle jde o počet (např. teplota ve C, čas). Intervalová proměnná, u které má smysl určovat podíly jednotlivých kategorií (např. hmotnost, vzdálenost).

Jak vznikají informace? různé typy dat znamenají různou informaci Data poměrová Kolikrát? Data intervalová Data kardinální Data ordinální O kolik? Větší, menší? Spojitá data Diskrétní data Podíl hodnot větší/menší než specifikovaná hodnota? Procenta odvozené hodnoty Data nominální Kategoriální otázky Data binární Rovná se? Otázky Ano/Ne Samotná znalost typu dat ale na dosažení informace nestačí

Jak vznikají informace? různé typy dat znamenají různou informaci Data poměrová Data intervalová PRŮMĚR Spojitá data Y = f Data kardinální Data ordinální Data nominální Data binární MEDIÁN MODUS Diskrétní data X Samotná znalost typu dat ale na dosažení informace nestačí

Jak vznikají informace? různé typy dat znamenají různou informaci Data: p-tý kvantil Průměr: Medián: Rozptyl (výběrový): Modus: Směrodatná odchylka (výběrová):

JAK vznikají informace? - opakovaná měření informují rozložením hodnot y Y: frekvence - absolutní / relativní KOLIK se naměřilo y A B C D E I II III IV V CO se naměřilo X: měřený znak Diskrétní data Spojitá data

Odvozená data: Pozor na odvozené indey Příklad I: Příklad II: Znak X: Hmotnost Znak Y: Plocha X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku průměr : (min - ma) X:,2 : (,5 -,24) + / - 3,8 % Y:,8 : (,75 -,84) + / - 2,5 % X/Y =,667 :,5,84,24,75 ( ) - + / - 6,2 % Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená

Jak vznikají informace? - frekvenční tabulka jako základní nástroj popisu Počty epizod pro n = hemofiliků DISKRÉTNÍ DATA Primární data 2 3 2...... n = Frekvenční sumarizace N: dětí (hemofiliků) : znak: počet krvácivých epizod za měsíc n() N() p() F() 2 2,2,2 3,,3 2 3 6,3,6 3 4,4, n() absolutní četnost N() kumulativní četnost hodnot nepřevyšujících ; N() = n(t) t p() relativní četnost; p() = n() / n F() kumulativní relativní četnost hodnot nepřevyšujících ; F() = N() / n

Jak vznikají informace? Grafické výstupy z frekvenční tabulky n() 3-2 - - p(),3 -,2 -, - 2 3 2 3 N() 6-4 - 2 - F(),6 -,4 -,2-2 3 2 3

Jak vznikají informace? - frekvenční tabulka jako základní nástroj popisu Hodnoty pro n = osob Příklad: : koncentrace látky v krvi n = pacientů Primární data,2,48,56,3,2,33,33... n = SPOJITÁ DATA Frekvenční sumarizace n = opakovaných měření ( pacientů) : koncentrace sledované látky v krvi (2 jednotek) interv d(l) n(l) n(l)/n N( ) F( ) <2, 4) 2 2,2 2,2 <4, 6) 2, 3,3 <6, 8) 2 4,4 7,7 <8, ) 2 3,3, d(l) šířka intervalu n(l) absolutní četnost n(l) / n intervalová relativní četnost N( ) intervalová kumulativní četnost do horní hranice X F( ) intervalová relativní kumulativní četnost do horní hranice X

Jak vznikají informace? - frekvenční sumarizace spojitých dat Histogram Výběrová distribuční funkce Plocha: n(l) / n,25,2,5,,5, 2 4 6 8 2 4 6 8 f()= n(l) / n d(l) Intervalová hustota četnosti F() Intervalová relativní kumulativní četnost

Počet zvolených tříd a velikost souboru určují kvalitu výstupu 5 4 3 2 k = tříd k = 5 tříd,5 2, 2,5 3, 3,5 4, 4,5 5, 2 3 4 5 8 7 6 5 4 3 2 5 4 3 2 k = 2 tříd, 2, 3, 4, 5,

Histogram vyjadřuje tvar výběrového rozložení f() f() f() f() f()

Frekvence Příklad: věk účastníků vážných dopravních nehod 35 3 25 2 5 5 35 3 25 2 5 5 Správný histogram? 2 3 4 5 6 7 8 Věk (roky) Plocha histogramu odpovídá počtu Správný histogram? případů (pokud jde o pravděpodobnost, je plocha ). 2 3 4 5 6 7 8 Kategorie na ose nemusí být ekvidistantní. Věk Věk (roky) - 4 5-9 - 5 6-9 2-24 25-59 > 6 f 28 46 58 2 4 36 3

Pojem ROZLOŽENÍ - příklad spojitých dat () Rozložení F() Distribuční funkce Je - li dána distribuční funkce, je dáno rozložení

Výběrové rozložení hodnot lze modelově popsat a odhadnout tak pravděpodobnost výskytu X f() () f() () f() ()

Distribuční funkce jako užitečný nástroj pro práci s rozložením F(): Pravděpodobnost, že se X vyskytuje v intervalu ( ;). Plocha = relativní četnost () (), F() 2 () distribuční funkce Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.

Jak vznikají informace? - frekvenční sumarizace spojitých dat Grafické výstupy z frekvenční tabulky spojitá data f(),25,2,5,,5 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty F() 2 4 6 8 KVANTIL 2 4 6 8 X. ; X.9 ; X.5 ; X

Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? =,95 pravděpodobnost Hledáme: P(X ) =,95 = = (,95) =? j() 5 % F ( ) = X,95,95 () Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován Jakékoliv číslo na ose je kvantilem