2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací histogramů.
Typy proměnných (dat) Binární = dummy data Nominální = kategoriální data Proměnná, která může nabývat pouze dvou hodnot. Bývá definovaná odpovědí na otázku (např. TRUE FALSE, ). Proměnná, která může nabývat počtu hodnot (n ℕ), pro které neeistuje přirozené pořadí (např. barvy vzorků). Ordinální data Kardinální data Nominální proměnná, pro kterou ale eistuje jasné pořadí kategorií (např. velikost oděvů S, M, L, XL). Ordinální proměnná, u které lze určit rozdíl mezi kategoriemi. Ty jsou stejně vzdálené (např. počet dětí v rodině). Intervalová data Poměrová data Spojitá proměnná, u které můžeme určit rozdíl mezi kategoriemi obvykle jde o počet (např. teplota ve C, čas). Intervalová proměnná, u které má smysl určovat podíly jednotlivých kategorií (např. hmotnost, vzdálenost).
Jak vznikají informace? různé typy dat znamenají různou informaci Data poměrová Kolikrát? Data intervalová Data kardinální Data ordinální O kolik? Větší, menší? Spojitá data Diskrétní data Podíl hodnot větší/menší než specifikovaná hodnota? Procenta odvozené hodnoty Data nominální Kategoriální otázky Data binární Rovná se? Otázky Ano/Ne Samotná znalost typu dat ale na dosažení informace nestačí
Jak vznikají informace? různé typy dat znamenají různou informaci Data poměrová Data intervalová PRŮMĚR Spojitá data Y = f Data kardinální Data ordinální Data nominální Data binární MEDIÁN MODUS Diskrétní data X Samotná znalost typu dat ale na dosažení informace nestačí
Jak vznikají informace? různé typy dat znamenají různou informaci Data: p-tý kvantil Průměr: Medián: Rozptyl (výběrový): Modus: Směrodatná odchylka (výběrová):
JAK vznikají informace? - opakovaná měření informují rozložením hodnot y Y: frekvence - absolutní / relativní KOLIK se naměřilo y A B C D E I II III IV V CO se naměřilo X: měřený znak Diskrétní data Spojitá data
Odvozená data: Pozor na odvozené indey Příklad I: Příklad II: Znak X: Hmotnost Znak Y: Plocha X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku průměr : (min - ma) X:,2 : (,5 -,24) + / - 3,8 % Y:,8 : (,75 -,84) + / - 2,5 % X/Y =,667 :,5,84,24,75 ( ) - + / - 6,2 % Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená
Jak vznikají informace? - frekvenční tabulka jako základní nástroj popisu Počty epizod pro n = hemofiliků DISKRÉTNÍ DATA Primární data 2 3 2...... n = Frekvenční sumarizace N: dětí (hemofiliků) : znak: počet krvácivých epizod za měsíc n() N() p() F() 2 2,2,2 3,,3 2 3 6,3,6 3 4,4, n() absolutní četnost N() kumulativní četnost hodnot nepřevyšujících ; N() = n(t) t p() relativní četnost; p() = n() / n F() kumulativní relativní četnost hodnot nepřevyšujících ; F() = N() / n
Jak vznikají informace? Grafické výstupy z frekvenční tabulky n() 3-2 - - p(),3 -,2 -, - 2 3 2 3 N() 6-4 - 2 - F(),6 -,4 -,2-2 3 2 3
Jak vznikají informace? - frekvenční tabulka jako základní nástroj popisu Hodnoty pro n = osob Příklad: : koncentrace látky v krvi n = pacientů Primární data,2,48,56,3,2,33,33... n = SPOJITÁ DATA Frekvenční sumarizace n = opakovaných měření ( pacientů) : koncentrace sledované látky v krvi (2 jednotek) interv d(l) n(l) n(l)/n N( ) F( ) <2, 4) 2 2,2 2,2 <4, 6) 2, 3,3 <6, 8) 2 4,4 7,7 <8, ) 2 3,3, d(l) šířka intervalu n(l) absolutní četnost n(l) / n intervalová relativní četnost N( ) intervalová kumulativní četnost do horní hranice X F( ) intervalová relativní kumulativní četnost do horní hranice X
Jak vznikají informace? - frekvenční sumarizace spojitých dat Histogram Výběrová distribuční funkce Plocha: n(l) / n,25,2,5,,5, 2 4 6 8 2 4 6 8 f()= n(l) / n d(l) Intervalová hustota četnosti F() Intervalová relativní kumulativní četnost
Počet zvolených tříd a velikost souboru určují kvalitu výstupu 5 4 3 2 k = tříd k = 5 tříd,5 2, 2,5 3, 3,5 4, 4,5 5, 2 3 4 5 8 7 6 5 4 3 2 5 4 3 2 k = 2 tříd, 2, 3, 4, 5,
Histogram vyjadřuje tvar výběrového rozložení f() f() f() f() f()
Frekvence Příklad: věk účastníků vážných dopravních nehod 35 3 25 2 5 5 35 3 25 2 5 5 Správný histogram? 2 3 4 5 6 7 8 Věk (roky) Plocha histogramu odpovídá počtu Správný histogram? případů (pokud jde o pravděpodobnost, je plocha ). 2 3 4 5 6 7 8 Kategorie na ose nemusí být ekvidistantní. Věk Věk (roky) - 4 5-9 - 5 6-9 2-24 25-59 > 6 f 28 46 58 2 4 36 3
Pojem ROZLOŽENÍ - příklad spojitých dat () Rozložení F() Distribuční funkce Je - li dána distribuční funkce, je dáno rozložení
Výběrové rozložení hodnot lze modelově popsat a odhadnout tak pravděpodobnost výskytu X f() () f() () f() ()
Distribuční funkce jako užitečný nástroj pro práci s rozložením F(): Pravděpodobnost, že se X vyskytuje v intervalu ( ;). Plocha = relativní četnost () (), F() 2 () distribuční funkce Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.
Jak vznikají informace? - frekvenční sumarizace spojitých dat Grafické výstupy z frekvenční tabulky spojitá data f(),25,2,5,,5 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty F() 2 4 6 8 KVANTIL 2 4 6 8 X. ; X.9 ; X.5 ; X
Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? =,95 pravděpodobnost Hledáme: P(X ) =,95 = = (,95) =? j() 5 % F ( ) = X,95,95 () Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován Jakékoliv číslo na ose je kvantilem