Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017
Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická, číselná,... )
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi Dělení podle možnosti uspořádání do kategorií: nominální proměnná - nabývá rovnocenných variant a nelze je smysluplně porovnávat ani seřadit, Příklad: pohlaví, národnost, značka hodinek,... ordinální proměnná - tvoří přechod mezi kvalitativními a kvantitativními proměnnými; jednotlivým variantám lze přiřadit pořadí a vzájemně je porovnávat nebo seřadit Příklad: známka ve škole, velikost oděvu (S, M, L),...
Kvalitativní proměnná Dělení podle počtu variant: alternativní proměnná - nabývá pouze dvou různých variant, Příklad: pohlaví, zapnuto/vypnuto, živý/mrtvý,... množná proměnná - nabývá více než dvou různých variant Příklad: vzdělání, jméno, barva očí,...
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,... spočetné Příklad: věk v letech, výška v centimetrech, váha v kilogramech,... spojité proměnné - nabývají více než dvou různých variant Příklad: výška, váha, vzdálenost měst,...
Nominální proměnná - nabývá v rámci souboru různých, avšak rovnocenných kategorií. Charakteristiky: četnost, relativní četnost, modus.
Grafické znázornění nominální proměnné Histogram (také sloupcový graf, angl. bar chart ) - je to graf, v němž na jednu osu vynášíme varianty proměnné a na druhou osu jejich četnosti. Výsečový graf (také koláčový graf, angl. pie chart ) - je to graf relativních četnosti jednotlivých variant proměnné, přičemž jednotlivé relativní četnosti jsou úměrně reprezentovány plochami příslušných kruhových výsečí.
Ordinální proměnná Charakteristiky: četnost, relativní četnost, modus, kumulativní četnost, kumulativní relativní četnost.
Grafické znázornění ordinální proměnné Histogram, Výsečový graf, Lorenzova křivka (polygon kumulativních četností) - je to spojnicový graf, který získáme tak, že na vodorovnou osu vynášíme jednotlivé varianty proměnné v pořadí od nejmenší do největší a na svislou osu příslušné hodnoty kumulativních četností. Znázorněné body spojíme úsečkami, - zaznamenává uspořádání jednotlivých variant.
Kvalitativní proměnná Charakteristiky: Míry polohy - určují typické rozložení hodnot proměnné (jejich rozmístění na číselné ose) Míry variability - určují variabilitu (rozptyl) hodnot kolem své typické polohy.
Míry polohy a variability Průměr aritmetický, geometrický, harmonický, geometrický,. - stanovuje ze všech hodnot proměnné = nese maximum informací o výběrovém souboru, - je velmi citlivý na tzv. odlehlá pozorování (hodnoty, které se mimořádně liší od ostatních)
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné, - pro určení této hodnoty využijeme tzv. shorth - nejkratší interval, v němž leží alespoň 50% hodnot proměnné. n = 2k, k N (sudý počet hodnot) = leží v shorthu k hodnot, což je 50 % (n/2) hodnot proměnné, n = 2k + 1, k N (lichý počet hodnot) = leží v shorthu k + 1 hodnot, což je o 1 více než je 50% hodnot proměnné. Modus pak definujeme jako střed shorthu. - je odolný vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních)
Míry polohy a variability Jak postupovat při určování shortu? 1 Hodnoty proměnné seřadíme. 2 Určíme délky všech n/2 (resp. n/2 + 0.5) členných intervalů, ve kterých x i < x i+1 < < x i+n/2 1 (resp. x i+n/2 0.5 ) pro i = 1, 2,..., n/2 + 1 (resp. n/2 + 0.5). 3 Nejkratší z těchto intervalů prohlásíme za shorth
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily Dolní kvartil x 0.25-25%-ní kvantil (rozděluje datový soubor tak, že 25 % hodnot je menších než tento kvartil a zbytek, tj. 75 % větších (nebo rovných)), Medián x 0.5-50%-ní kvantil (rozděluje datový soubor tak, že polovina 50 % hodnot je menších než medián a polovina (50 %) hodnot větších (nebo rovných)), Horní kvartil x 0.75-75%-ní kvantil (rozděluje datový soubor tak, že 75 % hodnot je menších než tento kvartil a zbytek, tj. 25 % větších (nebo rovných)). Decily - x 0.1, x 0.2,..., x 0.9, Percentily - x 0.01, x 0.02,..., x 0.99,
Míry polohy a variability Jak postupovat při určování kvantilu? 1 Hodnoty proměnné seřadíme podle velikosti. 2 Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 3 100p%- ní kvantil je roven hodnotě proměnné s pořadím z p, kde z p = np + 0.5 Není-li z p celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím [z p ] a [z p + 1].
Empirická distribuční funkce F(x) Označme f (x i ) relativní četnost hodnoty x i seřazeného výběrového souboru x 1 < x 2 < < x n. Potom 0 pro x x i, F (x) = j F (x) pro x j < x x j+1, 1 j n 1, i=1 1 pro x n < x.
Míry polohy a variability Interkvartilové rozpětí - IQR - je mírou variability souboru a je definována jako vzdálenost mezi horním a dolním kvartilem IQR = x 0.75 x 0.25 MAD (angl. median absolute deviation from the median; česky: medián absolutních odchylek od mediánu) Jak ho určíme? 1 Výběrový soubor uspořádáme podle velikosti, 2 Určíme medián souboru, 3 Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu, 4 Absolutní odchylky od mediánu uspořádáme podle velikosti, 5 Určíme medián absolutních odchylek od mediánu, tj. MAD.
Míry polohy a variability Výběrový rozptyl - s 2 - je dán podílem součtu kvadrátu odchylek jednotlivých hodnot od průměru a rozsahu souboru sníženého o jedničku. Vlastnosti: s 2 = 1 n 1 n (x i x) 2 i=1 Výběrový rozptyl konstantního souboru je roven nule, přičteme-li ke všem hodnotám proměnné libovolnou konstantu, potom se výběrový rozptyl proměnné se nezmění. vynásobíme-li všechny hodnoty proměnné libovolnou konstantou (b), potom se výběrový rozptyl proměnné zvětší kvadrátem této konstanty (b 2 )
Míry polohy a variability Výběrová směrodatná odchylka (angl. sample standard deviation) - s - je definována jako kladná odmocnina výběrového rozptylu Nevýhoda: s = s 2 = 1 n (x i x) n 1 2 i=1 Stejně jako u výběrového rozptylu i výběrová směrodatná odchylka neumožňuje porovnávat variabilitu proměnných vyjádřených v různých jednotkách. Která proměnná má větší variabilitu výška nebo hmotnost dospělého člověka? = variační koeficient
Míry polohy a variability Variační koeficient (angl. coefficient of variation) - V x - vyjadřuje relativní míru variability proměnné x. - je bezrozměrný, udává se v procentech V x = s x popř. V x = s x 100[%]
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele. Vždy je potřeba dobře zvážit čím je odlehlé, pozorování způsobeno. Hodnoty se mohly dostat mezi ostatní data v důsledku hrubých chyb např. při opisování dat (překlep), při měření (chyba měření v laboratoři), případně i tak, že byl do výběru zahrnut prvek, který do sledovaného základního souboru nepatří, technická závada, apod. = můžeme pozorování vyloučit. V jiných případech bychom se vyloučením mohli připravit o cennou informaci.
Identifikace odlehlých pozorování 1) Metoda vnitřních hradeb Jestliže pro x i platí ((x i < x 0.25 1.5 IQR) (x i > x 0.75 + 1.5 IQR), potom x i je odlehlým pozorováním. Interkvartilové rozpětí:... IQR = x 0.75 x 0.25 Poznámka: Kromě odlehlých pozorování ještě můžeme rozlišovat tzv. extremní pozorování. K jejich identifikaci používáme vnější hradby ((x i < x 0.25 3 IQR) (x i > x 0.75 + 3 IQR).
Identifikace odlehlých pozorování 2) Z-souřadnice z = x i x s Je-li z > 3, potom x i je odlehlým pozorováním. z > 3 = x i x s > 3 = x i x > 3s Poznámka: Automatické metody pro identifikaci odlehlých pozorování pouze vybírají podezřelé hodnoty! Vždy je ale nutné individuální posouzení.
Míry polohy a variability Výběrová šikmost (angl. skewness) - a - vyjadřuje asymetrii rozložení hodnot proměnné kolem jejího průměru. n (x i x) 3 n a = (n 1)(n 2) i=1 s 3 A jak výběrovou šikmost interpretujeme? a = 0... hodnoty proměnné jsou kolem jejího průměru rozloženy symetricky, a > 0... u proměnné převažují hodnoty menší než průměr, a < 0... u proměnné převažují hodnoty větší než průměr.
Míry polohy a variability Souvislost mezi šikmostí a charakteristikami polohy Symetrické rozdělení: x = x 0,5. Pozitivně zešikmené rozdělení: x > x 0,5. Negativně zešikmené rozdělení: x < x 0,5.
Míry polohy a variability Výběrová špičatost (angl. kurtosis) - b - vyjadřuje koncentraci hodnot proměnné kolem jejího průměru. b = n(n + 1) (n 1)(n 2)(n 3) A jak výběrovou špičatost interpretujeme? n (x i x) 4 i=1 (n 1) 2 s 4 3 (n 2)(n 3). b = 0... špičatost odpovídá normálnímu rozdělení, b > 0... špičaté rozdělení proměnné, b < 0... ploché rozdělení proměnné.
Krabicový graf
Děkuji za pozornost!!!