Vysoká škola báňská - Technická univerzita Ostrava 29. října 2018
Statistika
Statistika Statistika je jako bikini. Co odhaluje, je zajímavé, co skrývá, je podstatné. Aaron Levenstein
Statistika Statistika je jako bikini. Co odhaluje, je zajímavé, co skrývá, je podstatné. Aaron Levenstein Jsou tři stupně lži: Obyčejná lež, ďábelská lež a statistika. Benjaminu Disraeli
Co je statistika?
Co je statistika? Google Přibližný počet výsledků: 25 000 000 (čeština),
Co je statistika? Google Přibližný počet výsledků: 25 000 000 (čeština), Přibližný počet výsledků: 2 860 000 000 (angličtina).
Co je statistika? Google Přibližný počet výsledků: 25 000 000 (čeština), Přibližný počet výsledků: 2 860 000 000 (angličtina). Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky,... )
Co je statistika? Google Přibližný počet výsledků: 25 000 000 (čeština), Přibližný počet výsledků: 2 860 000 000 (angličtina). Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky,... ) Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika)
Co je statistika? Google Přibližný počet výsledků: 25 000 000 (čeština), Přibližný počet výsledků: 2 860 000 000 (angličtina). Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky,... ) Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj syntetizující vlastnosti datových souborů (četnost, průměr, rozptyl,... )
Zdroje statistických dat
Zdroje statistických dat Statistické hodnoty pro ČR Český statistický úřad (http://www.czso.cz)
Zdroje statistických dat Statistické hodnoty pro ČR Český statistický úřad (http://www.czso.cz) Statistické hodnoty pro EU Evropský statistický úřad EUROSTAT (https://ec.europa.eu/eurostat/), statistická data z Eurostatu přeložená do češtiny na stránkách ČSÚ http://apl.czso.cz/pll/eutab/html.h
Zdroje statistických dat Statistické hodnoty pro ČR Český statistický úřad (http://www.czso.cz) Statistické hodnoty pro EU Evropský statistický úřad EUROSTAT (https://ec.europa.eu/eurostat/), statistická data z Eurostatu přeložená do češtiny na stránkách ČSÚ http://apl.czso.cz/pll/eutab/html.h Další zdroje Ústav zdravotnických informací a statistiky ČR (http://www.uzis.cz/), podniky, ankety, atd. Gapminder (https://www.gapminder.org/data/) projekt, v němž jsou prezentována a vizualizována data o vývoji lidské populace Worldometers Světová statistika v reálném čase model vývoje lidstva podniky, ankety, apod.
Statistika Nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky.
Statistika Nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Části statistiky: Matematická statistika,
Statistika Nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Části statistiky: Matematická statistika, Ekonomická statistika,
Statistika Nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Části statistiky: Matematická statistika, Ekonomická statistika, Biostatistika,
Statistika Nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Části statistiky: Matematická statistika, Ekonomická statistika, Biostatistika, Chemická statistika,
Statistika Nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Části statistiky: Matematická statistika, Ekonomická statistika, Biostatistika, Chemická statistika, Zdravotnická statistika,
Statistika Nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Části statistiky: Matematická statistika, Ekonomická statistika, Biostatistika, Chemická statistika, Zdravotnická statistika,...
Co vypovídá statistitka o jednotlivci?
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová běžec
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová běžec baletka
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová běžec baletka tanečnice
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová běžec baletka tanečnice???
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová běžec baletka tanečnice??? občan ČR
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová běžec baletka tanečnice??? občan ČR Statistika nezkoumá jednotlivce jako individualitu, ale jako anonymního nositele některého znaku (činnosti, vlastnosti).
Co vypovídá statistitka o jednotlivci? Kristýna Leichtová běžec baletka tanečnice??? občan ČR Statistika nezkoumá jednotlivce jako individualitu, ale jako anonymního nositele některého znaku (činnosti, vlastnosti). Statistika je nauka o hromadných jevech.
Jak provést statistické šetření?
Jak provést statistické šetření? úplné šetření
Jak provést statistické šetření? úplné šetření populace = základní soubor
Jak provést statistické šetření? úplné šetření výběrové šetření populace = základní soubor
Jak provést statistické šetření? úplné šetření výběrové šetření populace = základní soubor výběr
Základní pojmy
Základní pojmy Základní soubor - množina všech prvků s konkrétními sledovanými vlastnostmi, které jsou podrobeny zkoumání. Může být konečná i nekonečná.
Základní pojmy Základní soubor - množina všech prvků s konkrétními sledovanými vlastnostmi, které jsou podrobeny zkoumání. Může být konečná i nekonečná. Příklad: Při volbách do parlamentu jsou to všechny osoby s volebním právem v dané zemi, počet obyvatel ČR ke dni..., výrobky vyrobené v závodě Z v době od... do....
Základní pojmy Základní soubor - množina všech prvků s konkrétními sledovanými vlastnostmi, které jsou podrobeny zkoumání. Může být konečná i nekonečná. Příklad: Při volbách do parlamentu jsou to všechny osoby s volebním právem v dané zemi, počet obyvatel ČR ke dni..., výrobky vyrobené v závodě Z v době od... do.... Výběrový soubor - konečná podmnožina základního souboru.
Základní pojmy Základní soubor - množina všech prvků s konkrétními sledovanými vlastnostmi, které jsou podrobeny zkoumání. Může být konečná i nekonečná. Příklad: Při volbách do parlamentu jsou to všechny osoby s volebním právem v dané zemi, počet obyvatel ČR ke dni..., výrobky vyrobené v závodě Z v době od... do.... Výběrový soubor - konečná podmnožina základního souboru. Statistická jednotka - prvek základního (výběrového) souboru.
Základní pojmy Základní soubor - množina všech prvků s konkrétními sledovanými vlastnostmi, které jsou podrobeny zkoumání. Může být konečná i nekonečná. Příklad: Při volbách do parlamentu jsou to všechny osoby s volebním právem v dané zemi, počet obyvatel ČR ke dni..., výrobky vyrobené v závodě Z v době od... do.... Výběrový soubor - konečná podmnožina základního souboru. Statistická jednotka - prvek základního (výběrového) souboru. Rozsah souboru - (značí se N) počet prvků základního (resp. výběrového) souboru.
Základní pojmy Základní soubor - množina všech prvků s konkrétními sledovanými vlastnostmi, které jsou podrobeny zkoumání. Může být konečná i nekonečná. Příklad: Při volbách do parlamentu jsou to všechny osoby s volebním právem v dané zemi, počet obyvatel ČR ke dni..., výrobky vyrobené v závodě Z v době od... do.... Výběrový soubor - konečná podmnožina základního souboru. Statistická jednotka - prvek základního (výběrového) souboru. Rozsah souboru - (značí se N) počet prvků základního (resp. výběrového) souboru. Statistický znak - je vyjádřením určité vlastnosti statistických jednotek (prvků množin) sledovaného statistického souboru, kterou jsme schopni číselně nebo slovně popsat.
Další pojmy
Další pojmy variační obor - jestliže x m = min(x i ) a x M = max(x i ), pak interval x m, x M nazýváme variační obor. i i
Další pojmy variační obor - jestliže x m = min(x i ) a x M = max(x i ), pak interval x m, x M nazýváme variační obor. variační rozpětí - je hodnota R = x M x m. i i
Další pojmy variační obor - jestliže x m = min(x i ) a x M = max(x i ), pak interval x m, x M nazýváme variační obor. variační rozpětí - je hodnota R = x M x m. i absolutní četnost hodnoty x i - Jestliže se hodnota x i vyskytne v souboru f i -krát, potom f i je absolutní četnost hodnoty x i. i
Další pojmy variační obor - jestliže x m = min(x i ) a x M = max(x i ), pak interval x m, x M nazýváme variační obor. variační rozpětí - je hodnota R = x M x m. i absolutní četnost hodnoty x i - Jestliže se hodnota x i vyskytne v souboru f i -krát, potom f i je absolutní četnost hodnoty x i. relativní četnost hodnoty x i - je hodnota ϕ i = f i N. i
Další pojmy variační obor - jestliže x m = min(x i ) a x M = max(x i ), pak interval x m, x M nazýváme variační obor. variační rozpětí - je hodnota R = x M x m. i absolutní četnost hodnoty x i - Jestliže se hodnota x i vyskytne v souboru f i -krát, potom f i je absolutní četnost hodnoty x i. relativní četnost hodnoty x i - je hodnota ϕ i = f i N. kumulativní četnost do x i - je hodnota F i = i i f k. k=1
Další pojmy variační obor - jestliže x m = min(x i ) a x M = max(x i ), pak interval x m, x M nazýváme variační obor. variační rozpětí - je hodnota R = x M x m. i absolutní četnost hodnoty x i - Jestliže se hodnota x i vyskytne v souboru f i -krát, potom f i je absolutní četnost hodnoty x i. relativní četnost hodnoty x i - je hodnota ϕ i = f i N. kumulativní četnost do x i - je hodnota F i = i i f k. k=1 relativní kumulativní četnost do x i - je hodnota φ i = F i N.
Podle použitých metod práce dělíme matematickou statistiku na:
Podle použitých metod práce dělíme matematickou statistiku na: popisnou statistiku (deskriptivní) - zabývá se efektivním získáváním ukazatelů, které poskytují obraz zkoumaného jevu, definuje výběrové charakteristiky výběrového souboru:
Podle použitých metod práce dělíme matematickou statistiku na: popisnou statistiku (deskriptivní) - zabývá se efektivním získáváním ukazatelů, které poskytují obraz zkoumaného jevu, definuje výběrové charakteristiky výběrového souboru: 1 charakteristiky polohy (úrovně),
Podle použitých metod práce dělíme matematickou statistiku na: popisnou statistiku (deskriptivní) - zabývá se efektivním získáváním ukazatelů, které poskytují obraz zkoumaného jevu, definuje výběrové charakteristiky výběrového souboru: 1 charakteristiky polohy (úrovně), 2 charakteristiky variability.
Podle použitých metod práce dělíme matematickou statistiku na: popisnou statistiku (deskriptivní) - zabývá se efektivním získáváním ukazatelů, které poskytují obraz zkoumaného jevu, definuje výběrové charakteristiky výběrového souboru: 1 charakteristiky polohy (úrovně), 2 charakteristiky variability. statistickou indukci - řeší problémy zobecňování výsledků získaných popisem statistického souboru.
Charakteristiky polohy
Charakteristiky polohy Empirická střední hodnota
Charakteristiky polohy Empirická střední hodnota Aritmetický průměr,
Charakteristiky polohy Empirická střední hodnota Aritmetický průměr, Harmonický průměr,
Charakteristiky polohy Empirická střední hodnota Aritmetický průměr, Harmonický průměr, Geometrický průměr,
Charakteristiky polohy Empirická střední hodnota Aritmetický průměr, Harmonický průměr, Geometrický průměr, Kvadratický průměr....
Charakteristiky polohy Empirická střední hodnota Aritmetický průměr, Harmonický průměr, Geometrický průměr, Kvadratický průměr.... Poznámka: Střední hodnoty mimo aritmetický průměr jsou používány jako popisné statistické charakteristiky souboru v mnohem menší míře a pouze ve speciálních situacích.
Aritmetický průměr
Aritmetický průměr x = x 1 + x 2 +... + x n n
Aritmetický průměr x = x 1 + x 2 +... + x n n Dále platí n (x i x) = 0. i=1
Aritmetický průměr Dále platí x = x 1 + x 2 +... + x n n n (x i x) = 0. i=1 Pro libovolné a x platí n (x i x) 2 < i=1 n (x i a) 2. i=1
Aritmetický průměr Dále platí x = x 1 + x 2 +... + x n n n (x i x) = 0. i=1 Pro libovolné a x platí n (x i x) 2 < i=1 n (x i a) 2. Příklad: Vypočtěte průměrnou rychlost v automobilu na celé své dráze, jestliže první hodinu jel rychlostí a = 80km/h a druhou hodinu jel rychlostí b = 120km/h. i=1
Aritmetický průměr Dále platí x = x 1 + x 2 +... + x n n n (x i x) = 0. i=1 Pro libovolné a x platí n (x i x) 2 < i=1 n (x i a) 2. Příklad: Vypočtěte průměrnou rychlost v automobilu na celé své dráze, jestliže první hodinu jel rychlostí a = 80km/h a druhou hodinu jel rychlostí b = 120km/h. Řešení: Průměrná rychlost se počítá jako podíl celkově ujeté dráhy a celé doby jízdy. V našem případě to je v = a + b 2 = i=1 80 + 120 km/h = 100km/h. 2
Ošidnost aritmetického průměru
Ošidnost aritmetického průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice.
Ošidnost aritmetického průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. [$31 833]
Ošidnost aritmetického průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. [$31 833] Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 $40 000 000 Určete průměrný plat obyvatel této vesnice.
Ošidnost aritmetického průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. [$31 833] Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 $40 000 000 Určete průměrný plat obyvatel této vesnice. [$5 741 714]
Harmonický průměr
Harmonický průměr - Lze použít pouze pro hodnoty x i různé od nuly. x H = n x1 1 + x2 1 +... + xn 1
Harmonický průměr - Lze použít pouze pro hodnoty x i různé od nuly. x H = n x1 1 + x2 1 +... + xn 1 Příklad: Určete průměrnou rychlost automobilu, které jede z místa A do místa B stálou rychlostí a = 80km/h a zpět z místa B do místa A stálou rychlostí b = 120km/h.
Harmonický průměr - Lze použít pouze pro hodnoty x i různé od nuly. x H = n x1 1 + x2 1 +... + xn 1 Příklad: Určete průměrnou rychlost automobilu, které jede z místa A do místa B stálou rychlostí a = 80km/h a zpět z místa B do místa A stálou rychlostí b = 120km/h. Řešení: Je-li s vzdálenost mezi místy A, B, dále t 1 doba jízdy z A do B a t 2 doba jízdy z B do A, je průměrná rychlost rovna v = 2s t 1 + t 2 = 2s s a + s b = 2 1 a + 1 b = 2 1 80 + 1 120 km/h = 96km/h.
Geometrický průměr
Geometrický průměr - Používá se zejména k charakterizování průměrného tempa růstu.
Geometrický průměr - Používá se zejména k charakterizování průměrného tempa růstu. x G = n x 1 x 2... x n
Geometrický průměr - Používá se zejména k charakterizování průměrného tempa růstu. x G = n x 1 x 2... x n Příklad: Obdélník má rozměry a = 2cm, b = 8cm. Jaké rozměry má čtverec stejného obsahu jako obdélník?
Geometrický průměr - Používá se zejména k charakterizování průměrného tempa růstu. x G = n x 1 x 2... x n Příklad: Obdélník má rozměry a = 2cm, b = 8cm. Jaké rozměry má čtverec stejného obsahu jako obdélník? Řešení: Je-li p strana čtverce, platí p 2 = a b, p = a b = 2 8cm = 4cm.
Kvadratický průměr
Kvadratický průměr x K = x 2 1 + x 2 2 +... + x 2 n n
Kvadratický průměr x K = x 2 1 + x 2 2 +... + x 2 n n Příklad: Určete délku p strany dvou průměrných čtverců, které zaberou stejnou plochu jako čtverce o délkách stran a = 10cm a b = 70cm.
Kvadratický průměr x K = x 2 1 + x 2 2 +... + x 2 n n Příklad: Určete délku p strany dvou průměrných čtverců, které zaberou stejnou plochu jako čtverce o délkách stran a = 10cm a b = 70cm. Řešení: Má platit 2p 2 = a 2 + b 2, a p = 2 + b 2 10 = 2 + 70 2. 2 2
Vzájemný vztah mezi průměry
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd.
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd. Všechny výše uvedené průměry se dají zapsat pomoci jediné formule x = k x k 1 + x k 2 +... + x k n n
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd. Všechny výše uvedené průměry se dají zapsat pomoci jediné formule x = k x k 1 + x k 2 +... + x k n n Pro k = 2... Harmonicko-kvadratický průměr,
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd. Všechny výše uvedené průměry se dají zapsat pomoci jediné formule Pro x = k x k 1 + x k 2 +... + x k n n k = 2... Harmonicko-kvadratický průměr, k = 1... Harmonický průměr,
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd. Všechny výše uvedené průměry se dají zapsat pomoci jediné formule Pro x = k x k 1 + x k 2 +... + x k n n k = 2... Harmonicko-kvadratický průměr, k = 1... Harmonický průměr, k 0... Geometrický průměr,
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd. Všechny výše uvedené průměry se dají zapsat pomoci jediné formule Pro x = k x k 1 + x k 2 +... + x k n n k = 2... Harmonicko-kvadratický průměr, k = 1... Harmonický průměr, k 0... Geometrický průměr, k = 1... Aritmetický průměr,
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd. Všechny výše uvedené průměry se dají zapsat pomoci jediné formule Pro x = k x k 1 + x k 2 +... + x k n n k = 2... Harmonicko-kvadratický průměr, k = 1... Harmonický průměr, k 0... Geometrický průměr, k = 1... Aritmetický průměr, k = 2... Kvadratický průměr,
Vzájemný vztah mezi průměry Poznámka: Kromě výše uváděných průměrů existuje ještě celá řada dalších průměrů, např. Kubický průměr, Harmonicko-kvadratický průměr, atd. Všechny výše uvedené průměry se dají zapsat pomoci jediné formule Pro x = k x k 1 + x k 2 +... + x k n n k = 2... Harmonicko-kvadratický průměr, k = 1... Harmonický průměr, k 0... Geometrický průměr, k = 1... Aritmetický průměr, k = 2... Kvadratický průměr, k = 3... Kubický průměr.
Vzájemný vztah mezi průměry x H x G x x K
Vzájemný vztah mezi průměry x H x G x x K Rovnost je splněna když jsou všechny prvky x i shodné.
Charakteristiky polohy Modus statistického souboru Mo(x) - je ta hodnota argumentu X, která má největší absolutní četnost.
Charakteristiky polohy Modus statistického souboru Mo(x) - je ta hodnota argumentu X, která má největší absolutní četnost. Medián statistického souboru Me(x) - je ta hodnota argumentu X, která rozděluje soubor uspořádaný na dvě části o stejném počtu prvků. Má-li soubor sudý počet prvků, považuje se za medián průměrná hodnota prostředních dvou.
Charakteristiky polohy Modus statistického souboru Mo(x) - je ta hodnota argumentu X, která má největší absolutní četnost. Medián statistického souboru Me(x) - je ta hodnota argumentu X, která rozděluje soubor uspořádaný na dvě části o stejném počtu prvků. Má-li soubor sudý počet prvků, považuje se za medián průměrná hodnota prostředních dvou. Empirický p-kvantil - je taková hodnota x p, pro kterou platí, že 100p procent prvků souboru je nanejvýš rovných x p.
Charakteristiky variability
Charakteristiky variability Empirický rozptyl (empirická disperze) s 2 x = 1 N 1 f i (x i x) 2 i
Charakteristiky variability Empirický rozptyl (empirická disperze) s 2 x = 1 N 1 f i (x i x) 2 Empirická směrodatná (standardní) odchylka - měří rozptýlenost kolem průměru, je vždy 0 s x = sx 2 i
Charakteristiky variability Empirický rozptyl (empirická disperze) s 2 x = 1 N 1 f i (x i x) 2 Empirická směrodatná (standardní) odchylka - měří rozptýlenost kolem průměru, je vždy 0 s x = sx 2 Průměrná odchylka d = 1 N 1 i f i x i x i
Charakteristiky variability Empirický rozptyl (empirická disperze) s 2 x = 1 N 1 f i (x i x) 2 Empirická směrodatná (standardní) odchylka - měří rozptýlenost kolem průměru, je vždy 0 s x = sx 2 Průměrná odchylka d = 1 N 1 i f i x i x i Variační koeficient - často se udává v procentech. Používáme, jestliže chceme posoudit relativní velikost rozptýlenosti dat vzhledem k průměru. v = s x x
Základní zpracování dat
Základní zpracování dat Statistické třídění - základem je uspořádání hodnot jednoho statistického znaku.
Základní zpracování dat Statistické třídění - základem je uspořádání hodnot jednoho statistického znaku. Z tohoto pohledu rozeznáváme: řada neuspořádaná (původní naměřená řada),
Základní zpracování dat Statistické třídění - základem je uspořádání hodnot jednoho statistického znaku. Z tohoto pohledu rozeznáváme: řada neuspořádaná (původní naměřená řada), řada uspořádaná (variační) podle velikosti,
Základní zpracování dat Statistické třídění - základem je uspořádání hodnot jednoho statistického znaku. Z tohoto pohledu rozeznáváme: řada neuspořádaná (původní naměřená řada), řada uspořádaná (variační) podle velikosti, řada tříděná
Základní zpracování dat Statistické třídění - základem je uspořádání hodnot jednoho statistického znaku. Z tohoto pohledu rozeznáváme: řada neuspořádaná (původní naměřená řada), řada uspořádaná (variační) podle velikosti, řada tříděná prosté třídění,
Základní zpracování dat Statistické třídění - základem je uspořádání hodnot jednoho statistického znaku. Z tohoto pohledu rozeznáváme: řada neuspořádaná (původní naměřená řada), řada uspořádaná (variační) podle velikosti, řada tříděná prosté třídění, intervalové třídění,
Základní zpracování dat Statistické třídění - základem je uspořádání hodnot jednoho statistického znaku. Z tohoto pohledu rozeznáváme: řada neuspořádaná (původní naměřená řada), řada uspořádaná (variační) podle velikosti, řada tříděná prosté třídění, intervalové třídění, Výsledkem všech druhů třídění je řada rozdělení četností v tabulkové nebo grafické podobě (sloupcové a výsečové grafy, polygony rozdělení četností, histogramy).
Třídění dat
Třídění dat Obsahuje-li statistický soubor malý počet různých hodnot argumentu X = prosté třídění
Třídění dat Obsahuje-li statistický soubor malý počet různých hodnot argumentu X = prosté třídění Příklad: Počet kotlů na tuhá paliva v domácnosti. Známkování studentů.
Třídění dat Obsahuje-li statistický soubor malý počet různých hodnot argumentu X = prosté třídění Příklad: Počet kotlů na tuhá paliva v domácnosti. Známkování studentů. Obsahuje-li statistický soubor velký počet různých hodnot argumentu X, sdružujeme hodnoty argumentu do intervalů zvaných třídy = intervalové třídění
Třídění dat Obsahuje-li statistický soubor malý počet různých hodnot argumentu X = prosté třídění Příklad: Počet kotlů na tuhá paliva v domácnosti. Známkování studentů. Obsahuje-li statistický soubor velký počet různých hodnot argumentu X, sdružujeme hodnoty argumentu do intervalů zvaných třídy = intervalové třídění Příklad: Koncentrace Pb v ovzduší na určitém místě (soubor má např. 104 hodnot ze 104 měření).
Tabulka četností
Tabulka četností Konstrukce tabulky četností:
Tabulka četností Konstrukce tabulky četností: 1 Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu.
Tabulka četností Konstrukce tabulky četností: 1 Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu. 2 Rozhodneme, zda provedeme prosté nebo intervalové třídění.
Tabulka četností Konstrukce tabulky četností: 1 Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu. 2 Rozhodneme, zda provedeme prosté nebo intervalové třídění. 3 Rozhodneme, kolik bude mít tabulka řádků.
Tabulka četností Konstrukce tabulky četností: 1 Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu. 2 Rozhodneme, zda provedeme prosté nebo intervalové třídění. 3 Rozhodneme, kolik bude mít tabulka řádků. 4 Rozhodneme jaké bude rozpětí jednotlivých tříd.
Tabulka četností Konstrukce tabulky četností: 1 Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu. 2 Rozhodneme, zda provedeme prosté nebo intervalové třídění. 3 Rozhodneme, kolik bude mít tabulka řádků. 4 Rozhodneme jaké bude rozpětí jednotlivých tříd. 5 Počítáme kolik pozorování patří do každé třídy.
Tabulka četností Konstrukce tabulky četností: 1 Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu. 2 Rozhodneme, zda provedeme prosté nebo intervalové třídění. 3 Rozhodneme, kolik bude mít tabulka řádků. 4 Rozhodneme jaké bude rozpětí jednotlivých tříd. 5 Počítáme kolik pozorování patří do každé třídy.
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností:
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností: Sturgesovo pravidlo počet intervalů 1 + 3, 3 log 10 (N)
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností: Sturgesovo pravidlo počet intervalů 1 + 3, 3 log 10 (N) Jednoduché (odmocninové) pravidlo
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností: Sturgesovo pravidlo počet intervalů 1 + 3, 3 log 10 (N) Jednoduché (odmocninové) pravidlo počet intervalů N
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností: Sturgesovo pravidlo počet intervalů 1 + 3, 3 log 10 (N) Jednoduché (odmocninové) pravidlo počet intervalů N subjektivně
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností: Sturgesovo pravidlo počet intervalů 1 + 3, 3 log 10 (N) Jednoduché (odmocninové) pravidlo počet intervalů N subjektivně - Třídy musí zahrnovat všechny hodnoty a nejčastěji se volí stejně široké.
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností: Sturgesovo pravidlo počet intervalů 1 + 3, 3 log 10 (N) Jednoduché (odmocninové) pravidlo počet intervalů N subjektivně - Třídy musí zahrnovat všechny hodnoty a nejčastěji se volí stejně široké. - Krajní intervaly mohou být širší pokud zahrnují výrazně vysoké nebo nízké hodnoty.
Intervalové třídění Volba vhodného počtu tříd (řádků) v tabulce četností: Sturgesovo pravidlo počet intervalů 1 + 3, 3 log 10 (N) Jednoduché (odmocninové) pravidlo počet intervalů N subjektivně - Třídy musí zahrnovat všechny hodnoty a nejčastěji se volí stejně široké. - Krajní intervaly mohou být širší pokud zahrnují výrazně vysoké nebo nízké hodnoty. - Třídy se nesmějí překrývat, proto se aplikují zleva otevřené a zprava uzavřené intervaly.
Intervalové třídění Šířka tříd se spočítá podle vzorce h = x M x m počet tříd.
Intervalové třídění Šířka tříd se spočítá podle vzorce h = x M x m počet tříd. Při zpracování statistického souboru nahradíme všechny hodnoty v dané třídě jedinou hodnotou, tzv. třídním znakem, kterým je aritmetický průměr obou mezí třídy. Třídní znak zastupuje všechny hodnoty, které do této třídy patří.
Intervalové třídění Šířka tříd se spočítá podle vzorce h = x M x m počet tříd. Při zpracování statistického souboru nahradíme všechny hodnoty v dané třídě jedinou hodnotou, tzv. třídním znakem, kterým je aritmetický průměr obou mezí třídy. Třídní znak zastupuje všechny hodnoty, které do této třídy patří. Počet hodnot ve třídě je třídní četnost.
Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická, číselná,... )
Kvalitativní proměnná
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd.
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi Dělení podle možnosti uspořádání do kategorií:
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi Dělení podle možnosti uspořádání do kategorií: nominální proměnná - nabývá rovnocenných variant a nelze je smysluplně porovnávat ani seřadit,
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi Dělení podle možnosti uspořádání do kategorií: nominální proměnná - nabývá rovnocenných variant a nelze je smysluplně porovnávat ani seřadit, Příklad: pohlaví, národnost, značka hodinek,...
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi Dělení podle možnosti uspořádání do kategorií: nominální proměnná - nabývá rovnocenných variant a nelze je smysluplně porovnávat ani seřadit, Příklad: pohlaví, národnost, značka hodinek,... ordinální proměnná - tvoří přechod mezi kvalitativními a kvantitativními proměnnými; jednotlivým variantám lze přiřadit pořadí a vzájemně je porovnávat nebo seřadit
Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi Dělení podle možnosti uspořádání do kategorií: nominální proměnná - nabývá rovnocenných variant a nelze je smysluplně porovnávat ani seřadit, Příklad: pohlaví, národnost, značka hodinek,... ordinální proměnná - tvoří přechod mezi kvalitativními a kvantitativními proměnnými; jednotlivým variantám lze přiřadit pořadí a vzájemně je porovnávat nebo seřadit Příklad: známka ve škole, velikost oděvu (S, M, L),...
Kvalitativní proměnná
Kvalitativní proměnná Dělení podle počtu variant:
Kvalitativní proměnná Dělení podle počtu variant: alternativní proměnná - nabývá pouze dvou různých variant,
Kvalitativní proměnná Dělení podle počtu variant: alternativní proměnná - nabývá pouze dvou různých variant, Příklad: pohlaví, zapnuto/vypnuto, živý/mrtvý,...
Kvalitativní proměnná Dělení podle počtu variant: alternativní proměnná - nabývá pouze dvou různých variant, Příklad: pohlaví, zapnuto/vypnuto, živý/mrtvý,... množná proměnná - nabývá více než dvou různých variant
Kvalitativní proměnná Dělení podle počtu variant: alternativní proměnná - nabývá pouze dvou různých variant, Příklad: pohlaví, zapnuto/vypnuto, živý/mrtvý,... množná proměnná - nabývá více než dvou různých variant Příklad: vzdělání, jméno, barva očí,...
Kvantitativní proměnná
Kvantitativní proměnná - jsou to proměnné měřitelné
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant,
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,...
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,... spočetné
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,... spočetné Příklad: věk v letech, výška v centimetrech, váha v kilogramech,...
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,... spočetné Příklad: věk v letech, výška v centimetrech, váha v kilogramech,... spojité proměnné - mohou nabývat libovolných hodnot z určitého intervalu
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,... spočetné Příklad: věk v letech, výška v centimetrech, váha v kilogramech,... spojité proměnné - mohou nabývat libovolných hodnot z určitého intervalu Příklad: výška, váha, vzdálenost měst,...
Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,... spočetné Příklad: věk v letech, výška v centimetrech, váha v kilogramech,... spojité proměnné - mohou nabývat libovolných hodnot z určitého intervalu Příklad: výška, váha, vzdálenost měst,...
Nominální proměnná
Nominální proměnná - nabývá v rámci souboru různých, avšak rovnocenných kategorií.
Nominální proměnná - nabývá v rámci souboru různých, avšak rovnocenných kategorií. Charakteristiky:
Nominální proměnná - nabývá v rámci souboru různých, avšak rovnocenných kategorií. Charakteristiky: četnost,
Nominální proměnná - nabývá v rámci souboru různých, avšak rovnocenných kategorií. Charakteristiky: četnost, relativní četnost,
Nominální proměnná - nabývá v rámci souboru různých, avšak rovnocenných kategorií. Charakteristiky: četnost, relativní četnost, modus.
Grafické znázornění nominální proměnné
Grafické znázornění nominální proměnné Histogram (také sloupcový graf, angl. bar chart ) - je to graf, v němž na jednu osu vynášíme varianty proměnné a na druhou osu jejich četnosti.
Grafické znázornění nominální proměnné Histogram (také sloupcový graf, angl. bar chart ) - je to graf, v němž na jednu osu vynášíme varianty proměnné a na druhou osu jejich četnosti. Výsečový graf (také koláčový graf, angl. pie chart ) - je to graf relativních četnosti jednotlivých variant proměnné, přičemž jednotlivé relativní četnosti jsou úměrně reprezentovány plochami příslušných kruhových výsečí.
Ordinální proměnná
Ordinální proměnná Charakteristiky:
Ordinální proměnná Charakteristiky: četnost,
Ordinální proměnná Charakteristiky: četnost, relativní četnost,
Ordinální proměnná Charakteristiky: četnost, relativní četnost, modus,
Ordinální proměnná Charakteristiky: četnost, relativní četnost, modus, kumulativní četnost,
Ordinální proměnná Charakteristiky: četnost, relativní četnost, modus, kumulativní četnost, kumulativní relativní četnost.
Grafické znázornění ordinální proměnné
Grafické znázornění ordinální proměnné Histogram,
Grafické znázornění ordinální proměnné Histogram, Výsečový graf,
Grafické znázornění ordinální proměnné Histogram, Výsečový graf, Lorenzova křivka (polygon kumulativních četností)
Grafické znázornění ordinální proměnné Histogram, Výsečový graf, Lorenzova křivka (polygon kumulativních četností) - je to spojnicový graf, který získáme tak, že na vodorovnou osu vynášíme jednotlivé varianty proměnné v pořadí od nejmenší do největší a na svislou osu příslušné hodnoty kumulativních četností. Znázorněné body spojíme úsečkami, - zaznamenává uspořádání jednotlivých variant.
Kvalitativní proměnná
Kvalitativní proměnná Charakteristiky:
Kvalitativní proměnná Charakteristiky: Míry polohy - určují typické rozložení hodnot proměnné (jejich rozmístění na číselné ose) Míry variability - určují variabilitu (rozptyl) hodnot kolem své typické polohy.
Míry polohy a variability Průměr
Míry polohy a variability Průměr aritmetický, geometrický, harmonický, geometrický,.
Míry polohy a variability Průměr aritmetický, geometrický, harmonický, geometrický,. - stanovuje ze všech hodnot proměnné = nese maximum informací o výběrovém souboru,
Míry polohy a variability Průměr aritmetický, geometrický, harmonický, geometrický,. - stanovuje ze všech hodnot proměnné = nese maximum informací o výběrovém souboru, - je velmi citlivý na tzv. odlehlá pozorování (hodnoty, které se mimořádně liší od ostatních)
Míry polohy a variability Modus
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné.
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné,
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné, - pro určení této hodnoty využijeme tzv. shorth - nejkratší interval, v němž leží alespoň 50% hodnot proměnné.
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné, - pro určení této hodnoty využijeme tzv. shorth - nejkratší interval, v němž leží alespoň 50% hodnot proměnné. n = 2k, k N (sudý počet hodnot) = leží v shorthu k hodnot, což je 50 % (n/2) hodnot proměnné,
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné, - pro určení této hodnoty využijeme tzv. shorth - nejkratší interval, v němž leží alespoň 50% hodnot proměnné. n = 2k, k N (sudý počet hodnot) = leží v shorthu k hodnot, což je 50 % (n/2) hodnot proměnné, n = 2k + 1, k N (lichý počet hodnot) = leží v shorthu k + 1 hodnot, což je o 1 více než je 50% hodnot proměnné.
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné, - pro určení této hodnoty využijeme tzv. shorth - nejkratší interval, v němž leží alespoň 50% hodnot proměnné. n = 2k, k N (sudý počet hodnot) = leží v shorthu k hodnot, což je 50 % (n/2) hodnot proměnné, n = 2k + 1, k N (lichý počet hodnot) = leží v shorthu k + 1 hodnot, což je o 1 více než je 50% hodnot proměnné. Modus pak definujeme jako střed shorthu.
Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné, - pro určení této hodnoty využijeme tzv. shorth - nejkratší interval, v němž leží alespoň 50% hodnot proměnné. n = 2k, k N (sudý počet hodnot) = leží v shorthu k hodnot, což je 50 % (n/2) hodnot proměnné, n = 2k + 1, k N (lichý počet hodnot) = leží v shorthu k + 1 hodnot, což je o 1 více než je 50% hodnot proměnné. Modus pak definujeme jako střed shorthu. - je odolný vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních)
Míry polohy a variability Jak postupovat při určování shortu?
Míry polohy a variability Jak postupovat při určování shortu? 1 Hodnoty proměnné seřadíme.
Míry polohy a variability Jak postupovat při určování shortu? 1 Hodnoty proměnné seřadíme. 2 Určíme délky všech n/2 (resp. n/2 + 0.5) členných intervalů, ve kterých x i < x i+1 < < x i+n/2 1 (resp. x i+n/2 0.5 ) pro i = 1, 2,..., n/2 + 1 (resp. n/2 + 0.5).
Míry polohy a variability Jak postupovat při určování shortu? 1 Hodnoty proměnné seřadíme. 2 Určíme délky všech n/2 (resp. n/2 + 0.5) členných intervalů, ve kterých x i < x i+1 < < x i+n/2 1 (resp. x i+n/2 0.5 ) pro i = 1, 2,..., n/2 + 1 (resp. n/2 + 0.5). 3 Nejkratší z těchto intervalů prohlásíme za shorth
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné.
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot,
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních),
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily Dolní kvartil x 0.25-25%-ní kvantil (rozděluje datový soubor tak, že 25 % hodnot je menších než tento kvartil a zbytek, tj. 75 % větších (nebo rovných)),
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily Dolní kvartil x 0.25-25%-ní kvantil (rozděluje datový soubor tak, že 25 % hodnot je menších než tento kvartil a zbytek, tj. 75 % větších (nebo rovných)), Medián x 0.5-50%-ní kvantil (rozděluje datový soubor tak, že polovina 50 % hodnot je menších než medián a polovina (50 %) hodnot větších (nebo rovných)),
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily Dolní kvartil x 0.25-25%-ní kvantil (rozděluje datový soubor tak, že 25 % hodnot je menších než tento kvartil a zbytek, tj. 75 % větších (nebo rovných)), Medián x 0.5-50%-ní kvantil (rozděluje datový soubor tak, že polovina 50 % hodnot je menších než medián a polovina (50 %) hodnot větších (nebo rovných)), Horní kvartil x 0.75-75%-ní kvantil (rozděluje datový soubor tak, že 75 % hodnot je menších než tento kvartil a zbytek, tj. 25 % větších (nebo rovných)).
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily Dolní kvartil x 0.25-25%-ní kvantil (rozděluje datový soubor tak, že 25 % hodnot je menších než tento kvartil a zbytek, tj. 75 % větších (nebo rovných)), Medián x 0.5-50%-ní kvantil (rozděluje datový soubor tak, že polovina 50 % hodnot je menších než medián a polovina (50 %) hodnot větších (nebo rovných)), Horní kvartil x 0.75-75%-ní kvantil (rozděluje datový soubor tak, že 75 % hodnot je menších než tento kvartil a zbytek, tj. 25 % větších (nebo rovných)). Decily - x 0.1, x 0.2,..., x 0.9,
Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily Dolní kvartil x 0.25-25%-ní kvantil (rozděluje datový soubor tak, že 25 % hodnot je menších než tento kvartil a zbytek, tj. 75 % větších (nebo rovných)), Medián x 0.5-50%-ní kvantil (rozděluje datový soubor tak, že polovina 50 % hodnot je menších než medián a polovina (50 %) hodnot větších (nebo rovných)), Horní kvartil x 0.75-75%-ní kvantil (rozděluje datový soubor tak, že 75 % hodnot je menších než tento kvartil a zbytek, tj. 25 % větších (nebo rovných)). Decily - x 0.1, x 0.2,..., x 0.9, Percentily - x 0.01, x 0.02,..., x 0.99,
Míry polohy a variability Jak postupovat při určování kvantilu?
Míry polohy a variability Jak postupovat při určování kvantilu? 1 Hodnoty proměnné seřadíme podle velikosti.
Míry polohy a variability Jak postupovat při určování kvantilu? 1 Hodnoty proměnné seřadíme podle velikosti. 2 Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru).
Míry polohy a variability Jak postupovat při určování kvantilu? 1 Hodnoty proměnné seřadíme podle velikosti. 2 Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 3 100p%- ní kvantil je roven hodnotě proměnné s pořadím z p, kde z p = np + 0.5 Není-li z p celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím [z p ] a [z p + 1].
Empirická distribuční funkce F(x)
Empirická distribuční funkce F(x) Označme f (x i ) relativní četnost hodnoty x i seřazeného výběrového souboru x 1 < x 2 < < x n. Potom 0 pro x x i, F (x) = j F (x) pro x j < x x j+1, 1 j n 1, i=1 1 pro x n < x.
Míry polohy a variability Interkvartilové rozpětí - IQR - je mírou variability souboru a je definována jako vzdálenost mezi horním a dolním kvartilem IQR = x 0.75 x 0.25
Míry polohy a variability Interkvartilové rozpětí - IQR - je mírou variability souboru a je definována jako vzdálenost mezi horním a dolním kvartilem IQR = x 0.75 x 0.25 MAD (angl. median absolute deviation from the median; česky: medián absolutních odchylek od mediánu)
Míry polohy a variability Interkvartilové rozpětí - IQR - je mírou variability souboru a je definována jako vzdálenost mezi horním a dolním kvartilem IQR = x 0.75 x 0.25 MAD (angl. median absolute deviation from the median; česky: medián absolutních odchylek od mediánu) Jak ho určíme? 1 Výběrový soubor uspořádáme podle velikosti, 2 Určíme medián souboru, 3 Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu, 4 Absolutní odchylky od mediánu uspořádáme podle velikosti, 5 Určíme medián absolutních odchylek od mediánu, tj. MAD.
Míry polohy a variability Výběrový rozptyl - s 2 x - je dán podílem součtu kvadrátu odchylek jednotlivých hodnot od průměru a rozsahu souboru sníženého o jedničku. s 2 x = 1 n 1 n (x i x) 2 i=1
Míry polohy a variability Výběrový rozptyl - s 2 x - je dán podílem součtu kvadrátu odchylek jednotlivých hodnot od průměru a rozsahu souboru sníženého o jedničku. Vlastnosti: s 2 x = 1 n 1 n (x i x) 2 i=1 Výběrový rozptyl konstantního souboru je roven nule,
Míry polohy a variability Výběrový rozptyl - s 2 x - je dán podílem součtu kvadrátu odchylek jednotlivých hodnot od průměru a rozsahu souboru sníženého o jedničku. Vlastnosti: s 2 x = 1 n 1 n (x i x) 2 i=1 Výběrový rozptyl konstantního souboru je roven nule, přičteme-li ke všem hodnotám proměnné libovolnou konstantu, potom se výběrový rozptyl proměnné se nezmění.
Míry polohy a variability Výběrový rozptyl - s 2 x - je dán podílem součtu kvadrátu odchylek jednotlivých hodnot od průměru a rozsahu souboru sníženého o jedničku. Vlastnosti: s 2 x = 1 n 1 n (x i x) 2 i=1 Výběrový rozptyl konstantního souboru je roven nule, přičteme-li ke všem hodnotám proměnné libovolnou konstantu, potom se výběrový rozptyl proměnné se nezmění. vynásobíme-li všechny hodnoty proměnné libovolnou konstantou (b), potom se výběrový rozptyl proměnné zvětší kvadrátem této konstanty (b 2 )
Míry polohy a variability Výběrová směrodatná odchylka (angl. sample standard deviation) - s - je definována jako kladná odmocnina výběrového rozptylu Nevýhoda: s x = sx 2 = 1 n (x i x) n 1 2 i=1 Stejně jako u výběrového rozptylu i výběrová směrodatná odchylka neumožňuje porovnávat variabilitu proměnných vyjádřených v různých jednotkách.
Míry polohy a variability Výběrová směrodatná odchylka (angl. sample standard deviation) - s - je definována jako kladná odmocnina výběrového rozptylu Nevýhoda: s x = sx 2 = 1 n (x i x) n 1 2 i=1 Stejně jako u výběrového rozptylu i výběrová směrodatná odchylka neumožňuje porovnávat variabilitu proměnných vyjádřených v různých jednotkách. Která proměnná má větší variabilitu výška nebo hmotnost dospělého člověka?
Míry polohy a variability Výběrová směrodatná odchylka (angl. sample standard deviation) - s - je definována jako kladná odmocnina výběrového rozptylu Nevýhoda: s x = sx 2 = 1 n (x i x) n 1 2 i=1 Stejně jako u výběrového rozptylu i výběrová směrodatná odchylka neumožňuje porovnávat variabilitu proměnných vyjádřených v různých jednotkách. Která proměnná má větší variabilitu výška nebo hmotnost dospělého člověka? = variační koeficient
Míry polohy a variability Variační koeficient (angl. coefficient of variation) - V x - vyjadřuje relativní míru variability proměnné x. - je bezrozměrný, udává se v procentech V x = s x x popř. V x = s x x 100[%]
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních.
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik.
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost).
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele.
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele. Vždy je potřeba dobře zvážit čím je odlehlé, pozorování způsobeno.
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele. Vždy je potřeba dobře zvážit čím je odlehlé, pozorování způsobeno. Hodnoty se mohly dostat mezi ostatní data v důsledku hrubých chyb např. při opisování dat (překlep), při měření (chyba měření v laboratoři), případně i tak, že byl do výběru zahrnut prvek, který do sledovaného základního souboru nepatří, technická závada, apod. = můžeme pozorování vyloučit.
Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele. Vždy je potřeba dobře zvážit čím je odlehlé, pozorování způsobeno. Hodnoty se mohly dostat mezi ostatní data v důsledku hrubých chyb např. při opisování dat (překlep), při měření (chyba měření v laboratoři), případně i tak, že byl do výběru zahrnut prvek, který do sledovaného základního souboru nepatří, technická závada, apod. = můžeme pozorování vyloučit. V jiných případech bychom se vyloučením mohli připravit o cennou informaci.
Identifikace odlehlých pozorování 1) Metoda vnitřních hradeb Jestliže pro x i platí ((x i < x 0.25 1.5 IQR) (x i > x 0.75 + 1.5 IQR), potom x i je odlehlým pozorováním. Interkvartilové rozpětí:... IQR = x 0.75 x 0.25 Poznámka: Kromě odlehlých pozorování ještě můžeme rozlišovat tzv. extremní pozorování. K jejich identifikaci používáme vnější hradby ((x i < x 0.25 3 IQR) (x i > x 0.75 + 3 IQR).
Identifikace odlehlých pozorování 2) Z-souřadnice z = x i x s Je-li z > 3, potom x i je odlehlým pozorováním. z > 3 = x i x s > 3 = x i x > 3s Poznámka: Automatické metody pro identifikaci odlehlých pozorování pouze vybírají podezřelé hodnoty! Vždy je ale nutné individuální posouzení.
Míry polohy a variability Výběrová šikmost (angl. skewness) - a - vyjadřuje asymetrii rozložení hodnot proměnné kolem jejího průměru. n (x i x) 3 n a = (n 1)(n 2) i=1 s 3 A jak výběrovou šikmost interpretujeme? a = 0... hodnoty proměnné jsou kolem jejího průměru rozloženy symetricky, a > 0... u proměnné převažují hodnoty menší než průměr, a < 0... u proměnné převažují hodnoty větší než průměr.
Míry polohy a variability Souvislost mezi šikmostí a charakteristikami polohy Symetrické rozdělení: x = x 0,5. Pozitivně zešikmené rozdělení: x > x 0,5. Negativně zešikmené rozdělení: x < x 0,5.