Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Podobné dokumenty
Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika pro geografy

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

Číselné charakteristiky

Metodologie pro ISK II

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Popisná statistika. Statistika pro sociology

Základní statistické charakteristiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Základy pravděpodobnosti a statistiky. Popisná statistika

Analýza dat na PC I.

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základy popisné statistiky

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Kontingenční tabulky v Excelu. Představení programu Statistica

Číselné charakteristiky a jejich výpočet

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Mnohorozměrná statistická data

Charakteristika datového souboru

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zápočtová práce STATISTIKA I

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Nejčastější chyby v explorační analýze

23. Matematická statistika

Mnohorozměrná statistická data

Popisná statistika. Jaroslav MAREK. Univerzita Palackého


Praktická statistika. Petr Ponížil Eva Kutálková

Jevy a náhodná veličina

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Základní statistické pojmy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Metodologie pro Informační studia a knihovnictví 2

Obecné momenty prosté tvary

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

STATISTICKÉ CHARAKTERISTIKY

Popisná statistika kvantitativní veličiny

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Přednáška 5. Výběrová šetření, Exploratorní analýza

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

MATEMATIKA III V PŘÍKLADECH

Metodologie pro Informační studia a knihovnictví 2

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Aplikovaná statistika v R

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Náhodná veličina a rozdělení pravděpodobnosti

Popisná statistika. Komentované řešení pomocí MS Excel

Informační technologie a statistika 1

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Renáta Bednárová STATISTIKA PRO EKONOMY

Statistika v současnosti

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Předmět studia: Ekonomická statistika a analytické metody I, II

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Deskriptivní statistika (kategorizované proměnné)

Základy popisné statistiky

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Statistika I (KMI/PSTAT)

Statistika pro gymnázia

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Příloha podrobný výklad vybraných pojmů

Základní analýza dat. Úvod

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Tabulka 1. Výběr z datové tabulky

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

2. Bodové a intervalové rozložení četností

Třídění statistických dat

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Základy teorie pravděpodobnosti

Průzkumová analýza jednorozměrných dat (Teorie)

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

Box-and-Whisker Plot

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

7. Rozdělení pravděpodobnosti ve statistice

Deskriptivní statistika (kategorizované proměnné)

Transkript:

Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017

Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická, číselná,... )

Kvalitativní proměnná - nelze ji měřit, pouze ji lze zařadit do tříd. - varianty kvalitativní proměnné nazýváme kategoriemi Dělení podle možnosti uspořádání do kategorií: nominální proměnná - nabývá rovnocenných variant a nelze je smysluplně porovnávat ani seřadit, Příklad: pohlaví, národnost, značka hodinek,... ordinální proměnná - tvoří přechod mezi kvalitativními a kvantitativními proměnnými; jednotlivým variantám lze přiřadit pořadí a vzájemně je porovnávat nebo seřadit Příklad: známka ve škole, velikost oděvu (S, M, L),...

Kvalitativní proměnná Dělení podle počtu variant: alternativní proměnná - nabývá pouze dvou různých variant, Příklad: pohlaví, zapnuto/vypnuto, živý/mrtvý,... množná proměnná - nabývá více než dvou různých variant Příklad: vzdělání, jméno, barva očí,...

Kvantitativní proměnná - jsou to proměnné měřitelné Dělení: diskrétní proměnné - nabývají konečného nebo spočetného množství variant, konečné Příklad: známka z matematiky,... spočetné Příklad: věk v letech, výška v centimetrech, váha v kilogramech,... spojité proměnné - nabývají více než dvou různých variant Příklad: výška, váha, vzdálenost měst,...

Nominální proměnná - nabývá v rámci souboru různých, avšak rovnocenných kategorií. Charakteristiky: četnost, relativní četnost, modus.

Grafické znázornění nominální proměnné Histogram (také sloupcový graf, angl. bar chart ) - je to graf, v němž na jednu osu vynášíme varianty proměnné a na druhou osu jejich četnosti. Výsečový graf (také koláčový graf, angl. pie chart ) - je to graf relativních četnosti jednotlivých variant proměnné, přičemž jednotlivé relativní četnosti jsou úměrně reprezentovány plochami příslušných kruhových výsečí.

Ordinální proměnná Charakteristiky: četnost, relativní četnost, modus, kumulativní četnost, kumulativní relativní četnost.

Grafické znázornění ordinální proměnné Histogram, Výsečový graf, Lorenzova křivka (polygon kumulativních četností) - je to spojnicový graf, který získáme tak, že na vodorovnou osu vynášíme jednotlivé varianty proměnné v pořadí od nejmenší do největší a na svislou osu příslušné hodnoty kumulativních četností. Znázorněné body spojíme úsečkami, - zaznamenává uspořádání jednotlivých variant.

Kvalitativní proměnná Charakteristiky: Míry polohy - určují typické rozložení hodnot proměnné (jejich rozmístění na číselné ose) Míry variability - určují variabilitu (rozptyl) hodnot kolem své typické polohy.

Míry polohy a variability Průměr aritmetický, geometrický, harmonický, geometrický,. - stanovuje ze všech hodnot proměnné = nese maximum informací o výběrovém souboru, - je velmi citlivý na tzv. odlehlá pozorování (hodnoty, které se mimořádně liší od ostatních)

Míry polohy a variability Modus diskrétní proměnná - hodnota nejčetnější varianty proměnné. spojitá proměnná - hodnota, kolem které je největší koncentrace hodnot proměnné, - pro určení této hodnoty využijeme tzv. shorth - nejkratší interval, v němž leží alespoň 50% hodnot proměnné. n = 2k, k N (sudý počet hodnot) = leží v shorthu k hodnot, což je 50 % (n/2) hodnot proměnné, n = 2k + 1, k N (lichý počet hodnot) = leží v shorthu k + 1 hodnot, což je o 1 více než je 50% hodnot proměnné. Modus pak definujeme jako střed shorthu. - je odolný vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních)

Míry polohy a variability Jak postupovat při určování shortu? 1 Hodnoty proměnné seřadíme. 2 Určíme délky všech n/2 (resp. n/2 + 0.5) členných intervalů, ve kterých x i < x i+1 < < x i+n/2 1 (resp. x i+n/2 0.5 ) pro i = 1, 2,..., n/2 + 1 (resp. n/2 + 0.5). 3 Nejkratší z těchto intervalů prohlásíme za shorth

Míry polohy a variability Výběrové kvantily (angl. quantile, resp. percentile) - x p - charakterizují rozložení jednotlivých hodnot v rámci proměnné. - 100p% kvantil proměnné x odděluje 100p % menších hodnot od zbytku souboru, tj. od 100(1 p) % hodnot, - jsou odolné vůči odlehlým pozorováním (hodnoty, které se mimořádně liší od ostatních), Kvartily Dolní kvartil x 0.25-25%-ní kvantil (rozděluje datový soubor tak, že 25 % hodnot je menších než tento kvartil a zbytek, tj. 75 % větších (nebo rovných)), Medián x 0.5-50%-ní kvantil (rozděluje datový soubor tak, že polovina 50 % hodnot je menších než medián a polovina (50 %) hodnot větších (nebo rovných)), Horní kvartil x 0.75-75%-ní kvantil (rozděluje datový soubor tak, že 75 % hodnot je menších než tento kvartil a zbytek, tj. 25 % větších (nebo rovných)). Decily - x 0.1, x 0.2,..., x 0.9, Percentily - x 0.01, x 0.02,..., x 0.99,

Míry polohy a variability Jak postupovat při určování kvantilu? 1 Hodnoty proměnné seřadíme podle velikosti. 2 Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 3 100p%- ní kvantil je roven hodnotě proměnné s pořadím z p, kde z p = np + 0.5 Není-li z p celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím [z p ] a [z p + 1].

Empirická distribuční funkce F(x) Označme f (x i ) relativní četnost hodnoty x i seřazeného výběrového souboru x 1 < x 2 < < x n. Potom 0 pro x x i, F (x) = j F (x) pro x j < x x j+1, 1 j n 1, i=1 1 pro x n < x.

Míry polohy a variability Interkvartilové rozpětí - IQR - je mírou variability souboru a je definována jako vzdálenost mezi horním a dolním kvartilem IQR = x 0.75 x 0.25 MAD (angl. median absolute deviation from the median; česky: medián absolutních odchylek od mediánu) Jak ho určíme? 1 Výběrový soubor uspořádáme podle velikosti, 2 Určíme medián souboru, 3 Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu, 4 Absolutní odchylky od mediánu uspořádáme podle velikosti, 5 Určíme medián absolutních odchylek od mediánu, tj. MAD.

Míry polohy a variability Výběrový rozptyl - s 2 - je dán podílem součtu kvadrátu odchylek jednotlivých hodnot od průměru a rozsahu souboru sníženého o jedničku. Vlastnosti: s 2 = 1 n 1 n (x i x) 2 i=1 Výběrový rozptyl konstantního souboru je roven nule, přičteme-li ke všem hodnotám proměnné libovolnou konstantu, potom se výběrový rozptyl proměnné se nezmění. vynásobíme-li všechny hodnoty proměnné libovolnou konstantou (b), potom se výběrový rozptyl proměnné zvětší kvadrátem této konstanty (b 2 )

Míry polohy a variability Výběrová směrodatná odchylka (angl. sample standard deviation) - s - je definována jako kladná odmocnina výběrového rozptylu Nevýhoda: s = s 2 = 1 n (x i x) n 1 2 i=1 Stejně jako u výběrového rozptylu i výběrová směrodatná odchylka neumožňuje porovnávat variabilitu proměnných vyjádřených v různých jednotkách. Která proměnná má větší variabilitu výška nebo hmotnost dospělého člověka? = variační koeficient

Míry polohy a variability Variační koeficient (angl. coefficient of variation) - V x - vyjadřuje relativní míru variability proměnné x. - je bezrozměrný, udává se v procentech V x = s x popř. V x = s x 100[%]

Odlehlá pozorování (outliers) V datech se mohou objevit odlehlé, vybočující hodnoty (outliers), tj. hodnoty, které se výrazně liší od ostatních. Mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele. Vždy je potřeba dobře zvážit čím je odlehlé, pozorování způsobeno. Hodnoty se mohly dostat mezi ostatní data v důsledku hrubých chyb např. při opisování dat (překlep), při měření (chyba měření v laboratoři), případně i tak, že byl do výběru zahrnut prvek, který do sledovaného základního souboru nepatří, technická závada, apod. = můžeme pozorování vyloučit. V jiných případech bychom se vyloučením mohli připravit o cennou informaci.

Identifikace odlehlých pozorování 1) Metoda vnitřních hradeb Jestliže pro x i platí ((x i < x 0.25 1.5 IQR) (x i > x 0.75 + 1.5 IQR), potom x i je odlehlým pozorováním. Interkvartilové rozpětí:... IQR = x 0.75 x 0.25 Poznámka: Kromě odlehlých pozorování ještě můžeme rozlišovat tzv. extremní pozorování. K jejich identifikaci používáme vnější hradby ((x i < x 0.25 3 IQR) (x i > x 0.75 + 3 IQR).

Identifikace odlehlých pozorování 2) Z-souřadnice z = x i x s Je-li z > 3, potom x i je odlehlým pozorováním. z > 3 = x i x s > 3 = x i x > 3s Poznámka: Automatické metody pro identifikaci odlehlých pozorování pouze vybírají podezřelé hodnoty! Vždy je ale nutné individuální posouzení.

Míry polohy a variability Výběrová šikmost (angl. skewness) - a - vyjadřuje asymetrii rozložení hodnot proměnné kolem jejího průměru. n (x i x) 3 n a = (n 1)(n 2) i=1 s 3 A jak výběrovou šikmost interpretujeme? a = 0... hodnoty proměnné jsou kolem jejího průměru rozloženy symetricky, a > 0... u proměnné převažují hodnoty menší než průměr, a < 0... u proměnné převažují hodnoty větší než průměr.

Míry polohy a variability Souvislost mezi šikmostí a charakteristikami polohy Symetrické rozdělení: x = x 0,5. Pozitivně zešikmené rozdělení: x > x 0,5. Negativně zešikmené rozdělení: x < x 0,5.

Míry polohy a variability Výběrová špičatost (angl. kurtosis) - b - vyjadřuje koncentraci hodnot proměnné kolem jejího průměru. b = n(n + 1) (n 1)(n 2)(n 3) A jak výběrovou špičatost interpretujeme? n (x i x) 4 i=1 (n 1) 2 s 4 3 (n 2)(n 3). b = 0... špičatost odpovídá normálnímu rozdělení, b > 0... špičaté rozdělení proměnné, b < 0... ploché rozdělení proměnné.

Krabicový graf

Děkuji za pozornost!!!