Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Podobné dokumenty
Kontingenční tabulky v Excelu. Představení programu Statistica

Analýza dat na PC I.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika pro geografy

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Popisná statistika. Statistika pro sociology

Metodologie pro ISK II

Popisná statistika kvantitativní veličiny

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Zápočtová práce STATISTIKA I

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Základy pravděpodobnosti a statistiky. Popisná statistika

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základy popisné statistiky

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTICKÉ CHARAKTERISTIKY

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Charakteristika datového souboru

Informační technologie a statistika 1


Základní statistické charakteristiky

Číselné charakteristiky

Základy popisné statistiky

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Renáta Bednárová STATISTIKA PRO EKONOMY

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

MATEMATIKA III V PŘÍKLADECH

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika. Komentované řešení pomocí MS Excel

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Deskriptivní statistika (kategorizované proměnné)

Číselné charakteristiky a jejich výpočet

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Praktická statistika. Petr Ponížil Eva Kutálková

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Mnohorozměrná statistická data

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Metodologie pro Informační studia a knihovnictví 2

, Brno Hanuš Vavrčík Základy statistiky ve vědě

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Základní analýza dat. Úvod

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Mnohorozměrná statistická data

Metodologie pro Informační studia a knihovnictví 2

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Nejčastější chyby v explorační analýze

Jevy a náhodná veličina

TECHNICKÁ UNIVERZITA V LIBERCI

23. Matematická statistika

Statistická analýza dat v psychologii

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Úvod do statistické metodologie

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Aplikovaná statistika v R

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Pravděpodobnost a statistika

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Tabulka 1. Výběr z datové tabulky

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Základy biostatistiky

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Statistika pro gymnázia

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Základní statistické pojmy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Statistika I (KMI/PSTAT)

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Základy teorie pravděpodobnosti

Škály podle informace v datech:

Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Náhodná veličina a rozdělení pravděpodobnosti

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

Charakterizace rozdělení

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Tomáš Karel LS 2012/2013

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Statistika - charakteristiky variability

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Transkript:

Základy popisné statistiky

Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací histogramů.

Typy proměnných Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklady: pohlaví, HIV status.. Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklady: výška, počet hospitalizací.

Kvalitativní znaky Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku) Příklady: Diabetes (1-ano, 0-ne) Pohlaví (1-muž, 0-žena) Nominální znaky: několik kategorií (A,B,C), které nelze uspořádat Příklad: krevní skupiny (A/B/AB/0) Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3) Příklady: stupeň bolesti (mírná/střední/velká) stadium maligního onemocnění (I/II/III/IV)

Kvantitativní znaky Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot Příklady: výška v cm, váha v kg.. Někdy je výhodné kvantitativní data agregovat do kategorií (např. věk do 10ti -letých věkových skupin)- tímto krokem však ztrácíme část informace.

Zobrazení kvalitativních dat: koláčový graf počet % ženy 15 42 % muži 21 58 % 42% 58% ženy muži

Zobrazení kvantitativních dat: histogram 5 4 3 2 1 0 k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 8 7 6 5 4 3 2 1 0 Histogram vyjadřuje tvar výběrového rozložení f(x) f(x)

Popisné statistiky Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější Aritmetický průměr, medián, modus, geometrický průměr Charakteristiky variability (proměnlivosti) Zachycují rozptýlení hodnot v souboru (proměnlivost dat) Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru

Nominální znaky Charakteristika polohy Modus:nejčastěji se vyskytující hodnota proměnné v souboru (hodnota s největší četností). V tabulce rozdělení četností se modus určí jednoduše z hodnoty znaku s největší četností.

Ordinální znaky Charakteristika polohy α-kvantil: je-li αє(0,1), pak α-kvantil x α je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl αvšech dat a na horní úsek obsahující aspoň podíl 1-αvšech dat. Pro speciálně zvolená α užíváme názvů: x 0,50 - medián, x 0,25- dolní kvartil, x 0,75- horní kvartil, x 0,1. x 0,9- decily Mediánznamená hodnotu, jež dělí řadu podle velikosti seřazených výsledků ~ na dvě stejně početné poloviny. Jestliže n je sudé číslo, pak x = 0,5( x n + xn ) Jestliže n je liché číslo, pak ~ x = x( n+ 1)/ 2 2 + 1 2

Intervalové a poměrové znaky Charakteristika polohy Aritmetický průměr: je definován jako součet všech naměřených údajů vydělený jejich počtem, n x kde x i jsou jednotlivé hodnoty a n jejich počet E( x) = x = i= 1 i n

Průměr vs medián PAMATUJ: Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián není ovlivněn vybočujícími pozorováními Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s neznámým rozdělením V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! ϕ(x) ϕ(x) Průměr Medián x Medián Průměr x

Intervalové a poměrové znaky Charakteristiky variability Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru 2 (x 2 i s = n-1 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení Směrodatná odchylka(sd-standard deviation)je druhá odmocnina z rozptylu x)

Další parametry rozložení Počet hodnot důležitý ukazatel, znamená jak moc lze na data spoléhat Suma hodnot Minimum, maximum Variační rozpětí rozdíl mezi největší a nejmenší hodnotou řady Střední chyba průměru (SE)-měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech vybraných z jednoho základního souboru.