Popisná statistika kvantitativní veličiny



Podobné dokumenty
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Statistika pro geografy

Popisná statistika. Statistika pro sociology

Základy popisné statistiky

Analýza dat na PC I.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Číselné charakteristiky a jejich výpočet

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Popisná statistika. Komentované řešení pomocí MS Excel

23. Matematická statistika

Aplikovaná statistika v R

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Číselné charakteristiky

Metodologie pro ISK II

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Renáta Bednárová STATISTIKA PRO EKONOMY


Mnohorozměrná statistická data

Deskriptivní statistika (kategorizované proměnné)

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Mnohorozměrná statistická data

STATISTICKÉ CHARAKTERISTIKY

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Metodologie pro Informační studia a knihovnictví 2

Charakteristika datového souboru

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistika. zpracování statistického souboru

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Základní statistické charakteristiky

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Příprava dat v softwaru Statistica

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Metodologie pro Informační studia a knihovnictví 2

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Zpracování chybějících dat a dat mimo rozsah

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Tomáš Karel LS 2012/2013

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Statistika I (KMI/PSTAT)

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Pravděpodobnost a statistika

Základy popisné statistiky

Kontingenční tabulky v Excelu. Představení programu Statistica

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

STATISTICA Téma 1. Práce s datovým souborem

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Požadavky k opravným zkouškám z matematiky školní rok

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Zápočtová práce STATISTIKA I

Minimální hodnota. Tabulka 11

Aplikovaná statistika pro učitele a žáky v hodinách zeměpisu aneb jak využít MS Excel v praxi. Geografický seminář 30. března 2011 Pavel Bednář

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Matematická statistika

Úvod do statistické metodologie

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Praktická statistika. Petr Ponížil Eva Kutálková

Jednofaktorová analýza rozptylu

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Základy pravděpodobnosti a statistiky. Popisná statistika

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

Náhodné chyby přímých měření

Protokol č. 1. Tloušťková struktura. Zadání:

Základní analýza dat. Úvod

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Předmět studia: Ekonomická statistika a analytické metody I, II

Třídění statistických dat

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Pythagorova věta Pythagorova věta slovní úlohy. Mocniny s přirozeným mocnitelem mocniny s přirozeným mocnitelem operace s mocninami

MATEMATIKA III V PŘÍKLADECH

Jevy a náhodná veličina

Pearsonův korelační koeficient

Pythagorova věta Pythagorova věta slovní úlohy

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Statistická analýza dat v psychologii

Zobrazení zdrojových dat u krabicového grafu

MATEMATIKA Maturitní témata společná část MZ základní úroveň (vychází z Katalogu požadavků MŠMT)

Statistika I (KMI/PSTAT)

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Transkript:

StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali tabulkou četností, u dalšího příkladu si ukážeme, jak tabulku četností, resp. histogram využít v případě spojitých dat. Chceme-li tabulku četností aplikovat na spojitá data, bude nutné stanovit vhodný počet intervalů, na které rozdělíme variační rozpětí (maximální mínus minimální hodnota). K tomu slouží různá pravidla. Základním přibližným kritériem je, používanějším je pak například Sturgesovo pravidlo:. Ukázku nevhodně zvoleného intervalu pro proměnnou výška na histogramu zachycuje následující obrázek (modrý graf ): V druhém případě (červený graf ) jsou intervaly zvoleny expertně na základě potřeb zadavatele. Proměnná výška se pravděpodobně blíží normálnímu rozdělení, jehož identifikace bude probrána v některém z příštích dílů. Minimální výška v souboru je 159 a maximální je 193, zvolené nastavení hranic a kroku zachycuje následující obrázek: (V softwaru STATISTICA: Grafy > Histogramy > karta Detaily)

Velikost a krok intervalu (šířka sloupce) často vychází z potřeb konkrétního procesu a velikost kroku je dána samotným procesem, kdy znalec procesu sám určí, které intervaly pro něj mají praktický význam a které ne. Opačný případ oproti příkladu s výškou nastane, pokud jsou data zhuštěna příliš a dochází ke ztrátě informace, tento příklad ilustruje následující obrázek na proměnné plat : Při použití tabulky četností, jsou možnosti pro určení intervalů dostupné na kartě Detailní výsledky. (V softwaru STATISTICA: Statistiky > Základní statistiky/tabulky > Tabulky četností). V konkrétním vzorku (opět proměnná plat ) převažují respondenti, kteří mají hrubý plat mezi 20 30 tisíci (54,3 %) a také předcházející skupina s platy mezi 10 20 tisíci je výraznější (28,6 % vzorku). Tyto informace můžeme jednoduše vyčíst z tabulek četností či histogramu (viz následující graf a obrázek). Všimněme si, že histogram i tabulka četností poskytují stejnou informaci o datovém souboru. Obrázek, který následuje, ukazuje, jak výslednou tabulku četností uložit. V dialogu příslušné analýzy v stromové struktuře sešitu STATISTICA přes pravé tlačítko na myši vyvoláme roletku, ve které volíme Uložit položku(-y) jako, případně rovnou přes záložku Soubor > Uložit položku(-y) jako Volbou Soubor > Uložit jako se uloží sešit STATISTICA (*.stw), tedy celá stromová struktura se všemi výstupy analýz.

Dalším možnostem uložení bude věnován nějaký z dalších dílů našeho seriálu. Dalším krokem pro zpřehlednění datového souboru je výpočet statistických charakteristik polohy a variability, pokud je daná proměnná pro tyto výpočty vhodná. Statistické charakteristiky shrnují informace obsažené v datech, jde o vyjádření v tzv. koncentrované formě. Díky těmto mírám lze také jednotlivé soubory porovnávat. Základními charakteristikami, které bychom měli u každého souboru vypočítat, jsou míry polohy a variability. Rozlišujeme mezi dvěma typy charakteristik, a to sice mezi charakteristikami, které jsou vypočteny ze všech hodnot dané proměnné (průměry, rozptyl, atd.) a jsou tedy ovlivněny například odlehlými hodnotami, a charakteristiky, které nejsou počítány ze všech hodnot dané proměnné (modus, medián a další kvantily). Charakteristiky polohy Popisné statistiky shrnují různé charakteristiky vzorku, získáme tak odlišné úhly pohledu na vzorek. Charakteristiky polohy, resp. míry centrální tendence, by měly charakterizovat typickou hodnotu pro daný datový soubor. Slovo měly je použito záměrně, protože tyto míry jsou počítány z celého datového souboru a extrémní hodnoty, kterých může být velmi malé množství, potom posunou výsledek do jiné než typické polohy. Ukázkovým příkladem je výpočet průměrného platu v populaci. Základní charakteristikou polohy je průměr, který rozlišujeme na: Aritmetický průměr základní míra polohy, kterou využijeme tam, kde má smysl sčítat, například součet odchylek měření, suma vzdáleností. Průměr bychom neměli používat pro data kategoriální a rozdělení hodnot by mělo být symetrické. Pokud máme několik průměrů z různých podmnožin a známe velikost těchto podmnožin, lze vypočítat celkový průměr ze všech hodnot všech podmnožin jako vážený průměr. Příkladem na vhodné použití aritmetického průměru může být třeba odhad průměrné výšky mužů/žen v populaci, průměrný počet dětí v určité oblasti atd. Vážený: VZOREC Harmonický průměr harmonický průměr je rozsah souboru vydělený sumou převrácených hodnot znaků. Využijeme ho zejména v případě, kdy jsou znaky měřeny jako čas na jednotku výkonu, případně tam, kde počítáme průměr z poměrných čísel. Vážený: VZOREC Aplikaci harmonického průměru ukazuje následující obrázek: linka má 3 výrobní stroje, kdy každý zpracuje polotovar za odlišnou dobu v sekundách. Harmonickým průměrem jsme vypočetli celkovou průměrnou rychlost výroby: VZOREC

Geometrický průměr je vhodný používat tam, kde má věcný význam součin znaků, což je především při analýze znaků, které jsou odvozeny z podílu dvou veličin a tvoří posloupnost. Používá se zejména k charakterizování průměrného tempa růstu. Vážený: VZOREC Aplikaci toho průměru ukazuje následující příklad, který zobrazuje vývoj HNP v 4 obdobích. HNP 50 60 55 52 rok 1 2 3 4 Tempo růstu 1 (60/50) (55/60) (52/55) Po odečtení čísla 1 od průměru získáme tzv. čistý růst, v tomto případě došlo k nárůstu o 0,87 %. Postup v softwaru ukazuje obrázek níže. Jako proměnou uvažujeme tzv. tempo růstu, tedy podíl aktuálního období a předchozího období daného znaku.

Medián je další základní charakteristikou a běžně se značí jako. Je definován jako prostřední hodnota v souboru setříděném podle velikosti. Medián dělí řadu podle velikosti uspořádaných hodnot na 2 shodně početné poloviny. V případě lichého čísla jde o prostřední hodnotu v setříděném souboru, v případě sudého souboru jde o průměr ze dvou prostředních hodnot, viz následující příklad: jméno člověk 1 1 člověk 2 2 člověk 3 3 člověk 4 3 počet dětí VZOREC V poslední době je v některých seriózních denících občas také uváděn mediánový plat, který se reálnému obvyklému platu přibližuje více než populistický, manažerskými platy zkreslený průměr. Medián použijeme u dat, která jsou min. v ordinálním měřítku, a aplikujeme ho tam, kde data obsahují odlehlé hodnoty nebo je rozložení dat zešikmené a průměr nebude určitě typickou hodnotou souboru. Dále pokud chceme znát střed daného rozdělení. Modus běžně značený stříškou, zachycuje nejčastější hodnotu v datech (nejčastější počet dětí, nečastější známka atd.). Modus má smysl počítat zejména u kategorických, resp. obecně u všech kvalitativních dat. Modus použijeme tam, kde je žádoucí znát nejčastější hodnotu znaku.

V softwaru STATISTICA získáme tyto i další charakteristiky na kartě Detailní výsledky v dialogu Popisné statistiky: Statistiky > Základní statistiky/tabulky > Popisné statistiky V příští části našeho seriálu budeme pokračovat s aplikací popisné statistiky na spojitá data. StatSoft CR s. r. o. Ringhofferova 115/1, 155 21 Praha 5 Zličín t + 420 233 325 006, f + 420 233 324 005 e info@statsoft.cz