Tabulka 1. Výběr z datové tabulky

Podobné dokumenty
Nejčastější chyby v explorační analýze

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Zápočtová práce STATISTIKA I

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Návod na vypracování semestrálního projektu

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Minimální hodnota. Tabulka 11

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Popisná statistika. Komentované řešení pomocí MS Excel

Vzorová prezentace do předmětu Statistika

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Statistika pro geografy

Technická univerzita v Liberci

Třídění statistických dat

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

VŠB Technická univerzita Ostrava BIOSTATISTIKA

TECHNICKÁ UNIVERZITA V LIBERCI

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Analýza dat na PC I.

TECHNICKÁ UNIVERZITA V LIBERCI

Manuál pro zaokrouhlování

NEPARAMETRICKÉ TESTY

Deskriptivní statistika (kategorizované proměnné)

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Základy pravděpodobnosti a statistiky. Popisná statistika

Renáta Bednárová STATISTIKA PRO EKONOMY

TECHNICKÁ UNIVERZITA V LIBERCI

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Číselné charakteristiky

MATEMATIKA III V PŘÍKLADECH

Mnohorozměrná statistická data

Popisná statistika. Statistika pro sociology

Statistika. Semestrální projekt


TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Analýza dat s využitím MS Excel

Návrhy dalších možností statistického zpracování aktualizovaných dat

Kontingenční tabulky v Excelu. Představení programu Statistica

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Aplikovaná statistika v R

Semestrální práce z předmětu Matematika 6F

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

SEMESTRÁLNÍ PRÁCE STATISTIKA

Škály podle informace v datech:

Charakteristika datového souboru

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTICA Téma 1. Práce s datovým souborem

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pokročilé neparametrické metody. Klára Kubošová

KGG/STG Statistika pro geografy

VŠB Technická univerzita Ostrava

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Základy popisné statistiky

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Pojem a úkoly statistiky

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika I (KMI/PSTAT)

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Plánování experimentu

Mnohorozměrná statistická data

Tomáš Karel LS 2012/2013

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Výběrové charakteristiky a jejich rozdělení

Popisná statistika kvantitativní veličiny

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Úvod do statistické metodologie

Pearsonův korelační koeficient

Jednofaktorová analýza rozptylu

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Lineární regrese. Komentované řešení pomocí MS Excel

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Metodologie pro ISK II

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Transkript:

1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat např. zde: http://homel.vsb.cz/~lit40/sta1/odkazy.html Pokud se rozhodnete zároveň pro zpracování první části semestrálního projektu, přečtěte si návod na zpracování projektu od p. Přibylové zde: http://homel.vsb.cz/~sim46/navod_zpracovani_projektu.pdf a to zejména část V. Konkrétní metody kde: Explorační analýzu je vhodné začít zpracovávat až poté, co si rozmyslíte základní otázku (resp. otázky), které budete testovat v části testování hypotéz. Testování hypotéz by pak mělo být rozšířením explorační analýzy. Není vhodné zabývat se v explorační analýze úplně jinými problémy než poté v testování hypotéz. Práce má tvořit kompaktní celek. 2. Analyzovaná data Co by měl obsahovat úvod: úvod do problematiky představení datového souboru a jednotlivých proměnných, jak byla data získána (jestliže vlastním dotazníkovým šetřením, uvést celý dotazník, jestli byla stažena, uvést odkaz na zdroj), zdroje dat např. zde http://homel.vsb.cz/~lit40/sta1/odkazy.html určit, kromě výběrového souboru, i základní soubor ukázka dat stačí výřez z datové tabulky neuvádět úplně všechna data použitý software Příklad: Tento projekt se zabývá analýzou vlastností jednotlivých druhů kosatců a zkoumá, zda je možné pouze na základě změření fyzických parametrů květů přiřadit zkoumanou rostlinu k příslušnému rostlinnému druhu. Základním souborem jsou pak všechny kosatce, které mohou vyrůst a k analýze slouží výběrový datový soubor o 150 statistických jednotkách popisující délku a šířku okvětních a kališních lístků u jednotlivých druhů kosatců. Jedná se o klasický datový soubor využívaný především k testování klasifikačních statistických metod, který je dostupný např. zde http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data). Pro naši analýzu nás bude zajímat pouze délka a šířka kališních lístků, proto proměnné délka a šířka okvětních lístků nebudeme brát v úvahu. Data byla zpracovávána pomocí statistického softwaru Statgraphics Plus 5.0. Tabulka 1. Výběr z datové tabulky Délka kal. lístků Šířka kal. lístků Druh Kosatce [cm] [cm] 5,1 3,5 Setosa 4,9 3 Setosa 7 3,2 Versicolor 6,4 3,2 Versicolor 5,5 2,3 Versicolor 7,1 3 Virginica 6,3 2,9 Virginica 6,5 3 Virginica 1

3. Explorační analýza proměnných rozlišovat v číselných charakteristikách mezi nominální, ordinální a numerickou proměnnou (které charakteristiky mají smysl a které ne) pokud možno provést explorační analýzu v souladu s dalším testováním hypotéz; např. provést analýzu numerických proměnných pro příslušné kategorie (pokud je máme data s kategoriemi a chceme s nimi dále pracovat) upravit přesnost charakteristik v tabulkách podle návodu ve skriptech Úvod do statistiky str. 35 dávat pozor na popisky grafů (diakritika, absolutní počty u koláčových grafů) a celkovou přehlednost grafů (koláčové grafy s velkým počtem jednotlivých kategorií, velký počet velkých koláčových grafů), viz. přednáška č. 5 http://homel.vsb.cz/~lit40/sta1/materialy/eda.pdf výsledky neuvádět obecně, ale vztáhnout ke konkrétním datům a problémům návod k programu Statgraphisc pro explorační analýzu zde: http://homel.vsb.cz/~sim46/pruvodce_1.pdf Příklad: 3.1 Analýza druhu kosatců Proměnná Druh Kosatce, která specifikuje jednotlivé rostlinné druhy kosatců, je nominálního typu a nabývá tří rovnocenných hodnot: Setosa, Versicolor a Virginica. Pro popis proměnné použijeme tedy tabulku četností, tab. 2 a grafy znázorňující absolutní a relativní četnosti jednotlivých variant proměnné, obr. 1 a obr. 2. Tabulka 2. Rozdělení četnosti proměnné Druh Kosatce Druh Kosatce Absolutní četnost Relativní četnost [%] Setosa 50 33,3 Versicolor 50 33,3 Virginica 50 33,3 Celkem 150 100 Obrázek 1. Absolutní četnosti variant proměnné Druh Kosatce 2

Obrázek 2. Relativní četnosti variant proměnné Druh Kosatce Jak je patrné z tabulky četností i jednotlivých grafů, máme k dispozici výběrový soubor s vyváženým poměrem všech tří druhů kosatců. Protože je absolutní četnost všech tří variant Druhu Kosatce stejná, modus, tedy typického zástupce Druhu Kosatce, neurčujeme. 3.2 Analýza délky a šířky kališních lístků Zbývající proměnné, tedy Délku kališních lístků a Šířku kališních lístků, jsou numerického typu. Vzhledem k další analýze, kde se budeme snažit nalézt rozdíly v charakteristických hodnotách těchto proměnných pro jednotlivé varianty Druhu Kosatce a rozlišovat tak mezi nimi, provedeme analýzu těchto proměnných zvlášť pro jednotlivé kategorie Druhu Kosatce. 3.2.1 Analýza délky a šířky kališních lístků pro druh Setosa Číselné charakteristiky Délky kališních lístků a Šířky kališních lístků pro Druh Kosatce Setosa jsou uvedeny v tab. 3. Tabulka 3. Číselné charakteristiky Délky a Šířky kališních lístků pro druh Setosa Charakteristika Délka kal. lístků Šířka kal. lístků Výb. Průměr 5,01 3,43 Výb. Medián 5,00 3,40 Výb. Rozptyl 0,12 0,14 Výb. směr. odchylka 0,35 0,38 Minimum 4,30 3,20 Maximum 5,80 3,70 Šikmost 0,35 0,12 Špičatost -0,36 1,38 Délka kališních lístků pro druh Setosa se pohybuje v rozmezí mezi 4,30 a 5,80 cm, s průměrem 5,01 cm a směrodatnou odchylkou 0,35 cm. Hodnoty šikmosti i špičatosti jsou stále v rozmezí pro normální rozdělení dat. Přítomnost odlehlých pozorování u Délky kališních lístků zkontrolujeme na obr. 3, kde žádné pozorování nesmí svou hodnotou překročit vzdálenost tří směrodatných odchylek od průměru. 3

Obrázek 3. Analýza odlehlých pozorování Délky kališních lístků pro druh Setosa Jak je z obr. 3 patrné proměnná Délka kališních lístků neobsahuje žádná odlehlá pozorování. To je také patrné z tab. 3, kde průměr ± trojnásobek směrodatné odkolky je menší než minimum, popř. větší než maximum. Šířka kališních lístků pro druh Setosa se pohybuje v rozmezí mezi 3,20 a 3,70 cm, s průměrem 3,43 cm a směrodatnou odchylkou 0,38 cm. Hodnoty šikmosti i špičatosti jsou stále v rozmezí pro normální rozdělení dat. Přítomnost odlehlých pozorování u Šířky kališních lístků zkontrolujeme na obr. 4. Obrázek 4. Analýza odlehlých pozorování Šířky kališních lístků pro druh Setosa Z obr. 4 se může zdát, že proměnná Šířka kališních lístků obsahuje jedno odlehlé pozorování. Podrobnější analýzou zjistíme, že se jedná o hodnotu 2,3 na 42. řádku tabulky. Při výpočtu průměr trojnásobek směrodatné odchylky dojdeme k hraniční hodnotě 3,43-3 0,38 = 2,29. Vidíme tak, že hodnota 2,3 je těsně nad spodní hranicí identifikující odlehlé pozorování (tzn. není odlehlým pozorováním). 4

3.2.2 Analýza délky a šířky kališních lístků pro druh Versicolor 3.2.3 Analýza délky a šířky kališních lístků pro druh Virginica Analýza provedena analogicky. 3.2.4 Grafické znázornění Délky kališních lístků Pro demonstraci rozdílů u proměnné Délka kališních lístků u jednotlivých druhů kosatců byl použit vícenásobný krabicový graf, obr.5. Na první pohled je zřejmý odstup v délce kališních lístků u druhu Setosa, jestli je tento rozdíl statisticky významný potvrdí až metody statistické indukce. Hodnota, která se zdá být odlehlým pozorováním u druhu Setosa, odlehlým pozorováním není, analýza byla provedena v sekci 3.2.1 a na tomto grafu vznikla chybnou interpretací statistického softwaru. Obrázek 5. Vícenásobný krabicový graf Délky kališních lístků pro jednotlivé druhy kosatců 3.2.4 Grafické znázornění Šířky kališních lístků Analogicky. 5