1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat např. zde: http://homel.vsb.cz/~lit40/sta1/odkazy.html Pokud se rozhodnete zároveň pro zpracování první části semestrálního projektu, přečtěte si návod na zpracování projektu od p. Přibylové zde: http://homel.vsb.cz/~sim46/navod_zpracovani_projektu.pdf a to zejména část V. Konkrétní metody kde: Explorační analýzu je vhodné začít zpracovávat až poté, co si rozmyslíte základní otázku (resp. otázky), které budete testovat v části testování hypotéz. Testování hypotéz by pak mělo být rozšířením explorační analýzy. Není vhodné zabývat se v explorační analýze úplně jinými problémy než poté v testování hypotéz. Práce má tvořit kompaktní celek. 2. Analyzovaná data Co by měl obsahovat úvod: úvod do problematiky představení datového souboru a jednotlivých proměnných, jak byla data získána (jestliže vlastním dotazníkovým šetřením, uvést celý dotazník, jestli byla stažena, uvést odkaz na zdroj), zdroje dat např. zde http://homel.vsb.cz/~lit40/sta1/odkazy.html určit, kromě výběrového souboru, i základní soubor ukázka dat stačí výřez z datové tabulky neuvádět úplně všechna data použitý software Příklad: Tento projekt se zabývá analýzou vlastností jednotlivých druhů kosatců a zkoumá, zda je možné pouze na základě změření fyzických parametrů květů přiřadit zkoumanou rostlinu k příslušnému rostlinnému druhu. Základním souborem jsou pak všechny kosatce, které mohou vyrůst a k analýze slouží výběrový datový soubor o 150 statistických jednotkách popisující délku a šířku okvětních a kališních lístků u jednotlivých druhů kosatců. Jedná se o klasický datový soubor využívaný především k testování klasifikačních statistických metod, který je dostupný např. zde http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data). Pro naši analýzu nás bude zajímat pouze délka a šířka kališních lístků, proto proměnné délka a šířka okvětních lístků nebudeme brát v úvahu. Data byla zpracovávána pomocí statistického softwaru Statgraphics Plus 5.0. Tabulka 1. Výběr z datové tabulky Délka kal. lístků Šířka kal. lístků Druh Kosatce [cm] [cm] 5,1 3,5 Setosa 4,9 3 Setosa 7 3,2 Versicolor 6,4 3,2 Versicolor 5,5 2,3 Versicolor 7,1 3 Virginica 6,3 2,9 Virginica 6,5 3 Virginica 1
3. Explorační analýza proměnných rozlišovat v číselných charakteristikách mezi nominální, ordinální a numerickou proměnnou (které charakteristiky mají smysl a které ne) pokud možno provést explorační analýzu v souladu s dalším testováním hypotéz; např. provést analýzu numerických proměnných pro příslušné kategorie (pokud je máme data s kategoriemi a chceme s nimi dále pracovat) upravit přesnost charakteristik v tabulkách podle návodu ve skriptech Úvod do statistiky str. 35 dávat pozor na popisky grafů (diakritika, absolutní počty u koláčových grafů) a celkovou přehlednost grafů (koláčové grafy s velkým počtem jednotlivých kategorií, velký počet velkých koláčových grafů), viz. přednáška č. 5 http://homel.vsb.cz/~lit40/sta1/materialy/eda.pdf výsledky neuvádět obecně, ale vztáhnout ke konkrétním datům a problémům návod k programu Statgraphisc pro explorační analýzu zde: http://homel.vsb.cz/~sim46/pruvodce_1.pdf Příklad: 3.1 Analýza druhu kosatců Proměnná Druh Kosatce, která specifikuje jednotlivé rostlinné druhy kosatců, je nominálního typu a nabývá tří rovnocenných hodnot: Setosa, Versicolor a Virginica. Pro popis proměnné použijeme tedy tabulku četností, tab. 2 a grafy znázorňující absolutní a relativní četnosti jednotlivých variant proměnné, obr. 1 a obr. 2. Tabulka 2. Rozdělení četnosti proměnné Druh Kosatce Druh Kosatce Absolutní četnost Relativní četnost [%] Setosa 50 33,3 Versicolor 50 33,3 Virginica 50 33,3 Celkem 150 100 Obrázek 1. Absolutní četnosti variant proměnné Druh Kosatce 2
Obrázek 2. Relativní četnosti variant proměnné Druh Kosatce Jak je patrné z tabulky četností i jednotlivých grafů, máme k dispozici výběrový soubor s vyváženým poměrem všech tří druhů kosatců. Protože je absolutní četnost všech tří variant Druhu Kosatce stejná, modus, tedy typického zástupce Druhu Kosatce, neurčujeme. 3.2 Analýza délky a šířky kališních lístků Zbývající proměnné, tedy Délku kališních lístků a Šířku kališních lístků, jsou numerického typu. Vzhledem k další analýze, kde se budeme snažit nalézt rozdíly v charakteristických hodnotách těchto proměnných pro jednotlivé varianty Druhu Kosatce a rozlišovat tak mezi nimi, provedeme analýzu těchto proměnných zvlášť pro jednotlivé kategorie Druhu Kosatce. 3.2.1 Analýza délky a šířky kališních lístků pro druh Setosa Číselné charakteristiky Délky kališních lístků a Šířky kališních lístků pro Druh Kosatce Setosa jsou uvedeny v tab. 3. Tabulka 3. Číselné charakteristiky Délky a Šířky kališních lístků pro druh Setosa Charakteristika Délka kal. lístků Šířka kal. lístků Výb. Průměr 5,01 3,43 Výb. Medián 5,00 3,40 Výb. Rozptyl 0,12 0,14 Výb. směr. odchylka 0,35 0,38 Minimum 4,30 3,20 Maximum 5,80 3,70 Šikmost 0,35 0,12 Špičatost -0,36 1,38 Délka kališních lístků pro druh Setosa se pohybuje v rozmezí mezi 4,30 a 5,80 cm, s průměrem 5,01 cm a směrodatnou odchylkou 0,35 cm. Hodnoty šikmosti i špičatosti jsou stále v rozmezí pro normální rozdělení dat. Přítomnost odlehlých pozorování u Délky kališních lístků zkontrolujeme na obr. 3, kde žádné pozorování nesmí svou hodnotou překročit vzdálenost tří směrodatných odchylek od průměru. 3
Obrázek 3. Analýza odlehlých pozorování Délky kališních lístků pro druh Setosa Jak je z obr. 3 patrné proměnná Délka kališních lístků neobsahuje žádná odlehlá pozorování. To je také patrné z tab. 3, kde průměr ± trojnásobek směrodatné odkolky je menší než minimum, popř. větší než maximum. Šířka kališních lístků pro druh Setosa se pohybuje v rozmezí mezi 3,20 a 3,70 cm, s průměrem 3,43 cm a směrodatnou odchylkou 0,38 cm. Hodnoty šikmosti i špičatosti jsou stále v rozmezí pro normální rozdělení dat. Přítomnost odlehlých pozorování u Šířky kališních lístků zkontrolujeme na obr. 4. Obrázek 4. Analýza odlehlých pozorování Šířky kališních lístků pro druh Setosa Z obr. 4 se může zdát, že proměnná Šířka kališních lístků obsahuje jedno odlehlé pozorování. Podrobnější analýzou zjistíme, že se jedná o hodnotu 2,3 na 42. řádku tabulky. Při výpočtu průměr trojnásobek směrodatné odchylky dojdeme k hraniční hodnotě 3,43-3 0,38 = 2,29. Vidíme tak, že hodnota 2,3 je těsně nad spodní hranicí identifikující odlehlé pozorování (tzn. není odlehlým pozorováním). 4
3.2.2 Analýza délky a šířky kališních lístků pro druh Versicolor 3.2.3 Analýza délky a šířky kališních lístků pro druh Virginica Analýza provedena analogicky. 3.2.4 Grafické znázornění Délky kališních lístků Pro demonstraci rozdílů u proměnné Délka kališních lístků u jednotlivých druhů kosatců byl použit vícenásobný krabicový graf, obr.5. Na první pohled je zřejmý odstup v délce kališních lístků u druhu Setosa, jestli je tento rozdíl statisticky významný potvrdí až metody statistické indukce. Hodnota, která se zdá být odlehlým pozorováním u druhu Setosa, odlehlým pozorováním není, analýza byla provedena v sekci 3.2.1 a na tomto grafu vznikla chybnou interpretací statistického softwaru. Obrázek 5. Vícenásobný krabicový graf Délky kališních lístků pro jednotlivé druhy kosatců 3.2.4 Grafické znázornění Šířky kališních lístků Analogicky. 5