VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček

Rozměr: px
Začít zobrazení ze stránky:

Download "VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček"

Transkript

1 VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2013

2 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT 1. vydání ISBN Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2013 Tisk Ediční oddělení VŠPJ, Tolstého 16, Jihlava Za jazykovou a věcnou správnost obsahu díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou. Jana Borůvková, Petra Horáčková, Miroslav Hanáček, 2013

3 Vážení čtenáři, dostává se vám do ruky studijní text primárně určený studentům katedry zdravotnických studií, jehož obsahem je popis základních statistických metod a jejich aplikace s využitím statistického softwaru STATISTICA. V této oblasti se jedná o poměrně ojedinělý autorský počin, který umožňuje seznámit se v českém jazyce se základním využitím programu STATISTICA pro zpracování statistických dat. Text je rozdělen do tří stejně strukturovaných částí. V první, teoretické, části lze nalézt stručný popis základních statistických metod a způsob jejich využití při analýze dat. Na tuto část navazují Řešené příklady softwarem STATISTICA, ve které naleznete podrobný popis postupu při zpracování dat včetně interpretací výsledků spočítaných tímto softwarem. Studijní text je završen krátkou sbírkou úkolů a příkladů určených k samostatnému řešení, aby bylo čtenáři umožněno ověřit si, že studovanou problematiku pochopil a umí ji v praxi aplikovat. Jak již bylo řečeno, všechny tři části obsahují shodná témata. Jedná se o popisnou statistiku (třídění dat a výpočet příslušných charakteristik), grafickou prezentaci dat, korelační analýzu, regresní analýzu a testování hypotéz (t-testy, neparametrické testy a chí-kvadrát test o nezávislosti). Tento studijní text pokrývá jednosemestrovou výuku statistiky s hodinovou dotací 0/1, takže si v žádném případě neklade za cíl úplný a vyčerpávající popis studované tématiky ani do hloubky ani do šířky. Cílem autorů bylo vytvořit studijní text, který bude prvním průvodcem studentům i vyučujícím VŠPJ v případě, že se rozhodnou zpracovat svá data získaná pro seminární práce, bakalářské práce nebo odborné články s využitím softwaru STATISTICA, který je na VŠPJ dostupný jak studentům, tak i vyučujícím. kolektiv autorů Jihlava, březen 2013

4

5 Obsah Teoretická část 1 Popisná statistika Základní statistické pojmy Typy dat Základní zpracování statistických údajů Charakteristiky polohy (úrovně) Charakteristiky variability Charakteristiky šikmosti a špičatosti Grafická prezentace dat Grafické znázornění dat tříděných bodovým tříděním Grafické znázornění dat tříděných intervalovým tříděním Grafické znázornění závislosti dvou proměnných bodový graf Grafické znázornění časové řady spojnicový graf Korelační analýza 24 4 Regresní analýza 28 5 Testování hypotéz Postup při testování hypotéz Chyba I. a II. druhu Rozdělení statistických testů Kontingenční tabulky Neparametrické testy T-testy Řešené příklady softwarem Statistica 1 Sběr dat a jejich příprava pro import do softwaru Statistica 41 5

6 1.1 Import dat do softwaru Statistica Kontrola dat, práce s proměnnými Tabulky četností Výpočet charakteristik Grafická prezentace dat Grafická prezentace kategoriálních dat Filtr, kategorizované grafy Spojitá proměnná Závislost proměnných bodový graf Spojnicový graf Korelační analýza Pearsonova korelační analýza Pořadová korelace Lineární regrese Jedna nezávislá proměnná Více nezávislých proměnných Testování hypotéz Kontingenční tabulky Neparametrické testy T-testy Příklady k procvičení 1 Popisná statistika 88 2 Grafické zpracování dat 93 3 Korelační analýza 95 4 Regresní analýza 96 5 Neparametrické testy 98 6 Parametrické testy 100 6

7 Teoretická část 7

8 1 Popisná statistika Se statistickým zpracováním dat se setkáváme už od starověku. Tehdy se jednalo o soupisy obyvatel, nejčastěji pro daňové účely. V dnešní době už neexistuje vědní obor, ve kterém by se nepracovalo s hromadnými daty a k jejich vyhodnocení by se nevyužilo statistických metod. Údajů, které získáváme je často mnoho, proto je musíme zpracovat, zpřehlednit. Pokud takto učiníme např. pomocí tabulek rozdělení četností, grafickou vizualizací dat nebo pomocí některých charakteristik popisné statistiky (průměr, střední hodnoty, extrémní hodnoty, ) jsme na začátku statistického zpracování dat, protože zatím jde jen o prvotní popis resp. o přiblížení se podstatě věci. V dnešní době bychom se také těžko obešli bez zpracování dat pomocí některého statistického softwaru, jako je např. Statistica, SPSS, případně statistických funkcí v běžném MS Excel nebo OpenOffice. 1.1 Základní statistické pojmy Většinou současně analyzujeme více objektů, událostí, procesů, skutečností. Ty sami o sobě ještě netvoří statistiku. Statistika se tedy zabývá zpracováním a zkoumáním hromadných jevů. Množina zkoumaných objektů se ve statistice nazývá statistický soubor. Počet prvků této množiny nazýváme rozsah souboru a značíme ho n. Základní prvky statistického pozorování se nazývají statistické jednotky. Celý statistický soubor se nazývá populace nebo základní soubor. Pokud z populace vybereme podle předem stanovených pravidel množinu statistických jednotek, nazýváme ji výběrový soubor nebo vzorek. Je to část základního souboru, kterou zkoumáme a pokud jsme data získali v souladu s teorií pravděpodobnosti, můžeme získané výsledky zobecnit na celou populaci. Statistické jednotky mají řadu různých vlastností, které potom dál analyzujeme. Nazýváme je proměnné (případy, statistické znaky). Hodnoty, které proměnná nabývá, nazýváme obměna statistického znaku. 1.2 Typy dat Z hlediska základního zpracování dat dělíme proměnné na dva základní typy: 1. kategoriální, 2. spojité. Kategoriální proměnné dále dělíme na: a. nominální (vždy slovní), 8

9 b. ordinální slovní, c. ordinální číselné. Kategoriální proměnné jsou ty, u kterých je počet obměn statistického znaku rozumný. Nelze přesně říci, co ještě považujeme za rozumný počet, protože to závisí i na rozsahu souboru. Zpravidla budeme počet obměn považovat za rozumný, bude-li menší než 10. Ale máme-li soubor velkého rozsahu (několik tisíc statistických jednotek), může být za rozumný počet obměn považováno i 20 či 25 obměn statistického znaku. Nominální proměnné jsou vždy slovní. Je pro ně typické to, že obměny této proměnné nemají žádné přirozené pořadí. Příkladem může být používaný dopravní prostředek pro cestu do školy/práce. Pořadí, v jakém vyjmenováváme obměny statistického znaku, se řídí jejich významností, tedy četností, s jakou se v datech vyskytují. Ordinální proměnné mohou být jak slovní, tak i číselné. Obměny statistického znaku mají vždy přirozené pořadí, které je nutné respektovat. Například nejvyšší dosažené vzdělání je smysluplné uvádět v pořadí: základní, středoškolské bez maturity, středoškolské s maturitou, bakalářské, magisterské a doktorské. Spojité proměnné jsou vždy číselné a vykazují se vysokým počtem obměn statistického znaku. Počet obměn je tak vysoký, že jejich vyjmenování nepřináší již lépe vypovídající pohled na data, jak je tomu v případě kategoriální proměnné. Proto u této proměnné nestačí obměny vyjmenovat, ale je nutné je seskupit do intervalů a nadále prezentovat jako intervaly, případně jako středy těchto intervalů. 1.3 Základní zpracování statistických údajů Výsledkem statistického šetření je zpravidla databáze s mnoha řádky a sloupci a ani zkušený pracovník z nich mnoho nevyčte. Informace musíme zpřehlednit, abychom jednoduše viděli, jakých hodnot daná proměnná nabývá a kolikrát se obměny vyskytují, tzv. četnosti. Tuto činnost nazýváme třídění dat a pro každou proměnnou vytvoříme tabulku rozdělení četností (frekvenční tabulku) Bodové třídění Bodové třídění používáme pro kategoriální proměnné (nominální a ordinální) s rozumným počtem obměn (zpravidla do 10, ale pro soubory s velkým rozsahem třeba i 15 nebo 20). 9

10 Takto můžeme třídit počet narozených dětí, známky ve škole, pohlaví, kraje, míru souhlasu s výrokem vyjádřenou např. na škále 1 7, Tabulka rozdělení četností obsahuje: pořadové číslo obměny (nemusí být uvedeno) i, hodnotu znaku x, absolutní četnost n, relativní četnost p, můžeme uvádět v % (100p %), kumulativní relativní četnost kp, můžeme uvádět v % (100kp %). Kumulativní relativní četnost u nominálních dat nemá smysl (neexistuje přirozené pořadí dat). Pro absolutní četnost platí (n je rozsah souboru) n = n. Pro relativní četnost platí p = n n. Pro kumulativní relativní četnost platí kp = p. Ukázka bodového třídění nominálního (tedy slovního) znaku je v tabulce 1-1. Obměny jsou seřazeny podle absolutní četnosti sestupně. Tabulka1-1: Příklad tabulky rozdělení četností pro nominální znak x n p Jihlava ,236 Havl. Brod ,214 Žďár nad Sázavou ,193 Třebíč ,180 Pelhřimov ,178 Celkem ,000 10

11 V tabulce 1-2 je ukázka bodového třídění ordinálního znaku. Obměny jsou seřazeny podle přirozeného pořadí. Tabulka 1-2: Počet dětí v rodině, příklad tabulky rozdělení četností diskrétní kardinální proměnné x n p kp ,063 0, ,281 0, ,463 0, ,162 0, ,029 0, ,002 1,000 Celkem ,000 x Intervalové třídění Intervalové třídění používáme pro číselnou proměnnou, která má velké množství obměn, takže by potom bodové třídění nemělo smysl. Hodnoty znaků sdružujeme do intervalů, které mají obvykle (pro jednoduchost) stejnou šířku, značíme ji h. Hledaný počet intervalů zpravidla závisí na počtu pozorování a můžeme ho vyjádřit např. pomocí Sturgesova pravidla k = 1 + 3,3 log n, kde k je počet intervalů a n rozsah souboru. Intervaly volíme tak, aby se nepřekrývaly a těsně na sebe navazovaly. Pro odlehlé hodnoty nevytváříme samostatný interval, ale zahrneme je do prvního nebo posledního intervalu. Tabulka rozdělení četností obsahuje: pořadové číslo obměny (nemusí být uvedeno), značíme i, intervaly, středy intervalů x, absolutní četnost n, relativní četnost p, můžeme uvádět v procentech (100p %), kumulativní relativní četnost kp, můžeme uvádět v procentech (100kp %). 11

12 Vzorce pro absolutní četnost, relativní četnost a kumulativní relativní četnost jsou stejné jako u bodového třídění. Tabulka 1-3 je ukázkou tabulky rozdělení četností při intervalovém třídění dat. Tabulka 1-3: Hmotnost dívek, příklad tabulky rozdělení četností pro spojitý číselný znak i intervaly x n p kp 1 (40 46> ,030 0,030 2 (46 52> ,131 0,161 3 (52 58> ,303 0,464 4 (58 64> ,281 0,745 5 (64 70> ,180 0,925 6 (70 76> ,045 0,970 7 (76 82> ,030 1,000 Celkem x x 267 1,000 x 1.4 Charakteristiky polohy (úrovně) K základním charakteristikám polohy patří: Extrémy minimum x, resp. Maximum x je nejmenší, resp. největší hodnota v datovém souboru. Aritmetický průměr x. Jedná se o nejznámější, a proto nejpoužívanější charakteristiku polohy. Ne vždy však je vhodná pro popis datového souboru. Máme-li datový soubor zešikmený, je aritmetický průměr nevhodnou charakteristikou. Vyplývá to ze způsobu výpočtu: x = 12 x n Použití tohoto vzorce předpokládá, že máme k dispozici všechny naměřené hodnoty, tedy data netříděná. Takto vypočítaný aritmetický průměr nazýváme prostý aritmetický průměr. V praxi však máme velmi často k dispozici pouze tříděná data a musíme tedy pro výpočet aritmetického průměru použít jiný vztah: x =. x n. n

13 Takto vypočítaný aritmetický průměr nazýváme vážený aritmetický průměr. Máme-li data tříděná bodovým tříděním, vychází prostý aritmetický průměr i vážený aritmetický průměr stejně. V případě intervalového třídění jsou data charakterizovaná pouze středem intervalu, tříděním dochází ke ztrátě původních hodnot, a proto i prostý aritmetický průměr z původních dat se zpravidla nepatrně liší od váženého aritmetického průměru. Medián x. Střední hodnota. Pokud datový soubor není symetrický nebo obsahuje odlehlou hodnotu, je lepší charakteristikou než aritmetický průměr. Medián dělí soubor na dvě poloviny. Při lichém počtu hodnot n je medián prostřední hodnota seřazených datx ( ) x = x, při sudém počtu hodnot n je medián průměr dvou prostředních hodnot seřazených dat x ( ) x = x + x 2. Dolní kvartil x,, horní kvartil x,. Dolní kvartil udává hodnotu 25 % nejnižších hodnot, horní kvartil 75 % nejnižších hodnot. Percentil (p-kvantil) x odděluje p % nejnižších hodnot souboru. Modus x. Nejčetnější hodnota. Problém této charakteristiky je, že při intervalovém třídění se může velmi lišit od hodnoty určené z původních dat. Některé soubory mohou mít i více modů. Pro číselné proměnné můžeme počítat všechny výše vyjmenované charakteristiky polohy. Pro ordinální slovní znaky lze určit pouze modus a kvantily (zejména medián, případně kvartily). Občas však interpretace trochu pokulhává (např. prostřední hodnotou nejvyššího vzdělání u zkoumaného vzorku může být něco mezi ZŠ a SŠ). U nominálních proměnných má smysl určit pouze modus. 13

14 1.5 Charakteristiky variability Často se setkáváme se situací, že dva nebo více souborů bude mít stejné charakteristiky polohy (průměr, medián, ), ale jinak se budou od sebe výrazně lišit. Proto je potřeba charakteristiky polohy doplnit charakteristikami variability. Základní charakteristiky variability: Variační rozpětí R. Uvádí škálu (šířku intervalu), ve které se pohybují všechny hodnoty souboru, tzn. rozdíl největší a nejmenší hodnoty znaku. Jeho předností je snadnost a rychlost výpočtu, nevýhodou je, pokud v souboru máme odlehlé hodnoty, jeho malá vypovídací schopnost. R = x x. Mezikvartilové rozpětí Q. Rozdíl mezi horním a dolním kvartilem. Udává, jak je široký interval, ve kterém je 50% prostředních hodnot. Tato míra variability už není ovlivněná extrémními hodnotami proměnné, takže vypovídací schopnost je vyšší než u rozpětí. Q = x, x,. Rozptyl s. Nejčastější charakteristika variability, která se počítá jako průměrná kvadratická odchylka od průměru. Rozptyl má interpretační nevýhodu, že není ve stejných jednotkách jako původní hodnoty. s = (x x ) n 1 = x nx. n 1 Směrodatná odchylka s. Odmocnina rozptylu, která má stejnou vypovídací schopnost jako rozptyl a je ve stejných jednotkách jako původní data. s = s. Variační koeficient v. Směrodatná odchylka a rozptyl jsou vhodné k porovnání variability souborů, které mají stejné průměry. Pokud se průměry porovnávaných souborů liší je potřeba spočítat variační koeficient, který je většinou uváděn v procentech. v = s x 14

15 1.6 Charakteristiky šikmosti a špičatosti Koeficient šikmosti k. Symetrii uspořádání dat kolem aritmetického průměru si můžeme vyjádřit pomocí koeficientu šikmosti. Nulová hodnota znamená symetrii, pokud nám koeficient šikmosti vyjde kladný, mluvíme o pravostranné (pozitivní) asymetrii, resp. vyjde-li záporný, jedná se o levostrannou (negativní) asymetrii. k = 1 n x x s n. Obrázek 1-1: Pravostranná (a) a levostranná (b) asymetrie Koeficient špičatosti k. Zjišťujeme koncentraci hodnot souboru kolem průměru. Zápornou hodnotu interpretujeme jako podnormální špičatost (Platykurtic), kladnou hodnotu interpretujeme jako nadnormální špičatost (Leptokurtic). k = 1 n x x n s 3. Obrázek 1-2: Podnormální, normální a nadnormální špičatost 15

16 2 Grafická prezentace dat 2.1 Grafické znázornění dat tříděných bodovým tříděním Pro prezentaci jednotlivých proměnných je nutné volit vhodné typy grafů, které mají vysokou vypovídací schopnost a nejsou pro příjemce informací zavádějící. Pokud máme data zpracovaná bodovým tříděním, je nejvhodnějším typem grafu graf výsečový, který znázorňuje strukturu proměnné a jakou část tvoří jednotlivé obměny. Pokud chceme porovnávat absolutní četnosti připadající na jednotlivé obměny, je vhodnější typ graf sloupcový. Okrajově lze použít i graf skládaný pruhový, který má podobnou vypovídací schopnost jako graf výsečový. Příklady jednotlivých typů grafů a jejich použití je na obrázcích 2-1, 2-2 a 2-3. Pelhřimov; 341 Jihlava; 758 Třebíč; 541 Havlíčkův Brod; 561 Žďár nad Sázavou; 598 Obrázek 2-1: Výsečový graf pro proměnnou počet nemocničních lůžek v kraji Vysočina k Zatímco grafy uvedené na obrázcích 2-1 a 2-2 jsou vhodné jak pro nominální tak i pro ordinální proměnnou, je graf na obrázku 2-3 vhodný pouze pro ordinální proměnnou. Dále je nutné, aby pořadí obměn znaku v grafu bylo stejné jako ve frekvenční tabulce tedy pro ordinální proměnnou existuje nějaké přirozené pořadí obměn a pro nominální proměnnou pořadí obměn určuje absolutní četnost. U všech grafů musíme dbát na to, aby bylo jasné, co který graf obsahuje. Je tady nutné volit vhodné popisky os a výstižný titulek, případně název grafu. Z každého grafu by mělo být na 16

17 první pohled jasné, jakou situaci popisuje. Graf by měl mít vyšší vypovídací schopnost než samotná frekvenční tabulka Jihlava Žďár nad Sázavou Havlíčkův Brod Třebíč Pelhřimov Obrázek 2-2: Sloupcový graf pro proměnnou počet nemocničních lůžek v kraji Vysočina k počty odpovědí zcela souhlasím spíš souhlasím spíš nesouhlasím zcela nesouhlasím bez odpovědi Obrázek 2-3: Skládaný pruhový graf pro proměnnou míra souhlasu s daným výrokem 17

18 2.2 Grafické znázornění dat tříděných intervalovým tříděním Intervalové třídění používáme tehdy, chceme-li vytvořit frekvenční tabulku pro spojitou číselnou proměnnou, např. výška člověka v cm. V tomto případě je obměn statistického znaku obrovské množství a bodové třídění by nepřineslo to, co od frekvenční tabulky očekáváme tedy zjednodušený pohled na data, protože frekvenční tabulka by mohla mít i stovky řádků. Proto hodnoty neuvádíme jednotlivě, ale sdružíme je do intervalů. Poznamenejme, že zatímco při bodovém třídění zůstanou zachovány všechny informace, které databáze obsahuje, při intervalovém třídění dojde k jejich částečné ztrátě. Ta je způsobena tím, že již nemáme přesné informace o hodnotách, víme jen, jaké jsou četnosti výskytů v jednotlivých intervalech. Příklad frekvenční tabulky pořízené intervalovým tříděním dat je uveden v tabulce 2-1. Tabulka 2-1: Příklad frekvenční tabulky pro spojitý číselný znak výška 300 chlapců i intervaly x i n i p i kp i ,3 % 3,3 % ,7 % 17,0 % ,0 % 44,0 % ,7 % 76,7 % ,0 % 96,7 % ,3 % 100,0 % x celkem x ,0 % x Histogram Pro grafické znázornění proměnné, která je tříděná intervalovým tříděním, používáme histogram. Jedná se o sloupcový graf, ve kterém je velikost mezery mezi sloupci nulová. Histogram pro data uvedená v tabulce 2-1 je znázorněn na obrázku 2-4. U tohoto typu grafu je nutné popsat osy (na vodorovnou osu vynášíme intervaly, na svislou osu absolutní četnosti) a uvést do titulku nebo do názvu grafu, o jaká data se jedná, aby byl graf dobře čitelný a srozumitelný všem čtenářům. 18

19 četnosti výška v cm Obrázek 2-4: Histogram výška chlapců Krabicový graf Krabicový graf je jednou z dalších možností, jak graficky zobrazit datový soubor číselné proměnné (výjimečně jej lze použít i pro ordinální proměnnou). Krabicový graf zobrazuje rozpětí a rozložení dat kolem číselné osy. V praxi se používá celá řada variant tohoto grafu. Ve své nejjednodušší podobě graf zachycuje polohu pěti významných hodnot mediánu, obou kvartilů a obou extrémů (minima a maxima) viz obrázek 2-5. Obrázek 2-5: Krabicový graf Nevýhodou tohoto poměrně snadno interpretovatelného grafu je jeho nedostupnost v Excelu. Tento graf je sice možné v Excelu zkonstruovat, ale vyžaduje to značné úsilí a pokročilou znalost Excelu. V dnes běžně používaných statistických programech (jakým je například 19

20 Statistica) však lze krabicové grafy konstruovat jednoduše. Tyto softwary dokážou též detekovat tzv. odlehlé a extrémní hodnoty a v grafu je vyznačit. V tom případě nevynášíme do grafu minimum a maximum, ale kromě mediánu a kvartilů vynášíme tzv. horní a dolní vnitřní hradbu a horní a dolní vnější hradbu. Jejich poloha se odvozuje od mezikvartilového rozpětí IQR: horní vnější hradba horní vnitřní hradba x 0,75 + 3IQR x 0,75 + 1,5IQR horní kvartil x 0,75 medián x 0,5 dolní kvartil x 0,25 dolní vnitřní hradba x 0,25 1,5IQR dolní vnější hradba x 0,25 3IQR Hodnoty, které leží mezi vnitřní a vnější hradbou (dolní nebo horní) se nazývají odlehlé a zpravidla se vyznačují kroužkem, hodnoty ležící za vnějšími hradbami se nazývají extrémní a vyznačují se hvězdičkou. Příklad krabicového grafu je uveden na obrázku 2-6 Krabice vyznačuje oblast mezi kvartily a vousy vnitřní hradby. V datech jsou 3 odlehlé hodnoty, extrémní hodnoty se v datovém souboru nevyskytly. Obrázek 2-6: Krabicový graf s odlehlými hodnotami Pokud se data řídí normálním rozdělením, je možné do krabicových grafů použít místo mediánu průměr a směrodatnou odchylku nebo směrodatnou chybu místo IQR. 20

21 Krabicové grafy však častěji než k prezentaci rozložení hodnot kolem číselné osy používáme k porovnání dvou nebo i více souborů dat. Může se jednat o více číselných proměnných nebo o jednu kategorizovanou proměnnou, jak je ukázáno na obrázku 2-7. Zde jsou dva krabicové grafy, které porovnávají výši platů mužů a žen v jistém zdravotnickém zařízení. Proměnná je zde plat. Proměnná pohlaví, která obsahuje dvě kategorie muž a žena, slouží ke kategorizování hodnot proměnné plat. Spodní vodorovná čárka vyznačuje minimální mzdu (muži Kč, ženy Kč), horní vodorovná čárka maximální mzdu (muži Kč, ženy Kč). Dno krabice vyznačuje dolní kvartil, víko krabice horní kvartil a vodorovná bílá čára medián. Z tohoto grafu je na první pohled zřejmé, nejen že se platy žen v tomto zdravotnickém zařízení pohybují níže než platy mužů, ale je vidět i to, že maximální mzda žen je nižší než medián mzdy mužů Muž Žena Obrázek 2-7: Krabicový graf porovnání příjmů mužů a žen ve sledovaném zdravotnickém zařízení Krabicové grafy je možné umístit svisle, jako je tomu na obrázcích 2-6 a 2-7, ale i vodorovně (viz obrázek 2-5), kdy je možné kombinovat krabicový graf s histogramem. 2.3 Grafické znázornění závislosti dvou proměnných bodový graf Máme-li v datech dvě proměnné, u kterých lze předpokládat příčinný vztah, je možné tento vztah znázornit graficky pomocí bodového grafu. Např. pokud máme informace o výšce 21

22 a váze respondentů, můžeme pomocí bodového grafu zjistit, jestli je mezi těmito dvěma proměnnými závislost. Bodový graf zobrazuje body roviny, jejichž x-ová souřadnice je hodnota jedné (nezávislé) proměnné a y-ová souřadnice je hodnota druhé (závislé) proměnné. Každý bod tedy představuje jednu statistickou jednotku. Na obrázku 2-8 je bodový graf znázorňující závislost váhy na výšce deseti náhodně vybraných studentek VŠPJ. V připojené tabulce jsou uvedeny též zjištěné výšky a váhy, které byly použity pro konstrukci grafu a pro bližší představu o tělesné konstituci jednotlivce je dopočítáno BMI. výška váha BMI , , , , , , , ,4 váha v kg výška v cm , ,0 Obrázek 2-8: Bodový graf závislosti váhy na výšce Graf konstruujeme zejména proto, abychom zodpověděli otázku, zda jsou naše data vhodná pro analýzu závislosti dvou proměnných. Největší problém by způsobily odlehlé hodnoty (jeden nebo několik bodů ležících mimo oblast většiny bodů) nebo dva samostatné shluky bodů, které by svědčili o tom, že statistické jednotky tvoří dvě skupiny s odlišnými vztahy mezi proměnnými (například pokud bychom do analýzy zahrnuly nejen dívky, ale i chlapce). Dále je nutné zkontrolovat, zda je vhodné proložit body rostoucí nebo klesající přímku (zda by nebylo vhodnější proložit body nějakou složitější křivku). Z tohoto pohledu se jeví data v pořádku, je tedy možné přistoupit ke korelační a regresní analýze. 22

23 2.4 Grafické znázornění časové řady spojnicový graf Prvotní informace pro analýzu časových řad získáme ze spojnicových grafů. Jejich princip spočívá v zakreslení jednotlivých hodnot časové řady do souřadných os, na kterých jsou vyznačeny příslušné stupnice. Na vodorovnou osu x se vynáší časová proměnná t a na svislou osu hodnoty časové řady (obrázek 2-9). Do grafu můžeme zakreslit i více časových řad (obrázek 2-10). V případě, že zobrazujeme dvě časové řady lišící se měřítkem, můžeme použít kromě levé i pravou svislou osu. Obrázek 2-9: Spojnicový graf vhodný pro časovou řadu Obrázek 2-10: Spojnicový graf více časových řad 23

24 3 Korelační analýza Korelační analýzu používáme k popisu vzájemného vztahu dvou kardinálních (spojitých číselných) nebo ordinálních proměnných. Pomocí korelačních koeficientů měříme směr a intenzitu (sílu) LINEÁRNÍ závislosti. Pokud je mezi proměnnými jiný typ závislosti než lineární, není vhodné korelační koeficient použít. Korelační koeficient nabývá hodnot od 1 do 1. Znaménko určuje směr závislosti, tzn. pro kladné hodnoty korelačního koeficientu se jedná o pozitivní korelaci (pokud roste jedna proměnná, roste i druhá proměnná, resp. pokud klesá jedna, klesá i druhá proměnná), pro záporné hodnoty mluvíme o negativní korelaci (roste-li jedna proměnná, klesá druhá nebo naopak). Intenzita korelace se vztahuje k samotné hodnotě korelačního koeficientu (nezávisí na znaménku, to určuje pouze směr). Pokud je korelační koeficient roven 0, mezi proměnnými není žádný lineární vztah. Je třeba však zdůraznit, že koeficient korelace, který se blíží nule, nemusí nutně znamenat slabou závislost. Proměnné mohou být silně závislé, ale ne lineárně. Blíží-li se korelační koeficient ±1, mluvíme o silnější závislosti proměnných. V mezních případech, kdy je korelační koeficient roven 1 nebo 1, jde o úplnou funkční závislost (v bodovém grafu by všechny body ležely na přímce). Interpretace intenzity hodnot korelačního koeficientu (bez znaménka, které reprezentuje pouze směr) se v různých oborech lišší, můžeme použít např. následující: Koeficient korelace Síla závislosti 0,1 0,3 Slabá závislost 0,3 0,7 Středně silná závislost 0,7 0,9 Silná závislost > 0,9 Velmi silná závislost Pro porovnávání vztahu mezi ordinálními proměnnými, daty s odlehlými hodnotami a daty, která nemají normální rozdělení, používáme neparametrický Spearmanův korelační koeficient (ró). Např. závislost počtu dioptrií a vzdělání. Pokud hledáme lineární závislost dvou číselných proměnných (např. výška dítěte ve dvou letech a v dospělosti), případně pokud máme jednu číselnou proměnnou a jednu grupovací proměnnou (např. výšku žen a mužů) můžeme použít parametrický Pearsonův korelační 24

25 koeficient r. V tomto případě musí být splněny předpoklady použití Pearsonova koeficientu korelace: lineární vztah mezi proměnnými, neexistence odlehlých hodnot, normální rozdělení dat (pro proměnné rozdělené pomocí grupovací proměnné je nutný předpoklad normality v jednotlivých skupinách, např. výška žen, výška mužů). Tyto předpoklady ověřujeme zpravidla pomocí bodového grafu. Všechny body by měly ležet uvnitř pomyslné elipsy, bez odlehlých hodnot. Pozn.: Pokud bychom získali bodový graf, jako je na obrázku 3-1, musíme jednotlivé skupiny analyzovat odděleně. Obrázek 3-1: Heterogenita v datech 25

26 Obrázek 3-2 ukazuje různé hodnoty koeficientů korelace pro různé typy bodových grafů. Obrázek 3-2: Korelační koeficienty vybraných bodových grafů Zdroj: wikipedia.org Obrázky 3-3 a 3-4 ukazují vliv odlehlých hodnot na korelační koeficient. Odlehlá hodnota, která leží na regresní přímce, zvyšuje korelační koeficient. Pokud budeme mít ve stejném grafu odlehlou hodnotu, která leží mimo regresní přímku, velikost korelačního koeficientu je podstatně nižší. Vliv odlehlých hodnot závisí na velikosti zkoumaného vzorku, v naší ukázce máme 100 pozorování, takže odlehlá hodnota výsledek tolik neovlivňuje jako v případě malého rozsahu vzorku. V praxi to znamená, že výzkumník musí sám rozhodnout, zda do datového souboru odlehlé hodnoty zahrne či nikoli. Obrázek 3-3: Odlehlý bod původní korelační koeficient (0,77) zvýšil, r = 0,81 26

27 Obrázek 3-4: Odlehlý bod původní korelační koeficient (0,77) snížil, r = 0,537 Úroveň statistické významnosti Pearsonova i Spearmanova korelačního koeficientu posuzujeme podle p-hodnoty, která je zobrazená či naznačena ve výstupech statistických programů. V programu STATISTICA je statisticky významný korelační koeficient (p < 0,05) vyznačen červeným písmem. Pokud je p > 0,05, je korelační koeficient statisticky nevýznamný a je nutné jej považovat za nulový. Je potřeba zdůraznit, že p-hodnota neukazuje na intenzitu závislosti mezi proměnnými (ta je dána přímo korelačním koeficientem), ale říká nám, zda je korelační koeficient možné považovat za nenulový. Statistická významnost korelačního koeficientu je kromě vlastního lineárního vztahu mezi proměnnými také ovlivněná velikostí vzorku, např. pro malé vzorky (n < 30) nemusí být korelační koeficient 0,4 (středně silná závislost) statisticky významný (nepotvrdili jsme, že mezi proměnnými je nějaký vztah) a naopak pro velké vzorky (např. n > 100) může být statisticky významná i slabá závislost, kdy je korelační koeficient např. 0,2. 27

28 4 Regresní analýza Hlavním úkolem regresní analýzy je najít nejvhodnější regresní funkci, pomocí které můžeme odhadnout hodnoty závislé proměnné na základě zvolených hodnot nezávislé proměnné. Např. odhad váhy na základě výšky, odhad střední hodnoty očekávané doby přežití pacienta s rakovinou na základě jeho zdravotního stavu, odhad doby zmírnění bolesti po aplikaci určitého množství léku apod. Posuzujeme tedy vztah závislé proměnné (např. váha) na vybrané nezávislé proměnné (např. výška). Předpokládáme pouze jednostrannou závislost, tj. závislá (vysvětlovaná) proměnná zpětně neovlivňuje nezávislou proměnnou. Vysvětlovanou proměnnou zpravidla značíme Y a vysvětlující proměnnou X. Je-li vysvětlujících proměnný více, používáme pro ně označení X 1, X 2, atd. Lineární regresní funkce má potom tvar Y = b + b X, obecně pro více (n) vysvětlujících proměnných Y = b + b X + b X + + b X. Tento typ regrese, kterým se budeme zabývat v našem kurzu, se nazývá (vícenásobná) lineární regrese. Vhodnost volby lineárního modelu můžeme odvodit z bodového grafu, ve kterém také můžeme vypozorovat případné vybočující hodnoty, které mohou velmi ovlivnit kvalitu vytvořeného modelu. Vhodnost modelu nám také ukáže graf reziduí (rozdíl mezi předpovězenou a pozorovanou hodnotou), kde by rezidua měla být rozmístěna náhodně, nikoli ve tvaru nějaké funkce. O kvalitě modelu vypovídá také koeficient determinace, který je zpravidla značený R2 (R ). Ten nám říká, kolik procent variability závislé proměnné model vysvětluje pomocí variability nezávislých proměnných. Upravený koeficient determinace Upravené R2 slouží k porovnávání modelů, jež se liší počtem nezávislých proměnných. Poslední hodnota, na kterou bychom neměli zapomenout, je p-hodnota, která určuje statistickou významnost jak regresní funkce, tak i jednotlivých koeficientů. Pro p < 0,05 je regresní model, resp. odhad konkrétního koeficientu statisticky významný, tedy nenulový. Tuto skutečnost vyznačuje program STATISTICA červenou barvou. 28

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTIKA V SPSS Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2014 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTIKA V SPSS 1. vydání

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu

Více

Deskriptivní statistika (kategorizované proměnné)

Deskriptivní statistika (kategorizované proměnné) Deskriptivní statistika (kategorizované proměnné) Nejprve malé opakování: - Deskriptivní statistika se zabývá popisem dat, jejich sumarizaci a prezentací. - Kategorizované proměnné jsou všechny proměnné,

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Návod na vypracování semestrálního projektu

Návod na vypracování semestrálního projektu Návod na vypracování semestrálního projektu Následující dokument má charakter doporučení. Není závazný, je pouze návodem pro studenty, kteří si nejsou jisti výběrem dat, volbou metod a formou zpracování

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

Testy statistických hypotéz

Testy statistických hypotéz Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem

Více

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar

Více

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu. Popisná statistika Slovní popis problému Naším cílem v této úloze bude stručně a přehledně charakterizovat rozsáhlý soubor dat - v našem případě počty bodů z prvního a druhého zápočtového testu z matematiky.

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Popisná statistika úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Úvod užívá se k popisu základních vlastností dat poskytuje jednoduché shrnutí hodnot proměnných

Více

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

STATISTIKA S EXCELEM. Martina Litschmannová MODAM, STATISTIKA S EXCELEM Martina Litschmannová MODAM, 8. 4. 216 Obsah Motivace aneb Máme data a co dál? Základní terminologie Analýza kvalitativního znaku rozdělení četnosti, vizualizace Analýza kvantitativního

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: SMAD Cvičení Ostrava, AR 2016/2017 Popis datového souboru Pro dlouhodobý

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

Metodologie pro ISK II

Metodologie pro ISK II Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech

Více

Průzkumová analýza dat

Průzkumová analýza dat Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Vzorová prezentace do předmětu Statistika

Vzorová prezentace do předmětu Statistika Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota

Více

Aplikovaná statistika v R

Aplikovaná statistika v R Aplikovaná statistika v R Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 15.5.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 15.5.2014 1 / 15 Co bude náplní našich

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

Nejčastější chyby v explorační analýze

Nejčastější chyby v explorační analýze Nejčastější chyby v explorační analýze Obecně doporučuju přečíst přednášku 5: Výběrová šetření, Exploratorní analýza http://homel.vsb.cz/~lit40/sta1/materialy/io.pptx Použití nesprávných charakteristik

Více

Statistické testování hypotéz II

Statistické testování hypotéz II PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

4. Zpracování číselných dat

4. Zpracování číselných dat 4. Zpracování číselných dat 4.1 Jednoduché hodnocení dat 4.2 Začlenění dat do písemné práce Zásady zpracování vědecké práce pro obory BOZO, PÚPN, LS 2011 4.1 Hodnocení číselných dat Popisná data: střední

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) 5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) Cílem tématu je správné posouzení a výběr vhodného testu v závislosti na povaze metrické a kategoriální veličiny. V následující

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více