LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Podobné dokumenty
Metodologie pro ISK II

Metodologie pro Informační studia a knihovnictví 2

Analýza dat na PC I.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Metodologie pro Informační studia a knihovnictví 2

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Číselné charakteristiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy pravděpodobnosti a statistiky. Popisná statistika

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Deskriptivní statistika (kategorizované proměnné)

Základní statistické charakteristiky

Statistika pro geografy

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Příprava souboru dat a analýza

Praktická statistika. Petr Ponížil Eva Kutálková


Popisná statistika. Statistika pro sociology

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

LEKCE02a ANALÝZA ROZLOŽENÍ KATEGORIZOVANÝCH DAT vzorový výsledek cvičení

Popisná statistika. Komentované řešení pomocí MS Excel

Zápočtová práce STATISTIKA I

Deskriptivní statistika (kategorizované proměnné)

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

Charakteristika datového souboru

Metodologie pro Informační studia a knihovnictví 2

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Číselné charakteristiky a jejich výpočet

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Aplikovaná statistika v R

1. Kategoriální proměnná nominální: (Tabulka a graf četností) Př.: sloupec (PokudanoJakčasto) -> Analyze -> Descriptive statistics -> Frequencies

Základy popisné statistiky

Kontingenční tabulky v Excelu. Představení programu Statistica

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Charakterizace rozdělení

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Náhodná veličina a rozdělení pravděpodobnosti

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Lekce 2 ZÁKLADY UNIVARIAČNÍ ANALÝZY A) ROZLOŽENÍ KATEGORIZOVANÝCH DAT

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Jevy a náhodná veličina

Statistická analýza dat v psychologii

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Popisná statistika kvantitativní veličiny

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

MATEMATIKA III V PŘÍKLADECH

MATEMATICKÁ STATISTIKA - XP01MST

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Základní analýza dat. Úvod

Základy popisné statistiky

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

LEKCE 5: UMĚLÉ PROMĚNNÉ

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Informační technologie a statistika 1

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Nejčastější chyby v explorační analýze

Návod pro práci s SPSS

TECHNICKÁ UNIVERZITA V LIBERCI

7. Rozdělení pravděpodobnosti ve statistice

23. Matematická statistika

TECHNICKÁ UNIVERZITA V LIBERCI

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Renáta Bednárová STATISTIKA PRO EKONOMY

Mnohorozměrná statistická data

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Příloha podrobný výklad vybraných pojmů

charakteristiky KGG/STG Zimní semestr Základní statistické charakteristiky, Teoretická rozdělení 1

Analýza dat s využitím MS Excel

Transkript:

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT 1 Základní statistickou úlohou je popis stavu základního souboru Východiskem je většinou výběrový soubor (odvozujeme popis základního souboru z popisu souboru výběrového). Statistický popis spočívá ve zjištění statistického rozložení Neboli rozdělení neboli distribuce četností u hodnot proměnné (znaku) Statistické rozložení může být vyjádřeno v: Absolutních četnostech Kolik případů má danou vlastnost (z těch, jež jsou logicky v proměnné seskupeny) Např. Kolik je v souboru mužů (žen). Např. Kolik je v souboru osob s vysokoškolským vzděláním. Součet absolutních četností ve všech kategoriích (včetně chybějících hodnot) je velikostí (rozsahem) souboru. Relativních četnostech Jaký podíl představují případy mající danou vlastnost (z celku vlastností logicky v proměnné seskupených) Např. Jaký podíl mužů (a jaký podíl žen) je v souboru. Např. Jaký podíl osob s vysokoškolským vzděláním je v souboru. Součet relativních četností ve všech kategoriích dává 100%. Kumulativních relativních četnostech (nemají smysl u nominálních znaků) Např. Jaký podíl osob alespoň s maturitou je v souboru. ANALYZE MOŽNOSTI DESCRIPTIVE STATISTICS Zadat frekvenční tabulku nebo jen statistiky Zadat STATISTICS (všechny nabídnuté možnosti nejsou smysluplné) Zadat GRAPH - (smysl má sloupcový diagram nebo koláčový graf) Upravit FORMAT - uspořádat data FREQUENCIES

2 Zadání frekvenční tabulky zachycující rozložení dat (NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ). Základním výstupem procedury FREQUENCIES je FREKVENČNÍ TABULKA: Můžeme ovšem zadat i další statistiky, které mají u daného typu proměnné smysl. U nominálních proměnných modus, u ordinálních modus a medián, pouze u kardinálních vedle modusu a mediánu i aritmetický průměr (a samozřejmě odpovídající míry rozptýlenosti) ZDE OVŠEM NEMÁ SMYSL FREKVENČNÍ TABULKA A PROTO PRO FREKVENČNÍ ANALÝZU KARDINÁLNÍCH DAT POUŽIJEME RADĚJI PROCEDUR EXPLORE nebo DESCRIPTIVES, popřípadě potlačíme zobrazení frekvenční tabulky (odstranit zaškrtnutí Display frequency tables).

3 Zadat můžeme také jednoduchý graf zobrazující rozložení případů v kategoriích (absolutně či jejich procentuální podíl v celku). Grafy ovšem často zadáváme raději v modulu menu GRAPHS. Je to jednoduché, chce to jen trochu experimentovat. JAK ČÍST FREKVENČNÍ TABULKU Příklad: Když zvážíte všechny okolnosti, řekl/a byste, že jste Q4 Pocit štěstí celkově validní chybějící hodnoty celkem 1 velmi šťastný/á 2 celkem šťastný/á 3 ne moc šťastný/á 4 vůbec ne šťastný/ Total -2 neodpověděl/a -1 neví celkem kumulativní počet podíl validní podíl podíl 208 10.9 11.0 11.0 1426 74.7 75.1 86.0 239 12.5 12.6 98.6 26 1.4 1.4 100.0 1899 99.6 100.0 5.3 3.2 9.4 1908 100.0 základem pro výpočet jsou jen ti, kdo odpověděli kódy labels podíl těch, kdo jsou vlastností vlastností alespoň celkem šťastní

4 VALIDNÍ RELATIVNÍ ČETNOSTI Někdy nepočítáme podíl dané kategorie z celého souboru. Musíme si například poradit transformací proměnné tam, kde je její součástí kategorie, která nevstupuje do analýzy. A6 JE NEKDO DOBROVOLNE CHUDY? Valid Missing Total Cumulative Frequency Percent Valid Percent Percent 1 NIKDO 252 25,2 25,2 25,2 2 VYJIMECNE 522 52,2 52,3 77,5 3 NE MALO 143 14,3 14,3 91,8 9 NEVIM 82 8,2 8,2 100,0 Total 999 99,9 100,0 0 1,1 1000 100,0 validní % 27,5 56,9 15,6-100,0 Pokud by byla dále odstraněna varianta ne vím - získáváme tak podíl postojů jen mezi těmi, kdo měli na věc názor. ZÁKLADNÍ ZOBRAZENÍ ROZLOŽENÍ ČETNOSTÍ KATEGORIZOVANÉ PROMĚNNÉ SLOUPCOVÝ GRAF 1600 1400 Pocit štěstí celkově 1200 1000 800 600 Frequency 400 200 0 velmi šťastný/á ne moc šťastný/á celkem šťastný/á vůbec ne šťastný/á Pocit štěstí celkově Lze ho zadat v proceduře FREQUENCIES nebo v proceduře GRAPHS - BAR - SIMPLE

KOLÁČOVÝ GRAF Pocit štěstí celkově 5 Missing.4% vůbec ne šťastný/á 1.4% ne moc šťastný/á 12.5% velmi šťastný/á 10.9% celkem šťastný/á 74.7% Lze ho zadat v proceduře FREQUENCIES nebo v proceduře GRAPHS - BAR - SIMPLE CHARAKTERISTIKY ROZLOŽENÍ NOMINÁLNÍ PROMĚNNÉ Střední hodnota: MODUS (nejčetněji obsazená kategorie neboli hodnota proměnné Míra variability: Variační poměr = 1 - četnost modální kategorie velikost souboru CHARAKTERISTIKY ROZLOŽENÍ ORDINÁLNÍ PROMĚNNÉ Střední hodnota: MODUS MEDIÁN je číslo mediánové kategorie (MEDIÁNOVÁ KATEGORIE je ta, ve které je dosaženo 50% všech údajů, postupujeme-li od první kategorie výše) Míra variability: VARIAČNÍ POMĚR Diskrétní ordinální variance (DORVAR) Normalizovaná diskrétní ordinální variance (NORM DORVAR)

POROVNÁVÁNÍ ROZLOŽENÍ (tables - tables of frequencies) 6 MODUL TABLES dovoluje prezentovat v přehledné podobě frekvenční analýzu více proměnných ANALYZE TABLES TABLES OF FREQUENCIES Frequencies for: ANOMREC In each tables: A75 (subjektivní třída) Podíl osob s ruznou mírou anomie podle subjektivní trídy A75 TRIDA - SEBEZARAZENI SE 1 NIZKA 2 STREDNI 3 VYSOKA 1 NIZSI TRIDA T01V0008 2 NIZSI STREDNI T01V0008 3 VYSSI STREDNI T01V0008 4 VYSSI TRIDA T01V0008 Count % Count % Count % Count % 10 5,0% 107 18,0% 50 28,9% 7 46,7% 87 43,5% 260 43,8% 85 49,1% 6 40,0% 103 51,5% 226 38,1% 38 22,0% 2 13,3% Anomie merena Sroleho škálou Zde byl přidán řádek TOTAL (z nabídky STATISTICS) Podíl osob s ruznou mírou anomie podle subjektivní trídy A75 TRIDA - SEBEZARAZENI SE 1 NIZKA 2 STREDNI 3 VYSOKA $T Total 1 NIZSI TRIDA 2 NIZSI STREDNI 3 VYSSI STREDNI 4 VYSSI TRIDA Count % Count % Count % Count % 10 5,0% 107 18,0% 50 28,9% 7 46,7% 87 43,5% 260 43,8% 85 49,1% 6 40,0% 103 51,5% 226 38,1% 38 22,0% 2 13,3% 200 100,0% 593 100,0% 173 100,0% 15 100,0% Anomie merena Sroleho škálou

ANALYZE TABLES Frequencies for: ANOMREC In each tables: A75 (subjektivní třída) Separate tables: A98 (pohlaví) TABLES OF FREQUENCIES 7 Podíl osob s ruznou mírou anomie podle subjektivní trídy A88 POHLAVI 1 MUZ A75 TRIDA - SEBEZARAZENI SE 1 NIZKA 2 STREDNI 3 VYSOKA $T Total 1 NIZSI TRIDA 2 NIZSI STREDNI 3 VYSSI STREDNI 4 VYSSI TRIDA Count % Count % Count % Count % 5 2,5% 60 10,1% 32 18,5% 3 20,0% 36 18,0% 115 19,4% 48 27,7% 4 26,7% 36 18,0% 112 18,9% 20 11,6% 2 13,3% 77 38,5% 287 48,4% 100 57,8% 9 60,0% Anomie merena Sroleho škálou Objeví se jen tabulka pro 1. variantu znaku zadaného jako "separate tables" (zde pro muži). Klikneme-li 2x na tabulku, lze ji formátovat. Kliknutím na název proměnné vlevo nad tabulkou (A88 POHLAVI 1 MUZ) se objeví roletka s dalšími variantami (zde A88 POHLAVI 2 ZENA). Klikneme-li opět na ni, objeví se tabulka pro podsoubor ženy. Podíl osob s ruznou mírou anomie podle subjektivní trídy A88 POHLAVI 2 ZENA A75 TRIDA - SEBEZARAZENI SE 1 NIZKA 2 STREDNI 3 VYSOKA $T Total 1 NIZSI TRIDA 2 NIZSI STREDNI 3 VYSSI STREDNI 4 VYSSI TRIDA Count % Count % Count % Count % 5 2,5% 47 7,9% 18 10,4% 4 26,7% 51 25,5% 145 24,5% 37 21,4% 2 13,3% 67 33,5% 114 19,2% 18 10,4% 0,0% 123 61,5% 306 51,6% 73 42,2% 6 40,0% Anomie merena Sroleho škálou

LEKCE 02b UNIVARIAČNÍ ANALÝZA SPOJITÝCH PROMĚNNÝCH 8 FREQUENCIES (KARDINÁLNÍ ZNAKY) SPOJITÝ STATISTICKÝ ZNAK (kardinální): Nabývá všech možných hodnot z daného intervalu. V tomto případě se příliš nehovoří o četnosti určité hodnoty (je malá pravděpodobnost, že se stejná hodnota v souboru opakuje). I spojitý znak lze zobrazit a to stanovením intervalů, v nichž jsou určité hodnoty znaku (příjmové, věkové skupiny,...). Zobrazením není sloupcový diagram, ale HISTOGRAM. Jeho sloupce představují četnosti případů v intervalech. ANALYZE STATISTIKY centrální tendence variabilita DESCRIPTIVE STA- TISTICS VLASTNOSTI ROZLOŽENÍ šikmost špičatost percentily FREQUENCIES GRAFICKÁ PODOBA histogram MOŽNOSTI: Zadat i frekvenční tabulku (mají pouze omezený smysl) nebo jen statistiky Zadat statistiky (smysl mají všechny nabídnuté možnosti) Zadat diagram (smysl má histogram) Uspořádat data

FREQUENCIES - STATISTIKY 9 STŘEDNÍ HODNOTY (CENTRAL TENDENCY) Sumární (typické) charakteristiky distribuce. MODUS - (MODE) Střední hodnota pro nominální znaky, ordinální a kardinální znaky: jde o kategorii s nejpočetnějším výskytem (obsahující nejvíce případů). MEDIÁN (MEDIAN) Střední hodnota pro ordinální a kardinální znaky. Je to hodnota, dělící rozložení na dvě poloviny (50. percentil nebo též 2. kvartil). Někdy výhodnější než aritmetický průměr, neboť je rezistentní vůči extrémním hodnotám. U souborů, které mají lichý počet prvků je hodnota mediánu rovna hodnotě středního prvku. Při sudém počtu prvků se medián počítá jako aritmetický průměr hodnot dvou středních prvků. U ordinálních proměnných hovoříme o mediánové kategorii (hodnotě proměnné, v níž leží medián). ARITMETICKÝ PRŮMĚR - (MEANS) Střední hodnota pro kardinální znaky. Není vždy nejvhodnější - může se například značně změnit změnou i jen jednoho pozorování (citlivý na extrémní hodnoty). 1 1 i=1 X = (X 1 +X 2 +... + X n ) neboli X = X i n n n Řada statistických testů slouží k porovnávání průměrů, které získáme v různých podsouborech (sociálních kategoriích). Příklad: Porovnání průměrných platů u osob s různým dosaženým vzděláním. Pro určité typy proměnných lze použít vždy jen určité střední charakteristiky. Pro: - NOMINÁLNÍ proměnné jen modus. - ORDINÁLNÍ proměnné modus a medián. - KARDINÁLNÍ proměnné modus, medián, průměr).

PODOBA DISTRIBUCE DISTRIBUTION) 10 VARIABILITA (DISPERSION) MINIMUM - Je minimální hodnota rozdělení. MAXIMUM - Je maximální hodnota rozdělení. ROZPĚTÍ (RANGE) - Je rozdílem mezi nejvyšší (maximum) a nejnižší (minimum) hodnotou. Nejjednodušší míra variability, která nás upozorňuje na vzdálenost extrémních hodnot, ale nevyjadřuje vůbec koncentraci hodnot proměnné kolem středu rozložení. MEZIKVARTILOVÉ ROZPĚTÍ (IQR) - rozdíl mezi horním (75) a dolním (25) kvartilem. Lze ho použít (v kombinaci s ostatními charakteristikami) pro rozlišení toho jaká je variabilita (či koncentrace) hodnot proměnné kolem středu a na okrajích (v extrémních hodnotách) rozložení. ROZPTYL (VARIANCE) Vypovídá o tom, jak jsou v rozložení hodnoty rozptýleny kolem aritmetického průměru. Je to průměrná čtvercová chyba (ve čtvercích jednotek původní proměnné) součet druhých mocnin odchylek všech jednotlivých hodnot od průměru dělený rozsahem souboru. 1 n s 2 = Σ ( x i x ) 2 n i=1 SMĚRODATNÁ/STANDARDNÍ ODCHYLKA (STDEV) Je druhou odmocninou rozptylu. Poskytuje míru hodnoty jakou má aritmetický průměr pro charakterizaci rozložení (čím je menší, tím lépe aritmetický průměr). Říká také, uvnitř jakého intervalu kolem průměru leží zvolené procento případů. Rozptyl a směrodatná odchylka: - Stejně jako průměr mají stejný rozměr jako měřená proměnná (například příjem: střední hodnota, rozptyl i směrodatní odchylka se vyjadřují v peněžní jednotce - v ČR v Kč, v UE v euro, v USA v dolarech ap.). - Používají se jako kritéria toho jak moc se dá věřit či nevěřit průměru. Malé hodnoty rozptylu zvyšují význam průměru, velké znamenají, že hodnoty proměnné mají vysokou variabilitu a proto při používání průměru musíme být opatrní. - Lze je použít jen pro porovnávání variability proměnných měřených ve stejných měrných jednotkách. standardní odchylka KOEFICIENT VARIACE = * 100 aritmetický průměr Lze ho použít, na rozdíl od rozptylu a směrodatné odchylky, i pro porovnávání variability proměnných měřených v odlišných měrných jednotkách.

PERCENTILY 11 PERCENTIL (KVANTIL x p ) Hodnota znaku, pro kterou platí, že nejméně p - procent případů má hodnotu menší nebo rovnu x p a (100-p) případů je větších nebo rovno x p. Nejčastěji se používají: MEDIÁN neboli x 50 50% případů má hodnotu menší než x 50 a 50% větší než x 50. KVARTILY neboli x 25, x 50, x 75 (nejčastěji dolní a horní kvartil). např. x 25 = 25% případů má hodnotu menší než x 25 a 75% větší než x 25. DECILY neboli x10, x20, x30, x40, x50, x60, x70, x80, x90. např. x 20 = 20% případů má hodnotu menší než x 20 a 80% větší než x 20. Příklad použití: - Jednou z kritérií pro určení chudoby je porovnání konkrétního příjmu s příjmovým rozložením. Například v EU je hranicí chudoby 60% mediánu příjmového rozložení (kdo má nižší příjem než je tato hranice, je považován za chudého). - Může nás zajímat jak početný je spodní decil (nejchudší) a horní decil (nejbohatší) příjmového rozložení, ale i typické sociální charakteristiky osob ocitajících se ve spodním či horním decilu. V obou případech, pokud přiřadíme každému jedinci nový znak (jak, to se dozvíme v bloku věnovaném transformaci proměnných), identifikující jeho polohu v takovémto rozložení - do kterého kvantilu svým příjmem patří, lze zkoumat strukturu tohoto kvantilu. Je například mezi osobami s příjmem pod hranicí chudoby (nebo ve spodním decilu) vyšší podíl osob s nějakou sociální charakteristikou (stupeň vzdělání, pohlaví, věk apod. než mezi ostatními osobami? ŠIKMOST (SKEWNESS) Charakteristiky šikmosti udávají, zda jsou hodnoty kolem zvoleného středu rozloženy souměrně, nebo je rozdělení hodnot zešikmeno na jednu stranu. Měří tedy asymetrii v distribuci hodnot: 0 = symetrické rozložení (modus, medián, aritmetický průměr mají shodné či velmi blízké hodnoty). Kladná hodnota = šikmé doprava. Aritmetický průměr je větší než medián a ten je větší jako modus (více je případů menších než průměr). Záporná hodnota = šikmé doleva. Aritmetický průměr je menší než medián a ten je menší jako modus (více je případů větších než průměr) ŠPIČATOST (KURTOSIS) Dána porovnáním s normálním rozložením. Čím je rozdělení špičatější, tím více jsou hodnoty soustředěny kolem jeho středu, čím je méně špičaté, tím častěji obsahuje hodnoty vzdálené od tohoto středu. Kladná hodnota = více případů je mimo normální rozložení (plochá křivka).

PROCEDURA EXPLORE 12 Co můžeme říci o datech podíváme-li se na BOXPLOT? Podle délky boxu můžeme určit šířku nebo variabilitu dat. Z mediánu můžeme určit centrální tendenci nebo polohu. Jestliže medián není uprostřed boxu můžeme usuzovat na sešikmení (skew). Je-li medián blíže hornímu kvartilu jedná se o kladné sešikmení. Je-li medián blíže dolnímu kvartilu jedná se o záporné sešikmení.

13 E - O - EXTREMES: hodnota vzdálená více než tři interkvartilová rozpětí od horního kvartilu OUTLIERS: hodnota vzdálená více než 1.5 interkvartilového rozpětí od horního kvartilu nejvyšší hodnota výběru, která je menší nebo rovna součtu hodnoty horního kvartilu a 1.5 násobku interkvartilového rozpětí HORNÍ KVARTIL (Tukey's hinges) interkvartilové rozpětí MEDIÁN (hodnoty 50% případů) jsou uvnitř boxu DOLNÍ KVARTIL (Tukey's hinges) nejnižší hodnota výběru, která je větší nebo rovna rozdílu hodnoty dolního kvartilu a 1.5 násobku interkvartilového rozpětí O - E - OUTLIERS: hodnota vzdálená více než 1.5 interkvartilového rozpětí od dolního kvartilu EXTREMES: hodnota vzdálená více než tři interkvartilová rozpětí od dolního kvartilu

BOXPLOT je zvláště užitečný pro porovnávání hodnot v několika skupinách. 14 factor levels together 40000 Výše přijatelné mzdy v Kč (bez 0) 20000 0 721 82 571 105 723 574 671 414 529 1214 561 395 594 1211 1310 1307 437 795 796 84 535 583 835 60 83 85 834 457 390 1230 998 286 1229 461 1039 825 102 132 409 483 472 880 139 1242 391 377 546 1237 675 50 610 254 379 768 884 991 509 1052 860 211 229 942 242 887 N = 211 212 253 63 základní, nevyucen/a základní, vyucen/a stredoškolské vysokoškolské Nejvyšší dosažené vzdělání dependents together 40000 942 887 242 942 654 20000 721 82 571 723 105 574 671 1214 414 561 529 395 594 395 604 671 1310 795 437 1211 1307 796 84 583 535 60 835 83 132 880 998 102 409 286 472 825 1230 85 1229 390 461 457 1039 834 483 391 1242 377 139 546 50 675 1237 610 835 583 1310 795 437 1307 83 286 Výše přijatelné mzdy 0 860 768 379 254 1052 991 884 509 211 229 N = 211 211 212 212 253 253 63 63 základní, nevyucen/a stredoškolské základní, vyucen/a vysokoškolské Výše reálně očekávané mzdy Nejvyšší dosažené vzdělání

DESCRIPTIVES 15 Tato procedura dává podobné výsledky jako FREQUENCIES či EXPLORE (spíše chudší). Například při volbě v OPTIONS: To, co jsme zadali, dostaneme v následující tabulce: Descriptive Statistics Duvera v lidi Valid N (listwise) Std. N Minimum Maximum Mean Deviation 1869 1 2 1,76,426 1869 To ovšem není výsledek, který by nás velmi zajímal. Zajímají nás však nově vytvořené z-skóre, respektive hodnoty této proměnné u jednotlivých případů. Příkazem save standardized values as variables vytvoříme totiž novou proměnnou nazvanou standardně jménem původní proměnné s předponou z (například vek zvek). V matici je přidán sloupec s touto proměnnou (standardně je) a každému případu je přiřazena pro něj vypočítaná hodnota z-skóre. Tyto hodnoty nám říkají o kolik standardních odchylek a jakým směrem se každý z případů odchyluje od průměru rozložení dané proměnné (v tomto případě věk jednotky od věkového průměru souboru - blíže k tomu v příslušné lekci).