Analýza dat na PC I.

Podobné dokumenty
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Kontingenční tabulky v Excelu. Představení programu Statistica

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

pravděpodobnosti, popisné statistiky

Číselné charakteristiky

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Statistika pro geografy

Popisná statistika. Statistika pro sociology

Metodologie pro ISK II

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zápočtová práce STATISTIKA I


Popisná statistika kvantitativní veličiny

Základy pravděpodobnosti a statistiky. Popisná statistika

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

pravděpodobnosti, popisné statistiky

Aplikovaná statistika v R

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Charakteristika datového souboru

Praktická statistika. Petr Ponížil Eva Kutálková

Základy popisné statistiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Náhodná veličina a rozdělení pravděpodobnosti

Metodologie pro Informační studia a knihovnictví 2

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Mnohorozměrná statistická data

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Porovnání dvou výběrů

Popisná statistika. Komentované řešení pomocí MS Excel

Třídění statistických dat

Metodologie pro Informační studia a knihovnictví 2

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Renáta Bednárová STATISTIKA PRO EKONOMY

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Tomáš Karel LS 2012/2013

Mnohorozměrná statistická data

Simulace. Simulace dat. Parametry

Číselné charakteristiky a jejich výpočet

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Pojem a úkoly statistiky

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy teorie pravděpodobnosti

Deskriptivní statistika (kategorizované proměnné)

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Základy biostatistiky

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Základní statistické charakteristiky

Náhodné (statistické) chyby přímých měření

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Škály podle informace v datech:

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Charakterizace rozdělení

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

STATISTICKÉ CHARAKTERISTIKY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Nejčastější chyby v explorační analýze

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

KGG/STG Statistika pro geografy

Jevy a náhodná veličina

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Příloha podrobný výklad vybraných pojmů

MATEMATIKA III V PŘÍKLADECH

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Statistika I (KMI/PSTAT)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Minimální hodnota. Tabulka 11

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Transkript:

CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka

Základní popisná statistika Popisná statistika Frekvenční tabulky, analýza kontingenčních tabulek

Typy proměnných Kvalitativní/kategorická binární - ano/ne nominální - A,B,C několik kategorií ordinální - 1<2<3 několik kategorií a můžeme se ptát, která je větší Kvantitativní nespojitá čísla, která však nemohou nabývat všech hodnot (např. počet porodů) spojitá teoreticky jsou možné všechny hodnoty (např. krevní tlak)

Řada dat a její vlastnosti

Frekvenční rozložení Kategorie Četnost B 5 C 8 Kvalitativní data Tabulka s četností jednotlivých kategorií. D 1 Kvantitativní data Četnost hodnot rozložení v jednotlivých intervalech.

Parametry rozložení Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: Středu (medián, průměr, geometrický průměr) Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) Tvaru rozložení (skewness, kurtosis) Kvantily rozložení kolik % řady dat leží nad a pod kvantilem ϕ(x) Průměr Medián x

Populace a vzorek Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení

Ukazatele středu rozložení I Průměr vhodný ukazatel středu u normálního/symetrického rozložení, kde x i jsou jednotlivé hodnoty a n jejich počet E( x) = x = n i= 1 x i n Medián jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné ϕ(x) ϕ(x) Průměr Medián x Medián Průměr x

Ukazatele středu rozložení II. Geometrický průměr antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení log Průměr Medián, geometrický průměr Průměr (logaritmovaných dat)

Ukazatele šířky rozložení Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2 (x ) 2 i x s = n -1 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení Směrodatná odchylka je druhá odmocnina z rozptylu Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení ukazatel problémů s normalitou dat

Ukazatele tvaru rozložení Skewness ukazatel šikmosti rozložení, asymetrie rozložení Kurtosis ukazatel špičatosti/plochosti rozložení

Další parametry rozložení Počet hodnot důležitý ukazatel, znamená jak moc lze na data spoléhat Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. Suma hodnot Modus nejčastější hodnota, vhodný např. při kategoriálních datech Minimum, maximum Rozsah hodnot Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr)

Distribuční funkce Definice kvantilu dle distribuční funkce - Kvantil rozložení (X 0,95 ) je číslo, jehož hodnota distribuční funkce je rovna pravděpodobnosti, pro kterou je kvantil definován (Φ(x) distribuční funkce), tj. pokud vezmeme nějaký bod rozložení a porovnáme jej s tímto bodem (kvantilem), máme 95% pravděpodobnost, že bude menší než hodnota kvantilu (X 0,95 ). Pomocí distribuční funkce můžeme určit jaký podíl hodnot rozložení je menší než daná hodnota využití při statistických testech

Základní popisná statistika Výběr proměnných Základní výstup Tabulka četností hodnot Výběr dat Box and whisker plot (následuje nastavení zobrazených parametrů) Histogram Zpracování chybějících hodnot

Popisné grafy I. Histogram a graf četnosti Tyto grafy se používají k zobrazení podílu výskytu hodnot v určitém intervalu proměnné. Oba grafy se liší způsobem zobrazení poměrů, zatímco sloupcový graf četností vynáší jako výšku sloupce přímo počet hodnot, u histogramu je důležitá plocha sloupce (počet hodnot zde odpovídá ploše a ne výšce sloupce), která vyjadřuje podíl objektů v daném intervalu, výška sloupce histogramu se získá jako podíl plochy (tj. počtu objektů) a šířky intervalu. V případě stejných šířek intervalů vypadají oba typy grafů stejně, liší se v případě nestejných intervalů (sloupce histogramu jsou u širších intervalů nižší plocha sloupce odpovídá počtu objektů). Sloupce tedy odráží četnost objektů v daném intervalu, kterou vyjadřují buď svou výškou nebo plochou. Histogramy mohou existovat v několika formách 1) histogram relativních a absolutních četností a 2) histogram normální a kumulativní. -5 5 15 25 35 45 55 65 75

Tvorba grafů Jako součást analýzy Lišta grafů Samostatné menu grafů Graphs of block and input data

Tvorba histogramu/grafu četnosti Způsob zobrazení více proměnných Proložení normálního rozložení Nastavení intervalů grafu: Na základě celých čísel v datech Počet intervalů Podle kódů Galerie všech grafů Výběr dat Vážení dat Možnosti nastavení

Pokročilá tvorba histogramu/grafu četnosti Kategorizace grafu Proložení různých rozložení Způsob zobrazení více proměnných Způsob zobrazení Kategorizace celá čísla v datech počet kategorií hranice kódy výběr dat Zobrazení hodnot na ose Y Testy normality a popisná statistika

Nastavení společná různým typům grafů I Popisky grafu Zobrazení popisek dat Překreslení existujícího grafu Transformace os

Nastavení společná různým typům grafů II Normální (karteziánský) nebo polární systém Pozice os Zobrazení regresní funkce, nastavení polynomu pro proložení, základ logaritmu Zobrazit postup výpočtu Výběr z dat Přidání upraveného grafu do menu

Ne - Histogram 28 Histogram (Spreadsheet3 10v*70c) Var6 = 70*0,5*normal(x; 0,0797; 0,5345) 26 24 22 20 18 No of obs 16 14 12 10 8 6 4 2 0 Var6: SW-W -2,0= 0,976932176, -1,5 p -1,0 = 0,2229; -0,5 N = 70, Mean 0,0= 0,0796879869, 0,5 StdDv 1,0 = 0,534475089, 1,5 2,0 Max = 1,61164956, Min = -1,37087384 Var6

Box & whisker plot Typ grafu vynášející několik význačných bodů rozložení, např. medián, kvartily a rozsah hodnot Poskytuje grafický přehled popisných statistik Rychlé srovnání několika souborů dat Umožňuje orientačně posoudit normalitu dat

Box and whisker plot Způsob zobrazení box and whisker plotu Datová a kategorizační proměnná Kategorizace hodnot do jednotlivých grafů Preview grafu Ukazatel středu

Typ grafu Kategorizace hodnot do jednotlivých grafů Box & whisker plot II Datová a kategorizační proměnná Které statistiky budou zobrazeny Proložení křivky Statistické testy Středová hodnota Spojení středů

Detailní popisná statistika Percentily, rozsahy Ukazatele středu rozložení a počet hodnot Tvar rozložení (šířka, asymetrie atd.) Uložení nastavení Zrušení výběru statistik Vybrání všech statistik

Normalita dat Histogram Frekvenční tabulky Nastavení histogramu Testy normality 3D histogram Srovnání rozložení Kategorizovaný histogram Steam and leaf plot

Popisné grafy Grafy vynášející proti sobě různým způsobem proměnné Grafy normality

Kategorizované grafy Kategorizované grafy proměnné jsou rozloženy na skupiny dané kategorizační proměnnou (např. proměnná obsahující výšku postavy může být rozdělena podle pohlaví jinou proměnnou obsahující informaci o pohlaví jednotlivých osob (řádků první proměnné)

Nastavení popisné statistiky Obecná nastavení Nastavení zobrazení box & whisker plotu