Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Podobné dokumenty
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Popisná statistika. Statistika pro sociology

Analýza dat na PC I.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika pro geografy

Základy pravděpodobnosti a statistiky. Popisná statistika


Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Nejčastější chyby v explorační analýze

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

23. Matematická statistika

Zápočtová práce STATISTIKA I

Číselné charakteristiky

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Základy popisné statistiky

Renáta Bednárová STATISTIKA PRO EKONOMY

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Mnohorozměrná statistická data

Základy biostatistiky

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Kontingenční tabulky v Excelu. Představení programu Statistica

Metodologie pro ISK II

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Průzkumová analýza dat

Náhodná veličina a rozdělení pravděpodobnosti

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Přednáška 5. Výběrová šetření, Exploratorní analýza

Pojem a úkoly statistiky

Aplikovaná statistika v R

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Popisná statistika. Komentované řešení pomocí MS Excel

Charakteristika datového souboru

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Mnohorozměrná statistická data

Popisná statistika kvantitativní veličiny

Základní statistické pojmy

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Třídění statistických dat

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Základní statistické charakteristiky

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Statistika v současnosti

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Základy popisné statistiky

Tabulka 1. Výběr z datové tabulky

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Škály podle informace v datech:

Úvod do statistické metodologie

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

MÁME DATA A CO DÁL? Martina Litschmannová

Praktická statistika. Petr Ponížil Eva Kutálková

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Informační technologie a statistika 1

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Tomáš Karel LS 2012/2013

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Statistika pro gymnázia

Návrh a vyhodnocení experimentu

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

MATEMATIKA III V PŘÍKLADECH

Deskriptivní statistika (kategorizované proměnné)

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Design of Experiment (DOE) Petr Misák. Brno 2017

Chyby měření 210DPSM

Jevy a náhodná veličina

Transkript:

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz

Statistika věda o získávání znalostí z empirických dat empirická data (získaná měřením, pozorováním) představují primární zdroj informace o zkoumaném jevu lze rozlišit statistiku matematickou a popisnou

Matematická statistika teoretická disciplína, opírá se o aparát teorie pravděpodobnosti (data jako realizace náhodných veličin) návrh metod pro získávání a analýzu dat odhady parametrů rozdělení testy hypotéz plánování experimentů predikce...

Popisná statistika stručná charakteristika základních vlastností datového souboru využívá: číselné charakteristiky tabulky grafy

Základní pojmy Populace množina sledovaných prvků (např. všichni státní zaměstnanci v ČR) Statistické jednotky - prvky populace Statistické znaky, proměnné, veličiny sledované kvantitativní údaje (např. výše příjmu) Statistické zjišťování proces získávání dat šetření (vyčerpávající / výběrové) pokus

Výběrové šetření výběr by měl být reprezentativní odrážet vlastnosti celé populace náhodný výběr každá statistická jednotka má stejnou šanci dostat se do výběru prostý, systematický, skupinový, nenáhodný výběr anketa (samovýběr, rozhodnutí respondenta), nelze definovat populaci záměrný výběr

Typy proměnných proměnná kvalitativní (kategoriální, slovní) kvantitativní (číselná) nominální (nelze uspořádat, např. barva) ordinální (lze uspořádat, např. míra spokojenosti) diskrétní (např. počet dětí ) spojitá (např. tlak) Od typu proměnné se odvíjí způsob zpracování dat a prezentace výsledků.

EDA pro kategoriální nominální veličinu Způsoby prezentace: tabulka rozdělení četnosti pro malý počet hodnot, číselná charakteristika modus (nejčastější hodnota) graf sloupcový, koláčový

Tabulka rozdělení četnosti Tabulka rozdělení četnosti varianta absolutní četnosti relativní četnosti A n 1 n 1 / n B n 2 n 2 / n C n 3 n 3 / n D n 4 n 4 / n celkem n 1 +n 2 +n 3 +n 4 = n 1

Grafické znázornění Sloupcový graf pozor na vhodnou volbu výchozí hodnoty (zpravidla 0) názvy, popisky atd. stručné ale srozumitelné 400 350 300 250 200 150 Chrome Safari IE Firefox Ostatní 100 50 0 Počet návštěv webu dle prohlížečů

Grafické znázornění Výsečový (koláčový) graf vždy uvádět i absolutní četnosti 185, 21% 42, 5% názvy, popisky atd. stručné ale srozumitelné 89, 10% 356, 40% Chrome Safari IE Firefox Ostatní pouze pro menší počet hodnot 212, 24%

EDA pro kategoriální ordinální veličinu Způsoby prezentace: tabulka rozdělení četnosti hodnoty seřazeny modus (nejčastější hodnota) graf sloupcový, koláčový

Tabulka rozdělení četnosti Tabulka rozdělení četnosti varianta absolutní četnosti relativní četnosti kumulativní četnosti kumul. rel. četnosti A n 1 n 1 / n = p 1 n 1 p 1 B n 2 n 2 / n = p 2 n 1 +n 2 p 1 +p 2 C n 3 n 3 / n = p 3 n 1 +n 2 +n 3 p 1 +p 2 +p 3 D n 4 n 4 / n = p 4 n 1 +n 2 +n 3 +n 4 p 1 +p 2 +p 3 +p 4 celkem n 1 +n 2 +n 3 +n 4 = n 1 Varianty A, B, C, jsou seřazeny (podle velikosti apod.).

EDA pro numerické veličiny Číselné charakteristiky: míry polohy míry variability

Míry polohy aritmetický průměr harmonický průměr (např. pro rychlosti) geometrický průměr (např. tempo změny) citlivé na odlehlá pozorování

Míry polohy výběrový p-kvantil Rozděluje seřazená data na části, jejichž velikosti jsou v poměru p : 1-p. Kvartily dolní kvartil medián horní kvartil Decily,,... Percentily,,...

Stanovení výběrového kvantilu Data uspořádáme podle velikosti od nejmenší hodnoty po největší p-kvantil (100p% kvantil) je hodnota s pořadím np+0.5, kde n je počet dat. Pokud np+0.5 není celé číslo, určíme p-kvantil jako průměr předchozího a následujícího prvku.

Příklad: 0.4-kvantil Ceny benzínu v Kč 36.70 37.20 38.40 36.60 37.50 36.80 Ceny benzínu v Kč 1. 36.60 2. 36.70 3. 36.80 4. 37.20 5. 37.50 6. 38.40 0.4 * 6 = 2.4, 0.4-kvantil je průměrem 2. a 3. hodnoty (36.70 Kč + 36.80 Kč)/2 = 36.75 Kč

Míry variability výběrový rozptyl Rozměr rozptylu odpovídá druhé mocnině rozměru proměnné

Míry variability výběrová směrodatná odchylka Pravidlo 3 sigma pro normální rozdělení platí:

Odlehlá pozorování pozorování, která se výrazně liší od ostatních mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik vždy je potřeba dobře zvážit čím je odlehlé pozorování způsobeno

Odlehlá pozorování (outliers) pozorování, která se výrazně liší od ostatních mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik vždy je potřeba dobře zvážit čím je odlehlé pozorování způsobeno jde-li o zřejmou chybu (překlep, technická závada,...), můžeme pozorování vyloučit v jiných případech bychom se vyloučením mohli připravit o cennou informaci

Identifikace odlehlých pozorování Metoda vnitřních hradeb jestliže pro platí pak je odlehlým pozorováním interkvartilové rozpětí: IQR =

Identifikace odlehlých pozorování Z-souřadnice je-li z > 3, pak je odlehlým pozorováním Automatické metody pro identifikaci odlehlých pozorování pouze vybírají podezřelé hodnoty! Vždy je ale nutné individuální posouzení.

Grafické znázornění numerické proměnné Histogram zobrazuje (relativní) četnosti výskytu pozorování v předem zvolených intervalech stejné délky Box plot (krabicový graf) znázorňuje meze vnitřních hradeb, kvartily, odlelá pozorování