Úvod do statistické metodologie

Podobné dokumenty
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Analýza dat na PC I.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Číselné charakteristiky

Základy popisné statistiky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zápočtová práce STATISTIKA I

Popisná statistika kvantitativní veličiny

Popisná statistika. Komentované řešení pomocí MS Excel

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

, Brno Hanuš Vavrčík Základy statistiky ve vědě

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Popisná statistika. Statistika pro sociology

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Charakteristika datového souboru

Metodologie pro Informační studia a knihovnictví 2

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistika pro geografy

Tabulka 1. Výběr z datové tabulky

Korelace. Komentované řešení pomocí MS Excel

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Vzorová prezentace do předmětu Statistika

Základy pravděpodobnosti a statistiky. Popisná statistika

Metodologie pro Informační studia a knihovnictví 2

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Příprava dat a) Kontrola dat

Kontingenční tabulky v Excelu. Představení programu Statistica

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Pojem a úkoly statistiky

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Mnohorozměrná statistická data

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Metodologie pro ISK II

Třídění statistických dat

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

INDUKTIVNÍ STATISTIKA

Základy popisné statistiky

TECHNICKÁ UNIVERZITA V LIBERCI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tomáš Karel LS 2012/2013

Návod na vypracování semestrálního projektu

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Deskriptivní statistika (kategorizované proměnné)

Aplikovaná statistika v R

KORELACE. Komentované řešení pomocí programu Statistica

Základy biostatistiky

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Tomáš Karel LS 2012/2013

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Mnohorozměrná statistická data

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Návrh a vyhodnocení experimentu

Porovnání dvou výběrů

23. Matematická statistika

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Jana Vránová, 3. lékařská fakulta UK

Praktická statistika. Petr Ponížil Eva Kutálková

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Informační technologie a statistika 1

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Škály podle informace v datech:

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5EN306 Aplikované kvantitativní metody I

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Statistické metody uţívané při ověřování platnosti hypotéz


Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4. Zpracování číselných dat

KGG/STG Statistika pro geografy

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Transkript:

Přenos jakékoli části této prezentace mimo účastníky semináře je zakázán bez písemné dohody se StatSoft CR s.r.o. (Dell Software Group). Úvod do statistické metodologie 1. lékařská fakulta Univerzity Karlovy ING. MILOŠ ULDRICH StatSoft CR Dell Dell Software Group (DSG) Dell Information Management Group, Dell Software

Zásady pro ukládání dat 2

Jak ukládat data Nejvhodnějším způsobem je uložení dat ve formě tabulky: Každý sloupec obsahuje pouze jednu proměnnou Každý řádek obsahuje unikátní jednotku dat (např. pacient, vzorek z lab., zaměstnanec nemoc nice) Kombinovat číselné a textové hodnoty v jednom sloupci je nepřípustné Komentáře jsou vždy uloženy v samostatných sloupcích s poznámkou U kategorií (textových dat) nezbytné kontrolovat překlepy v názvech kategorií Pro základní čištění dat menšího rozsahu je možné využít: - MS Office (Excel) - Program Dell Statistica (i pro čištění a úpravu rozsáhlých dat) Dostupný pro zaměstnance a studenty 1.lf 3

Jak ukládat data Každý řádek obsahuje unikátní jednotku dat (např. pacient, vzorek z lab., zaměstnanec nemoc nice) Kombinovat číselné a textové hodnoty v jednom sloupci je nepřípustné Komentáře jsou vždy uloženy v samostatných sloupcích s poznámkou U kategorií (textových dat) nezbytné kontrolovat překlepy v názvech kategorií 4

1. Úvod a základní pojmy

K čemu statistika? Statistika je vědou, která se zabývá variabilitou

Vzorek VS & Populace - ZS Jednotlivci Populace

Vzorek Vzorek Vzorek by měl být: o náhodný o reprezentativní vůči populaci ZS VS Několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci. Struktura výběru by měla spolehlivě reflektovat realitu. Nejsme schopni činit závěry o jevech, které v našem vzorku nejsou

Vzorek Typický zástupce populace?

Vzorek Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí

Jak data analyzujeme? 11

Analýza dat Explorační analýza dat (Exploratory data analysis, EDA) je souhrn metod používaných pro průzkum dat a hledání hypotéz. K analýze dat použijeme vhodné softwarové vybavení analytické softwary mají implementované analytické metody a grafy pro vyhodnocení dat Dostupný pro zaměstnance a studenty 1.LF UK 12

Analýza dat Správce multilicence na 1. LF UK: Návod na instalaci: http://www.statsoft.cz/file1/pdf/manualy/dell_statistica_desktop_dbr.pdf Základní manuál pro zorientování (načtení dat, tvorba tabulky, grafu, uložení výsledku apod.) http://www.statsoft.cz/file1/pdf/strucnymanualstatistica.pdf Základní manuál pro vyhodnocení dotazníkových šetření http://www.statsoft.cz/file1/pdf/manualy/zakladni_vyhodnoceni_kvalit_znaku.pdf Vzdělávací a návodné články http://www.statsoft.cz/o-firme/archiv-newsletteru/vzdelavaci-clanky-statsoft-academy/ 13

Schéma výzkumu Plánování (cíl a účel) Návrh projektu Provedení Statistika Zpracování (příprava) dat Statistická analýza Interpretace výsledků Závěr (publikace, realizace...)

Datový soubor: Statistická jednotka & statistický znak

Měřítka

Měřítka Zařazení znaku k určitému měřítku může záviset na účelu šetření. Rozlište znak Kraj?

Předpoklady o datech Nejsou-li splněny základní předpoklady: Nezávislost Normalita Nepřítomnost vybočujících pozorování: (překlepy, kombinace text. a numerických) Vyšší rozptyly Přesnost odhadů Asymetrie -> Nenormalita Široké meze Potom výpočty typu: Průměr Interval spolehlivosti Většina testů hypotéz Regresní modely mohou být zkreslené a napadnutelné.

Krabicový graf Box Plot Na krabicovém grafu detekujeme odlehlé a extrémní hodnoty spojitých veličin Vybočující pozorování (pacient má oproti ostatním velmi vysokou hodnotu sledovaného parametru) může být např. chyba měření, špatný zápis, pacient nepatří do našeho souboru apod. Extrémní pozorování nám zkreslí zejména průměrné hodnoty a testy založené na průměru 19

Popisná (deskriptivní) statistika stručně, výstižně číselně, graficky Data stručně popsat Něco z dat vydolovat, Tvrdit něco o datech, ale POZOR:nezobecňovat!!!!! Příprava dat Data obsahují značný podíl nekvalitních údajů. Kontrola smysluplnosti dat Kontrola všech datových vlastností a vztahů při přebírání dat pro analýzu a při přípravě souboru Úprava souboru Překódování hodnot Podmnožiny atd.

Popisná statistika Cíl: popsat konkrétní data stručně, výstižně číselně, graficky Když úkolem není pouze popsat zkušební vzorek, ale udělat závěry týkající se celé výroby = Statistická indukce

Číselný popis Kvalitativní veličiny četnosti jednotlivých hodnot (kategorií) četnost absolutní zjišťujeme kolikrát v souboru se vyskytuje daná obměna zkoumaného znaku Četnost relativní zjišťujeme, jak velkou část souboru (vyjádřeno ve zlomcích nebo procentech) tvoří daná obměna zkoumaného znaku Kumulativní absolutní četnosti Kumulativní relativní četnosti Modus nejčastější hodnota

Základní přístup k kategoriálním datům Četnosti jednotlivých hodnot (kategorií): četnost absolutní zjišťujeme kolikrát v souboru se vyskytuje daná obměna zkoumaného znaku četnost relativní zjišťujeme, jak velkou část souboru (vyjádřeno v procentech) tvoří daná obměna zkoumaného znaku Modus nejčastější hodnota

Základní přístup k číselným proměnným Míry polohy charakterizují umístění dat průměr, medián, minimum, maximum... Do charakteristik polohy patří veličiny, s jejichž pomocí odhadujeme vhodnou střední hodnotu souboru: Průměr, medián Průměr, medián (míry centrální tendence) - by měly charakterizovat typickou hodnotu pro daný datový soubor. Míry variability Informují nás o rozptýlení hodnot souboru (charakterizují odlišnost dat) směrodatná odchylka Sn

Průměrné ceny bytu: chceme investovat do koupy bytu od 1 625 000 do 1 875 000 Kč ceny bytových jednotek: 1 625 000 1 750 000 1 700 000 6 875 000 1 500 000 x 2690000 Kc Je tých 2690000 Kč reprezentativní (typická) hodnota? Vhodnější je použít jinou střední hodnotu, např. medián. 1 500 000 1 625 000 1 700 000 1 750 000 6 875 000 ~ 1700000 x

Průměr: Použití měr centrální tendence Rozdělení dat je symetrické (nemá odchylky od normality) Nepoužíváme pro kategoriální data Medián a průměr jsou blízko sebe Medián: Data jsou min. v ordinálním měřítku nominální, které lze uspořádat (vzdělání) Použijeme když data mohou obsahovat odlehlé nebo extrémní hodnoty Rozložení dat je zešikmené Chceme znát střed rozdělení

Kvantily n% kvantil dělí soubor uspořádaný podle velikosti na prvních n% hodnot a zbývajících (100-n)% medián = 50% kvantil dolní kvartil Q 1 = hodnota taková, že čtvrtina hodnot v datech je menších a tři čtvrtiny jsou větší -25% kvantil horní kvartil Q 3 = hodnota taková, že tři čtvrtiny hodnot v datech jsou menšíh a čtvrtina je větší- 75% kvantil Decily (obecné kvantily) - statistická hodnota, která je získána členěním všech skóre sledovaného vzorku osob na deset stejných částí 10% kvantil = 1.decil 90% kvantil = 9.decil - srovnání individuálních hodnot v rámci populace - srovnání individuálních hodnot se stanovenými normami (růstové křivky u dětí atd.)

Známky z matematiky: Student 1: 3, 4, 3, 3, 3, 2 Student 2: 2, 5, 3, 2, 4, 2 Průměr & Rozptyl (výběrová) -1 Rozptýlenost hodnot kolem průměrů v původních jednotkách

výběrový (výběrová) Míry variability Informují nás o rozptýlení hodnot souboru -1 Průměrná kvadratická odchylka od aritmetického průměru. Vrací míru rozptýlenosti do měřítka původních dat Rozptýlenost hodnot kolem průměrů -1 Relativní velikost rozptýlenosti dat vzhledem k průměru. Variabilitu dat jednoho parametru měřeného v různých dávkách V > 50 % je znakem značné nesourodosti souboru. 50% populace (robustní charakteristika variability) Newsletter 15/10/2012

Typy přístupů dle měřítka proměnné 31

Vztah mezi dvěma znaky 1. Vztah mezi dvěma kvalitativními znaky (Kategoriální vs. Kategoriální) Použijeme: Kontingenční tabulka Chí-kvadrát test 3D graf, kategorizovaný sloupcový graf Kouření vs. Vzdělání:

Kategorizované histogramy Vztah mezi dvěma znaky Typické úlohy: souvisí spolu aplikace vakcíny a přežívání laboratorních potkanů po experimentální nákaze? (je vakcína účinná?) H 0 : jevy (vakcinace a přežití) spolu nesouvisí.

Vztah mezi dvěma znaky 2. Vztah mezi dvěma kvantitativními znaky (Spojitá vs. Spojitá) Použijeme: Bodový graf Korelační koeficient Korelační koeficient <-1; 1> Korelační koef. Míra těsnosti závislosti mezi dvěma spojitými náhodnými veličinami (jinak řečeno měření síly závislosti mezi váha a výška apod. )

Korelační koeficient Interpretace Čáp nosí děti Korelace neznamená příčinnost!

a) Bodový graf

b) Korelační koeficient - Jak velká je závislost mezi 2 znaky? Hodnoty korelačního koeficientu v absolutní hodnotě r Do 0,3 - Slabá závislost <0,3 až 0,8) Střední závislost Nad 0,8 Silná závislost Hodnota korelačního koeficientu je červená korelace je významná, s hodnotou korelace 0,48 můžeme pracovat (interpretovat ji)

Podrobnější pohled na sílu závislosti v přírodních vědách: Pro případné využití v DP (pro zk test stačí základní rozdělení na předchozím snímku)

Vztah mezi 2 znaky - shrnutí metody data miningu Vícerozměrné metody 39

Statistická indukce Jedná se o soubor metod navržených pro situace, kdy nemáme k dispozici kompletní informace o všech zkoumaných jednotkách (pacientech, výrobcích, rostlinách ). Známe pouze údaje za určitou podskupinu (náhodný výběr). Metody statistické indukce nám pak umožňují odpovědět na otázku: Jestliže mám takováto výběrová data co mohu říci o celém souboru?. Informace o VS tedy zobecňujeme na ZS (Základní soubor) Takový postup je vždy spojen s rizikem, že to, co platilo u části, nemusí platit u celku. Proto se jsou závěry vždy formulovány pouze v termínech pravděpodobnosti: 95%, 99% atd.

Testování hypotéz Testováním hypotéz chápeme vyhodnocování pravdivostní hodnoty výroků na základě náhodného výběru. Pomocí testování hypotéz můžeme například odpovědět na tyto otázky: Liší se aktuální preference spotřebitelů dle věkových skupin/pohlaví? Existují specifické charakteristiky zákazníků jednotlivých mobilních operátorů, které umožňují rozlišit zákazníky různých operátorů? Liší se vitalita stromů napadených a nenapadených kůrovcem? Existuje rozdíl v tržbách mezi jednotlivými kraji? Mají studenti žijící v Praze méně sourozenců než ostatní studenti? Je chirurgická léčba (Parkinsonovy choroby) lepší (úspěšnější) než léčba medikamentózní? Je nový lék účinnější než starý? Má méně vedlejších účinků? 42

Je nutné zformulovat dvě hypotézy: nulovou hypotézu H 0 (obvykle opakem toho, co chceme výzkumem prokázat, když zahajujeme studii a začínáme sbírat data) alternativní hypotézu H 1 (přesně vymezuje, do jaké situace se dostáváme, když nulová hypotéza neplatí) Nulová hypotéza H 0 vyjadřuje nějakou rovnost, shodu... např. IQ chlapců a děvčat je stejné Alternativní hypotéza Ha to, co chceme prokázat např. IQ chlapců je vyšší (nebo jiné) než IQ dívek

P-hodnota Statistický software vrací tzv. p-hodnota P hodnota - dosažená hladina testu H0: Názor sester na další vzdělávání se dle věkových skupin neliší? Ha: Názor sester na další vzdělávání se dle věkových skupin od sebe významně liší? P < 0,05 = zamítáme nulovou hypotézu, test je statisticky významný. Prokázali jsem alternativní hypotézu (tvrzení lze zobecnit na ZS (Populaci) P > 0,05 = nezamítáme nulovou hypotézu, test je statisticky nevýznamný. Na konkrétním experimentálním vzorku se nám naše tvrzení nepodařilo prokázat. Pozor: nezamítnutí Ha není prokázání H0!!!

Nyní součást Dell Dell Software Group (DSG) Děkuji za pozornost. e_milos.uldrich@software.dell.com