Příprava dat a) Kontrola dat

Podobné dokumenty
Úvod do statistické metodologie

Dell Statistica - Řízení rizik ve výrobě webinář ( )

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistická analýza jednorozměrných dat

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Úvodem Dříve les než stromy 3 Operace s maticemi

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

INDUKTIVNÍ STATISTIKA

KGG/STG Statistika pro geografy

KORELACE. Komentované řešení pomocí programu Statistica

6. Lineární regresní modely

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Korelační a regresní analýza

Testování hypotéz a měření asociace mezi proměnnými

Příprava dat v softwaru Statistica

Analýza dat na PC I.

Popisná statistika kvantitativní veličiny

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Tomáš Karel LS 2012/2013

Kontingenční tabulky, korelační koeficienty

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

StatSoft Jak poznat vliv faktorů vizuálně

Měření závislosti statistických dat

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Návod na vypracování semestrálního projektu

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Pearsonův korelační koeficient

Regresní a korelační analýza

Kontingenční tabulky, korelační koeficienty

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Korelace. Komentované řešení pomocí MS Excel

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Porovnání dvou výběrů

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Testy nezávislosti kardinálních veličin

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Regresní a korelační analýza

Cvičení 12: Binární logistická regrese

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

TECHNICKÁ UNIVERZITA V LIBERCI

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pravděpodobnost a matematická statistika

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Národníinformačnístředisko pro podporu jakosti

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Lineární regrese. Komentované řešení pomocí MS Excel

pravděpodobnosti, popisné statistiky

PRAVDĚPODOBNOST A STATISTIKA

VŠB Technická univerzita Ostrava

10. Předpovídání - aplikace regresní úlohy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pokročilé neparametrické metody. Klára Kubošová

Plánování experimentu

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

S E M E S T R Á L N Í

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Mnohorozměrná statistická data

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Regresní analýza. Eva Jarošová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Transkript:

Příprava dat a) Kontrola dat

2 Sběr data?

Příprava dat Předpoklady o datech Software obsahuje nástroje pro: Detekci chybějících dat a dat mimo stanovených rozsah Detekci odlehlých a extrémních hodnot Překodování a tvorbu nových proměnných Úpravu řádků a sloupců tabulky Zpracování chybějících dat/duplicitních případů Funkce (matematické, statistické, operátory a mnoho dalších) pro tvorbu nových proměnných a získání dalších informací z proměnných stávajících 3

Příprava dat Předpoklady o datech Nejsou-li splněny základní předpoklady: Nezávislost Normalita Nepřítomnost vybočujících pozorování: (překlepy, kombinace text. a numerických) Vyšší rozptyly Přesnost odhadů Asymetrie -> Nenormalita Široké meze Potom výpočty typu: Průměr Interval spolehlivosti Většina testů hypotéz Regresní modely mohou být zkreslené a napadnutelné. 4

Příprava dat Popisná (deskriptivní) statistika stručně, výstižně číselně, graficky Data stručně popsat Něco z dat vydolovat, Tvrdit něco o datech, ale POZOR:nezobecňovat!!!!! Příprava dat Data obsahují značný podíl nekvalitních údajů. Kontrola smysluplnosti dat Kontrola všech datových vlastností a vztahů při přebírání dat pro analýzu a při přípravě souboru Úprava souboru Překódování hodnot Podmnožiny atd. 5

Příprava dat Detekce chybějících hodnot http://www.statsoft.cz/file1/pdf/newsletter/2013_12_18_statsoft_zpracovani_chybejicich_dat_a_dat_mimo_rozsah.pdf 6

Příprava dat Detekce odlehlých hodnot 7

Předpoklady o datech

9 Ověření normality

Vizuální ověření normality 10

Vizuální ověření normality Jak se pozná normalita pomocí grafů? http://www.statsoft.cz/file1/pdf/newsletter/2013_10_09_statsoft_jak_se_pozna_nor malita_pomoci_grafu.pdf 11

Ověření normality testem H0: data pochází z normálního rozdělení H1: data nepochází z normálního rozdělení průměrné hodnoty nejsou reprezentativní Testy: Shapiro-Wilkův test Kolmogorov-Smirnovův, Lillieforsův test Poznámka: - nemá smysl používat při příliš velkém množství dat (test pak zamítá normalitu i pro nepatrné a většinou nepodstatné odchylky) - mnohé metody předpokládající normalitu pracují při dostatečném množství dat 12

Ověření normality testem Vizuální ověření normality: histogram + srovnání s hustotou normálního rozdělení normální pravděpodobnostní graf (Q-Q graf) Početně: Pro malé soubory: Shapiro-Wilk test Pro n>30: Kolmogorov-Smirnov test 13

Ověření normality testem Vizuální ověření normality: histogram + srovnání s hustotou normálního rozdělení normální pravděpodobnostní graf (Q-Q graf) 14

Hledání vhodného rozdělení Předpoklady o datech Software automaticky určí rozdělení dat Weibull je zde jako nejvhodnější distribuce. Nejsou identifikovány významné odchylky 15

Příprava dat b) Tvorba nových proměnných

Tvorba nových proměnných překódování Construct data Překódujeme číselné nezávislé proměnné a vytvoříme novou kategoriální proměnnou: 17

Tvorba nových proměnných překódování Construct data Z původně korelační úlohy mám nyní úlohu pro ANOVU 18

Tvorba nových proměnných překódování Construct data Překódujeme číselné nezávislé proměnné a vytvoříme novou kategoriální proměnnou: 19

Tvorba nových proměnných Construct data Pokud chceme vytvářet základní výstupy v rámci popisné statistiky, neobejdeme se bez nových proměnných Porovnejme objem prodeje v jednotlivých měsících, týdnech apod. 20

Tvorba nových proměnných Construct data V záložce Data Transformace dialog nám umožní v jenom kroku definovat všechny funkce pro vytvoření nových proměnných Krok za krokem v článku zde: http://www.statsoft.cz/file1/pdf/newsletter/2014_06_26_statsoft_zakladni_%20zpracovani_obchodnich_dat.pdf 21

Tvorba nových proměnných Construct data V záložce Data Transformace dialog nám umožní v jenom kroku definovat všechny funkce pro vytvoření nových proměnných 22

Tvorba nových proměnných Construct data Vhodné funkce pro proměnnou datum: Date variable: months=dtmonth(v1) year=dtyear(v1) day of the months=dtday(v1) day of the week=dtdayofweek(v1;2) V případě, že máme v proměnné datum také informace o čase, tak lze využít: Hour=DTHour(V1) minute=dtminute(v1) 23

Sloučení dat - ETL Construct data 24

Příklad sloučení dat z různých zdrojů Statistica Workspace 25 http://www.statsoft.com/products/statistica/pi-connector

Příprava dat pro analýzu Construct data 26

Příprava dat c) Určení vlivných proměnných

Feature Selection and Variable Screening (FSL) The methods implemented in the Feature Selection and Variable Screening (FSL) module are specifically designed to handle extremely large sets of continuous and/or categorical predictors, for regression or classification-type problems. You can select a subset of predictors from a large list of candidate predictors without assuming that the relationships between the predictors and the dependent or outcome variables of interest are linear, or even monotone. Therefore, this module can serve as an ideal pre-processor for predictive data mining, to select manageable sets of predictors that are likely related to the dependent (outcome) variables of interest, for further analyses with any of the other methods for regression and classification available in Statistica. 28

Feature Selection and Variable Screening (FSL) Select predictors from a large list of candidates depend on business objectives. Best predictors for categorical dependent var: Credit Rating Best continuous predictors: 3 6 14 Best categorical predictors: 2 4 7 5 13 16 8 χ² test (or chi-squared test) 29

Feature Selection and Variable Screening (FSL) Select predictors from a large list of candidates depend on business objectives. 30

Feature Selection and Variable Screening (FSL) Select predictors from a large list of candidates depend on business objectives. 31

Feature Selection and Variable Screening (FSL) Select predictors from a large list of candidates depend on business objectives. 32

Vyhodnocení spolehlivosti a poruchovosti

Statistické vyhodnocení spolehlivosti a poruchovosti Statistické vyhodnocení spolehlivosti obvykle zahrnuje: Kontrola kvality dat / Čištění dat / Zpracování odlehlých hodnot Išikavovy diagramy Transformace dat / volba klíčových proměnných Weibullovo rozdělelní / Cenzorovaná data Metody analýzy přežití (Coxův model, Kaplan Meierova metoda, porovnání dvou a více vzorků) Řízení jakosti (EWMA, CUSUM, Vícerozměrné diagramy) Aplikace data miningových metod - Modelování a predikce spolehlivosti výběr proměnných, výstavba modelu Asociační pravidla Rozhodovací stromy, Neuronové sítě Feature selection 34

Statistické vyhodnocení spolehlivosti a poruchovosti Aplikace data miningových metod posloupnost rozhodnutí: - predikce selhání - klasifikační strom ukazuje 35

Analýza dat Základní přístupy

Vztah dvou a více proměnných Různé typy kategorizovaných grafů 37

Vztah dvou a více proměnných vs. vs. vs. 38

Vztah dvou a více proměnných vs. 39

Korelace Korelace popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků (kvantitativní - měřené znaky). Posuzovat ji budeme vhodnou mírou těsnosti statistické závislosti korelačním koeficientem. Slovo korelace v základním (obecném) slova smyslu označuje míru stupně asociace dvou proměnných. Nejpoužívanější číselnou charakteristikou statistické závislosti dvou kvantitativních znaků je Pearsonův korelační koeficient. V softwaru Statistica jej nalezneme v záložce Statistiky->Základní statistiky->korelační matice. 40

Pearsonův korelační koeficient Bezrozměrná míra lineární korelace Nabývá hodnoty mezi 0 a 1 pro kladnou (pozitivní) korelaci. Mezi 0 a -1 pro zápornou (negativní) korelaci. Mezi posuzovanými veličinami není žádný lineární vztah pokud se hodnota koeficientu blíží k nule (nebo tento vztah zůstal na základě experimentálních dat, které máme k dispozici, neprokázán). Lineární vztah mezi dvěma kvantitativními znaky <-1; 1> 41

Spearmanův korelační koeficient Spearmanův pořadový korelační koeficient - neparametrická míra statistické závislosti dvou proměnných. Neparametrický korelační koeficient, vycházející nikoli z hodnot, ale z jejich pořadí. Závislost mezi umístěním sportovce ve výkonnostním žebříčku a stupněm jeho oblíbenosti v kolektivu Spearmanův koeficient kvantifikuje monotónní vztahy, obecně rostoucí nebo klesající, nikoli pouze lineární jako Pearsonův koeficient. Hodnoty má také mezi -1 a 1. Spearmanův koeficient pořadové korelace nalezneme v softwaru Statistica v záložce: Statistiky->Neparametrické statistiky ->Korelace K dispozici jsou ještě koeficient Gama a Kendallovo tau. T Použití: Pro alespoň ordinální veličiny 42

Spearmanův korelační koeficient Spearmanův koeficient kvantifikuje monotónní vztahy, obecně rostoucí nebo klesající, nikoli pouze lineární jako Pearsonův koeficient 43

Možnosti bodových grafů Získání nového úhlu pohledu na data: 44

Možnosti bodových grafů Získání nového úhlu pohledu na data: 45

Vztah dvou a více proměnných vs. 46

Kontingenční tabulka Existuje mezi volbou typu časopisu a vzděláním nějaký vztah? Potřebujeme zjistit, zda existuje souvislost mezi stupněm kouření a pohlavím, nebo mezi vzděláním a stupněm kouření. Otázky jsou položené podobně jako v případě číselných dat v kapitole o korelacích, ale v tomto případě se jedná o kvalitativní znaky, závislost by se vyjadřovala pomocí dalších charakteristik k tomu určených. Tyto koeficienty společně s testy nezávislosti dvou kvantitativních znaků naleznete v Statistiky->Základní statistiky->kontingenční tabulky 47

Vztah dvou a více proměnných vs. 48

Komparativním experiment (ANOVA) - Potřebujeme-li ověřit, zda-li spojitá proměnná (obrat, tržba, provolané minuty) závisí na kategoriální proměnné (oblast, roční období)... (Vícefaktorová ANOVA s interakcemi 49

Děkuji za pozornost Email: milos.uldrich@software.dell.com Informace o kurzech: http://www.statsoft.cz/sluzby/1-kurzy-skoleni/ Newsletter: http://www.statsoft.cz/o-firme/archiv-newsletteru/