Kontingenční tabulky. (Analýza kategoriálních dat)

Podobné dokumenty
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Jana Vránová, 3. lékařská fakulta UK

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Úvodem Dříve les než stromy 3 Operace s maticemi

Základy biostatistiky (MD710P09) ak. rok 2008/2009

Základy biostatistiky (MD710P09) ak. rok 2007/2008

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Přednáška X. Testování hypotéz o kvantitativních proměnných

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Asociační i jiná. Pravidla. (Ch )

Počet pravděpodobnosti

Pravděpodobnost a aplikovaná statistika

Kontingenční tabulky, korelační koeficienty

Příklad: Test nezávislosti kategoriálních znaků

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Fisherův exaktní test

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

12. cvičení z PST. 20. prosince 2017

Cvičení 12: Binární logistická regrese

Kontingenční tabulky a testy shody

Úvod do dobývání. znalostí z databází

příklad: předvolební průzkum Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 příklad: souvisí plánované těhotenství se vzděláním?

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

McNemarův test, Stuartův test, Test symetrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza dat z dotazníkových šetření

Analýza dat na PC I.

Kontingenční tabulky, korelační koeficienty

Tomáš Karel LS 2012/2013

Měření závislosti statistických dat

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Schéma identifikační procedury

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Výběrové charakteristiky a jejich rozdělení

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Asociační pravidla (metoda GUHA)

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

NMAI059 Pravděpodobnost a statistika

ADDS cvičení 7. Pavlína Kuráňová

Obsah. Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Pravděpodobnost. Pravděpodobnost. Děj pokus jev

Matematická statistika Zimní semestr

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Testování hypotéz o kvalitativních proměnných

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

13. cvičení z PSI ledna 2017

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

Tomáš Karel LS 2012/2013

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Cvičení ze statistiky - 5. Filip Děchtěrenko

Statistické metody uţívané při ověřování platnosti hypotéz

Návod na vypracování semestrálního projektu

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Popisná statistika. Statistika pro sociology

INDUKTIVNÍ STATISTIKA

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Třídění statistických dat

Cvičení ze statistiky - 7. Filip Děchtěrenko

Přednáška IX. Analýza rozptylu (ANOVA)

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Plánování experimentu

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Seminář 6 statistické testy

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Přednáška 10. Analýza závislosti

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

15. T e s t o v á n í h y p o t é z

Spokojenost se životem

5EN306 Aplikované kvantitativní metody I

Transkript:

Kontingenční tabulky (Analýza kategoriálních dat)

Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí, Fisherův přesný test, 4 polní tabulka, míry asociace metody zobrazení dat z kont. tabulek a závislostí loglineární modely Další techniky - asociační pravidla, stromy a grafické modely

Základní pojmy Kategoriální data; nominální, ordinální Reprezentace v kontingenční tabulce Pro dvě proměnné dostaneme např. 2x3 tabulku: Genotyp AA Aa aa Nemoc + n 11 n 12 n 13 n 1. Nemoc - n 21 n 22 n 23 n 2. n.1 n.2 n.3 n n=n 11 +n 12 +n 13 +n 21 +n 22 +n 23

Míry diverzity nominální veličiny vazba na míry závislosti a vytváření klasifikačních modelů Zkoumaný znak nabývá hodnot A 1,..., A k s pravděpodobnostmi p 1,..., p k (Shannonova) entropie Giniho index k H= j=1 k 1 j=1 k p 2 = j j=1 p j log 2 ( p j ) p j (1 p j ) Příklad: relativní četnosti kategorií jsou 0.5 a 0.5 H=... H = (0.5log 2 (0.5)+0.5log 2 (0.5))= ( 0.5+( 0.5))=1

zákl. pojmy multinomické rozdělení n nezávislých pokusů, v každém jsou možné výsledky A 1,..., A k (disjunktní a vyčerpávající) s pravděpodobnostmi π 1,..., π k (pro k=2 jde o binomické rozdělení) Četnosti N 1,..., N k těchto výsledků mají multinomické rozdělení Pro každou k-tici nezáporných čísel n 1,..., n k, kde P( N 1 = n 1,..., N k = n k ) = n! n 1!...n k! π n 1...πk n k 1 k j=1 n j =n

Rozdělení χ 2

χ 2 test dobré shody hypotéza určuje všechny pravděpodobnosti: N 1,..., N k je náhodný vektor s multinomickým rozdělením s parametry n, π 1,..., π k, H 0 : π 1 =π 1 0,..., π k = π k 0 Spočteme teoretické četnosti o i = n*π i Porovnáme teoretické a skutečné četnosti (o i 5) Testová statistika H 0 zamítneme, je-li k X 2 = i=1 (N i o i ) 2 o i X 2 2 χ 1 α (k 1)

χ 2 test nezávislosti H 0 : nezávislost dvou nominálních veličin A,B nebo shoda pravděpodobností v několika populacích n ij četnost dvojice hodnot: i-té hodnoty A a zároveň j-té hodnoty B; marginální četnosti n i.,n.j teoretické četnosti (za předpokladu nezávislosti) o ij = n i. n.j / n Porovnáme teoretické a skutečné četnosti (o i 5) Testová statistika H 0 zamítneme, je-li r X 2 = i=1 c j=1 2 (N ij o ij ) 2 o ij X 2 χ 1 α ((r 1) (c 1))

Příklad test nezávislosti uvažujme 2x3 tabulku n=6+14+20+13+9+33=95 (6+14+20)(6+13)/95=8 tabulka očekávaných četností statistika Znak B: ano X 2 = (6 8)2 + (14 10)2 + (20 22)2 8 10 22 hodnotu X2 = 4 porovnáváme s a hypotézu o nezávislosti nezamítáme AA Aa aa 6 14 20 Znak B: ne 13 9 33 Znak B: ano + (13 11)2 11 AA Aa aa 8 10 22 Znak B: ne 11 13 31 + (9 13)2 + (33 31)2 13 31 2 χ (0.95) (df =(3 1)(2 1)=2)=6

Čtyřpolní tabulka Pro dvě dvouhodnotové proměnné dostaneme 2x2 tabulku n=a+b+c+d Znak B var 1 Znak B not var 1 Znak A var 1 a c Znak A not var 1 b d Klasická statistika Yatesova korekce X 2 n(ad bc) 2 = (a+b)(a+c)(b+d)(c+d) X Y 2 = n( ad bc n/2) 2 (a+b)(a+c)(b+d)(c+d)

Malé počty pozorování (výpočetně náročnější) řešení problému nízkých teoretických četností (a neplatnosti odvozování podle klasické statistiky) Fisherův (přesný) test p a je pravděpodobnost konkrétní tabulky (2x2) při daných marginálních četnostech sečteme pravděpodobnost dané tabulky a tabulek ještě více odporujících nulové hypotéze a dostaneme p hodnotu testu simulace s využitím generátoru pseudonáhodných čísel p a = (a+b)!(a+c)!(b+d)!(c+d)! n! a! b! c! d!

Míry asociace nominálních veličin Hledáme obdobu korelačního koeficientu, vypovídající o těsnosti/síle závislosti Pro 4polní tabulku: poměr šancí (šance jako P(A)/(1-P(A))) S.E.(ln (OR))= 1/ a+1/ b+1/c+1/d OR= ad bc přibližný interval spolehlivosti pro logaritmus populačního podílu šancí (ln(or) S.E.(ln(OR))z(α/2), ln(or) + S.E.(ln(OR))z(α/2))

Míry asociace nominálních veličin / 2 pro 4-polní tabulku leží mezi 0 a 1 koeficient ϕ= X 2 /n Cramerovo V V = X 2 n(m 1) kde m = min(r,c)

Analýza reziduí Rezidua: r ij =n ij -o ij Standardizovaná rezidua: Adjustovaná std. rezidua: n=a+b+c+d n 1. =a+b n. 2 =b+d sr ij = r ij o ij asr ij = Očekávané Znak A var 1 Znak A- not var 1 Četnosti o ij Znak B var 1 n 1. *n. 1 /n n 1. *n. 2 /n Znak B not var 1 n 2. *n. 1 /n n 2. *n. 2 /n r ij o ij(1 n i. n )(1 n. j n )

Vizualizace závislostí u kategoriálních dat Zobrazení závislostí na úrovni proměnných grafické modely,... Zobrazení závislostí vnitřní struktury tabulky (na úrovni kategorií) Mosaic plot Association plot Meyer, D., Zeileis, A., and Hornik, K. (2005) The strucplot framework: Visualizing multi-way contingency tables with vcd. Report 22, Department of Statistics and Mathematics, Wirtschaftsuniversität Wien, Research Report Series. http://epub.wu-wien.ac.at/dyn/openurl?id=oai:epub.wu-wien.ac.at:epub-wu-01_8a1

Association plot Vizualizace - graf asociací

mosaic plot Vizualizace - mozaikový graf

Loglineární modely Modelují četnosti v kontingenční tabulce Pro dvě proměnné A (řádek), B (sloupec): Model nezávislosti o ij =np i. p. j λ A i =log p i. ( h λ B j =log p. j ( h log p h. )/ I log p.h )/J log o ij =log n+log p i. +log p. j μ=log n+( h λ i A = λ j B =0 log o ij =μ+λ i A +λ j B log p h. )/ I+( h log p.h )/ J Saturovaný model log o ij=μ+λ i A +λ j B +λ ij AB

Explorační analýza dat a data mining Analýza rozsáhlých dat v situacích, kdy není moc jasné, co může být výsledkem Nevíme přesně na co se ptát: Jsou v datech nějaké zajímavé vztahy? (x konfirmační analýza dat, ve které ověřujeme hypotézu)

Asociační pravidla Automaticky (počítačem) generovat všechny hypotézy zajímavé na základě daných empirických dat Sledujeme více kategoriálních proměnných současně Vznik kolem aplikací zaměřených na analýzu nákupního košíku (dichotomické proměnné) Snaha objevit často se vyskytující kombinace znaků frequent itemsets Výpočetně náročné postupy Možnost zadat obecnou podobu vztahu, který nás zajímá Možnost zadat požadavky na minimální spolehlivost, podporu a podobně Někdy obtížné vyhodnocení výsledků

Asociační pravidla / 2 Různé logické tvary hypotézy, φ souvisí s ψ, kde φ a ψ jsou kombinace atributů Například Jestliže pak konstrukce: Antecedent -> sukcedent Závěr (sukcedent) není předem určen Počet zkoumaných kombinací při neomezené analýze m m proměnných je (1+K A j ) 1 j=1 Jaký je vztah mezi spolehlivostí pravidla A & B & C - > D a pravidla A & B -> C & D??

Asociační pravidla - charakteristiky kvality Podpora (support) =P(Ant & Suc) = a/(a+b+c+d) a je podíl případů splňujících předpoklad i závěr pravidla, někdy se uvádí také absolutní podpora (a) Spolehlivost P(Suc Ant)= a/(a+b) podmíněná pravděpodobnost závěru, platí-li předpoklad Pokrytí P(Ant Suc)=a / (a+c) Kvalita = w 1 *spolehlivost + w 2 *pokrytí Konzistentní pravidla spolehlivost = 1, Ant je PP závěru Úplná pravidla pokrytí = 1, Ant je nutná podmínka závěru deterministické pravidlo = konzistentní a úplné

Klasifikační: stromy Cílem je klasifikace případu podle atributů Vytváření stromu: rekurzivní rozklad vstupních dat podle nejlépe rozlišující proměnné Výhody metody: Možnost zachytit složitější interakce, vztahy platné jen pro určitou podskupinu Prakticky žádné předpoklady o datech; pro kategoriální i spojitá data, chybějící hodnoty Výsledek modelování je (někdy) přehledný, snadná interpretace Použitelné pro identifikaci důležitých proměnných

Ukázka analytických technik - rozhodovací strom Zvýšená hodnota m1? B ne A ano ano Senior? ne ne Nízká hodnota m2 ano B A

Grafický model - bayesovská síť Orientovaný acyklický graf (uzel odpovídá náhodné veličině) a sada pravděpodobnostních fcí pro každý uzel U ve tvaru P(U rodiče(u)) Faktorizace sdružené pravděpodobnostní funkce (řetězové pravidlo): P(LA,MA,LF,D1,D2,IN,DE, F2 ) = P(LA)P(MA)P(F2 MA)P(LF F2)P(IN F2)P(D1 IN)P(D2 D1)P(DE D2,F2) V grafu očíslujeme všechny veličiny tak, aby rodiče měli nižší pořadové číslo než děti Pak každá veličina je podmíněně nezávislá na všech veličinách s nižším pořadovým číslem mimo svých rodičů podmíněno rodiči Veličiny A a B jsou podmíněně nezávislé při daném C, jestliže P(A,B C)=P(A C)*P(B C) Ekvivalentní vztah P(A B,C)=P(A C), P(B A,C)=P(B C)

Report z analýzy kont. tabulek

Report z analýzy kont. tabulek - 2

Report pro 2x2 tabulky - graf závislostí podle Fisherova testu, OR

mail: data@tulipany.cz Web: http://skola.tulipany.cz...