Porovnání dvou výběrů



Podobné dokumenty
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Modul Základní statistika

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

S E M E S T R Á L N Í

Statistická analýza. jednorozměrných dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

S E M E S T R Á L N Í

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Zápočtová práce STATISTIKA I

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

4ST201 STATISTIKA CVIČENÍ Č. 7

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

UNIVERZITA PARDUBICE

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Testování statistických hypotéz

Simulace. Simulace dat. Parametry

Exploratorní analýza dat

Porovnání dvou reaktorů

Testování statistických hypotéz

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Kvantily a písmenové hodnoty E E E E-02

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Zobecněná analýza rozptylu, více faktorů a proměnných

Analýza dat na PC I.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

STATISTICKÉ TESTY VÝZNAMNOSTI

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Statistická analýza jednorozměrných dat

Průzkumová analýza dat

Korelační a regresní analýza

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Regresní analýza 1. Regresní analýza

Normální (Gaussovo) rozdělení

Testy statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

= = 2368

Návrhy dalších možností statistického zpracování aktualizovaných dat

KGG/STG Statistika pro geografy

Lineární regrese. Komentované řešení pomocí MS Excel

Charakteristika datového souboru

Stručný úvod do testování statistických hypotéz

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Kontingenční tabulky, korelační koeficienty

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Statistická analýza jednorozměrných dat

Normální (Gaussovo) rozdělení

Cvičení ze statistiky - 9. Filip Děchtěrenko

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Návrh a vyhodnocení experimentu

Inovace bakalářského studijního oboru Aplikovaná chemie

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Statistická analýza jednorozměrných dat

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Národníinformačnístředisko pro podporu jakosti

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

LINEÁRNÍ REGRESE. Lineární regresní model

Jednostranné intervaly spolehlivosti

STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Popisná statistika. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika

Regresní a korelační analýza

VŠB Technická univerzita Ostrava BIOSTATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Vzorová prezentace do předmětu Statistika

Příklady na testy hypotéz o parametrech normálního rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Tomáš Karel LS 2012/2013

IDENTIFIKACE BIMODALITY V DATECH

Transkript:

Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů a párové porovnání dvou výběrů. Nezávislé výběry x, y jsou obecně různě veliké a mezi jednotlivými čísly v jednom a druhém výběru není souvislost. Pořadí prvků obou výběrů lze libovolně zaměnit bez ztráty informace. Hlavním cílem analýzy je rozhodnout, zda se liší střední hodnoty E(x) a E(y) obou výběrů. Příkladem dvou nezávislých výběrů jsou hmotnosti burských oříšků ze dvou lokalit. Z každé lokality se náhodně vybere pár desítek plodů, které se jednotlivě zváží. Párové porovnání naproti tomu analyzuje jeden a týž soubor měřený dvakrát za dvou různých podmínek, tím získáme dvojici proměnných x, y. Cílem je rozhodnout, zda tyto podmínky ovlivňují měřenou hodnotu. Při tom se především posuzuje, zda střední hodnota rozdílu první a druhé proměnné E(x y) je statisticky odlišná od nuly. Příkladem může být skupina pacientů, u nichž se stanoví hladina cholesterolu v krvi před a po léčbě. Oba soubory musí mít stejný počet dat (pacienti zemřelí během léčby se vyloučí) a nesmí se zaměnit pořadí, oba údaje o jednom pacientovi musí být na témže řádku. Slouží především k rozhodnutí, zda dva soubory naměřených dat mají a) shodná rozdělení a b) shodné střední hodnoty a rozptyly. Data a parametry V dialogovém panelu je nutno zadat sloupce s 1. a 2. proměnnou, které se mají porovnat a Druh porovnání, který chceme provést buď Nezávislé výběry nebo Párové porovnání. Je možné změnit Hladinu významnosti, jejíž implicitní hodnota je 0.05, tedy 5%. Stejně jako u ostatních modulů lze analýzu provést pro Všechna data, nebo jen Označená či Neoznačená data. Obrázek 1 Dialogový panel Porovnání dvou výběrů Nezávislé výběry Data jsou ve dvou sloupcích, počet dat může být různý. Buňky s chybějícím údajem se vypustí. Párové porovnání Data jsou ve dvou sloupcích, počet dat v obou sloupcích by měl být stejný, chybí-li hodnota, vypouští se celý odpovídající řádek. Protokol Obsah protokolu závisí na tom, zda jsme provedli porovnání nezávislých výběrů, nebo párové porovnání. Totéž platí pro grafický výstup. Proto uvádíme obě verze výstupů. Nezávislé výběry

Název úlohy Název úlohy z dialogového panelu. Hladina významnosti Zadaná hladina významnosti. Porovnávané sloupce Názvy obou porovnávaných sloupců. Počet dat Počet dat prvního (n 1 ) a druhého (n 2 ) výběru. Průměr Aritmetický průměr prvního a druhého sloupce x1, x2. Směr. odchylka Směrodatná odchylka prvního a druhého výběru, s 1 a s 2. Rozptyl Rozptyl prvního a druhého výběru, s 2 1 a s 2 2. Korel. koef. R(x,y) Tento řádek spolu s varováním Významná korelace! se objeví pouze v případě, že korelační koeficient mezi sloupci je statisticky významný (různý od nuly) na hladině. V tom případě je nutno zvážit, zda jsou data a jejich získání v pořádku, nebo zda není na místě párové porovnání. Pokud tento řádek v protokolu chybí, znamená to, že je korelační koeficient nevýznamný. Test shody rozptylů Test shody rozptylů obou výběrů. Tento test je určen pro data, jejichž rozdělení je přibližně normální a která neobsahují vybočující hodnoty. V opačném případě se doporučuje použít brát v úvahu robustní test shody rozptylů, viz níže. Poměr rozptylů Testovací statistika, max( 2 1 / 2 2, 2 2 / 2 1 ) Počet stupňů volnosti Počty stupňů volnosti F-kvantilu, n 1 1 a n 2 1 Kritická hodnota Kvantil F-rozdělení F(, n 1 1, n 2 1) Slovní závěr testu Rozptyly jsou shodné, případně Rozptyly jsou rozdílné. Pravděpodobnost p-hodnota, odpovídá hladině významnosti, na níž by byla hypotéza o Robustní test shody rozptylů Alternativní test shody rozptylů obou výběrů je určen pro data, jejichž rozdělení není normální, především z hlediska symetrie a špičatosti. Nedoporučuje se pro normálně rozdělená data. Poměr rozptylů Testační statistika, max( 2 1 / 2 2, 2 2 / 2 1 ). Redukované stupně Počty stupňů volnosti korigované na odchylku od normality. volnosti Kritická hodnota Kvantil F-rozdělení. Slovní závěr testu Rozptyly jsou shodné, případně Rozptyly jsou rozdílné. Pravděpodobnost p-hodnota, odpovídá hladině významnosti, na níž by byla hypotéza o Test shody průměrů pro SHODNÉ rozptyly t-statistika Počet stupňů volnosti Kritická hodnota Pravděpodobnost Test shody průměrů pro případ shodných rozptylů. V případě, kdy jsou rozptyly obou výběrů různé, je třeba použít test pro rozdílné rozptyly, viz níže. Testovací statistika. Počet stupňů volnosti pro t-test. Kritický kvantil t-rozdělení. Slovní závěr testu. p-hodnota, odpovídá hladině významnosti, na níž by byla hypotéza o

Test shody průměrů pro ROZDÍLNÉ rozptyly t-statistika Redukované stupně volnosti Kritická hodnota Pravděpodobnost Test shody průměrů pro případ rozdílných rozptylů. V případě, kdy jsou rozptyly obou výběrů shodné, je třeba použít test pro shodné rozptyly, viz výše. Testovací statistika. Počet stupňů volnosti pro t-test. Kritický kvantil t-rozdělení. Slovní závěr testu. p-hodnota, odpovídá hladině významnosti, na níž by byla hypotéza o Test dobré shody rozdělení, dvouvýběrový K-S test Diference DF Test shody rozdělení podle Kolmogorova a Smirnova založený na maximálním rozdílu empirických (výběrových) distribučních funkcí obou výběrů. Může nastat situace, kdy rozptyly i průměry vyjdou shodné a rozdělení vyjdou rozdílná. To bývá způsobeno výraznou odchylkou jednoho nebo obou rozdělení od normality (obyčejně asymetrie nebo bimodality). V takovém případě půjde zřejmě o nevhodná data. Hodnota maximální diference výběrových distribučních funkcí, tedy testační kritérium testu. Kritická hodnota Kritická hodnota KS-rozdělení. Slovně formulovaný závěr testu: Rozdělení jsou ROZDÍLNÁ / SHODNÁ. Párové porovnání Název úlohy Název úlohy Hladina významnosti Porovnávané sloupce Název úlohy z dialogového panelu. Počet proměnných (sloupců). Počet platných řádků. Názvy obou porovnávaných sloupců. Analýza diference Počet dat Počet dvojic dat, n. Průměrná diference Aritmetický průměr rozdílu dvojic x 1 x 2 (první druhý), x d Interval spolehlivosti Interval spolehlivosti aritmetického průměru diferencí na hladině významnosti. Směr. odchylka Směrodatná odchylka diferencí, s d. Rozptyl Rozptyl diferencí, s 2 d. Korelační koeficient Výběrový korelační koeficient r mezi prvním a druhým sloupcem. R(x,y) V případě, že korelační koeficient je statisticky nevýznamný, je toto varování zvýrazněno červeně. Párové porovnání pak nemá zřejmě smysl, jedná se o nevhodná data, mohlo být nedopatřením změněno pořadí dat v některém ze sloupců, nebo je zvolený interval vzorkování dvojic x 1, x 2 příliš úzký. Test významnosti rozdílu Vlastní test významnosti rozdílu mezi dvojicemi, tedy test významnosti průměrné diference. t-statistika Testovací statistika, xd n s d. Počet stupňů volnosti Počet stupňů volnosti, n 1. Kritická hodnota Slovní formulace závěru testu: Rozdíly jsou VÝZNAMNÉ /

Pravděpodobnost NEVÝZNAMNÉ. p-hodnota, odpovídá hladině významnosti, na níž by byla hypotéza o významnosti diference právě zamítnuta. Grafy Podobně jako protokol, i grafický výstup se liší podle toho, zda jde o porovnání nezávislých výběrů, nebo párové porovnání. Nezávislé výběry Q-Q graf pro všechna data, data se berou jako jediný soubor, příslušnost k prvnímu nebo druhému výběru je rozlišena barvou (viz legenda v grafu). Orientačně jsou znázorněny polohy průměrů obou výběrů se svými intervaly spolehlivosti jako šrafované obdélníky. Přímky znázorňují polohu střední hodnoty, jejich směrnice odpovídají směrodatné odchylce, strmější přímka tedy odpovídá výběru s vyšší směrodatnou odchylkou. Krabicové grafy slouží především k vizuálnímu porovnání výběrů. Větší obdélník ohraničuje vnitřních 50% dat, horní okraj zeleného (vyšrafovaného) obdélníku odpovídá 75% kvantilu, spodní okraj zeleného obdélníku odpovídá 25% kvantilu, střed bílého pruhu v zeleném obdélníku odpovídá mediánu, šířka bílého pruhu odpovídá intervalu spolehlivosti mediánu, dva černé proužky jsou tzv. vnitřní hradby. Data mimo vnitřní hradby jsou označena červeným bodem a lze je považovat za vybočující měření. Asymetrické umístění bílého pruhu v zeleném kvartilovém obdélníku svědčí o možné asymetrii dat. Simultánní jádrové odhady hustoty pro oba výběry. Modrá a červená barva odpovídá prvnímu a druhému výběru. Křivky představují odhady hustoty pravděpodobnosti, šrafované obdélníky jsou intervaly spolehlivosti průměrů. Pokud se tyto obdélníky nepřekrývají, jsou průměry statisticky rozdílné na zadané hladině významnosti. Gaussovy křivky hustoty normálního rozdělení odpovídající průměru a rozptylu obou výběrů. Barevné rozlišení je stejné jako v předchozím grafu. Pro orientaci je v grafu i hustota pravděpodobnosti průměrů (y-souřadnice je redukovaná). Sdružený empirický F-F graf pro testování rozdílnosti rozdělení dvou výběrů. Na osách jsou hodnoty pravděpodobnosti z výběrových distribučních funkcí obou výběrů (zobrazených na dalším grafu). Jsou-li rozdělení obou výběrů totožná, leží body přibližně na centrální přímce. Překročení některé červené mezní přímky alespoň v jednom bodě indikuje, že rozdělení výběrů jsou rozdílná.

Graf výběrové (empirické) distribuční funkce prvního a druhého výběru. Y-ová hodnota křivky vyjadřuje pravděpodobnost, že naměřená hodnota bude nižší, než odpovídající X. Párové porovnání Q-Q graf pro kvalitativní posouzení normality rozdílu proměnných. Leží-li body přibližně na přímce, lze předpokládat normální rozdělení. Při výrazné odchylce od normality se snižuje vypovídací schopnost a spolehlivost testů v protokolu. Graf podle Blanda a Altmana, na ose X je průměr páru hodnot, na ose Y je rozdíl páru hodnot. Tento graf slouží k odhalení případné závislosti variability (vyjádřené rozdílem) na velikosti měřené hodnoty. Pro lepší orientaci je v grafu vyznačena horizontální nulová linie, vyhlazená střední hodnota (černě) s vyznačeným intervalem spolehlivosti (červeně) a neparametrickým odhadem směrodatné odchylky ( 2, černě). V ideálním případě nulovosti rozdílu by měla být nulová linie uvnitř červených mezí a interval 2 zhruba konstantní. Gaussova křivka hustoty pravděpodobnosti, která aproximuje rozdělení rozdílů párů za předpokladu, že toto rozdělení je normální. Vnitřní Gaussova křivka představuje přibližně rozdělení aritmetického průměru (Y-ová souřadnice je z důvodu přehlednosti redukována). Svislá linie odpovídá nulovému rozdílu, šrafovaný obdélník představuje interval spolehlivosti průměru rozdílů. Leží-li v tomto intervalu nula, je rozdíl statisticky nevýznamně rozdílný od nuly. Grafické vyjádření závislosti prvních a druhých hodnot s vyznačenou přímkou y=x (červeně), která odpovídá nevýznamnému rozdílu a přímkou, která reprezentuje skutečnou závislost mezi y a x.

Body v tomto grafu jsou shodné s předchozím grafem. Data se zde považují za výběr z dvourozměrného normálního rozdělení, černá elipsa představuje 100.(1- )% oblast dat, menší červená elipsa představuje 100.(1 )% oblast spolehlivosti průměru, který je vyznačen černými přímkami.