Kvantily a písmenové hodnoty E E E E-02

Podobné dokumenty
UNIVERZITA PARDUBICE

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Statistická analýza jednorozměrných dat

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Statistická analýza. jednorozměrných dat

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Statistická analýza jednorozměrných dat

Nejlepší odhady polohy a rozptýlení chemických dat

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat

S E M E S T R Á L N Í

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Porovnání dvou reaktorů

Statistická analýza jednorozměrných dat

Exploratorní analýza dat

STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

S E M E S T R Á L N Í

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Zápočtová práce STATISTIKA I

Charakteristika datového souboru

Postup statistického zpracování výsledků stopové analýzy při použití transformace dat

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Porovnání dvou výběrů

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Modul Základní statistika

Průzkumová analýza dat

LICENČNÍ STUDIUM GALILEO SEMESTRÁLNÍ PRÁCE

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Charakterizace rozdělení

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Praktická statistika. Petr Ponížil Eva Kutálková

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

y = 0, ,19716x.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza dat na PC I.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Analýza rozptylu ANOVA

Pravděpodobnost a matematická statistika

pravděpodobnosti, popisné statistiky

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

PRŮZKUMOVÁ ANALÝZA DAT (EDA)

Úloha 1: Lineární kalibrace

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

INTERAKTIVNÍ POČÍTAČOVÁ ANALÝZA DAT prof. RNDr. Milan Meloun, DrSc.

Návrh a vyhodnocení experimentu

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Přijímací zkouška na navazující magisterské studium 2014

Statistika pro geografy

ZÁKLADNÍ POJMY a analýza výběru

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Číselné charakteristiky

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Kalibrace a limity její přesnosti

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

IDENTIFIKACE BIMODALITY V DATECH

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Simulace. Simulace dat. Parametry

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Tvorba nelineárních regresních modelů v analýze dat

Zpracování výběrů asymetrického rozdělení biochemických dat

KGG/STG Statistika pro geografy

Normální (Gaussovo) rozdělení

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Referenční hodnoty v praxi

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

15. T e s t o v á n í h y p o t é z

KGG/STG Statistika pro geografy

Kalibrace a limity její přesnosti

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

Regulační diagramy (RD)

MATEMATICKÁ STATISTIKA - XP01MST

Úvod do statistické analýzy jednorozměrných dat Cvičebnice pro předmět: Zdravotnická statistika Fakulta zdravotnických studií

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

STATISTICKÉ CHARAKTERISTIKY

VŠB Technická univerzita Ostrava

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz

Popisná statistika. Komentované řešení pomocí MS Excel

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Transkript:

Na úloze ukážeme postup průzkumové analýzy dat. Při výrobě calciferolu se provádí kontrola meziproduktu 3,5 DNB esteru calciferolu metodou HPLC. Sleduje se také obsah přítomného ergosterinu jako nečistoty, jehož střední hodnota by neměla přesáhnout 0.4%. Metodou průzkumové analýzy dat vyšetřete, zda jsou splněny požadavky, kladené na náhodný výběr a zda je splněn i požadavek čistoty calciferolu. Určete typ rozdělení. Které diagnostiky shodně indikují vybočující hodnoty? Jak velké procento hodnot dosahuje obsahu 0.4%? Zkonstruujte barierově-číslicové schéma formou sedmi-písmenového zápisu výběru. grafické diagnostiky indikují vedle stupně symetrie a špiča-tosti rozdělení také odlehlé body. (a) celkem 1 grafických diagnostik indikuje symetrii a špičatost rozdělení s těmito závěry: Obr..0a Kvantilový graf Obr..0b Diagram rozptýlení a rozmítnutý diagram rozptýlení Obr..0c Vrubový krabicový graf Obr..0d Graf polosum

Obr..0e Graf symetrie Obr..0f Graf špičatosti Obr..0g Kvantil-kvantilový (Q-Q) graf Obr..0h Graf rozptýlení s kvantily Obr..0i Histogram Obr..0j Graf hustoty pravděpodobnosti

Obr..0k P-P graf Obr..0l Kruhový graf je patrný velký rozdíl mezi symetrickým Gaussovým a empirickým rozdělením. Tvar křivky je charakteristický pro asymetrické rozdělení, silně sešikmené k vyšším hodnotám. ukazuje na 4 odlehlé body v horní části diagramu a 1 odlehlý bod v dolní části diagramu. v horní části je detekováno 6 odlehlých bodů. Krabice je rozdělena na dvě části mediánem. indikuje velkou část bodů jako vybočujících ze symetrického rozdělení. Body, ležící na mediánové rovnoběžce s -ovou osou jsou ze symetrického rozdělení, ostatní nikoliv. indikuje valnou část bodů jako vybočujících ze symetrického rozdělení nebo patřících do asymetrického rozdělení. většina bodů neleží na rovnoběžce s -ovou osou pro symetrické rozdělení, a proto jde o rozdělení asymetrické. jelikož většina bodů neleží na přímce jde o asymetrické rozdělení. asymetrie kvantilových obdélníků obdélníků dokazuje silně asymetrické rozdělení. Body ležící vně sedecilového obdélníka indikuje tato pomůcka jako odlehlé. zřetelně ukazuje na asymetrické rozdělení sešikmené k vyšším hodnotám. ve srovnání s Gaussovým rozdělením je patrné silné sešikmení k vyšším hodnotám. Empirickou křivku nelze aproximovat symetrickým Gaussovým rozdělením. empirická křivka nesouhlasí s žádnou křivkou symetrického rozdělení (norm., rovnoměrn. a Laplaceova). Rozdělení je asymetrické. tvar elipsy dokazuje silně asymetrické rozdělení sešikmené k vyšším hodnotám. Kvantily a písmenové hodnoty (ADSTAT) 5 1.0000E-04 10 3.300E-0 15 4.3900E-0 0 5.4800E-0

5 6.850E-0 30 7.6700E-0 35 9.4300E-0 40 1.150E-01 45 1.3000E-01 50 1.4000E-01 55 1.5000E-01 60 1.580E-01 65 1.830E-01 70.0100E-01 75.3175E-01 80.9440E-01 85 3.1910E-01 90 3.3430E-01 95 4.7800E-01 Sedecil D 0.065 1.0000E-04 4.3500E-01 Oktil E 0.150 3.6750E-0 3.06E-01 Kvartil F 0.500 6.850E-0.3175E-01 Medián M 0.5000 1.4000E-01 1.4000E-01 D H Rozpětí L 1.6350E-01.8387E-01 4.3490E-01 Polosuma L 1.5000E-01 1.7869E-01.1755E-01 Délka konců L 0.0000E+00 5.517E-01 9.7830E-01 Šikmost L 1.1443E-01 5.839E-0-4.8843E-03 PseudoSigma L 1.19E-01 1.34E-01 1.41E-01 umožňují posoudit jednak symetrii výběrového rozdělení a jednak procento prvků ve výběru. Pro 45 je 0.1300, což znamená, že pod hodnotou 0.1300 leží 45% a nad ní 55% prvků výběru. a umožňují sestrojení či sumarizace dat. Lišící se hodnoty (kvartilové, oktilové, sedecilové) indikují asymetrické rozdělení, v případě symetrického rozdělení by totiž všechny polosumy dosahovaly stejné hodnoty. Dolní kvantil D (Polosuma) Median 0.1400 Rozpětí L Kvartil 0.0685 (0.1500) 0.3175 0.16350 Oktil 0.03675 (0.17869) 0.306 0.8387 Sedecil 0.0001 (0.1755) 0.43500 0.43490 Horní kvantil H (b) rozdělení je asymetrické, s dlouhým horním koncem s větší koncentrací bodů ve spodní části hodnot. Z analýzy kvantil-kvantilového Q-Q grafu vyplývá, že nejvyšší hodnoty korelačního koeficientu je dosaženo především pro exponenciální rozdělení. Výběrové rozdělení je zde aproximováno exponenciálním.

Linearita v kvantil-kvantilovém grafu (ADSTAT) 0 1 0 1 xy Laplaceovo 0.11077 0.17671 0.963 Normální 0.14976 0.17671 0.9054 Exponenciální 0.16708 0.0159 0.98963 Rovnoměrné 0.48940-0.06799 0.891 Lognormální 0.09055 0.03413 0.96956 (c) z grafických diagnostik průzkumové (explo-ratorní) analýzy výběru byly nalezeny 3 až 6 podezřelých bodů, které by mohly být chápany v symetrickém rozdělení jako odlehlé. Jelikož však jde o asymetrické rozdělení exponenciální, nemá smyslu zde indikovat odlehlé body. je charakterizován třemi důležitými předpoklady, které je třeba před vlastní analýzou ověřit. Jsou to nezávislost, homogenita a případná normalita výběru. (a) Na předpokladu normality je založena celá statistická analýza dat. Test kombinace výběrové šikmosti a špičatosti ukázal, že normalita výběrového rozdělení je zamítnuta. (b) K identifikaci časové závislosti prvků výběru nebo závislosti související s pořadím jednotlivých měření se testuje významnost autokorelačního koeficientu prvního řádu podle von Neumannova testovacího kritéria. U analyzovaného výběru byla nezávislost prvků ve výběru prokázána. (c) Homogenní výběr znamená, že všechny jeho prvky pocházejí ze stejného rozdělení s konstantním rozptylem. Vybočující měření silně zkreslují odhady polohy a zejména rozptylu, takže zcela znehodnocují další statistickou analýzu. Testování vybočujících měření bez doplňkových informací průzkumové analýzy dat je málo spolehlivé. Kritérium vnitřních mezí určilo odlehlé body, a to bod č. 14 a 3. Doplněním informací z průzkumové analýzy lze identifikovat exponenciální rozdělení výběru, které již odlehlé body mít nebude, takže toto vyloučení dvou bodů nemá statistický smysl. (d) Uvažujeme-li 5% relativní chybu směro-datné odchylky, bude minimální rozsah výběru n = 18, pro 10% relativní chybu směrodatné odchylky pak n = 110 a pro 5% relativní chybu směrodatné odchylky bude n = 437. Základní předpoklady výběru (ADSTAT) Odhad aritmetického průměru x : 0.177 Odhad rozptylu :.536E-0 Odhad směrodatné odchylky : 0.159 Odhad šikmosti ĝ 1 : 1.54 Odhad špičatosti : 5.36 ĝ tabulkový kvantil χ 1-α(): 5.99 Odhad χ exp statistiky: 35.87 Předpoklad normality zamítnut na spočtené hladině významnosti α = 1.654E-08 tabulkový kvantil 1-α/ :.0141

Odhad von Neumannovy statistiky n: 0.4049 Předpoklad nezávislosti přijat na spočtené hladině významnosti α = 0.3437 metodou modifikované vnitřní hradby Dolní vnitřní hradba D: -0.3054 Horní vnitřní hradba H: 0.6800 Ve výběru jsou odlehlé hodnoty. Bod číslo 14 (horní): 0.6700 Bod číslo 3 (horní): 0.6800 Odhad aritmetického průměru x : 0.153 Odhad rozptylu : 1.391E-0 Odhad směrodatné odchylky : 0.118 Odhad šikmosti ĝ 1 : 0.89 Odhad špičatosti : 3.40 ĝ Jelikož se na základě průzkumové analýzy dat zjistilo, že rozdělení výběru dat se systematicky odlišuje od rozdělení normálního, vyvstává zde problém, jak data vůbec vyhodnotit. V takovém případě je vhodná transformace dat, která vede ke stabilizaci rozptylu, zesymetričtění rozdělení a v případě Box-Coxovy transformace i k normalitě. (a) Zesymetričtění rozdělení výběru je možné provést užitím jednoduché (prosté) mocninné transformace, která sice nezachovává měřítko, není vzhledem k hodnotě λ všude spojitá a hodí se pouze pro kladná data. Pro odhad exponentu λ se hledají optimální hodnoty charakteristik asymetrie (šikmosti) a špičatosti. K určení optimálního λ lze ale také užít orientační grafické metody, selekčního grafu dle Hinese a Hinesové, obr..1a. Podle umístění experimentálních bodů v okolí teoretických křivek selekčního grafu byla odhadnuta velikost ˆλ 0.5. Obr..1a Hinesův-Hinesové selekční graf pro výběr zobr..1b Graf logaritmu věrohodnostní funkce na λ pro exponenciálního rozdělení, ADSTAT výběr z exponenciálního rozdělení, ADSTAT (b) Pro přiblížení rozdělení výběru k rozdělení normálnímu vzhledem k šikmosti a špičatosti se užívá Boxovy-Coxovy transformace. Pro odhad parametru

λ v Boxově-Coxově transformaci lze užít metodu maximální věrohodnosti (obr..1b) s tím, že pro λ = ˆλ je rozdělení transformované veličiny nejblíže normálnímu, (µ y, σ (y)). Obr..a Q-Q graf původních dat, ADSTAT R R Obr..b Q-Q graf dat po Box-Coxově transformaci, ADSTAT Průběh věrohodnostní funkce ln = (λ) lze znázornit ve zvoleném intervalu např. -3 λ 3 a identifikovat maximum křivky v grafu věrohodnostní funkce tak, že -ová souřadnice indikuje odhad ˆλ. Dva průsečíky křivky ln (λ) s rovnoběžkou s -ovou osou indikují 100(1-α)%ní interval spolehlivosti parametru λ, tj. λ D, λh. Jelikož tento interval spolehlivosti neobsahuje číslo +1, je mocninná a Boxova-Coxova transformace ze statistického hlediska výhodná a má smyl ji užívat. Po vhodné transformaci určíme, ( ) a potom pomocí zpětné transformace s využitím Taylorova rozvoje v okolí = 0.35465 odhadneme retransformované parametry = 0.14318 a = 0.00931 původních dat. Uvedený postup vede vesměs k lepším R odhadům polohy a rozptylu a je vhodný zvláště v případech takového asymetrického (exponenciálního) rozdělení výběru. Výběr pochází z exponenciálního rozdělení, a proto nejlepší odhad střední hodnoty získáme transformací dat, a to = 0.143 a směrodatnou odchylku = 0.145. Konečně 95%ní interval spolehlivosti bude D= 0.10 a H= 0.190.