VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

Podobné dokumenty
Kvantily a písmenové hodnoty E E E E-02

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

UNIVERZITA PARDUBICE

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Statistická analýza jednorozměrných dat

Transformace dat a počítačově intenzivní metody

Statistická analýza jednorozměrných dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Nejlepší odhady polohy a rozptýlení chemických dat

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

REGRESNÍ ANALÝZA. 13. cvičení

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

6 LINEÁRNÍ REGRESNÍ MODELY

Statistická analýza. jednorozměrných dat

Statistická analýza jednorozměrných dat

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

S E M E S T R Á L N Í

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Porovnání dvou reaktorů

Analýza závislosti veličin sledovaných v rámci TBD

4.4 Exploratorní analýza struktury objektů (EDA)

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Regresní a korelační analýza

Matematika I A ukázkový test 1 pro 2018/2019

Exploratorní analýza dat

S E M E S T R Á L N Í

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Statistická analýza jednorozměrných dat

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

Statistická analýza jednorozměrných dat

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...)

Normální (Gaussovo) rozdělení

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Metody matematické statistiky (NMAI 061)

STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Statistická šetření a zpracování dat.

KGG/STG Statistika pro geografy

Staré mapy TEMAP - elearning

Postup statistického zpracování výsledků stopové analýzy při použití transformace dat

MODELOVÁNÍ A SIMULACE

y = 0, ,19716x.

KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla

Neparametrické metody

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Porovnání dvou výběrů

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

STATISTIKA (pro navazující magisterské studium)

Využití logistické regrese pro hodnocení omaku

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

4EK211 Základy ekonometrie

Modul Základní statistika

PŘÍSPĚVEK K NEJISTOTÁM VÝSLEDKŮ MĚŘENÍ

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

Základy teorie odhadu parametrů bodový odhad

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Přednáška č. 11 Analýza rozptylu při dvojném třídění

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Normální (Gaussovo) rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

4EK211 Základy ekonometrie

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Přednášky část 4 Analýza provozních zatížení a hypotézy kumulace poškození, příklady. Milan Růžička

Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

u (x i ) U i 1 2U i +U i+1 h 2. Na hranicích oblasti jsou uzlové hodnoty dány okrajovými podmínkami bud přímo

Obsah. Příloha (celkový počet stran přílohy 13) Závěrečná zpráva o výsledcích experimentu shodnosti ZČB 2013/2

Průzkumová analýza dat

Kalibrace a limity její přesnosti

ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Digitální přenosové systémy a účastnické přípojky ADSL

n lokální působení různých vnějších faktorů ovlivňujících růst a zánik živých organismů n lokální variace vnitřních proměnných biologických systémů.

PRŮZKUMOVÁ ANALÝZA DAT (EDA)

Teorie efektivních trhů (E.Fama (1965))

Odhad parametrů N(µ, σ 2 )

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Charakterizace rozdělení

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Určení tlouštky folie metodou konvergentního elektronového svazku (TEM)-studijní text.

Lineární regrese. Komentované řešení pomocí MS Excel

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

Aplikace Li-Ma metody na scintigrafické vyšetření příštítných tělísek. P. Karhan, P. Fiala, J. Ptáček

Statistická analýza jednorozměrných dat

Příklady - Bodový odhad

Testy statistických hypotéz

Transkript:

VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT Mlan Meloun Unverzta Pardubce, Čs. Legí 565, 53 10 Pardubce, mlan.meloun@upce.cz 1. Obecný postup analýzy jednorozměrných dat V prvním kroku se v exploratorní analýze dat vyšetřují statstcké zvláštnost, jako je lokální koncentrace dat, tvarové zvláštnost rozdělení dat a přítomnost podezřelých hodnot. Odhalí se tak anomále a odchylky rozdělení výběru od předpokládaného symetrckého rozdělení Gaussova, (obr. 1). Příkladem asymetrckého rozdělení je log-normální rozdělení (obr. ). V druhém kroku se ověří základní předpoklady, kladené na výběr, jako jsou nezávslost prvků, homogenta výběru, dostatečný rozsah výběru a rozdělení výběru. Jsou-l závěry tohoto kroku optmstcké, následuje vyčíslení klasckých odhadů polohy a rozptýlení, tj. artmetckého průměru a rozptylu ve kroku čtvrtém. Sem patří konstrukce ntervalů spolehlvost a případně testování hypotéz. V opačném případě následuje pokus o třetí krok, obsahující symetrzující transformac dat. Ve třetím kroku se provádí mocnnná a Boxova-Coxova transformace, které mohou vést k symetrčtějšímu rozdělení výběru a umožňují provedení korektnějšího odhadu polohy a rozptýlení. Transformace je vhodná především př nekontantnost rozptylu a př asymetr rozdělení původních dat. Ve čtvrtém kroku se v konfrmatorní analýze nabízí paleta rozlčných odhadů polohy, rozptýlení a tvaru, jež lze rozdělt do skupn: klascké odhady a robustní odhady (nectlvé na odlehlé prvky výběru, resp. další předpoklady o datech). Z nabídky odhadů parametrů vybírá užvatel uvážlvě ty, jež mají statstcký smysl a odpovídají závěrům průzkumové analýzy dat a závěrům ověření předpokladů o výběru.. Průzkumová analýza dat (EDA).1 Dagnostcké grafy Prvním krokem v analýze jednorozměrných dat je průzkumová analýza. Vychází se z pořádkových statstk výběru tj. z prvků výběru, uspořádaných vzestupně x # x #... # x. Platí, že střední (1) () (n) hodnota -té pořádkové statstky x () je rovna 100P procentnímu kvantlu výběrového rozdělení Q(P ) a symbol P. /(n + 1) označuje pořadovou pravděpodobnost. V průzkumové analýze se - často používá specálních kvantlů L pro pořadové pravděpodobnost P =, = 1,,..., které se nazývají písmenové hodnoty. Kromě medánu exstují vždy dvojce kvantlů, defnujících dolní - - a horní písmenové hodnoty L D a L H, např. F D pro P = a F H pro P = 1 -. -tý kvantl 1 Medán -1 =1 / Kvartly - = 1 / 4 3 Oktly -3 = 1 / 8 4 Sedecly -4 = 1 / 16 Pořadová Písmenová pravděpodobnost P hodnota L Počet praktcky určtelných písmenových hodnot ve výběru velkost n L závsí na jeho rozsahu n, a to dle vzorce n L. 1.44 ln(n % 1). M F E D

Dagram rozptýlení (osa x: hodnoty x, osa y: lbovolná úroveň, např. y = 0). Představuje jednorozměrnou projekc kvantlového grafu do osy x. I př své jednoduchost ukazuje na lokální koncentrace dat a ndkuje podezřelá a vybočující měření. Rozmítnutý dagram rozptýlení (osa x: hodnoty x, osa y: nterval náhodných čísel). Dagram představuje projekc kvantlového grafu, body jsou však vhodně rozmítnuté ve směru osy y. Krabcový graf (osa x: úměrná hodnotám x, osa y: lbovolný nterval). Pro částečnou sumarzac dat lze využít krabcového grafu, který umožňuje znázornění robustního odhadu polohy, medánu M, dále posouzení symetre v okolí kvartlů, posouzení symetre u konců rozdělení, a konečně dentfkac odlehlých dat. Krabcový graf je obdélník o délce R F= F H - FD s vhodně zvolenou šířkou, která je úměrná hodnotě n. V místě medánu M je vertkální čára a úsečky obou krabcových fousů jsou ukončeny vntřním hradbam B H, B,dle D B H ' F H % 1.5 R F, B D ' F D & 1.5 R F Prvky výběru mmo nterval vntřních hradeb [B H, B,] D jsou považovány za podezřelé (obvykle vybočující body), což je v grafu znázorněno kroužky. Kvantlový graf (osa x: pořadová pravděpodobnost P, osa y: pořádková statstka x ()). Umožňuje přehledně znázornt data a snadněj rozlšt tvar rozdělení, který může být symetrcký, seškmený k vyšším nebo nžším hodnotám. Ke snadnějšímu porovnání s normálním rozdělením se do tohoto grafu zakreslují kvantlové funkce, N P = ˆµ + ˆσ u pro 0 # P # 1: (1) klasckých P, odhadů parametrů polohy a rozptýlení, tj. artmetckého průměru a směrodatné odchylky ˆµ = x a ˆσ = s, a dále () robustních odhadů, tj. medánu M, ˆµ = M a ˆσ = R F/1.349, kde R F= F H - FD je nterkvartlové rozpětí. Graf polosum (osa x: pořádkové statstky x, osa y: Z = 0.5 (x + x )). Pro symetrcké () (n + 1 -) () rozdělení je grafem horzontální přímka, určená rovncí y = M a body osclují okolo ní a vykazují náhodný shluk (mrak). Asymetrcké rozdělení vykazuje nenáhodný trend. Graf symetre (osa x: M - x (), osa y: x (n+1-) - M). Pro případ symetrckého rozdělení resultuje lneární závslost s nulovým úsekem a jednotkovou směrncí. Graf špčatost (osa x : u P / pro P ' /(n % 1), osa y : ln(x (n%1&) & x () )/(&u P ). Pro normální rozdělení je grafem horzontální přímka s nulovou směrncí. Pokud body leží na přímce s nenulovou směrncí je tato směrnce odhadem parametru špčatost. Graf rozptýlení s kvantly (osa x: P, osa y: x ()). Základem je odhad kvantlové funkce výběru, který se získá spojením bodů {x(), P} lneárním úseky. Pro symetrcká rozdělení má kvantlová funkce sgmodální tvar. Pro rozdělení seškmená k vyšším hodnotám je konvexně rostoucí a pro rozdělení seškmená k nžším hodnotám konkávně rostoucí. Do grafu se zakreslují tř obdélníky: kvartlový obdélník F: na y ose kvartly F a F a na ose x pořadové pravděpodob- - - nost P = = 0.5 a 1 - = 0.75 a analogcky další dva obdélníky, oktlový obdélník E a sedeclový obdélník D. Graf umožnuje určení dagnóz: 1. Symetrcké unmodální rozdělení výběru obsahuje vždy obdélníky symetrcky uvntř sebe.. Nesymetrcká rozdělení mají pro rozdělení seškmené k vyšším hodnotám vzdálenost mez dolním hranam obdélníků F, E a D výrazně kratší než mez jejch horním hranam. 3. Odlehlá pozorování jsou ndkována tím, že na kvantlové funkc mmo obdélník D se objeví náhlý vzrůst, kdy hodnota směrnce roste nade všechny meze. 4. Vícemodální rozdělení jsou ndkována tím, že na kvantlové funkc uvntř obdélníku F je několk úseků s téměř nulovým směrncem. Hstogram (osa x: proměnná x, osa y: uměrná hustotě pravděpodobnost). Jde o obrys sloupcového grafu, kde jsou na ose x jednotlvé třídy, defnující šířky sloupců, a výšky sloupců odpovídají emprckým hustotám pravděpodobnost. Kvaltu hstogramu ovlvňuje ve značné míře volba počtu tříd L a všech délek ntervalů x. Pro přblžně symetrcká rozdělení výběru lze j D H

počítat L podle vztahu L = nt( n), kde funkce nt(x) označuje celočíselnou část čísla x a v šrokém rozmezí velkostí výběrů n užjeme výraz L ' nt(.46 (n & 1) 0.4 ). Jádrový odhad hustoty pravděpodobnost (osa x: x, osa y: hustota pravděpodobnost). Pro malé a střední výběry se konstruují jádrové odhady hustoty podle vztahu ˆ f(x) ' y ' g(x) ' 1 nh j n '1 K (x & x j ) h kde šířka pásu h určuje stupeň vyhlazení. Jádrová funkce K(x) je symetrcká kolem nuly a má všechny vlastnost hustoty pravděpodobnost. O kvaltě odhadu hustoty pravděpodobnost rozhoduje volba parametru h. Pro výběry velkost n z přblžně normálního rozdělení se známým rozptylem σ je optmální šířka pásu h opt '.34 σ n &0.. Kvantl-kvantlový graf (graf Q-Q) (osa x: Q (P), osa y: x ). Umožňují posoudt shodu S () výběrového rozdělení, jež je charakterzováno kvantlovou funkcí Q (P) s kvantlovou funkcí E zvoleného teoretckého rozdělení Q(P). Jako odhad kvantlové funkce výběru se využívají T pořádkové statstky x (). Př shodě výběrového rozdělení se zvoleným teoretckým rozdělením platí přblžná rovnost kvantlů x (). Q T (P ), kde P je pořadová pravděpodobnost a závslost x () na Q(P) je přblžně přímka. Korelační koefcent r je pak krtérem těsnost proložení této přímky T xy př hledání typu neznámého rozdělení. Pro porovnání rozdělení výběru s rozdělením normálním se Q-Q graf nazývá graf ranktový. Pravděpodobnostní graf (P-P graf), (osa x: P, osa y: F T (S()). Pravděpodobnostní grafy jsou alternatvou ke Q-Q grafům. Slouží k porovnání dstrbuční funkce výběru, vyjádřené přes pořadovou pravděpodobnost, se standardzovanou dstrbuční funkcí zvoleného teoretckého rozdělení. Standardzovaná proměnná je zde defnována vztahem S () ' (x () & Q)/R, kde Q je parametr polohy nebo prahová hodnota a R je parametr rozptýlení nebo-l parametr měřítka. Kruhový graf slouží k vzuálnímu ověření hypotézy, že výběr pochází ze symetrckého (nejčastěj Gaussova) rozdělení. V takovém případě je grafem regulární, konvexní polygon, blízký kružnc. Odchylky od kružnce ukazují na jné než symetrcké rozdělení výběru: (a) protáhlý elpsovtý tvar s hlavní osou, umístěnou úhlopříčně ukazuje na asymetrcké rozdělení, (b) elpsovtý tvar podél x-ové osy ukazuje na rovnoměrné rozdělení.. Ověření předpokladů o datech V prax se nejčastěj předpokládá náhodný výběr o velkost n, tj. {x}, = 1,..., n. Reprezentatvní náhodný výběr je charakterzován třem důležtým předpoklady, které je třeba před vlastní analýzou ověřt. Jsou to nezávslost, homogenta a případná normalta výběru..3 Transformace dat Pokud se na základě analýzy dat zjstí, že rozdělení výběru dat se systematcky odlšuje od rozdělení normálního, vznká problém, jak data vůbec vyhodnott. Pak je často vhodná transformace dat, která vede ke stablzac rozptylu, zesymetrčtění rozdělení a někdy k normaltě. Zesymetrčtění rozdělení výběru je možné provést užtím jednoduché (prosté) mocnnné transformace x λ λ >0 lnx pro λ ' 0 &x & λ λ <0 Mocnnná transformace však nezachovává měřítko, není vzhledem k hodnotě λ všude spojtá a hodí se pouze pro kladná data. Optmální odhad exponentu λ se hledá s ohledem na optmalzac,.

charakterstk asymetre, (škmost) a špčatost. K určení optmálního λ lze užít selekčního grafu dle Hnese a Hnesové. Hnesové-Hnesův selekční graf (osa x: x 0.5/x 1-P, osa y: x P/ x 0.5). Vychází z požadavků x P / x λ &λ symetre jednotlvých kvantlů kolem medánu 0.5 % x 0.5 / x 1 &P ', kde jako kvantly jsou obvykle voleny písmenové hodnoty. Podle umístění expermentálních bodů v okolí teoretckých křvek selekčního grafu lze odhadovat velkost λ a posuzovat kvaltu transformace v různých vzdálenostech od medánu. Pro přblížení rozdělení výběru k rozdělení normálnímu vzhledem k škmost a špčatost se užívá Boxovy-Coxovy transformace y ' g(x) ' x λ & 1 λ (λ 0) lnx (λ ' 0) Boxova-Coxova transformace je použtelná pouze pro kladná data. Rozšíření této transformace na oblast, kdy rozdělení dat začíná od prahové hodnoty x 0, spočívá v náhradě x rozdílem (x - x 0), který je vždy kladný. Graf logartmu věrohodnostní funkce (osa x: λ, osa y: ln L). Pro odhad λ v Boxově-Coxově transformac lze užít metodu maxmální věrohodnost s tím, že pro λ = ˆλ je rozdělení transformované velčny y normální, N(µ y, σ (y)). Po úpravách bude logartmus věrohodnostní funkce ve tvaru ln L(λ) ' & n ln s (y) % (λ & 1) j n kde s (y) je výběrový rozptyl transformovaných dat y. Průběh věrohodnostní funkce ln L = f(λ) lze znázornt ve zvoleném ntervalu např. -3 # λ # 3 a dentfkovat maxmum křvky, jehož x-ová souřadnce ndkuje ˆλ. Dva průsečíky křvky ln L(λ) s rovnoběžkou s x-ovou osou ndkují 100(1- α)%ní nterval spolehlvost parametru λ. Čím bude tento nterval spolehlvost šrší, tím je mocnnná Boxova-Coxova transformace méně výhodná. Pokud obsahuje tento nterval hodnotu λ = 1, není transformace ze statstckého hledska přínosem. Zpětná transformace: po vhodné transformac určíme ȳ, s (y) a potom pomocí zpětné transformace s využtím Taylorova rozvoje v okolí ȳ odhadneme retransformované parametry x R a s ( x R ) původních dat. Uvedený postup vede vesměs k lepším odhadům polohy a rozptylu zvláště v případech asymetrckého rozdělení. 3. Průběh průzkumové analýzy dat Průběh vlastní průzkumové, exploratorní analýzy dat (EDA) je možné lbovolně kombnovat. Předpokládá se, že rozdělení dat je normální a data as splňují předpoklady nezávslost a homogenty. Účelem je a) testování nezávslost prvků výběru - autokorelace, b) testování homogenty výběru, c) testování normalty rozdělení výběru. Z grafckých metod se k předběžné analýze rutnních dat nejčastěj užívá ranktových grafů a grafů rozptýlení s kvantly. Nejsou-l však o rozdělení dat dostupné žádné nformace nebo očekává-l se výrazně nenormální rozdělení, je vhodné provést a) průzkumovou analýzu dat s využtím grafckých dagnostk, b) určení výběrového rozdělení a jeho konstrukc. Pokud nebylo nalezeno vhodné aproxmující rozdělení, provádí se vždy mocnnná transformace nebo Boxova-Coxova transformace, která by měla zlepšt rozdělení dat. Kombnace metod závsí na konkrétních datech a konkrétních požadavcích analýzy. '1 ln x

4. Ilustratvní příklad Na příkladu kontroly obsahu ergosternu v calcferolu ukážeme využtí postupu průzkumové analýzy dat a vyčíslení střední hodnoty. Obsah ergosternu [%]: 0.10, 0.188, 0.680, 0.140, 0.4, 0.000, 0.31, 0.050, 0.066, 0.670, 0.55, 0.318, 0.077, 0.150, 0.10, 0.03, 0.340, 0.150, 0.410, 0.074, 0.169, 0.301, 0.080, 0.100, 0.043, 0.30, 0.151, 0.094, 0.045, 0.140, 0.130, 0.130, 0.000, 0.160, 0.90, 0.058, 0.033, 0.00, 0.490, 0.000, 0.183, 0.069, 0.114. Řešení: 1. Zkoumání zvláštností dat: grafcké dagnostky ndkují vedle stupně symetre a špčatost rozdělení také odlehlé body. (a) Odhalení stupně symetre a špčatost rozdělení: celkem 1 grafckých dagnostk ndkuje symetr a špčatost rozdělení s těmto závěry: Dagram rozptýlení a rozmítnutý dagram rozptýlení Krabcový graf Kvantlový graf Graf polosum Graf symetre Graf špčatost Graf rozptýlení s kvantly Hstogram

Graf hustoty pravděpodobnost Ranktový Q-Q graf k vyšetření normalty P-P graf Kruhový graf 1. Dagram rozptýlení a rozmítnutý dagram rozptýlení: ukazuje na 4 až 6 odlehlých bodů v horní část dagramu.. Krabcový (vrubový) graf: v horní část je detekováno 6 odlehlých bodů. Krabce je rozdělena na dvě část medánem. Je vyznačen nterval spolehlvost medánu. 3. Kvantlový graf: je patrný velký rozdíl mez symetrckým Gaussovým a emprckým rozdělením. Tvar křvky je charakterstcký pro asymetrcké rozdělení, slně seškmené k vyšším hodnotám. 4. Graf polosum: ndkuje značnou část bodů jako vybočujících ze symetrckého rozdělení. Body ležící na medánové rovnoběžce s x-ovou osou pocházejí ze symetrckého rozdělení, ostatní body nkolv. 5. Graf symetre: ndkuje valnou část bodů jako vybočujících ze symetrckého rozdělení nebo body patřící do asymetrckého rozdělení. 6. Graf špčatost: většna bodů neleží na rovnoběžce s x-ovou osou pro symetrcké rozdělení, a proto je ndkováno rozdělení asymetrcké. 7. Graf rozptýlení s kvantly: asymetre kvantlových obdélníků obdélníků dokazuje slně asymetrcké rozdělení. Body ležící vně sedeclového obdélníka ndkuje tato pomůcka jako body odlehlé. 8. Hstogram: zřetelně ukazuje na asymetrcké rozdělení seškmené k vyšším hodnotám. 9. Jádrový odhad hustoty pravděpodobnost: ve srovnání s Gaussovým rozdělením je u emprcké křvky patrné slné seškmení k vyšším hodnotám. Emprckou křvku nelze aproxmovat symetrckým Gaussovým rozdělením. 10. Ranktový Q-Q graf: jelkož většna bodů neleží na přímce Gaussova rozdělení jde o asymetrcké rozdělení. 11. Pravděpodobnostní P-P graf: emprcká křvka nesouhlasí s žádnou křvkou symetrckého rozdělení (normálního, rovnoměrného a Laplaceova). Rozdělení je proto asymetrcké. 1. Kruhový graf: tvar elpsy dokazuje slně asymetrcké rozdělení seškmené k vyšším hodnotám. V exploratorní analýze dat umožňují kvantly a písmenové hodnoty posoudt jednak symetr výběrového rozdělení a jednak procento prvků ve výběru, např. pro procento 45 je kvantl 0.1300, což znamená, že pod hodnotou 0.1300 leží 45% a nad 55% prvků výběru.

(b) Indkace lokální koncentrace dat a rozdělení výběru: aktuální výběrové rozdělení je asymetrcké, s dlouhým horním koncem s větší koncentrací bodů ve spodní část hodnot. Z analýzy kvantl-kvantlového Q-Q grafu vyplývá, že nejvyšší hodnoty korelačního koefcentu r xy = 0.98963 je dosaženo pro exponencální rozdělení. Určení výběrového rozdělení na základě Q-Q grafu (ADSTAT) Lnearta kvantl-kvantlovém (Q-Q) grafu y = β 0 + β 1 x: Rozdělení Směrnce β0 Úsek β1 Korelační koefcent rxy Laplaceovo 1.1077E-01 1.7671E-01 9.63E-01 Normální 1.4976E-01 1.7671E-01 9.054E-01 Exponencální 1.6708E-01 1.594E-0 9.8963E-01 Rovnoměrné 4.8940E-01-6.7991E-0 8.91E-01 Lognormální 9.0554E-0 3.416E-0 9.6956E-01 (c) Nalezení vybočujících prvků ve výběru: z grafckých dagnostk průzkumové (exploratorní) analýzy výběru byly nalezeny 3 až 6 podezřelých bodů, které by mohly být chápany v symetrckém rozdělení jako odlehlé. Jelkož však jde o asymetrcké rozdělení exponencální, nemá smyslu ndkovat odlehlé body.. Ověření předpokladů o datech: Reprezentatvní náhodný výběr je charakterzován třem důležtým předpoklady, které je třeba před vlastní analýzou ověřt. Z klasckých odhadů byl vyčíslen odhad artmetckého průměru x = 0.177 a odhad směrodatné odchylky s = 0.159. Odhad škmost ĝ 1 = 1.54 a odhad špčatost je ĝ = 5.36 ukazoval na seškmené rozdělení. (a) Ověření normalty rozdělení: Na předpokladu normalty je založena celá statstcká analýza dat. Test kombnace výběrové škmost a špčatost ukázal, že normalta výběrového rozdělení je zamítnuta na vypočtené hladně významnost 1.654E-08. (b) Ověření nezávslost prvků výběru: K dentfkac časové závslost prvků výběru nebo jné vntřní závslost se testuje významnost autokorelačního koefcentu prvního řádu podle von Neumannova testovacího krtéra t n = 0.4049, které bylo nžší než krtcká hodnota t 1-α/(n+1) =.0141, a proto nezávslost prvků ve výběru byla prokázána. (c) Ověření homogenty rozdělení výběru: Homogenní výběr znamená, že všechny jeho prvky pocházejí ze stejného rozdělení s konstantním rozptylem. Vybočující měření slně zkreslují odhady polohy a zejména rozptylu s, takže zcela znehodnocují další statstckou analýzu. Testování vybočujících měření bez doplňkových nformací průzkumové analýzy dat je málo spolehlvé. Krtérum vntřních mezí určlo odlehlé body, a to bod č. 14 a 3. Doplněním nformací z průzkumové analýzy lze dentfkovat exponencální rozdělení výběru, které jž odlehlé body mít nebude, takže toto vyloučení dvou bodů nemá statstcký smysl. (d) Určení mnmálního rozsahu výběru: Uvažujeme-l 5% relatvní chybu směrodatné odchylky, bude mnmální rozsah výběru n = 18, pro 10% relatvní chybu směrodatné odchylky pak n = 110 a pro 5% relatvní chybu směrodatné odchylky bude n = 437. 3. Transformace dat: Jelkož se na základě průzkumové analýzy dat zjstlo, že rozdělení výběru dat se slně odlšuje od rozdělení normálního, vyvstává zde problém, jak vůbec vyhodnott odhad střední hodnoty, když nelze použít artmetcký průměr. V takovém případě je vhodná transformace dat, která vede ke stablzac rozptylu, zesymetrčtění rozdělení a v případě Box- Coxovy transformace k normaltě.

(a) Mocnnná transformace: Zesymetrčtění rozdělení výběru je možné provést užtím jednoduché (prosté) mocnnné transformace. Pro odhad exponentu λ se hledají optmální hodnoty charakterstk asymetre (škmost) a špčatost. K určení optmálního λ lze ale také užít orentační grafcké metody, selekčního grafu dle Hnese a Hnesové. Podle umístění expermentálních bodů v okolí teoretckých křvek selekčního grafu byla odhadnuta velkost exponentu 0.5. (b) Box-Coxova transformace: Pro přblížení rozdělení normálnímu vzhledem k škmost a špčatost se užívá Boxovy-Coxovy transformace. Pro odhad parametru λ v Boxově-Coxově transformac lze užít metodu maxmální věrohodnost s tím, že pro λ = ˆλ je rozdělení transformované velčny y nejblíže normálnímu, N(µ y, σ (y)). Průběh věrohodnostní funkce ln L = f(λ) lze znázornt ve zvoleném ntervalu např. -3 # λ # 3 a dentfkovat maxmum křvky v grafu logartmu věrohodnostní funkce tak, že x-ová souřadnce ndkuje nejlepší odhad ˆλ. Dva průsečíky křvky věrohodnostní funkce ln L(λ) s rovnoběžkou s x-ovou osou ndkují 100(1-α)%ní nterval spolehlvost parametru λ, tj. +λ D, λ H,. Jelkož tento nterval spolehlvost neobsahuje číslo +1, je mocnnná a Boxova-Coxova transformace ze statstckého hledska výhodná a má smyl j užívat. Po vhodné transformac se určí ȳ, s (y) a potom pomocí zpětné transformace s využtím Taylorova rozvoje v okolí ȳ = 0.35465 se odhadne retransformované parametry x R = 0.14318 a s R = 0.00931 původních dat. Uvedený postup vede vesměs k lepším odhadům polohy a rozptylu a je vhodný zvláště v případech takového asymetrckého rozdělení výběru. Mocnnná a Box-Coxova transformace (ADSTAT) Prostá mocnnná transformace, a Box-Coxova transformace (dává stejné výsledky): Odhad optmálního exponentu ˆλ 0.53 Opravený odhad průměru původních dat x R 0.143 Opravený odhad směrodatné odchylky původních dat sr 0.145 Spodní mez ntervalu spolehlvost původních dat LD 0.10 Horní mez mez ntervalu spolehlvost původních dat LH 0.190 4. Závěr: Pro asymetrcké rozdělení nelze užít za odhad střední hodnoty artmetcký průměr x = 0.177 se směrodatnou odchylkou s = 0.159. Protože výběr pochází z exponencálního rozdělení, je nejlepším odhadem střední hodnoty retransformovaný průměr x R = 0.143 s retransformovanou směrodatnou odchylkou s R = 0.145. Konečně 95%ní nterval spolehlvost retransformovaného průměru bude L D= 0.10 a L H = 0.190. Tomuto rgoróznímu odhadu střední hodnoty se nejvíce blíží jeho robustní odhad, a to medán = 0.140. x 0.5 5. Doporučená lteratura [1] Meloun M., Mltký J.: Statstcké zpracování expermentálních dat, PLUS Praha 1994, ISBN 80-8597-56-6. [] Meloun M., Mltký J.: Statstcké zpracování expermentálních dat - Sbírka úloh s dsketou, Unverzta Pardubce 1997, ISBN 80-7194-075-5. [3] Kupka K.: Statstcké řízení jakost, Trlobyte Pardubce 1998, ISBN 80-38-1818-X. [4] Mltký J.: Moderní statstcké metody pro žvotní prostředí, PHARE, Svazek 15, Vysoká škola báňská, Ostrava 1996, ISBN 80-7078-360-5.

Obr. 1 Přehled EDA dagnostk př analýze výběru normálního rozdělení N(10, 0.1), SPlus

Obr.. Přehled EDA dagnostk př analýze výběru logartmcko-normálního rozdělení LN(5, ), SPlus