PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT

Podobné dokumenty
VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

Kvantily a písmenové hodnoty E E E E-02

Nejlepší odhady polohy a rozptýlení chemických dat

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat

Transformace dat a počítačově intenzivní metody

6 LINEÁRNÍ REGRESNÍ MODELY

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

REGRESNÍ ANALÝZA. 13. cvičení

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

UNIVERZITA PARDUBICE

Statistická analýza. jednorozměrných dat

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

Matematika I A ukázkový test 1 pro 2018/2019

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

MODELOVÁNÍ A SIMULACE

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

Analýza závislosti veličin sledovaných v rámci TBD

VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

Statistická šetření a zpracování dat.

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...)

Regresní a korelační analýza

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Statistická analýza jednorozměrných dat

4.4 Exploratorní analýza struktury objektů (EDA)

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

Porovnání dvou reaktorů

Charakterizace rozdělení

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

S E M E S T R Á L N Í

Neparametrické metody

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Metody matematické statistiky (NMAI 061)

u (x i ) U i 1 2U i +U i+1 h 2. Na hranicích oblasti jsou uzlové hodnoty dány okrajovými podmínkami bud přímo

S E M E S T R Á L N Í

y = 0, ,19716x.

Porovnání dvou výběrů

KGG/STG Statistika pro geografy

Základy teorie odhadu parametrů bodový odhad

Aplikace Li-Ma metody na scintigrafické vyšetření příštítných tělísek. P. Karhan, P. Fiala, J. Ptáček

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Staré mapy TEMAP - elearning

Statistická analýza jednorozměrných dat

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Exploratorní analýza dat

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

4EK211 Základy ekonometrie

Využití logistické regrese pro hodnocení omaku

Přednášky část 4 Analýza provozních zatížení a hypotézy kumulace poškození, příklady. Milan Růžička

PRAVDĚPODOBNOST A STATISTIKA

A[a 1 ; a 2 ; a 3 ] souřadnice bodu A v kartézské soustavě souřadnic O xyz

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Normální (Gaussovo) rozdělení

IDENTIFIKACE BIMODALITY V DATECH

Postup statistického zpracování výsledků stopové analýzy při použití transformace dat

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

POROVNÁNÍ MEZI SKUPINAMI

Průzkumová analýza dat

Obsah. Příloha (celkový počet stran přílohy 13) Závěrečná zpráva o výsledcích experimentu shodnosti ZČB 2013/2

PRAVDĚPODOBNOST A STATISTIKA

Statistická analýza jednorozměrných dat

Modul Základní statistika

4EK211 Základy ekonometrie

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má

Normální (Gaussovo) rozdělení

Pravděpodobnost a matematická statistika

STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

POUŽITÍ METODY PERT PŘI ŘÍZENÍ PROJEKTŮ

MATEMATIKA II - vybrané úlohy ze zkoušek v letech

PŘÍSPĚVEK K NEJISTOTÁM VÝSLEDKŮ MĚŘENÍ

Statistická analýza jednorozměrných dat

Přednáška č. 11 Analýza rozptylu při dvojném třídění

7. Analýza rozptylu jednoduchého třídění

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

Lineární regrese. Komentované řešení pomocí MS Excel

KGG/STG Statistika pro geografy

Regresní analýza 1. Regresní analýza

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

POTENCIÁL ELEKTRICKÉHO POLE ELEKTRICKÉ NAPĚTÍ

FYZIKA I. Pohybová rovnice. Prof. RNDr. Vilém Mádr, CSc. Prof. Ing. Libor Hlaváč, Ph.D. Doc. Ing. Irena Hlaváčová, Ph.D. Mgr. Art.

MATEMATIKA II - vybrané úlohy ze zkoušek ( 2015)

Testování statistických hypotéz

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

Transkript:

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Expermentální data se v analytcké laboratoř často vyznačují nekonstantním rozptylem, malou četností, asymetrckým rozdělením a porušením základních předpokladů, kladených na výběr. Uveďme nejprve 3 etapy obecné osnovy analýzy výběru dat. A. V průzkumové analýze dat se vyšetřují statstcké zvláštnost dat, jako je lokální koncentrace dat, tvarové zvláštnost rozdělení dat a přítomnost podezřelých hodnot. Odhalí se také anomále a odchylky rozdělení výběru od typckého rozdělení, obyčejně normálního č Gaussova. Interaktvní statstcká analýza na počítač tento postup ulehčuje, většna statstckého software nabízí řadu dagnostckých grafů a dagramů. Pokud je rozdělení dat nevhodné pro standardní statstckou analýzu (tj. většnou je asymetrcké), provádí se nejprve vhodná transformační úprava dat. Pokud bylo ndkováno seškmené rozdělení nebo rozdělení s dlouhým konc, pomocníkem je mocnnná a Boxova-Coxova transformace. Transformace je vhodná především př asymetr rozdělení původních dat, ale také př nekonstantnost rozptylu. B. Pro případ rutnních měření se ověří základní předpoklady, kladené na výběr, jako jsou nezávslost prvků, homogenta výběru, dostatečný rozsah výběru a rozdělení výběru. Jsou-l závěry tohoto kroku optmstcké, následuje vyčíslení klasckých odhadů polohy a rozptýlení, tj. obyčejně artmetckého průměru a rozptylu. Dále se vyčíslí ntervaly spolehlvost, následované testováním statstckých hypotéz. V pesmstckém případě následuje další pokus o úpravu dat. C. V konfrmatorní analýze je nabízena paleta rozlčných odhadů polohy, rozptýlení a tvaru, jež lze rozdělt do dvou skupn: na klascké odhady anarobustní odhady (nectlvé na odlehlé prvky výběru, resp. další předpoklady o datech). Z nabídky odhadů parametrů vybírá užvatel uvážlvě ty, jež mají statstcký smysl a odpovídají závěrům průzkumové analýzy dat a ověření předpokladů ovýběru. 1, 3, 5 Postup statstcké analýzy jednorozměrných dat, prováděné v nteraktvním režmu na počítačlzeshrnout do bloků operací, když lze jednotlvé operace provádět samostatně: operace A, operace B, operace A+B, operace B+C a konečně všechny operace A+B+C. Přehled operací analýzy jednorozměrných dat A. Průzkumová (exploratorní) analýza dat (EDA): Odhalení stupně symetre a špčatost výběrového rozdělení; Indkace lokální koncentrace výběru dat; Nalezení vybočujících a podezřelých prvků ve výběru; Porovnání výběrového rozdělení dat s typckým rozdělením; Mocnnná transformace výběru dat; Box-Coxova transformace výběru dat. B. Ověření předpokladů o datech: Ověření nezávslost prvků výběru dat; Ověření homogentyrozdělení výběru dat; Určení mnmálního rozsahu výběru dat; Ověření normalty rozdělení výběru dat. C. Konfrmatorní analýza dat (CDA) - odhady parametrů (polohy, rozptýlení a tvaru) 1. Klascké odhady (bodové a ntervalové) výběru dat;. Robustní odhady (bodové a ntervalové) výběru dat.

Vzorováúloha.1 Analýza dat normálního a log.-normálního rozdělení Analýza smulovaných dat výběru, pocházejícího z (a) rozdělení normálního norm N(10, 0.1) az(b) rozdělení logartmcko-normálního log L(5, ). Data: (a) Výběr norm: 10.0010 9.990 10.0370 9.9490 10.1850 9.9590 10.0630 9.8790 10.0500 9.8460.............................. 10.0370 10.0110 9.9310 9.9870 9.9550 10.0130 10.000 10.1150 10.050 (b) Výběr log:.408 5.389.59.439.173 1.157 0.89 0.498 0.351 1.9...............................816 0.666 4.97 0.451 1.316 3.41 0.316.00 8.91 0.815 Řešení: u jednotlvých dagnostckých dagramů a grafů budou uvedeny vždy dvě ukázky, jednak pro výběr ze symetrckého normálního rozdělení norm N(10, 0.1) a jednak pro výběr z asymetrckého logartmckonormálního rozdělení log L(5, ). Čtenář může porovnat, jak jednotlvé dagnostcké pomůcky montorují symetrcké a slně asymetrcké rozdělení..1 Průzkumová (exploratorní) analýza dat EDA Prvnímkrokemvanalýze jednorozměrných dat je průzkumová čl exploratorní analýza. Vychází se z pořádkových statstk výběru tj. z prvků výběru, uspořádaných vzestupně x (1) # x () #... # x (n). Platí, že střední hodnota -té pořádkové statstky E(x ) je rovna 100P procentnímu kvantlu výběrového rozdělení Q(P ) a symbol P. /(n + 1) () označuje pořadovou pravděpodobnost. Přpomeňme, že 100P procentní výběrový kvantl je hodnota, pod kterou leží 100P procent prvků výběru. Vynesením hodnot x() prot P, = 1,..., n, sezíská hrubý odhad kvantlové funkce Q(P ). Tajenverzní k funkc dstrbuční F(x ) a charakterzuje jednoznačně rozdělení výběru. Pro lbovolnou hodnotu α z ntervalu [0, 1] lze vyčíslt 100α%ní kvantl x α pomocí lneární nterpolace x α (n 1) α n 1 (x (1) x () ) x () kde pro ndex musí být splněna nerovnost α 1. Pro rozptyl kvantlu x n 1 n 1 α, určeného z výběru α (1 α) velkost n, platí vztah D( x α ), kde f( x n [ f( x α )] α )je výběrová hodnota hustoty pravděpodobnost v bodě x α. - Vprůzkumové analýze se často používá specálních kvantlů L pro pořadové pravděpodobnost P =, =1,,...,kterése také nazývají písmenové hodnoty. -tý kvantl Pořadová pravděpodobnost P 1 Medán -1 =1/ Kvartly - = 1 / 4 3 Oktly -3 = 1 / 8 4 Sedecly -4 = 1 / 16 Písmenová hodnota L Symbol u P označuje kvantl normovaného normálního rozdělení N(0, 1). Kromě medánu ( =1)exstují pro každé > 1 dvojce kvantlů, atodolní a horní písmenová hodnota LD a L.Dolní H písmenová hodnotajepropořadovou - - pravděpodobnost P=,zatímco horní je pro P=1-. M F E D

Pro odhad písmenových hodnot lze použít jednoduché technky pořadí a hloubek. Pořádková statstka x() má rostoucí pořadí R P =aklesající pořadí K P = n + 1 -. Hloubka H je pak menší číslo z obou pořadí H mn(r P, K P ). Pro hloubku medánu platí H M n 1. Pokud je tato hloubka celé číslo, je medán x 0.5 M x (HM ). Vopačném případě se provádí lneární nterpolace mez x(n/) a x (n/+1). Hloubky dolních písmenných hodnot jsou H L [1 nt (H L1 )]/, kde L jsou ndexy F, E, D ant(x)značí celočíselnou část čísla x. Pokud je L = F,bereseL -1=M.Jestlže jehl celé číslo, bude dolní kvantl L D = x(h ahorní kvantl L = x L ) H (n+1- H. Je-l H číslo necelé, provádí se lneární nterpolace podle vztahů L ) L L D x x nt(h L ) nt(hl )1 L H x x n 1 nt(h L ) n nt(hl ) a. Tento postup se pro menší hodnoty H,kdy L jsou kvantly blízko hodnot x(1) a x (n), považujezarobustnější. Počet písmenových hodnot závsí na rozsahu výběru. Pro velkost výběru n lze určt nl písmenových hodnot včetně medánu. Platí, že n L. 1.44 ln(n 1). Obr..1 Grafcko-tabelární schéma sumarzace dat: (a) obecné schéma písmenově-číslcového zápsu výběru, (b) sedmpísmenový záps výběru {36, 37, 45, 5, 56, 58, 66, 68, 75, 90, 100}. Mez základní statstcké zvláštnost rozdělení dat patří symetre výběrového rozdělení a jeho relatvní délky konců ve srovnání snormálnímrozdělením. K vyjádření symetre a špčatost v různých vzdálenostech od medánu se užívají jednoduché funkční charakterstky, založené na písmenových hodnotách. Ze vztahu pro délku konců T L vnásledující tabulce lze snadno určt jejch teoretcké velkost pro vybraná symetrcká rozdělení, ato(t,t) E D hodnoty: normální rozdělení (0.534; 0.8), rovnoměrné rozdělení (0.405; 0.559) a Laplaceovo rozdělení (0.693; 1.098). Pro rozdělení seškmená kvyšším hodnotám jsou hodnotyškmost SL záporné, př seškmení knžším hodnotám jsou kladné (vz tabulka Charakterstk škmost a špčatost výběrového rozdělení). Pro rozdělení sdelším konc než má normální rozdělení rostou hodnoty pseudosgmy GL se vzdáleností od medánu. Když hodnoty GL klesají srostoucívzdáleností od medánu, má výběrové rozdělení kratší konce než normální. K posouzení statstckých zvláštností dat se používá různých grafů, využívajících charakterstk z tabulky. Pro větší výběry se v grafech znázorňují pouze funkce písmenových hodnot, zatímco pro menší výběry se využívá všech kvantlů x P = x() obyčejně přvolbě P [ 0.333]/[n 0.333]. Charakterstky škmost a špčatost výběrového rozdělení Název Defnce Charakterzuje Platí pro L Polosuma ZL 0.5 (L D+ L H) symetr př Z L=0 F, E, D,... Rozpětí R L (LH-L D) rozptýlení F, E, D,... Škmost S L (M-Z)/R L L symetr př S L=0 F, E, D,... *) Pseudosgma GL R L/ (- up špčatost (Gaussovo G =konst.) F, E, D,... ) L Délky konců TL ln (R L/ R F) špčatost E, D *) u P je kvantl standardzovaného normálního rozdělení pro P =-.

Dagram rozptýlení (osa x: hodnotyx, osa y: lbovolná úroveň, např. y = 0). Představuje jednorozměrnou projekc kvantlového grafu do osy x. I př své jednoduchost ukazuje na lokální koncentrace dat a ndkuje podezřelá avybočující měření. Obr.. Dagram rozptýlení a rozmítnutý dagram rozptýlení pro výběry (shora dolu): (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT Rozmítnutý dagram rozptýlení (osa x: hodnotyx, osay: nterval náhodných čísel). Dagram představuje rovněž projekc kvantlového grafu, body jsou však pro lepší přehlednost vhodně rozmítnuté. 14,0 Dot Plot 9,3 4,7 0,0 log Varables Obr..3 Rozmítnutý dagram rozptýlení pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, NCSS000 Dagram percentlů (osa x: proměnná, osa y: percently). Dagram zobrazuje vybrané percently. Jsou to obvykle ntervaly 0-, -5, 5-10, 10-15, 15-5, 5-35, 35-45, 45-55, 55-65, 65-75, 75-85, 85-90, 90-95, 95-99, 99-100. Z výsledného obrazce lze usoudt na symetr rozdělení nebo na jeho tvar. Obr..4 Dagram některých percentlů pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, NCSS000

Houslový dagram (osa x: název výběru proměnné, osay: percently, hodnoty proměnné). Dagram je kombnací krabcového grafu a dvou vertkálních, zrcadlově k sobě zobrazených grafů hustoty. Jeden graf hustoty roste směrem doprava a druhý doleva. Dagram zobrazuje píky a údolí stejně jako graf hustoty pravděpodobnost. Medán je zobrazen černým kolečkem a začátek a konec úsečky zobrazuje dolní a horní kvantl. Houslový dagram se jmenuje dle přpomínajícího tvaru houslí. Normální rozdělení se projeví v symetrckém tvaru houslí zatímco log.-normální v slně asymetrckémtvaru. 14,0 Voln Plot 9,3 4,7 0,0 log Varables Obr..5 Houslový dagram pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, NCSS000 Krabcový graf (osa x: úměrná hodnotám x, osay: nterval úměrný hodnotě n). Pro částečnou sumarzac dat lze využít krabcového grafu, který umožňuje znázornění robustního odhadu polohy, medánu M, dále posouzení symetre v okolí kvartlů, posouzení symetre u konců rozdělení, akonečně dentfkac odlehlých dat. Krabcový graf je obdélník odélce R F= FH - FD s vhodně zvolenou šířkou, která je úměrná hodnotě n. Vmístě medánu M je vertkální čára. Odobouprotlehlých stran tohoto obdélníku pokračujíúsečky. Ty jsou ukončeny vntřním hradbam B H, B D, pro které platí B H F H 1.5 R F, B D F D 1.5 R F. Prvky výběru, ležící mmo nterval vntřních hradeb [B H,B,] D jsoupovažovány za podezřelé, obvykle vybočující body, v grafu jsou znázorněny kroužky. Obr..7 Vrubový krabcový graf pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT Vrubový krabcový graf (osa x: úměrná hodnotám x, osay: nterval úměrný hodnotě n). Obdobou krabcového grafu je vrubový krabcový graf, který umožňuje také posouzení varablty medánu. Tajetotž vyjádřena dolní a horní mezí ntervalu spolehlvost medánu, ID M I H, který bývá znázorněn vokolí medánu bílým proužkem.

Graf polosum (osa x: pořádkové statstky x, osa y: Z = 0.5 (x + x )). () (n + 1 -) () Obr..8 Graf polosum pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmckonormálního) rozdělení, ADSTAT Pro symetrcké rozdělení je grafem polosum horzontální přímka, určená rovncí y = M. U tohoto grafu je důležté, že zde body osclují okolo horzontální přímky a vykazují tak náhodný shluk (mrak) a měřítko y-nové osy je slně detalní. Naopak asymetrcké rozdělení vykazuje nenáhodný trend a body pak neosclují okolo horzontální přímky aměřítko y-nové osy není detalní. Graf symetre (osa x: M-x (),osay: x(n+1-) - M). Symetrcká rozdělení jsou charakterzována přímkou y = x. Pro asymetrcké rozdělení tato přímka nemá nulovou směrnc a v tomto grafu směrnce je odhadem parametru škmost. Asymetrcké rozdělení vykazuje body uspořádané vtrendunějaké křvky. Obr..9 Graf symetre pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmckonormálního) rozdělení, ADSTAT Obr..11 Graf špčatost pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT

ˆµ ˆσ u P Kvantlový graf (osa x: pořadová pravděpodobnost P,osay: pořádková statstka x ()). Umožňuje přehledně znázornt data a snadněj rozlšt tvar rozdělení, které může být symetrcké, seškmené kvyššímnebonžšímhod- notám. Ke snadnějšímu porovnání snormálnímrozdělením se do tohoto grafu zakreslují kvantlové funkce normálního rozdělení, N P = +, pro 0 P 1: (1) klasckých odhadů parametrů polohy a rozptýlení, tj. artmetckého průměru a směrodatné odchylky ˆµ = x a ˆσ = s, adále () robustních odhadů, tj. medánu M, ˆµ = M a ˆσ = R /1.349, kde R = F - F je nterkvartlové rozpětí. F F H D Obr..6 Kvantlový graf (robustní --- a klascký...) pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT Graf rozptýlení s kvantly (osa x: P,osay: x ()). Základem je odhad kvantlové funkce výběru, který se získá spojením bodů {x(), P} lneárním úseky. Pro symetrcká rozdělení má kvantlová funkce sgmodální tvar. Pro rozdělení seškmená kvyšším hodnotám je konvexně rostoucí a pro rozdělení seškmená knžším hodnotám konkávně rostoucí. Obr..1 Graf rozptýlení s kvantly pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT Do grafu se zakreslují tř pomocné kvantlové obdélníky: - (a) Kvartlový obdélník F:na y ose kvartly FD a FH anaosexpořadové pravděpodobnost P = = 0.5a1- - = 0.75. -3 (b) Oktlový obdélník E:nay ose oktly ED a EH anaosex pořadové pravděpodobnost P 3 = = 0.15a1- -3 = 0.875. -4 (c) Sedeclový obdélník D:nay ose sedecly D D, DH anaxose pořadové pravděpo-dobnost P 4 = = 0.065-4 a 1 - = 0.9375. Graf rozptýlení s kvantly poskytuje následující závěry vyšetření dat: 1. Symetrcké unmodální rozdělení výběru obsahuje obdélníky symetrcky uvntř sebe.. Nesymetrcká rozdělení mají pro rozdělení seškmené kvyšším hodnotám vzdále-nost mez dolním hranam obdélníků F, E a D výrazně kratší než mez jejch horním.

3. Odlehlá pozorování jsou ndkována tím, že na kvantlové funkc mmo obdélník D se objeví náhlý vzrůst, kdy hodnota směrnce roste praktcky nade všechny meze. 4. Vícemodální rozdělení jsou ndkována tím, že na kvantlové funkc uvntř obdélníku F je několk úseků s téměř nulovým směrncem. Hstogram (osa x: proměnná x, osay: uměrná hustotě pravděpodobnost). Jde o obrys sloupcového grafu, kde jsou na ose x jednotlvé třídy, defnující šířky sloupců, avýšky sloupců odpovídají emprckým hustotám pravděpodobnost. Kvaltu hstogramu ovlvňujeveznačné míře volbapočtu tříd L. Pro přblžně symetrcká rozdělení výběru lze vyčíslt počet tříd L podle vztahu L = nt( n), kde funkce nt(x) označuje celočíselnou část čísla x. Všrokém rozmezí velkostí výběrů n užjeme výraz L nt (.46 (n 1) 0.4 ). Obr..13 Hstogram pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmckonormálního) rozdělení, ADSTAT Pro malé a střední výběry se konstruují jádrové odhady hustoty podle vztahu f(x) ˆ 1 j n K (x x ) j, kde šířka pásu h určuje stupeň vyhlazení. Jádrová funkce K(x) je symetrcká nh 1 h kolem nuly a má všechny vlastnost hustoty pravděpodobnost. Vhodná je t.zv. bkvadratcká funkce K(x) 0.9375 (1 x ) pro 1 x 1 K(x) 0 pro x mmo nterval 1 x 1 O kvaltě odhadu hustoty pravděpodobnost rozhoduje volba parametru h. Provýběry velkost n zpřblžně normálního rozdělení se známýmrozptylemσ je optmálníšířka pásu h opt.34 σ n 0.. Jádrový odhad hustoty pravděpodobnost (osa x: proměnná x, osay: hustota pravděpodobnost ˆf (x)). Obr..14 Jádrový odhad hustoty pravděpodobnost pro výběry. Emprcká křvka rozdělení (čárkovaně) a aproxmační křvka Gaussova rozdělení (plná čára): (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT

Kvantl-kvantlový graf (graf Q-Q) (osa x: Q(P), T osay: x ()). Umožňují posoudt shodu výběrového rozdělení, jež je charakterzováno kvantlovou funkcí Q(P)s E kvantlovou funkcí zvoleného teoretckého rozdělení Q(P). T Obr..15 Ranktový čl kvantl-kvantlový graf (Q-Q graf) pro ověření shody s teoretckýmnormálnímrozdělením: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT Jako odhad kvantlové funkce výběru se využívají pořádkové statstky x ().Př shodě výběrového rozdělení se zvoleným teoretckým rozdělením platí přblžná rovnost kvantlů x (). Q T (P ), kde P je pořadová pravděpodobnost a závslost x na Q(P)je přblžně přímka. Korelační koefcent r je pak krtérem těsnost () T xy proložení této přímky př hledání typu neznámého rozdělení. Ranktový graf (osa x: kvantl normovaného Gaussova rozdělení up, osa y: x ()). Pro porovnání rozdělení výběru srozdělenímnormálnímseq-q graf nazývá grafem ranktovým. Umožňuje také orentační zařazení výběrového rozdělení do skupn podle škmost, špčatost a délky konců. -1 Podmíněný ranktový graf (osa x: Φ [0.5 (U(-1) + U (+1))], osay: x ()). K ověření normalty výběrového rozdělení -1 se užívá podmíněný ranktový graf. Symbol Φ (U) značí standardzovanou kvantlovou funkc normálního rozdělení. Hodnoty U=Pjsou přímo kvantly up. Pořádkové statstky U() jsou uspořádané náhodné proměnné U defnované vztahem U Φ x ˆµ R / ˆσ R, kde symbol Φ(x) značí dstrbuční funkc standardzovaného normálního rozdělení. Robustní odhad polohy je roven medánu ˆµ R = x 0.5 arobustní směrodatná odchylka se vyčíslí vztahem ˆσ R = 0.75( x 0.75 - x 0.5 ).Proúplnou defnc se volí U (0) = 0aU (n+1) = 1.Přblžná lneární závslost je v podmíněném ranktovém grafu důkazem normalty testovaného rozdělení výběru. Z grafu normálního rozdělení je patrná výrazně menší lokální varablta ve srovnání s ranktovým grafy. Pravděpodobnostní graf (P-P graf), (osa x: P,osay: F(S T ()). Pravděpodobnostní grafy jsou alternatvou ke Q-Q grafům. Slouží k porovnání dstrbuční funkce výběru, vyjádřené přes pořadovou pravděpodobnost, se standardzovanou dstrbuční funkcí zvoleného teoretckého rozdělení. Standardzovaná proměnná je zde defnována vztahem S () (x () Q)/R, kde Q je parametr polohy a R je parametr rozptýlení. Vpřípadě shody výběrového rozdělení se zvoleným teoretckým rozdělením vyjde P-P graf lneární s jednotkovou směrncí anulovým úsekem.

Obr..17 Pravděpodobnostní graf (P-P graf) pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT Na rozdíl odq-q grafů je př konstrukc P-P grafů nezbytné znát teoretcké rozdělení až do hodnot všech parametrů. Obyčejně se určují odhady parametrů Q a R anavíc dalších parametrů rozdělení svyužtím momentové, resp. metody maxmální věrohodnost. Např. pro normální rozdělení je ˆR =s, ˆQ = x.př porovnání Q-Q a P-P grafů platí, že a) P-P grafy jsou ctlvé na odchylky od teoretckého rozdělení ve střední část, b) Q-Q grafy jsou ctlvé na odchylky od teoretckého rozdělení v oblast konců. Kruhový graf slouží k vzuálnímu ověření hypotézy, že výběr pochází ze symetrckého (nejčastěj Gaussova) rozdělení. V takovém případě je grafem regulární, konvexní polygon, blízký kružnc. Odchylky od kružnce ukazují na jné než symetrcké rozdělení výběru: (a) protáhlý elpsovtý tvar s hlavní osou, umístěnou úhlopříčně ukazuje na asymetrcké rozdělení, (b) elpsovtý tvar podél x-ové osy ukazuje na rovnoměrné rozdělení. Obr..18 Kruhový graf pro výběry: (a) norm, symetrckého (Gaussova, normálního) a (b) log, asymetrckého (logartmcko-normálního) rozdělení, ADSTAT Vychází sezfaktu,že transformací Z () F e (x () ) vyjdou náhodné velčny Z() rozdělené přblžně rovnoměrně na ntervalu [0, 1]. Př konstrukc kruhového grafu se defnuje soustava vektorů V o stejné délce l 0 1/ N (N 1)/ a směru π Z (). Pro x-ovou a y-ovou složku vektoru V platí V x l 0 cos(π Z () ), V y l 0 sn(π Z (). Úhly se uvažují vradánech. Vlastní kruhový graf pak vznkne, když se postupně (od počátku) spojují vektory ) V 1, V,... V N, - V 1, - V,..., - V N. Výsledný obrazec je N vrcholový konvexní polygon. Odchylky od deálního tvaru ukazují na nevhodnost specfkace F, resp. jeho parametrů. e Obyčejně se jako Fe volí dstrbuční funkce normálního rozdělení Φ(x ()) a kruhový graf pak slouží pro ověřování normalty. Exploratorní analýza dat u výběru norm (ADSTAT)

(1) Lnearta kvantl-kvantlového (Q-Q) grafu y=β 0 + β1 x: Rozdělení Směrnce β1 Úsek β0 Korelační koefcent rxy Laplaceovo 0.0546 10.01 0.99039 Normální 0.0789 10.01 0.99707 Exponencální 0.06796 9.944 0.9097 Rovnoměrné 0.433 9.891 0.97036 Lognormální 0.0353 9.960 0.8901 Gumbelovo 0.0563 10.044 0.9757 () Kvantlové míry polohy a rozptýlení: Kvantl L P Spodní LD Horní LH Rozpětí RL Medán M 0.5 10.011 - - Kvartl F 0. 9.9690 10.060 0.09100 5 Oktl E 0.15 9.9300 10.105 0.17450 Sedecl D 0.065 9.887 10.10 0.35 (3) Vybrané míry polohy, rozptýlení a tvaru rozdělení, vyčíslené z kvantlů: Kvantl L P Polosuma ZL Škmost SL Délka konců TL Pseudos. Kvartl F 0.5 10.015-0.03846 0.00000 0.000000 Oktl E 0.15 10.017-0.035817-19.1851 0.51708 Sedecl D 0.065 10.003 0.03831-16.0430 0.80089 Korelační koefcent rxy dosahuje nejvyšší hodnoty pro normální rozdělení, atím dokazuje, že výběr norm pochází ze souboru s normálnímrozdělením.. Ověření předpokladů o datech V prax se nejčastěj předpokládá, že data tvoří náhodný výběr {x}, = 1,..., n, velkost n. Reprezentatvní náhodný výběr je charakterzován třem důležtým předpoklady, které je třeba před vlastní analýzou vždy ověřt. Jsou to nezávslost jednotlvých prvků, homogenta a případná normalta rozdělení prvků výběru. 1. předpoklad: Prvky výběru x jsou vzájemně nezávslé Pokud se podmínky pro měření dat mění s časem, projeví se tyto vznkem trendu mez prvky výběru, uspořádaným v časovém sledu. K dentfkac časové závslost prvků výběru nebo závslost souvsející spořadím jednotlvých měření, testujesevýznamnost autokorelačního koefcentu prvního řádu ρa podle testovacího von Neumannova krtéra a T je von Neumannův poměr T t n T 1 n 1 T 1 (1 T 1 T ) n 1, kde, 1 n 4 n 1 j1 (x 1 x ) j n (x x) 1. Pokud jsou prvky výběru vzájemně nezávslé a platí nulová hypotéza H 0: ρ a = 0, má velčna tn Studentovo rozdělení s(n+1) stupn volnost. Alternatvní hypotéza je H A: ρa U 0. Platí-l, že propřípad t n > t 1 α/ (n 1) je nutno nulovou hypotézu H0 o nezávslost prvků výběru na hladně významnost α zamítnout.. předpoklad: Výběr je homogenní Homogenní výběr znamená, že všechny jeho prvky x, = 1,..., n, pocházejí ze stejného rozdělení skonstantním rozptylem σ. K nehomogentě naměřených dat dochází všude tam, kde se vyskytuje výrazná nestejnoměrnost měřených vlastností vzorků nebo se náhle mění podmínky expermentů. Specálním případem jsou vybočující měření.

Nehomogenta může být způsobena také nevhodnou specfkací souboru. Pokud lze daný výběr rozdělt podle nějakých logckých krtérí do několka podskupn, je možno zpracovat statstcky každou podskupnu zvlášť apak na základě testů shody středních hodnot v podskupnách rozhodnout, zda je toto dělení významné. Omezíme se na případ, kdy se v datech vyskytují vybočující hodnoty. Tyto hodnoty se co do velkost výrazně lší od ostatních a lze je běžně dentfkovat v grafech průzkumové analýzy. Vybočující měření slně zkreslují odhady polohy a zejména rozptylu s,takže zcela znehodnocují další statstckou analýzu. Problém vybočujících měření je velm komplkovaný. Př jejch ověřování se používá řada dealzovaných předpokladů. Jenutné znát jejch předpokládaný počet, jejch rozdělení arozdělení zbývajících prvků výběru. Navíc je třeba sestrojt model, podle kterého se vybočující měření chovají. Testování vybočujících měření bez doplňkových nformací je proto málo spolehlvé. Jednoduchá technka, kdy se pouze předpokládá, že "správná" data mají normální rozdělení, jemodfkace dolní vntřní hradby a horní vntřní hradby, B D B H B D x 0.5 K ( x 0.75 x ) B 0.5, H x 0.75 K ( x 0.75 x ) 0.5 Parametr K se volí tak, abypravděpodobnost P(n, K), že zvýběru velkost n a pocházejícího z normálního rozdělení, nebude žádný prvek mmo vntřní hradby [ B D, B H ], byla dostatečně vysoká, např. 0.95. Přvolbě P(n, K) = 0.95lzevrozmezí 8 n 100 použít aproxmace K..5 3.6/n. Pro takto určený parametr K se všechny prvky výběru, ležící mmo hradby [ B D, B H ] považují za vybočující. Výhodou je robustnost postupu. Není třeba znát počet vybočujících bodů an jejch rozdělení aneprojevují se an různé efekty "maskování". 3. předpoklad: Rozdělení výběru je normální Na předpokladu normalty je založena celá standardní statstcká analýza dat. V testu kombnace výběrové škmost a špčatost dle Jarque-Berra se užívá testovací krtérum χ exp ĝ 1 D(ĝ 1 ) [ĝ E(ĝ )] D(ĝ ) kde jsou výběrováškmost ĝ 1 a její rozptyl D( ĝ 1), resp. výběrová špčatost ĝ ĝ ĝ, její střední hodnota E( ) arozptyl D( ). Zapředpokladu normalty má velčna χ exp asymptotcky χ ()-rozdělení. Prokáže-l se proto, že χ exp > χ1α(), je nutno hypotézu o normaltě rozdělení výběru zamítnout. Střední hodnota výběru, pocházejícího z normálního rozdělení je E(ĝ 1 ) 0. Pro asymptotcký rozptyl tohoto odhadu platí Momentový odhad špčatost g je D(ĝ 1 ). ĝ (n ) (n 1)(n 3) n j n 1 E(ĝ ) 3 (x x) 4 j n (x x) 1 Střední hodnota tohoto odhadu pro výběry pocházející z normálního rozdělení je a pro asymptotcký rozptyl tohoto odhadu platí 6 n 1 4 n (n ) (n 3) D(ĝ ).. (n 1) (n 3) (n 5) Př stanovení lbovolného bodového odhadu parametru je třeba určt vždy jeho rozptyl. K docílení stejné "přesnost" odhadů je třeba přužtí méně efektvního odhadu provést větší počet měření n. Například u dat pocházejících znormálního rozdělení se musí přpoužtí medánu x 0.5 provést 1.6krát více měření než přpoužtí artmetckého průměru x, aby se docíllo stejné přesnost odhadu.

Základní předpoklady o prvcích výběru norm (ADSTAT) (a) Odhady klasckých parametrů: Odhad artmetckého průměru x : 10.01 Odhad rozptylu s : 5.3E-03 Odhad směrodatné odchylky s: 0.073 Odhad škmost ĝ 1 : -0.04 Odhad špčatost ĝ : 3.08 (b)testnormalty:tabulkový kvantl χ (): 5.99 1-α Odhad χ exp statstky: 0.11 Závěr: Předpoklad normalty přjat na spočtené hladně významnost α = 0.9456. (c)testnezávslost: tabulkový kvantl t (n+1): Odhad von Neumannovy statstky t n: 1.18 Závěr: Předpoklad nezávslost přjat na spočtené hladně významnost α = 0.113. (d) Detekce odlehlých bodů: metodou modfkované vntřní hradby Dolní vntřní hradba B D: 9.783 Horní vntřní hradba B H: 10.45 Závěr: Ve výběru nejsou odlehlé body..3 Transformace dat 1-α/ 1.984 Pokud se na základě analýzy dat zjstí, že rozdělení výběru dat se systematcky odlšuje od rozdělení normálního, vznká problém, jak data vůbec vyhodnott. Často je pak vhodná transformace dat, která vede ke stablzac rozptylu, zesymetrčtění rozdělení aněkdy k normaltě rozdělení. 1. Stablzace rozptylu vyžaduje nalezení transformace y = g(x), vekteré je jž rozptyl σ (y) konstantní. Pokud je rozptyl původní proměnné x funkcí typu σ (x) = f(x), lze rozptyl σ (y) určt σ (y). y g(x) dg(x) dx g(x). C m dx f 1 (x) C kde C je konstanta. Hledaná transformace g(x) je pak řešením dferencální rovnce f 1 (x) x λ λ >0 ln x pro λ 0 x λ λ <0 Hnesův - Hnesové selekční graf (osa x: x 0.5/ x 1-P, osa y: x P / x 0.5). Dagnostckou pomůckou pro odhad optmálního exponentu λ je selekční graf dle Hnese a Hnesové. Vychází zpožadavků symetre jednotlvých kvantlů kolem medánu x P x 0.5 λ 1. Zesymetrčtění rozdělení výběru je možné provést užtím jednoduché (prosté) mocnnné transformace. Mocnnná transformace však nezachovává měřítko, není vzhledem k hodnotě λvšude spojtá a hodí se pouze pro kladná data. Optmální odhad exponentu λ se hledá s ohledem na optmalzac charakterstk asymetre (škmost) a špčatost. K určení optmálního λ lze užít ranktového grafu, kdy pro optmální exponent λ budou kvantly y () ležet na přímce nebo selekčního grafu dle Hnese a Hnesové. x 0.5 x 1P λ, kde jako kvantly jsou obvykle voleny písmenové hodnoty. K porovnání průběhu jednotlvých bodů sdeálnímpro λ -λ zvolené λ se do grafu zakreslují řešení rovnce y + x =pro0 x 1a0 y 1:

a) pro λ =0jeřešenímpřímka y = x, -λ 1/λ b) pro λ <0jeřešením vztah y =(-x ), λ -1/λ c) pro λ >0jeřešením vztah x =(-y ). Podle umístění expermentálních bodů v okolí nomogramu teoretckých křvek selekčního grafu lze vzuálně odhadovat velkost λ a posuzovat tak kvaltu transformace v různých vzdálenostech od medánu. Obr..19 (a) Hnesův-Hnesové selekční graf a (b) graf logartmu věrohodnostní funkce na λ pro výběr z lognormálního rozdělení, ADSTAT Pro přblížení rozdělení výběru k rozdělení normálnímu vzhledem k škmost a špčatost se užívá Boxovy-Coxovy transformace y g(x) x λ 1 λ (λ U 0) ln x (λ 0) Boxova-Coxova transformace je použtelná pouze pro kladná data. Rozšíření této transformace na oblast, kdy rozdělení dat začíná od prahové hodnoty x,spočívá v náhradě x rozdílem (x -x), který je vždy kladný. 0 0 Graf logartmu věrohodnostní funkce (osa x: λ, osay: lnl). Pro odhad parametru λ v Boxově-Coxově transformac lze užít metodu maxmální věrohodnost s tím, že pro λ = ˆλ je rozdělení transformované velčny y normální, N(µ y, σ (y)). Po úpravách bude logartmus věrohodnostní funkce ve tvaru ndkuje odhad ˆλ. lnl(λ) n lns (y) (λ 1) j n kde s(y)je výběrový rozptyl transformovaných dat y. Průběhvěrohodnostní funkce ln L(λ) lze znázornt ve zvoleném ntervalu např.-3 λ 3 a dentfkovat maxmum křvky, jehož x-ová souřadnce Dva průsečíky křvky ln L(λ) s rovnoběžkou s x-ovouosoundkují 100(1-α)%ní nterval spolehlvost parametru λ. Čím bude tento nterval spolehlvost +λ D, λ H, šrší, tím je mocnnná Boxova-Coxova transformace méně výhodná. Pokud obsahuje nterval +λ D, λ H, hodnotuλ = 1, není transformace ze statstckého hledska přínosem. Zpětná transformace: po vhodné transformac vyčíslíme ȳ, s (y) a potom pomocí zpětné transformace s využtím Taylorova rozvoje v okolí ȳ odhadneme retransformované parametry x R a s ( x R ) původních dat. Uvedený postup vesměsvedeklepšímodhadům polohy x R a rozptylu s ( x R )ajevhodný zvláště vpřípadech asymetrckého rozdělení výběru. Mocnnná a Box-Coxova transformace u výběru norm a úlohy B.04 (ADSTAT) (1) Odhady klasckých parametrů: norm B.04 Odhad artmetckého průměru 10.01 0.177 Odhad směrodatné odhylky 0.0771 0.159 Odhad škmost -0.037 1.54 Odhad špčatost 3.08 5.36 () Prostá mocnnná transformace: Odhad optmálního exponentu.67 0.53 1 lnx

Odhad průměru transformovaných dat 465.69 0.355 Odhad směrodatné odchylky transformovaných dat 8.96 0.191 Odhad škmost transformovaných dat 0.0006 0.8 Odhad špčatost transformovaných dat 3.08 3.13 Opravený odhad průměru původních dat 10.01 0.143 Opravený odhad směrodatné odchylky původních dat 0.076 0.145 Spodní mez ntervalu spolehlvost původních dat 9.998 0.10 Horní mez mez ntervalu spolehlvost původních dat 10.07 0.190 (3) Box-Coxova transformace: Odhad optmálního exponentu.67 0.53 Odhad průměru transformovaných dat 174.6-1.10 Odhad směrodatné odchylky transformovaných dat 3.361 0.358 Odhad škmost transformovaných dat 0.0006 0.8 Odhad špčatost transformovaných dat 3.08 3.13 Opravený odhad průměru původních dat 10.01 0.143 Opravený odhad směrodatné odchylky původních dat 0.076 0.145 Spodní mez ntervalu spolehlvost původních dat 9.998 0.10 Horní mez mez ntervalu spolehlvost původních dat 10.07 0.190.4 Průběhprůzkumové analýzy dat Průběh vlastní průzkumové, exploratorní analýzy dat (EDA) je možné lbovolně kombnovat dle dosavadních nformací o vyšetřovaných datech. Omezíme se na zpracování dvojího druhu dat, rutnních dat, o kterých jsou známy vlastnost jako je např. rozdělení ajednakneznámých dat, okterých nejsou známy dosud žádné předběžné nformace a hrozí nebezpečí nesplnění předpokladů o datech. A. Postup analýzy rutnních dat Př zpracování rutnních výsledků měření předpokládáme, že známe rozdělení dat. Předpokládá se, že rozdělení dat je normální a data as splňují předpoklady nezávslost a homogenty. Účelem je a) testování nezávslost prvků výběru - autokorelace, b) testování homogenty výběru, c) testování normalty rozdělení výběru. Z grafckých metod se k předběžné analýze rutnních dat nejčastěj užívá ranktového grafu a grafu rozptýlení s kvantly.nejsou-l však o rozdělení dat dostupné žádné nformace nebo očekává-l se výrazně nenormální rozdělení, je vhodné provést a) průzkumovou analýzu dat s využtím řady grafckých dagnostk, b) určení výběrového rozdělení a jeho konstrukce. Pokud nebylo nalezeno vhodné aproxmující rozdělení, provádí se mocnnná transformace, která by měla zlepšt rozdělení dat. Kombnace metod závsí na konkrétních datech a konkrétních požadavcích analýzy. B. Postup př nesplnění předpokladů o datech 1. Nesplnění předpokladu nezávslost prvků: Pokud prvky měření nejsou nezávslé, vzrůstá nebezpečí, že odhady budou systematcky vychýleny a nadhodnoceny pro poztvní hodnotu autokorelačního koefcentu ρ. a Nezbývá, než hlouběj analyzovat logcké příčny a snažt se o jejch odstranění, zkontrolovat celý měřcí řetězec aprovést nová měření.. Nesplnění předpokladu normalty výběru: Rozdělení dat je buď jné než normální, nebo jsou v datech vybočující měření. V případě nenormálního rozdělení dat může jít o odchylky pouze v délce konců, nebo se jedná oseškmená rozdělení. V případě symetrckých rozdělení, lšících se od normálního délkou konců lze použít pro odhad parametrů polohy a rozptýlení jednoduché robustní technky. U seškmených rozdělení je vždy výhodné začít hledáním mocnnné transformace. Pokud byla mocnnná transformace úspěšná a byla nalezena optmální mocnna λ,provádí se další analýza v této transformac a nakonec se vyčíslí zpětná transformace do původních proměnných. Pro seškmená rozdělení, charakterzovaná třetím centrálním momentem m,lze defnovat modfkovanou 3 náhodnou velčnu

T C ( x µ) ˆm 3 m 3 6 σ n m 3 3 ( x n σ 4 µ) s která má Studentovo rozdělení s(n -1)stupnvolnost.Př praktckých výpočtech se rozptyl σ nevychýleným odhadem s atřetí centrální moment m jeho nevychýleným odhadem Př konstrukc konfdenčního ntervalu střední hodnoty 3 n j n (n 1) (n ) 1 (x x ) 3 L D µ L H nahrazuje se užívá vztahů pro dolní a horní meze L D x 1 C d 1, L C H x 1 C d C kde C 1 ˆm 3 6 s n C ˆm 3 3 s 4 C t 1 α/ (n1) s n d 1 1 4 C (C 1 C) d 1 4 C (C 1 C) S využtím tohoto konfdenčního ntervalu pro střední hodnotu seškmených rozdělení lze také provádět testy významnost parametru polohy. 3. Přítomnost vybočujících hodnot: Nazákladě logcké analýzy je třeba nejdříve zvážt, zda nejde o seškmené rozdělení. Body,které se jeví vybočující pro symetrcké (specálně normální) rozdělení, mohou být pro seškmená rozdělení naopak přjatelné. Pokud jde o vybočující pozorování, lze použít dvou alternatv. První alternatva spočívá v jejch vyloučení z další analýzy, což však není vždy zcela nejvhodnější. Pokud jsou vybočující měření výsledkem řídce se vyskytujících jevů, může tímtotž dojít keztrátě nformace úplně. Protolze tyto hodnoty vyloučt jedně př doplnění o nová expermentální data. Druhá alternatva spočívá v použtí robustních metod. Tento postup však nemusí být vždy korektní. Robustnost spočívá vpřblížení se k přjatému modelu měření bez ohledu na jeho platnost. Pokud se analýzy vybočujících měření účastní expermentátor, mělbyrozhodnout, která měření jsou evdentní hrubé chyby (jako je selhání přístroje, špatný záps dat), a která jsou jen podezřelá. Evdentní hrubé chyby je vhodné z další analýzy vyloučt, ale podezřelá měření je lépe ponechat. Robustním metodam se jejch vlv na odhady parametrů výrazně oslabí. 4. Nedostatečný rozsah výběru: Nejjednodušší je v tomto případě provést dodatečná měření. Platí, že čím jsou data méně rozptýlená, tím menší počet jch stačí k zajštění dostatečné přesnost odhadu. Pokud nelze provést dodatečné expermenty, je možné použít technky vhodné pro malé výběry (vz Hornůvpostupve3.kap.). Tento postup je vhodný zejména pro analýzu rutnních měření, kde jsou o chování dat předběžné nformace. Když se analyzují výsledky nových měření nebo neznámé výběry, je vždy třeba začít průzkumovou analýzou dat a stanovt statstcké zvláštnost výběru.