IDETIFIKACE BIMODALITY V DATECH Jiří Militky Technická universita v Liberci e- mail: jiri.miliky@vslib.cz Milan Meloun Universita Pardubice, Pardubice Motto: Je normální předpokládat normální data?
Zvláštnosti dat Obsahují občas extrémně velké hodnoty, které však nejsou důsledkem chyb měření. Mohou být cenzurována zdola s ohledem na limitu detekce přístrojů. Jsou vždy kladná a výrazně zešikmená k vyšším hodnotám Rozsahy zpracovávaných dat jsou buď malé nebo extrémně veliké Jsou často prostorově nebo časově závislá. Rozdělení dat je jen zřídka. Znejrůznějších důvodů může rozdělení dat obsahovat více lokálních maxim (polymodalita).
K CK = ( x M ) f( x) dx $ ( xi M$ C = K ) Základní model Aditivní model měření x = μ + ε μ ε skutečná hodnota měřené veličiny (střední hodnota) náhodná chyba měření resp. šumová složka Předpoklady o chybách:.střední hodnota chyb měření je nulová, t.j.. rozptyl chyb měření je konstantní, t.j. D( ε ) = σ 3. chyby jsou vzájemně nezávislé.t.j. E( εi* ε j) = 0 4. chyby mají normální rozdělení t.j. ε (0, σ ) E( ε ) = 0 Za předpokladu nezávislosti měření platí,že známé momentové odhady aritmetický průměr a výběrový rozptyl jsou odhady střední hodnoty a rozptylu i= K K MK = x f( x) dx $ M K = x i= i K
ormální rozdělení (μ, σ ): f( x) = e x * π ormální rozdělení ezávislá měření ne nutně normální ( μ) / σ μ Parametr odhad rozptyl Parametr odhad rozptyl σ x s Dx ( )= σ Ds ( ) = * σ 4
μ Intervalové odhady X d X X + d "IS": interval obsahující se zadanou PL ( pravděpodobností (-α) parametr a. a L) ( - α) koeficient konfidence, statistická jistota (0.99, 0.95) α hladina významnosti (α = 0.0, 0.05) = α f($) a f($) a Jednostr. Oboustr. α α / α / větší užší IS větší σ širší IS větší α užší IS L - a L L al
Platí pouze pro normální rozdělení! Konstrukce IS data x i... (μ, σ ) t = ( x μ)/ s. Studentovo rozdělení, d.f. = - χ = ( ). s / σ Chí-kvadrát rozdělení, d.f. = - P( t ( x μ)/ s. t ) = α α/ α/ x t./ s μ x+ t./ s α/ α/ f(t) v=00 v=5 v= 3 0 3 t f (a) α/ α/ -t -α/ 0 t -α/
Interpretace IS 95% interval spolehlivosti. správná interpretace 95% confidence se týká četnosti jevu A Jev A: X < X +.96 σ /.96 σ / n < μ P(A) = 0.95 95% všech intervalů spolehlivosti obsahuje µ. n
Testovací data Reálná data z měření chlupatosti přízí na přístroji Uster. Jedná se o výběr velikosti 4 000 pro kompaktní přízi C 30tex hair length 0 8 6 4 0 00 00 300 400 Distance
Vizualizace rozdělení dat 3 4 5 6 7 8 9 0 Tvar identifikující kvantilová funkce QI(P) QI e ( P) i = ( x x ) () i 0.5 *( x x ) 0.75 0.5 Graf tvar identifikující kvantilové funkce: závislost mezi QI e (P i ) a P i..5 Shape ident. Q plot 0.5 0. 0.05 P i = i + Sigmoidální tvar v centrální oblasti indikuje bimodalitu Shape ident. Q plot 0.5 0-0.5-0 0. 0.4 0.6 0.8 0-0.05-0. -0.5-0. -0.5 0.3 0.35 0.4 0.45 0.5 0.55 0.6
Rankitový graf Q-Q graf je založen na porovnání empirické kvantilové funkce Q e (P i ) x(i) s vybranou teoretickou kvantilovou funkcí QT(Pi). Pro normální kvantilovou funkci jde o rankitový graf Ohyb v centrální oblasti zde indikuje bimodalitu. 9 Rankit plot 8 7 6 5 4 3 0 0 4 6 8 5 4.5 4 3.5 3 Rankit plot 3.5 4 4.5
Pořádkové statistiky x() x().. x( i).. x( ) Distribuční funkce Odhad distribuční funkce: lokální součet pořádkových statistik i x() i i= cdf ( x), for x () i x x( i+ ) x 0.8 0.6 0.4 rectangular empirical normal empirické = () i i= CDF plots rovnoměrné Typický skok na empirické distribuční funkci indikuje bimodalitu 0.5 0.4 0.3 0. rectangular empirical normal CDF plots 0. normální 0 3 4 5 6 7 8 0. 0.5 3 3.5 4 4.5 5
Porovnávací PP graf Porovnávající distribuční funkce CDD = FT( Qe( Pi)) Pro indikaci bimodality se jako F T (.) volí distribuční funkce normálního rozdělení. Porovnávací P-P graf : závislost CDD P i. vs. P i. 0.04 0.0 0-0.0-0.04-0.06 Comparative P-P plot -0.08 0 4 6 8 0 Vpřípadě unimodálního normálního rozdělení je odpovídající porovnávající P-P graf horizontální přímka na nulové úrovni. Bimodální rozdělení:typické píky
Histogram Histogram je po částech konstantní odhad hustoty pravděpodobnosti. Výška sloupce v j té třídě ohraničené hodnotami (t j-, t j ) je určena ze vztahu délka j-té třídy (intervalu). f H ( x) = C ( t, t ) j j h j hj = tj tj Zde funkce C (a, b) označuje počet hodnot výběru v intervalu <a, b> Pro přibližně normální data je délka tříd určena vztahem h= 3.49*(min( s, Dq/ ) /.34) / n Dq = *( x x ) 0.75 0.5 /3
Jádrový odhad hustoty Jádrový odhad hustoty pravděpodobnosti f(x) (hladká funkce, závislá na parametru vyhlazení h). Tento odhad má pro případ konstantního parametru vyhlazení h tvar x x ˆ( ) i f x = K i= h Jednoduchá bikvadratická jádrová funkce K[x] má tvar K( x) = 0.9375*( x ) for - x
Parametrický model bimodality Unimodální model fu( xi) = A0*exp ( x B) i * C Bimodální model (směs dvou normálních rozdělení) ( xi B) ( xi B) fb( xi) = A*exp A*exp + * C * C Zde A, A jsou podíly prvního normálního rozdělení (index ) a druhého normálního rozdělení (index ). Parametry B a B jsou střední hodnoty jednotlivých rozdělení a parametry C, C jsou směrodatné odchylky. Pro případ unimodality musí platit, že B B < *min( C, C)
Odhad parametrů Pro odhad parametrů směsi dvou normálních rozdělení (A, A, B, B, C and C) je možno použít nelineární metody nejmenších čtverců, kde data jsou získána z histogramu r = fˆ( x ) f ( x ) S i i B i = r i= i V programu BIMODAL v jazyku MATLAB jsou použity algoritmy minimalizace nejmenších čtverců na bázi Levenberg-Marquardtovy metody a jejího vylepšení (Trustregion) 0.5 0.4 0.3 0. 0. 0 0 4 6 8
Test bimodality L B Věrohodnostní poměr LR = *ln LU Funkce L U L U = exp i= * π * C ( x B) i * C ( xi B) ( xi B) Funkce L B LB = A*exp A*exp + i= * C * C Statistika LR má přibližně χ (4) LR 9 rozdělení, tj. pro je možné akceptovat jednoduché unimodální rozdělení. Pro přízi C 30 tex je LR = 44.3 a použití směsi dvou rozdělení (bimodalita) je ověřeno.
Závěr Bimodalitu lze indikovat jak pomocí grafických pomůcek průzkumové analýzy dat tak i pomocí parametrických modelů. Existuje ještě celá řada formálních testů bimodality, které však nejsou tak informativní (neumožňují komplexní posouzení statistických zvláštností dat). Samostatným problémem je následná analýza objasňující příčiny vzniku bimodality a je jí případná eliminace. Pro případ chlupatosti příze je možno bimodalitu objasnit na základě modelu dvou typů chlupatosti