IDENTIFIKACE BIMODALITY V DATECH

Podobné dokumenty
Pravděpodobnost a matematická statistika

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Statistická analýza jednorozměrných dat

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Charakterizace rozdělení

Statistická analýza jednorozměrných dat

Chyby měření 210DPSM

Základy teorie pravděpodobnosti

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Šárka Došlá. Matematicko-fyzikální fakulta Univerzita Karlova v Praze. Bimodální rozdělení. Šárka Došlá. Motivace. Základní pojmy

Normální (Gaussovo) rozdělení

Úvod do problematiky měření

Inovace bakalářského studijního oboru Aplikovaná chemie

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Zápočtová práce STATISTIKA I

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Normální (Gaussovo) rozdělení

I. D i s k r é t n í r o z d ě l e n í

15. T e s t o v á n í h y p o t é z

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Charakteristika datového souboru

p(x) = P (X = x), x R,

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

y = 0, ,19716x.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Porovnání dvou výběrů

Regresní analýza 1. Regresní analýza

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Statistická analýza jednorozměrných dat

Testy. Pavel Provinský. 19. listopadu 2013

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Statistická analýza. jednorozměrných dat

UNIVERZITA PARDUBICE

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Kvantily a písmenové hodnoty E E E E-02

Náhodné vektory a matice

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Statistická analýza jednorozměrných dat

Intervalové Odhady Parametrů

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

INTERVALOVÉ ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU

15. T e s t o v á n í h y p o t é z

Tomáš Karel LS 2012/2013

4EK211 Základy ekonometrie

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Definice spojité náhodné veličiny zjednodušená verze

Statistická analýza jednorozměrných dat

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Modul Základní statistika

Praktická statistika. Petr Ponížil Eva Kutálková

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

INDUKTIVNÍ STATISTIKA

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

You created this PDF from an application that is not licensed to print to novapdf printer (

pravděpodobnosti, popisné statistiky

12. cvičení z PST. 20. prosince 2017

S E M E S T R Á L N Í

Příklady na testy hypotéz o parametrech normálního rozdělení

Regulační diagramy (RD)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Inovace bakalářského studijního oboru Aplikovaná chemie

Návrh a vyhodnocení experimentu

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Regresní analýza. Eva Jarošová

Hodnocení vlastností materiálů podle ČSN EN 1990, přílohy D

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

PRAVDĚPODOBNOST A STATISTIKA

5. T e s t o v á n í h y p o t é z

Testování statistických hypotéz

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

6. T e s t o v á n í h y p o t é z

Odhad parametrů N(µ, σ 2 )

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Statistická analýza jednorozměrných dat

Téma 22. Ondřej Nývlt

Intervalové Odhady Parametrů II Testování Hypotéz

PRAVDĚPODOBNOST A STATISTIKA

UNIVERZITA PARDUBICE

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

KGG/STG Statistika pro geografy

AVDAT Klasický lineární model, metoda nejmenších

Tomáš Karel LS 2012/2013

Transkript:

IDETIFIKACE BIMODALITY V DATECH Jiří Militky Technická universita v Liberci e- mail: jiri.miliky@vslib.cz Milan Meloun Universita Pardubice, Pardubice Motto: Je normální předpokládat normální data?

Zvláštnosti dat Obsahují občas extrémně velké hodnoty, které však nejsou důsledkem chyb měření. Mohou být cenzurována zdola s ohledem na limitu detekce přístrojů. Jsou vždy kladná a výrazně zešikmená k vyšším hodnotám Rozsahy zpracovávaných dat jsou buď malé nebo extrémně veliké Jsou často prostorově nebo časově závislá. Rozdělení dat je jen zřídka. Znejrůznějších důvodů může rozdělení dat obsahovat více lokálních maxim (polymodalita).

K CK = ( x M ) f( x) dx $ ( xi M$ C = K ) Základní model Aditivní model měření x = μ + ε μ ε skutečná hodnota měřené veličiny (střední hodnota) náhodná chyba měření resp. šumová složka Předpoklady o chybách:.střední hodnota chyb měření je nulová, t.j.. rozptyl chyb měření je konstantní, t.j. D( ε ) = σ 3. chyby jsou vzájemně nezávislé.t.j. E( εi* ε j) = 0 4. chyby mají normální rozdělení t.j. ε (0, σ ) E( ε ) = 0 Za předpokladu nezávislosti měření platí,že známé momentové odhady aritmetický průměr a výběrový rozptyl jsou odhady střední hodnoty a rozptylu i= K K MK = x f( x) dx $ M K = x i= i K

ormální rozdělení (μ, σ ): f( x) = e x * π ormální rozdělení ezávislá měření ne nutně normální ( μ) / σ μ Parametr odhad rozptyl Parametr odhad rozptyl σ x s Dx ( )= σ Ds ( ) = * σ 4

μ Intervalové odhady X d X X + d "IS": interval obsahující se zadanou PL ( pravděpodobností (-α) parametr a. a L) ( - α) koeficient konfidence, statistická jistota (0.99, 0.95) α hladina významnosti (α = 0.0, 0.05) = α f($) a f($) a Jednostr. Oboustr. α α / α / větší užší IS větší σ širší IS větší α užší IS L - a L L al

Platí pouze pro normální rozdělení! Konstrukce IS data x i... (μ, σ ) t = ( x μ)/ s. Studentovo rozdělení, d.f. = - χ = ( ). s / σ Chí-kvadrát rozdělení, d.f. = - P( t ( x μ)/ s. t ) = α α/ α/ x t./ s μ x+ t./ s α/ α/ f(t) v=00 v=5 v= 3 0 3 t f (a) α/ α/ -t -α/ 0 t -α/

Interpretace IS 95% interval spolehlivosti. správná interpretace 95% confidence se týká četnosti jevu A Jev A: X < X +.96 σ /.96 σ / n < μ P(A) = 0.95 95% všech intervalů spolehlivosti obsahuje µ. n

Testovací data Reálná data z měření chlupatosti přízí na přístroji Uster. Jedná se o výběr velikosti 4 000 pro kompaktní přízi C 30tex hair length 0 8 6 4 0 00 00 300 400 Distance

Vizualizace rozdělení dat 3 4 5 6 7 8 9 0 Tvar identifikující kvantilová funkce QI(P) QI e ( P) i = ( x x ) () i 0.5 *( x x ) 0.75 0.5 Graf tvar identifikující kvantilové funkce: závislost mezi QI e (P i ) a P i..5 Shape ident. Q plot 0.5 0. 0.05 P i = i + Sigmoidální tvar v centrální oblasti indikuje bimodalitu Shape ident. Q plot 0.5 0-0.5-0 0. 0.4 0.6 0.8 0-0.05-0. -0.5-0. -0.5 0.3 0.35 0.4 0.45 0.5 0.55 0.6

Rankitový graf Q-Q graf je založen na porovnání empirické kvantilové funkce Q e (P i ) x(i) s vybranou teoretickou kvantilovou funkcí QT(Pi). Pro normální kvantilovou funkci jde o rankitový graf Ohyb v centrální oblasti zde indikuje bimodalitu. 9 Rankit plot 8 7 6 5 4 3 0 0 4 6 8 5 4.5 4 3.5 3 Rankit plot 3.5 4 4.5

Pořádkové statistiky x() x().. x( i).. x( ) Distribuční funkce Odhad distribuční funkce: lokální součet pořádkových statistik i x() i i= cdf ( x), for x () i x x( i+ ) x 0.8 0.6 0.4 rectangular empirical normal empirické = () i i= CDF plots rovnoměrné Typický skok na empirické distribuční funkci indikuje bimodalitu 0.5 0.4 0.3 0. rectangular empirical normal CDF plots 0. normální 0 3 4 5 6 7 8 0. 0.5 3 3.5 4 4.5 5

Porovnávací PP graf Porovnávající distribuční funkce CDD = FT( Qe( Pi)) Pro indikaci bimodality se jako F T (.) volí distribuční funkce normálního rozdělení. Porovnávací P-P graf : závislost CDD P i. vs. P i. 0.04 0.0 0-0.0-0.04-0.06 Comparative P-P plot -0.08 0 4 6 8 0 Vpřípadě unimodálního normálního rozdělení je odpovídající porovnávající P-P graf horizontální přímka na nulové úrovni. Bimodální rozdělení:typické píky

Histogram Histogram je po částech konstantní odhad hustoty pravděpodobnosti. Výška sloupce v j té třídě ohraničené hodnotami (t j-, t j ) je určena ze vztahu délka j-té třídy (intervalu). f H ( x) = C ( t, t ) j j h j hj = tj tj Zde funkce C (a, b) označuje počet hodnot výběru v intervalu <a, b> Pro přibližně normální data je délka tříd určena vztahem h= 3.49*(min( s, Dq/ ) /.34) / n Dq = *( x x ) 0.75 0.5 /3

Jádrový odhad hustoty Jádrový odhad hustoty pravděpodobnosti f(x) (hladká funkce, závislá na parametru vyhlazení h). Tento odhad má pro případ konstantního parametru vyhlazení h tvar x x ˆ( ) i f x = K i= h Jednoduchá bikvadratická jádrová funkce K[x] má tvar K( x) = 0.9375*( x ) for - x

Parametrický model bimodality Unimodální model fu( xi) = A0*exp ( x B) i * C Bimodální model (směs dvou normálních rozdělení) ( xi B) ( xi B) fb( xi) = A*exp A*exp + * C * C Zde A, A jsou podíly prvního normálního rozdělení (index ) a druhého normálního rozdělení (index ). Parametry B a B jsou střední hodnoty jednotlivých rozdělení a parametry C, C jsou směrodatné odchylky. Pro případ unimodality musí platit, že B B < *min( C, C)

Odhad parametrů Pro odhad parametrů směsi dvou normálních rozdělení (A, A, B, B, C and C) je možno použít nelineární metody nejmenších čtverců, kde data jsou získána z histogramu r = fˆ( x ) f ( x ) S i i B i = r i= i V programu BIMODAL v jazyku MATLAB jsou použity algoritmy minimalizace nejmenších čtverců na bázi Levenberg-Marquardtovy metody a jejího vylepšení (Trustregion) 0.5 0.4 0.3 0. 0. 0 0 4 6 8

Test bimodality L B Věrohodnostní poměr LR = *ln LU Funkce L U L U = exp i= * π * C ( x B) i * C ( xi B) ( xi B) Funkce L B LB = A*exp A*exp + i= * C * C Statistika LR má přibližně χ (4) LR 9 rozdělení, tj. pro je možné akceptovat jednoduché unimodální rozdělení. Pro přízi C 30 tex je LR = 44.3 a použití směsi dvou rozdělení (bimodalita) je ověřeno.

Závěr Bimodalitu lze indikovat jak pomocí grafických pomůcek průzkumové analýzy dat tak i pomocí parametrických modelů. Existuje ještě celá řada formálních testů bimodality, které však nejsou tak informativní (neumožňují komplexní posouzení statistických zvláštností dat). Samostatným problémem je následná analýza objasňující příčiny vzniku bimodality a je jí případná eliminace. Pro případ chlupatosti příze je možno bimodalitu objasnit na základě modelu dvou typů chlupatosti