Matematicko-fyzikální fakulta Univerzita Karlova v Praze 1/20
Joiner (1975): Histogram výšky studentů, který ilustruje bimodalitu lidské výšky. Schilling a kol. (2002): Ve skutečnosti bylo dané unimodální! 2/20 Výběr pochází z unimodálního nepřesnost. Výběr pochází ze směsi dvou unimodálních bimodalitu očekáváme. Dvouvrcholový histogram možný chybný závěr o bimodálitě.
Cíl a přínos práce Zformulováno kritérium pro bimodalitu směsi dvou unimodálních, aplikace ve. Zkoumána bimodalita histogramů výběrů z unimodálního a pravděpodobnost takového jevu. 3/20
Obsah 1 2 3 4/20
Obsah 1 2 3 5/20
Definice unimodality a 6/20 Definice Řekneme, že s hustotou f vzhledem k Lebesgueově míře je unimodální, existuje-li M R takové, že je hustota f neklesající na intervalu (, M) a nerostoucí na (M, ). Hustotu f v těchto nazveme unimodální, bod M je vrchol tohoto. Definice Řekneme, že se spojitou hustotou f (vzhledem k Lebesgueově míře) je bimodální, jestliže existují body x 1 < x 2 < x 3 takové, že 1. na intervalu (, x 1 ) je hustota f neklesající, na intervalu (x 1, x 2 ) je nerostoucí, na (x 2, x 3 ) je neklesající a na (x 3, ) je opět nerostoucí; 2. f (x 1 ) > f (x 2 ) a f (x 2 ) < f (x 3 ). V takovém případě nazveme f bimodální hustotou.
Definice směsi dvou Definice Necht náhodná veličina X nabývá hodnot z výběrového prostoru X a její má hustotu f vzhledem k σ-konečné míře µ a f (x) = pf 1 (x) + (1 p)f 2 (x), x X, kde p [0, 1] a f 1 a f 2 jsou hustoty na prostoru X vzhledem k míře µ. Pak řekneme, že je veličiny X směsí dvou a hustota f je směsí hustot f 1, f 2. Parametr p [0, 1] se nazývá váha směsi. 7/20
Obsah 1 2 3 8/20
Kritéria pro unimodalitu směsi dvou 9/20 Směs dvou normálních úplná klasifikace modality již známa - Robertson, Fryer (1969) Směs dvou obecných unimodálních nutné a postačující podmínky pro unimodalitu - Kemperman (1991). Směs dvou unimodálních hustot, která není unimodální, nemusí být bimodální. 0.00 0.05 0.10 0.15 0.20 g(x) = 1 2 g 1(x) + 1 2 g 2(x) 5 0 5 10 x g 1(x) g 2(x) g(x)
Tvrzení o bimodalitě směsi Kritérium pro bimodalitu směsi dvou unimodálních. Lemma Necht f 1, f 2 jsou unimodální hustoty, f 1 má jediný vrchol v bodě M 1 a f 2 má jediný vrchol v bodě m 2, kde M 1 < m 2. Necht jsou f 1 i f 2 spojité a diferencovatelné na nějakém otevřeném intervalu I, [M 1, m 2 ] I. Necht je funkce φ(x) = f 1 (x) f 2 (x) spojitá na intervalu (M 1, m 2 ) a lim x M1 + φ(x) = 0 a lim x m2 φ(x) =. Dále necht existují body M 1 < x 1 < x 2 < m 2 takové, že je funkce φ rostoucí na intervalu (M 1, x 1 ), klesající na (x 1, x 2 ) a opět rostoucí na (x 2, m 2 ). Pak je směs g = pf 1 + (1 p)f 2 bimodální právě tehdy, když je p (p 1, p 2 ), kde 1 p i = 1 + φ(x i ), i = 1, 2. 10/20
Kritéria odvozena pro následující Kritéria pro bimodalitu směsi dvou byla odvozena pro následující : Cauchyho Studentovo Logistické Laplaceovo Gama, χ 2 Logaritmicko-normální Rayleighovo Maxwellovo Gumbelovo ( extrémních hodnot) 11/20
Cauchyho Necht je f 1 hustota Cauchyho C(a 1, b) a f 2 je hustota C(a 2, b), tj. f 1 (x) = 1 b π b 2 + (x a 1 ) 2, f 2(x) = 1 b π b 2 + (x a 2 ) 2, x R. Směs těchto dvou Cauchyho C(a 1, b) a C(a 2, b) s váhou p [0, 1] je bimodální právě tehdy, když je a zároveň p (p 1, p 2 ), kde a 1 a 2 > 2 3 b 1 = 1 + x i[1 + (x i c) 2 ] 2 p i (c x i )(1 + x 2 a c = a1 a2 b a 0 < x 1 < x 2 < c jsou níže uvedeného tvaru. Jinak je tato směs unimodální. x 1 = 1 c 4 + c 2 2 4 4 + c 2, x 2 = 1 c + 4 + c 3 2 2 4 4 + c 2. 3 i ) 2 12/20
Cauchyho II 0.0 0.2 0.4 0.6 0.8 1.0 p 2 p 1 0.05 0.10 0.15 0.20 0.25 0.30 c 2 4 6 8 10 1 0 1 2 Závislost hodnot p 1 a p 2 na hodnotě c = a 1 a 2 b. Směs dvou Cauchyho C(0, 1) a C(c, 1) pro c = 2 3 s váhou p = 1 2. 13/20
Obsah 1 2 3 14/20
Omezení na prostřední třídy histogramu Často jsou četnosti několika prostředních tříd histogramu výrazně vyšší než četnosti zbývajících tříd. Při modality histogramu si budeme všímat pouze vrcholů v prostředních třídách. 15/20 Proto se dále omezíme na zkoumání pouze několika prostředních tříd histogramů.
Rozdělení s tupým vrcholem Rozdělení s dostatečně tupým vrcholem v okolí vrcholu přibližně rovnoměrné. Omezili jsme se na zkoumání několika prostředních tříd histogramu stačí nám dívat se pouze na okolí vrcholu. 0.05 0.10 0.15 0.20 0.25 0.30 2 1 0 1 2 3 4 16/20 Zjednodušení: Odhad pravděpodobnosti, s jakou je histogram výběru z rovnoměrného s N třídami bimodální.
Odhad pro rovnoměrné Věta Necht je X 1,..., X M náhodný výběr z rovnoměrného na intervalu [a, b], a, b R, a necht N N. Potom pro M se pravděpodobnost, že je histogram tohoto náhodného výběru s N třídami bimodální, blíží k pravděpodobnosti, že je náhodná permutace čísel 1,..., N bimodální. Algoritmy pro zjišt ování zadané posloupnosti. Generování všech permutací čísel 1,..., N a zjišt ování. Simulace výběrů z rovnoměrného a zjišt ování histogramů. 17/20
Závěr 18/20 Četnosti bimodálních permutací N 4 5 6 7 8 počet všech permutací 24 120 720 5040 40320 počet bimodálních permutací 16 88 416 1824 7680 podíl bimodálních permutací 0.6667 0.7333 0.5778 0.3619 0.1905 Pro N = 5 je relativní četnost bimodálních permutací 0.73 pravděpodobnost, že bude histogram výběru z rovnoměrného s 5 třídami bimodální je téměř 3 4 Pravděpodobnost, že prostředních 5 tříd histogramu z s tupým vrcholem indikuje dva vrcholy, je dosti vysoká. Posuzování na základě histogramu není vhodné. Použití odvozených kritérií pro bimodalitu. Program R: dip test pro testování unimodality náhodného výběru.
Děkuji za pozornost. 19/20
Kemperman J. H. B. (1991): Mixture with a limited number of modal intervals. Annal. Stat. 19, 2120 2144. Joiner B. L. (1975): Living Histograms. Int. Stat. Rev. 43, 339 340. Robertson C. A., Fryer J. G. (1969): Some descriptive properties of normal mixtures. Skand. Aktuarietidskr. 52, 137 146. Schilling M. F., Watkins A. E., Watkins W. (2002): Is human height bimodal? Amer. Statist. 56, 223 229. 20/20