ZÁKLADNÍ POJMY a analýza výběru

Transkript

1

2 ZÁKLADNÍ POJMY a analýza výběru PARAMETR je statistická charakteristika základního souboru (značíse řeckými písmeny, např. střední hodnota μ ). STATISTIKA je statistická charakteristika výběrového souboru (značíse latinkou, např. výběrový průměr ). x ODHAD PARAMETRU ZÁKLADNÍHO SOUBORU je určitá hodnota (hodnoty) vhodné statistiky získaná postupem zvaným bodový nebo intervalový odhad. VÝBĚROVÉ ROZDĚLENÍ je rozdělení pravděpodobnosti všech možných hodnot statistiky, které mohou být zjištěny z náhodných výběrů stejné velikosti vybraných z určitého základního souboru.

3 VÝBĚROVÝ PRŮMĚR a jeho rozdělení x1 x x3 x4

4

5 ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Nespornost (konzistence): se vzrůstající velikostí výběru vzrůstá i pravděpodobnost, že odhad bude blízký skutečnému parametru. Nevychýlenost (nestrannost): střední hodnota výběrové statistiky se rovná odhadovanému parametru základního souboru E(T) = P Vydatnost: znamená, že daný nevychýlený odhad má se srovnání se všemi ostatními nevychýlenými odhady nejmenší variabilitu (rozptyl)

6

7 Konstrukce bodových odhadů Metoda maximální věrohodnosti (MLE): Konstruují se odhady maximalizující věrohodnostní funkci L (resp její logaritmus lnl). Věrohodnostní funkce je sdružená hustota pravděpodobnosti všech prvků výběru. Pro nezávislá měření (nezávislé chyby ε i ) platí ln L ( μ, σ, a ) = ln f ( x i μ, σ, a ) Podmínky maxima představují soustavu rovnic lnl( μ, σ μ, a) = 0 lnl( μ, σ σ, a) = 0 lnl( μ, σ a, a) = 0

8

9 MLE pro normální rozdělení Věrohodnostní funkce pro náhodný nezávislý výběr z normálního rozdělení Derivace Výběrový průměr a rozptyl jsou tedy MLE odhady. ) ( )] ln( ) )*[ln( / ( ) ln( σ μ σ π + = i x i N L μ μ * * ) ln( N x L i i = ] [ ) ( ) ln( σ σ μ σ N x L i i =

10

11

12 VÝBĚROVÝ PRŮMĚR a jeho rozdělení Pro rozdělení výběrového průměru platí: σ E(X) = μ σ =SE = X X n Jestliže výběr pochází z normálního rozdělení se střední hodnotou μ a směrodatnou odchylkou σ, potom výběrový průměr x má výběrové normální rozdělení N(μ,σ /n) Z toho vyplývá: výběrový průměr je dobrým odhadem střední hodnoty μ se vzrůstající velikostí výběru n se snižuje standardní chyba průměru SE a určení střední hodnoty je tím spolehlivější

13 ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Grafické znázornění nevychýleného odhadu Odhadovaný parametr Výběrový průměr

14 ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Systematické vychýlení odhadu Vychýlený odhad y

15 ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Nevychýlený a vydatný odhad Nevychýlený odhad s velkou variabilitou (nevydatný)

16

17 BODOVÉ ODHADY ZÁKLADNÍCH PARAMETRŮ Hustota pravděpodobnosti základního souboru X μ Hodnoty výběrového souboru Tato vzdálenost je pro jeden konkrétní výběr neznámá, není možné určit spolehlivost konkrétního odhadu

18

19

20

21

22

23

24

25

26 Ukázky příkladů určení centrální tendence Průměr= 5 Průměr= Medián = 5 Medián = Módus = 9 Není módus

27 Ukázky příkladů rozličné variability (rozptýlení) Rozpětí = 1-7 = 5 Rozpětí = 1-7 = Data A Průměr = 15.5 s = Data B Průměr = 15.5 s =.958

28 Přehled sumarizace dat Sumární míry Centrální tendence Kvartily Variabilita Průměr Medián Módus Rozpětí Rozptyl Variační koeficient Směrodatná odchylka

29 Přehled měr variability (rozptýlení) Variabilita Rozptyl Směrodatná odchylka Variační Rozpětí Populační r. Populační s.o. koeficient Výběrový r. Výběrová s.o. Interkvartilové rozpětí

30 Popisné statistiky polohy, rozptýlení a tvaru Parametry polohy: Centrální tendence Průměr aritmetický: (Σx/n) Medián: Centrální bod (dělicí bod) Parametry rozptýlení: Variace směrodatná odchylka Parametry tvaru: šikmost náklon rozdělení špičatost délka konců Zešikmené vpravo Mode < Median < Mean Symetrické Mean = Median =Mode Zešikmené vlevo Mean < Median < Mode

31 Pokud x i nemají normální rozdělení σ (g 1) D(s) 4N Parametry rozptýlení - směrodatná odchylka Směrodatná odchylka s je vychýleným odhadem veličiny σ. Platí, že E(s) < σ. Pro nevychýlený odhad lze odvodit σ = K u * s s (N 1) N 1.45 kde K u N 1 = Γ( ) N 1 N Γ( ) N 1 N 1 3 4N 37 3 N D( σ ) = σ (N) D(s) σ (N 1)

32 Parametry rozptýlení - variační koeficient Výběrový odhad V a odpovídající rozptyl D(V) lze vyjádřit ve tvaru V x = s D(V) N + (N 1) δ δ δ (1 + N( n 1) N δ )

33 Parametry tvaru - šikmost a špičatost Odhady jsou pouze asymptotické (platí pro velké N ). Pro odhad šikmosti g 1 se používá výběrová šikmost s rozptylem D( ), kde ĝ 1 N 3 N (x i x) i = 1 ĝ1 = D( ĝ 3 / 1 N (x i x) i = 1 Pro odhad špičatosti g platí ) (N ĝ 1 6N(N - )(N + - 1) 1)(N + 3) ĝ = N N i = 1 N i = 1 (x (x i i x) x) 4 D( ĝ ) (N - 4N(N - 1) 3)(N - )(N + 5)(N + 3)

34 Kdy použít mediánu? x Aritmetický průměr je efektivní (má minimální rozptyl) pouze pro normální rozdělení. Pro případ Laplaceova rozdělení je efektivní výběrový medián pro jehož rozptyl platí ~ D( x 0.5 ) = 4Nf (M) ~ x 0.5 kde f (M) je hodnota hustoty pravděpodobnosti v místě teoretického mediánu M. 1 Pro případ Laplaceova rozdělení je f (M) = 1/( σ ) a tedy ~ D( x0.5) = σ /(N)

35 Pro Laplaceovo rozdělení je poměr E D(x) M = ~ = D( x ) 0.5 tj. medián je x efektivnější než aritmetický průměr. Pro třídu exponenciálních rozdělení s parametrem α lze obecně určit E M ze vztahu E M = α Γ(3/ α ) Γ 3 (1/ α ) Z této rovnice plyne, že pro rozdělení α > (dlouhé konce) je medián efektivnější než aritmetický průměr

36 Kdy použít polosumy? Polosuma je efektivnější než x pro g >.. Pro rozdělení s plochými vrcholy se doporučuje použití kvartilové polosumy ~ x 0.75 ~ ( x ~ x PF = ~ x 0.5 kde resp. je horní, resp. dolní kvartil ) / V případě ohraničených rozdělení (arkussínové a lichoběžníkové třídy) je efektivní tzv. polosuma xˆ P = (x max x min ) / kde x max je maximální a x min je minimální prvek výběru

37 Rozptyl odhadu polosumy je pro normální rozdělení roven D(xˆ Pro rovnoměrné rozdělení je P ( π ) = σ ) (4 ln( N)) D(xˆ P ) = (6σ ) [(N 1)(N )] Arkussínové rozdělení je definováno v intervalu (-A, A) a pro jeho hustotu pravděpodobnosti platí 1 Pro arkussínové rozdělení D(xˆ f (x ) = π P ) = A x (5π 4 σ ) N 4

38 Uřezaný průměr α-uřezaný průměr x( α) x( α) 1 = n M je definován vztahem N M = x (i) i M + 1 kde M = int(αn/100) je celá část výrazu α N/100 a x (i) jsou pořádkové statistiky (vzestupně setříděné prvky výběru).

39 Kombinovaný odhad centrální hodnoty Pro symetrická rozdělení s vybočujícími hodnotami je doporučen za odhad středu symetrie čili centrální hodnoty použít medián dle vzorce ~ x C ~ x x 0. 5 xˆ x(0.5) = med{,,, PF, } P kde med{.} označuje medián z prvků v závorce. Pro odhad rozptylu odhadu x~ C je možno použít interkvantilové délky ( ~ ~ x x )/ k 0.9 = D( ~ xc ) = k 9 0. (.7N)

40 SUMARIZACE DAT Sumární míry Centrální tendence Průměr Módus Medián Geometrický průměr Kvartily Rozpětí Rozptyl Variace Směrodatná odchylka Variační koeficient

41 Fisher, Sir Ronald Aylmer, Sir Ronald Fisher F.R.S. ( ) was one of the leading scientists of the 0th century; making major contributions to Statistics, Evolutionary Biology and Genetics. This website has information about him and his work. perhaps the most original mathematical scientist of the [twentieth] century Bradley Efron Annals of Statistics (1976) Fisher was a genius who almost single-handedly created the foundations for modern statistical science. Anders Hald A History of Mathematical Statistics (1998) Sir Ronald Fisher could be regarded as Darwin s greatest twentieth-century successor. Richard Dawkins River out of Eden (1995)

42 Standardizace metodou Z-skóre (u, t, Z jsou transformované proměnné)

43 Gosset, William Sealy ("Student"), The probable error of a mean [Paper on the t-test], Biometrika 6 (1908), pp. 1-5

44 Odhady parametrů Rozdělení měření pro oba modely obsahuje střední hodnotu μ a rozptyl a odhady získáme: 1) Momentová metoda: pro normální rozdělení: odhadem je aritmetický průměr x A a výběrový rozptyl s. σ ) Metoda maximální věrohodnosti získává odhad maximalizující logaritmus ( xi μ ) i věrohodnostní funkce L, tj. ln( L) = ( N / )[ln( π) + ln( σ )] σ Pro první derivace logaritmu věrohodnostní funkce pak platí ln( L ) = xi N μ μ, ( x i μ ) ln( L ) i N = σ [ σ ] σ maximálně věrohodné odhady střední hodnoty a rozptylu jsou totožné s průměrem a výběrovým rozptylem. i.

45 1) Stanovení typu rozdělení: pro výpočet F 1 t (P i ) je třeba znát obecně parametry teoretickéh rozdělení. V řadě případů je však možná standardizace s = ( x Q) / R, kde R je parame rozptýlení. Standardizované kvantilové funkce Q s (P i ) = Fs t 1 (P i ) obsahují jen tvarové faktory. V případě shody obou rozdělení pak resultuje přímková závislost x() i = Q + R. QS( Pi) = a + b. QS( Pi). ) Odhady parametrů polohy a rozptýlení: odhad střední hodnoty odpovídá absolutnímu členu a odhad směrodatné odchylky směrnicí b regresní přímky. Pro odhad parametrů z Q-Q grafů je možno použít bud MNČ. Transformací z Y σ 1/ = ln[(1 + σ * ) ] má veličina z normované normální rozdělení N(0,1). Pořádková statistika x (i) pak souvisí s pořádkovou statistikou normovaného normálního exp( σ z ( i )) 1 x( i) = μ + τ μ τ g i( σ ) rozdělení z (i) dle + σ

46 V řadě případů je však možná standardizace = ( x Q) R, kde R je parametr rozptýlení. s / V případě shody obou rozdělení pak resultuje přímková závislost x( i) = Q + R. QS( Pi) = a + b. QS( Pi). Odhad střední hodnoty odpovídá absolutnímu členu a odhad směrodatné odchylky směrnicí b regresní přímky. Pro odhad parametrů z Q-Q grafů je možno použít bud MNČ.

47 Cenzorované výběry Pro odhady parametrů v cenzorovaných výběrech lze použít jak metodu maximální věrohodnosti, tak i metody založené a pořádkových statistikách. Cenzorování typu I: známe limitu detekce x L (mez pod kterou se zaznamenává pouze, Přítomnost měření) a předpokládejme, známe rozdělení dat charakterizované hustotou pravděpodobnosti f(x), resp. distribuční funkcí F(x). Pro cenzorovaná měření lze při znalosti distribuční funkce měření určit pouze pravděpodobnost s jakou leží pod mezí detekce, která je rovna F(x L ). Všechny možné kombinace n 1 prvků, které ve výběru velikosti N leží pod limitou detekce jsou dány binomickým koeficientem N!/(n 1! (N - n 1 )!). Věrohodností funkce má pro tento případ tvar N! ln( L) = n!*( N n N n F( X L ) 1 1)! i= n * f ( x( i) ).

48

49 Pro případ normálního rozdělení dat nalezl Cohen vztahy pro odhad střední hodnoty x C a rozptylu s odpovídající maximalizaci věrohodnostní funkce s využitím odhadů z necenzorované části dat Platí, že x N = 1 N x() i N n = +, 1 1 i n 1 s x x. N N = ( () i N) N n 1 1 i= n + 1 x = x λ *( x x ) C N N L, = + *( ) C N N L s s λ x x Parametr λ závisí: 1) na odhadnutém podílu cenzorovaných dat h = n1 / N a ) na parametru g = sn /( xn xl). Hodnoty λ jsou tabelovány a existují také empirické vztahy. 1 1

50 Postačuje jednokrokový odhad založený na předpokladu, že počet hodnot pod limitou detekce má binomické rozdělení a pro odhad střední hodnoty x CJ a rozptylu s CJ pak platí x = x q* s CJ N N N x() i i= n CJ = N N Φ N n1 ( ) *( * ( ) ) 1 s x s q h q Korekční faktor q má tvar q = ( N N n 1 ) 1 exp( 0.5*[ Φ ( h)] ) π. Odhady xcj a s CJ lze tedy určit relativně snadno bez nutnosti použití speciálních tabulek. Pro dvou-parametrové logaritmicko-normální rozdělení stačí místo hodnot x (i) použít jejich logaritmů ln (x (i) ) a logaritmovat i limitu detekce.

51

52 Praktické doplňky Při zpracování experimentálních dat záleží na množství informací, které jsou: I. Víme vše: známe pravděpodobnostní model a stačí pouze ověření předpokladů před konfirmativní statistickou analýzou II. Nevíme nic: postavíme datově závislý pravděpodobnostní model a provede se komplex analýza dat (1. EDA průzkumová,. Ověření předpokladů, 3. Transformace, 4. Porovnání výběrovéh rozdělení s teoretickými). III. Něco víme: postavíme empirický model se známými tak i datově závislými informacem pak se provede 1.,., 3. a 4. analýza dat) Doporučené další postupy: 1) Robustní metody, ) Využití zešikmených rozdělení, 3) Počítačově intenzivní metody, 4) Generalizovaná lineární regrese.