ZÁKLADNÍ POJMY a analýza výběru

Podobné dokumenty
INTERVALOVÉ ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU

Charakterizace rozdělení

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Kvantily a písmenové hodnoty E E E E-02

Statistická analýza jednorozměrných dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistická analýza jednorozměrných dat

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

KGG/STG Statistika pro geografy

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Průzkumová analýza dat

Odhad parametrů N(µ, σ 2 )

Statistická analýza. jednorozměrných dat

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Odhad parametrů N(µ, σ 2 )

Praktická statistika. Petr Ponížil Eva Kutálková

Statistická analýza jednorozměrných dat

Charakteristika datového souboru

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Základy teorie odhadu parametrů bodový odhad

Pravděpodobnost a matematická statistika

IDENTIFIKACE BIMODALITY V DATECH

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Zápočtová práce STATISTIKA I

Odhady Parametrů Lineární Regrese

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

MATEMATICKÁ STATISTIKA - XP01MST

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

3 Bodové odhady a jejich vlastnosti

UNIVERZITA PARDUBICE

Výběrové charakteristiky a jejich rozdělení

Úvod do problematiky měření

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Téma 22. Ondřej Nývlt

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Deskriptivní statistické metody II. Míry polohy Míry variability

PRAVDĚPODOBNOST A STATISTIKA

I. D i s k r é t n í r o z d ě l e n í

MATEMATICKÁ STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Číselné charakteristiky

p(x) = P (X = x), x R,

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

ZÁKLADNÍ ANALÝZA DAT S OHLEDEM NA LIMITU DETEKCE

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

AVDAT Klasický lineární model, metoda nejmenších

pravděpodobnosti, popisné statistiky

Statistika pro geografy

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Porovnání dvou reaktorů

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Vlastnosti odhadů ukazatelů způsobilosti

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

, Brno Hanuš Vavrčík Základy statistiky ve vědě

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Vybraná rozdělení náhodné veličiny

S E M E S T R Á L N Í

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Statistická analýza jednorozměrných dat

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

y = 0, ,19716x.

S E M E S T R Á L N Í

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Definice spojité náhodné veličiny zjednodušená verze

Normální rozložení a odvozená rozložení

STATISTICKÉ CHARAKTERISTIKY

Regresní analýza 1. Regresní analýza

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

JAK MODELOVAT VÝSLEDKY

Jiří Militký KTM, Technická universita v Liberci, LIBEREC, Česká Republika

PRAVDĚPODOBNOST A STATISTIKA

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

8. Normální rozdělení


5. B o d o v é o d h a d y p a r a m e t r ů

Náhodná veličina a rozdělení pravděpodobnosti

Popisná statistika. Komentované řešení pomocí MS Excel

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Statistická analýza jednorozměrných dat

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Inovace bakalářského studijního oboru Aplikovaná chemie

Tomáš Karel LS 2012/2013

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Simulace. Simulace dat. Parametry

Metodologie pro ISK II

Transkript:

ZÁKLADNÍ POJMY a analýza výběru PARAMETR je statistická charakteristika základního souboru (značíse řeckými písmeny, např. střední hodnota μ ). STATISTIKA je statistická charakteristika výběrového souboru (značíse latinkou, např. výběrový průměr ). x ODHAD PARAMETRU ZÁKLADNÍHO SOUBORU je určitá hodnota (hodnoty) vhodné statistiky získaná postupem zvaným bodový nebo intervalový odhad. VÝBĚROVÉ ROZDĚLENÍ je rozdělení pravděpodobnosti všech možných hodnot statistiky, které mohou být zjištěny z náhodných výběrů stejné velikosti vybraných z určitého základního souboru.

VÝBĚROVÝ PRŮMĚR a jeho rozdělení 15 6 8 3 8 30 10 15 0 18 5 x1 x 17 9 35 16 1 18 30 11 7 6 x3 x4

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Nespornost (konzistence): se vzrůstající velikostí výběru vzrůstá i pravděpodobnost, že odhad bude blízký skutečnému parametru. Nevychýlenost (nestrannost): střední hodnota výběrové statistiky se rovná odhadovanému parametru základního souboru E(T) = P Vydatnost: znamená, že daný nevychýlený odhad má se srovnání se všemi ostatními nevychýlenými odhady nejmenší variabilitu (rozptyl)

Konstrukce bodových odhadů Metoda maximální věrohodnosti (MLE): Konstruují se odhady maximalizující věrohodnostní funkci L (resp její logaritmus lnl). Věrohodnostní funkce je sdružená hustota pravděpodobnosti všech prvků výběru. Pro nezávislá měření (nezávislé chyby ε i ) platí ln L ( μ, σ, a ) = ln f ( x i μ, σ, a ) Podmínky maxima představují soustavu rovnic lnl( μ, σ μ, a) = 0 lnl( μ, σ σ, a) = 0 lnl( μ, σ a, a) = 0

MLE pro normální rozdělení Věrohodnostní funkce pro náhodný nezávislý výběr z normálního rozdělení Derivace Výběrový průměr a rozptyl jsou tedy MLE odhady. ) ( )] ln( ) )*[ln( / ( ) ln( σ μ σ π + = i x i N L μ μ * * ) ln( N x L i i = ] [ ) ( ) ln( σ σ μ σ N x L i i =

VÝBĚROVÝ PRŮMĚR a jeho rozdělení Pro rozdělení výběrového průměru platí: σ E(X) = μ σ =SE = X X n Jestliže výběr pochází z normálního rozdělení se střední hodnotou μ a směrodatnou odchylkou σ, potom výběrový průměr x má výběrové normální rozdělení N(μ,σ /n) Z toho vyplývá: výběrový průměr je dobrým odhadem střední hodnoty μ se vzrůstající velikostí výběru n se snižuje standardní chyba průměru SE a určení střední hodnoty je tím spolehlivější

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Grafické znázornění nevychýleného odhadu Odhadovaný parametr Výběrový průměr

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Systematické vychýlení odhadu Vychýlený odhad y

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ Nevychýlený a vydatný odhad Nevychýlený odhad s velkou variabilitou (nevydatný)

BODOVÉ ODHADY ZÁKLADNÍCH PARAMETRŮ Hustota pravděpodobnosti základního souboru X μ Hodnoty výběrového souboru Tato vzdálenost je pro jeden konkrétní výběr neznámá, není možné určit spolehlivost konkrétního odhadu

Ukázky příkladů určení centrální tendence 0 1 3 4 5 6 7 8 9 10 0 1 3 4 5 6 7 8 9 10 1 14 Průměr= 5 Průměr= 6 0 1 3 4 5 6 7 8 9 10 0 1 3 4 5 6 7 8 9 10 1 14 Medián = 5 Medián = 5 0 1 3 4 5 6 7 8 9 10 11 1 13 14 Módus = 9 Není módus

Ukázky příkladů rozličné variability (rozptýlení) Rozpětí = 1-7 = 5 Rozpětí = 1-7 = 5 7 8 9 10 11 1 Data A 11 1 13 14 15 16 17 18 19 0 1 7 8 9 10 11 1 Průměr = 15.5 s = 3.338 Data B 11 1 13 14 15 16 17 18 19 0 1 Průměr = 15.5 s =.958

Přehled sumarizace dat Sumární míry Centrální tendence Kvartily Variabilita Průměr Medián Módus Rozpětí Rozptyl Variační koeficient Směrodatná odchylka

Přehled měr variability (rozptýlení) Variabilita Rozptyl Směrodatná odchylka Variační Rozpětí Populační r. Populační s.o. koeficient Výběrový r. Výběrová s.o. Interkvartilové rozpětí

Popisné statistiky polohy, rozptýlení a tvaru Parametry polohy: Centrální tendence Průměr aritmetický: (Σx/n) Medián: Centrální bod (dělicí bod) Parametry rozptýlení: Variace směrodatná odchylka Parametry tvaru: šikmost náklon rozdělení špičatost délka konců Zešikmené vpravo Mode < Median < Mean Symetrické Mean = Median =Mode Zešikmené vlevo Mean < Median < Mode

Pokud x i nemají normální rozdělení σ (g 1) D(s) 4N Parametry rozptýlení - směrodatná odchylka Směrodatná odchylka s je vychýleným odhadem veličiny σ. Platí, že E(s) < σ. Pro nevychýlený odhad lze odvodit σ = K u * s s (N 1) N 1.45 kde K u N 1 = Γ( ) N 1 N Γ( ) N 1 N 1 3 4N 37 3 N D( σ ) = σ (N) D(s) σ (N 1)

Parametry rozptýlení - variační koeficient Výběrový odhad V a odpovídající rozptyl D(V) lze vyjádřit ve tvaru V x = s D(V) N + (N 1) δ δ δ (1 + N( n 1) N δ )

Parametry tvaru - šikmost a špičatost Odhady jsou pouze asymptotické (platí pro velké N ). Pro odhad šikmosti g 1 se používá výběrová šikmost s rozptylem D( ), kde ĝ 1 N 3 N (x i x) i = 1 ĝ1 = D( ĝ 3 / 1 N (x i x) i = 1 Pro odhad špičatosti g platí ) (N ĝ 1 6N(N - )(N + - 1) 1)(N + 3) ĝ = N N i = 1 N i = 1 (x (x i i x) x) 4 D( ĝ ) (N - 4N(N - 1) 3)(N - )(N + 5)(N + 3)

Kdy použít mediánu? x Aritmetický průměr je efektivní (má minimální rozptyl) pouze pro normální rozdělení. Pro případ Laplaceova rozdělení je efektivní výběrový medián pro jehož rozptyl platí ~ D( x 0.5 ) = 4Nf (M) ~ x 0.5 kde f (M) je hodnota hustoty pravděpodobnosti v místě teoretického mediánu M. 1 Pro případ Laplaceova rozdělení je f (M) = 1/( σ ) a tedy ~ D( x0.5) = σ /(N)

Pro Laplaceovo rozdělení je poměr E D(x) M = ~ = D( x ) 0.5 tj. medián je x efektivnější než aritmetický průměr. Pro třídu exponenciálních rozdělení s parametrem α lze obecně určit E M ze vztahu E M = α Γ(3/ α ) Γ 3 (1/ α ) Z této rovnice plyne, že pro rozdělení α > (dlouhé konce) je medián efektivnější než aritmetický průměr

Kdy použít polosumy? Polosuma je efektivnější než x pro g >.. Pro rozdělení s plochými vrcholy se doporučuje použití kvartilové polosumy ~ x 0.75 ~ ( x ~ x PF = 0.75 0. 5 ~ x 0.5 kde resp. je horní, resp. dolní kvartil ) / V případě ohraničených rozdělení (arkussínové a lichoběžníkové třídy) je efektivní tzv. polosuma xˆ P = (x max x min ) / kde x max je maximální a x min je minimální prvek výběru

Rozptyl odhadu polosumy je pro normální rozdělení roven D(xˆ Pro rovnoměrné rozdělení je P ( π ) = σ ) (4 ln( N)) D(xˆ P ) = (6σ ) [(N 1)(N )] Arkussínové rozdělení je definováno v intervalu (-A, A) a pro jeho hustotu pravděpodobnosti platí 1 Pro arkussínové rozdělení D(xˆ f (x ) = π P ) = A x (5π 4 σ ) N 4

Uřezaný průměr α-uřezaný průměr x( α) x( α) 1 = n M je definován vztahem N M = x (i) i M + 1 kde M = int(αn/100) je celá část výrazu α N/100 a x (i) jsou pořádkové statistiky (vzestupně setříděné prvky výběru).

Kombinovaný odhad centrální hodnoty Pro symetrická rozdělení s vybočujícími hodnotami je doporučen za odhad středu symetrie čili centrální hodnoty použít medián dle vzorce ~ x C ~ x x 0. 5 xˆ x(0.5) = med{,,, PF, } P kde med{.} označuje medián z prvků v závorce. Pro odhad rozptylu odhadu x~ C je možno použít interkvantilové délky ( ~ ~ x x )/ k 0.9 = 0.95 0. 05 D( ~ xc ) = k 9 0. (.7N)

SUMARIZACE DAT Sumární míry Centrální tendence Průměr Módus Medián Geometrický průměr Kvartily Rozpětí Rozptyl Variace Směrodatná odchylka Variační koeficient

Fisher, Sir Ronald Aylmer, 1890-196 Sir Ronald Fisher F.R.S. (1890-196) was one of the leading scientists of the 0th century; making major contributions to Statistics, Evolutionary Biology and Genetics. This website has information about him and his work. perhaps the most original mathematical scientist of the [twentieth] century Bradley Efron Annals of Statistics (1976) Fisher was a genius who almost single-handedly created the foundations for modern statistical science. Anders Hald A History of Mathematical Statistics (1998) Sir Ronald Fisher could be regarded as Darwin s greatest twentieth-century successor. Richard Dawkins River out of Eden (1995) http://www.library.adelaide.edu.au/ual/special/fisher.html

Standardizace metodou Z-skóre (u, t, Z jsou transformované proměnné)

Gosset, William Sealy ("Student"), 1876-1937 The probable error of a mean [Paper on the t-test], Biometrika 6 (1908), pp. 1-5

Odhady parametrů Rozdělení měření pro oba modely obsahuje střední hodnotu μ a rozptyl a odhady získáme: 1) Momentová metoda: pro normální rozdělení: odhadem je aritmetický průměr x A a výběrový rozptyl s. σ ) Metoda maximální věrohodnosti získává odhad maximalizující logaritmus ( xi μ ) i věrohodnostní funkce L, tj. ln( L) = ( N / )[ln( π) + ln( σ )] σ Pro první derivace logaritmu věrohodnostní funkce pak platí ln( L ) = xi N μ μ, ( x i μ ) ln( L ) i N = σ [ σ ] σ maximálně věrohodné odhady střední hodnoty a rozptylu jsou totožné s průměrem a výběrovým rozptylem. i.

1) Stanovení typu rozdělení: pro výpočet F 1 t (P i ) je třeba znát obecně parametry teoretickéh rozdělení. V řadě případů je však možná standardizace s = ( x Q) / R, kde R je parame rozptýlení. Standardizované kvantilové funkce Q s (P i ) = Fs t 1 (P i ) obsahují jen tvarové faktory. V případě shody obou rozdělení pak resultuje přímková závislost x() i = Q + R. QS( Pi) = a + b. QS( Pi). ) Odhady parametrů polohy a rozptýlení: odhad střední hodnoty odpovídá absolutnímu členu a odhad směrodatné odchylky směrnicí b regresní přímky. Pro odhad parametrů z Q-Q grafů je možno použít bud MNČ. Transformací z Y σ 1/ = ln[(1 + σ * ) ] má veličina z normované normální rozdělení N(0,1). Pořádková statistika x (i) pak souvisí s pořádkovou statistikou normovaného normálního exp( σ z ( i )) 1 x( i) = μ + τ μ τ g i( σ ) rozdělení z (i) dle + σ

V řadě případů je však možná standardizace = ( x Q) R, kde R je parametr rozptýlení. s / V případě shody obou rozdělení pak resultuje přímková závislost x( i) = Q + R. QS( Pi) = a + b. QS( Pi). Odhad střední hodnoty odpovídá absolutnímu členu a odhad směrodatné odchylky směrnicí b regresní přímky. Pro odhad parametrů z Q-Q grafů je možno použít bud MNČ.

Cenzorované výběry Pro odhady parametrů v cenzorovaných výběrech lze použít jak metodu maximální věrohodnosti, tak i metody založené a pořádkových statistikách. Cenzorování typu I: známe limitu detekce x L (mez pod kterou se zaznamenává pouze, Přítomnost měření) a předpokládejme, známe rozdělení dat charakterizované hustotou pravděpodobnosti f(x), resp. distribuční funkcí F(x). Pro cenzorovaná měření lze při znalosti distribuční funkce měření určit pouze pravděpodobnost s jakou leží pod mezí detekce, která je rovna F(x L ). Všechny možné kombinace n 1 prvků, které ve výběru velikosti N leží pod limitou detekce jsou dány binomickým koeficientem N!/(n 1! (N - n 1 )!). Věrohodností funkce má pro tento případ tvar N! ln( L) = n!*( N n N n F( X L ) 1 1)! i= n1 + 1 1 * f ( x( i) ).

Pro případ normálního rozdělení dat nalezl Cohen vztahy pro odhad střední hodnoty x C a rozptylu s odpovídající maximalizaci věrohodnostní funkce s využitím odhadů z necenzorované části dat Platí, že x N = 1 N x() i N n = +, 1 1 i n 1 s x x. N N = ( () i N) N n 1 1 i= n + 1 x = x λ *( x x ) C N N L, = + *( ) C N N L s s λ x x Parametr λ závisí: 1) na odhadnutém podílu cenzorovaných dat h = n1 / N a ) na parametru g = sn /( xn xl). Hodnoty λ jsou tabelovány a existují také empirické vztahy. 1 1

Postačuje jednokrokový odhad založený na předpokladu, že počet hodnot pod limitou detekce má binomické rozdělení a pro odhad střední hodnoty x CJ a rozptylu s CJ pak platí x = x q* s CJ N N N x() i i= n + 1 1 CJ = N N Φ N n1 ( ) *( * ( ) ) 1 s x s q h q Korekční faktor q má tvar q = ( N N n 1 ) 1 exp( 0.5*[ Φ ( h)] ) π. Odhady xcj a s CJ lze tedy určit relativně snadno bez nutnosti použití speciálních tabulek. Pro dvou-parametrové logaritmicko-normální rozdělení stačí místo hodnot x (i) použít jejich logaritmů ln (x (i) ) a logaritmovat i limitu detekce.

Praktické doplňky Při zpracování experimentálních dat záleží na množství informací, které jsou: I. Víme vše: známe pravděpodobnostní model a stačí pouze ověření předpokladů před konfirmativní statistickou analýzou II. Nevíme nic: postavíme datově závislý pravděpodobnostní model a provede se komplex analýza dat (1. EDA průzkumová,. Ověření předpokladů, 3. Transformace, 4. Porovnání výběrovéh rozdělení s teoretickými). III. Něco víme: postavíme empirický model se známými tak i datově závislými informacem pak se provede 1.,., 3. a 4. analýza dat) Doporučené další postupy: 1) Robustní metody, ) Využití zešikmených rozdělení, 3) Počítačově intenzivní metody, 4) Generalizovaná lineární regrese.