Deskriptivní statistické metody II. Míry polohy Míry variability

Podobné dokumenty
KGG/STG Statistika pro geografy

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Charakteristika datového souboru

Výběrové charakteristiky a jejich rozdělení

Charakterizace rozdělení

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA

Vybraná rozdělení náhodné veličiny

7. Rozdělení pravděpodobnosti ve statistice

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Náhodné chyby přímých měření

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Náhodné (statistické) chyby přímých měření

Náhodná veličina a rozdělení pravděpodobnosti

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

I. D i s k r é t n í r o z d ě l e n í

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Praktická statistika. Petr Ponížil Eva Kutálková

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

p(x) = P (X = x), x R,

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

STATISTICKÉ ODHADY Odhady populačních charakteristik

Jevy a náhodná veličina

KGG/STG Statistika pro geografy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Pravděpodobnost a aplikovaná statistika

pravděpodobnosti, popisné statistiky

Jana Vránová, 3. lékařská fakulta UK

Zápočtová práce STATISTIKA I

Číselné charakteristiky

Téma 22. Ondřej Nývlt

Základy teorie pravděpodobnosti

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Normální (Gaussovo) rozdělení

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

STATISTICKÉ CHARAKTERISTIKY

Základy popisné statistiky

SPOJITÉ ROZDĚLENÍ PRAVDĚPODOBNOSTI. 7. cvičení

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Definice spojité náhodné veličiny zjednodušená verze

Základy teorie odhadu parametrů bodový odhad

MATEMATICKÁ STATISTIKA - XP01MST

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Pravděpodobnost a matematická statistika

Analýza dat na PC I.

8. Normální rozdělení

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Číselné charakteristiky a jejich výpočet

Normální (Gaussovo) rozdělení

Statistika pro geografy

Rovnoměrné rozdělení

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Odhad parametrů N(µ, σ 2 )

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Normální rozložení a odvozená rozložení

12. cvičení z PST. 20. prosince 2017

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Pravděpodobnost a statistika I KMA/K413

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

3 Bodové odhady a jejich vlastnosti

Základní statistické charakteristiky

5. B o d o v é o d h a d y p a r a m e t r ů

ROZDĚLENÍ NÁHODNÝCH VELIČIN

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Statistika I (KMI/PSTAT)

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Testování hypotéz o parametrech regresního modelu

NÁHODNÁ VELIČINA. 3. cvičení

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Aproximace binomického rozdělení normálním

Úvod do problematiky měření

charakteristiky KGG/STG Zimní semestr Základní statistické charakteristiky, Teoretická rozdělení 1

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

PRAVDĚPODOBNOST A STATISTIKA

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Transkript:

Deskriptivní statistické metody II. Míry polohy Míry variability Jana Vránová, 3.lékařská fakulta UK, Praha

Náhodný výběr všechny prvky výběru {x i }, i = 1, 2,, n, se chápou jako náhodné veličiny, které se řídí stejným zákonem rozdělení, tj. výběr je homogenní hodnoty x i, zahrnuté do výběru jsou vybrány nezávisle na sobě výběr je charakterizován střední hodnotou rozptýlením kolem střední hodnoty tvarem výběrového rozdělení

Výběrové charakteristiky pro charakterizaci výběru se tradičně používá momentů Obecné momenty m 1, m 2, m k : m j 1 n j xi n i = 1 = j = 1, 2,, k Centrální momenty C j, jsou analogií obecných momentů pro odchylky od prvního obecného momentu (x m 1 ), tedy: 1 n ( ) j i 1 n i = 1 Cj = x m j = 2, 3,, k

Míry polohy Míry polohy (střední hodnoty) (Střední hodnoty určují, kde na číselné ose je výběrová distribuce umístěna). Aritmetický průměr Geometrický průměr Modus Medián Kvantily

Aritmetický průměr Aritmetický průměr první obecný moment sečteme všechny hodnoty, kterých sledovaná veličina nabyla, a vydělíme jejich počtem x = n i= 1 n x i

Vážený aritmetický průměr Vážený aritmetický průměr máme-li několik nezávislých náhodných výběrů o různých počtech pozorování a známe-li již aritmetické průměry v těchto výběrech, je společný průměr souboru roven x = k i= 1 nx n i i kde k je počet nezávislých výběrů a n k = n výsledek je stejný, jako kdybychom průměr počítali ze společného souboru všech pozorovaných hodnot i= 1 i

Modus Modus je hodnota nejčastěji se vyskytující M 0 nebo z histogramu je hodnota patrna na první pohled i v četnostních tabulkách nalezneme max n i a příslušná hodnota x i je modus v intervalových tabulkách najdeme interval s max n i a přesnou hodnotu určíme ze vzorce ˆ d 1 x= b+ h d 1+ d 2 ˆx b je počátek intervalu obsahujícího ˆx h šířka tohoto intervalu d 1 je rozdíl četností intervalu s ˆx a intervalu předcházejícího d 2 je rozdíl četností intervalu s ˆx a následujícího ˆx

Medián Medián uspořádáme- li pozorované statistické jednotky podle velikosti sledovaného znaku, dělí medián M e nebo x výběr na dvě stejně četné části je-li počet n sledovaných prvků lichý, je medián hodnota toho prvku, který má pořadové číslo (n+1)/2 sudý počet prvků pokud dva prostřední prvky s pořadími n/2 a n/2+1 mají stejnou hodnotu je medián roven této hodnotě, pokud jsou jejich hodnoty různé, je medián jejich aritmetický průměr u intervalových četnostních tabulek najdeme snadno interval kde x leží. Jeho hodnotu určíme ze vztahu: x = a+ h n 2 n 2 n 1 a je počátek intervalu obsahujícího x h šířka tohoto intervalu n 2 je počet prvků v tomto intervalu n 1 je počet všech prvků ležících před intervalem s x n počet všech prvků

Geometrický průměr Používáme tehdy, když má význam součin znaků Při analýze posloupností odvozených znaků, které vznikají jako podíl dvou veličin časové řady n n 1 2... n G = n = i i= 1 x x x x x

Geometrický průměr Potlačuje vliv extrémních hodnot (velmi malých i velmi velkých) Používá se: v oblastech ochrany životního prostředí dodržování hygienických norem při sledování kvality ovzduší, vody apod. např. při analýze koncentrace bakterií, kdy se hodnoty mohou pohybovat od 10 do 10 000 Naopak je geometrický průměr nevhodný při analýze již zlogaritmovaných dat

Geometrický průměr Z definice vyplývá, že jej nelze spočítat v případě, kdy se jedna nebo vícero hodnot rovná 0, nebo je záporná Dosadíme substituci např. 1 nebo pro všechny hodnoty menší jako 2, tj. hodnoty kolem 0 a záporné dosadíme hodnotu 1,9, tak aby nedošlo ke ztrátě informace

Kvantily medián je hodnota, pod kterou leží 50% souboru; někdy říkáme že medián je 50%-ní kvantil (percentil) obecně p procentní kvantil je hodnota, pod kterou leží p % souboru vypočteme číslo a = n.p / 100. Za p procentní kvantil bereme pak a-tou hodnotu seřazeného souboru dat užívají se pro odhad referenčních rozmezí biochemických testů, obvykle se hledá 2,5% a 97,5% kvantil kvantil se specifikovaným p = k.10, k = 1, 2,, 9 se nazývá k-tý decil kvartil odděluje z každého kraje uspořádané řady prvků 25%, mezi nimi leží 50% prvků

Kvantilová polosuma pro rozdělení s plochými vrcholy se doporučuje jako charakteristika polohy kvantilová polosuma: ~ ~ P F = x 0,75 x 0,25 v případě ohraničených rozdělení ~ x P = (x max x min ) / 2 kde x max je maximální a x min je minimální prvek výběru Polosuma x p je efektivnější než x pro g 2 > 2,2

Míry variability Míry variability (Rozložení se stejným průměrem může být velice mnoho, liší se těsností uspořádání jednotlivých prvků kolem průměru, VARIABILITOU) Rozptyl Směrodatná odchylka Rozpětí Šikmost a špičatost

Rozptyl Výběrový rozptyl výběrový druhý centrální moment značíme s 2 a vypočteme jej pomocí vzorce s n ( ) 2 2 x x x = = i i 2 i= 1 i= 1 2 n n n x kde n je počet prvků pro četnostní tabulky s k ( ) 2 2 n x x n x i i i i 2 i= 1 i= 1 2 = = x k i= 1 n i k n kde k je počet řádků četnostní tabulky a k i= 1 n i = n

Směrodatná odchylka Směrodatná odchylka značíme jí s a spočteme dle vzorce s =+ s 2

Rozpětí Rozpětí nejjednodušší míra variability rozdíl mezi maximální a minimální pozorovanou hodnotou R= x x max min pomocí R můžeme dosti dobře odhadnout s platí totiž, že v intervalu μ ±3σ leží 99,7% souboru, neboli skoro všechno lze aproximovat R 6 s

Cheppardova korekce při výpočtu rozptylu z dat uspořádaných do třídních intervalů se dopouštíme chyby tím, že všechny hodnoty x i patřící do jedné třídy nahrazujeme jedinou hodnotou středem intervalu. Čím je šířka intervalu větší, tím je i tato chyba větší. Je-li sledovaná hodnota spojitá, lze opravit hodnotu rozptylu Cheppardovou korekcí: s 2 d = s kde d = šíře intervalu 12 2 2 kor

Variační koeficient vyjadřuje poměr s a x v procentech δ = V = s 100 x Použití: V laboratoři mají králíky, morčata a myši a potřebují porovnat variabilitu váhy u jednotlivých souborů pokusných zvířat. Vzhledem k tomu, že s jsou vyjádřeny ve stejných jednotkách jako x i, počítaly by se u králíků v kg a u myší v g, což by vedlo k názoru, že variabilita u králíků je větší. Proto převádíme s na V variační koeficient je číslo bezrozměrné (nezávislé na jednotkách)

Střední chyba průměru náhodné kolísání způsobuje, že x, byť správně spočítané, má svou náhodnou chybu, kterou lze spočítat pomocí rozptylu s 2 jednotlivých hodnot kolem průměru čím je větší rozptyl jednotlivých hodnot, tím je větší i rozptyl průměru čím je n větší, tím je rozptyl menší s 2 x 2 s = sx n = s n

Tvarové parametry Šikmost (skewness) g třetí centrální moment ( ) i i= 1 1 = n 32 2 i= 1 n n x x x ( ) i x 3

Tvarové parametry Špičatost (kurtosis) g čtvrtý centrální moment ( ) i 2 i= 1 = n 2 2 i= 1 n n x x x ( ) i x 4

Náhodná veličina a její rozložení distribuční funkce frekvenční funkce

Teorie pravděpodobnosti teorie pravděpodobnosti studuje matematické modely náhodných pokusů, tj. takových pokusů, jejichž výsledek není zcela jednoznačně určen podmínkami pokusu avšak nezabývá se libovolnými náhodnými pokusy ale pouze těmi, které mají vlastnost statistické stability neboli stability četností označme písmenem A jeden z možných výsledků náhodného pokusu. Opakujme tento pokus n-krát a označme znakem μ A počet, kolikrát se v těchto n pokusech vyskytl výsledek A. Poměr μ A /n se pak nazývá poměrná četnost jevu A a vlastnost stability četností záleží v tom, že při velkém n kolísá poměrná četnost jevu A nepatrně (při změně n) kolem jistého čísla všechny pokusy lze rozdělit do tří skupin dobré pokusy úplná stabilita výsledku zde je všechno jasné bez teorie pravděpodobnosti horší pokusy nejsou úplně stabilní, jsou však statisticky stabilní špatné pokusy nejsou ani statisticky stabilní teorie pravděpodobnosti je nepoužitelná

Náhodná veličina Náhodná veličina předpis, který přiřazuje každému výsledku náhodného pokusu určité číslo... výsledkem pokusu nemusí být vždy nějaké číslo; vždy mu však nějaké číslo můžeme přiřadit v praxi nás však daleko více zajímají pravděpodobnosti, s kterými náhodná veličina nabývá určité hodnoty nebo je obsažena v určitých intervalech hodnot PRAVDĚPODOBNOST ROZLOŽENÍ náhodné veličiny

Distribuční funkce Distribuční funkce je pravděpodobnost, že náhodná veličina X nabude určité hodnoty x nebo hodnoty menší, tedy: F(X) = P(X x) distribuční funkce je definována pro všechna reálná čísla x, má tedy smysl pro < x < + Vlastnosti: 1. 0 F(x) 1 2. když x, pak F(x) = 0 3. když x +, pak F(x) = 1 4. F(x) je funkce neklesající, tedy: když x i < x j, pak F(x i ) F(x j ) 5. F(x) nemusí být spojitá

Frekvenční funkce má-li F(x) pro všechna x derivaci derivaci nazýváme d f x = F x dx ( ) ( ), pak tuto Vlastnosti: HUSTOTA PRAVDĚPODOBNOSTI neboli frekvenční funkce 1. 2. 3. f + P ( x) 0, pro každé x f ( x) dx = 1 2 ( x X x ) = f ( x) 1 2 x x 1 dx ale: pro spojité náhodné veličiny je P(X = x) = 0

Střední hodnota a rozptyl Diskrétní veličiny Spojité veličiny střední hodnota míra polohy E x = xp i x ( ) ( ) i E x = x f x dx ( ) ( ) i střední kvadratická odchylka od μ míra variability + (( ) 2 ) D x E x E x = ( ) ( ) ( ) ( ) D x = E x 2 μ 2

Teoretická rozdělení Pomocí distribuční funkce, frekvenční funkce nebo pravděpodobnostní funkce jsou definována různá rozložení distribuce náhodných veličin. Nejčastěji se setkáváme s normálním rozdělením. Existuje však řada úloh, kde předpoklad normality není zcela oprávněný. Nejdůležitější typy rozložení: Poissonovo rozdělení Laplaceovo rozdělení Exponenciální rozdělení Rovnoměrné rozdělení Binomické rozdělení Bernouliho rozdělení Logaritmicko normální rozdělení Weibullovo rozdělení

Poissonovo rozdělení Poissonovo rozdělení pravděpodobnosti má náhodná veličina, která vyjadřuje počet výskytu málo pravděpodobných jevů v určitém časovém, popř. objemovém intervalu např. počet výskytu jevu A v časovém intervalu t musí splňovat následující podmínky pravděpodobnost výskytu A je úměrná délce t, přičemž pravděpodobnost výskytu více než jednoho jevu v tomto úseku je zanedbatelná pravděpodobnost výskytu A v daném časovém intervalu t je závislá na výskytu jevu A v předcházejícím intervalu t pravděpodobnost výskytu A v časovém intervalu t nezávisí na počátku intervalu S Poissonovým rozdělením se setkáváme při strukturálních analýzách, u různých čítačů částic a výskytu poruch v plošných nebo objemových elementech

Poissonovo rozdělení Pravděpodobnostní funkce je definována vztahem: p x, λ ( ) = x λ e x! λ kde x je diskrétní náhodná veličina, nabývající pouze hodnot 0, 1,, n a λ je parametr. E(x) = λ, D(x) = λ

Laplaceovo rozdělení oboustranně exponenciální vyskytuje se v případě, kdy jsou náhodné veličiny měřeny za podmínek kolísání rozptylu kolem určité střední hodnoty 1 f ( x) = e 2b = 1 2b { x μ b μ x e if x< μ b x μ e if x μ b E(x) = μ, D(x) = 2b 2 μ=5, b = 2 kde x je spojitá náhodná veličina, nabývající hodnot (-, + ), μ je parametr polohy a b je měřítko.

Exponenciální rozdělení je jednostranně ohraničené zdola využívá se k popisu reálných dějů uplynulý čas, resp. obsazený prostor před tím než daný jev nastal životnost součástí strojů vzdálenost, kterou urazí molekuly plynu při nízkém tlaku až do vzájemné srážky doba mezi dopadem částic do čítače x ( ) λ f x = e λ pro x 0 f ( x ) = 0 pro x < 0 E(x) = λ -1, D(x) = λ -2

Rovnoměrné rozdělení rektangulární rozložení nejjednodušší rozdělení pro oboustranně omezenou náhodnou veličinu, která musí ležet v zadaném intervalu a h< x < a + h týká se náhodných veličin, které se v daném intervalu vyskytují se stejnou pravděpodobností f ( x) = 1 b a pro a < x < b f ( x ) = 0 pro x < a, nebo x > b E(x) = (a+b)/2, D(x) = (b a) 2 /12

Binomické rozdělení je rozložení četnosti výskytu jevu, který může nabýt pouze dvou hodnot (jev alternativní) označíme-li P(A) = p a P(A) = q, pak zřejmě p + q = 1 jednotlivá vybírání jsou na sobě nezávislá, proto lze spočítat pravděpodobnost jevu, že z n pokusů nastane jev A právě k-krát (a tedy jev A (n k)-krát), pomocí rovnice (p + q) n = 1 n f x = p 1 p k ( ) k ( ) n n! = k k! ( n k)! n k

Binomické rozdělení Střední hodnota a rozptyl binomického rozložení: E(x) = np, D(x) = np(1 p)

Bernouliho rozdělení speciální případ binomického rozložení nula-jedničkové rozložení náhodné veličiny jev může nabývat pouze hodnot 1 a 0 E(x) = p, D(x) = p(1 p) opakujeme-li tento alternativní pokus nezávisle na sobě vícekrát (n krát), veličina X (jejímiž hodnotami je počet pokusů, z oněch n provedených, které skončily s výsledkem 1 (celkový počet úspěchů)) má binomické rozdělení

Log-normální rozdělení nejrozšířenější alternativa normálního rozdělení pro jednostranně ohraničená data fyzikální veličiny (teplota, tlak, objem, hmotnost, ) jsou buď kladné, nebo mají přirozeně definovaný počátek pro náhodné veličiny tohoto druhu je normální rozdělení vždy aproximací když jsou naměřené veličiny dostatečně vzdálené od spodní meze, resp. přirozeného počátku, tato aproximace vyhovuje dobře v blízkosti počátku je tato aproximace nevhodná měření nízké koncentrace, malé hmotnosti, malé délky distribuce prachových částic v atmosféře je-li měřená veličina náhodným podílem již náhodně vybraného celku

Log-normální rozložení Pravděpodobnostní funkce je definována vztahem: 1 f x e xσ 2π ( ) ( ) 2 2 ln x μ /2σ μσ, = kde x > 0, a μ a σ jsou střední hodnota a směrodatná odchylka logaritmu proměnné E(x) = e μ+σ2 /2, D(x) = (e σ2 1) e 2μ+σ2

Weibullovo rozdělení je spojité rozložení pravděpodobnosti s frekvenční funkcí () f t β t γ = η η β 1 t γ η e β kvantitativní hodnocení bezporuchovosti (spolehlivosti) komponent technických systémů matematický popis doby do poruchy analýza přežití u karcinomů

Weibullovo rozdělení E(x) = γ + ηγ(1+1/β), D(x) = η 2 [Γ(1+2/β) Γ 2 (1+1/β)]

Normální rozdělení

Gaussovo rozdělení představuje pro statistiku nejdůležitější rozložení v praxi se vyskytuje nejčastěji řada dalších rozložení se mu za jistých podmínek přibližuje a můžeme je tedy normálním rozložením aproximovat je charakterizován průměrem μ a směrodatnou odchylkou σ, která určuje rozptýlení hodnot kolem μ hustota pravděpodobnosti náhodné veličiny x v intervalu (-, + ) má tvar 1 f ( x) = e 2 2πσ ( x μ ) 2 2 2σ

Gaussovo rozdělení E(x) = μ, D(x) = σ 2

Gaussovo rozdělení hustota pravděpodobnosti při různém σ a stejném μ hustota pravděpodobnosti při různém μ a stejném σ

Význam normálního rozdělení patří mezi nejdůležitější pravděpodobnostní modely matematické statistiky distribuční funkci poprvé stanovil Moivre na základě experimentu házení mincí; sloupky histogramu proložil plynulou spojitou křivkou, jejíž matematické vyjádření vypočítal již v roce 1733 tato křivka byla znovu objevena jako Gaussova křivka chyb měření (v astronomii) na začátku 19. století její význam pak zdůraznil Quételet, který provedl řadu četných měření somatických veličin a zjistil, že se tato měření řídí stejnými zákony jako křivka chyb měření očekáváme, že normálně rozložených veličin je většina; bohužel tomu tak není, ale je dokázáno že součty (a teda i průměry) i zcela nenormálních veličin se k normálnímu rozložení blíží, a to již při poměrně malých počtech sčítanců n

Transformace normálního rozdělení protože řada statistických metod normalitu náhodných veličin vyžaduje převádíme nenormální náhodné veličiny na normální x = x + c i log ( ) x = x+ c kx x = e i ( k ) x = x 1/ k (x i +c) > 0 (x i +c) > 0 k 0 Je potřeba vždy ověřit, která transformace pro daný soubor dat nejlépe vyhovuje

Teorie odhadu Bodové odhady Intervalový odhad

Bodový odhad odhad parametrů náhodné veličiny (náhodného vektoru ) výběrovou charakteristikou (známým vypočteným vektorem ˆΘ ) nazýváme bodový odhad kritéria pro kvalitu odhadu pro jeden parametr platí: konzistence odhadu: odhad je konzistentní, když pro daný rozsah n výběru je pravděpodobnost toho, že jeho vzdálenost od skutečné hodnoty je libovolně malá, rovna jedné nestrannost odhadu: odhad je nestranný, když pro daný rozsah výběru n je jeho střední hodnota rovna parametru souboru vydatnost odhadu: odhad je vydatný, když je jeho rozptyl kolem skutečné hodnoty Θ minimální vzhledem ke všem možným odhadům tohoto parametru nejčastěji odhadujeme: průměr μ... x směrodatnou odchylku σ s ˆΘ Θ Θ Θ Θ

Bodový odhad při podezření, že výběr obsahuje vychýlené hodnoty (hodnoty, které evidentně nepatří do zkoumaného rozložení), používáme pro odhad μ robustní odhady poměrně robustným odhadem průměrné hodnoty je medián takovým odhadem je také průměr vypočítaný z těch hodnot výběru, které leží mezi specifikovanými symetrickými kvantily (např. mezi 10% a 90% kvantilem) Ze statistického hlediska mají bodové odhady malý význam, protože neříkají nic o tom, kde leží skutečné hodnoty parametrů

Intervalový odhad poskytuje více informací, protože určuje interval, v němž se bude se zadanou pravděpodobností 1 α nacházet skutečná hodnota daného parametru Θ neznámý parametr odhadujeme dvěma číselnými hodnotami L D a L H, které tvoří meze intervalu spolehlivosti čili konfidenčního intervalu CI ten pokryje neznámý odhadovaný parametr s předem zvolenou, dostatečně velkou pravděpodobností P( L D < Θ < L H ) = 1 α, kterou nazveme koeficient spolehlivosti (statistická jistota) ten se volí obyčejně roven 95% nebo 99% parametr α se nazývá hladina významnosti pro intervaly CI platí že: čím je rozsah výběru n větší, tím je interval spolehlivosti užší čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší čím je vyšší statistické jistota (1 α), tím je interval spolehlivosti širší

Odhad průměru intervalový odhad přibližně 95% konfidenční interval x σ 2 μ x + 2 n σ n v praxi obyčejně neznáme směrodatnou odchylku základního souboru σ a musíme ji odhadnout pomocí s. Uvažujme proto náhodný výběr rozsahu n z normálního rozložení N(μ,σ 2 ) s neznámými parametry μ a σ 2 a jejich výběrovými odhady x a s 2. Jelikož má veličina bodový odhad: μ = x x μ s Studentovo t-rozdělení, můžeme po úpravách napsat: s x t ( ) ( ) 1 α/2 ν μ x + t1 α/2 ν n n s n kde t 1-a/2 (ν) je 100(1-α/2)% kvantil Studentova rozdělení s ν = n 1 stupni volnosti

Odhad rozptylu nejlepší bodový odhad populačního rozptylu σ 2 pomocí výběrového rozptylu s 2 je ˆ s 2 2 σ = n n 1 význam rozlišení mezi výběrovým rozptylem a odhadem populačního rozptylu má smysl pouze pro malá n, pro velká n ztrácí smysl, protože n 1 n 1 intervalový odhad je poněkud komplikovanější n 1 s n 1 s ( ) ( ) χ 2 2 2 σ 2 2 α χ α 100 2 2 kde χ α, je kritická hodnota rozložení χ, které je tabelováno. Počet stupňů volnosti je n 1

Odhad relativní četnosti Uvažujme náhodný jev. Zajímá nás jeho pravděpodobnost π. Lze ji vyjádřit buď v pravděpodobnostech (celek = 1), nebo v % (celek = 100%). Výběrovou relativní četnost značíme p, p = n 1 /n, kde n 1 je počet kolikrát nastal jev z n pozorování. Náhodná veličina p má přibližně normální rozložení s průměrem π a směrodatnou odchylkou ( ) σ = π 1 π /n π Protože π neznáme, nahradíme je výběrovou hodnotou p a dostaneme intervaly spolehlivosti ( ) π ( ) 95% p 1, 96 p 1 p / n p+ 1, 96 p 1 p / n ( ) π ( ) 99% p 2,58 p 1 p / n p+ 2,58 p 1 p / n

Odhad relativní četnosti pro malé n a při nesplnění podmínky p 0,05 a (1-p) 0,05 nelze použít normální aproximace interval spolehlivosti pro π spočteme přesně pomocí kritických hodnot F-rozložení ( ) ( n + 1) Fcd ( ) n1 1,, α π n + n+ 1+ n F n n + n + 1 F 1 1 ab,, α 1 1 cd,, α kde F..α je kritická hodnota F-rozložení při stupních volnosti a = 2(n + 1 n 1 ) b = 2n 1 c = 2(n 1 + 1) d = 2(n n 1 ) avšak při volbě α = 5% dostáváme 90% interval spolehlivosti a α = 1% dostáváme 98% interval spolehlivosti, neboť rozložení F je tabelováno pro jednostranné hypotézy

Odhad mediánu bodový odhad: μ = x intervalový odhad x μ x h+ 1 n h kde indexy značí pořadové číslo v uspořádané řadě hodnot x i, hodnotu h spočteme z výrazu: ( ) 95% h= n 1 1,96 n /2 99% ( ) h= n 1 2,58 n /2 za h bereme hodnotu celočíselnou zaokrouhlenou. Lze použít pro n > 8

T rozložení jako jedno z výběrových rozložení Tvar t rozložení je funkcí rozsahu výběru Při narůstajícím rozsahu výběru se t rozložení blíží normálnímu rozložení T rozložení = normální rozložení, když rozsah výběru = velikosti populace V praktickém využití t rozložení = normální rozložení pro N > 30 T rozložení je funkcí stupňů volnosti, které jsou přímo dané rozsahem výběru Když se d.f. t rozložení se blíží normálnímu rozložení Pro každé N existuje jiná křivka Pro každé N existují jiné kritické hodnoty pro 5% riziko, že učiníme chybu I. druhu

T rozložení jako jedno z výběrových rozložení pokračování

Kritické hodnoty t rozložení Jsou definované námi zvoleným rizikem, které jsme schopni podstoupit, že učiníme chybu I. druhu a tím, zda jde o jednostranný nebo dvoustranný test Předpokládejme, že N = 20 Při 5%-ní spolehlivosti t krit = ± 2,093 Při 1%-ní spolehlivosti t krit = ± 2,861 Při 10%-ní spolehlivosti t krit = ± 1,729 N = 20 Dvoustranný test 5%-ní spolehlivost t krit = ± 2,093 Jednostranný test 5%-ní spolehlivost t krit = + 1,729 nebo 1,729 d.f. 0,95 0,99 2 4,303 9,925 3 3,182 5,841 4 2,776 4,604 5 2,571 4,032 8 2,306 3,355 10 2,228 3,169 20 2,093 2,861 50 2,009 2,678 100 1,984 2,626

F rozložení Snedecorovo, nebo Fisherovo Snedecorovo rozložení χ 2 test, F test jsou velmi citlivé na non normalitu sledovaných veličin Je definováno jako poměr dvou χ 2 rozložení F = U 1 d U 2 d 1 kde U 1, U 2 jsou dvě χ 2 rozložení s d 1 a d 2 stupni volnosti 2

F rozložení pokračování

F rozložení pokračování

χ 2 rozložení Když X 1, X 2,, X k jsou nezávislé normálně rozložené náhodné veličiny se střední hodnotou rovnou 0 a směrodatnou odchylkou rovnou 1, potom náhodná veličina Q n = i= 1 X 2 i má χ 2 rozložení

χ 2 rozložení pokračování

χ 2 rozložení pokračování

děkuji za pozornost