Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
|
|
- Jindřich Blažek
- před 9 lety
- Počet zobrazení:
Transkript
1 Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích
2 K pojmu distiribuční funkce Distribuční funkce je definována vztahem: F (x) = P (X x i ) Distribuční funkce je definována na předem daném intervalu. Její základní vlastnosti jsou: 0 F (x) 1 F (x i ) F (x j ) pro každou dvojici čísel x i < x j lim F (x) = F ( ) = 0 x lim F (x) = F (+ ) = 1 x+ P (a < X b) = F (b) F (a) Distribuční funkce F (x) je zprava spojitá a má nejvýš spočetně bodů nespojitosti.
3 K pojmu distiribuční funkce Grafu distribuční funkce odpovídá v popisné statistice graf kumulativních relativních četností. Distribuční funkce diskrétní náhodné veličiny je nespojitá. Pro diskrétní náhodnou veličinu platí: F (x i ) = P (X x i ) = j i p j Pro spojitou náhodnou veličinu, nabývající všech hodnot z intervalu x [a; b] F (x) = P (X x i ) = x a f(t)dt
4 K hustotě pravděpodobnosti Funkci definovanou vztahem df (x) f(x) = = F (x) (1) dx nazýváme frekvenční funkcí nebo hustotou pravděpodobnosti. Základní vlastnosti hustoty pravděpodobnosti jsou: f(x) 0 lim x f(x)dx = 0 lim f(x)dx = 0 x+ b a f(x)dx = 1 pro x [a; b] P (a < X b) = b a f(x)dx
5 K pojmu kvantil Velmi důležitý je pojem kvantilu. P -kvantilem nebo P 100%-ním kvantilem náhodné veličiny X, která má jisté spojité rozdělení náhodné veličiny s distribuční funkcí F (x) a hustotu pravděpodobnosti f(x), je číslo x P pro které platí F (x P ) = P (X x P ) = x P f(x)dx = P Některé kvantily mají speciální názvy např.: dolní kvartil, medián, horní kvartil, decil, percentil,
6 Rozdělení Lze rozlišovat diskrétní a spojité: Diskrétní: Alternativní A(π), binomické Bi(n, π), hypergeometrické H(M, N, n), Poissnovo P o(λ) atd.. Spojité: Normální N(µ, σ 2 ), Studentovo t(n), χ 2 -rozdělení, Fisherovo-Snedecorovo F (m, n), atd...
7 Pomocí R Prostředí Rumožňuje velmi snadno určovat hodnoty distribučních funkcí pro různá x a různé typy rozdělení. Slouží k tomu několik jednoduchých příkazů.
8 K intervalovému odhadu Vyjadřujeme jej pomocí dvou čísel, mezi nimiž se pohybuje skutečná hodnota hledaného parametru s předem zvolenou pravděpodobností. Čísla vymezující tento interval se nazývají dolní a horní mez intervalu spolehlivosti. Takový interval nazýváme 100(1 α)%-ní konfidenční interval nebo též 100(1 α)%-ní interval spolehlivosti. Číslo 1 α pak nazýváme koeficientem spolehlivosti. Číslo α pak hladinou významnosti. Spolehlivost odhadu voĺıme sami. Většinou chceme aby byla bĺızko 1 a voĺıme α = 0, 01 nebo častěji α = 0, 05.
9 K intervalovému odhadu Podstata intervalového odhadu charakteristiky Θ spočívá v určení hodnot(statistik) T D a T H, tak aby platilo P (T D Θ T H ) = 1 α v případě oboustranného intervalu spolehlivosti, nebo P (Θ T H ) = 1 α resp. P (T D Θ) = 1 α v případě jednostranných intervalů spolehlivosti. Např. je-li náš výběr získán z rozdělení N(µ; σ 2 ), kde rozptyl není znám, lze hledaný oboustranný 100(1 α)%-ní interval spolehlivosti parametru µ zapsat jako: P ( x s n t 1 α/2 (n 1) < µ < x + s n t 1 α/2 (n 1) ) = 1 α.
10 K testování hypotéz Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení lze nazvat hypotézou, resp. statistickou hypotézou. Statistickou hypotézu lze pak zapsat například ve tvaru H 0 : θ = θ 0 Takto formulovanou hypotézu nazveme testovanou hypotézou (nulovou hypotézou). Příklad: H 0 : Člověk denně spotřebuje v průměru 2,3 l tekutin. H 0 : µ = 2, 30
11 Alternativní hypotéza Proti testované hypotéze formulujeme alternativní hypotézu H A neboli H 1. Rozlišujeme zpravidla tři typy alternativních hypotéz: Pravostranná hypotéza H A : Θ > Θ 0 Levostranná hypotéza H A : Θ < Θ 0 Oboustranná hypotéza H A : Θ Θ 0. Je velmi důležité, jak budeme své hypotézy specifikovat. Dle formulace problému se musíme správně rozhodnout mezi třemi variantami: nebo H 0 : Θ = Θ 0 vs. H A : Θ Θ 0, nebo H 0 : Θ = Θ 0 vs. H A : Θ > Θ 0 H 0 : Θ = Θ 0 vs. H A : Θ < Θ 0.
12 Testové kritérium Pro rozhodnutí o tom, která z výše formulovaných hypotéz je pravdivá, tj. zda bude platit H 0 nebo naopak H A, rozhodujeme za pomoci tzv. testové statistiky T. Testová statistika je funkcí našich pozorování, tj.: T = g(x 1, x 2, x 3,..., x n ) a je tedy náhodnou veličinou nabývající určitého oboru hodnot, resp. hodnot z určité podmnožiny množiny reálných čísel. Na definovaném oboru hodnot testové statistiky T lze vymezit jistým způsobem dvě podmnožiny, a to oborem přijetí a kritický obor.
13 Chyby spojené s testováním hypotéz Otázka spočívá v tom jak stanovit hranici mezi těmito množinami? S tím souvisí problematika chyb, kterých se můžeme při testování hypotéz dopustit. Lze dojít ke čtyřem závěrům: Zamítneme nulovou hypotézu, přičemž ve skutečnosti platí alternativní hypotéza. Naše rozhodnutí je tedy správné. Nezamítneme nulovou hypotézu, přičemž ve skutečnosti nulová hypotéza platí. Naše rozhodnutí je tedy správné. Zamítneme nulovou hypotézu přestože je správná. Dopouštíme se tak chyby. Tento typ chyby nazýváme chybou I. druhu. Nezamítneme nulovou hypotézu přestože platí alternativní hypotéza. Dopouštíme se tak chyby. Tento typ chyby nazýváme chybou II. druhu.
14 Chyba I. druhu Pokud bychom tedy chtěli určit pravděpodobnost vzniku chyby I. druhu, platilo by následující: P (chyby I.) = P (přijmu H A H 0 ) = P (T K platí H 0 ). Ve většině případů požadujeme, aby tato pravděpodobnost nepřekročila určitou, předem danou hodnotu α. Hodnotu α nazýváme hladinou významnosti. Nejčastější volbou hodnoty α pro testování hypotéz je α = 0, 05 či α = 0, 01. V takovém případě připouštíme existenci vzniku chyby I. druhu s pravděpodobností 0,05 resp. 0,01. Kritický obor je konstruován tak, že platí: P (chyby I.) = P (T K platí H 0 ) = α.
15 Rozhodnutí o platnosti testované hypotézy Pokud jde o samotné testování hypotézy, pak to spočívá v aplikaci jednoduchého rozhodovacího pravidla: Leží-li hodnota testového kritéria T v kritickém oboru tj. platí-li: T K, zamítáme nulovou hypotézu H 0 ve prospěch hypotézy alternativní H A. Naopak, neleží-li hodnota testového kritéria v kritickém oboru, pak testovanou hypotézu nezamítáme a tvrdíme, že se nepodařilo zamítnout nulovou hypotézu na předem zvolené hladině významnosti α a na základě pozorovaných dat.
16 Chyba II. druhu Chyby druhého druhu se dopustíme tehdy, nezamítneme-li hypotézu H 0, přestože tato hypotéza ve skutečnosti neplatí. Pravděpodobnost toho, že se dopustíme chyby II. druhu lze vyjádřit následujícím způsobem: P (chyby II.) = P (nezamítnu H 0 H A ) = P (T K H A ) = β. Většinou se však zajímáme spíše o doplněk k této pravděpodobnosti. Tj. o pravděpodobnost toho, že se této chyby nedopustíme. Symbolicky lze hledanou pravděpodobnost definovat následovně: P (přijmu H A H A ) = P (T K H A ) = 1 β. (2) Tento doplněk k pravděpodobnosti chyby II. typu, tj. hodnotu 1 β, zpravidla nazýváme silou testu.
17 Druhy testů Z hlediska toho, jaké předpoklady činíme o rozdělení sledovaného statistického znaku, lze rozlišit dvě třídy testů: Parametrické testy: Jsou testy založené na znalosti charakteru rozdělení sledovaného statistického znaku. Parametrickými testy se pak testujeme předpoklady o neznámých hodnotách parametrů (může jít například o střední hodnotu či rozptyl). V převážné většině jde o početně náročnější, ale silné testy. Neparametrické testy: Jsou takové testy, které nevyžadují znalost předpokladů o charakteru rozdělení náhodných veličin. Neparametrické, se nazývají proto, že se netýkají parametrů rozdělení. Tyto testy mají obecně menší sílu ve srovnání s parametrickými testy.
18 Část II: Práce s R
19 Úvodem V současné době existuje na trhu celá řada statistického software. Asi nejrozšířenějším je statistický software SAS, SPSS, STATISTICA, MATLAB, případně S-plus. Jde především o komerční a monolitické systémy s relativně přátelským prostředím. Nevýhodou těchto programů je však jejich vysoká pořizovací cena. Alternativou může být profesionální programovací prostředí R.
20 Proč právě R? + R je zdarma a rozvíjí se. V mnoha ohledech překonává (a to i o několik let) některé jiné komerční programy. + Systém nápovědy ke každé funkci spolu s ukázkou použití příslušné funkce. Existuje široká uživatelská obec - možnost řešit problémy s předními odborníky. + Velmi dobrá grafika, import a export dat a výstupů + (Sweave). + Učesaný jazyk, vektorizace výpočtů, možnost využití objektově orientovaného programování, komunikuje Tinn-R, GGobi, L A T E X, Excel, Dostupnost nejnovějších statistických metod.
21 První kroky: Spuštění R Erko lze inicializovat různým způsobem. Windows GUI: Obvyklý způsob přes Start Všechny programy R. Xemacs, Rterm, Rcmd, Tinn-R... Ukončení práce s programovacím prostředím R, je velmi jednoduché. Stačí do příkazového řádku zapsat za prompt q()
22 Princip práce s R Obvykle probíhá práce s R interaktivně. Lze ji popsat modelem otázka odpověd : Zadáte příkaz a stisknete klávesu Enter. R vyhodnotí příkaz (vytiskne jeho hodnotu pokud je není zapsána do vnitřní paměti). Pak R čeká na další vstupní příkaz.
23 Několik malých příkladů [1] 4 exp(-2) [1] log(100, base = 10) [1] 2 rnorm(10) [1] [5] [9] data<-(rnorm(50,13,4)) mean(data) [1] var(data) [1] sqrt(var(data)) [1]
24 Funkce exp(), log(), mean(), var(), sqrt(), rnorm() jsou funkce implementované v R. Volání funkcí je indikováno prostřednictvím jména funkce a závorek jméno.funkce(argument1, argument2,argument3,...) v nichž jsou obsaženy argumenty funkce. Naprostá většina práce v R se odehrává právě prostřednictvím funkcí.
25 Možnosti záznamu dat Do R lze data zaznamenávat různými způsoby. Asi nejjednodušší postup spočívá ve využití funkcí c() nebo scan(). Nebo využít vestavěný datový editor pomocí funkce edit(data.frame()). Import data bude zmíněn později. x<-c(1,2,3,4,8,12,3,4,6) x [1] nebo x<-scan() 1: : Read 9 items x [1]
26 Základní statistické funkce Ukažme si několik jednoduchých příkazů, které lze využít při základním (opravdu při tom nejzákladnějším) statistickém zpracování dat. Předpokládejme, že data jsou uložena v objektu x nebo v objektech A, B, C. Co hodlám získat Aritmetický průměr Počet pozorování Rozptyl Směrodatná odchylka Histogram Dekadický logaritmus Přirozený logaritmus Minimum Maximum Suma Vytvoření rostoucí posloupnosti příkaz v R mean(x) length(x) var(x) sqrt(var(x)) hist() log(x,10) log(x) min(x) max(x) sum(x) sort(x)
27 Grafika v R Co hodlám získat Krabicový diagram Histogram Rozpylové diagramy Koláčový graf 3D graf Vynesení bodů do kartézské soustavy souřadnic atd.. příkaz v R boxplot(x) hist() pairs() pie(x) persp() plot(x,y).
28 Hodnoty F(x) = P(X x) a hodnoty u α ; t α (n); χ 2 α (n); F α(n 1 ; n 2 );... Hodnoty distribučních funkcí: pro případ, že x = 2; m = 18, n = 20 F(x) pokud X N(0; 1) pnorm(2,0,1) F(x) pokud X t(n) pt(2,20) F(x) pokud X χ 2 (m) pchisq(2,20) F(x) pokud X F (m, n) pf(2,18,20) Kvantily nejčastěji používaných rozdělení spojitých náhodných veličin: pro případ, že α = 0, 05, m = 18, n = 20 z 1 α qnorm(0.95,0,1) t 1 α qt(0.975,19) 2 χ 2 α(n) qchisq(0.05,20) F 1 α (m 1, n 1) qf(0.95,17,19)
29 Testování hypotéz (těch základních...) Studentův t-test(jeden výběr) H A : µ µ 0 = 140 H A : µ < µ 0 = 140 H A : µ > µ 0 = 140 Test na shodu dvou rozptylů H A : σ 2 A σ2 B Studentův t-test(dva výběry) H A : µ A µ B H A : µ A < µ B H A : µ A > µ B t.test(x,mu=140) t.test(x,mu=140,alternative="less") t.test(x,mu=140,alternative="greater") var.test(a,b) t.test(a,b) t.test(a,b,alternative="less") t.test(a,b,alternative="greater")
30 Nápověda V prostředí R lze s výhodou využívat velmi dobře koncipovanou nápovědu. K její vyvolání stačí zadat jednoduchý příkaz help() nebo ještě jednodušeji, využít příkaz?. Za symbol? napíšeme název funkce ke které hodláme získat nápovědu. Jinou možností je použít příkaz help.search(). Hledané téma pak vepíšeme do uvozovek např. help.search("mean") a stiskneme enter. Pokud příkaz sice známe, ale nevíme jaké argumenty obsahuje, můžeme využít příkazu args(). Do závorek opět vepíšeme název funkce.
31 Import dat z Excelu V případě, že hodláme importovat data, např. z Excelu, lze využít několika možností. Asi nejjednodušší cestou je exportovat data z Excelu prostřednictvím jeho nabídky/ Postup je následující: Soubor Uložit jako:mojedata Typ souboru: CSV (oddělený středníkem) Enter. Ve vašem pracovním adresáři se objeví soubor mojedata.csv. Pak pokračujeme již v R. Za prompt > napíšeme: mojedata<-read.csv("mojedata.csv", header=true,dec=",",sep=";") mojedata
32 Import dat z Excelu Druhá možnost spočívá ve vložení kopírovaných dat do schránky a pak použití příkazu: mojedata<-read.table(file("clipboard"),sep="\t",dec=",") mojedata
33 Export dat do Excelu Svá data můžeme také exportovat do Excelu. Předpokládejme, že hodláme vytvořit náhodné pořadí, ve kterém provedeme měření. Výsledné pořadí uložím do objektu cislapokusu a vyexportuji do Excelu. Soubor obsahující vytvořené pořadí bude pojmenován jako poradi.xls. cislapokusu<-sample(1:50,50,replace=f) write.table(cislapokusu,"poradi.xls",sep="\t",na="",row.names=f)
34 Příklad z maticové algebry - SVD dekompozice Předpokládejme jednoduchý skript v R: library(pixmap) x<- read.pnm("modelka.pgm") plot(x) #aproximaceobrázku dekompo<-svd(x@grey) V<-diag(dekompo$d[1:50]) S<-dekompo$u[,1:50] D<-dekompo$v[,1:50] rekonstr<-s %*% V %*% t(d) aproximovany.obrazek<-pixmapgrey(rekonstr) plot(aproximovany.obrazek, main="aproximace pomoci 50 SVD komponent")
35 Graficky vy stup v R Aproximace pomoci 5 SVD komponent Aproximace pomoci 15 SVD komponent Aproximace pomoci 20 SVD komponent Aproximace pomoci 10 SVD komponent Aproximace pomoci 50 SVD komponent c Rost 2007
36
Ing. Michael Rost, Ph.D.
Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testování hypotéz na základě jednoho a dvou výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/004. Testování hypotéz Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru,
Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.
Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích V podstatné míře čerpám z přednášek prof. Thomase Lumleyho z R Core Developement Team Statistický software
Zápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.
Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení
Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina
Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.
Testování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
Testování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.
Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Praktická statistika. Petr Ponížil Eva Kutálková
Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo
4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
Náhodná veličina a rozdělení pravděpodobnosti
3.2 Náhodná veličina a rozdělení pravděpodobnosti Bůh hraje se světem hru v kostky. Jsou to ale falešné kostky. Naším hlavním úkolem je zjistit, podle jakých pravidel byly označeny, a pak toho využít pro
Testování hypotéz. 4. přednáška 6. 3. 2010
Testování hypotéz 4. přednáška 6. 3. 2010 Základní pojmy Statistická hypotéza Je tvrzení o vlastnostech základního souboru, o jehož pravdivosti se chceme přesvědčit. Předem nevíme, zda je pravdivé nebo
a způsoby jejího popisu Ing. Michael Rost, Ph.D.
Podmíněná pravděpodobnost, náhodná veličina a způsoby jejího popisu Ing. Michael Rost, Ph.D. Podmíněná pravděpodobnost Pokud je jev A vázán na uskutečnění jevu B, pak tento jev nazýváme jevem podmíněným
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině
Testy. Pavel Provinský. 19. listopadu 2013
Testy Pavel Provinský 19. listopadu 2013 Test a intervalový odhad Testy a intervalové odhady - jsou vlastně to samé. Jiný je jen úhel pohledu. Lze přecházet od jednoho k druhému. Například: Při odvozování
Stručný úvod do testování statistických hypotéz
Stručný úvod do testování statistických hypotéz 1. Formulujeme hypotézu (předpokládáme, že pozorovaný jev je pouze náhodný). 2. Zvolíme hladinu významnosti testu a, tj. riziko, s nímž jsme ochotni se smířit.
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě
Testy statistických hypotéz
Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem
Cvičení ze statistiky - 8. Filip Děchtěrenko
Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
STATISTICKÉ HYPOTÉZY
STATISTICKÉ HYPOTÉZY ZÁKLADNÍ POJMY Bodové/intervalové odhady Maruška řešila hodnoty parametrů (průměr, rozptyl atd.) Zde bude Maruška dělat hypotézy (předpoklady) ohledně parametrů Z.S. Výsledek nebude
Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1
Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud
Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33
1 / 33 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.
8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) e, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá normované
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.
Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11
Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:
t-test, Studentův párový test Ing. Michael Rost, Ph.D.
Testování hypotéz: dvouvýběrový t-test, Studentův párový test Ing. Michael Rost, Ph.D. Úvod do problému... Již známe jednovýběrový t-test, při kterém jsme měli k dispozici pouze jeden výběr. Můžeme se
Testování statistických hypotéz
Testování statistických hypotéz Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 11. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 27 Obsah 1 Testování statistických hypotéz 2
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
MATEMATICKÁ STATISTIKA
MATEMATICKÁ STATISTIKA 1. Úvod. Matematická statistika se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného procesu, se snažíme popsat
PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1
PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1 Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované
5. T e s t o v á n í h y p o t é z
5. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a
Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která
Náhodná veličina a její charakteristiky Náhodná veličina a její charakteristiky Představte si, že provádíte náhodný pokus, jehož výsledek jste schopni ohodnotit nějakým číslem. Před provedením pokusu jeho
Základy teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
ROZDĚLENÍ NÁHODNÝCH VELIČIN
ROZDĚLENÍ NÁHODNÝCH VELIČIN 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
2 ) 4, Φ 1 (1 0,005)
Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje
Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci
Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické
Pravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =
Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní
Pravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců
TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B
TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,
Statistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
Testování statistických hypotéz. Obecný postup
poznámky k MIII, Tomečková I., poslední aktualizace 9. listopadu 016 9 Testování statistických hypotéz Obecný postup (I) Vyslovení hypotézy O datech vyslovíme doměnku, kterou chceme ověřit statistickým
Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží
Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně
Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák
Základy statistického hodnocení výsledků zkoušek Petr Misák misak.p@fce.vutbr.cz Co je to statistika? Statistika je jako bikiny. Odhalí téměř vše, ale to nejdůležitější nám zůstane skryto. (autor neznámý)
Aproximace binomického rozdělení normálním
Aproximace binomického rozdělení normálním Aproximace binomického rozdělení normálním Příklad Sybilla a Kassandra tvrdí, že mají telepatické schopnosti, a chtějí to dokázat následujícím pokusem: V jedné
Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.
Statistics ToolBox Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech. [manual ST] 1. PROBABILITY DISTRIBUTIONS Statistics
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost
Pravděpodobnost Náhodné veličiny a jejich číselné charakteristiky Petr Liška Masarykova univerzita 19.9.2014 Představme si, že provádíme pokus, jehož výsledek dokážeme ohodnotit číslem. Před provedením
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
Jednostranné intervaly spolehlivosti
Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle oboustranného vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme
Základní statistické metody v rizikovém inženýrství
Základní statistické metody v rizikovém inženýrství Petr Misák Ústav stavebního zkušebnictví Fakulta stavební, VUT v Brně misak.p@fce.vutbr.cz Základní pojmy Jev souhrn skutečností zobrazujících ucelenou
8. Normální rozdělení
8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, 2 ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) 2 e 2 2, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá
I. D i s k r é t n í r o z d ě l e n í
6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 1: Opakování ze statistiky LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Z čeho studovat 1) Z KNIHY Krkošková,
Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin
Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum Kontakt: Literatura: Obecné informace Zvárová, J.: Základy statistiky pro biomedicínskéobory I. Vydavatelství
Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
p(x) = P (X = x), x R,
6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme
Pravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin
Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum I. ÚVOD vv této přednášce budeme hovořit o jednovýběrových a dvouvýběrových testech týkajících se střední hodnoty
Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času
Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek
Návrh a vyhodnocení experimentu
Návrh a vyhodnocení experimentu Návrh a vyhodnocení experimentů v procesech vývoje a řízení kvality vozidel Ing. Bohumil Kovář, Ph.D. FD ČVUT Ústav aplikované matematiky kovar@utia.cas.cz Mladá Boleslav
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Náhodný vektor a jeho charakteristiky
Náhodný vektor a jeho číselné charakteristiky 1 Náhodný vektor a jeho charakteristiky V následující kapitole budeme věnovat pozornost pouze dvourozměřnému náhodnému vektoru, i když uvedené pojmy a jejich
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Náhodná proměnná Náhodná veličina slouží k popisu výsledku pokusu. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáme. Přesto bychom chtěli tento pokus
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
Příklady na testy hypotéz o parametrech normálního rozdělení
Příklady na testy hypotéz o parametrech normálního rozdělení. O životnosti 75W žárovky (v hodinách) je známo, že má normální rozdělení s = 5h. Pro náhodný výběr 0 žárovek byla stanovena průměrná životnost
Téma 22. Ondřej Nývlt
Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Proč neparametrické testy? Pokud provádíte formální analýzu či testování hypotéz (zejména provádíte-li
Náhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze