Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
|
|
- Jiří Matějka
- před 5 lety
- Počet zobrazení:
Transkript
1 Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích
2 Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity, se kterými se ve statistice můžete setkat. Příkladem může být prostá lineární regrese, a při použití více vysvětlujících proměnných vícenásobná regrese. Problém může nastat a často nastává, pokud závisle proměnná není spojitým statistickým znakem, ale binárním znakem. Příkladem může být predikce nákupního chování (koupí nekoupí). V takovém případě, nastávají při použití klasické metody regresní analýzy a MNČ jisté problémy.
3 Jeden zajímavý příklad z biologie U člověka je jeho pohlaví dáno jeho genetickou výbavou, ale jak je tomu u želv? Na to, jaké pohlaví bude mít želva, má vliv teplota během období, než se želva vyĺıhne. Na jedné univerzitě byl proveden pokus, ve kterém bylo náhodně rozděleno několik vajíček a dáno do různých inkubačních boxů s různou teplotou. Výsledky jsou uvedeny v tabulce:
4 Data Výsledky pozorování, při různých teplotách: Teplota Samec Samice Podíl Teplota Samec Samice Podíl C samců % C samců % 27, , , , , , , , , , , , , , , Existuje nějaká závislost mezi teplotou a pohlavím u sledovaného druhu želv? Sestrojme model této závislosti.
5 Řešení s využitím klasické regresní analýzy Nutné výpočty provedeme v prostředí R: #vstupní data t<-c(27.2,27.7,28.3,28.4,29.9) samci<-c(2,17,26,19,27) samice<-c(25,7,4,8,1) Data ale musíme,,přepsat do vhodné podoby. #naformátování dat pohsamec<-rep(1,sum(samci)) samci.t<-rep(t,samci) pohsamice<-rep(0,sum(samice)) samice.t<-rep(t,samice)
6 ... Výsledný model získáme pomocí metody nejmenších čtverců, tj. odhad regresních koeficientů ˆ β = (X t X) 1 X t y. K tomu stačí v Rzadat příkaz lm(), přesněji: pohlavi<-c(pohsamec,pohsamice) teplota<-c(samci.t,samice.t) lm(pohlavi~teplota) a získáme Call: lm(formula = pohlavi ~ teplota) Coefficients: (Intercept) teplota Výsledný model můžeme tedy zapsat jako: π i = T eplota
7 ... Podívejme se na výsledek Pohlavi Teplota
8 ... Je zde ale patrný, jeden dosti podstatný problém? Víte jaký? Podívejeme se na výsledné predikce: predikce<-predict(model) vysledky<-cbind(pohlavi,predikce,teplota) vysledky[64:70,] pohlavi predikce teplota
9 Řešení? Logistická regrese! Statistika umí tento problém řešit. Využívá k tomu speciální metodu logistickou regresi. Pokud je závislá proměnná binární, pak je mnohem vhodnější modelovat očekávanou hodnotu závisle proměnné pomocí sigmodiální funkce. Jedna z možností spočívá ve využítí logistického modelu E(Y i X i ) = π i = e(β 0+β 1 X i ) 1 + e (β 0+β 1 X i ). Logistická funkce má několik zajímavých vlastností: Je omezená na intervalu 0 a 1. Pozitivní hodnoty koeficientu β 1 indikují vzrůstající funkci, naopak negativní hodnoty klesající funkci.
10 Řešení? Logistická regrese! Její vhodnou transformací lze získat lineární model závisle proměnné Vhodnou transformací, je tzv. logitová transformace, získáme lineární model g(x) = β 0 + β 1 X 1. Funkci g() nazýváme obecně linkovací, neboli vazebnou funkcí. V případě logitové transformace: ( πi ) ln 1 π i = β 0 + β 1 x i. Logaritmus podílu šancí je pak lineární funkcí proměnných. Což je důležité pro interpretaci. Zároveň si všimněme, že π i 1 π i = e (β 0+β 1 x i ).
11 Podstata metody maximální věrohodnosti Jde o to, že pravděpodobnost pozorovaných dat vyjádříme jako funkci parametrů. Lze říci, že věrohodnost je funkcí dat a parametrů modelu. Hodnota věrohodnosti je maximalizována, při nalezení takových hodnot parametrů modelu, při kterých s největší pravděpodobností získáme naše pozorovaná data. Hodnoty takto získaných parametrů označíme za maximálně věrohodné odhady parametrů modelu, tzv. LM odhady.
12 Tak například, v deseti nezávislých pokusech nastal sledovaný jev dvakrát. Jak odhadnout hodnotu pravděpodobnosti, tj. π? Je zřejmé, že Y Bi(10, π) a tedy: a tedy věrohodnost: P(Y = y) = n! y!(n y!) πy (1 π) n y L(π, y) = 10! 2!8! π2 (1 π) 8 a hledáme maximum této funkce vzhledem k π 0; 1. Řešením bychom dostali, že ML odhad parametru π, tj. ˆπ je roven hodnotě 0, 2.
13 Průběh věrohodnostní funkce L ln(l) π π
14 Odhad parametrů modelu metodou maximální věrohodnosti Zbývá tedy odhad příslušných regresních koeficientů β 0 a β 1. K jejich odhadu použijeme metodu maximální věrohodnosti. Označme si pravděpodobnosti: P(Y i = 1) = π i P(Y i = 0) = 1 π i Je zřejmé, že Y i Bi(1, π i ). V případě nezávislosti jednotlivých pozorování můžeme věrohodnost zapsat jako součin pravděpodobností: L(β 0, β 1, x, y) = n i=1 π y i i (1 π i) 1 y i. Použijme k modelování pravděpodobnosti již výše zmiňovanou logistickou funkci, tj. π i = e(β 0+β 1 x i ) 1 + e (β 0+β 1 x i ).
15 Odhad parametrů modelu metodou maximální věrohodnosti pak tedy 1 π i = e (β 0+β 1 x i ). Po dosazení získáme tedy věrohodnostní funkci ve tvaru: L(β 0, β 1, x, y) = n i=1 což lze zjednodušit na e(β 0+β 1 x i ) 1 + e (β 0+β 1 x i ) L(β 0, β 1, x, y) = n i=1 y i ( ( e (β 0 +β 1 x i ) ) y i e (β 0+β 1 x i ) 1 + e (β 0+β 1 x i ). ) 1 yi, Maximalizovat funkci přímo věrohodnostní funkci L(β 0, β 1, x, y) by nebylo příliš vhodné. Je lepší, věrohodnostní funkci zlogaritmovat. Výpočet se pak rapidně usnadní.
16 Odhad parametrů modelu metodou maximální věrohodnosti Po logaritmování obdržíme ln L = n i=1 y i (β 0 + β 1 x i ) n i=1 ln ( 1 + e β 0+β 1 x i ). Dále hledáme parametry β 0 a β 1, při kterých nabývá takto funkce maximální hodnoty, tj. řešíme soustavu nelineárních rovnic: ln L β = 0.
17 Soustava V našem případě, získáme derivováním dle jednotlivých parametrů (β 0, β 1 ), následující soustavu rovnic: n i=1 y i n i=1 e β 0+β 1 x i 1 + e β 0+β 1 x i = 0 n i=1 y i x i n i=1 x i e β 0+β 1 x i 1 + e β 0+β 1 x i = 0. Řešení této soustavy rovnic se provádí iteračně. Této kalvárii zůstaneme ušetřeni a zbytek výpočtu provedeme pomocí R. Můžeme využít implementované funkce glm().
18 Řešení v R model2<-glm(pohlavi~teplota,family=binomial) summary(model2) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-07 *** teplota e-07 *** --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 135 degrees of freedom Residual deviance: on 134 degrees of freedom AIC: Number of Fisher Scoring iterations: 5
19 Výsledek Výsledek můžeme zapsat ve formě logaritmu šancí, tj. prostřednictvím rovnice: ( ) ˆπi ln = 61, , 2110x i. 1 ˆπ i Po několika úpravách získáme hledané pravděpodobnosti: ˆπ i = e( 61,3183+2,2110x i) 1 + e ( 61,3183+2,2110x i). Predikce je jednoduchá. Vyjde-li hodnota ˆπ i > 0, 5, pak Y = 1. Naopak, je-li hodnota ˆπ i < 0, 5, pak Y = 0.
20 Závěry Z výsledků plyne, že pravděpodobnost vyĺıhnutí se samce roste s teplotou. Zajímavou interpretaci má v této souvislosti hodnota regresního koeficientu ˆβ 1. Tak například, pokud by došlo ke zvětšení teploty o jeden stupeň, tj. x + 1, došlo by v průměru ke zvýšení šance vyĺıhnutí se samce e 2,2110 -krát. Podívejme se na to, jaká je pravděpodobnost vyĺıhnutí se samce při teplotě 27 C? Tato pravděpodobnost činí 0, a šance je tedy = 0, 2, nebo-li šance je zhruba 1 ku 5, že se vyĺıhne samec.
21 Závěry... A jak tomu je, vzroste-li teplota o jeden stupeň? Nebo-li jak je to s pohlavím při teplotě 28 C? Odpověd získáme tak, že šanci znásobíme eˆβ 1 1: 0, 2 e 2, = 1, Šance, že se vyĺıhne samec je zde přibližně 9 ku 5. Samci se tedy při této teplotě ĺıhnou skoro dvakrát častěji než samice!
22 A jak to vlastně všechno vypadá? Pohlavi Teplota
23 Příklad z marketingu Na základě dat uvedených s souboru chovani.csv se pokusíme odhadnout, zda bude zákazník ochoten koupit nabízené zboží. V průběhu pozorování byl u každého respondenta zaznamenán jeho věk,příjem a to zda nabízený výrobek zakoupil. Ovlivňuje věk a příjem chování zákazníků ve vztahu k nabízenému výrobku? data<-read.csv("chovani.csv",sep=";",dec=",",header=true) data attach(data) model1<-glm(zakoupi~prijem+vek,family=binomial) model1 summary(model1)
24 Výsledek v R Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e e prijem 1.750e e * vek e e Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 17 degrees of freedom Residual deviance: on 15 degrees of freedom AIC: Number of Fisher Scoring iterations: 6
25 Pokračování - tvorba grafu Prijem<-seq(min(prijem),max(prijem),length=30) Vek<-seq(min(vek),max(vek),length=30) povrch<-function(prijem,vek){ koefic<-model1$coef[1]+model1$coef[2]*prijem+model1$coef[3]*vek exp(koefic)/(1+exp(koefic)) } Probability<-outer(Prijem,Vek,povrch) persp(prijem,vek,probability,theta = 130, phi = 30, expand = 0.5, col = "lightblue") #vyneseni bodu do grafu persp(prijem,vek,probability,theta = 130, phi = 30, expand = 0.5, col = "lightblue")->res points(trans3d(prijem,vek,zakoupi,res),col="red",pch=16)
26 Graf Probability Vek Prijem
27 Srovnání modelů Pokusíme se model zjednodušit, nebot se zdá, že regresní koeficient u vysvětlující proměnné není statisticky významný. V takovém případě lze vnořené modely prostřednictvím jednoduchého testu. model2<-glm(zakoupi~prijem,family=binomial) anova(model2,model1,test="chisq") Analysis of Deviance Table Model 1: zakoupi ~ prijem Model 2: zakoupi ~ prijem + vek Resid. Df Resid. Dev Df Deviance P(> Chi ) Vzhledem k nesignifikantnímu snížení celkové deviance se přikloníme k jednoduššímu modelu.
28 Srovnání modelů summary(model2) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e e * prijem 1.333e e * --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 17 degrees of freedom Residual deviance: on 16 degrees of freedom AIC: Výsledné pravděpodobnosti lze získat následovně: ˆπ i = e( , prijem i) 1 + e ( , prijem i).
29 Shrnutí Pomocí logistické regrese, je možné predikovat pravděpodobnost, zda sledovaná vlastnost nastala či nenastala. Při řešení se uplatňuje metoda maximální věrohodnosti. Samotné řešení je bez použití výpočetní techniky prakticky nemožné. Výsledné regresní koeficienty nemají tradiční interpretaci. Regresní koeficient β 1 lze interpretovat pomocí šancí.
05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")
Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat
VíceM cvičení : GLM04b (Vztah mezi Poissonovým a
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Vícenásobná regresní a korelační analýza 1 1 Tto materiál bl vtvořen za pomoci grantu FRVŠ číslo 1145/2004. O vícenásobné závislosti mluvíme tehd, jestliže je závisle proměnná závislá na více nezávislých
VíceM cvičení : GLM03a (The Working Activities of Bees)
RNDr. Marie Forbelská, Ph.D. 1 M7222 3. cvičení : GLM03a (The Working Activities of Bees) Popis dat je v souboru bees.txt, samotná data jsou uložena v souboru bees.dat. Nejprve načteme popisný soubor pomocí
VíceStatistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceFrekvenční analýza, čtyřpolní tabulky
Frekvenční analýza, čtyřpolní tabulky V následujícím příkladě nás zajímá, zda sekání má pozitivní vliv na reprodukci studovaného druhu. V experimentu tedy máme dva druhy ošetření (sekané, nesekané) a pro
VíceAVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
Vícevelkou variabilitou: underdispersion, overdispersion)
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04a (Problémy s příliš malou či příliš velkou variabilitou: underdispersion, overdispersion) Mějme náhodný výběry n =(Y 1,...,Y n ) T z rozdělení exponenciálního
VíceTabulární data, pozorované vs očekávané četnosti
Tabulární data, pozorované vs očekávané četnosti Máme data o počtech např. samců a samic v populaci a zajímá nás, zda naše pozorované (observed) četnosti se liší od předpokládaného (expected). Příklad
VíceOpravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese
- základní ukazatele Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze - základní ukazatele Načtení vstupních dat Vstupní data
Více4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
Více8 Coxův model proporcionálních rizik I
8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná
VíceStatistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
VícePokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.
Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena
VíceJana Vránová, 3. lékařská fakulta, UK Praha
Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
VíceStatistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Pojem závislosti Je nutné rozlišit mezi závislostí nepodstatnou a mezi příčinnou čili kauzální závislostí.ta
VíceCvičení 12: Binární logistická regrese
Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,
Víceodpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VíceOdhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
VíceProblém 1: Ceny nemovitostí Poznámkykřešení 1
Problém 1: Ceny nemovitostí Poznámkykřešení 1 Zadání 1.Majínemovitostiurčenékbydlenívyššícenutam,kdeječistšíovzduší?Pokudano,okolik? 2. Lze vztah mezi znečištěním a cenou, pokud existuje, vysvětlit tím,
VíceAVDAT Nelineární regresní model
AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných
VíceM cvičení : GLM01a (Toxic Chemical Production Data)
RNDr. Marie Forbelská, Ph.D. 1 M7222 1. cvičení : GLM01a (Toxic Chemical Production Data) Popis dat je v souboru toxic.txt, samotná data jsou uložena v souboru toxic.dat. Nejprve načteme popisný soubor
Více4ST201 STATISTIKA CVIČENÍ Č. 10
4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte
Více4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení
VíceM cvičení : GLM05b (Trojrozměrné kontingenční tabulky)
RNDr. Marie Forbelská, Ph.D. 1 M7222 5. cvičení : GLM05b (Trojrozměrné kontingenční tabulky) Příklad: Průzkum na školách V roce 1992 byl uskutečněn průzkum na školách Wright State University School of
VíceRegresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
VíceRegresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel
Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23
VíceANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII
ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno ÚVOD DO LOGLINEÁRNÍHO MODELOVÁNÍ historie - až do 60. let se k analýze kontingenčních tabulek
VíceInovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
VíceANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceZpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
VíceStatistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.
VíceMěření závislosti statistických dat
5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě
VíceAnalýza reziduí gyroskopu umístěného na kyvadle p.1
Analýza reziduí gyroskopu umístěného na kyvadle Petr Šimeček Analýza reziduí gyroskopu umístěného na kyvadle p.1 Data z gyroskopu na kyvadle Data: 2 vzorky: RFILE, SIM frekvence 0.1s 30000 pozorování Proměnné:
VíceNestranný odhad Statistické vyhodnocování exp. dat M. Čada
Nestranný odhad 1 Parametr θ Máme statistický (výběrový) soubor, který je realizací náhodného výběru 1, 2, 3,, n z pravděpodobnostní distribuce, která je kompletně stanovena jedním nebo více parametry
Více4. Aplikace matematiky v ekonomii
4. Aplikace matematiky v ekonomii 1 Lineární algebra Soustavy 1) Na základě statistických údajů se zjistilo, že závislost množství statku z poptávaného v průběhu jednoho týdne lze popsat vztahem q d =
VíceCvičení 9 dekompozice časových řad a ARMA procesy
Cvičení 9 dekompozice časových řad a ARMA procesy Příklad 1: Dekompozice časové řady Soubor 18AEK-cv09.xls obsahuje dvě časové řady (X a Y) se 72 pozorováními. Použijte časovou řadu Y. a) Pokuste se na
Více4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
VíceKorelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
VíceLINEÁRNÍ REGRESE. Lineární regresní model
LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VíceX = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní
..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X
VíceYou created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII
ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno SOCIOLOGIE A STATISTIKA nadindividuální společenské struktury podmiňují lidské chování (Durkheim)
Více18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1
18AEK Aplikovaná ekonometrie a teorie časových řad Řešení domácích úkolů č. 1 a 2 příklad 1 Obecné pravidlo pro všechny testy Je stanovena nulová hypotéza: H 0 Je stanovena alternativní hypotéza: H A Je
VíceTeorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)
Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) 1. SPECIFIKACE (12 bodů): (1) Graf průběhu proměnných (1) Obě řady se chovají stejně, lze předpokládat jejich lineární vztah
VíceKorelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
VíceStatistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I
Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Příklad Tahová síla papíru používaného pro výrobu potravinových sáčků je důležitá charakteristika kvality. Je známo, že síla
VíceBodové a intervalové odhady parametrů v regresním modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e
VíceMinikurz aplikované statistiky. Minikurz aplikované statistiky p.1
Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1 Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev.
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VícePRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady
PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský
VíceModerní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007
Moderní regresní metody Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007 Obsah Úvod... 5 1 Klasický lineární model a analýza variance... 7 Motivační příklad... 7 Fitování klasického lineárního
VíceUniverzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální
VíceLineární a logistická regrese
Lineární a logistická regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Výpočetní prostředky finanční a pojistné matematiky
VíceBAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni
BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Slunce Řidiči IQ Regrese Přežití Obvyklý model Pozorování X = (X 1,..., X
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Více2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
VícePOLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.
POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,
VíceŘešení. Označme po řadě F (z) Odtud plyne, že
Úloha Nechť ~ R(, ) a Y = Jinak řečeno, Y je odmocnina čísla vybraného zcela náhodně z intervalu (, ) Popište rozdělení veličiny Y a určete jeho modus, medián, střední hodnotu a rozptyl Řešení Označme
Více7 Regresní modely v analýze přežití
7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce
VíceRegresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
VíceVliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese 1. Vliv odlehlých hodnot Na následujících dvou příkladech ukážeme jak odlehlé hodnoty (outliers) ovlivňují výsledek analýzy a jak je identifikovat.
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
VíceOdhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
VíceTéma 9: Vícenásobná regrese
Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.
VíceÚvod do teorie odhadu. Ing. Michael Rost, Ph.D.
Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost
VíceEkonometrie. Jiří Neubauer, Jaroslav Michálek
Ekonometrie Jiří Neubauer, Jaroslav Michálek Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární
VíceStatistická analýza dat
Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte
VíceHodnocení a modelování populačních dat na příkladu epidemiologie vážných chorob: I. Analýza dat, princip predikcí.
Hodnocení a modelování populačních dat na příkladu epidemiologie vážných chorob: I. Analýza dat, princip predikcí. Úvod do matematické biologie Tomáš Pavlík & O. Májek, L. Dušek, J. Mužík, E. Gelnarová,
VíceINDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Více10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
Více1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení. 31.3.2006 Seminář z aktuárských věd. Slides by LATEX.
1/30 31.3.2006 Seminář z aktuárských věd Slides by LATEX Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení 2/30 Obsah 1 Zobecněné lineární modely (GLZ 1 ) Obecný lineární model (GLM)
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VíceRegrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:
Regrese 28. listopadu 2013 Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: 1. Ukázat, že data jsou opravdu závislá. 2. Provést regresi. 3. Ukázat, že zvolená křivka
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Více4EK211 Základy ekonometrie
4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné
Vícef(x) = arccotg x 2 x lim f(x). Určete všechny asymptoty grafu x 2 2 =
Řešení vzorové písemky z předmětu MAR Poznámky: Řešení úloh ze vzorové písemky jsou formulována dosti podrobně podobným způsobem jako u řešených příkladů ve skriptech U zkoušky lze jednotlivé kroky postupu
Více3 Bodové odhady a jejich vlastnosti
3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe
VíceStatistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických
VíceZávislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
VíceMÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
VíceStrukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 8 Jak analyzovat přežití pacientů.
Více