Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese
|
|
- Přemysl Holub
- před 6 lety
- Počet zobrazení:
Transkript
1 - základní ukazatele Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze
2 - základní ukazatele Načtení vstupních dat Vstupní data se nacházejí v souboru "data-lin_regrese.txt". Předpokládejme, že data jsou uložena na disku F ve složce Aplikovana_statistika. Načtení vstupních dat do pracovního objektu DATA a vypsání na obrazovku provedeme příkazem DATA<-read.csv("f:\\Aplikovana_statistika\\data-lin_regrese.txt", header=true) DATA koncentrace napetova_odezva
3 - základní ukazatele Základní ukazatele Lineární regresní model lregrese, v němž je na napět ová odezva závislou proměnnou na vysvětlující proměnné koncentrace, zavedeme příkazem lregrese<-lm(data$napetova_odezva~data$koncentrace) Zdůrazněme, že jako první před vlnovkou píšeme do argumentu závislou proměnnou a za vlnovku vysvětlující proměnnou. Nyní se budeme zajímat o základní ukazatele modelu Y = α + βx. Tím prvním, co nás zajímá, jsou odhady koeficientů α, β. K tomu stačí nechat si vypsat objekt lregrese.
4 - základní ukazatele lregrese Call: lm(formula = DATA$napetova_odezva ~ DATA$koncentrace) Coefficients: (Intercept) DATA$koncentrace Koeficient v prvním sloupci (Intercept) odpovídá odhadu parametru α a koeficient ve druhém sloupci je odhadem směrnice β. Většinu základních ukazatelů (včetně právě spočtených odhadů) lze jednoduše najednou vypsat pomocí příkazu "summary".
5 - základní ukazatele summary(lregrese) Call: lm(formula = DATA$napetova_odezva ~ DATA$koncentrace) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) DATA$koncentrace e-09 *** -- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 7 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 1573 on 1 and 7 DF, p-value: 1.688e-09
6 - základní ukazatele Nyní si podrobně rozebereme, co nám program vypsal na konzoli Residuals: Min 1Q Median 3Q Max vypíše minimální, maximální reziduum a také kvartily reziduí. Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) DATA$koncentrace e-09 *** -- Signif. codes: 0 *** ** 0.01 * sloupec Estimate obsahuje odhady parametrů... sloupec Std. Error jim odpovídající chyby... sloupec t value příslušné t-statistiky... sloupec Pr(> t ) pravděpodobnost, že tyto statistiky padnou do kritického oboru (p-hodnoty)
7 - základní ukazatele Residual standard error: on 7 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 1573 on 1 and 7 DF, p-value: 1.688e Residual standard error je chyba modelu Y.... Multiple R-squared je tzv. koeficient vícenásobné determinace. Jedná se o vícenásobnou verzi klasického indexu determinace (ovšem my máme pouze jednoduchou regresi, takže oba koeficienty víceméně splývají). Koeficient determinace 100 popisuje, kolik procent rozptylu bylo modelem vysvětleno (tj. kolik procent dat bylo modelem dobře popsáno).... Adjusted R-squared je obdobou koeficientu determinace, ale narozdíl od klasického zohledňuje počet parametrů modelu, takže budeme hledět na něj.... F-statistic je příslušná statistika včetně stupňů volnosti a p-hodnoty.
8 - základní ukazatele Rezidua Už jsme si ukázali, jak vypsat některá rezidua pro náš model. Rezidua představují odhad nepozorovatelných náhodných chyb v měření. Chceme-li vypsat všechna rezidua použijeme příkaz residuals(lregrese)
9 - základní ukazatele - linearita Nejprve graficky ověříme, že lineární model je pro daná data vhodný - zkonstruujeme bodový graf závislosti napět ové odezvy na koncentraci. Základní příkaz pro nakreslení (nejen) bodového grafu plot(data) napetova_odezva koncentrace Zdůrazněme, že tento příkaz použijeme na původní data.
10 - základní ukazatele Pokud budeme chtít do grafu vykreslit i regresní přímku, můžeme použít příkaz > abline(lregrese,col="red") napetova_odezva koncentrace Graf skutečně podporuje naší hypotézu o lineární závislosti. Pouze poslední bod se výrazněji odhchyluje od regresní přímky. Detailnější pohled přinese analýza reziduí.
11 - základní ukazatele - rezidua Abychom posoudili vzájemnou nekorelovanost i neměnný rozptyl náhodných odchylek, vykreslíme si graf reziduí. Zkonstruujeme sloupcový graf, kde každý sloupec bude reprezentovat jedno měření: > barplot(residuals(lregrese), main="residuals") residuals
12 - základní ukazatele Graf reziduí jasně ukazuje, jak moc se poslední pozorování vymyká, proto ho vyloučíme z našeho modelu. Z dat ho můžeme odebrat jednouduchým příkazem DATA<-DATA[-9,] DATA koncentrace napetova_odezva
13 - základní ukazatele Regresní přímku bychom mohli uložit do stejného objektu lregrese, ale obecně je potřeba dát si na přepisování (stejně jako v každém programovacím jazyce) pozor, aby nám někde nezůstala uložená nějaká stará data. Pokud chceme mít jistotu, můžeme vymazat všechno pomocí příkazu rm(list=ls(all=true)) Tento příkaz ovšem vymaže úplně všechno, takže musíme znovu načíst data a znovu z nich odebrat poslední pozorování DATA<-read.table("C:\Aplikovana_statistika\data-lin_regrese.txt", header=true) DATA<-DATA[-9,] lregrese<-lm(data$napetova_odezva~data$koncentrace)
14 - základní ukazatele Příkazem summary si opět analogicky vypíšeme většinu potřebných údajů summary(lregrese) Call: lm(formula = DATA$napetova_odezva ~ DATA$koncentrace) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) DATA$koncentrace e-14 *** -- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 6 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 1.022e+05 on 1 and 6 DF, p-value: 6.321e-14
15 - základní ukazatele Jak vidíme, residual standard error se výrazně zmenšila, naproti tomu statistika F je výrazně vyšší, což znamená těsnější proložení regresní přímky. Také směrodatné odchylky odhadů se snížily a index determinace je bližší 1. plot(data) abline(lregrese,col="red") napetova_odezva koncentrace
16 - základní ukazatele residuals(lregrese) barplot(residuals(lregrese), main="residuals") residuals
17 - základní ukazatele - normalita Z grafu vidíme, že rezidua už vypadají náhodně a nesystematicky, což je potřebný předpoklad pro základní model lineární regrese. Z grafu dat zase vidíme, že data jsou zjevně přímkou dobře nafitovaná. K ověření dalšího předpokladu - normality - si vykreslíme Q-Q graf, nebot na histogram máme málo pozorování. qqnorm(residuals(lregrese)) Normal Q Q Plot Sample Quantiles Theoretical Quantiles
18 - základní ukazatele Q-Q graf, který jsme zkonstruovali, znázorňuje vztah mezi rezidui a teoretickými kvantily normálního rozdělení. Normalitu dat by indikovalo, kdyby se body Q-Q grafu soustředily kolem přímky y = x. Pro větší názornost si tuto přímku do obrázku můžeme vykreslit (uděláme to červenou barvou). qqline(residuals(lregrese),col="red") Normal Q Q Plot Sample Quantiles Theoretical Quantiles
19 - základní ukazatele Mezi body Q-Q grafu a přímkou y = x jsou sice patrné rozdíly, to ovšem vzhledem k malému množství dat ještě nemusí znamenat, že předpoklad normality chyb není splněn. Statistickou významnost normality reziduí bychom mohli otestovat některým z testů normality (existují testy, které fungují relativně dobře i pro malý rozsah výběru). To je ovšem nad rámec tohoto cvičení, a proto budeme nadále normalitu předpokládat.
20 - základní ukazatele Úloha (A) Zda kalibrační křivka prochází počátkem je úloha ekvivalentní testu hypotézy o nulovosti koeficientu posunu (parametr α), kterou otestujeme pomocí oboustranného intervalu spolehlivosti. Příkaz confint nám (pokud nespecifikujeme blíže, které) vypíše oboustranné intervaly spolehlivosti pro jednotlivé parametry. Argumentem level=0.95 udáváme, že chceme 95% interval spolehlivosti. confint(lregrese, level=0.95) 2.5 % 97.5 % (Intercept) DATA$koncentrace Nás momentálně zajímá řádek (Intercept), nebot právě to je odhad koeficientu posunu. Jak vidíme, interval spolehlivosti pro tento koeficient pokrývá nulu, nemůžeme tedy na hladině významnosti 95% zamítnout hypotézu o jeho nulovosti.
21 - základní ukazatele Úloha (E) Obdobně jako v úloze (A) nás zajímá, jestli směrnice regresní přímky (parametr β) nemůže být nulový. Máme zkonstruovaný interval spolehlivosti i pro tento parametr (viz předchozí slide) confint(lregrese, level=0.95) 2.5 % 97.5 % (Intercept) DATA$koncentrace Jak vidíme, interval spolehlivosti pro směrnici regresní přímky je velmi úzký a neobsahuje nulu. Tvrzení o nulové směrnici tedy můžeme (s 95% spolehlivostí) zamítnout.
22 - základní ukazatele Nyní si určíme predikční pás pro vypočtenou regresní přímku, opět při hladině 95%. V programu R pro spočtení predikčního intervalu (uložíme si ho do proměnné predikcni_int) existuje opět příkaz predikcni_int<-predict(lregrese, interval="prediction", level=0.95) Vypíšeme si tento predikční interval predikcni_int fit lwr upr Ve sloupci "fit" máme odhad hodnoty Y (x), ve sloupci "lwr" dolní mez intervalového odhadu a ve sloupci "upr" horní mez intervalového odhadu.
23 - základní ukazatele Chceme-li si do jednoho obrázku vykreslit pozorování, regresní přímku a interval spolehlivosti budeme muset zkombinovat několik příkazů plot(data) abline(lregrese) lines(data[,1],predikcni_int[,2],type="l",col="red") lines(data[,1],predikcni_int[,3],type="l",col="green") První příkaz vykreslí data, druhý regresní přímku (černá), třetí a čtvrtý vykreslí spojnice mezi jednotlivými dolními (červená), respektive horními (zelená) hodnotami predikčního intervalu.
24 - základní ukazatele napetova_odezva koncentrace
25 - základní ukazatele Interpretace - úloha (B) Vzhledem k předchozí analýze reziduí lze usuzovat, že poslední měření z původních dat je systematicky chybné. Po odebrání tohoto měření jsou už všechna pozorování uvnitř 95% predikčního pásu z úlohy (C) a rezidua nevykazují žádné výrazně odlehlé hodnoty, takže další systematicky chybné měření už nepředpokládáme.
26 - základní ukazatele Chceme-li si spočítat 95 % pás spolehlivosti, použijeme analogický příkaz pas_spolehlivosti<-predict(lregrese, interval="confidence", level=0.95) pas_spolehlivosti fit lwr upr Vykreslení pásu spolehlivosti probíhá obdobným způsobem jako pro pás predikční plot(data) abline(lregrese) lines(data[,1],pas_spolehlivosti[,2],type="l",col="red") lines(data[,1],pas_spolehlivosti[,3],type="l",col="green")
27 - základní ukazatele napetova_odezva koncentrace
28 - základní ukazatele Jak vidíme, pás spolehlivosti je velice úzký, pojd me se tedy zaměřit jen na okolí bodu 50. Nakreslíme si zvětšený graf na okolí bodu 50. To se provede pomocí argumentů xlim, ylim. plot(data,xlim=c(20,80),ylim=c(200,300)) abline(lregrese) lines(data[,1],pas_spolehlivosti[,2],type="l",col="red") lines(data[,1],pas_spolehlivosti[,3],type="l",col="green") Dále do grafu naneseme úsečku vyjadřující požadovanou přesnost. Souřadnice jejího počátečního koncového bodu vypočteme následovně: 1. Počáteční bod: x ová souřadnice: x1 = 50 0, Koncový bod: x ová souřadnice: x2 = , y ová souřadnice obou bodů je funkční hodnotou odhadnuté regresní přímky v bodě 50.
29 - základní ukazatele Celé to v programu R proběhne následovně (do vektoru koeficienty si uložíme spočtené odhady koeficientů regresní přímky) koeficienty<-coefficients(lregrese) y<-koeficienty[1]+koeficienty[2]*50 x1< *50 x2< *50 lines(c(x1,x2),c(y,y),type="l") ##vektor obsahujici odhady koeficientu ## vypocet y(50) na regresni primce Příkaz lines dokreslí do stavajícího grafu úsečku, jejíž krajní body mají souřadnice (x1, y) a (x2, y).
30 - základní ukazatele Interpretace: 95% pás spolehlivosti obsahuje skutečnou (neznámou) regresní funkci s pravděpodobností 95 % a tento pás je výrazně užší než požadovaná přesnost 2 %. Lze tedy tvrdit, že na hladině významnosti 95 % lze určit koncentraci s přesností lepší než 2 %. napetova_odezva koncentrace
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Testy nezávislosti kardinálních veličin
Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data
Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze
Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Popis vstupních dat Vstupní data pro úlohu (A) se nacházejí v souboru "glukoza.csv".
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze
Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Máme k dispozici data o počtech bodů z 1. a 2. zápočtového
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Vícenásobná regresní a korelační analýza 1 1 Tto materiál bl vtvořen za pomoci grantu FRVŠ číslo 1145/2004. O vícenásobné závislosti mluvíme tehd, jestliže je závisle proměnná závislá na více nezávislých
Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.
Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
Zápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:
Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci
Plánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
Regresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
Kalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní
Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Korelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
Jednovýběrové testy. Komentované řešení pomocí MS Excel
Jednovýběrové testy Komentované řešení pomocí MS Excel Vstupní data V dalším budeme předpokládat, že tabulka se vstupními daty je umístěna v oblasti A1:C23 (viz. obrázek) Základní statistiky vložíme vzorce
Bodové a intervalové odhady parametrů v regresním modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015
odpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2016/17 Cvičení 3: Lineární regresní model LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Seznámení s EViews Upřesnění
Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =
Příklad 1 Metodou nejmenších čtverců nalezněte odhad lineární regresní funkce popisující závislost mezi výnosy pšenice a množstvím použitého hnojiva na základě hodnot výběrového souboru uvedeného v tabulce.
Národníinformačnístředisko pro podporu jakosti
Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
4ST201 STATISTIKA CVIČENÍ Č. 10
4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Testování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Úloha 1: Lineární kalibrace
Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese 1. Vliv odlehlých hodnot Na následujících dvou příkladech ukážeme jak odlehlé hodnoty (outliers) ovlivňují výsledek analýzy a jak je identifikovat.
Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:
Regrese 28. listopadu 2013 Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: 1. Ukázat, že data jsou opravdu závislá. 2. Provést regresi. 3. Ukázat, že zvolená křivka
Inovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
4EK211 Základy ekonometrie
4EK11 Základy ekonometrie Autokorelace Cvičení 5 Zuzana Dlouhá Gauss-Markovy předpoklady Náhodná složka: Gauss-Markovy předpoklady 1. E(u) = náhodné vlivy se vzájemně vynulují. E(uu T ) = σ I n konečný
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE
M cvičení : GLM04b (Vztah mezi Poissonovým a
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,
LINEÁRNÍ REGRESE. Lineární regresní model
LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Pojem závislosti Je nutné rozlišit mezi závislostí nepodstatnou a mezi příčinnou čili kauzální závislostí.ta
Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat
Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel
Dvouvýběrové a párové testy Komentované řešení pomocí MS Excel Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci glukózy v
05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")
Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
M cvičení : GLM03a (The Working Activities of Bees)
RNDr. Marie Forbelská, Ph.D. 1 M7222 3. cvičení : GLM03a (The Working Activities of Bees) Popis dat je v souboru bees.txt, samotná data jsou uložena v souboru bees.dat. Nejprve načteme popisný soubor pomocí
Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel
Analýza rozptylu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO Brno) Analýza rozptylu 1 / 30 Analýza
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
Problém 1: Ceny nemovitostí Poznámkykřešení 1
Problém 1: Ceny nemovitostí Poznámkykřešení 1 Zadání 1.Majínemovitostiurčenékbydlenívyššícenutam,kdeječistšíovzduší?Pokudano,okolik? 2. Lze vztah mezi znečištěním a cenou, pokud existuje, vysvětlit tím,
12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)
cvičení z PSI 0-4 prosince 06 Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) Z realizací náhodných veličin X a Y s normálním rozdělením) jsme z výběrů daného rozsahu obdrželi
S E M E S T R Á L N Í
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět ANOVA analýza rozptylu
ADDS cviceni. Pavlina Kuranova
ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
Stručný úvod do testování statistických hypotéz
Stručný úvod do testování statistických hypotéz 1. Formulujeme hypotézu (předpokládáme, že pozorovaný jev je pouze náhodný). 2. Zvolíme hladinu významnosti testu a, tj. riziko, s nímž jsme ochotni se smířit.
Aplikovaná statistika v R - cvičení 2
Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových
Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,
Úloha 1: V naší studii se zabýváme poptávkovou funkcí životního pojištění, vycházíme z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ
UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ SEMESTRÁLNÍ PRÁCE Kalibrace a limity její přesnosti Precheza a.s. Přerov 2005 Ing. Miroslav Štrajt 1. Zadání Úloha 1. Lineární kalibrace: u přímkové
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 4: Statistické vlastnosti MNČ LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Upřesnění k pojmům a značení
Téma 9: Vícenásobná regrese
Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.
Ilustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
Testy statistických hypotéz
Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem