Přírodovědecká fakulta

Rozměr: px
Začít zobrazení ze stránky:

Download "Přírodovědecká fakulta"

Transkript

1 MASARYKOVA UNIVERZITA Přírodovědecká fakulta Studijní program: Aplikovaná matematika Studijní obor: Statistika a analýza dat profesní Metody jednoduché korelace v systémech STATISTICA a MATLAB Bakalářská práce Vedoucí práce: RNDr. Marie Budíková, Dr. Autor: Radim Tomášek 2010

2 Poděkování Rád bych poděkoval vedoucí své bakalářské práce, RNDr. Marii Budíkové, Dr., za její čas, trpělivost a cenné rady na konzultacích v průběhu vypracovávání této práce. Prohlášení Prohlašuji, že jsem svou bakalářskou práci napsal samostatně a výhradně s použitím citovaných pramenů. V Brně, dne Radim Tomášek

3 Název práce: Metody jednoduché korelace v systémech STATISTICA a MATLAB Autor: Radim Tomášek Ústav matematiky a statistiky Přírodovědecké fakulty MU Vedoucí bakalářské práce: RNDr. Marie Budíková, Dr. Abstrakt: Tématem bakalářské práce je korelační analýza dvourozměrných náhodných veličin. Tato analýza zahrnuje zejména testování nezávislosti a určení síly závislosti náhodných veličin. Práce je zaměřena na praktické zpracování reálných dat, které je vždy uvozeno základní teorií. Výpočty jsou realizovány pomocí matematických programů STATISTICA 9 a MATLAB 7.8 (R2009a). Součástí práce je taktéž porovnání těchto programů při aplikaci na korelační analýzu. Klíčová slova: korelační analýza, korelace, Statistica, Matlab Title: Methods of simple correlation in MATLAB and STATISTICA systems Author: Radim Tomášek Department od Mathematics and Statistics, Faculty of Science, MU Supervisor: RNDr. Marie Budíková, Dr. Abstract: The topic of this bachelor thesis is correlation analysis of two-dimensional random variables. This includes particularly the testing of independence and determination of random variables's strength dependence. This paper is focused on practical real data processing, always preceded by basic theory. Mathematical software STATISTICA 9 and MATLAB 7.8 (R2009a) were used for calculations. Comparison of these programs used for the correlation analysis is also part of this thesis. Keywords: correlation analysis, correlation, Statistica, Matlab

4 Úvod Bakalářská práce je zaměřena na korelační analýzu dvourozměrných náhodných veličin, přičemž těžiště práce spočívá v provádění této analýzy v programech STATISTICA 9 a MATLAB 7.8 (R2009a). Práce je rozdělena na 5 kapitol, nejpodstatnější jsou prostřední tři, které pojednávají o korelační analýze nominálních, ordinálních a intervalových a poměrových veličin. Část textu také srovnává uvedené programy. Korelační analýza v programech STATISTICA a MATLAB je ukázána na konkrétních příkladech obsahujících reálná data. Ke každému příkladu je vždy na záznamovém médiu přiložen datový soubor, který tato data obsahuje. Při zpracovávání dat v programu MATLAB se často používá více příkazů, proto jsou tyto příkazy shrnuty do funkcí a tyto funkce jsou ve formě m-souborů taktéž přiloženy na záznamovém médiu.

5 Obsah 1. Načtení datového souboru Testování nezávislosti nominálních veličin Základní teorie Zpracování dat v programu STATISTICA Zpracování dat v programu MATLAB Srovnání programů STATISTICA a MATLAB Testování nezávislosti ordinálních veličin Základní teorie Zpracování dat v programu STATISTICA Zpracování dat v programu MATLAB Srovnání programů STATISTICA a MATLAB Testování nezávislosti intervalových a poměrových veličin Základní teorie Zpracování dat v programu STATISTICA Zpracování dat v programu MATLAB Srovnání programů STATISTICA a MATLAB Celkové srovnání programů STATISTICA a MATLAB...29 Přílohy...30 Seznam použité literatury...36

6 Načtení datového souboru 1. Načtení datového souboru Nejprve ukažme, jak načítat textové (*.txt) a excelovské (*.xls) soubory v programech STATISTICA a MATLAB. Pro představu, jak má daný soubor vypadat, je v textu vždy vložena část souboru, který se načítá, a v závorce je uveden název tohoto souboru. Tyto soubory jsou přiloženy na záznamovém médiu. 1.1 Načtení souboru v programu STATISTICA Textový soubor: V programu STATISTICA zvolíme záložku Soubor, položku Otevřít (zkratka Ctrl+O). Vybereme požadovaný soubor, OK. Následně zvolíme možnost Definovat, OK. Nyní můžeme definovat použitý oddělovač proměnných, zda chceme ignorovat více oddělovačů za sebou, vzít jména proměnných z prvního řádku a jiné. Po výběru stiskneme OK a tímto máme data načtená. Vzhled souboru (Rodiny.txt): rodina frekv cetnost delnic casto 22 delnic obcas 33 delnic jak kdy 30 delnic malo 15 delnic vubec 9 zamest casto Excelovský soubor Opět přes Soubor Otevřít vybereme požadovaný soubor. Program se nás nejprve dotáže, který list souboru chceme otevřít, popř. jestli chceme otevřít všechny. Následně si můžeme zvolit, zda první řádek či první sloupec obsahují názvy případů náhodných veličin. Samozřejmě toto vždy zvolíme dle tabulky, kterou máme v souboru uloženou. Kliknutím na OK se již požadovaná tabulka otevře a zobrazí. Vzhled souboru (Korupce.xls): rok 2005 rok 2009 Island 1 6 Finsko 2 4,5 Dansko 3 1 Svedsko 4 2 Svycarsko

7 Načtení datového souboru 1.2 Načtení souboru v programu MATLAB Textový soubor Načtení souboru se provádí příkazem tblread, konkrétně >> [data,prom1,prom2]=tblread('filmy.txt','tab'), kde do prom1 se uloží první řádek souboru (tj. názvy případů první veličiny) a do prom2 první sloupec (tj. názvy případů druhé veličiny) a do data se uloží již konkrétní hodnoty. 'tab' v příkazu značí, že byl jako oddělovač v souboru použit tabulátor. Seznam všech možných oddělovačů nalezneme v nápovědě k příkazu tblread (>> help tblread) Je důležité, aby první řádek vždy označoval názvy proměnných a první sloupec názvy případů jednotlivých veličin, protože program MATLAB s tímto počítá. Pokud tam tento první řádek a sloupec nemáme, je třeba je doplnit. Vzhled souboru (Filmy.txt): CSFD IMDB Kmotr Kolja Shrek Sedm Pelisky Excelovský soubor Pro načtení použijeme příkaz >> [data, tabulka]=xlsread('okres.xls') Do proměnné data se uloží matice obsahující zjištěné četnosti, do proměnné tabulka se uloží matice odpovídající zadané tabulce. Nutno podotknout, že MATLAB sám pochopí první řádek či první sloupec jako názvy případů náhodných veličin, pokud se jedná o text. Pokud by byly názvy případů označeny čísly, je potřeba daný sloupec/řádek z tabulky odstranit jedním z těchto příkazů: >> data(1,:)=[] (odstraní první řádek) >> data(:,1)=[] (odstraní první sloupec) Vzhled souboru (Okres.xls): I. II. III. Blansko Brno-mesto Brno-venkov

8 2. Testování nezávislosti nominálních veličin 2.1 Základní teorie Testování nezávislosti nominálních veličin Popis testu Nechť X,Y jsou dvě nominální náhodné veličiny. Nechť X nabývá variant x [1],...,x [r] a Y nabývá variant y [1],...,y [s]. Získáme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X,Y). Zjištěné absolutní četnosti n jk dvojice variant (x [j],y [k] ) uspořádáme do kontingenční tabulky: x y y [1]... y [s] n j. n jk x [1]... x [r] n n 1s n r1... n rs n n r. n.k n.1... n.s n Marginální četnosti n j., n.k, j = 1,...,r, k = 1,...,s, jsou vždy součtem absolutních četností v příslušném řádku, resp. sloupci. Testujeme nulovou hypotézu H 0 : X,Y jsou stochasticky nezávislé náhodné veličiny proti hypotéze H 1 : X,Y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar: r K= j=1 s k=1 n n j. n.k jk n n j. n. k n Platí-li H 0, pak K se asymptoticky řídí rozložením χ 2 ((r-1)(s-1)). Nulovou hypotézu o nezávislosti veličin X,Y zamítáme na asymptotické hladině významnosti α, 2 když K χ 1 α ((r-1)(s-1)) Podmínky dobré aproximace Definujme teoretickou četnost jako n n j.. k. n Rozložení statistiky K lze aproximovat rozložením χ 2 ((r-1)(s-1)), pokud teoretické četnosti aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Pokud tato podmínka není splněna, je vhodné sloučit některé varianty. 2 5

9 Testování nezávislosti nominálních veličin Cramérův koeficient V= K n m 1, kde m = min{r,s}. Používá se pro měření síly závislosti náhodných veličin. Tento koeficient nabývá hodnot od 0 do 1. Čím blíže je jeho hodnota rovna 1, tím je závislost mezi náhodnými veličinami těsnější. Čím blíže je jeho hodnota 0, tím je závislost volnější. 2.2 Zpracování dat v programu STATISTICA Příklad V průzkumu bylo dotázáno 776 lidí na typ jejich domácnosti a jak často se zajímají o dění ve 2. světové válce. Výsledky jsou uloženy v souboru Rodiny.txt a zobrazuje je následující tabulka: často občas jak kdy málo vůbec dělnická zaměstnanecká podnikatelská smíšená zemědělská neúplná (zdroj: [8]) Na asymptotické hladině významnosti 0,05 testujme nulovou hypotézu o nezávislosti zájmu o dění ve 2. sv. válce na typu domácnosti a vypočtěme Cramérův koeficient. 6

10 Testování nezávislosti nominálních veličin Řešení příkladu Podmínky dobré aproximace Načteme soubor Rodiny.txt. Musíme ověřit podmínky dobré aproximace, proto vytvoříme kontingenční tabulku teoretických četností. Zvolíme záložku Statistiky, možnost Základní statistiky/tabulky. Z nabízených možností vybereme Kontingenční tabulky, OK. Kliknutím na Specif. tabulky vybereme proměnné: List1-Rodina, List2-Frekv. OK. Zapneme proměnnou vah Cetnost. OK. Na záložce Možnosti zaškrtneme Zvýraznit četnosti (větší než 5) a Očekávané četnosti. Výsledky zobrazíme kliknutím na Výpočet. Dostaneme tuto tabulku: Můžeme v ní vidět, že očekávané četnosti u zemědělské rodiny jsou velmi nízké a nejsou splněny podmínky dobré aproximace. Proto bude vhodné sloučit podnikatelskou a zemědělskou domácnost. V programu STATISTICA proto v datovém souboru zaměníme zemed za podnik a zobrazíme novou tabulku očekávaných četností. Máme zde již pouze dvě hodnoty nižší než 5, nicméně neklesají pod 2, takže již máme podmínky dobré aproximace splněny a můžeme pokračovat dále ve výpočtu. 7

11 Testování nezávislosti nominálních veličin Testování hypotézy o nezávislosti, Cramérův koeficient Přistupme k samotné hypotéze o nezávislosti. V programu STATISTICA se vrátíme do kontingenčních tabulek na záložku Možnosti, kde zaškrtneme Pearsonův & M-V chíkvadrát a Fí (tabulky 2x2) & Cramérovo V & C. Přejdeme na záložku Detailní výsledky a zvolíme Detailní 2-rozměrné tabulky. Získáme následující tabulku: Z prvního řádku vyčteme, že hodnota testové statistiky je rovna 25,1352, počet stupňů volnosti je 16 a p-hodnota je 0,0675. Poslední uvedené znamená, že nezamítáme nulovou hypotézu o nezávislosti zájmu o dění ve 2. sv. válce na typu domácnosti na asymptotické hladině významnosti 0,05. 2 Rozhodnout o této hypotéze můžeme také z hodnoty kvantilu chí-kvadrátu. Kvantil χ 0,95 (16) je roven 26,296. Protože K < 26,296, tak nezamítáme nulovou hypotézu o nezávislosti na asymptotické hladině významnosti 0,05. Na posledním řádku tabulky je uvedena hodnota Cramérova koeficientu rovna 0, Tzn., že závislost je velmi slabá. Poznámka 1: Pokud chceme četnosti zobrazit graficky, je to v programu STATISTICA velmi jednoduché. Stačí se vrátit do Detailních výsledků kontingenčních tabulek a máme na výběr kategorizované histogramy, grafy interakcí mezi četnostmi a 3D histogramy. Ukažme si posledně jmenovaný: 8

12 Testování nezávislosti nominálních veličin Poznámka 2: Při vytváření datového souboru zapisujeme jednotlivé proměnné do sloupce pod sebe, přičemž jednotlivé hodnoty na řádku oddělujeme zpravidla mezerníkem, čárkou či tabulátorem. Na prvním řádku každého sloupce bývá napsaný název jeho proměnné. Poznámka 3: Data nemusí být zadána pouze kontingenční tabulkou. Může se stát, že máme k dispozici původní statistický soubor, tj. soubor vypadající následovně: Prom1 Prom2 x 1 y 1 x n kde Prom1 a Prom2 jsou názvy proměnných. Potom postupujeme stejným způsobem, jen nezapínáme proměnnou vah. y n 2.3 Zpracování dat v programu MATLAB Příklad K bylo zjištěno, že v Jihomoravském kraji je 4511 km silnic. Jejich rozložení dle příslušnosti k okresu (Blansko, Brno-město, Brno-venkov, Břeclav, Hodonín, Vyškov, Znojmo) a typu silnice (dálnice+i. třída, II. třída, III. třída) je uloženo v souboru Okres.xls a je uvedeno v následující tabulce: Typ silnice Okres dálnice + I.třída II. třída III.třída Blansko Brno - město Brno - venkov Břeclav Hodonín Vyškov Znojmo (zdroj: [9]) Na asymptotické hladině významnosti 0,05 testujme nulovou hypotézu o nezávislosti typu silnice na příslušnosti k okresu a vypočtěme Cramérův koeficient. 9

13 2.3.2 Řešení příkladu Podmínky dobré aproximace Načteme soubor Okres.xls. Nejprve vytvoříme tabulku četností pomocí následujících příkazů >> [m,n]=size(data); >> for i=1:m, soucet1(i)=sum(data(i,:)); end >> data1=[data,soucet1']; >> for i=1:(n+1), soucet2(i)=sum(data1(:,i)); end >> kont_tab=[data1;soucet2] Testování nezávislosti nominálních veličin a následně vytvoříme kontingenční tabulku očekávaných četností dle těchto příkazů >> for i=1:m, for j=1:n, tab_ocekav_cetn(i,j)=kont_tab(i,(n+1))*kont_tab((m+1),j)/kont_tab((m+1),(n+1)); end end Tabulka je bohužel bez popisků, které je v programu MATLAB obtížné přidat. Pro výsledek to však není důležité. V tomto případě můžeme ověřit podmínky dobré aproximace od pohledu; pokud bychom měli tabulku rozměrnější, ověřili bychom podmínky následovně: >> vice_nez_pet=0; >> mene_nez_dva=0; >> for i=1:m, for j=1:n, if tab_ocekav_cetn(i,j)>5 vice_nez_pet=vice_nez_pet+1; end if tab_ocekav_cetn(i,j)<2 mene_nez_dva=mene_nez_dva+1; end end end 10

14 >> if (vice_nez_pet>(4*m*n/5)) && (mene_nez_dva>=0) ans='podminky dobre aproximace jsou splneny.', else ans='podminky dobre aproximace nejsou splneny.', end Testování nezávislosti nominálních veličin Poznámka: Popišme ještě, jak vytvořit kontingenční tabulku, pokud máme k dispozici původní datový soubor, kde varianty náhodné veličiny jsou vždy reprezentovány číslem. První možnou variantu reprezentuje 1, druhou variantu 2 atd. Takovéto označení je pro MATLAB výhodné, protože jinak bychom potřebovali k vytvoření kontingenční tabulky mnohem více příkazů. Načtení provedeme standardně příkazem >> [tabulka]=xlsread('soubor.xls') a pro sestavení kontingenční tabulky postupujeme takto: >> n=length(tabulka(:,1)); >> r=max(tabulka(:,1)); >> s=max(tabulka(:,2)); >> data=zeros(r,s); >> for i=1:r, for j=1:s, for k=1:n, if (tabulka(k,1)==i) && (tabulka(k,2)==j) data(i,j)=data(i,j)+1; end end end end Tímto jsme vytvořili proměnnou s názvem data (právě tu, kterou bychom získali načtením tabulky ze souboru Okres.xls). Dále tedy postupujeme od bodu Podmínky dobré aproximace, pouze vynecháme načtení souboru. Testování hypotézy o nezávislosti, Cramérův koeficient Spočteme hodnotu testové statistiky K: >> K=0; >> for i=1:m, for j=1:n, K=K+((kont_tab(i,j)-tab_ocekav_cetn(i,j))^2)/tab_ocekav_cetn(i,j); end end 11

15 Testování nezávislosti nominálních veličin >> if K>=chi2inv(0.95,(m-1)*(n-1)) ans='zamitame hypotezu o nezavislosti na asymptoticke hladine vyznamnosti 0,05', else ans='nezamitame hypotezu o nezavislosti na asymptoticke hladine vyznamnosti 0,05', end Pokud bychom chtěli rozhodnout pomocí p-hodnoty, dopočítáme ji příkazem >> p_hodnota=1-chi2cdf(k,(m-1)*(n-1)) a dostaneme výsledek P-hodnota je menší než asymptotická hladina významnosti 0,05, takže zamítáme hypotézu o nezávislosti na asymptotické hladině významnosti 0,05. Dopočítejme ještě Cramérův koeficient: >> k=min(m,n); >> V=sqrt(K/(kont_tab((m+1),(n+1))*(k-1))); Shrnut í Zjistili jsme, že podmínky dobré aproximace jsou splněny. Hodnota testové statistiky K je rovna 184, což je větší než hodnota chí-kvadrátu s 12 stupni volnosti pro hladinu významnosti 0,05 (rovno 21). Proto zamítáme nulovou hypotézu o nezávislosti typu silnice na příslušnosti k okresu na asymptotické hladině významnosti 0,05. O zamítnutí hypotézy svědčí též vypočtená p-hodnota rovna 0. Hodnota Cramérova koeficientu je rovna 0,1428, což znamená, že závislost je velmi volná. 12

16 2.4 Srovnání programů STATISTICA a MATLAB Testování nezávislosti nominálních veličin Podívejme se teď na přednosti a nedostatky těchto programů při testování hypotéz o nezávislosti nominálních veličin. STATISTICA Jako první jsme načítali soubory. Načítání neskýtá žádné výhody ani nevýhody oproti MATLABu. Velký rozdíl ale poznáme v případě, kdy chceme zpracovat původní statistický soubor. V programu STATISTICA to pro nás neznamená žádné ztížení, v MATLABu už je to složitější. Největší předností tohoto programu je uživatelská přívětivost. STATISTICA se ovládá způsobem, na který jsme zvyklí z nejrůznějších počítačových programů, tj. nemusíme znát žádné příkazy a stačí se proklikat nabídkou a možnostmi. Uváděné možnosti jsou přehledně rozděleny, takže s menší pomocí nápovědy se velmi rychle dobereme výsledků. Všechny požadované výpočty jsou sdruženy v jednom okně, kde jen zatrhneme vše, co nás zajímá, a necháme si výsledky vypočítat. MATLAB Velmi dobrá vlastnost programu MATLAB umožňuje sloučit napsané příkazy do jedné funkce a nechat si automaticky vypsat pouze požadované konstanty (myšleno hodnotu testové statistiky, p-hodnotu, atd.) anebo rovnou slovní hodnocení výsledků (např., že vypočtená hodnota svědčí o zamítnutí hypotézy). Příklad takovéto funkce je uveden v příloze. Jak lze pochopit z výše napsaného, tuto funkci musíme sami vytvořit, což vyžaduje jisté znalosti. Nevyplatí se zpracovávat např. jen jedna data. Pokud se pro tuto funkci rozhodneme, potom jediný příkaz dokáže vypsat všechny výsledky, což velice urychlí práci. Při kontingenční tabulce o větších rozměrech máme zároveň tu výhodu, že nemusíme nikde bokem na papíře počítat, kolik procent políček v kontingenční tabulce má hodnoty nižší než 5. Opět stačí vytvořit příkaz, který vše zpracuje a vypíše, zda jsou podmínky splněny. 13

17 3. Testování nezávislosti ordinálních veličin 3.1 Základní teorie Testování nezávislosti ordinálních veličin Nechť X,Y jsou dvě ordinální náhodné veličiny. Pořídíme dvourozměrný náhodný výběr (X 1,Y 1 ),...,(X n,y n ) z rozložení, jímž se řídí náhodný vektor (X,Y). Označíme R i pořadí náhodné veličiny X i a Q i pořadí náhodné veličiny Y i, i=1,...,n. Testujeme nulovou hypotézu H 0 : X,Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H 1 : X,Y jsou pořadově závislé náhodné veličiny (resp. proti levostranné alternativě H 1 : mezi X a Y existuje nepřímá pořadová závislost resp. proti pravostranné alternativě H 1 : mezi X a Y existuje přímá pořadová závislost). Testová statistika se nazývá Spearmanův koeficient pořadové korelace a má tento tvar: 6 r s =1 R n n 2 i Q i 2. 1 i=1 H 0 zamítáme na hladině významnosti α 1. ve prospěch oboustranné alternativy, když r s r s,1-α/2 (n) 2. ve prospěch levostranné alternativy, když r s r s,1-α (n) 3. ve prospěch pravostranné alternativy, když r s r s,1-α (n) Hodnotu r s,1-α (n) najdeme v tabulkách. Poznámka: Spearmanův koeficient současně měří sílu pořadové závislosti náhodných veličin X,Y. Nabývá hodnot v intervalu [-1;1]. Čím je jeho hodnota bližší -1, resp. 1, tím je silnější nepřímá, resp. přímá, pořadová závislost. Čím je jeho hodnota bližší 0, tím je pořadová závislost slabší. Programy STATISTICA a MATLAB používají asymptotickou variantu testu. Pokud n > 20, vypočteme testovou statistiku n T 0 = r s n 2 1 r s 2. Tato statistika se za platnosti nulové hypotézy řídí rozložením t(n-2). Kritický obor pro oboustrannou alternativu je W = (-, -t 1-α/2 (n 2)] [t 1-α/2 (n 2), ), pro levostrannou alternativu W = (-, -t 1-α (n 2)], pro pravostrannou alternativu [t 1-α (n 2), ). Nulovou hypotézu o pořadové nezávislosti náhodných veličin X a Y zamítáme na asymptotické hladině významnosti α, jestliže t 0 W. 14

18 3.2 Zpracování dat v programu STATISTICA Testování nezávislosti ordinálních veličin Příklad V následující tabulce (a taktéž v excelovském souboru Korupce.xls) jsou uvedeny evropské státy a u každého státu je uvedeno jeho pořadí dle míry korupce. Udané hodnoty jsou v letech 2005 a Island Finsko Dánsko Švéds. Švýcar. Norsko Rakous Nizoz. VB Lucem. Němec ,5 8, , , ,5 Francie Belgie Irsko Španěl. Malta. Portug. Estons. Slovin. Kypr Maďar. Itálie ,5 13, ,5 21, , Litva ČR Řecko SR. Lotyš. Polsko ,5 23, (zdroj: [10]) Vypočtěme Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujme nulovou hypotézu, že pořadí států dle korupce v letech 2005 a 2009 je nezávislé Řešení příkladu Načteme soubor Korupce.xls. Nejprve zobrazíme data kvůli orientačnímu posouzení závislosti korupce v daných letech. V záložce Grafy vybereme možnost Bodové grafy. V následujícím okně klikneme vlevo nahoře na prázdný trojúhelník, čímž se zobrazí dostupné listy načteného souboru. Vybereme List1 a dáme OK. Poté vybereme požadované proměnné, vypneme lineární proložení a opět dáme OK. 15

19 Testování nezávislosti ordinálních veličin Výsledkem bude tento graf. Je z něj patrné, že závislost korupce v jednotlivých letech je přímá a docela silná. Tuto domněnku ověříme výpočtem. Testování hypotézy o nezávislosti V záložkách zvolíme položku Statistiky a možnost Neparametrická statistika. Budeme dotázáni na výběr tabulky, přičemž se zobrazí soubor, který jsme načetli. Dvakrát na něj klikneme myší, aby se zobrazily dostupné listy. Vybereme požadovaný list a dáme OK. Z daných možností zvolíme Korelace (Spearman,...) a dáme OK. V následujícím výběru provedeme: jako položku Vytvořit vybereme Detailní report. Nastavíme proměnné na rok 2005 a rok Na záložce Zákl. výsledky klikneme na možnost Spearmanův koef. R. a dostaneme výsledek: V tabulce vidíme, že n = 28, Spearmanův koeficient pořadové korelace je roven 0,9298. To znamená, že pořadová závislost korupce v daných letech je přímá a silná. Jako poslední položka v tabulce je uvedena p-hodnota, která se blíží nule. Proto zamítáme nulovou hypotézu o nezávislosti na asymptotické hladině významnosti 0,05. Tuto úvahu můžeme využít pouze v případě, že n > 20, což je v tomto případě splněno. Poznámka: Korupce bývá často hodnocena na nějaké stupnici a vstupní tabulka tak nemusí obsahovat vždy pořadí, ale právě hodnocení na této stupnici. V programu STATISTICA to však ničemu nevadí. Postupujeme úplně stejně jako když máme daná pořadí. 16

20 3.3 Zpracování dat v programu MATLAB Testování nezávislosti ordinálních veličin Příklad Na filmových databázích ČSFD (Česko-Slovenská filmová databáze) a IMDb (The Internet Movie Database) hodnotí uživatelé zhlédnuté filmy. Výsledné procentuální hodnocení filmů Kmotr, Kolja, Shrek, Sedm, Pelíšky, Pianista, Lví král, Provaz, Příšerky s.r.o. a Rocky je uvedeno v následující tabulce: Film Kmotr Kolja Shrek Sedm Pelíšky Databáze ČSFD IMDb Film Pianista Lví král Provaz Příšerky Rocky Databáze ČSFD IMDb (zdroj: [11]) Hodnoty jsou zároveň uloženy v souboru Filmy.txt. Vypočtěme Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujme nulovou hypotézu, že hodnocení filmů v databázích ČSFD a IMDb jsou pořadově nezávislá Řešení příkladu Načteme soubor Filmy.txt. Stejně jako v předchozím příkladu nejprve zobrazme data. >> plot(data(:,1), data(:,2),'.') >> axis([ ]) >> xlabel('csfd'), ylabel('imdb') >> title('znazorneni dat') 17

21 Testování nezávislosti ordinálních veličin Dostaneme tento graf: Korelace není tak zřejmá jako v předchozím příkladu, zejména kvůli menšímu rozsahu dat. Avšak i tato data vykazují známky korelace, kterou můžeme očekávat střední a přímou. Ověřme tuto domněnku výpočtem. Testování hypotézy o nezávislosti testování nezávislosti v případě ordinálních veličin se na rozdíl od nominálních provede velmi jednoduše pouze jedním příkazem: >> [Spearman,p_hodnota]=corr(data,'type','Spearman') Zde dostaneme tabulku korelací typu 2x2, ve které jsou uvedeny všechny korelace veličin X,Y, tj. X a X, X a Y, Y a X a jako poslední Y a Y. Požadovaná hodnota je tedy uvedena v prvním řádku a druhém sloupci, resp. druhém řádku a prvním sloupci. 18

22 Testování nezávislosti ordinálních veličin Pokud bychom chtěli vypsat pouze dvě hodnoty, které nás zajímají, provedeme příkazy >> Spearman1=Spearman(1,2) >> p_hodnota1=p_hodnota(1,2) Kritická hodnota pro Spearmanův koeficient pořadové korelace pro n = 10 je rovna 0,6364. Vypočtená hodnota Spearmanova koeficientu je 0,5383 < 0,6364, proto nulovou hypotézu, že hodnocení filmů v databázích ČSFD a IMDb jsou pořadově nezávislá, nezamítáme na hladině významnosti 0,05. Protože máme n < 20, nemůžeme pro rozhodnutí o nulové hypotéze použít vypočtenou p-hodnotu. (Pokud by byl datový rozsah dostatečný, svědčila by vypočtená hodnota o nezamítnutí hypotézy na hladině významnosti 0,05, protože 0,1085 > 0,05.) 3.4 Srovnání programů STATISTICA a MATLAB V programu STATISTICA proběhl výpočet podobně jako v případě nominálních veličin, ale v programu MATLAB došlo k výraznému zjednodušení. Jedním příkazem, resp. dvěma, pokud uvažujeme i načtení souboru, se dostaneme ke všem hodnotám, které nás zajímají. MATLAB se tedy co do rychlosti dostává na stejnou úroveň jako STATISTICA. Navíc v programu MATLAB stále převažuje výhoda v možnosti napsání dodatečných příkazů, které přímo vyhodnotí získané hodnoty, a jejich shrnutí do funkce. 19

23 Testování nezávislosti intervalových a poměrových veličin 4. Testování nezávislosti intervalových a poměrových.veličin 4.1 Základní teorie Koeficienty korelace Mějme dvě náhodné veličiny X a Y. Sílu lineárního vztahu mezi X a Y měříme pomocí Pearsonova koeficientu korelace, který definujeme jako C X,Y R X,Y = pro D X, D Y 0, jinak je roven 0. D X D Y Pro jeho výpočet musíme znát simultánní rozložení vektoru (X,Y), v praxi ho však většinou neznáme a jsme odkázáni na náhodný výběr (X 1,Y 1 ),...,(X n,y n ) z dvourozměrného rozložení. U tohoto náhodného výběru můžeme určit následující charakteristiky: 1. výběrové průměry n n 2. výběrové rozptyly S 2 1 = 1 n 1 i=1 3. výběrovou kovarianci M 1 = 1 X n i M 2 = 1 i=1 n i=1 n Y i X i M 1 2 S 2 2 = 1 n Y n 1 i M 2 2 i=1 S 12 = 1 X n 1 i M 1 Y i M 2 i =1 4. výběrový koeficient korelace n R 12 = S 12 S 1 S 2 pro S 1 S 2 0 Výběrový koeficient korelace R 12 slouží jako odhad Pearsonova koeficientu korelace R(X,Y). Označme ρ = R(X,Y). Je-li ρ 0, pak jsou náhodné veličiny X a Y korelované. Je-li ρ > 0, jsou kladně korelované, a je-li ρ < 0, jsou záporně korelované. Poznámka: Stochastická nezávislost složek X,Y normálně rozloženého vektoru je ekvivalentní jejich nekorelovanosti. 20

24 Testování nezávislosti intervalových a poměrových veličin Testování hypotézy o nezávislosti Předpokládejme, že náhodný výběr (X 1,Y 1 ),...,(X n,y n ) pochází z dvourozměrného normálního rozložení. Pak testujeme nulovou hypotézu H 0 : ρ = 0 proti oboustranné alternativě H 1 : ρ 0 (popř. proti levostranné alternativě H 1 : ρ < 0 nebo proti pravostranné alternativě H 1 : ρ > 0). Testová statistika je tvaru T= R 12 n R 12 Platí-li nulová hypotéza, pak T t(n 2). Kritický obor pro test nulové hypotézy proti oboustranné alternativě je proti levostranné alternativě a proti pravostranné alternativě W = (-, -t 1-α/2 (n 2)] [t 1-α/2 (n 2), ), W = (-, -t 1-α (n 2)] W = [t 1-α (n 2), ). Nulovou hypotézu zamítáme na hladině významnosti α, když testová statistika T W Meze intervalu spolehlivosti Mějme dvourozměrný náhodný výběr rozsahu n pocházející z dvourozměrného normálního rozložení. Je-li koeficient korelace ρ v intervalu (-0,5;0,5) a rozsah výběru větší než 100, pak 100(1 α)% interval spolehlivosti pro ρ má meze 2 1 R R 12 ±u 12 1 / 2 n 3. Pokud uvedené podmínky nejsou splněny a rozsah n 10, vypočítáme meze 100(1 α)% asymptotického intervalu spolehlivosti pro ρ jako tgh 1 2 ln 1 R 12 ± u 1 / 2 1 R 12 n 3. 21

25 Testování nezávislosti intervalových a poměrových veličin 4.2 Zpracování dat v programu STATISTICA Příklad Bylo náhodně vybráno 15 potravin běžně používaných v domácnostech a u každého výrobku bylo zjištěno množství tuku a energie na 100g. Výsledky jsou uloženy v souboru Potraviny.txt a jsou zobrazeny v následující tabulce: chipsy hermelín ml. rýže měk. sýr jogurt eidam sušenky tuky/g energie/kcal piškoty sušenky2 polomáč. sýr tvarůžky parenica knedle tuky/g energie/kcal Margot Brumík hor. čokol salko tvaroh mléko tuky/g energie/kcal Vypočtěme hodnotu výběrového korelačního koeficientu, meze 95% asymptotického intervalu spolehlivosti pro tento koeficient a na hladině významnosti 0,05 otestujme nulovou hypotézu o nezávislosti množství tuku a množství energie v potravinách Řešení příkladu Ověření dvourozměrné normality dat Načteme soubor Potraviny.txt. Zvolíme záložku Grafy, možnost Bodové grafy. Vybereme proměnné a přejdeme na záložku Detaily. Zde změníme položku Proložení na Vypnuto a položku Elipsa na Normální. Dáme OK a zobrazí se dvourozměrná data. Abychom viděli celou elipsu, je třeba změnit měřítka. Dvojitým kliknutím levým tlačítkem myši se zobrazí možnosti grafu. V levém sloupci v položce Osa vybereme Měřítko. Vybereme osu X, mód Ručně a nastavíme Minimum a Maximum. Stejně vybereme osu Y a nastavíme ji. OK. 22

26 Testování nezávislosti intervalových a poměrových veličin V grafu vidíme, že všechny hodnoty leží uvnitř elipsy a tudíž můžeme považovat data za dvourozměrně normální. Je zřejmé, že hlavní osa elipsy má kladnou směrnici. Můžeme očekávat přímou závislost, což znamená, že čím více bude v potravině tuku, tím vyšší bude i její energetická hodnota. Sílu závislosti zjistíme následně výpočtem výběrového korelačního koeficientu. V praxi se dvourozměrná normalita často odhaduje pomocí ověření jednorozměrné normality veličin X a Y. Pro ověření použijeme Lillieforsův test. Zvolíme možnost Statistiky Základní statistiky Tabulky četností OK. Vybereme proměnné a na záložce Normalita zaškrtneme Lillieforsův test. Kliknutím na Testy normality se zobrazí následující tabulka: Vidíme, že obě hodnoty Lillieforsova testu jsou p > 0,20. Můžeme tedy předpokládat jednorozměrnou normalitu obou veličin. Původní dvourozměrná data můžeme považovat za dvourozměrně normální. 23

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. Téma 10: Analýza závislosti dvou nominálních veličin Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. barva očí barva vlasů světlá

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Téma 9: Vícenásobná regrese

Téma 9: Vícenásobná regrese Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.

Více

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní

Více

STATISTICA Téma 1. Práce s datovým souborem

STATISTICA Téma 1. Práce s datovým souborem STATISTICA Téma 1. Práce s datovým souborem 1) Otevření datového souboru Program Statistika.cz otevíráme z ikony Start, nabídka Programy, podnabídka Statistika Cz 6. Ze dvou nabídnutých možností vybereme

Více

Protokol č. 1. Tloušťková struktura. Zadání:

Protokol č. 1. Tloušťková struktura. Zadání: Protokol č. 1 Tloušťková struktura Zadání: Pro zadané výčetní tloušťky (v cm) vypočítejte statistické charakteristiky a slovně interpretujte základní statistické vlastnosti tohoto souboru tloušťek. Dále

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10. PARAMETRICKÉ TESTY Testujeme rovnost průměru - předpokladem normální rozdělení I) Jednovýběrový t-test 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů) VYBRANÉ TESTY NEPARAMETRICKÝCH HYPOTÉZ TESTY DOBRÉ SHODY Název testu Předpoklady testu Testová statistika Nulové rozdělení test dobré shody Očekávané četnosti, alespoň 80% očekávaných četností >5 ( ) (p

Více

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel: NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného

Více

STATISTICA Téma 7. Testy na základě více než 2 výběrů

STATISTICA Téma 7. Testy na základě více než 2 výběrů STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm

Více

Voltampérová charakteristika diody

Voltampérová charakteristika diody Voltampérová charakteristika diody Pozn.: Voltampérovou charakteristiku diod, resp. i rezistorů, žárovek aj. lze proměřovat se soupravou ISES-PCI a též i s ISES-USB. Souprava ISES-PCI, resp. ISES-PCI Professional

Více

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára Odhady parametrů základního souboru Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára Motivační příklad Mám průměrné roční teploty vzduchu z 8 stanic

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Výsledný graf ukazuje následující obrázek.

Výsledný graf ukazuje následující obrázek. Úvod do problematiky GRAFY - SPOJNICOVÝ GRAF A XY A. Spojnicový graf Spojnicový graf používáme především v případě, kdy chceme graficky znázornit trend některé veličiny ve zvoleném časovém intervalu. V

Více

StatSoft Jak vyzrát na datum

StatSoft Jak vyzrát na datum StatSoft Jak vyzrát na datum Tento článek se věnuje podrobně možnostem práce s proměnnými, které jsou ve formě datumu. A že jich není málo. Pokud potřebujete pracovat s datumem, pak se Vám bude tento článek

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Analýza dat z dotazníkových šetření

Analýza dat z dotazníkových šetření Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Zpracování chybějících dat a dat mimo rozsah

Zpracování chybějících dat a dat mimo rozsah StatSoft Zpracování chybějících dat a dat mimo rozsah V tomto článku si představíme jeden z možných postupů, jak se rychle a snadno vypořádat s detekcí chybějících dat a dat mimo stanovený rozsah. Načtení

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Test dobré shody v KONTINGENČNÍCH TABULKÁCH Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Excel tabulkový procesor

Excel tabulkový procesor Pozice aktivní buňky Excel tabulkový procesor Označená aktivní buňka Řádek vzorců zobrazuje úplný a skutečný obsah buňky Typ buňky řetězec, číslo, vzorec, datum Oprava obsahu buňky F2 nebo v řádku vzorců,

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

Tabulkový kalkulátor. Tabulkový kalkulátor. LibreOffice Calc 12.část

Tabulkový kalkulátor. Tabulkový kalkulátor. LibreOffice Calc 12.část Tabulkový kalkulátor LibreOffice Calc 12.část Je to interaktivní tabulka, která rychle kombinuje a porovnává velké množství dat. Dokáže usnadnit manipulaci hlavně s delšími tabulkami, které mají charakter

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

NÁHODNÝ VEKTOR. 4. cvičení

NÁHODNÝ VEKTOR. 4. cvičení NÁHODNÝ VEKTOR 4. cvičení Náhodný vektor Náhodným vektorem rozumíme sloupcový vektor X=(X, X,, X n ) složený z náhodných veličin X, X,, X n, který je charakterizován sdruženým rozdělením pravděpodobnosti.

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

NEPARAMETRICKÉ TESTY

NEPARAMETRICKÉ TESTY NEPARAMETRICKÉ TESTY Neparametrický jednovýběrový Jeden výběr jehož medián srovnáváme s nějakou hodnotou Wilcoxonův jednovýběrový test 1) Máme data z družice Hipparcos pro deklinaci (obdoba zeměpisné šířky)

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Poznámky k předmětu Aplikovaná statistika, 11. téma

Poznámky k předmětu Aplikovaná statistika, 11. téma Poznámky k předmětu Aplikovaná statistika, 11. téma Testy založené na χ 2 rozdělení V přehledu významných rozdělení jsme si uvedli, že Poissonovým rozdělením se modeluje počet událostí, které nastanou

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

2 ) 4, Φ 1 (1 0,005)

2 ) 4, Φ 1 (1 0,005) Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje

Více

Kapitola 11: Formuláře 151

Kapitola 11: Formuláře 151 Kapitola 11: Formuláře 151 Formulář DEM-11-01 11. Formuláře Formuláře jsou speciálním typem dokumentu Wordu, který umožňuje zadávat ve Wordu data, která lze snadno načíst například do databázového systému

Více

Normální rozložení a odvozená rozložení

Normální rozložení a odvozená rozložení I Normální rozložení a odvozená rozložení I.I Normální rozložení Data, se kterými pracujeme, pocházejí z různých rozložení. Mohou být vychýlena (doleva popř. doprava, nebo v nich není na první pohled vidět

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28. Zdokonalování gramotnosti v oblasti ICT Kurz MS Excel kurz 6 1 Obsah Kontingenční tabulky... 3 Zdroj dat... 3 Příprava dat... 3 Vytvoření kontingenční tabulky... 3 Možnosti v poli Hodnoty... 7 Aktualizace

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007

Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007 Název školy: Základní škola a Mateřská škola Žalany Číslo projektu: CZ. 1.07/1.4.00/21.3210 Téma sady: Informatika pro sedmý až osmý ročník Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007

Více

Nápověda ke cvičení 5

Nápověda ke cvičení 5 Nápověda ke cvičení 5 Formát datum: vyznačíme buňky pravé tlačítko myši Formát buněk Číslo Druh Datum Typ: vybereme typ *14. březen 2001 Do tabulky pak zapíšeme datum bez mezer takto: 1.9.2014 Enter OK

Více

Vzorová prezentace do předmětu Statistika

Vzorová prezentace do předmětu Statistika Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota

Více

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová Stručný manuál k ovládání programu STATISTICA Mgr. Petra Beranová Copyright StatSoft CR s.r.o. 2008, 1. vydání 2008 StatSoft CR Podbabská 16 CZ-160 00 Praha 6 tel.: +420 233 325 006 fax: +420 233 324 005

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

7. Analýza rozptylu.

7. Analýza rozptylu. 7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a

Více

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná. Průběžná klasifikace Nová verze modulu Klasifikace žáků přináší novinky především v práci s průběžnou klasifikací. Pro zadání průběžné klasifikace ve třídě doposud existovaly 3 funkce Průběžná klasifikace,

Více

10. N á h o d n ý v e k t o r

10. N á h o d n ý v e k t o r 10. N á h o d n ý v e k t o r 10.1. Definice: Náhodný vektor. Uspořádanou n tici (X 1, X 2,..., X n ) náhodných veličin X i, 1 i n, nazýváme náhodným vektorem. Poznámka: Pro jednoduchost budeme zavádět

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

Gabriela Janská. Středočeský vzdělávací institut akademie J. A. Komenského www.sviajak.cz

Gabriela Janská. Středočeský vzdělávací institut akademie J. A. Komenského www.sviajak.cz PŘÍRUČKA KE KURZU: ZÁKLADY PRÁCE NA PC MS WORD 2003 Gabriela Janská Středočeský vzdělávací institut akademie J. A. Komenského www.sviajak.cz Obsah: 1. Písmo, velikost písma, tučně, kurzíva, podtrhnout

Více

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu http://akademie.ldf.mendelu.cz/cz (reg. č. CZ.1.07/2.2.00/28.

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu http://akademie.ldf.mendelu.cz/cz (reg. č. CZ.1.07/2.2.00/28. Základy lineárního programování Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem

Více

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11 Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:

Více

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u. Několik řešených příkladů do Matematiky Vektory V tomto textu je spočteno několik ukázkových příkladů které vám snad pomohou při řešení příkladů do cvičení. V textu se objeví i pár detailů které jsem nestihl

Více

František Batysta batysfra@fjfi.cvut.cz 19. listopadu 2009. Abstrakt

František Batysta batysfra@fjfi.cvut.cz 19. listopadu 2009. Abstrakt Automatický výpočet chyby nepřímého měření František Batysta batysfra@fjfi.cvut.cz 19. listopadu 2009 Abstrakt Pro správné vyhodnocení naměřených dat je třeba také vypočítat chybu měření. Pokud je neznámá

Více

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu. 6. NÁHODNÝ VEKTOR Průvodce studiem V počtu pravděpodobnosti i v matematické statistice se setkáváme nejen s náhodnými veličinami, jejichž hodnotami jsou reálná čísla, ale i s takovými, jejichž hodnotami

Více

Použijeme-li prostorový typ grafu, můžeme pro každou datovou zvolit jiný tvar. Označíme datovou řadu, zvolíme Formát datové řady - Obrazec

Použijeme-li prostorový typ grafu, můžeme pro každou datovou zvolit jiný tvar. Označíme datovou řadu, zvolíme Formát datové řady - Obrazec Čtvrtek 15. září Grafy v Excelu 2010 U grafů, ve kterých se znázorňují hodnoty řádově rozdílné, je vhodné zobrazit ještě vedlejší osu 1994 1995 1996 1997 1998 1999 2000 hmotná investice 500 550 540 500

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

MS Excel 2007 Kontingenční tabulky

MS Excel 2007 Kontingenční tabulky MS Excel 2007 Kontingenční tabulky Obsah kapitoly V této kapitole se seznámíme s nástrojem, který se používá k analýze dat rozsáhlých seznamů. Studijní cíle Studenti budou umět pro analýzu dat rozsáhlých

Více

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily Testování hypotéz Testování hypotéz jsou klasické statistické úsudky založené na nějakém apriorním předpokladu. Vyslovíme-li předpoklad o hodnotě neznámého parametru nebo o zákonu rozdělení sledované náhodné

Více

Vytvoření tiskové sestavy kalibrace

Vytvoření tiskové sestavy kalibrace Tento návod popisuje jak v prostředí WinQbase vytvoříme novou tiskovou sestavu, kterou bude možno použít pro tisk kalibračních protokolů. 1. Vytvoření nového typu sestavy. V prvním kroku vytvoříme nový

Více

Přednáška X. Testování hypotéz o kvantitativních proměnných

Přednáška X. Testování hypotéz o kvantitativních proměnných Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody

Více

IMPORT DAT DO DATABÁZE

IMPORT DAT DO DATABÁZE Úvod do problematiky IMPORT DAT DO DATABÁZE Databázové tabulky lze naplňovat i již dříve pořízenými údaji. Můžeme tak snadno načíst do databáze data pořízená v textovém editoru WORD nebo v tabulkovém procesoru

Více

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec StatSoft Vzorce Jistě se Vám již stalo, že data, která máte přímo k dispozici, sama o sobě nestačí potřebujete je nějak upravit, vypočítat z nich nějaké další proměnné, provést nějaké transformace, Jinak

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

Manuál: Editace textů v textovém editoru SINPRO Úprava tabulek a internetových odkazů, řádkování

Manuál: Editace textů v textovém editoru SINPRO Úprava tabulek a internetových odkazů, řádkování Manuál: Editace textů v textovém editoru SINPRO Úprava tabulek a internetových odkazů, řádkování (nejen pro editaci STI v systému SINPRO, aktualizováno: 25. 6. 2015) v 2.0 Obsah TABULKY Úprava tabulek...

Více

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}. VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25 Základy lineárního programování Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více