Ekonomická statistika

Podobné dokumenty
Statistika pro geografy

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Základy popisné statistiky

Zápočtová práce STATISTIKA I

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Charakteristika datového souboru

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Základní statistické charakteristiky

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Základní statistické pojmy

Číselné charakteristiky

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Testování statistických hypotéz

STATISTICKÉ CHARAKTERISTIKY

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Popisná statistika kvantitativní veličiny

23. Matematická statistika

KGG/STG Statistika pro geografy

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

MATEMATIKA III V PŘÍKLADECH

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Renáta Bednárová STATISTIKA PRO EKONOMY

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

STATISTICKÉ HYPOTÉZY

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

7. Rozdělení pravděpodobnosti ve statistice

Ing. Michael Rost, Ph.D.

Statistika I (KMI/PSTAT)

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Praktická statistika. Petr Ponížil Eva Kutálková

STATISTICKÉ ZJIŠŤOVÁNÍ


STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Normální (Gaussovo) rozdělení

Popisná statistika. Statistika pro sociology

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

= = 2368

Mnohorozměrná statistická data

STATISTICKÉ ODHADY Odhady populačních charakteristik

Předmět studia: Ekonomická statistika a analytické metody I, II

Testování statistických hypotéz

Číselné charakteristiky a jejich výpočet

Testování statistických hypotéz

Třídění statistických dat

Pravděpodobnost a aplikovaná statistika

Metodologie pro ISK II

Testování hypotéz o parametrech regresního modelu

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Mnohorozměrná statistická data

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Jana Vránová, 3. lékařská fakulta UK

Testování hypotéz o parametrech regresního modelu

Normální (Gaussovo) rozdělení

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Jevy a náhodná veličina

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Statistika pro gymnázia

You created this PDF from an application that is not licensed to print to novapdf printer (

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Škály podle informace v datech:

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Regresní analýza 1. Regresní analýza

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a statistika

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Cvičení ze statistiky - 8. Filip Děchtěrenko

Testy statistických hypotéz

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Technická univerzita v Liberci

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

12. cvičení z PST. 20. prosince 2017

15. T e s t o v á n í h y p o t é z

4ST201 STATISTIKA CVIČENÍ Č. 7

UKAZATELÉ VARIABILITY

Analýza dat na PC I.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pojem a úkoly statistiky

Jednofaktorová analýza rozptylu

Transkript:

INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Ekonomická statistika RNDr. Radmila Sousedíková, Ph.D. Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. ESF napomáhá rozvoji lidských zdrojů a podnikatelského ducha.

Úvod do popisné statistiky

Základní statistické pojmy Klíčové pojmy: Statistická jednotka, statistický znak, statistický soubor, kvantitativní a kvalitativní statistický znak, nespojité a spojité statistické znaky, statistické šetření, rozdělení četností, intervalové rozdělení četností, statistické grafy, polygon, histogram, kvantily.

Základní statistické pojmy Statistika zkoumá hromadné jevy a procesy, tedy jevy a procesy, které se vyskytují u velkého počtu prvků. Tyto prvky nazýváme statistickými jednotkami. Zajímají nás vlastnosti statistických jednotek, které vyjadřují statistické znaky. Alternativním termínem pro pojem statistický znak je statistická proměnná.

Příklady statistických jednotek a znaků Statistická jednotka Student Podnik Statistický znak absolvovaná střední škola (např. gymnázium, obchodní akademie, střední průmyslová škola apod.) věk, známka z určitého předmětu, vážený studijní průměr příslušná sekce, oddíl, skupina nebo třída klasifikace ekonomických činností CZ-NACE (např. sekce Těžba a dobývání, oddíl Těžba a úprava černého a hnědého uhlí, skupina Těžba a úprava černého uhlí, třídy Těžba černého uhlí, Úprava černého uhlí) počet zaměstnanců, tržby, hospodářský výsledek apod.

Třídění statistických znaků Statistické znaky kvalitativní kvantitativní alternativní množné měřitelné pořadové spojité nespojité

Kvalitativní znaky Varianty kvalitativních statistických znaků jsou vyjádřeny slovně (např. nejvyšší dosažené vzdělání pracovníka, místo narození). Kvalitativní znaky lze třídit na: alternativní nabývají pouze dvou variant množné nabývají více než dvou variant

Kvantitativní znaky Varianty kvantitativních statistických znaků jsou vyjádřeny číselně (počet pracovníků podniku, výše mzdy pracovníka. Kvantitativní znaky lze třídit na: měřitelné hodnoty znaku lze porovnávat rozdílem nebo podílem (měsíční mzda zaměstnance, objem produkce podniku) pořadové vyjadřují pořadí statistických jednotek

Kvantitativní znaky měřitelné Měřitelné kvantitativní znaky se dále třídí na: nespojité - nabývají některých číselných hodnot, jsou to nejčastěji přirozená nebo celá nezáporná čísla (počet zaměstnanců) spojité - nabývají libovolné hodnoty z určitého intervalu (spotřeba elektřiny)

Statistický soubor Množina všech statistických jednotek, u nichž zkoumáme statistické znaky, tvoří statistický soubor. Statistický soubor nazveme jednorozměrným, zkoumáme-li u každé statistické jednotky pouze jeden statistický znak. O dvourozměrném, resp. vícerozměrném statistickém souboru hovoříme tehdy, jestliže u každé statistické jednotky zjišťujeme dva, resp. více statistických znaků. Kromě popisu jednotlivých znaků nás zajímají i jejich vzájemné vztahy.

Základní a výběrový statistický soubor Základní soubor je tvořen všemi statistickými jednotkami, které jsou předmětem zkoumání. Obvykle je velmi rozsáhlý, může být konečný nebo nekonečný. Z úsporných důvodů (časových nebo ekonomických) se obvykle provádí výběrová šetření, kdy se pracuje s výběrovým souborem, který je vytvořen tak, že ze základního souboru se určitým způsobem vyberou pouze některé statistické jednotky. Z výsledků výběrového souboru se provádí úsudek o základním souboru.

Etapy statistického zkoumání Statistickou práci lze zpravidla rozdělit do několika etap: etapa statistického zjišťování (šetření) zjišťování potřebných dat etapa statistického zpracování zjištěných údajů (dat) tabelování, třídění, výpočet charakteristik, grafické znázornění etapa statistické analýzy rozbor dat pomocí vhodných metod, nejdůležitější fáze.

Statistické zjišťování - šetření Pomocí statistického šetření získáme statistické údaje, tj. číselné anebo slovní obměny statistických znaků. Při šetření se určuje zpravodajská jednotka, která poskytuje informace o statistické jednotce. Zpravodajská jednotka může nebo nemusí být totožná se zpravodajskou jednotkou. Např. průmyslové podniky (zpravodajské jednotky) sdělují informace o hrubé mzdě svých zaměstnanců (statistické jednotky) při šetření o průměrných mzdách v průmyslu.

Druhy zjištěných údajů Údaje zjištěné šetřením mohou být dvojího druhu: údaje zjištěné za určitý interval (objem produkce, údaje z výkazu zisku a ztráty), pro tento druh údajů je třeba stanovit rozhodnou dobu údaje zjištěné k určitému časovému okamžiku (počet pracovníků, údaje z rozvahy), pro tento druh údajů je třeba stanovit rozhodný okamžik

Doba a rozsah zjišťování Při statistickém zjišťování je třeba stanovit: dobu zjišťování - lhůtu, v níž musí být šetření provedeno rozsah zjišťování - vyčerpávající nebo výběrové šetření

Způsoby zjišťování statistických údajů Zjišťování statistický údajů lze provádět několika způsoby: přímé pozorování dotaz výkaznictví zvláštní statistická šetření

Přímé pozorování a dotaz Nejčastěji používanými metodami zjišťovaní statistických dat je přímé pozorování nebo dotaz: přímé pozorování přímo pozorujeme statistickou jednotku a hodnoty znaků získáme sčítáním, měřením, vážením apod. dotaz lze použít metodu expediční, kdy údaje zjišťují sčítací komisaři či tazatelé nebo metodu korespondenční, kdy zpravodajské jednotky samy sdělují požadované údaje na předem stanovených formulářích, např. dotaznících.

Výkaznictví Výkaznictví je základním zdrojem informací o stavu národního hospodářství. Výkaz - předem navržený a schválený formulář, který zpravodajská jednotka předkládá statistickým orgánům. V současné době roste význam elektronického výkaznictví.

Příklad výkazu Na následujících dvou snímcích je uveden Měsíční výkaz v průmyslu (Prům 1-12). Výkaz slouží pro statistická zjišťování prováděná Českým statistickým úřadem. Pomocí výkazu se získávají údaje o vývoji základních ukazatelů podle průmyslových odvětví. Zpravodajskou povinnost mají ekonomické subjekty s převažující průmyslovou činností podle CZ-NACE 05 až 39.

Zvláštní statistická šetření Zvláštní statistická šetření se provádějí v případě, kdy některé zjišťované jevy nejsou běžně evidovány nebo je třeba občas zjistit stav přímým měřením, sčítáním nebo zhodnocením. Jedná se o: soupisy (cenzy) znalecké odhady ankety

Soupis (cenzus) Při soupisu je sepisován zjištěný stav na místě samotném. Jedná se např. o soupis: zásob hotových výrobků hospodářského zvířectva

Znalecký odhad Znalecký odhad je prováděn osobou (znalcem), kterou k tomu pověří statistický orgán. Znalec subjektivně ohodnotí určitý jev. Vliv subjektivity lze zmírnit tím, že odhadem je pověřena osoba, která nemá zájem na zkreslení výsledků nebo se stanoví kritéria, podle nichž se odhad bude provádět.

Etapa statistické zpracování zjištěných údajů Výsledkem statistického šetření je velké množství údajů, které je třeba zpřehlednit, utřídit a shrnout tak, aby vynikly charakteristické rysy a zákonitosti. Součástí statistického zpracování je obvykle: kontrola statistických dat tabelování číselných výsledků třídění výpočet různých statistických charakteristik grafické znázornění výsledných údajů apod.

Kontrola statistických dat Zpracování statistických dat by mělo vždy začínat kontrolou došlého materiálu. Jedná se o kontrolu formální a logickou. Formální kontrola spočívá v prověření správnosti aritmetických operací (součtů, součinů, podílů apod.) Logická kontrola je náročnější a vyžaduje věcnou znalost jevů, které byly zjišťovány. Je nutno posoudit, zda se vykázané údaje pohybují v logicky možných mezích.

Třídění Třídění rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů. Rozlišujeme: jednostupňové třídění provádíme podle obměn jednoho statistického znaku vícestupňové třídění provádíme podle více statistických znaků najednou

Rozdělení četností Provádíme jednostupňové třídění, kdy u každé statistické jednotky sledujeme pouze jeden kvantitativní znak. Údaje o sledovaném znaku uspořádáme do rostoucí posloupnosti, ke každé variantě znaku přiřadíme počty příslušných statistických jednotek tzv. absolutní četnosti. Vznikne tabulka rozdělení četností. Rozdělení četností lze provést pro nespojité znaky, které nabývají jen několika různých variant.

Značení n k rozsah souboru, počet navzájem různých variant znaku, x i n i varianty znaku pro i = 1,, k, absolutní četnosti pro i = 1,, k, p i= n i n relativní četnosti pro i = 1,, k..

Tabulka rozdělení četností varianta znaku x i absolutní četnost n i relativní četnost p i kumulativní absolutní četnost kumulativní relativní četnost x 1 n 1 p 1 n 1 p 1 x 2 n 2 p 2 n 1 + n 2 p 1 + p 2 k k x k n k p k n i p i i=1 i=1 k k celkem n i = n p i = 1 -------- -------- i=1 i=1

Rozdělení četností známky 40 studentů z matematiky varianta znaku absolutní četnost relativní četnost kumulativní absolutní četnost kumulativní relativní četnost 1 10 0,25 10 0,25 2 20 0,50 30 0,75 3 10 0,25 40 1,00 celkem 40 1,00 -------- --------

Intervalové rozdělení četností Intervalové rozdělení četností lze provést pro nespojité znaky nabývající mnoha různých variant nebo pro spojité znaky. Variační rozpětí rozdělíme na určitý počet intervalů a pak zjistíme počty hodnot patřících do těchto intervalů. Variační rozpětí: R = x max x min, kde x max je největší hodnota znaku, x min je nejmenší hodnota znaku.

Intervalové rozdělení četností Při konstrukci intervalového rozdělení četností je nutné vyřešit dva problémy: určení počtu intervalů určení hranic intervalů Počet intervalů by měl být zvolen tak, aby bylo potlačeno náhodné kolísání četností a zůstaly zachovány charakteristické rysy rozdělení. Počet intervalů k lze odhadnout pomocí Sturgesova pravidla: k 1 + 3,3 log n, kde n je rozsah souboru.

Intervalové rozdělení četností - určení hranic intervalů Hranice intervalů je třeba určit tak, aby mohly být hodnoty jednotlivých znaků zařazeny do příslušných intervalů jednoznačně. V případě, že varianta znaku odpovídá hranici intervalu, doporučuje se: přiřadit tuto hodnotu do intervalu se sudým pořadovým číslem nebo absolutní četnost obou intervalů zvýšit o polovinu

Intervalové rozdělení četností měsíční příjem domácnosti Intervaly [Kč] na 1 osobu Abs. četnost Relat. četnost Kumul. absol. četnost Kumul. relat. četnost do 10 000 10 0,10 10 0,10 10 001-12 000 30 0,30 40 0,40 12 001-14 000 40 0,40 80 0,80 nad 14 001 20 0,20 100 1,00 celkem 100 1,00 -------- --------

Statistické grafy Grafické zobrazení statistických údajů poskytuje názornou představu o tendencích a charakteristických rysech zkoumaných jevů. Nejčastěji se používají následující typy grafů: spojnicové sloupcové bodové výsečové krabičkové

Spojnicové grafy - polygon Polygon se užívá pro zobrazení rozdělení četností. Postup konstrukce polygonu: na vodorovnou osu vynášíme jednotlivé varianty znaku na svislou osu vynášíme příslušné absolutní četnosti spojíme úsečkami body o souřadnicích x i, n i

Polygon rozdělení četností 8 7 6 5 4 3 2 1 0 x1 x2 x3 x4

Polygon Ke konstrukci polygonu lze použít i relativní četnosti, kumulativní absolutní nebo kumulativní relativní četnosti (vzniká tzv. součtová křivka, ogiva). U polygonu je důležitá poloha vrcholu modus, tedy hodnota znaku s největší četností. Podle tvaru polygonu lze rozlišit: jednovrcholová (unimodální) rozdělení vícevrcholová (multimodální) rozdělení

Jednovrcholová rozdělení Existují dva druhy jednovrcholového rozdělení: modus leží mezi minimální a maximální variantou znaku nejčastější typ největší četnost má minimální nebo maximální varianta znaku rozdělení J (má tvar písmenka J)

Příklad rozdělení J 10 9 9 8 7 6 5 5 4 3 3 2 2 1 0 x1 x2 x3 x4 x5 1 modus v maximální variantě znaku modus v minimální variantě znaku

Vícevrcholová rozdělení Chápeme-li modus obecněji jako variantu znaku s největší četností vzhledem k nejbližšímu okolí, pak modem je každá varianta znaku, jejíž četnost je větší než četnost sousedních dvou variant. Vícevrcholové rozdělení má tedy více než jeden modus. Nejčastěji se vyskytuje rozdělení se dvěma mody bimodální.

Příklad bimodálního rozdělení 12 10 8 6 4 2 0 x1 x2 x3 x4 x5 x6 x7

Rozdělení U Rozdělení U je zvláštním případem bimodálního rozdělení. Má vrcholy ve dvou krajních variantách znaku. Je důležitá varianta znaku s nejnižší četností antimodus. Větší počet vrcholů svědčí o nestejnorodosti souboru, který lze roztřídit na několik jednovrcholových rozdělení.

Příklad rozdělení U 12 10 8 6 4 2 0 antimodus x1 x2 x3 x4 x5 x6 x7

Spojnicové grafy - histogram Histogram se užívá pro zobrazení intervalového rozdělení četností. Postup konstrukce histogramu: na vodorovnou osu vynášíme jednotlivé intervaly základny sloupců na svislou osu vynášíme absolutní četnosti výšky sloupců

absolutní četnosti Histogram 6 5 4 3 2 1 0 x 1 x 2 x 3 x 4 x 5 intervaly

Bodové grafy Bodové grafy slouží k znázornění závislostí mezi dvěma kvantitativními znaky resp. ke znázornění průběhu časové řady. Postup konstrukce bodového grafu: na vodorovnou osu znázorníme varianty znaku x i (nezávisle proměnné) resp. hodnotu časové proměnné t i na svislou osu znázorníme varianty znaku y i (závisle proměnné) resp. hodnotu ukazatele y t časové řady konstruujeme body o souřadnicích x i, y i, resp. t i, y t

Výsečové grafy Výsečové grafy slouží k vyjádření struktury variant statistického znaku. Relativní četnost p i jednotlivých variant znaku x i je vyjádřena výsečí kruhu.

Příklad výsečového grafu 13% 7% 33% x1 x2 x3 x4 47%

Krabičkový graf Krabičkový graf slouží k zobrazení extrémních hodnot souboru (minimální hodnoty x min a maximální hodnoty x max ) a kvartilů (dolního kvartilu x 25, mediánu x a horního kvantilu x 75 ). Často se vizuálně analyzuje více krabičkových grafů současně a porovnává se tak: jeden statistický znak u různých souborů nebo více statistických znaků u téhož souboru

Příklad krabičkového grafu + + + + + x min x 25 x x 75 x max

Kvantil Kvantil je hodnota, která rozděluje statistický soubor na dvě části: jedna část obsahuje hodnoty, které jsou menší nebo rovny než tento kvantil druhá část obsahuje hodnoty, které jsou větší nebo rovny než tento kvantil Při hledání kvantilu je třeba soubor uspořádat podle velikosti.

Kvantil - upřesnění Kvantil je hodnota v souboru určená tak, že: hodnoty, které jsou menší nebo stejné tvoří určitou stanovenou část rozsahu souboru (např. 1%,15%, 50%, 90%) hodnoty, které jsou větší nebo stejné tvoří zbývající část rozsahu souboru (např. 99%,85%, 50%, 10%)

Kvantil - definice Kvantil proměnné x, který odděluje p % malých hodnot proměnné x od (1 p)% velkých hodnot proměnné x, označujeme x p a a nazýváme p% kvantilem proměnné x.

Medián medián je 50 % kvantil medián dělí soubor na dvě stejné části medián označujeme x má-li soubor lichý rozsah, je mediánem hodnota konkrétní prostřední statistické jednotky má-li soubor sudý rozsah, je mediánem průměr ze 2 prostředních statistických jednotek

Kvantilové soustavy kvartily hodnoty, které dělí uspořádaný statistický soubor na čtyři části, přičemž každá obsahuje 25% jednotek decily - hodnoty, které dělí uspořádaný statistický soubor na deset částí, přičemž každá obsahuje 10% jednotek percentily - hodnoty, které dělí uspořádaný statistický soubor na sto částí, přičemž každá obsahuje 1% jednotek

Kvartily dolní kvartil x 25, odděluje čtvrtinu nejnižších jednotek prostřední kvartil = medián x rozděluje soubor na dvě stejné části horní kvartil x 75, odděluje tři čtvrtiny nejnižších jednotek

Decily Decily dělí statistický soubor na deset částí a je jich devět. Značení x 10, x 20,, x 90 : x 10 odděluje 10% nejnižších hodnot souboru od zbývajících 90% hodnot souboru x 20 odděluje 20% nejnižších hodnot souboru od zbývajících 80% hodnot souboru x 90 odděluje 90% nejnižších hodnot souboru od zbývajících 10% hodnot souboru

Percentily Percentily dělí statistický soubor na sto částí a je jich devadesát devět. Značení x 1, x 2,, x 99 : x 1 odděluje 1% nejnižších hodnot souboru od zbývajících 99% hodnot souboru x 2 odděluje 2% nejnižších hodnot souboru od zbývajících 98% hodnot souboru x 99 odděluje 99% nejnižších hodnot souboru od zbývajícího 1% hodnot souboru

Výpočet kvantilů z intervalového x p = z p n 1 n 2 h p + a p, kde rozdělení četností z p = n p + 0,5 je pořadové číslo jednotky, jejíž 100 hodnota je hledaným kvantilem, n je rozsah souboru, n 1 je kumulativní četnost prvků ležících před kvantilovým intervalem (intervalem, v němž leží hledaný kvantil, n 2 je četnost kvantilového intervalu, h p je délka kvantilového intervalu, a p je dolní mez kvantilového intervalu.

Výpočet mediánu z intervalového rozdělení četností Z údajů uvedených v následující tabulce vypočtěte medián. Čistý peněžní příjem na osobu Počet domácností Kumulativní četnosti méně než 6000 12 12 6 001 až 8 000 14 26 8 001 až 10 000 35 61 10 001 až 12 000 14 75 12 001 14 000 18 93 více než 14 001 7 100 Celkem 100 -----

n = 100 p = 50 z p = n p 50 + 0,5 = 100 + 0,5 = 50,5 100 100 kvantilový interval: 8 001 až 10 000 n 1 =26 n 2 =35 h p =2000 a p =8001 x p = z p n 1 n 2 h p + a p = 50,5 26 2000 + 8001 = 9401 35

Charakteristiky statistického souboru Klíčové pojmy: Míry úrovně statistického souboru, aritmetický, harmonický a geometrický průměr, medián, modus, absolutní a relativní míry variability, variační rozpětí, rozptyl, směrodatná odchylka, kvantilové odchylky, variační koeficient

Charakteristiky statistického souboru Charakteristiky shrnují informaci obsaženou ve zjištěných údajích o statistickém znaku a vyjadřují ji v koncentrované formě. Rozlišujeme: charakteristiky úrovně (polohy) charakteristiky variability šikmost (asymetrie) špičatost (exces)

Charakteristiky úrovně (polohy) úroveň se měří pomocí různých středních hodnot střední hodnoty počítané ze všech jednotek statistického souboru průměry (aritmetický, harmonický, geometrický) střední hodnoty počítané pouze z některých jednotek statistického souboru modus, medián

Aritmetický průměr Aritmetický průměr je základní mírou úrovně statistického znaku, počítá se vždy. Vyskytují-li se v souboru extrémní hodnoty nebo je rozdělení zešikmené, je vhodné aritmetický průměr doplnit mediánem a modem. x = kde n i=1 n x i, n je rozsah souboru, x i jsou hodnoty statistického znaku pro i = 1, n.

Vážený aritmetický průměr Jsou-li hodnoty statistického znaku uspořádány do tabulky rozdělení četností, počítáme aritmetický průměr podle vztahu: x = kde k i=1 k i=1 n i x i n i n je rozsah souboru,, n i jsou četnosti variant znaku x i pro i = 1, k. Četnosti n i udávají váhu (důležitost) varianty znaku x i.

Příklad vážený aritmetický průměr Vypočítejte průměrnou známku z matematiky pro soubor 40 studentů, jsou-li známky jednotlivých studentů uspořádány do následující tabulky rozdělení četností: Známka x i Počet studentů n i 1 5 2 15 3 20 celkem 40

Řešení: Tabulku doplníme o další sloupec: Známka x i Počet studentů n i x i n i 1 5 5 2 15 30 3 20 60 celkem 40 95 x = k i=1 k i=1 n i x i n i = 95 40 = 2,375

Výpočet váženého aritmetického průměru z intervalového rozdělení jsou-li všechny intervaly ohraničené, nahradíme je jejich středy jsou-li krajní intervaly otevřené, považujeme je buď za stejně široké jako bezprostředně následující (předcházející) nebo je ohraničíme minimální, resp. maximální hodnotou souboru, výpočet provádíme podle vztahu pro vážený aritmetický průměr, kde středy intervalů považujeme za varianty znaku.

Harmonický průměr Harmonický průměr je definován jako podíl rozsahu souboru a součtu převrácených hodnot znaku: x H = n 1, n i=1 x i kde n je rozsah souboru, x i jsou hodnoty statistického znaku pro i = 1, n. Použití harmonického průměru je v praxi omezené.

Geometrický průměr Geometrický průměr je definován jako n-tá odmocnina ze součinu hodnot znaku: kde x G = n je rozsah souboru, n x 1 x 2 x n, x i jsou hodnoty statistického znaku pro i = 1, n. Aplikace geometrického průměru je v praxi omezené, používá se např. při výpočtu průměrného tempa růstu časové řady.

Míry variability měří proměnlivost statistického znaku mají význam při posuzování vypovídací schopnosti aritmetického průměru čím je variabilita větší, tím je vypovídací schopnost aritmetického průměru nižší Rozlišujeme: absolutní míry variability relativní míry variability

Absolutní míry variability charakterizují variabilitu statistického souboru v absolutní velikosti měří variabilitu ve stejných jednotkách, v nichž je vyjádřen statistický znak Mezi absolutní míry variability patří: variační rozpětí rozptyl směrodatná odchylka kvantilové odchylky

Variační rozpětí Variační rozpětí je definováno jako rozdíl největší a nejmenší hodnoty statistického znaku: R = x max x min, kde x max je největší hodnota znaku, x min je nejmenší hodnota znaku. Výhoda: snadný výpočet a jednoduchá interpretace. Nevýhoda: může být zkresleno extrémními hodnotami, nevypovídá nic o variabilitě hodnot uvnitř souboru.

Rozptyl Rozptyl je definován je definován jako průměr čtverců (druhých mocnin) odchylek jednotlivých hodnot znaku od jejich aritmetického průměru: kde s x 2 = n je rozsah souboru, n i=1 x i x 2 x i jsou hodnoty statistického znaku pro i = 1, n, x je aritmetický průměr. n

Výpočtový tvar rozptylu s x 2 = x i x 2 n = x i 2 2x x i + nx 2 n = x i 2 2x x i + x x i n = x i 2 x x i n = x 2 2 x = x i 2 n x i n 2

Rozptyl ve váženém tvaru Pro výpočet rozptylu z tabulky rozdělení četností používáme následující vztah: s x 2 = kde k i=1 x i x 2 n i k i=1 n i n je rozsah souboru, x je aritmetický průměr,, n i jsou četnosti variant znaku x i pro i = 1, k.

Příklad Vypočítejte rozptyl známek z matematiky pro soubor 40 studentů, jsou-li známky jednotlivých studentů uspořádány do následující tabulky rozdělení četností: Známka x i Počet studentů n i 1 5 2 15 3 20 celkem 40

Řešení: x = 2,375 (viz předchozí příklad) s x 2 = k i=1 x i x 2 n i k i=1 n i = 1 2,375 2 5 + 2 2,375 2 15 + 3 2,375 2 20 5 + 15 + 20 = 1,375 2 5 + 0,375 2 15 + 0,625 2 20 40 = 1,890625 5 + 0,140625 15 + 0,390625 20 40 = 9,453125 + 2,109375 + 7,8125 40 = 19,375 40 = 0, 484375

Výpočet rozptylu z dílčích rozptylů Předpokládejme, že statistický soubor o rozsahu n je rozdělen na k dílčích podsouborů, kde jsou známy dílčí rozptyly s ix 2, dílčí průměry x i a četnosti i-tého podsouboru n i. Schéma problému je uvedeno v následující tabulce:

Dílčí soubor č. Hodnoty znaku x ij Dílčí průměry x i Dílčí rozptyly s ix 2 Dílčí četnosti n i 1 x 11, x 12, x 1j,, x 1n1 x 1 s 1x 2 n 1 2 x 21, x 22, x 2j,, x 2n2 x 2 s 2x 2 n 2 i x i1, x i2, x ij,, x ini x i s ix 2 n i k x k1, x k2, x kj,, x knk x k s kx 2 n k Součet -------- --- ----- n

rozptyl celého souboru = rozptyl dílčích průměrů + průměr dílčích rozptylů s x 2 = s x 2 + s 2, kde s x 2 = s x 2 = k i=1 k i=1 n i j=1 k i=1 n i x ij x x i x 2 n i k i=1 n i 2 je celkový rozptyl, (měří meziskupinovou variabilitu), s 2 = k i=1 k i=1 n i s ix 2 n i je meziskupinový rozptyl je průměr dílčích rozptylů (měří vnitroskupinovou variabilitu).

Příklad Obchodní organizace odebírá určitý výrobek od dvou dodavatelů A a B. Cena výrobku v průběhu roku sezónně kolísá. Průměrná cena výrobku za celý rok od dodavatele A je 9 Kč, její směrodatná odchylka 2 Kč. Obchodní organizace nakoupila od dodavatele A 1000 kusů výrobku. Cena výrobku od dodavatele B je 10 Kč se směrodatnou odchylkou 1 Kč. Obchodní organizace nakoupila od dodavatele B 4000 kusů výrobku. Zjistěte, zda se na celkové variabilitě nákupní ceny více podílí sezónní kolísání cen výrobku u jednotlivých dodavatelů nebo jsou důležitější rozdíly mezi průměrnými cenami jednotlivých dodavatelů.

Řešení: x 1 = 9 x 2 = 10 s 2 1x = 2 2 = 4 s 2 2x = 1 2 = 1 n 1 = 1000 n 2 = 4000 1000 9 + 4000 10 x = 5000 = 9,8 s x 2 = s x 2 + s 2 s x 2 = 2 i=1 x i x 2 n i 2 i=1 n i = 9 9,8 2 1000+ 10 9,8 2 4000 5000 (meziskupinová variabilita) = 640+160 5000 = 0,16

s 2 = 2 i=1 2 i=1 n i s ix 2 n i = 4 1000+1 4000 5000 (vnitroskupinová variabilita) = 1,6 Závěr: Na celkové variabilitě se více podílí sezónní kolísání cen výrobku u jednotlivých dodavatelů.

Směrodatná odchylka Nevýhoda rozptylu: je vyjádřen ve čtvercích použité měrné jednotky obtížná interpretace. Proto je definována směrodatná odchylka: s x = s x 2 Výhoda: je vyjádřena ve stejných měrných jednotkách jako zkoumaný statistický znak. Interpretace směrodatné odchylky: většina hodnot souboru se nachází v intervalu x s x 2 ; x + s x 2.

Kvantilové odchylky Kvantilové odchylky počítáme jako aritmetický průměr kladných odchylek sousedních kvantilů. Kvartilová odchylka (kvartilové rozpětí) Q = x 75 x + x x 25 = x 75 x 25 2 2 Decilová odchylka (decilové rozpětí) D = x 90 x 80 + x 80 x 70 + + x 20 x 10 8 = x 90 x 10 8 Percentilová odchylka (percentilové rozpětí) P = x 99 x 98 + x 98 x 97 + + x 2 x 1 98 = x 99 x 1 98

Relativní míry variability užívají se pro srovnání variability statistických znaků, které se liší úrovní znaků a jsou vyjádřeny v různých měrných jednotkách měří variabilitu v poměru k úrovni statistického znaku jsou to bezrozměrná čísla

Variační koeficient Variační koeficient je definován jako poměr směrodatné odchylky a aritmetického průměru: V x = s x, x kde s x je směrodatná odchylka, x je aritmetický průměr. Variační koeficient je bezrozměrné číslo. Jeho stonásobek udává variabilitu v %, variační koeficient vyšší než 50% svědčí o značné nestejnorodosti statistického souboru.

Zpracování dat z výběrových šetření

Odhady charakteristik základního souboru Klíčové pojmy: Bodový a intervalový odhad, spolehlivost odhadu, dvoustranný, pravostranný a levostranný interval spolehlivosti, bodový a intervalový odhad průměru základního souboru, bodový a intervalový odhad rozptylu základního souboru, bodový a intervalový odhad relativní četnosti určité varianty znaku v základním souboru,

Odhady charakteristik základního souboru k charakteristikám základního souboru existují ve výběrovém souboru příslušné protějšky - výběrové charakteristiky neboli statistiky, výběrové charakteristiky jsou náhodné veličiny, neznámou charakteristiku ZS odhadneme pouze jedním číslem (bodový odhad) nebo intervalem (intervalový odhad). intervalové odhady jsou více používané v praxi

Intervalové odhady Odhad charakteristiky základního souboru provádíme pomocí intervalu G d ; G h, který bude s danou pravděpodobností obsahovat skutečnou hodnotu odhadované charakteristiky G základního souboru. Tato pravděpodobnost se nazývá spolehlivost odhadu a značí se 1 α a interval nazveme 100 1 α % intervalem spolehlivosti. Platí P G d < G < G h = 1 α

Interval spolehlivosti čím je spolehlivost odhadu vyšší, tím je daný odhad spolehlivější, ale tím větší (širší) je příslušný interval, a tedy odhad je méně přesný nejčastěji volíme α = 0,05 ( α = 0, 01 ) a konstruujeme 95% (99%) intervaly spolehlivosti konstruujeme jednostranné (pravostranné či levostranné) nebo dvoustranné intervaly spolehlivosti.

Dvoustranný interval spolehlivosti konstruujeme interval G d ; G h určujeme jej tak, aby platilo: P G d < G < G h = 1 α P G G d = P G G h = α 2

Pravostranný interval je dána pouze horní mez G h konstruujeme interval ; G h určujeme jej tak, aby platilo: P G < G h = 1 α P G G h =α

Levostranný interval je dána pouze dolní mez G d konstruujeme interval G h ; určujeme jej tak, aby platilo: P G > G d = 1 α P G G d =α

Statistické tabulky Pro konstrukci intervalů spolehlivosti a testování hypotéz jsou potřebné statistické tabulky: tabulka s hodnotami kvantilů normovaného normálního rozdělení u p tabulka s hodnotami kvantilů χ p 2 rozdělení χ 2 o ν stupních volnosti tabulka s hodnotami kvantilů t p rozdělení t o ν stupních volnosti

Kvantily normovaného normálního rozdělení u P P u P P u P P u P P u P 0,50 0,000 0,75 0,674 0,950 1,645 0,975 1,960 0,51 0,025 0,76 0,706 0,951 1,655 0,976 1,977 0,52 0,050 0,77 0,739 0,952 1,665 0,977 1,995 0,53 0,075 0,78 0,772 0,953 1,675 0,978 2,014 0,54 0,100 0,79 0,806 0,954 1,685 0,979 2,034 0,55 0,126 0,80 0,842 0,955 1,695 0,980 2,054 0,56 0,151 0,81 0,878 0,956 1,706 0,981 2,075 0,57 0,176 0,82 0,915 0,957 1,717 0,982 2,097 0,58 0,202 0,83 0,954 0,958 1,728 0,983 2,120 0,59 0,228 0,84 0,994 0,959 1,739 0,984 2,144 0,60 0,253 0,85 1,036 0,960 1,751 0,985 2,170 0,61 0,279 0,86 1,080 0,961 1,762 0,986 2,197 0,62 0,305 0,87 1,126 0,962 1,774 0,987 2,226 0,63 0,332 0,88 1,175 0,963 1,787 0,988 2,257 0,64 0,358 0,89 1,227 0,964 1,799 0,989 2,290 0,65 0,385 0,900 1,282 0,965 1,812 0,990 2,326 0,66 0,412 0,905 1,311 0,966 1,825 0,991 2,366 0,67 0,440 0,910 1,341 0,967 1,838 0,992 2,409 0,68 0,468 0,915 1,372 0,968 1,852 0,993 2,457 0,69 0,496 0,920 1,405 0,969 1,866 0,994 2,512 0,70 0,524 0,925 1,440 0,970 1,881 0,995 2,576 0,71 0,553 0,930 1,476 0,971 1,896 0,996 2,652 0,72 0,583 0,935 1,514 0,972 1,911 0,997 2,748 0,73 0,613 0,940 1,555 0,973 1,927 0,998 2,878 0,74 0,643 0,945 1,598 0,974 1,943 0,999 3,090 Pro P < 0,5 jsou hodnot dány vztahem u P = u 1 P

Hodnoty kvantilů normovaného normálního rozdělení Kvantily vyhledáváme v tabulce pro požadované α, hodnoty jsou tabelovány pro α 0, 5. Pro α < 0, 5 platí: u α = u 1 α Např. je-li α = 0,05, pak u 1 α = u 0,95 = 1,645 u α = u 0,05 = u 0,95 = 1,645 u α 1 = u 0,975 = 1, 96 uα 2 2 = u 0,975 = 1, 96

Hodnoty kvantilů normovaného Je-li α = 0,01, normálního rozdělení pak u 1 α = u 0,99 = 2,326 u α = u 0,01 = u 0,99 = 2,326 u α 1 = u 0,995 = 2,576 uα 2 2 = u 0,005 = 2,576

Kvantily χ P 2 rozdělení χ 2 o ν stupních volnosti 1. část ν P 0,0005 0,001 0,005 0,01 0,025 0,05 0,10 1 0,0 6 393 0,0 5 157 0,0 4 393 0,0 3 157 0,0 3 982 0,0 2 393 0,0158 2 0,0 2 100 0,0 2 200 0,0100 0,0201 0,0506 0,103 0,211 3 0,0153 0,0243 0,0717 0,115 0,216 0,352 0,584 4 0,0639 0,0908 0,207 0,297 0,484 0,711 1,06 5 0,158 0,210 0,412 0,544 0,831 1,15 1,61 6 0,299 0,381 0,676 0,872 1,24 1,64 2,20 7 0,485 0,598 0,989 1,24 1,69 2,17 2,83 8 0,710 0,857 1,34 1,65 2,18 2,73 3,49 9 0,972 1,15 1,73 2,09 2,70 3,33 4,17 10 1,26 1,48 2,16 2,56 3,25 3,94 4,87 11 1,59 1,83 2,60 3,05 3,82 4,57 5,58 12 1,93 2,21 3,07 3,57 4,40 5,23 6,30 13 2,31 2,62 3,57 4,11 5,01 5,89 7,04 14 2,70 3,04 4,07 4,66 5,63 6,57 7,79 15 3,11 3,48 4,60 5,23 6,26 7,26 8,55 16 3,54 3,94 5,14 5,81 6,91 7,96 9,31 17 3,98 4,42 5,70 6,41 7,56 8,67 10,1 18 4,44 4,90 6,26 7,01 8,23 9,39 10,9 19 4,91 5,41 6,84 7,63 8,91 10,1 11,7 20 5,40 5,92 7,43 8,26 9,59 10,9 12,4 21 5,90 6,45 8,03 8,90 10,3 11,6 13,2 22 6,40 6,98 8,64 9,54 11,0 12,3 14,0 23 6,92 7,53 9,26 10,2 11,7 13,1 14,8 24 7,45 8,08 9,89 10,9 12,4 13,8 15,7 25 7,99 8,65 10,5 11,5 13,1 14,6 16,5 26 8,54 9,22 11,2 12,2 13,8 15,4 17,3 27 9,09 9,80 11,8 12,9 14,6 16,2 18,1 28 9,66 10,4 12,5 13,6 15,3 16,9 18,9 29 10,2 11,0 13,1 14,3 16,0 17,7 19,8 30 10,8 11,6 13,8 15,0 16,8 18,5 20,6

Kvantily χ P 2 rozdělení χ 2 o ν stupních volnosti 2. část ν P 0,90 0,95 0,975 0,99 0,995 0,999 0,9995 1 2,71 3,84 5,02 6,63 7,88 10,8 12,1 2 4,61 5,99 7,38 9,21 10,6 13,8 15,2 3 6,25 7,81 9,35 11,3 12,8 16,3 17,7 4 7,78 9,49 11,1 13,3 14,9 18,5 20,0 5 9,24 11,1 12,8 15,1 16,7 20,5 22,1 6 10,6 12,6 14,4 16,8 18,5 22,5 24,1 7 12,0 14,1 16,0 18,5 20,3 24,3 26,0 8 13,4 15,5 17,5 20,1 22,0 26,1 27,9 9 14,7 16,9 19,0 21,7 23,6 27,9 29,7 10 16,0 18,3 20,5 23,2 25,2 29,6 31,4 11 17,3 19,7 21,9 24,7 26,8 31,3 33,1 12 18,5 21,0 23,3 26,2 28,3 32,9 34,8 13 19,8 22,4 24,7 27,7 29,8 34,5 36,5 14 21,1 23,7 27,1 29,1 31,3 36,1 38,1 15 22,3 25,0 27,5 30,6 32,8 37,7 39,7 16 23,5 26,3 28,8 32,0 34,3 39,3 41,3 17 24,8 27,6 30,2 33,4 35,7 40,8 42,9 18 26,0 28,9 31,5 34,8 37,2 42,3 44,4 19 27,2 30,1 32,9 36,2 38,6 43,8 46,0 20 28,4 31,4 34,2 37,6 40,0 45,3 47,5 21 29,6 32,7 35,5 38,9 41,4 46,8 49,0 22 30,8 33,9 36,8 40,3 42,8 48,3 50,5 23 32,0 35,2 38,1 41,6 44,2 49,7 52,0 24 33,2 36,4 39,4 43,0 45,6 51,2 53,6 25 34,4 37,7 40,6 44,3 46,9 52,6 54,9 26 35,6 38,9 41,9 45,6 48,3 54,1 56,4 27 36,7 40,1 43,2 47,0 49,6 55,5 57,9 28 37,9 41,3 44,5 48,3 51,0 56,9 59,3 29 39,1 42,6 45,7 49,6 52,3 58,3 60,7 30 40,3 43,8 47,0 50,9 53,7 59,7 62,2

Hodnoty kvantilů χ 2 rozdělení Kvantily vyhledáváme v tabulce pro požadované α a příslušný počet stupňů volnosti ν. Hodnoty pro ν > 30 nejsou tabelovány, provádí se aproximace pomocí kvantilů normovaného normálního rozdělení: χ α 2 ν = 1 2 u α + 2ν 1 2 Např. χ 0,95 2 41 = 1 2 1,645 + 2 41 1 2 = 56,658 χ 0,025 2 20 = 9,59 χ 0,975 2 20 = 34,2

Kvantily t P rozdělení t o ν stupních volnosti ν P 0,90 0,95 0,975 0,99 0,995 1 3,078 6,314 12,706 31,821 63,657 2 1,886 2,920 4,303 6,965 9,925 3 1,638 2,353 3,182 4,541 5,841 4 1,533 2,132 2,776 3,747 4,604 5 1,476 2,015 2,571 3,365 4,032 6 1,440 1,943 2,447 3,143 3,707 7 1,415 1,895 2,365 2,998 3,499 8 1,397 1,860 2,306 2,896 3,355 9 1,383 1,833 2,262 2,821 3,250 10 1,372 1,812 2,228 2,764 3,169 11 1,363 1,796 2,201 2,718 3,106 12 1,356 1,782 2,179 2,681 3,055 13 1,350 1,771 2,160 2,650 3,012 14 1,345 1,716 2,145 2,624 2,977 15 1,341 1,753 2,131 2,602 2,943 16 1,337 1,746 2,120 2,583 2,921 17 1,333 1,740 2,110 2,567 2,898 18 1,330 1,734 2,101 2,552 2,878 19 1,328 1,729 2,093 2,539 2,861 20 1,325 1,725 2,086 2,528 2,845 21 1,323 1,721 2,080 2,518 2,831 22 1,321 1,717 2,074 2,508 2,819 23 1,319 1,714 2,069 2,500 2,807 24 1,318 1,711 2,064 2,492 2,797 25 1,316 1,708 2,060 2,485 2,787 26 1,315 1,706 2,056 2,479 2,779 27 1,314 1,703 2,052 2,473 2,771 28 1,313 1,701 2,048 2,467 2,763 29 1,311 1,699 2,045 2,462 2,756 Pro P < 0,5 jsou hodnoty dány vztahem t P = t 1 P

Hodnoty kvantilů t rozdělení Kvantily vyhledáváme v tabulce pro požadované α a příslušný počet stupňů volnosti ν, hodnoty jsou tabelovány pro ν 0, 5. Pro α < 0, 5 platí: t α ν = t 1 α ν Pro ν > 30 nejsou hodnoty kvantilů t α tabelovány, nahrazujeme je kvantily u α. t 0,95 20 = 1,725 t 0,05 20 = t 0,95 20 = 1,725

Bodový odhad průměru základního souboru Bodovým odhadem průměru základního souboru je výběrový průměr. Je-li n rozsah výběrového souboru a x i pro i = 1,, n hodnoty výběrového souboru, pak výběrový průměr vypočteme podle následujícího vztahu: x = n i=1 n x i,

Oboustranný interval spolehlivosti pro průměr základního souboru x u α 1 2 kde s x n ; x + u 1 α 2 s x n, x je výběrový průměr, je kvantil normovaného normálního u 1 α 2 rozdělení, s x = n i=1 n 1 x i x 2 je výběrová směrodatná odchylka, n je rozsah výběrového souboru.

Oboustranný interval spolehlivosti pro střední hodnotu při výběru z x t 1 α 2 normálního rozdělení s x n ; x + t 1 α 2 s x n, kde x je výběrový průměr, n je rozsah výběrového souboru, t 1 α 2 volnosti, s x = je kvantil t rozdělení o n 1 stupních odchylka. n i=1 n 1 x i x 2 je výběrová směrodatná

Pravostranný interval spolehlivosti pro průměr základního souboru ; x + u 1 α s x n, kde x je výběrový průměr, u 1 α je kvantil normovaného normálního rozdělení, s x = n i=1 n 1 x i x 2 je výběrová směrodatná odchylka, n je rozsah výběrového souboru.

Levostranný interval spolehlivosti pro průměr základního souboru x u 1 α s x n ;, kde x je výběrový průměr, u 1 α je kvantil normovaného normálního rozdělení, s x = n i=1 n 1 x i x 2 je výběrová směrodatná odchylka, n je rozsah výběrového souboru.

Příklad Z velké zásilky součástek jsme náhodným výběrem vybrali 400 a zjistili jejich průměrnou délku 116 mm a směrodatnou odchylku 4,081 mm. a) Určete 95% dvoustranný interval spolehlivosti pro průměrnou délku přejímaných součástek v celé zásilce. b) Stanovte mez, kterou průměrná délka součástek nepřesáhne s 95% pravděpodobností. c) Určete 99% dvoustranný interval spolehlivosti pro průměrnou délku přejímaných součástek v celé zásilce.

Řešení a): základní soubor: celá zásilka, výběrový soubor má rozsah n = 400, výběrový průměr: x = 116, výběrová směrodatná odchylka: s x =4,081, pro 95% interval spolehlivosti je α = 0,05 a kvantil normovaného normálního rozdělení u 1 α 2 = u 0,975 =1,96. Výběrový soubor má dostatečně velký rozsah, proto pro odhad průměrné délky součástek v celé zásilce použijeme dvoustranný interval spolehlivosti: x u 1 α 2 s x n ; x + u 1 α 2 s x n

x u 1 α 2 = 116 1,96 4,081 400 s x n ; x + u 1 α 2 = 115,6; 116,4 s x n = ; 116 + 1,96 4,081 400 = Se spolehlivostí 95% lze očekávat, že průměrná délka přejímaných součástek bude ležet v intervalu od 115,6 mm do 116,4 mm.

Řešení b): n = 400, x = 116, s x =4,081, α = 0,05, u 1 α = u 0,95 =1,645. Budeme konstruovat pravostranný 95% interval spolehlivosti: ; x + u 1 α s x n

s ; x + u x 1 α n = ; 116,336 = ; 116 + 1,645 4,081 400 S pravděpodobností 95% nepřesáhne délka přejímaných součástek 116,336 mm. Řešení c): n = 400, x = 116, s x =4,081, α = 0,01, u 1 α 2 = u 0,995 =2,576.

Pro odhad průměrné délky přejímaných součástek použijeme dvoustranný interval spolehlivosti: x u 1 α 2 = 116 2,576 4,081 400 s x n ; x + u 1 α 2 = 115,47; 116,53 s x n = ; 116 + 2,576 4,081 400 = Ve srovnání s 95% intervalem spolehlivosti je tento interval širší, což demonstruje už dříve zmíněnou skutečnost, že rostoucí spolehlivostí odhadu klesá přesnost odhadu.

Bodový odhad rozptylu základního souboru Bodovým odhadem rozptylu základního souboru je výběrový rozptyl. Je-li n rozsah výběrového souboru a x i pro i = 1,, n hodnoty výběrového souboru, x výběrový průměr, pak výběrový rozptyl vypočteme podle následujícího vztahu: s x 2 = n x i x 2 i=1 n 1

Oboustranný interval spolehlivosti pro rozptyl základního souboru n 1 s x 2 χ 2 1 α 2 ; n 1 s x 2 χ 2 α 2, kde n je rozsah výběrového souboru, s x 2 je výběrový rozptyl, χ 2 1 α 2, χ2 α 2 jsou kvantily χ 2 rozdělení o ν = n 1 stupních volnosti.

Pravostranný interval spolehlivosti pro rozptyl základního souboru ; n 1 s x 2 χ 2 α kde n je rozsah výběrového souboru, s x 2 je výběrový rozptyl, χ 2 α je kvantil χ2 rozdělení o ν = n 1 stupních volnosti.

Levostranný interval spolehlivosti pro rozptyl základního souboru n 1 s x 2 χ 2 1 α ;, kde n je rozsah výběrového souboru, s x 2 je výběrový rozptyl, χ 2 1 α je kvantil χ2 rozdělení o ν = n 1 stupních volnosti.

Příklad Při hodnocení přesnosti práce výrobního zařízení bylo provedeno 25 nezávislých měření délek vyrobených součástek a zjištěn rozptyl těchto délek 36. Zkonstruujte 95% interval spolehlivosti pro odhad rozptylů délek všech součástek vyrobených daným zařízením.

Řešení: základní soubor: všechny součástky vyrobené daným zařízením, výběrový soubor má rozsah n = 25, výběrový rozptyl : s 2 x =36, pro 95% interval spolehlivosti je α = 0,05 a kvantily χ 2 rozdělení o ν = n 1 = 24 stupních volnosti χ 2 1 α ν = χ2 2 0,975 24 =39,4, χ 2 α ν = χ 2 2 0,025 24 =12,4. Pro odhad rozptylu délek všech součástek vyrobených daným zařízením použijeme dvoustranný interval: n 1 s x 2 χ 2 1 α 2 ; n 1 s x 2 χ 2 α 2.

2 n 1 s x ; χ 2 1 α 2 = 24 36 39,4 n 1 s x 2 χ 2 α 2 = ; 24 36 12,4 = = 21,93; 69,68 Se spolehlivostí 95% se rozptyl délek všech součástek vyrobených daným zařízením pohybuje v intervalu od 21,93 do 69,68.

Bodový odhad relativní četnosti základního souboru Bodovým odhadem relativní četnosti určité varianty znaku v základního souboru je výběrová relativní četnost. Je-li n rozsah výběrového souboru a n i počet jednotek se sledovanou variantou znaku ve výběrovém souboru, pak výběrovou relativní četnost vypočteme podle následujícího vztahu: p = n i n

Oboustranný interval spolehlivosti pro relativní četnost základního souboru p u 1 α 2 p 1 p n ; p + u 1 α 2 p 1 p kde p je výběrová relativní četnost, je kvantil normovaného normálního u 1 α 2 rozdělení, n je rozsah výběrového souboru. n,

Pravostranný interval spolehlivosti pro relativní četnost základního souboru ; p + u 1 α p 1 p kde p je výběrová relativní četnost, u 1 α je kvantil normovaného normálního rozdělení, n je rozsah výběrového souboru. n,

Levostranný interval spolehlivosti pro relativní četnost základního souboru p u 1 α s x n ;, kde p je výběrová relativní četnost, u 1 α je kvantil normovaného normálního rozdělení, n je rozsah výběrového souboru.

Příklad Při kontrole záručních listů určitého druhu výrobku ve skladě bylo náhodně vybráno 320 výrobků a zjištěno, že 59 jich má prošlou záruční lhůtu. a) Stanovte 95% interval spolehlivosti pro odhad procenta výrobků s prošlou záruční lhůtou ve skladu daného podniku. b) Jaký je nejmenší podíl výrobků s prošlou záruční lhůtou, uvažujeme-li spolehlivost 95%.

Řešení a): základní soubor: všechny výrobky určitého druhu ve skladu, výběrový soubor má rozsah n = 320, počet výrobků s prošlou záruční lhůtou: n i =59, výběrová relativní četnost : p = 59 =0,184, 320 pro 95% interval spolehlivosti je α = 0,05 a kvantil normovaného normálního rozdělení u 1 α 2 = u 0,975 =1,96. Pro odhad procenta výrobků s prošlou záruční lhůtou ve skladu podniku použijeme dvoustranný interval spolehlivosti: p u 1 α 2 p 1 p n ; p + u 1 α 2 p 1 p n,

p u 1 α 2 p 1 p n ; p + u 1 α 2 p 1 p n = 0,184 1,96 = 0,142; 0,226 0,184 1 0,184 320 ; 0,184 + 1,96 0,184 1 0,184 320 Se spolehlivostí 95% se procento výrobků s prošlou záruční lhůtou ve skladu podniku pohybuje mezi 14,2% a 22,6%.

Řešení b): n = 320, n i =59, p = 59 320 =0,184, pro 95% interval spolehlivosti je α = 0,05 a kvantil normovaného normálního rozdělení u 1 α = u 0,95 =1,645. Pro odhad nejmenšího podílu výrobků s prošlou záruční lhůtou ve skladu podniku použijeme levostranný interval spolehlivosti: p u 1 α s x n ;

p u 1 α s x n ; = 0,184 1,645 0,184 1 0,184 320 ; = 0,1484 S 95% spolehlivostí lze očekávat, že podíl výrobků s prošlou záruční lhůtou nebude menší než 14,84%.

Testování statistických hypotéz

Testování statistických hypotéz Klíčové pojmy: Nulová a alternativní hypotéza, dvoustranná, pravostranná a levostranná hypotéza, chyby prvního a druhého druhu, hladina významnosti, testové kritérium, kritický obor, test hypotézy o průměru, test hypotézy o rozptylu, test hypotézy o relativní četnosti

Statistická hypotéza Statistickou hypotézou rozumíme určitý předpoklad o parametrech nebo tvaru rozdělení základního souboru. Na základě vyčerpávajícího šetření základního souboru bychom byli schopni rozhodnout o správnosti nebo nesprávnosti hypotézy. Většinou však máme k dispozici jen hodnoty výběrového souboru. Proces ověřování správnosti nebo nesprávnosti hypotézy pomocí výsledků získaných náhodným výběrem nazveme testováním hypotéz.

Nulová a alternativní hypotéza Předpoklad vyslovený o určité charakteristice základního souboru nazveme nulovou hypotézou a značíme ji H 0. Proti nulové hypotéze stavíme alternativní hypotézu, která popírá platnost nulové hypotézy, značíme H 1.

Formulace hypotéz Předpokládejme, že chceme testovat průměr základního souboru. Nulovou hypotézu definujeme následovně: H 0 : μ = μ 0 (průměr μ základního souboru se rovná konkrétní hodnotě μ 0 ). Proti nulové hypotéze vymezíme alternativní hypotézu H 1, která má jeden z následujících tvarů: H 0 : μ μ 0 dvoustranná hypotéza H 0 : μ > μ 0 pravostranná hypotéza H 0 : μ < μ 0 levostranná hypotéza

Chyby při testování Při testování vyvozujeme závěry z údajů získaných náhodným výběrem můžeme se dopustit chybného závěru: zamítneme-li nulovou hypotézu H 0 i když ve skutečnosti platí, dopustíme se chyby prvního druhu, pravděpodobnost této chyby označíme α, přijmeme-li hypotézu H 0, i když ve skutečnosti platí H 1, dopustíme se chyby druhého druhu, její pravděpodobnost označíme β a pravděpodobnost pravděpodobnost testu. 1 β se nazývá síla

Postup testování volba hladiny významnosti formulace hypotéz volba testového kritéria a výpočet jeho hodnoty sestrojení kritického oboru formulace výsledků testu

Volba hladiny významnosti Předem volíme pevnou pravděpodobnost chyby 1. druhu, tzv. hladinu významnosti, nejčastěji α = 0,05. Testovací potup je odvozen tak, aby při dané hladině významnosti zajišťoval minimální pravděpodobnost chyby druhého druhu, tedy maximální sílu testu.

Formulace hypotéz formulujeme dvojici hypotéz: nulovou hypotézu H 0 a alternativní hypotézu H 1 nulová hypotéza má nejčastěji tvar rovnice týkající se některého parametru rozdělení studovaného znaku to, co chceme testem prokázat, formulujeme jako alternativní hypotézu

Volba testového kritéria Popis standardního testu uvádí, jaké testové kritérium má být použito. Testové kritérium je statistika, tedy funkce náhodného výběru. Množinu hodnot, kterých může testové kritérium nabývat, nazveme výběrovým prostorem, výběrový prostor se skládá ze dvou podprostorů: podprostor obsahující hodnoty svědčící ve prospěch H 0 - tzv. obor přijetí podprostor obsahující hodnoty svědčící ve prospěch H 1 - tzv. kritický obor

Sestrojení kritického oboru Pro sestrojení kritického oboru potřebujeme znát rozdělení testového kritéria při platnosti hypotézy H 0. Kritickými hodnotami, které oddělují kritický obor, jsou kvantily rozdělení testového kritéria při platnosti H 0, které nalezneme ve statistických tabulkách.

Formulace výsledku testu leží-li hodnota testového kritéria v kritickém oboru, přijímáme hypotézu H 1, neseme 100α% riziko nesprávnosti tohoto výroku neleží-li hodnota testového kritéria v kritickém oboru, zamítáme hypotézu H 1

Test hypotézy o průměru Chceme ověřit předpoklad, že průměr základního souboru μ se rovná určité hodnotě μ 0. Formulujeme hypotézy: Nulová hypotéza: H 0 : μ = μ 0 Alternativní hypotéza: H 1 : μ μ 0 nebo H 1 : μ > μ 0 nebo H 1 : μ < μ 0

Testové kritérium výběr dostatečně velkého rozsahu Pro výběry dostatečně velkého rozsahu má testové kritérium tvar: U = x μ 0, sx n kde x je výběrový průměr, μ 0 je předpokládaná hodnota průměru, s x je výběrová směrodatná odchylka, n je rozsah výběrového souboru. Testové kritérium U má při platnosti H 0 normované normální rozdělení.

Kritické obory Má-li alternativní hypotéza tvar H 0 : μ μ 0, pak kritickým oborem je interval: ; uα 2 u 1 α 2 ; Má-li alternativní hypotéza tvar H 0 : μ > μ 0, pak kritickým oborem je interval: u 1 α ; Má-li alternativní hypotéza tvar H 0 : μ < μ 0, pak kritickým oborem je interval: ; u α

Testové kritérium výběr malého rozsahu Pro výběry malého rozsahu, kdy základní soubor má alespoň přibližně normální rozdělení, má testové kritérium tvar: t = x μ 0, sx n kde x je výběrový průměr, s x je výběrová směrodatná odchylka, n je rozsah výběrového souboru. Testové kritérium t má při platnosti H 0 t rozdělení o ν = n 1 stupních volnosti.

Kritické obory Má-li alternativní hypotéza tvar H 0 : μ μ 0, pak kritickým oborem je interval: ; tα 2 t 1 α 2 ; Má-li alternativní hypotéza tvar H 0 : μ > μ 0, pak kritickým oborem je interval: t 1 α ; Má-li alternativní hypotéza tvar H 0 : μ < μ 0, pak kritickým oborem je interval: ; t α

Příklad Výrobce garantuje, že jím vyrobené žárovky mají životnost 1000 hodin. Aby útvar kontroly zjistil, že tomuto konstatování odpovídá i v daném období vyrobená a expedovaná část produkce, vybral z připravené dodávky náhodně 50 žárovek a došel k závěru, že průměrná doba životnosti je 950 hodin a směrodatná odchylka doby životnosti pak 100 hodin. Je možné zjištěný rozdíl doby životnosti ve výběru připsat náhodě nebo je známkou nekvality produkce?

Řešení: základní soubor tvoří všechny vyrobené žárovky, výběrový soubor má rozsah n = 50, výběrový průměr: x = 950, výběrová směrodatná odchylka: s x =100, volíme hladinu významnosti α = 0,05. Formulace hypotéz: H 0 : μ = 1000 H 1 : μ < 1000 Testové kritérium (výběr má dostatečně velký rozsah): U = x μ 0, sx n

U = x μ 0 sx n = 950 1000 100 50 =-3,55 Kritický obor: ; u α = ; u 0,05 = ; 1,645 Hodnota testového kritéria se nachází v kritickém oboru, přijímáme tedy hypotézu H 1. Závěr: Na hladině významnosti 5 % jsme prokázali, že zjištěný rozdíl doby životnosti je známkou nekvality produkce.

Test hypotézy o rozptylu Chceme ověřit předpoklad, že rozptyl základního souboru σ 2 se rovná určité hodnotě σ 0 2. Formulujeme hypotézy: Nulová hypotéza: Alternativní hypotéza: H 0 : σ 2 = σ 0 2 H 1 : σ 2 σ 0 2 nebo H 1 : σ 2 > σ 0 2 nebo H 1 : σ 2 =< σ 0 2

Testové kritérium χ 2 = n 1 s x 2, σ 2 0 kde n je rozsah výběrového souboru, s 2 x je výběrový rozptyl, 2 σ 0 je předpokládaná hodnota rozptylu. Testové kritérium χ 2 má při platnosti H 0 χ 2 rozdělení o ν = n 1 stupních volnosti.

Kritické obory Má-li alternativní hypotéza tvar H 0 : σ 2 = σ 0 2, pak kritickým oborem je interval: ; χα 2 2 χ 1 α 2 2 ; Má-li alternativní hypotéza tvar H 0 : σ 2 > σ 0 2, pak kritickým oborem je interval: χ 1 α 2 ; Má-li alternativní hypotéza tvar H 0 : σ 2 < σ 0 2, pak kritickým oborem je interval: ; χ α 2

Příklad Automat vyrábí pístové kroužky o daném průměru. Výrobce udává že směrodatná odchylka průměru kroužků je 0,05 mm. K ověření této informace bylo náhodně vybráno 80 kroužků a vypočtena směrodatná odchylka jejich průměrů 0,04 mm. Lze tento rozdíl považovat za významný ve smyslu zlepšení kvality produkce? Volte hladinu významnosti 5%.

Řešení: základní soubor tvoří všechny vyrobené pístové kroužky, výběrový soubor má rozsah n = 80, výběrová směrodatná odchylka: s x =0,04, volíme hladinu významnosti α = 0,05. Formulace hypotéz: H 0 : σ 2 = 0,0025 H 1 : σ 2 < 0,0025 Testové kritérium: χ 2 = n 1 s x 2 σ 0 2,

χ 2 = n 1 s x 2 σ 0 2 = 79 0,0016 0,0025 =50,56 Kritický obor: ; χ 2 α n 1 = ; χ 2 0,05 79 Pro ν > 30 použijeme pro odhad kvantilu χ 2 0,05 79 aproximaci χ 2 α ν = 1 2 u α + 2ν 1 2 χ 0,05 2 79 = 1 2 u 0,05 + 2 79 1 2 χ 0,05 2 79 = 59,24 ; 59,24

Hodnota testového kritéria se nachází v kritickém oboru, přijímáme tedy na hladině významnosti α = 0,05 hypotézu H 1. Závěr: Na hladině významnosti 5 % jsme prokázali, že došlo ke zlepšení kvality produkce.

Test hypotézy o relativní četnosti Chceme ověřit předpoklad, že relativní četnost π určité varianty znaku v základním souboru se rovná určité hodnotě π 0. Formulujeme hypotézy: Nulová hypotéza: H 0 : π = π 0 Alternativní hypotéza: H 1 : π π 0 nebo H 1 : π > π 0 nebo H 1 : π < π 0

Testové kritérium Pro výběry dostatečně velkého rozsahu má testové kritérium tvar: U = p π 0 π0 1 π0 n kde, p je výběrová relativní četnost, π 0 je předpokládaná hodnota relativní četnosti základního souboru, n je rozsah výběrového souboru. Testové kritérium U má při platnosti H 0 normované normální rozdělení.

Kritické obory Má-li alternativní hypotéza tvar H 0 : π π 0, pak kritickým oborem je interval: ; uα 2 u 1 α 2 ; Má-li alternativní hypotéza tvar H 0 : π > π 0, pak kritickým oborem je interval: u 1 α ; Má-li alternativní hypotéza tvar H 0 : π < π 0, pak kritickým oborem je interval: ; u α

Příklad Zjistěte, zda se při zavádění nové technologie výroby nezvýšil podíl zmetků. Při dosavadním způsobu výroby byl tento podíl 8%. Pro testování bylo náhodně vybráno 200 výrobků, mezi nimi bylo zjištěno 23 zmetků. Volte hladinu významnosti 5%.