Přednáška 5. Výběrová šetření, Exploratorní analýza



Podobné dokumenty
Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

Matematická statistika

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Statistika pro geografy

MÁME DATA A CO DÁL? Martina Litschmannová

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Nejčastější chyby v explorační analýze

VŠB Technická univerzita Ostrava

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Manuál pro zaokrouhlování

Metodologie pro ISK II

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Zápočtová práce STATISTIKA I

Aplikovaná statistika v R

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Základy pravděpodobnosti a statistiky. Popisná statistika

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Metodologie pro Informační studia a knihovnictví 2

Základy statistiky pro obor Kadeřník

Analýza dat na PC I.

Robust ledna 5. února 2010, Králíky

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Funkce a vzorce v Excelu

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Metodologie pro Informační studia a knihovnictví 2

Drsná matematika IV 7. přednáška Jak na statistiku?

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

Lineární programování

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Popisná statistika. Statistika pro sociology

Praktická statistika. Petr Ponížil Eva Kutálková

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

Teoretická rozdělení

Základní statistické charakteristiky

Poznámky k předmětu Aplikovaná statistika, 9.téma

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Příklad bezprostředně navazuje na předchozí příklad č. 17. Bez zvládnutí příkladu č. 17 není možné pokračovat

Analýza dat s využitím MS Excel

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

JAK MODELOVAT VÝSLEDKY

Základy popisné statistiky

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Základy teorie pravděpodobnosti

Analýza výsledků testu čtenářské gramotnosti v PRO /11

Popisná statistika. Komentované řešení pomocí MS Excel

Pomůcka pro cvičení: 3. semestr Bc studia

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Statistika - charakteristiky variability

PŘÍKLAD NA TŘÍDĚNÍ PODLE JEDNOHO SPOJITÉHO ČÍSELNÉHO ZNAKU. INTERVALOVÉ ROZDĚLENÍ ČETNOSTI

STATISTICKÉ CHARAKTERISTIKY

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

zcela převažující druh průměru, který má uplatnění při řešení téměř všech úloh statistiky široké využití: v ekonomických

PRAVDĚPODOBNOST A STATISTIKA

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení


6. T e s t o v á n í h y p o t é z

PROJEKT DO STATISTIKY PRŮZKUM V TECHNICKÉ MENZE

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

4ST201 STATISTIKA CVIČENÍ Č. 8

Dynamické metody pro predikci rizika

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

2 EXPLORATORNÍ ANALÝZA

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Mendelova zemědělská a lesnická univerzita v Brně Institut celoživotního vzdělávání Fakulta regionálního rozvoje a mezinárodních studií

Popisná statistika kvantitativní veličiny

Zpracování a vyhodnocování analytických dat

Příprava souboru dat a analýza

Transkript:

Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných Popis kategoriální proměnné (číselné charakteristiky, grafy) Popis numerické proměnné (číselné charakteristiky, grafy)

Čím se zabývá teorie pravděpodobnosti? Teorie pravděpodobnosti je matematická disciplína popisující zákonitosti týkající se náhodných jevů, tj. používá se k modelování náhodnosti a neurčitosti. (Náhodnost je spojena s nedostatečnou znalostí počátečních podmínek.)

Čím se zabývá statistika? Rozvíjí znalosti na základě empirických dat. Co je to statistika? Google 196.10 6 odkazů (čeština), 2,88.10 9 odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, ) Český statistický úřad, Real Time Statistics Project Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj syntetizující vlastnosti datových souborů (četnost, průměr, rozptyl, )

Proč je dobré znát (alespoň) základy statistiky? Informace, informace. Ó, data! Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Analýza dat Vyhodnocení Hledání pravdy Zdroj: technet.idnes.cz

Proč je dobré znát (alespoň) základy statistiky? Informace, informace. Ó, data! Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Analýza dat Vyhodnocení Hledání pravdy Zdroj: technet.idnes.cz

Základní pojmy ze statistické metodologie Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. (Statistické) jednotky - prvky populace (Statistické) znaky (proměnné, veličiny) kvantitativní údaje, které u výběrového souboru sledujeme

Základní pojmy ze statistické metodologie úplné šetření statistické zjišťování Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. (Statistické) jednotky - prvky populace (Statistické) znaky (proměnné, veličiny) kvantitativní údaje, které u výběrového souboru sledujeme

Základní pojmy ze statistické metodologie statistické zjišťování Exploratorní (popisná) statistika Jak provádět statistické zjišťování? Pokus (kontrolovaný, znáhodněný, slepý, dvojitě slepý pokus) Šetření (výzkumník do průběhu šetření zasahuje co nejméně)

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika

Statistické šetření Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

Způsoby statistického šetření Vyčerpávající šetření Výběrové šetření Výhody: přesnost a detailnost zjištěných informací Výhody: menší personální, finanční a časová náročnost Nevýhody: personální, finanční a časová náročnost Nevýhody: mírou objektivnosti získaných informací je kvalita provedení výběrového šetření

Výběrové šetření Výběr by měl být reprezentativní tj. odrážet vlastnosti celé populace vzhledem ke sledovaným znakům. Opakem reprezentativního výběru je výběr selektivní (např. vzorek účastnic soutěže MISS ČR, z něhož chceme dělat závěry o váze v české populaci dívek ve věku 17-20 let). Náhodný výběr, tj. výběr, v němž má každá statistická jednotka stejnou pravděpodobnost být zařazena do výběru. Reprezentuje všechny známé i neznámé vlastnosti populace. Umožňuje odhadnout velikost chyby, která je způsobena výběrovým šetřením. Opora (rámec) výběru technická dokumentace umožňující výběr stat. jednotek do výběru.

Metody náhodného výběru prostý náhodný výběr losováním, pomocí tabulek náhodných čísel systematický výběr založen na předem známém uspořádání populace (riziko souvislosti uspořádání s analyzovaným znakem), vybíráme každý k. prvek. oblastní (stratifikovaný) výběr populace rozdělena do heterogenních podskupin, v jejichž rámci je prováděn prostý náhodný, resp. systematický výběr. skupinový výběr populace je rozdělena do rovnocenných podskupin, tj. variabilita mezi podskupinami musí být co nejmenší. Poté je proveden prostý náhodný výběr podskupiny a následuje její úplné šetření. vícestupňový výběr Založen na hierarchickém popisu jednotek populace (např. krajeměsta-školy).

Další metody výběru Anketa tzv. samovýběr, tj. výběr jedinců je založen na rozhodnutí respondenta odpovědět na anketu nelze definovat populaci, na níž se výsledky vztahují Snowball sampling dotázaní uvádějí kontakt na další jedince vhodné pro výzkum dočasných populací (svědkové události, účastníci akce apod.) Záměrný výběr, tj. výběr založený na expertním stanovisku Metoda základního masivu prošetření velkých a středních jednotek

Exploratorní analýza dat

Typy proměnných Typy proměnných Kvalitativní proměnná (kategoriální, slovní...) Nominální proměnná (nelze uspořádat) Ordinální proměnná (lze uspořádat) Kvantitativní proměnná (numerická, číselná...)

EDA pro kategoriální veličinu

Kategoriální veličina nominální (nemá smysl uspořádání) (např. Typ SŠ, Barva auta, Pohlaví, )

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty x i Absolutní četnosti n i Relativní četnosti p i x 1 n 1 p 1 =n 1 /n x 2 n 2 p 2 =n 2 /n x k n k p k =n k /n Celkem: n 1 +n 2 + +n k =n 1 + Modus (název nejčetnější varianty)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti [%] Muž 457 58,2 Žena 328 41,8 Celkem: 785 100,0 Modus = Muž

Grafické znázornění A) Sloupcový graf (bar chart) Počet 25 20 15 10 5 0 Výborně Chvalitebně Prospěl Neprospěl můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-ha010218663.aspx

Grafické znázornění A) Sloupcový graf (bar chart) Počet 20 15 10 5 0

Grafické znázornění A) Sloupcový graf (bar chart) Počet 20 15 10 5 0

Grafické znázornění A) Sloupcový graf (bar chart) Počet 20 15 10 5 0

Grafické znázornění A) Sloupcový graf (bar chart) Počet 20 15 10 5 0

Grafické znázornění A) Sloupcový graf (bar chart) Počet 20 15 10 5 0

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých sloupců.

Produkce CO2 [kg] na osobu Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? 25000 Sloupcový graf 20000 15000 10000 5000 USA ČR 0 1993 2007 zdroj dat: http://en.wikipedia.org/wiki/list_of_countries_by_carbon_dioxide_emissions_per_capita

Grafické znázornění A) Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých sloupců. Nadbytečné názvy grafu, legendy, Neefektivní nuly A na co ještě?

Produkce CO2 [tun] na osobu (% roku 1993) Produkce CO2 [tun] na osobu 25 20 15 10 5 0 20 18 16 14 12 10 1993 2007 1993 2007 USA Který ČR z grafů je správný? USA ČR 120% 100% 80% 60% 40% 20% 0% 1993 2007 USA ČR 100% 98% 96% 94% 92% 90% 1993 2007 USA ČR

Grafické znázornění B) Výsečový graf koláčový graf (pie chart) 7; 17% 5; 12% 5; 12% 10; 24% Výborně 7; 17% Výborně 10; 24% Chvalitebně Prospěl Chvalitebně Prospěl Neprospěl Neprospěl 20; 47% 20; 47%

Grafické znázornění B) Výsečový graf koláčový graf (pie chart) 7; 17% 5; 12% 5; 12% 10; 24% Výborně 7; 17% Výborně 10; 24% Chvalitebně Prospěl Chvalitebně Prospěl Neprospěl Neprospěl 20; 47% 20; 47%

Grafické znázornění B) Výsečový graf koláčový graf (pie chart) Na co si dát pozor?

Anketa Jste pro navýšení hodinové dotace Statistiky? TAKHLE NE!!!

Grafické znázornění B) Výsečový graf koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v blízkosti grafu Nadbytečné názvy grafu

Výskyt krevních skupin a Rh faktoru v USA Krevní Rh faktor skupina Rh+ Rh- Celkem 0 38 7 45 A 34 6 40 B 9 2 11 AB 3 1 4 Celkem 84 16 100

Grafické znázornění B) Výsečový graf koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v blízkosti grafu Nadbytečné názvy grafu, legendy, Ne vždy je graf přehlednější než tabulka A na co ještě?

6; 3% 32; 15% Srozumitelnost výkladu 1; 0% 114; 53% 64; 29% Hodnocení 1 Hodnocení 2 Hodnocení 3 Hodnocení 4 Hodnocení 5 2; 1% Srozumitelnost řešených příkladů 37; 17% 103; 47% 0; 0% 76; 35% Hodnocení 1 Hodnocení 2 Hodnocení 3 Hodnocení 4 Hodnocení 5 Množství řešených příkladů 15; 7% 1; 0% 48; 22% 80; 37% 73; 34% Hodnocení 1 Hodnocení 2 Hodnocení 3 Hodnocení 4 Hodnocení 5 Užitečnost úloh k samostatné práci 5; 2% 0; 0% 34; 16% 96; 44% 82; 38% Hodnocení 1 Hodnocení 2 Hodnocení 3 Hodnocení 4 Hodnocení 5 3; 1% Praktické aplikace 18; 9% 81; 39% 75; 36% 31; 15% Hodnocení 1 Hodnocení 2 Hodnocení 3 Hodnocení 4 Hodnocení 5 8; 4% 5; 2% Grafická úprava 25; 11% 92; 42% 89; 41% Hodnocení 1 Hodnocení 2 Hodnocení 3 Hodnocení 4 2 grafy ještě chybí Hodnocení 5

Hodnocení modulu PRA (220 respondentů) Dostatečnost textu 66 85 55 63 Míra používání textu 76 67 52 23 1 Grafická úprava 89 92 25 8 5 Praktické aplikace 31 75 81 18 3 Užitečnost úloh k samostatné práci 82 96 34 5 Množství řešených příkladů 73 80 48 15 1 Srozumitelnost řešených příkladů 76 103 37 2 Srozumitelnost výkladu 64 114 32 61 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 100% skládaný pruhový graf

Grafické znázornění B) Výsečový graf koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v blízkosti grafu Nadbytečné názvy grafu, legendy, Ne vždy je graf přehlednější než tabulka Jediná věc je horší než výsečový graf několik nebo dokonce mnoho výsečových grafů Van Belle

Kategoriální proměnná ordinální (má smysl uspořádání) (např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, )

Seřazené podle velikosti Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty x i Absolutní četnosti n i Relativní četnosti p i Kumulativní četnosti m i Kumulativní relativní četnosti F i x 1 n 1 p 1 =n 1 /n n 1 p 1 x 2 n 2 p 2 =n 2 /n n 1 +n 2 p 1 +p 2 x k n k p k =n k /n n 1 +n 2 + +n k =n p 1 +p 2 + +p k =1 Celkem: n 1 +n 2 + +n k =n 1 ---- ---- + Modus

Číselné charakteristiky Míra nezaměstnanosti TABULKA ROZDĚLENÍ ČETNOSTI Absolutní četnosti Relativní četnosti [%) Kumulativní četnosti Kumulativní relativní četnosti [%) nízká 27 13,6 27 13,6 střední 146 73,7 173 87,4 vysoká 25 12,6 198 100,0 Celkem: 198 100,0 Modus = střední

Grafické znázornění A) Sloupcový graf (bar chart) B) Výsečový graf koláčový graf (pie chart)

EDA pro numerická data

Číselné charakteristiky A) Míry polohy (úrovně) B) Míry variability

Míry polohy

Aritmetický průměr x n i 1 n x i

1. Průměrný věk 20 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde. Změní se průměrný věk osob v místnosti? Pokud ano, jaký je nový průměrný věk osob v místnosti?

Aritmetický průměr x n i 1 n x i Pozor na ošidnost aritmetického průměru!

Jeden člověk sní celé kuře, druhý nic. V průměru měl každý půlku kuřete, takže se oba dobře najedli.??? Průměr slouží k získání charakteristik velkého souboru objektů, ale ne k popisu jednotlivých objektů z tohoto souboru.

Předpokládejme, že v malé vesnici žije 6 lidí, jejichž roční příjem byl: $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Jaký je jejich průměrný plat? ($31 830) Do vesničky se přistěhoval Bill Gates (roční příjem $40 000 000) Jaký je nyní průměrný plat obyvatel vesnice? ($5 741 571)

Aritmetický průměr x n i 1 n x Na co si dát pozor? Průměr není rezistentní vůči odlehlým pozorováním! Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Circular Statistics Toolbox i

2. Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50 1 370 prodáno 300 24 000 zůstalo

2. Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50 1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo

2. Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50 1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo

2. Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50 1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo 700 1370 480 = 890 890 x 1, 27 700 kg

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná 5 km. A B C D AB BC CD Dráha [km] 5 5 5 Rychlost [km/h] 40 50 60

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná 5 km. A B C D AB BC CD Dráha [km] 5 5 5 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná 5 km. A B C D AB BC CD AD Dráha [km] 5 5 5 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná 5 km. A B C D AB BC CD AD Dráha [km] 5 5 5 15 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60 5/40 + 5/50 + 5/60 15 3 x 48, 7 5 5 5 1 1 1 40 50 60 40 50 60 km/ h

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a) vzdálenost všech úseků je stejná 5 km. A B C D AB BC CD AD Dráha [km] 5 5 5 15 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60 5/40 + 5/50 + 5/60 15 3 x 48, 7 5 5 5 1 1 1 40 50 60 40 50 60 km/ h Harmonický průměr

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,60AD Rychlost [km/h] 40 50 60

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60 Čas [h] 0,15AD/40 0,25AD/50 0,60AD/60

3. Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD AD Dráha [km] 0,15AD 0,25AD 0,60AD AD Rychlost [km/h] 40 50 60 Čas [h] 0,15AD/40 0,25AD/50 0,60AD/60 AD 1 x 53, 3 015, AD 0, 25AD 0, 60AD 015, 0, 25 0, 60 40 50 60 40 50 60 km/ 0,15AD/40 + 0,25AD/50 + 0,60AD/60 h Vážený harmonický průměr

4. Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Cena akcie [Kč] 13. března 952,50 14. března? 15. března 982,0

4. Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Cena akcie [Kč] Koeficient růstu 13. března 952,50 14. března??/952,5 15. března 982,0 982,0/? Průměrný denní relativní přírůstek ceny akcie byl 1,5%. x? 982, 0 952, 5? 982, 0 952, 5 1015, Geometrický průměr

Výběrové kvantily 100p %-ní kvantil x p odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

Význačné výběrové kvantily Kvartily Dolní kvartil x 0,25 Medián x 0,5 Horní kvartil x 0,75 Decily x 0,1 ; x 0,2 ;... ; x 0,9 Percentily x 0,01 ; x 0,02 ; ; x 0,03 Minimum x min a Maximum x max

Jak se výběrové kvantily určují? Jedna z používaných metod: 1. Výběrový soubor uspořádáme podle velikosti. 2. Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 3. 100p%- ní kvantil je roven hodnotě proměnné s pořadím z p, kde z p = np + 0,5. 4. Není-li z p celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím z p a z p.

5. V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%] 8,7 7,8 6,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8 z p = np + 0,5

5. V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%] MN [%] (seřazeno) 8,7 4,9 7,8 6,8 6,8 6,8 6,8 6,8 7,8 6,8 9,7 7,8 15,7 7,8 6,8 8,7 4,9 9,7 6,8 16 z p = np + 0,5 z 0,3 = 10 0,3 + 0,5 = 3,5

5. V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%] MN [%] (seřazeno) 8,7 4,9 7,8 6,8 6,8 6,8 6,8 6,8 7,8 6,8 9,7 7,8 15,7 7,8 6,8 8,7 4,9 9,7 6,8 16 x 0,3 = 6,8 + 6,8 2 = 6, 8 z p = np + 0,5 z 0,3 = 10 0,3 + 0,5 = 3,5

6. Průměrný věk 20 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde. Změní se medián věku osob v místnosti? Pokud ano, jaký je nový medián věku osob v místnosti?

7. Průměrný věk 21 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde. Změní se medián věku osob v místnosti? Pokud ano, jaký je nový medián věku osob v místnosti?

Efekt změny jednotky Jak se změní míry polohy, změníme-li jednotku měřené veličiny (minuty hodiny, metr palec, atd.)? Když přičteme konstantu ke každé hodnotě, tak se průměr i medián změní o tutéž konstantu. Když každou hodnotu násobíme konstantou, průměr i medián jsou násobeny toutéž konstantou.

Míry variability

Výběrový rozptyl s 2 n i 1 x i x n 1 2 Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka s s 2 n i 1 x i x n 1 2

Jakou představu o variabilitě dat nám dává sm. odchylka? Čebyševova nerovnost: k > 0: P μ kσ < X < μ + kσ > 1 1 k 2 k P μ kσ < X < μ + kσ 1 >0 2 >0,75 3 >0,89 k P μ kσ < X < μ + kσ 1 0,682 2 0,954 3 0,998 Empirické pravidlo 3 sigma

Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) V x x s 100 % Čím nižší var. koeficient, tím homogennější soubor. V x > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

Interkvartilové rozpětí IQR = x 0,75 - x 0,25 Užití: např. při identifikaci odlehlých pozorování

Efekt změny jednotky Jak se změní míry variability, změníme-li jednotku měřené veličiny (minuty hodiny, metr palec, atd.)? Když přičteme konstantu ke každé hodnotě, vzdálenosti mezi hodnotami zůstanou zachovány. V důsledku toho se rozptyl ani směrodatná odchylka nezmění. Když každou hodnotu násobíme konstantou, rozptyl je násoben kvadrátem této konstanty (viz definice rozptylu), směrodatná odchylka je násobena danou konstantou.

8. Průměrná roční teplota v Praze je 10,40 C, rozptyl teploty je 0,25 C 2. Určete průměrnou roční teplotu v Praze a její rozptyl ve stupních Fahrenheita. F = 9C 5 + 32 x F = 9 5 x C + 32 = 50,72 F s 2 F 2 = 9 5 2 s 2 C 2 = 0,81 F 2

MAD median absolute deviation from the median, čili česky: medián absolutních odchylek od mediánu pomocná proměnná pro identifikaci odlehlých pozorování Jak jej určíme? 1. Výběrový soubor uspořádáme podle velikosti. 2. Určíme medián souboru. 3. Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu. 4. Absolutní odchylky od mediánu uspořádáme podle velikosti. 5. Určíme medián absolutních odchylek od mediánu, tj. MAD.

Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky... důsledky poruch, chybného měření, technologických chyb... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

Identifikace odlehlých pozorování Metoda vnitřních hradeb x x,5iqr x x 1, 5IQR x je odlehlým pozorování m i 0,25 1 i 0, 75 i Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

Identifikace extrémních pozorování Metoda vnějších hradeb x x IQR x x 3IQR x je extrémním pozorování m i 0, 25 3 i 0, 75 i Dolní mez vnějších hradeb Horní mez vnějších hradeb

9. V předložených datech identifikujte odlehlá pozorování: MN 0,25 =6,8 MN 0,5 =7,3 MN 0,75 =8,7 MN [%] 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 15,7 IQR=MN 0,75 -MN 0,25 =1,9 1,5.IQR=2,85 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

9. V předložených datech identifikujte odlehlá pozorování: MN 0,25 =6,8 MN 0,5 =7,3 MN 0,75 =8,7 MN [%] 4,9 6,8 6,8 6,8 6,8 7,8 7,8 8,7 9,7 15,7 IQR=MN 0,75 -MN 0,25 =1,9 1,5.IQR=2,85 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

Identifikace odlehlých pozorování z-souřadnice z souřadnice i = x i x s Je-li z souřadnice i > 3, je x i odlehlým pozorováním. Zase nový vzorec?

Identifikace odlehlých pozorování z-souřadnice z souřadnice i = x i x s Je-li z souřadnice i > 3, je x i odlehlým pozorováním. Ne, jde jen o jinou podobu pravidla 3σ!

Identifikace odlehlých pozorování x 0,5 -souřadnice x 0,5 souřadnice i = x i x 0,5 1,483MAD Je-li x 0,5 souřadnice i > 3, je x i odlehlým pozorováním.

Míry šikmosti a špičatosti

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.

Výběrová šikmost (standardizovaná) a = n i=1 3 n n 1 n 2 x i x s 3 f(x) f(x) f(x) a < 0 negativně zešikmené rozdělení x < x 0,5 < x x a = 0 symetrické rozdělení x = x 0,5 = x x x a > 0 pozitivně zešikmené rozdělení x > x 0,5 > x obvykle

Výběrová špičatost (standardizovaná) míra koncentrace kolem průměru b = n i=1 4 n n + 1 n 1 n 2 n 3 x i x s 4 3 n 1 2 n 2 n 3 f(x) f(x) f(x) x b < 0 špičatost menší než u norm. rozdělení (plošší rozdělení) b = 0 špičatost odpovídající normálnímu rozdělení x x b > 0 špičatost větší než u norm. rozdělení (špičatější rozdělení)

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g 1, angl. skewness) a špičatost (g 2, angl. kurtosis).

Přesnost číselných charakteristik

Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily ) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [ 0 C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná 1 200 0,78 23,7 odchylka (před zaokrouhlením 1235) Proč je zápis chybný?

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [ 0 C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 Proč je zápis chybný? Různý počet des. míst. 1 200 (před zaokrouhlením 1235)

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [ 0 C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. 1 200 (před zaokrouhlením 1235)

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [ 0 C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná 1 200 0,78 23,7 odchylka (před zaokrouhlením 1235) Nejnižší zapsaný řád 3 platné průměru (jednotky) Různý cifry neodpovídá nejnižšímu Proč je zápis počet des. u zapsanému řádu směrodatné chybný? míst. směrodatné odchylky (stovky)+ směr. odchylky. odch. není zaokrouhlena nahoru.

Oprava Délka [m] Váha [kg] Teplota [ 0 C] Průměr 2,26 127,6 14 567 Medián 2,68 117,8 13 700 Směrodatná 1 200 0,78 23,7 odchylka (před zaokrouhlením 1235) Nejnižší zapsaný řád 3 platné průměru (jednotky) cifry neodpovídá nejnižšímu Proč je zápis u zapsanému řádu směrodatné chybný? směrodatné odchylky (stovky)+ směr. odchylky. odch. není zaokrouhlena nahoru.

Oprava Délka [m] Váha [kg] Teplota [ 0 C] Průměr 2,26 128 14 567 Medián 2,675 118 13 700 Směrodatná 1 200 0,78 24 odchylka (před zaokrouhlením 1235) Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu Proč je zápis zapsanému řádu směrodatné chybný? odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Správný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [ 0 C] Průměr 2,26 127,6 14 600 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 300

Grafické znázornění num. proměnné A.) Krabicový graf (Box plot)

<27,1; 57,2> (57,2; 87,3> (87,3; 117,4> (117,4; 147,4> (147,4; 177,6> <27,1; 36,5> (45,9; 55,3> (64,7; 74,1> (83,5; 92,9> (102,3; 111,7> (121,1; 130,5> (139,9; 149,3> (158,7; 168,1> Grafické znázornění num. proměnné B.) Histogram Četnost 45 40 35 30 25 20 15 10 5 0 Četnost 16 14 12 10 8 6 4 2 0 Na co si dát pozor?

Grafické znázornění num. proměnné B.) Histogram

<27,1; 57,2> (57,2; 87,3> (87,3; 117,4> (117,4; 147,4> (147,4; 177,6> Četnost Grafické znázornění num. proměnné B.) Histogram Četnost 45 40 35 30 25 20 15 10 5 0 30 25 20 15 10 5 0 27,1 43,8 60,6 77,3 94,0 110,7 127,4 144,1 160,8 Další Data MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza Na co si dát pozor?

Souvislost mezi číselnými charakteristikami a grafy V java appletu Výběrové charakteristiky sledujte souvislost mezi číselnými charakteristikami a grafy numerické proměnné.

Zajímavé odkazy k tématu Exploratorní statistika Slovníček pojmů z exploratorní statistiky aneb co by se Vám mohlo hodit při práci se statistickým softwarem v angličtině Interstat sylabus popisné statistiky (nedokončeno) Jak nevytvářet grafy (anglicky) The Evil Tutor s Guide Real Time Statistics Project Projekt Gapminder Circular Statistics Toolbox (Matlab)