Deskriptivní statistika 1



Podobné dokumenty
Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

Pravděpodobnost a aplikovaná statistika

P2: Statistické zpracování dat

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

13 Popisná statistika

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Popisná statistika. Zdeněk Janák 9. prosince 2007

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

6. P o p i s n á s t a t i s t i k a

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

12. N á h o d n ý v ý b ě r

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Odhady parametrů 1. Odhady parametrů

7. P o p i s n á s t a t i s t i k a

Elementární zpracování statistického souboru

11. P o p i s n á s t a t i s t i k a

vají statistické metody v biomedicíně

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

(Teorie statistiky a aplikace v programovacím jazyce Visual Basic for Applications)

2 STEJNORODOST BETONU KONSTRUKCE

STATISTIKA PRO EKONOMY

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

Pravděpodobnostní modely

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

z možností, jak tuto veličinu charakterizovat, je určit součet

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

1 ROVNOMĚRNOST BETONU KONSTRUKCE

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Dynamická pevnost a životnost Statistika

Pravděpodobnost a statistika - absolutní minumum

Přednášky část 7 Statistické metody vyhodnocování dat

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Tento projekt je spolufinancován Evropským sociálním fondem a Státním rozpočtem ČR InoBio CZ.1.07/2.2.00/

Závislost slovních znaků

STATISTIKA. Základní pojmy

8. Základy statistiky. 8.1 Statistický soubor

Náhodný výběr 1. Náhodný výběr

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

Doc. Ing. Dagmar Blatná, CSc.

Pravděpodobnost a aplikovaná statistika

4.2 Elementární statistické zpracování Rozdělení četností

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Mendelova univerzita v Brně Statistika projekt

Intervalové odhady parametrů některých rozdělení.

Co je to statistika? Statistické hodnocení výsledků zkoušek. Úvod statistické myšlení. Úvod statistické myšlení. Popisná statistika

2 EXPLORATORNÍ ANALÝZA

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

NEPARAMETRICKÉ METODY

n=1 ( Re an ) 2 + ( Im a n ) 2 = 0 Im a n = Im a a n definujeme předpisem: n=1 N a n = a 1 + a a N. n=1

1. Základy počtu pravděpodobnosti:

Statistika pro metrologii

OVMT Přesnost měření a teorie chyb

Národní informační středisko pro podporu jakosti

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

4. Základní statistické pojmy.

17. Statistické hypotézy parametrické testy

Úloha III.S... limitní

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

STATISTIKA PRO EKONOMY

1. Rozdělení četností a grafické znázornění Předpokládejme, že při statistickém šetření nás zajímá jediný statistický znak x, který nabývá

Zhodnocení přesnosti měření

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství. Matematika IV. Semestrální práce

Číselné charakteristiky náhodných veličin

10.3 GEOMERTICKÝ PRŮMĚR

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

Iterační metody řešení soustav lineárních rovnic

2. Náhodná veličina. je konečná nebo spočetná množina;

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Úvod do zpracování měření

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

Statistické metody ve veřejné správě ŘEŠENÉ PŘÍKLADY

2.4. INVERZNÍ MATICE

8. Analýza rozptylu.

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

4. B o d o v é o d h a d y p a r a m e t r ů

Cvičení 3 - teorie. Teorie pravděpodobnosti vychází ze studia náhodných pokusů.

Interval spolehlivosti pro podíl

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

6. Posloupnosti a jejich limity, řady

3. Charakteristiky a parametry náhodných veličin

Transkript:

Deskriptiví statistika 1 1 Tyto materiály byly vytvořey za pomoci gratu FRVŠ číslo 1145/2004.

Základí charakteristiky souboru Pro lepší představu používáme k popisu vlastostí zkoumaého jevu určité charakteristiky - statistiky. Statistikami zde rozumíme jistá čísla, která jsou ositeli důležitých iformací o zkoumaých jevech. Způsob jejich zjišt ováí je jedozačě dá. Pro veličiu v měřítku alespoň ordiálím, lze vytvořit uspořádaý soubor z původího euspořádaého souboru o velikosti takto: x (1) x (2) x (l) x (). Pak lze sado zjistit maximum či miimum Miimum: x mi = x (1) (1) Maximum: Charakteristiky polohy - úrově x max = x () (2) Míry polohy charakterizují obecou úroveň (polohu) hodot statistického zaku. Tyto statistiky lze dělit a průměry a ostatí středí hodoty. Prví a ejčastěji používaou charakteristikou je všeobecě zámý aritmetický průměr. Te je defiová takto: x = 1 x i, (3) jeho vážeá variata x = 1 k x i i, (4) kde i jsou absolutí četosti v jedotlivých k třídách. Jedotlivé hodoty x i, jsou bud hodoty zaku (v případě prostého tříděí) ebo středy itervalů (v případě itervalového tříděí). Další míry polohy, řadící se mezi průměry, jsou harmoický a geometrický průměr. Ty jsou defiováy po řadě takto: x H = 1 x i (5) x G = x i. (6) Další charakteristikou je apř. kvadratický průměr defiovaý jako x K = 1 x 2 i. (7) 1

Kvatil Velmi důležitým pojmem ve statistické teorii je pojem kvatilu. Je defiová ásledově: 100P %-ím kvatilem x P statistického zaku X je takové vhodě zvoleé číslo, pro které platí že 100P % hodot zaku je meších ež x P a 100(1 P )% hodot zaku je větších ež toto číslo. Mezi ejpoužívaější kvatily patří: dolí kvartil x 25, mediá x 50 a horí kvartil x 75. Tyto tři kvatily rozdělují uspořádaou řadu dat a zhruba čtyři části s přibližě stejými rozsahy. Ve statistické praxi se lze setkat i s decily ebo percetily. Ostatí středí hodoty Při charakterizováí souboru se ěkdy s výhodou používá tzv. mediá, který udává prostředí hodotu souboru. Jde o tzv. robustí charakteristiku. V uspořádaém souboru x (1) x (2) x (l) x () musí počet meších ebo stejých hodot jako mediá čiit alespoň tolik, jako počet hodot větších či stejých jako mediá. Použití mediáu přichází v úvahu již u ordiálí stupice. Mediá lze defiovat takto: x 50 = { x( +1 2 ) liché, 1 2 (x ( 2 ) + x ( 2 +1) ) sudé. V případě itervalového tříděí dat elze staovit mediá přesě. V takovém případě lze s jistotou staovit pouze mediáový iterval, tj. iterval ve kterém mediá leží. Hodotu mediáu pak staovíme lieárí iterpolací. (8) x 50 = x 0 + +1 2 j 1 i j h, (9) kde x 0 je dolí mez mediáového itervalu, j je četost mediáového itervalu, h délka mediáového itervalu a j 1 i je kumulativí četost itervalů, předcházející mediáový iterval. Modem souboru je hodota ˆx, která se v souboru ejčastěji opakuje, tj. má ejvětší četost. Z tohoto hlediska lze rozezávat uimodálí, bimodálí a multimodálí soubory. Pokud je soubor itervalově třídě, pak elze určit modus přesě. Přesě lze staovit pouze modálí, tj. ejčetější iterval. Přibližou hodotu modu uřčíme v tomto případě dle vzorce ˆx = ˆx 0 + h 2 1 1 2 0 1 1, (10) kde 1 a 1 jsou četosti itervalu který předchází resp. ásleduje za modálím itervalem. Délka a četost modálího itervalu je ozačea po řadě symboly h a 0. Sřed modálího itervalu je ozače symbolem ˆx 0. Pro získáí základí představy o rozložeí studovaého souboru zpravidla stačí uvést x, ˆx, x 25, x 75 a hodotu max a mi, v případě multimodálího rozděleí pak i jedotlivá maxima souboru. Pro úplost lze dodat, že hodota modu je 2

začě ovlivěa variabilitou zaku a to zejméa při meších rozsazích výběrů. U jedovrcholových rozděleí platí přibližě vztah Průměrá chyba ˆx = 3 x 50 2 x. (11) Průměrá chyba byla zavedea jako protiklad směrodaté odchylky a základě přesvědčeí, že je vhodější měřit variabilitu hodot a základě aritmetického průměru odchylek spíše ež a základě kvadratického průměru. Průměrá chyba d vypočteá z řady hodot x 1, x 2,, x je defiováa jako d = x i x. (12) Míry variability Další důležitou vlastostí, kterou je třeba umět charakterizovat, je variabilita dat. Míry variability určitým způsobem charakterizují promělivost hodot. Míry variability jsou v podstatě dvojího typu. Prví z ich se počítají pouze z ěkterých hodot Druhá skupia aopak vychází ze všech hodot obsažeých ve studovaém souboru. -20 0 10 30 47 26 37 7 14 46 12 3 16 18 25 36 2915 5 31 39 8 4 11 26 9 19 20 30 32 23 1 22 35 38 4241 43 44 45 48 24 17 13 10 27 40 34 28 2149 33 50-10 -5 0 5 10 15 x -20 0 10 30 21 49 33 17 27 10 28 24 13 30 8 32 34 20 48 1 6 4 19 43 23 2 5 9 22 41 42 45 35 31 11 29 15 25 3 12 16 39 18 14 46 36 7 47 26 50 40 38 44 37-4 -2 0 2 4 x -20 0 10 30 33 50 21 49 28 13 24 2710 40 8 32 17 34 42 20 30 45 41 9 11 48 43 64 23 35 44 38 19 31 5 1 2 22 15 3 1629 39 12 14 36 25 37 46 18 7 26 47-3 -2-1 0 1 2 x 3

Rozpětí Je ejjedodušší mírou variability. Jde o prví typ měr variability. Kvartilové rozpětí R = x max x mi (13) Je defiováo jako rozdíl mezi horím a dolím kvartilem tj.: R q = x 75 x 25. (14) Takto defiovaé rozpětí vychází z cca 50% typických zaků sledovaého souboru. Rozptyl Je jedou z ejdůležitějších charakteristik variability dat. Je defiová jako aritmetický průměr čtverců odchylek od aritmetického průměru. Z hlediska jeho kostrukce pozezáváme rozptyl prostý a vážeý. Dále rozptyl prostý výběrový a rozptyl vážeý výběrový. σ 2 = 1 N N (x i µ) 2 (15) Směrodatá odchylka σ 2 = 1 N k (x i µ) 2 i (16) s 2 = 1 1 σ 2 = 1 1 (x i x) 2 (17) k (x i x) 2 i (18) Vzhledem k tomu, že je rozptyl špatě iterpretovatelý, používá se při charakterizováí rozptýleosti dat spíše směrodatá odchylka. Ta je defiováa jako druhá odmocia rozptylu, tj.: a výběrová směrodatá odchylka σ = σ 2 (19) s = s 2. (20) 4

Variačí koeficiet Je relativí mírou variability a vyjadřuje se ejčastěji v procetech. Používáme jej při porováváí variability statistických zaků které se liší z hlediska míry polohy ebo mají odlišé měré jedotky. Variačí koeficiet udává z kolika procet se podílí směrodatá odchylka a aritmetickém průměru. V X = σ µ. (21) Obdobě pak i pro výběrovou formu variačího koeficietu jako V X = s x. (22) Etropie U veliči s omiálím měřítkem elze použít klasických charakteristik k posouzeí variability dat. V takovém případě lze použít apříklad tzv. etropii defiovaou vzorcem m i H = l i. (23) Etropie dosahuje vysokých hodot, pokud jsme apozorovali moho růzých hodot (maximálích hodot pak, pokud jsme pozorovali m růzých hodot a četosti jsou pro jedotlivé kategorie stejé). Naopak ulové hodoty abývá etropie v případě, že 1 =, tj. všecha pozorováí jsou stejá, eí mezi imi žádá variabilita. Míry šikmosti a špičatosti Šikmost Pokud pozorovaá data zormalizujeme tj. provedeme jejich trasformaci tak, že mají ulovou středí hodotu a rozptyl rový jedé, pak je lze využít k výpočtu třetího a čtvrtého cetrálího mometu. Ty se azývají šikmosti a špičatostí. ( ) 3 xi µ (24) µ 3 = 1 z 3 i = 1 σ Šikmost vyjadřuje symetričost sledovaého rozděleí kolem průměré hodoty. Je-li pozorováo více malých hodot v porováí s vysokými hodotami, pak je šikmost kladá. Je-li aopak převaha vysokých hodot v porováí s malými hodotami, tj. po zázorěí histogramu má rozděleí souboru protáhlý levý koec, je šikmost záporá. Špičatost Jde o čtvrtý cetrálí momet. Tato statistika představuje relativí strmost či plochost rozděleí četostí v porováí s ormálím rozděleím četostí. 5

Kladá špičatost zameá, že se ve sledovaém souboru vyskytují spíše data kocetrovaá kolem středí hodoty. ( ) 4 xi µ (25) µ 4 = 1 z 4 i = 1 σ Šičatost je občas defiováa růzě. Například MS Excel ji počítá ásledově: { } ( + 1) z 4 3( 1)2 i ( 1)( 2)( 3) ( 2)( 3). (26) 6