Popisá statistika - zavedeí pojmů Popisá statistika - zavedeí pojmů Soubor idividuálích údajů o objektech azýváme základí soubor ebo také populace. Zkoumaé objekty jsou tzv. statistické jedotky a sledujeme u ich vytypovaé vlastosti - statistické zaky (veličiy, parametry atd.), které abývají pozorovatelých hodot ( úroví). Podstatou statistických metod je, že iformace o základím souboru ezjišťujeme u všech jeho jedotek, ale je u ěkterých, které získáme tzv. výběrem. Vedou ás k tomu růzá omezeí, apř. dosažitelost všech jedotek, velký rozsah základího souboru, způsob získáváí iformací (zkoušky životosti, ověřeí opotřebeí atd.), áklady a statistické sledováí a další. Počet vybraých jedotek se azývá rozsah výběru. Dle rozsahu dělíme výběry a malé (obvykle do 30 až 50) a velké (řádově stovky, tisíce i více). Toto děleí je relativí a závisí a okolostech statistického sledováí. Výběr by měl být reprezetativí (poskytovat iformace bez omezeí) a homogeí (bez vlivu dalších růzých faktorů). To však často elze v plé míře verifikovatelě zajistit, a proto obvykle vybíráme statistické jedotky do výběru áhodě, ovšem s rizikem, že výběr může poskytout více či méě zkresleé iformace o základím souboru. Podle způsobu provedeí rozlišujeme výběry: - bez opakováí (každá jedotka může být vybráa ejvýše jedou); - s opakováím (každá jedotka může být vybráa vícekrát); - záměrý (vybíráme typické jedotky); - oblastí (základí soubor rozdělíme a podmožiy a z ich provedeme části výběru); - systematický ebo mechaický (vybíráme vždy ěkolikátou jedotku co do pořadí při realizaci výběru). Hodoty zaku, pozorovaé či zjištěé a statistických jedotkách z výběru o rozsahu, tvoří statistický soubor s rozsahem. Pro jedorozměrý zak X získáme jedorozměrý statistický soubor (x,..., x ), kde x i je pozorovaá hodota zaku X u i té statistické jedotky,i =,...,. Aalogicky pro dvourozměrý zak (X, Y ) obdržíme dvourozměrý statistický soubor ((x, y ),..., (x, y )) apod. Jedorozměrý statistický soubor s kvatitativím zakem Neroztříděý statistický soubor získaý statistický soubor x,... x ). Rozsah statistického souboru počet prvků:. ) Uspořádaý statistický soubor (x (),..., x (), kde x(i) x (i+) pro všechy idexy i. Variačí obor iterval x () ; x () Rozpětí statistického souboru délka variačího oboru: x () x () Při velkém rozsahu statistického souboru ebo z důvodu dalšího zpracováí původí soubor roztřídíme a dále již můžeme pracovat s tímto roztříděým statistickým souborem. Tříděím už zároveň získáváme prví údaje o statistickém souboru. Roztříděý statistický soubor získáme pokrytím variačího oboru systémem disjuktích itervalů (obvykle zleva otevřeých a zprava uzavřeých), tzv. tříd o počtu m, které mají obvykle stejou délku h. Počet tříd m volíme obvykle přibližě + 3, 3 log (pro statistický soubor symetrického charakteru) aebo až 2 (pro statistický soubor asymetrického charakteru). Délka třídy - h x () x () m. Každá třída x j, x j+ je reprezetováa uspořádaou dvojicí ( x j, f j), kde x j je reprezetat j-té třídy a f j je absolutí četost j-té třídy j =,..., m. repreyetat j-té třídy - často se ahrazuje středem j-té třídy x j = x (j)+x (j+) 2 j =,..., m. Při určováí délky třídy bereme ohled a požadavek, aby střed třídy x j byl zaokrouhleé číslo. U diskrétího zaku volíme obvykle za středy tříd přímo hodoty, kterých teto zak může abývat. Absolutí četost j-té třídy f j - počet prvků x i původího eroztříděého statistického souboru, m které leží v j-té třídě (x i x j, x j+ ).Platí f j =. Relativí četost j-té třídy fj.uvádí se též v %. Platí m f j =.
Popisá statistika - zavedeí pojmů 2 Kumulativí absolutí četost F j = j k= f k. Kumulativí relativí četost Fj. Roztříděý statistický soubor zapisujeme do tzv. četostí tabulky pro růzé typy četostí, apř. pro absolutí četosti, viz Tabulka??. x j x... x m f j f... f m Tabulka : Četostí tabulka Pro jedorozměrý roztříděý statistický soubor se v případě spojitého zaku Xužívají ejčastěji ásledující dva typy grafů:. Histogram je soustava obdélíků v kartézské souřadé soustavě, jejichž základy jsou třídy a výšky jsou četosti tříd (absolutí, relativí, kumulativí atd.) 2. Polygo je lomeá čára v kartézské souřadé soustavě spojující body, jejichž x-ová souřadice je střed třídy, příp. horí hraice třídy pro kumulativí četosti a y-ová souřadice je četost třídy.. Příklad Zázorěte pomocí histogarmu a polygou iformace z Tabulky??. Střed třídy - 0 2 3 4 5 6 7 Absolutí četost 0 5 28 48 33 29 8 0 9 Relativí četost 0,05 0,075 0,4 0,24 0,65 0,45 0,09 0,05 0,045 Kumulativí absolutí četost 0 25 53 0 34 63 8 9 200 Kumulativí relativí četost 0,05 0,25 0,265 0,505 0,67 0,85 0,905 0,955 Tabulka 2: Četostí tabulka k Příkladu?? Řešeí Řešeí je vidět a Obrázcích????.
Popisá statistika - zavedeí pojmů 3
Popisá statistika - zavedeí pojmů 4 Výzamé vlastosti statistického souboru vyjadřují v kocetrovaé formě jeho ásledující číselé (empirické) charakteristiky. Jde zejméa o charakteristiky polohy, promělivosti a souměrosti.. Základí charakteristiky polohy Základí charakteristiky polohy statistického souboru jsou:. Aritmetický průměr x = x i pro eroztříděý soubor, m x = f j x j pro roztříděý soubor. Někdy se užívá též vážeý aritmetický průměr w i x i x =, w i kde w i 0 jsou váhy (vhodě staoveá reálá čísla, z ichž aspoň jedo je eulové) hodot x i, které vyjadřují jejich výzam, apř. přesost. 2. Mediá pro eroztříděý statistický soubor { x( + x = [ 2 2 ) pro lichá, x ( 2 ) + x ( 2 +) ] pro sudá. Mediá rozděluje statistický soubor a dolí poloviu a horí poloviu hodot x i. Jde o robustí charakteristiku, která je oproti aritmetickému průměru málo citlivá a extrémě odchýleé hodoty. Pro roztříděý soubor se k výpočtu mediáu užívá vhodá aproximace. 3. Modus ˆx je číslo, v jehož okolí je ejvíce hodot x i, resp. je to střed x j třídy s ejvětší absolutí četostí f j. Modus má tytéž vlastosti jako aritmetický průměr i mediá a dle potřeby se počítá vhodou aproximací (apř. pro roztříděý soubor).
Popisá statistika - zavedeí pojmů 5.2 Základí charakteristiky promělivosti (variability) Základí charakteristiky promělivosti (variability) statistického souboru jsou:. Rozptyl ( disperze, variace) ( ) s 2 = (x i x) 2 = x 2 i x 2 pro eroztříděý soubor, m ( s 2 = f j x j x ) ( ) 2 m = f j x j 2 x 2 pro roztříděý soubor. Dle potřeby a také pro zdůrazěí zaku Xěkdy píšeme s 2 (x) apod. Větší promělivosti zaku X odpovídá větší rozptyl a aopak. Při výpočtech se také užívá jiý vzorec pro rozptyl, když výraz zaměíme výrazem. Takto vypočteý rozptyl je rove číslu s2 > s 2 (pro s 2 0). Zdůvoděí výrazu plye z požadavků uvedeých v kapitole 6 a 7. 2. Směrodatá odchylka s = s 2. Dle potřeby také píšeme s(x). Větší promělivosti zaku X odpovídá větší směrodatá odchylka a aopak. 2 Dvourozměrý statistický soubor s kvatitavími zaky Při popisováí objektů emusíme zjišťovat pouze jede údaj. Můžeme zjistit více iformací o objektu, které přeeseme do tabulky (apř. jede řádek tabulky popisuje jede objekt). Tím dostáváme vícerozměrý statistický soubor. V dalším popisu se omezíme a dvojrozměrý statistický soubor a hlavě a vztah mezi zaky. Vyšetřováí vícerozměrého statistického souboru je aalogické. Neroztříděý statistický soubor ((x, y ),..., (x, y )) s rozsahem lze zapsat apříklad do Tabulky??. Každý sloupec je jedorozměrý statistický soubor: (x,..., x ), (y,..., y ). Zpracováím x y x 2 y 2...... x y Tabulka 3: Neroztříděý statistický soubor ((x, y ),..., (x, y )) s rozsahem těchto souborů získáme jejich číselé charakteristiky x, ȳ, s 2 (x), s 2 (y) atd. Rozsah statistického souboru počet prvků:. Roztříděý dvourozměrý statistický soubor získáme roztříděím jedorozměrých statistických souborů (x,..., x ) a (y,..., y ), přičemž oba roztříděé soubory mohou mít růzé počty tříd i jejich délky. Předpokládejme, že soubor (x,..., x ) byl roztřídě a m tříd a soubor (y,..., y ) byl roztřídě a m 2 tříd. Dostaeme tak dvourozměré třídy se středy a absolutími četostmi. Středy tříd ( x j, ) y k Absolutí četost f jk, j =,..., m, k =,..., m 2. Relativí četost f jk,j =,..., m, k =,..., m 2. Kumulativí absolutí četost F jk, F jk = j k f rs, j =,..., m, k =,..., m 2. r= s= Kumulativí relativí četost F jk, j =,..., m, k =,..., m 2. Margiálí ( okrajové) četosti f xj a f yk m 2 f xj = f jk, j =,..., m k= m f yk = f jk, k =,..., m 2
Popisá statistika - zavedeí pojmů 6 Platí : m m 2 m m 2 f xj = f yk = f jk =. k= k= Přehledý zápis těchto četostí je ve formě četostí tabulky. Následující Tabulka?? je pro absolutí četosti a margiálí četosti. yk x j y... ym 2 f xj x f... f m2 f x............... x m f m... f m m 2 f x m f yk f y... f y m2 Tabulka 4: Absolutí četosti a margiálí četosti Pro roztříděé jedorozměré statistické soubory ( x j, f xj), j =,..., m, a (y k, f yk), k =,..., m 2, obdržíme jejich číselé charakteristiky x, ȳ, s 2 (x), s 2 (y) atd. Koeficiet korelace ( korelačí koeficiet) r určuje míru lieárí závislosti zaků X a Y r = r = m m 2 k= (x i x) (y i ȳ) = s(x)s(y) f jk ( x j x ) (y k ȳ) s(x)s(y) = x i y i xȳ s(x)s(y) m m 2 k= f jk x j y k xȳ s(x)s(y) pro eroztříděý soubor,, pro roztříděý soubor, přičemž čitatelé ve všech zlomcích vyjadřují tzv. kovariaci, kterou začíme cov. Někdy pro zdůrazěí zaků X, Y píšeme r(x, y), resp. cov(x, y). Koeficiet korelace r je pouze mírou lieárí závislosti mezi zaky X a Y. Čím je jeho hodota bližší aebo -, tím je závislost bližší lieárí závislosti a body (x i, y i ) bližší přímce. Jeho kladá (záporá) hodota odpovídá celkově rostoucí (klesající) závislosti mezi X a Y. Hodota blízká 0 vyjadřuje, že závislost eí lieárí popřípadě zaky X, Y mohou být ezávislé. Pro grafické vyjádřeí dvourozměrého eroztříděého statistického souboru se užívá rozptylový graf. Na Obrázcích??-?? jsou rověž uvedey pro ilustraci hodoty koeficietu korelace.
Popisá statistika - zavedeí pojmů 7 Obrázek : Obrázek 2:
Popisá statistika - zavedeí pojmů 8 Obrázek 3: Obrázek 4:
Popisá statistika - zavedeí pojmů 9 Obrázek 5: Pro grafické vyjádřeí dvourozměrého roztříděého statistický souboru se užívá třírozměrý histogram (viz Obrázky??, resp.??), případě třírozměrý sloupcový graf pro diskrétí zaky X, Y daé Tabulkou??, resp.??. Četost 0 20 30 40 50 60 2 42 5 59 45 6 2 36 7 45 56 25 44 3 58 65 36 4 65 89 4 2 63 84 77 47 7 5 43 93 62 43 32 34 Tabulka 5: Kumulativí četost 0 20 30 40 50 60 2 63 78 37 82 243 2 57 6 76 29 36 466 3 58 65 335 49 626 820 4 2 63 494 727 909 74 5 43 93 692 968 82 48 Tabulka 6:
Popisá statistika - zavedeí pojmů 0 Obrázek 6: Třírozměrý histogram k Tabulce?? Obrázek 7: Třírozměrý histogram k Tabulce??
Popisá statistika - zavedeí pojmů 3 Statistické soubory s kvalitativími zaky Jedorozměrý statistický soubor s kvalitativím zakem (x,..., x ) s rozsahem vyjadřujeme pomocí četostí tabulky, kde x j jsou možé sloví hodoty zaku X a f jjsou četosti těchto hodot v původím souboru, j =,..., m. Číselé charakteristiky se až a výjimky (variabilitu) epoužívají. Ke grafickému vyjádřeí souboru slouží sloupcový graf, koláčový graf apod. Dvourozměrý statistický soubor s kvalitativími zaky ((x, y ),..., (x, y )) s rozsahem vyjadřujeme pomocí četostí tabulky podobě jako pro kvatitativí zaky, kde ( x j, y k) jsou dvojice možých slovích hodot dvourozměrého kvalitativího zaku (X, Y ) a f jk jsou četosti těchto hodot v původím souboru pro j =,..., m a k =,..., m 2. Z číselých charakteristik se užívají především růzé míry závislosti zaků X a Y. Ke grafickému vyjádřeí souboru slouží třírozměrý sloupcový graf podobý třírozměrému sloupcovému grafu pro dvourozměrý diskrétí kvatitativí zak.