Počet automobilů Ig. Martia Litschmaová EXPLORATORNÍ ANALÝZA.1. Níže uvedeá data představují částečý výsledek zazameaý při průzkumu zatížeí jedé z ostravských křižovatek, a to barvu projíždějících automobilů. Data vyhodoťte a graficky zázorěte. Řešeí: červeá modrá červeá zeleá modrá červeá červeá bílá zeleá zeleá modrá červeá Je zřejmé, že se jedá o kvalitativí (sloví) proměou a vzhledem k tomu, že barvy automobilů emá smysl seřazovat ai porovávat, můžeme kostatovat, že se jedá o proměou omiálí. Pro její popis tedy zvolíme tabulku četostí, určíme modus a barvu projíždějících automobilů zázoríme prostředictvím histogramu a výsečového grafu. TABULKA ROZDĚLENÍ ČETNOSTI Barvy Absolutí četost Relativí četost projíždějících automobilů i p i červeá 5 5 1 0, 4 modrá 3 3 1 0, 5 bílá 1 1 1 0, 08 zeleá 3 3 1 0, 5 Celkem 1 1,00 Modus = červeá (tj. v zazameaém vzorku se vyskytlo ejvíce červeých automobilů) Barvy projíždějících automobilů Barvy projíždějících automobilů 6 5 4 3 1 zeleá 5% bílá 8% červeá 4% 0 červeá modrá bílá zeleá Barv y modrá 5% Celkem bylo sledováo 1 automobilů - 9 -
Řešeí daého problému ve Statgraphicsu: Zadáí proměé: Chceme-li zadávat ručě ovou proměou, provedeme DC (dvojklik) a hlavičku sloupce a zadáme parametry proměé (ázev, popis (epovié), šířku a typ). Předastaveý typ je Numeric, proto je uto astaveí typu proměé ohlídat zejméa při zadáváí proměé kategoriálí. Typ proměé Exploratorí aalýza pro kategoriálí proměou: Touto aalýzou získáme tabulku četosti, histogram a výsečový graf. - 10 -
Datový výstup aalýzy: ázvy kategorií četost relativí četost kumulativí četost kumulativí relativí četost Všiměte si, že Statgraphics automaticky určuje kumulativí četosti a kumulativí relativí četosti i pro omiálí proměou (je tedy a uživateli, aby určil, zda mají tyto charakteristiky v kokrétím případě smysl). Histogram: - 11 -
Formát grafu změíme tak, že provedeme RC (klikeme pravým tlačítkem myši) a oblast grafu a zvolíme Pae Optio. V okě Barchart Optio pak volíme formátováí histogramu. Grafické parametry histogramu (adpisy, barvy ) astavíme v okě Graphics Optio, které získáme po RC a oblast grafu a volbě Graphics Optio. - 1 -
Výsečový graf: Při úpravě výsečového grafu postupujeme obdobě jako při úpravě histogramu. (Pae Optio, Graphics optio)... Následující data představují velikosti triček prodaých při výprodeji firmy TRIKO. Řešeí: S, M, L, S, M, L, XL, XL, M, XL, XL, L, M, S, M, L, L, XL, XL, XL, L, M a) Data vyhodoťte a graficky zázorěte. b) Určete kolik procet lidí si koupilo tričko velikosti ejvýše L. ada) Zřejmě se jedá o kvalitativí (sloví) proměou a vzhledem k tomu, že velikosti triček lze seřadit, jde o proměou ordiálí. Pro její popis proto použijeme tabulku četostí pro ordiálí proměou, v íž variaty velikosti triček budou seřazey od ejmeší po ejvětší (S, M. L, XL) a modus. Velikosti triček Absolutí četost TABULKA ROZDĚLENÍ ČETNOSTI Kumulativí četost Relativí četost Relativí kum.četost i m i p i F i S 3 3 3 0, 14 3 0, 14 M 6 3 6 9 6 0, 7 9 0, 41 L 6 9 6 15 6 0, 7 15 0, 68 XL 7 15 7 7 0, 3 1, 00 Celkem ----- 1,00 ----- Modus = XL (ejvíce lidí si koupilo tričko velikosti XL) - 13 -
F(x) Ig. Martia Litschmaová Grafický výstup bude tvořit histogram, výsečový graf a polygo kumulativích četostí (jelikož se ejedá o techická data, Paretův graf vytvářet ebudeme). Grafický výstup: Prodaá trika XL 3% S 14% L 7% M 7% Histogram Celkem bylo prodáo triček Výsečo Empirická distribučí fukce Galtoova ogiva, S-křivka 1. 1.0 0.8 0.6 0.4 0. 0.0-0 0 0 40 60 80 100 1 adb) Na tuto otázku ám dá odpověď relativí kumulativí četost pro variatu L, která určuje jaká část prodaých triček byla velikosti L a ižších. Tj. 68% ý graf zákazíků si koupilo tričko velikosti L a meší. x.3. Následující data představují věk hudebíků vystupujících a přehlídce dechových orchestrů. Proměou věk považujte za spojitou. Určete průměr, shorth a modus věku hudebíků. 8 7 43 19 47 41 34 34 4 35 Řešeí: a) Určeí průměru: V tomto případě jedozačě použijeme aritmetický průměr (zdůvoděí sad eí uté): - 14 -
x i! x i 8 7 43 19 47 41 34 34 4 35 38,7 let 11 Průměrý věk hudebíka vystupujícího a přehlídce dechových orchestrů je 38,7 let. Prohléděte si ještě jedou zadaá data a promyslete si akolik je průměrý věk reprezetativí statistikou daého výběru (odlehlá pozorováí). b) Určeí shorthu: Náš výběrový soubor má 11 hodot, z čehož vyplývá, že v shorthu bude ležet 6 z ich (rozsah souboru je 11 (lichý počet hodot), 50% z toho je 5,5 (5,5 hodoty se špatě určuje, že?) a ejbližší vyšší přirozeé číslo je 6 eboli: /+½ = 11/ +1/ = 1/ = 6). A další postup? Proměou seřadíme Určíme délky všech 6-ti čleých itervalů, v ichž xi xi 1 xi 5 Nejkratší z těchto itervalů prohlásíme za shorth (délka itervalu = xi xi 5 ) Origiálí data Seřazeá data Délky 6-ti čleých itervalů 19 16 (= 35 19) 8 19 (= 41 ) 7 7 15 (= 4 7) 43 34 9 (= 43 34) 19 34 13 (= 47 34) 47 35 47 (= 8 35) 41 41 34 4 34 43 4 47 35 8 Z tabulky je zřejmé, že ejkratší iterval má délku 9, čemuž odpovídá jediý iterval: 34 ; 43. Shorth = 34 ; 43, což můžeme iterpretovat apř. tak, že polovia hudebíků je ve věku 34 až 43 let (jde přitom o ejkratší iterval ze všech možých). c) Určeí modu: Modus je defiová jako střed shorthu: 34 43 x ˆ 38,5 Modus = 38,5 let, tj. typický věk hudebíka vystupujícího a přehlídce dechových orchestrů je 38,5 let. - 15 -
.4. Pro data z předcházejícího příkladu určete: Řešeí: a) všechy kvartily, b) iterkvartilové rozpětí c) MAD d) zakreslete empirickou distribučí fukci ada) Naším úkolem je určit dolí kvartil x 0,5 ; mediá x 0,5 a horí kvartil x 0,75. Budeme-li dodržovat postup doporučeý pro určováí kvatilů, zameá to data seřadit a přiřadit jim pořadí. Splěí prvích dvou bodů postupu ukazuje ásledující tabulka: Origiálí data Seřazeá data Pořadí 19 1 8 7 7 3 43 34 4 19 34 5 47 35 6 41 41 7 34 4 8 34 43 9 4 47 10 35 8 11 A můžeme přejít k bodu 3, tj. staovit pořadí hodot proměé pro jedotlivé kvartily a tím i jejich hodoty: Dolí kvartil x 0,5 : p 0, 5; 11 z p 11. 0, 5 0, 5 3, 5, Dolí kvartil je tedy průměrem prvků s pořadím 3 a 4 - x 0,5 = 7+34 = 30,5 let. Tj. 5% hudebíků vystupujících a přehlídce dechových orchestrů je mladších ež 30,5 let (75% z ich má 30,5 let a více). Mediá x 0,5 :,5; 11 z 11.0,5 0,5 6 x 35 p 0 p 0, 5 Tj. polovia hudebíků vystupujících a přehlídce dechových orchestrů je mladších ež 35 let (50% z ich má 35 let a více). Horí kvartil x 0,75 : p 0, 75; 11 z p 11. 0, 75 0, 5 8, 75 Horí kvartil je tedy průměrem prvků s pořadím 8 a 9 - x 0,75 = 4+43 = 4,5 let. Tj. 75% hudebíků vystupujících a přehlídce dechových orchestrů je mladších ež 4,5 let (5% z ich má 4,5 let a více). - 16 -
adb) Iterkvartilové rozpětí IQR: IQR = x 0,75 x 0,5 = 4,5 30,5 = 1 adc) MAD Chceme-li určit tuto statistiku, budeme postupovat přesě podle toho co ám říká defiice (mediá absolutích odchylek od mediáu), tudíž dodržíme výše uvedeý postup, jehož aplikaci vám ukazuje ásledující tabulka. x 0,5 = 35 Origi álí data x i Seřaz eá data y i Absolutí hodoty odchylek seřazeých dat od jejich mediáu Seřazeé absolutí hodoty odchylek seřazeých dat od jejich mediáu y i x 0,5 19 16 19 35 0 8 13 35 1 7 7 8 7 35 1 43 34 1 34 35 6 19 34 1 34 35 7 47 35 0 35 35 8 41 41 6 41 35 8 34 4 7 4 35 1 34 43 8 43 35 13 4 47 1 47 35 16 35 8 47 8 35 47 M i MAD M 0,5 p 0,5; 11 z p 11.0,5 0,5 6 M 0, 5 8 (MAD je mediá absolutích odchylek od mediáu, tj. 6. hodota seřazeého souboru absolutích odchylek od mediáu). MAD = 8. add) Zbývá ám posledí úkol sestrojit empirickou distribučí fukci. Připomeňme si proto její defiici a postupujme podle í: F j x px i i1 0 1 pro x x pro x x x j j1 pro x x 1,1 j 1 - do tabulky si zapíšeme seřazeé hodoty proměé, jejich četosti, relativí četosti a z ich odvodíme empirickou distribučí fukci: - 17 -
F(x) Ig. Martia Litschmaová Origi álí data x i Seřaz eé hodoty a i Absolutí četosti seřazeých hodot i Relativí četosti seřazeých hodot p i Empirická dist. fukce F(a i ) 19 1 1/11 0 8 1 1/11 1/11 7 7 1 1/11 /11 43 34 /11 3/11 19 35 1 1/11 5/11 47 41 1 1/11 6/11 41 4 1 1/11 7/11 34 43 1 1/11 8/11 34 47 1 1/11 9/11 4 8 1 1/11 10/11 35 Z defiice emp. dist. fukce F(x) tedy plye, že pro všecha x meší ež 19 je F(x) rova ule, pro x větší ež 19 a meší ebo rova je F(x) rova 1/11, pro x větší ež a meší ebo rova 7 je F(x) rova 1/11 + 1/11, atd. x ; 19 19 ; ; 7 7 ; 34 34 ; 35 F(x) 0 1/11 /11 3/11 5/11 x 35 ; 41 41 ; 4 4 ; 43 43 ; 47 ; 8 47 8 ; F(x) 6/11 7/11 8/11 9/11 10/11 11/11 Empirická distribučí fukce 1, 1,0 0,8 0,6 0,4 0, 0,0-0 0 0 40 60 80 100 10 x.5. Firma vyrábějící tabulové sklo vyviula méě ákladou techologii pro zlepšeí odolosti skla vůči žáru. Pro testováí bylo vybráo 5 tabulí skla a rozřezáo a poloviu. Jeda polovia pak byla ošetřea ovou techologií, zatímco druhá byla poecháa jako kotrolí. Obě poloviy pak byly vystavey zvyšujícímu se působeí tepla, dokud epraskly. Výsledky byly ásledující: Mezí teplota (sklo prasklo) [ o C] Stará techologie x i Nová techologie y i 475 485 436 390 495 50 483 460 46 488-18 -
Porovejte obě techologie pomocí základích charakteristik exploratorí (průměru a rozptylu, popř. směrodaté odchylky). statistiky Řešeí: - Nejprve se pokusíme porovat obě techologie pouze za pomocí průměru: Průměr pro starou techologii: x x i i1 475 436 5 46 463,0 o C Průměr pro ovou techologii: y y i i1 485 390 5 488 468,6 o C Na základě vypočteých průměrů bychom mohli říci, že ovou techologii doporučujeme, poěvadž mezí teplota je při ové techologii téměř o 6 o C vyšší. A co a to míry variability? Stará techologie: Výběrový rozptyl: s x x x i i1 1 475 463,0 436 463,0 46 463,0 Výběrová směrodatá odchylka: 5 1 916,3 o C xi x i 1 s x s x 916,3 30, 3 1 Nová techologie: Výběrový rozptyl: o C s y y y i i1 1 485 468,6 390 468,6 488 468,6 5 1 384,4 o C - 19 -
Teplota Ig. Martia Litschmaová Výběrová směrodatá odchylka: Mezí teplota yi y i1 s x s y 384,4 48, 8 1 o C 600 Tady pozor. Výběrový rozptyl (výběrová směrodatá odchylka) vyšel pro ovou techologii mohem vyšší ež pro techologii starou. Co to zameá? Podívejte se a grafické zázorěí aměřeých dat. 300 Stará Techologie Nová Mezí teploty pro ovou techologii jsou mohem rozptýleější, tz. že tato techologie eí ještě dobře zvládutá a její použití ám ezaručí zkvalitěí výroby. V tomto případě může dojít k silému zvýšeí, ale také k silému sížeí mezí teploty proto by se měla ová techologie ještě vrátit do vývoje. Zdůrazěme, že tyto závěry jsou staovey pouze a základě exploratorí aalýzy, statistika ám abízí exaktější metody pro rozhodutí takovýchto případů (testováí hypotéz), s imiž se sezámíte později..6. Následující data představují dobu čekáí [mi] zákazíka a obsluhu. Proveďte exploračí aalýzu pomocí Statgraphicsu. 10 80 100 90 150 5 140 130 100 70 110 100 Zadáí proměé: Řešeí daého problému ve Statgraphicsu: Chceme-li zadávat ručě ovou proměou, provedeme DC (dvojklik) a hlavičku sloupce a zadáme parametry proměé (ázev, popis (epovié), šířku a typ). Předastaveý typ je Numeric, tudíž jej emusíme měit. - 0 -
Exploratorí aalýza pro umerickou proměou: Textové i grafické výstupy popisé (exploratorí) statistiky získáme obdobě jako u kategoriálí proměé. Opět si projdeme jedotlivé výstupy exploratorí aalýzy. - 1 -
Tabular Optio V levém dolím okě ajdeme souhrou statistiku tj. vybraé charakteristiky příslušé umerické proměé (doby čekáí). Výběr základích charakteristik, které mají být zobrazey ám umoží RC a oblast souhré statistiky. Po jeho provedeí se ám objeví ásledující oko, v ěmž zvolíme požadovaé charakteristiky. Slovík ázvů jedotlivých charakteristik: Cout Average Media Mode Rozsah souboru (počet hodot) Průměr Mediá Modus - -
Geo. Mea Variace Std. Deviatio Geometrický průměr Rozptyl (výběrový) Směrodatá odchylka (výběrová) Std. Error Stadardí chyba s Mi. Max. Rage Lower Quartile Upper Quartile Iterquartile rage Skewess Std. Skewess Kurtosis Std. Kurtosis Miimum Maximum Rozpětí (maximum miimum) Dolí kvartil Horí kvartil Iterkvartilové rozpětí (IQR) Šikmost Stadardizovaá šikmost Špičatost Stadardizovaá špičatost Coeff. Of Var. Variačí koeficiet s x Sum Součet hodot Klikutím a ikou Tabular Optios (žlutá ikoa,. řádek,. zleva) se ám objeví abídka dalších textových výstupu. Kvatily Číslicový histogram Při popisé statistice ás z této abídky zajímá pouze možost volby zobrazeí kvatilů a číslicového histogramu. - 3 -
Zvolíme-li si zobrazeí kvatilů, objeví se ám textový výstup s hodotami deseti předastaveých kvatilů. Jejich výběr můžeme změit provedeme li RC a oblast, v íž jsou kvatily zobrazey a zvolíme-li Pae Optio. RC Zvolíme-li v Tabular Optios - Stem ad Leaf Display, získáme Číslicový histogram. Nyí se zaměříme a pravé horí oko, v ěmž ajdeme tzv. Bodový graf (azývaý také rozptylogram, aglicky Scatterplot). Na ose x jsou v ěm vyesey hodoty umerické proměé, a ose y je pořadí, v ěmž byly hodoty proměé zapsáy. Je tedy zřejmé, že bodový graf ám umožňuje vizuálí posouzeí rozptylu proměé. Chceme-li změit grafické parametry bodového grafu, provedeme RC a oblast grafu a požadovaé parametry astavíme v meu Graphics Optio. - 4 -
V pravém dolím rohu ajdeme Krabicový graf. Jeho grafické parametry můžeme obdobě jako u Bodového grafu astavit v meu Graphics Optio. Použité zkratky: DC RC dvojklik levým tlačítkem myši klikutí pravým tlačítkem myši - 5 -