Na co ve výuce statistiy eí čas aeb Pae, pojďte si hrát MARTINA LITSCHMANNOVÁ VŠB TU Ostrava, Faulta eletrotechiy a iformatiy, Katedra apliovaé matematiy Abstrat: V čláu jsou prezetováa ěterá doporučeí týající se prezetace výsledů exploratorí statistiy. Tato doporučeí vycházejí částečě z literatury, převážě vša ze zušeostí s pracemi studetů. Chyby v prezetaci jsou disutováy a orétích příladech a je zároveň doporuče alterativí přístup prezetaci výstupů metod aiví statistiy. Klíčová slova: Exploratorí statistia, prezetace výsledů, apliace statistiy 1 Úvod Exploratorí (popisá) statistia bývá prvím roem odhaleí iformací srytých ve velém možství proměých a jejich variat. To zameá uspořádáí proměých do ázorější formy a jejich popis ěolia málo hodotami, teré by obsahovaly co ejvětší možství iformací obsažeých v původím souboru. Tuto aiví statistiu používá v jisté míře aždý z ás. Všichi přece čas od času hledáme iformace v tabulách a grafech. V deší době již emusíme jedotlivé charateristiy určovat pomocí alulačy a grafy reslit ručě. Existuje možství statisticého softwaru, terý tuto práci provede za ás. Úolem pa bývá pouze výstupy softwaru prezetovat. Zušeosti se studetsými pracemi vša uazují, že prezetace výsledů může být mohdy zbytečě epřehledá a špatě čitelá. Autoři mohdy zapomíají a to, že čteář jejich práce emusí být odboríem ve statistice, popř. v oblasti, jíž se práce týá. Uazuje se, že formulace uiverzálích zásad přehledé prezetace výsledů je patrě emožá, zbývá tedy doporučit hlavě ohled a poteciálího čteáře a zdravý rozum. Exploratorí aalýza jedé proměé (zjedodušeě) Ve statistice se setáváme se dvěma záladími typy proměých. Proměou ategoriálí (sloví) a proměou umericou (číselou)..1 Kategoriálí proměá Kategoriálí (sloví) proměá má dva záladí typy omiálí (eseřaditelou) a ordiálí (seřaditelou) proměou. Číselé charateristiy, teré ji popisují jsou většiou představováy prostředictvím tabuly četosti. Tabula četosti je vzhledem tomu, že software edoáže (bez použití pomocé proměé) vyhodotit, zda se jedá o proměou omiálí či ordiálí, zobrazea ve své rozšířeé podobě, terá odpovídá seřazeí variat ategoriálí proměé podle abecedy.
TABULKA ROZDĚLENÍ ČETNOSTI Hodoty x i x x 1 Absolutí četost Relativí četost Kumulativí četost Rel. umul. četost i p i m i F i 1 p 1 m1 1 F1 p 1 p m m F p p F 1 1 1 1 p x Celem i1 i p p i i1 1 m 1 F F p 1 1 ----- -----.1.1 Číselé charateristiy pro popis ategoriálí proměé Četost i (absolutí četost, frequecy) je defiováa jao počet výsytu daé variaty ategoriálí proměé. V případě, že ategoriálí proměá ve statisticém souboru o rozsahu hodot abývá růzých variat, jejichž četost ozačíme 1,,,, musí zřejmě platit:... 1 i1 i Chceme-li vyjádřit jaou část souboru tvoří proměé s daou variatou, použijeme pro popis proměé relativí četost. Relativí četost p i (relative frequecy) je defiováa jao: p i i i, popř. p 0 i % (Druhý vzorec použijeme v případě, chceme-li relativí četost vyjádřit v procetech.) Pro relativí četost musí platit: p p 1 p i i1 p 1 Charateristiy umulativí četost a umulativí relativí četost se používají pouze pro ordiálí proměé. Kumulativí četost m i defiujeme jao počet hodot proměé, teré abývají variaty ižší ebo rové i-té variatě. Uvažte apř. proměou záma ze statistiy, terá abývá variat: výborý, velmi dobrý, dobrý, eprospěl, pa apř. umulativí četost pro variatu
dobrý bude rova počtu studetů, teří ze statistiy zísali zámu dobrý ebo lepší. Jsou-li jedotlivé variaty uspořádáy podle své veliosti ( m i j i j1 x x x ), platí: 1 Je tedy zřejmé, že umulativí četost -té ( ejvyšší ) variaty je rova rozsahu proměé. Kumulativí relativí četost F i vyjadřuje jaou část souboru tvoří hodoty abývající i-té a ižší variaty. F i p j, i j1 což eí ic jiého ež relativí vyjádřeí umulativí četosti: mi F. i.1. Grafy pro prezetaci ategoriálí proměé Pro větší ázorost aalýzy proměých se ve statistice často užívají grafy. Pro ategorialí proměou jsou to ejčastěji tyto dva typy: Histogram (sloupcový graf, bar chart) Výsečový graf (oláčový graf, pie chart) Histogram je lasicým grafem, v ěmž a jedu osu vyášíme variaty proměé a a druhou osu jejich četosti. Jedotlivé hodoty četosti jsou pa zobrazey jao sloupce (obdélíy, popř. úsečy, hraoly, užely...) 5 0 0 18 16 15 14 1 8 5 6 4 0 Výborý Chvalitebý Dobrý Dostatečý 0 Výborý Chvalitebý Dobrý Dostatečý 0 0 18 18 16 16 14 14 1 1 8 8 6 6 4 4 0 Výborý Chvalitebý Dobrý Dostatečý 0 Výborý Chvalitebý Dobrý Dostatečý 0 18 16 14 1 8 6 4 0 Dostatečý Dobrý Chvalitebý Výborý Výborý Chvalitebý Dobrý Dostatečý 0 5 15 0 5 3
Výsečový graf prezetuje relativí četosti jedotlivých variat proměé, přičemž jedotlivé relativí četosti jsou úměrě reprezetováy plochami příslušých ruhových výsečí. (Změou ruhu a elipsu dojde trojrozměrému efetu.) 8 5 8 5 Výborý Chvalitebý Výborý Chvalitebý Dobrý Dobrý Dostatečý Dostatečý 0 0 8 5 8 5 Výborý Chvalitebý Výborý Chvalitebý Dobrý Dobrý Dostatečý Dostatečý 0 0 POZOR!!! V případě výsečového grafu si dejte zvláští pozor a popis grafu. Jedotlivé výseče estačí ozačit relativími četostmi bez uvedeí četosti absolutích, popř. bez uvedeí celového počtu pozorováí, to by mohlo vést mateí (ať už záměrému ebo echtěému) toho, jemuž je graf urče..1.3 Uázy prezetací ategoriálí proměé (e vždy správé) A yí se podíváme a prezetace, teré byli schopi vytvořit studeti VŠ. Pojďte si hrát a učitele a opravte jejich práce. (Jediá změa, terou jsem provedla v studetsých projetech byla změa veliosti písma. Část semestrálího projetu A Téma: Moitory V tomto projetu jsem si staovil cíl aalyzovat moitory, teré jsou dostáí a Česém trhu a jsou posuzováy dle růzých fatorů, jao je úhlopříča obrazovy, otrast, doba odezvy, cea, ebo zda se jedá o stadardí moitor, či moitor širooúhlý. Vstupí data Vešerá data jsem čerpal z atuálí abídy moitorů, teré jsou dispozici a iteretových stráách www.czechcomputers.cz popis: typ moitoru: 1 - stadardí moitor, - širooúhlý moitor Zača Model Úhlopříča obrazovy Kotrast Doba odezvy Typ moitoru Acer AL1716F 17 800 5 1 4347 Acer AL03C 0 000 5 901 Acer AL16WBsD 500 5 8096 Acer AL43WD 4 500 5 1 1165 Acer AL73W 7 3000 6 1 394 Asus VB17T 17 00 5 4835 Cea 4
Byla použita pouze uáza zdrojového datového souboru Zača moitoru Dále práce poračuje vyhodocováím parametrů moitorů. Hodoceí části semestrálího projetu A Klady: Uvede zdroj dat Zápory: Výběrový soubor eí sestave ta, aby bylo možé split uvedeý cíl projetu Chybějící jedoty v datovém souboru Chybě prezetováa tabula četostí (ejde o ordiálí proměou + eupraveý počet des. míst) 5
Chybějící ometář tabulce četostí Nic eříající ázvy grafů Forma grafů Část semestrálího projetu B Téma: Porováí obyvatelstva tří měst podle stupě dosažeého vzděláí Obyvatelstvo podle stupě vzděláí Břeclav: Obyvatelstvo 15leté a starší 48 bez vzděláí 79 v tom záladí vč. Neuočeého 584 podle vyučeí a stř. odboré bez mat. 7789 stupě úplé středí s maturitou 5856 vzděláí vyšší odboré a ástavbové 786 vysoošolsé 1798 Obyvatelstvo podle stupě vzděláí Hodoí: Obyvatelstvo 15leté a starší 863 bez vzděláí 53 v tom záladí vč. euočeého 5440 podle vyučeí a stř. odboré bez mat. 8544 stupě úplé středí s maturitou 5886 vzděláí vyšší odboré a ástavbové 813 vysoošolsé 1967 Obyvatelstvo podle stupě vzděláí Zojmo: Obyvatelstvo 15leté a starší 3011 bez vzděláí 97 v tom záladí vč. euočeého 79 podle vyučeí a stř. odboré bez mat. 531 stupě úplé středí s maturitou 813 vzděláí vyšší odboré a ástavbové 14 vysoošolsé 793 Poz:Součty v tabulách edavají celový počet obyvatel ad 15 let,protože zde eí uvedea oloa pro ezjištěé vzdělaí. Porovávaá data: Břeclav Hodoí Zojmo bez vzděláí 79 53 97 záladí (vč.euočeého) 584 5440 79 vyučeí a stř. odboré bez mat. 7789 8544 531 úplé středí s maturitou 5856 5886 813 vyšší odboré a ástavbové 786 813 14 vysoošolsé 1798 1967 793 6
Pozáma:V tabulách a grafech často eí přímo vyjmeová druh dosažeého vzděláí,ale jsou jim přiřazea příslušá čísla a to pro: bez vzděláí.č.1 záladí (vč.euočeého) č. vyučeí a stř. odboré bez mat č.3 úplé středí s maturitou.č.4 vyšší odboré a ástavbové. č.5 vysoošolsé.č.6 Proměá Data pro Breclav Možství pozorováí: 150 Možství jediečých hodot: 6 Teto postup v časové poslouposti aždé z 6-ti specifiých hodot a určí, dy astaou pro Břeclav. To je pa uspořádáo do tabuly a graficy zázorěo. Sloupcový Diagram pro Breclav bez vzdelai zaladi vyucei a str uple stredi vyssi odbore vysoosolse 0 4 6 8 (X 00) Cetost Tabula Četosti pro Břeclav: arůstající pořadí relativí arůstající relativí hodota četost četost četost četost 1 1 79 0,0036 79 0,0036 584 0,637 591 0,673 3 3 7789 0,3516 137 0,6190 4 4 5856 0,644 19566 0,8833 5 5 786 0,0355 035 0,9188 6 6 1798 0,081 150 1,0000 Tato tabula uazuje aždou hodotu z Břeclavi, terá se vysytla, právě ta jao proceta a arůstající statisticé přehledy. Napřílad v 79 řadách ze souboru dat Břeclavi se roval 1.Toto reprezetuje 0,356659% z 150 hodot v souboru.pravé rají dva sloupce uvádějí arůstající četost a arůstající relativí četost od shora tabuly dolů. 6,44% Vysecovy graf pro Breclav 8,1% 3,55% 0,36% 35,16% 6,37% Breclav 1 3 4 5 6 7
Hodoceí části semestrálího projetu B Klady:????? Zápory: Ach, ta češtia. (velé možství gramaticých a stylisticých chyb, epoužíváí háčů a čáre v ázvech grafů) Neí staove cíl práce Neí odděle popis dat od řešeí Zbytečý převod ázvů ategorií a umericou proměou Zbytečé uváděí pořadí ategorií v tabulce četostí Používáí edefiovaých ázvů číselých charateristi (pousy o přelad z agličtiy?) Nesmyslá prezetace tabuly četostí V prezetaci tabuly četostí je použita hodota, terá v tabulce eí (v tabulce je tato hodota zaorouhlea) Počet desetiých míst v popisu výsečového grafu. A ja by měla vypadat správá prezetace? Přepracovaá část semestrálího projetu B ROZDĚLENÍ OBYVATELSTVA (STARŠÍHO 15-TI LET) OKRESU BŘECLAV PODLE STUPNĚ VZDĚLÁNÍ Stupeň vzděláí Absolutí četost Relativí četost % Kumulativí četost Rel. umul. četost % bez vzděláí 79 0, 4 79 0,4 záladí 584 6,4 591 6,8 vyučeí a středí odboré bez maturity 7789 35, 137 6,0 úplé středí s maturitou 5856 6,4 19566 88,4 vyšší odboré a ástavbové 786 3,5 035 91,9 vysoošolsé 1798 8,1 150 0,0 Celem 150 0,0 ----- ----- Z tabuly je zřejmé, že ores Břeclav má celem.150 obyvatel starších 15-ti let (absolutí četost celem). Ve sloupci absolutí četost zjistíme počty obyvatel majících příslušý stupeň vzděláí. Sloupec relativí četost uazuje tetýž údaj v procetech. Ve sloupci umulativí četost ajdeme počty obyvatel, teří dosáhli příslušého ebo ižšího stupě vzděláí a ve sloupci rel. umul. četost acházíme teto údaj v procetech. 8
Tisíce obyvatel NA CO VE VÝUCE STATISTIKY NENÍ ČAS ANEB PANE, POJĎTE SI HRÁT Následuje graficá prezetace zjištěých údajů. 9 8 7 6 5 4 3 1 0 7% 4% 8% 0% 6% bez vzděláí záladí vyučeí a stř. odboré bez maturity úplé středí s maturitou 35% vyšší odboré a ástavbové vysoošolsé. Numericá proměá Pro popis umericé proměé používáme dvě supiy číselých charateristi míry polohy a míry variability. míry polohy určují typicé rozložeí hodot proměé (jejich rozmístěí a číselé ose) míry variability určující variabilitu (rozptyl) hodot olem své typicé polohy..1 Míry polohy Mezi ejpoužívaější míry polohy patří: 9
Aritmeticý průměr x Jeho hodotu zísáme pomocí zámého vztahu: xi i x,! de: x... jedotlivé hodoty proměé i... rozsah výběrového souboru (počet hodot proměé) Přestože to ta a prví pohled vypadá, aritmeticý průměr eí vždy pro výpočet průměru výběrového souboru ejvhodější. Pracujeme-li, apřílad, s proměou představující relativí změy (růstové idexy, ceové idexy...), používáme tzv. geometricý průměr. Pro výpočet průměru v případech, dy proměá má charater části z celu (úlohy o společé práci...), používáme průměr harmoicý, atd. Vzhledem tomu, že průměr se staovuje ze všech hodot proměé, ese maximum iformací o výběrovém souboru. Na druhé straě je vša velmi citlivý a tzv. odlehlá pozorováí, což jsou hodoty, teré se mimořádě liší od ostatích a doážou proto vychýlit průměr atoli, že přestává daý výběr reprezetovat. Pro sezámeí s metodami vedoucími idetifiaci odlehlých pozorováí zde chybí prostor, proto budeme pouze slepě důvěřovat idetifiaci, terou provádí statisticý software. Mírami polohy, teré ejsou ovlivěy odlehlými pozorováími jsou tzv. výběrové vatily. Výběrové vatily Výběrové vatily jsou statistiy, teré charaterizují polohu jedotlivých hodot v rámci proměé. Výběrové vatily rezistetí (odolé) vůči odlehlým pozorováím. Obecě je výběrový vatil (dále je vatil) defiová jao hodota, terá rozděluje výběrový soubor a dvě části prví z ich obsahuje hodoty, teré jsou meší ež daý vatil; druhá část obsahuje hodoty, teré jsou větší ebo rovy daému vatilu. Pro určeí vatilu je proto uté výběr uspořádat od ejmeší hodoty ejvětší. Kvatil proměé x, terý odděluje 0p% meších hodot od zbytu souboru, tj. od 0(1-p)% hodot, azýváme 0p %-ím vatilem a začíme jej x p. V praxi se ejčastěji setáváme s těmito vatily: Dolí vartil x 0,5 = 5%-í vatil (rozděluje datový soubor ta, že 5% hodot je meších ež teto vartil a zbyte, tj. 75% větších (ebo rových)). Mediá x 0,5 = 50%-í vatil (rozděluje datový soubor ta, že polovia (50%) hodot je meších ež mediá a polovia (50%) hodot větších (ebo rových)). Horí vartil x 0,75 = 75%-í vatil (rozděluje datový soubor ta, že 75% hodot je meších ež teto vartil a zbyte, tj. 5% větších (ebo rových)).
Kvartily dělí výběrový soubor a 4 stejě četé části... Míry variability Průměry, stejě jao mediá vyjadřují pomyslý střed proměé, eříají vša ic o rozložeí jedotlivých hodot proměé olem tohoto středu, tj. o variabilitě proměé. Je zřejmé, že čím větší je rozptýleost hodot proměé olem jejího pomyslého středu, tím meší je schopost tohoto středu reprezetovat celou proměou. Následující tři statisticé charateristiy ám umožňují popis variability (rozptýleosti) výběrového souboru, eboli popis rozptylu jedotlivých hodot olem středu proměé azýváme je tedy mírami variability. Výběrový rozptyl s je ejrozšířeější mírou variability výběrového souboru. Určujeme jej podle vztahu: s i 1 1 x x i, tz. výběrový rozptyl je dá podílem součtu vadrátu odchyle jedotlivých hodot od průměru a rozsahu souboru sížeého o jediču. Nevýhodou použití výběrového rozptylu jaožto míry variability je to, že rozměr této charateristiy je druhou mociou rozměru proměé. (Např. je-li proměou deí tržba uvedea v Kč, bude výběrový rozptyl této proměé vyjádře v Kč.) Teto edostate odstraňuje další míra variability, a tou je: Výběrová směrodatá odchyla s je defiováa prostě jao odmocia výběrového rozptylu: s s i1 1 x x i. Nevýhodou výběrového rozptylu i výběrové směrodaté odchyly je ta sutečost, že eumožňují porovávat varibilitu proměých vyjádřeých v růzých jedotách. Která proměá má větší variabilitu výša ebo hmotost dospělého jedice? Na tuto otázu ám dá odpověď, tzv. variačí oeficiet. Variačí oeficiet V x vyjadřuje relativí míru variability proměé x. Podle íže uvedeého vztahu jej lze staovit pouze pro proměé, teré abývají výhradě ladých 11
hodot. Variačí oeficiet je bezrozměrý, uvádíme-li jej v [%], hodotu zísaou z defiičího vzorce vyásobíme 0%. V x s x..3 Graficá prezetace umericé proměé Krabicový graf (Box plot) Krabicový graf se ve statistice využívá od rou 1977, dy jej poprvé prezetoval statisti Tuey (azval jej box with whisers plot rabicový graf s vousama). Graficá podoba tohoto grafu se v růzých apliacích mírě liší. Jedu z jeho verzí vidíte a výše uvedeém obrázu. BUNCHWEIGH 60 50 40 ax 1 odlehlé pozorováí m Odlehlá pozorováí jsou zázorěa jao izolovaé body, oec horího (popř. oec dolího) vousu představují maximum max 1 (popř. miimum mi 1 ) proměé po vyloučeí odlehlých pozorováí, vío rabice udává horí vartil, do dolí vartil, vodorová úseča orth 30 0 uvitř rabice ozačuje mediá. Svora vě rabice uazuje shorth, což je ejratší iterval, v ěmž se achází alespoň polovia hodot. Z polohy mediáu vzhledem e rabici lze dobře usuzovat a symetrii vitřích 50% dat a my ta zísáváme dobrý přehled o středu a rozptýleosti proměé. Poz.: Z popisu rabicového grafu je zřejmé, že jeho ostruci začíáme zaresleím odlehlých pozorováí a až poté vyzačujeme ostatí číselé charateristiy proměé (mi 1, max 1, vartily a shorth). 0 sh vartil i 1 horí vartil mediá dolí m..4 Uázy prezetací umericé proměé (e vždy správé) A opět astal čas pro aši hru. Připravte se budeme opět opravovat práce studetů VŠ. Část semestrálího projetu C Téma: Týmy NHL Úvod Pro vypracováí semestrálí práce jsem si zvolil týmy NHL. O hoej se zajímám dlouho a proto bych vám chtěl právě tuhle ejsledovaější hoejovou ligu světa představit. Ja už je jistě zámo, ta úspěch hoejových družstev je u ás v ČR a všude jide ve světě závislý a fiacích. NHL má ale staoveý platový 1
strop, taže výsledy těchto týmů a fiacích ezávisí, protože aždý má v tomto směru stejé podmíy. Výsledy týmů se tedy odvíjí od jiých uazatelů ež jsou fiace a právě a tyhle uazatele se v této semestrálí práci zaměřím. Aalyzovaá data Data jsou zísáa z růzých iteretových stráe. Všechy data byla zísáa e di 15.1.008, dy týmy měli odehráy 45 ol. To zameá, že byla přibližě v půlce záladí části, protože celá záladí část má 8 soutěžích ol. Název týmu Kapacita stadiou Vě apitáa týmu Průměrý vě týmu Góly Střely Úspěšost braáře Aaheim 17174 33 9,5 117 183 91,41 54 Atlata 18545 37 9,08 17 156 90,6 46 Bosto 17565 3 8,6 114 114 91,50 48 Buffalo 18690 33 8,0 14 1304 90,95 44 Calgary 17439 35 30,04 134 1314 89,63 5 Carolia 18730 37 30,5 139 1540 88,73 48 Colorado 0500 34 7,96 16 13 89,85 51 Columbus 18007 38 6,6 7 189 91,66 48 Byla použita pouze uáza zdrojového datového souboru Kvůli velému počtu růzých dat tabulu zjedodušíme: Kapacita stadiou: 1. méě ež 18 000. 18 000 až 0 000 3. více ež 0 000 Vě apitáá týmu: 1. méě ež 8 let. 8 až 33 let 3. více ež 33 let Průměrý vě týmu: 1. méě ež 7 let. 7 až 9 let 3. více ež 9 let Góly: 1. méě ež gólu. až 14 gólů 3. 15 až 130 gólů 4. více ež 130 gólů Střely: 1. méě ež 0 střel. 0 až 150 střel 3. 151 až 1300 střel 4. více ež 1300 střel Úspěšost braáře: 1. méě ež 90 %. 90 až 9 % 3. větší ež 9 % Body: 1. méě ež 44 bodů Body 13
Název týmu. 44 až 49 bodů 3. 50 až 55 bodů 4. více ež 55 bodů Kapacita stadiou Vě apitáa týmu Průměrý vě týmu Góly Střely Úspěšost braáře Body Aaheim 1 3 1 3 3 Atlata 3 3 3 3 Bosto 1 1 1 Buffalo 4 Calgary 1 3 3 4 4 1 3 Carolia 3 3 4 4 1 Colorado 3 3 3 4 1 3 Columbus 3 1 1 3 Byla použita pouze uáza datového souboru Počet zísaých bodů Za vyhraý zápas aždý tým zísá dva body. Maximálí počet bodů je tedy 90. Z grafu je vidět, ja je celá soutěž vyrovaá dyž 36,67% týmů má 44 až 49 bodů a 40% má 50 až 55 bodů. Taže 76,67% týmů, což čítá téměř přesě 3 týmů se tedy pohybuje v rozmezí od 44 až do 55 bodů, což je těsě ad poloviou možých zísaých bodů. 13,33% týmů. Což čítá téměř 4 týmy edosáhli a bodovou hraici 44 bodů a % týmů, čili přesě tři týmy bodovou hraici 55 bodů přeoali. Hodoceí části semestrálího projetu C: Zápory: Gramatia, eobraté formulace, háčy a čáry v ázvech grafů Zbytečý převod umericých proměých a ategoriálí (avíc eí zřejmé proč byly zvoley právě tyto ategorie proměých) výsledem je podstatá ztráta iformace. Formulace použita při prezetaci výsečového grafu 13,33% týmů. Což čítá téměř 4 týmy edosáhli a bodovou hraici 44 bodů a % týmů, čili přesě tři týmy bodovou hraici 55 bodů přeoali. by si vyžadovala podrobý ometář. Při prezetaci proměé Počet zísaých bodů chybí absolutí četosti. 14
Část semestrálího projetu D V ásledující uázce eí podstaté téma práce. Zaměříme se pouze a jedu posuzovaou proměou a to a vě respodetu průzumu průzum byl realizová a 80-ti studetech oboru geoiformatia. Vě Následující aalýzu jsem zvolila proto, že eí špaté zjistit vě studetů studujících a vysoé šole. Studetsé výhody lze uplatňovat pouze do 6 let, což zameá, že běžá VŠ lze za 6 let vystudovat i s ročím opaováím jedoho z ročíů. Z ásledujících výsledů lze vyvodit, ja moc je geoiformatia těžý studijí obor (popřípadě ja moc jsou studeti a tomto oboru fláači) a oli procet studetů estíhalo vystudovat teto obor v 5ti popřípadě 6ti letém rozmezí. Dále se zde bude moci zjistit, procetuálí rozložeí mladých studetů, teří ještě emusí vědět, jestli je teto obor přesě to co chtějí, a těch, teré obor opravdu zaujal a jsou už ve vyšších ročících. V programu StatGraphics jsem v meu Plot Bussiess charts Barchart zadala data a vytvořila histogram. obráze 1: Koláčový graf - Vě obráze : Histogram - Vě Z ásledujícího grafu a histogramu vyplývá, že ejvětší zastoupeí a oboru tvoří 3 letí studeti. Se stoupajícím věem ubývá počet studetů. Je to daé mimo jié tím, že do prvích ročíů je vždy přijato hodě studetů a ižeýrsým titulům dojde zhruba 1/3 původě všech přijatých. Něteří studeti uočí své studium po baalářsých státicích a dál jdou buď a jiý obor a ebo studium dále eprodlužují a vydají se pracoví cestou. Ze všech studetů je pouze 5% těch, teří mají více ež 6 let. Dá se z toho usuzovat, že obor geoiformatia lze vystudovat s opaováím pouze jedoho ročíu relativě sado. Na datech věu jsem taé provedla statisticou aalýzu ve teré se zjistili ásledující iformace (StatGraphics: meu Describe Numeric data Oe variable aalysis) 15
tabula 1: Statisticé iformace VŠ. Věový průměr dotazovaých je, roů. Miimum je 19 a maximum je 6, jeliož odpovídali studeti Pro lepší zázorěí jsem zvolila využití i rabicového grafu: obráze 3: Krabicový graf Horí vartil je 3,5 a dolí vartil je 1 (5% hodot je meší ež dolí vatil a 75% hodot je meších ež hodota horího vatilu). Mediá rozděluje data a dvě stejé poloviy, je představová modrou čárou uprostřed a z tabuly vyčteme, že má hodotu. Červeá teča představuje již zmiňovaý průměr. Hodoceí části semestrálího projetu D: Zápory Češtia Kometáře obsahují mohé sporé výroy apř. Z ásledujících výsledů lze vyvodit, ja moc je geoiformatia těžý studijí obor (popřípadě ja moc jsou studeti a tomto oboru fláači) a oli procet studetů estíhalo vystudovat teto obor v 5ti popřípadě 6ti letém rozmezí., resp. Ze všech studetů je pouze 5% těch, teří mají více ež 6 let. Dá se z toho usuzovat, že obor geoiformatia lze vystudovat s opaováím pouze jedoho ročíu relativě sado. Výběrový soubor je přitom tvoře pouze studety daého oboru, iformace o studetech, teří studium oboru edoočili, v datech obsažea eí. 16
Pro prezetaci umericé proměé jsou použity grafy určeé pro ategoriálí proměou. Číselé charateristiy umericé proměé Vě jsou edostatečě ometováy. Tabula číselých charateristi obsahuje řadu údajů, teré emají pro exploratorí statistiu výzam. Počet desetiých míst v tabulce uvádějící číselé charateristiy. Kometáře číselých charateristi jsou obecé, ic eříající, chybí jedoty. Nedostatečý ometář e rabicovému grafu. Část semestrálího projetu E Téma: Připojeí iteretu V tomto projetu se chci zabývat připojeím iteretu ve vybraých oresech ČR. Zdrojová data Uvedeá data jsem čerpal z iteretových stráe : www.rychlost.cz. Ores Typ připojeí Počet testů Dow (bit/s) Up (bit/s) Odezva (ms) Beešov 1 460 047 19,5 7,6 Berou 188 1684, 749,5 36, Blaso 958 130,6 64,8 46,8 Bro-město 71 1314,8 608, 34 Bro-veov 1 893 1734,7 15,8 0, Byla použita pouze uáza zdrojového datového souboru Typ připojeí: 1-adsl, -wifi Hodoty Dow, Up a Odezva jsou průměrými hodotami aměřeými v jedotlivých oresech..1 Obecý úvod do problematiy EDA slouží rychlému uspořádáí velého možství dat do ázorější podoby. Je velice rychlá a obsahuje velé možství ázorých iformací o zoumaém vzoru. Exploračí aalýzu budu vyhodocovat pro všechy sloupce tabuly.. Exploračí aalýza + grafy (Histogram, Box plot) Aalýza iteretového připojeí z hledisa veliosti odezvy: Počet pozorováí = 30 Maximum = 5, Miimum = 5,5 Průměr = 64,9367 Dolí vartil = 4,1 Mediá = 68,9 Horí vartil = 83,8 17
Z této aalýzy se dozvídáme, že průměrá veliost odezvy v testovaých oresech je 64,9367 ms. Dále jsme zjistili, že ve čtvrtiě oresů je průměrá veliost odezvy větší ež 83,8 ms (horí vartil). Z histogramu vyplívá, že průměrá veliost odezvy v jedotlivých oresech se ejčastěji pohybuje mezi 80 a 0 ms. Nejmeší průměrá veliost odezvy je v orese Brutál (5,5 ms-wifi) a ejvětší v orese Chomutov (5, msadsl). Hodoceí části semestrálího projetu E: Zápory Češtia Nepřesá specifiace cíle práce. Zdrojový datový soubor eí doplě o ometář (co je to Dow, Up,?) Růzá přesost dat ve zdrojovém datovém souboru (0 des.míst x 1 des. místo v rámci jedé proměé). Počet des. míst uvedeých číselých charateristi Z této aalýzy se dozvídáme, že průměrá veliost odezvy v testovaých oresech je 64,9367 ms. Zavádějící hodoceí Z histogramu vyplívá, že průměrá veliost odezvy v jedotlivých oresech se ejčastěji pohybuje mezi 80 a 0 ms. (Co dybychom změili šířu jedotlivých ategorií, pro ěž je histogram sestroje?) Chybí charateristiy variability. Ja tedy prezetovat umericou proměou? Část semestrálího projetu G Téma: Průměré cey bytů v ČR v letech 004-006 v závislosti a veliosti obcí (v Kč/m ) Data jsem alezla a stráách Česého statisticého úřadu (http://www.czso.cz/), v seci Cey sledovaých druhů emovitostí v letech 004-006, orétě se jedá o data: Průměré cey bytů v ČR v letech 004-006 v závislosti a veliosti obcí (v Kč/m ). Vybrala jsem si pouze hodoty teré budu dále zpracovávat a to pro ro 006. Název raje raje Česé Republiy (14 ategorií) Veliost obcí veliost obcí dle počtu obyvatel (4 ategorie) Kupí cea upí cea bytu prodejí cea bytu (Kč/m ) Odhadí cea odhadí cea bytu suteča cea bytu (Kč/m ) Veliost bytu veliost bytu (m ) Opotřebeí opotřebeí bytu zhodoceí stavu bytu (%) 18
Tabula Název raje Veliost obcí Kupí cea Kč/m Odhadí cea Kč/m Průměrá veliost bytu v m Průměré opotřebeí v % Hlaví město Praha Středočesý Praha 1 55.566 43.594 77 30,1 Praha, 6, 7 39.003 9.744 70 6,5 Praha 3-5, 8-8 31.76 3.309 61 0,8 do 1 999 obyv. 9.800 7.385 66 5,7 000-9 999 obyv. 15.815.041 61 19,8 000-49 999 obyv. 16.066 1.60 60,0 50 000 obyv. a více 19.343 13.687 53 1,5 Byla použita pouze uáza zdrojového datového souboru Sloví ázvů jedotlivých charateristi: Aglicý ázev Cout Average Media Variace Stadard deviatio Coeff. of variatio Miimum Maximum Lower quartile Upper quartile Česý ázev Rozsah souboru (počet hodot) Průměr Mediá Rozptyl Směrodatá odchyla Variačí oeficiet Miimum Maximum Dolí vartil Horí vartil Aalýza dat Aalýza proměé: KUPNÍ CENA (Kč/m ) Krabicový graf: Dolí vartil Odlehlá pozorováí Mediá Miimum 1 Průměr Maximum 1 Horí vartil 19
1 Miimum a maximum po odstraěí odlehlých pozorováí Vidíme zde tři odlehlá pozorováí, jsou způsobea ceami bytů za m v Praze. Cey se zde pohybují vysoce ad průměrem, orétě od 31 76 Kč/m až do 55 566 Kč/m. Můžeme si taé všimout, že průměr zde leží ad mediáem, což s ejvětší pravděpodobostí způsobila odlehlá pozorováí...5 Záladí číselé charateristiy: Číselé charateristiy pro Kupí ceu bytů (Kč/m ) Cout = 55 Average = 1.784,3 Media =.343,0 Variace = 7,4E7 Stadard deviatio = 8.605,1 Coeff. of variatio = 67,3% Miimum = 4.87,0 Maximum = 55.566,0 Lower quartile = 7.957,0 Upper quartile = 15.805,0 Byly vyhodocey Kupí cey 55-ti (cout) bytů v ČR. Cey byly uvedey v Kč za m. Průměrá upí cea bytu v ČR čií 1.784,3 Kč/m. Rozptyl, směrodatá odchyla a variačí oeficiet určují míru variability výběrového souboru. Optimálí variačí oeficiet je 50 %, a záladě zísaých výsledů je tedy zřejmé, že je vhodé za typicého reprezetata upí cey považovat mediá. Vypovídací schopost průměru je mírě sížea. Mediá upí cey ám udává, že polovia bytů v ČR se upuje za méě ež.343,0 Kč/m. Dle údajů, z ichž jsem při zpracováí problému vycházela je miimálí upí cea bytu v ČR 4.87,0 Kč/m, maximálí 55.566,0 Kč/m. ¼ bytů upuje za ceu ižší ež 7.957,0 Kč/m a ve ¼ případů upí cea převyšuje 15.805,0 Kč/m. Na rabicovém grafu můžeme pozorovat tři odlehlá pozorováí, terá jsou způsobea upími ceami bytů v Praze. Cey se zde pohybují vysoce ad průměrem, orétě od 31.76,0 Kč/m až do 55.566,0 Kč/m. Tato odlehlá pozorováí rověž způsobila, že průměrá upí cea bytu je vyšší ež mediá upí cey. 3 Závěr Byli jste sezámeí se zálady exploratorí statistiy a zároveň byly prezetováy ejtypičtější chyby, s imiž se v rámci prvích studetsých pousů o tuto aiví statistiu setáváme. Cílem čláu bylo pomoci Vám s tímto záladím zpracováím jedoduchých datových souborů a utřídit iformace, teré Vám, zřejmě, byly zámy. Uázy tařa profesioálích přístupu aalýze dat, rověž studetsých prací, pa zájemci mohou ajít a webových stráách určeých pro výuu předmětu Statistia I. a FEI, VŠB TU Ostrava www.am.vsb.cz/litschmaova. 0