Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy POPISNÁ STATISTIKA V PROGRAMU MS EXCEL RYCHLÝ NÁHLED KAPITOLY Žádý výzkum se v deší době evyhe statistickému zpracováí dat. Je jedo, zda se jedá o medicíu, biologii, ebo ekoomii případě marketig. Jmeovitě ekoomické disciplíy patří mezi ty obory, pro které je zpracováí dat evyhutelé. Pro složitější testováí a sofistikovaé ekoometrické modely ekoomové určitě zvolí speciálí statistický software, ale pro základí charakteristiky dat, statistické testy a jedoduché regresí modely je možé použít také tabulkový procesor. To, jak pro základí statistické operace využít tabulkový procesor Excel je stručě popsaé v prvích čtyřech kapitolách studijího textu. Předpokládáme přitom, že čteář má k dispozici verzi Excel 2007, evetuálě vyšší. Pro zjedodušeí práce je vhodé mít aktivovaý doplěk Aalýza dat ve složce Data (viz Obr..) Obrázek. V případě, že teto doplěk eí ve složce Data, lehce ho aistalujete tímto postupem: Tlačítko Office Možosti aplikace Excel Doplňky Přejít a v dialogovém okě zaškrtout položku Aalytické ástroje (viz Obr..2). Obrázek.2 Kromě doplňku Aalýza dat tabulkový procesor MS Excel dispouje širokým spektrem statistických fukcí. Všechy fukce procesoru MS Excel použité v ásledujícím textu budou vyzačey ve tvaru: =FUNKCE(proměá; ; proměán) se zamékem = a začátku; použití aalytického ástroje bude vyzačeo podobým způsobem, apříklad Histogram. - 9 -
Popisá statistika v programu MS Excel Základí metodou zpracováí velkého rozsahu číselých dat je metoda rozděleí četosti, a jeho zobrazeí pomocí sloupcového grafu histogramu četosti. Dalším krokem je obvykle výpočet základích charakteristik souboru a případé zázorěí dat pomocí grafů, aby bylo možé odhadout případé závislosti v souboru. Kostrukcí histogramu četosti a výpočtem základích charakteristik dat se zabývá další část této kapitoly.. HISTOGRAM ČETNOSTI Histogram četosti je sloupcový graf, zázorňující rozděleí četostí číselých dat v třídách epřekrývajících se stejě širokých itervalech. Optimálí počet tříd k v histogramu lze staovit pomocí tzv. Sturgersova pravidla k Roud ( 3,3.log ( )), kde je počet údajů v souboru. Fukce Roud ( ) ozačuje 0 zaokrouhleí argumetu fukce a ejbližší celé číslo. Počet tříd v histogramu se může mírě lišit od optimálího hlavě z důvodů většího přehledu a logiky v datech. Například časy příchodů zákazíků do prodejy sledovaé po dobu jedoho týde je logické do histogramu seřadit v závislosti a velikosti souboru po dech, případě po hodiách, a esažit se uměle vytvořit třídy, které ekorespodují s obvyklým časovým čleěím týde (apříklad,8 de, ebo 3,48 hodiy) Je-li staove počet tříd, pak šířku třídy lze určit jako podíl rozpětí souboru a počtu tříd. Za rozpětí souboru považujeme rozdíl ejmeší a ejvětší hodoty souboru. Tabulkový procesor MS Excel umožňuje vytvořeí histogramu přímo z dat pomocí aalytického ástroje Histogram. Jako vstupí údaj stačí zadat pouze soubor číselých dat a horí hraice požadovaých tříd. Použití tohoto aalytického ástroje demostruje ásledující příklad: ŘEŠENÝ PŘÍKLAD. Následující tabulka obsahuje počty bodů, které získali studeti a testu ze statistiky. 48 62 78 56 74 23 2 48 99 00 59 25 34 36 70 0 24 36 48 59 52 38 47 23 88 78 67 68 20 a) Vypočítejte optimálí počet tříd pomocí Sturgersova pravidla. b) Zobrazte histogram četosti pro počet tříd z příkladu a). c) Zobrazte histogram četosti pro pět tříd. Řešeí: a) Optimálí počet tříd závisí a celkovém počtu pozorováí (údajů) v zadáí je výsledek třiceti písemých prací, tedy 30. Optimálí počet tříd: k Roud ( 3,3.log 0(30)) Roud (3,3.,477) Roud (4,8745) 5 6 b) Rozpětí souboru R zjistíme jako rozdíl maximálí a miimálí hodoty v datech. Teto rozdíl je: R max( x i ) mi( xi ) 00 0 00 Šířka třídy bude tedy 00/6 = 6,7. Pro sestrojeí histogramu četosti je uté připravit data a horí hraice tříd (viz Obr..3). - 0 -
Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy Obrázek.3 Po otevřeí ástroje Histogram (Data Aalýza dat Histogram) lze zadat vstupí oblast dat, horí hraice tříd a ozačit, že program má vytvořit graf (Obr..4). Obrázek.4 Program vygeeruje a ový list požadovaé četosti a také histogram (Obr..5). Obrázek.5 - -
Popisá statistika v programu MS Excel c) V případě, že histogram bude mít pět tříd je šířka třídy 20. Připraveé zadáí (Obr..6) Obrázek.6 Výsledý histogram (obr.7): Obrázek.7.2 ZÁKLADNÍ CHARAKTERISTIKY DAT Číselé charakteristiky jsou umerickým vyjádřeím ejzákladějších vlastostí statistického souboru. Podle toho, které vlastosti popisují, je lze rozdělit a charakteristiky polohy a charakteristiky variability. Mezi základí charakteristiky polohy patří modus, mediá a průměr. Mezi základí charakteristiky variability patří rozptyl, směrodatá odchylka, šikmost a špičatost. Modus xˆ představuje ejčetější hodotu, tedy takovou hodotu, která se v souboru vyskytuje ejčastěji. Je zcela ezávislý a ostatích hodotách, které se mohou libovolě měit, aiž se modus změí. Modus v programu MS Excel vypočítáme pomocí statistické fukce = MODE(číslo;číslo2;...). V případě že je v souboru více modů (multimodálí soubor), fukce zobrazí prví (ejmeší) modus v pořadí. - 2 -
Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy Mediá x ~ představuje prostředí hodotu v souboru hodot, tedy takovou hodotu, kdy existuje stejý počet meších (ebo stejých) a stejý počet větších (ebo stejých) hodot. Při sudém počtu hodot se mediá defiuje jako aritmetický průměr z ejvyšší hodoty dolí poloviy a ejižší hodoty horí poloviy hodot uspořádaých podle velikosti. Takto fuguje apř. statistická fukce =MEDIAN(číslo;číslo2;...) v Excelu. Lze se setkat též s defiicí mediáu coby 50% kvatilu. V tom případě je mediá ejvětší hodotou v dolí poloviě uspořádaých hodot. Aritmetický průměr (zkráceě: průměr) obdržíme jako součet jedotlivých výsledků měřeí ebo zjišťováí vyděleý celkovým počtem výsledků. Rozlišujeme přitom aritmetický průměr z celého souboru údajů, ebo je z určitého vzorku - výběru. Te prví azýváme populačím průměrem a ozačujeme jej řeckým písmeem, pro te druhý používáme ozačeí x a azýváme jej výběrovým průměrem. Zda se jedá o výběrový ebo populačí průměr, závisí a kokrétí situaci. Matematické vyjádřeí je ásledující: N populačí průměr, výběrový průměr x x i N i x i i. Přitom N představuje počet údajů celého souboru, představuje počet údajů z příslušého výběru. K výpočtu aritmetického průměru se používá fukce =PRŮMĚR(číslo;číslo2; ), která počítá pouze s číselými údaji, ostatí údaje včetě prázdých buěk igoruje. Aritmetický průměr dává stejou důležitost (váhu) každému z údajů, avšak údaje ěkdy stejou důležitost emají. Proto je v těchto případech vhodé použít vážeý aritmetický průměr pomocí vah w. V Excelu eí k dispozici speciálí fukce pro výpočet vážeého i aritmetického průměru, k výpočtu je třeba apsat vhodý vzorec. vážeý aritmetický průměr x w x. w i w i i V ekoomické oblasti se často počítá s růzými idexy, apř. ceovými. Pro výpočet průměrého idexu za určité období se používá geometrický průměr, který se vypočítá jako -tá odmocia ze součiu kladých hodot x. x 2 x : geometrický průměr x x x x g. 2. K výpočtu geometrického průměru se používá fukce =GEOMEAN(číslo;číslo2; ). Rozptyl je aritmetickým průměrem kvadrátů odchylek od aritmetického průměru. Podle toho, zda se jedá o rozptyl z celého souboru celé populace, ebo je rozptyl z jistého vzorku výběru z této populace, rozlišujeme populačí rozptyl, kterému říkáme jedoduše 2 2 rozptyl, začíme, a výběrový rozptyl, ozačujeme jej s : Vzorce vypadají ásledově: N 2 2 (populačí) rozptyl ( ), v Excelu fukce = VAR(číslo;číslo2;...), N i x i 2 2 výběrový rozptyl s ( x i x), v Excelu = VAR.VÝBĚR( (číslo;číslo2;...). i Číslo - se azývá počet stupňů volosti. Směrodatá odchylka je druhou odmociou z rozptylu. Ve shodě s předchozí termiologií rozlišujeme populačí směrodatou odchylku, ozačujeme ji, které říkáme prostě směrodatá odchylka, a výběrovou směrodatou odchylku, která je odmociou z výběrového rozptylu, ozačujeme ji s. V Excelu lze vypočítat populačí směrodatou i i - 3 -
Popisá statistika v programu MS Excel odchylku pomocí fukce =SMODCH(číslo;číslo2;...) a výběrovou směrodatou odchylku pomocí fukce =SMODCH.VÝBĚR(číslo;číslo2;...). Šikmost je charakteristikou, popisující symetrii pravděpodobostího rozděleí vzhledem k aritmetickému průměru, v Excelu se používá fukce = SKEW(číslo;číslo2;...). Nulová šikmost začí, že hodoty souboru jsou rovoměrě rozděley vlevo a vpravo od průměru. Kladá šikmost začí, že vpravo od průměru se vyskytují odlehlejší hodoty ežli vlevo a většia hodot se achází vlevo od průměru. U záporé šikmosti je tomu aopak. Špičatost je charakteristika rozděleí hodot souboru, která porovává daé rozděleí s tzv. ormálím rozděleím. V Excelu se pro výpočet špičatosti používá fukce =KURT(číslo;číslo2;...). Hodoty s tzv. ormovaým ormálím rozděleím (které má průměr rove ule a směrodatou odchylku rovu jedé) mají koeficiet špičatosti rove ule. Rozděleí s kladým koeficietem jsou špičatější ež ormovaé ormálí rozděleí, tedy hodoty jsou více kocetrováy v blízkosti průměru. Naopak rozděleí se záporým koeficietem šikmosti jsou plošší ež ormovaé ormálí rozděleí. ŘEŠENÝ PŘÍKLAD.2 Následující tabulka obsahuje počty bodů, které získali jedotliví studeti z testu z mikroekoomie: 48 62 78 56 74 23 2 48 99 00 59 25 23 36 70 0 24 36 48 23 52 38 47 23 88 78 67 68 20 57 37 23 59 3 23 7 78 67 a) Vypočítejte průměrý počet bodů. b) Nalezěte modus souboru. c) Vypočítejte mediá souboru. d) Vypočítejte výběrový rozptyl souboru. e) Vypočítejte výběrovou směrodatou odchylku souboru. f) Vypočítejte populačí rozptyl. g) Vypočítejte populačí směrodatou odchylku souboru. h) Vypočítejte šikmost souboru. i) Špičatost souboru. j) Načrtěte histogram četosti pro 5 tříd. Řešeí: Pomocí fukcí Excelu postupě dostaeme výsledky (Obr..8): - 4 -
Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy Obrázek.8 Statistické fukce ejsou jediou možostí, kterou Excel v souvislosti s popisou statistikou abízí. Tabulkový procesor MS Excel umožňuje výpočet celého souboru výběrových základích charakteristik přímo z dat pomocí položky hlavího meu záložky Data: Aalýza dat (pozor, musí být aistalováa, viz text pod obrázkem.), aalytický ástroj Popisá statistika. Použití tohoto aalytického ástroje demostruje ásledující příklad: ŘEŠENÝ PŘÍKLAD.3 Následující tabulka (stejá jako v Příkladu.2) obsahuje počty bodů, které získali jedotliví studeti z testu z mikroekoomie: 48 62 78 56 74 23 2 48 99 00 59 25 23 36 70 0 24 36 48 23 52 38 47 23 88 78 67 68 20 57 37 23 59 3 23 7 78 67 Vypočítejte průměrý počet bodů, alezěte modus souboru, vypočítejte mediá souboru, vypočítejte výběrový rozptyl a směrodatou odchylku souboru. Vypočítejte šikmost a špičatost souboru. Nalezěte maximálí a miimálí hodotu v souboru. - 5 -
Popisá statistika v programu MS Excel Řešeí: Pro výpočet pomocí aalytického ástroje Popisá statistika je uté připravit data do jedoho sloupce (ebo řádku), protože pro každý sloupec (případě řádek) se všechy hodoty počítají zvlášť. Tato vlastost je výhodá pro výpočet základích charakteristik dat pro ěkolik souborů (sloupců ebo řádků dat) ajedou. Po otevřeí ástroje Popisá statistika (Data Aalýza dat Popisá statistika) lze zadat vstupí oblast dat, ozačit, zda jsou data ve sloupci ebo v řádku, zadat případé popisky a určit, že vyžadujeme celkový přehled (Obr..9). Obrázek.9 Výsledá tabulka obsahuje všechy požadovaé iformace s popisem (Obr..0). Výsledky si můžete porovat s řešeím předchozího příkladu.2: Obrázek.0-6 -
Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy.3 PŘÍKLADY K PROCVIČENÍ PŘÍKLAD. Následující tabulka obsahuje počty bodů, které získali studeti z testu z makroekoomie. 2 3 8 4 4 9 20 2 2 4 2 20 0 4 6 8 9 a) Vypočítejte optimálí počet tříd pomocí Sturgersova pravidla. b) Zobrazte histogram četosti pro počet tříd z příkladu a). PŘÍKLAD.2 Zjistěte základí charakteristiky pro soubor dat z ásledující tabulky: 8 47 8 4 4 9 20 2 2 4 2 20 0 4 6 8 9 20 47 23 28 8 47 38 20 Vypočítejte průměrý počet bodů, alezěte modus souboru, vypočítejte mediá souboru, vypočítejte výběrový rozptyl a směrodatou odchylku souboru. Vypočítejte šikmost a špičatost souboru. Nalezěte maximálí a miimálí hodotu v souboru. Použijte aalytický ástroj Popisá statistika. PŘÍKLAD.3 Pro data z ásledující tabulky určete výběrovou směrodatou odchylku a populačí směrodatou odchylku a výsledky porovejte. Která směrodatá odchylka je větší? 4 2 20 0 4 24 49 50 39 25 34 36 50 0 24 36 48 39 20 0 4 6 8 8 47 28 20.4 ŘEŠENÍ PŘÍKLADŮ ŘEŠENÍ PŘÍKLADU. Optimálí počet tříd: k Roud ( 3,3.log (20)) Roud (3,3.,30) Roud (4,293) 4 5 0 Histogram četosti (Obr..): - 7 -
Popisá statistika v programu MS Excel Obrázek. ŘEŠENÍ PŘÍKLADU.2 Výsledá tabulka obsahuje všechy požadovaé iformace s popisem (Obr..2). Obrázek.2 ŘEŠENÍ PŘÍKLADU.3 Výběrová směrodatá odchylka je 6,034 a populačí směrodatá odchylka je 5,764. Větší je výběrová směrodatá odchylka. - 8 -
Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy.5 PŘÍPADOVÉ STUDIE PŘÍPADOVÁ STUDIE. Při marketigové studii pro výrobce praček byli respodeti dotázái, kolik let vlastí pračku, kterou mají doma. Odpovědi 00 respodetů jsou v ásledující tabulce: 2 3 2 5 5 6 7 2 2 2 3 4 3 5 6 8 8 8 5 7 2 3 2 2 2 3 5 6 7 7 8 9 6 7 0 2 2 4 6 7 2 2 3 0 9 20 2 9 9 8 6 5 2 2 3 4 2 2 5 6 7 9 8 9 2 3 4 2 2 3 4 4 5 2 2 3 9 9 9 3 2 2 5 0 0 2 0 7 6 5 4 3 2 a) Vypočítejte průměrý počet let vlastictví pračky. b) Nalezěte modus souboru. c) Vypočítejte mediá souboru. d) Vypočítejte výběrový rozptyl souboru. e) Vypočítejte výběrovou směrodatou odchylku souboru. f) Vypočítejte populačí rozptyl. g) Vypočítejte populačí směrodatou odchylku souboru. h) Vypočítejte šikmost a špičatost souboru. i) Pomocí Sturgersova pravidla určete optimálí počet tříd a ačrtěte histogram četosti. j) Načrtěte histogram četosti pro 0 tříd. - 9 -
Popisá statistika v programu MS Excel PŘÍPADOVÁ STUDIE.2 Při marketigové studii pro výrobce praček byli respodeti dále dotázái, kolik let vlastili pračku, kterou měli před yější pračkou. Odpovědi 00 respodetů jsou v ásledující tabulce: 2 3 2 5 5 6 7 2 2 20 3 4 3 5 6 8 8 8 5 7 20 6 2 2 3 7 2 3 5 6 7 7 8 9 6 7 0 0 20 20 4 6 7 2 2 3 0 9 20 2 9 9 8 6 5 2 2 3 4 2 2 5 6 7 9 8 9 0 23 3 4 2 2 3 3 4 5 2 2 9 9 9 3 2 2 5 0 0 2 0 7 6 5 4 3 2 a) Vypočítejte průměrý počet let vlastictví pračky. b) Nalezěte modus souboru. c) Vypočítejte mediá souboru. d) Vypočítejte výběrový rozptyl souboru. e) Vypočítejte výběrovou směrodatou odchylku souboru. f) Vypočítejte populačí rozptyl. g) Vypočítejte populačí směrodatou odchylku souboru. h) Vypočítejte šikmost a špičatost souboru. i) Pomocí Sturgersova pravidla určete optimálí počet tříd a ačrtěte histogram četosti. j) Načrtěte histogram četosti pro 5 tříd. k) Porovejte výsledky případové studie. a.2 a iterpretujte rozdíly. - 20 -