Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013
Úvod Cílem tohoto projektu, zadaného v rámci předmětu Statistika, bylo prozkoumat, zda existují pozoruhodné vlastnosti úživatelů bankovních účtů, či vlastností produktů, jež různé skupiny populace využívají. Data byla získána online dotazníkovým průzkumem. Nejprve byly zkoumány základní údaje respondentů, následně se několik otázek týkalo běžných bankovních účtů a doplňující otázky byly zaměřeny na spořící účty. 2
Obsah 1 Zadání...4 1.1 Zdroj dat...4 2 Zdrojová data...5 3 Analýza dat...6 3.1 Explorační analýza...6 3.1.1 Vzdělání...6 3.1.2 Zaměstnání...7 3.1.3 Výše bankovních poplatků...7 3.1.4 Využívání spořících účtů...8 4 Statistická indukce...9 4.1 Sledování závislosti mezi výší placených bankovních poplatků a zaměstnaneckým statusem9 4.1.1 Ověření předpokladů...9 4.1.2 Mannův-Whitneyův test...10 4.1.3 Závěr...10 4.2 Sledování závislosti mezi dosaženým vzděláním a využíváním spořících účtů...11 4.2.1 Ověření předpokladů...11 4.2.2 Kontingenční tabulka...11 4.2.3 Mozaikový graf využívání spořících účtů podle dosaženého vzdělání...12 4.2.4 Shlukový graf...12 4.2.5 2 (chí-kvadrát) test...12 4.2.6 Závěr...12 3
1 Zadání Zvolte si reálný výběrový soubor, který obsahuje alespoň 30 statistických jednotek 3 statistické proměnné Zpracovávaný soubor musí být výběrovým souborem (vzorkem z nějaké populace). Pokud data nejsou náhodným výběrem, nelze je použít. Jednalo by se o tzv. vyčerpávající šetření, u něhož pozbývá smyslu celá statistická indukce. Pro analýzu datového souboru použijte následující metody: Explorační analýza (povinně) a alespoň jednu z každé skupiny uvedených metod statistické indukce: Intervalové odhady, Jednovýběrové testy parametrických hypotéz, Dvouvýběrové testy parametrických hypotéz ANOVA, Analýza kontingenčních tabulek, Regresní (jednoduchá lineární regrese) a korelační analýza Součástí projektu je ověření všech předpokladů použitých metod statistické indukce. 1.1 Zdroj dat Internet, masová média (noviny, časopisy,...), vlastní laboratorní měření, vlastní sociologický průzkum (anketa), apod. 4
2 Zdrojová data Dotazníkové šetření probíhalo ve dnech 2.5.2013 8.5.2013 pomocí online dotazníku (https://docs.google.com/forms/d/1ttekk1ysgefamb_u1_ikasj2i0clevwfrlwur_mqxi/viewform) vytvořeného ve službě Google Docs / Google Drive. Odkaz na dotazník byl zveřejněn na sociální síti FaceBook a rozesílán pomocí prostředků pro rychlé posílání zpráv. Dotazník vyplnilo celkem 78 lidí, z nichž jeden záznam byl odstraněn jako irelevantní (daná osoba neměla zřízen žádný bankovní účet). Ukázka (část) dotazníku 5
3 Analýza dat 3.1 Explorační analýza V následujících kapitolách bude provedena explorační analýza statistických proměnných, které byly dále použity pro ověřování závislostí mezi jistými skupinami respondentů. 3.1.1 Vzdělání Dotazník vyplňovali pouze lidé s maturitou a vyšším vzděláním, počty respondentů s maturitou na gymnáziu a maturitou na odborné škole / učilišti byly sloučeny kvůli splnění podmínek při následné statistické indukci. Nejvyšší dosažené vzdělání Absolutní četnosti Relativní četnosti Maturita 23 30% Vyšší odborné 10 13% Vysokoškolské 44 57% CELKEM 77 100% 6
3.1.2 Zaměstnání U této statistické proměnné mohli respondenti vybrat více kategorií najednou. Zaměstnání Absolutní četnosti Relativní četnosti Student/ka 50 53% Zaměstnaná/ý 32 34% Nezaměstnaná/ý 2 2% Ponikatel/ka nebo živnostník 10 11% CELKEM 94 100% Histogram typu zaměstnání respondetnů 3.1.3 Výše bankovních poplatků Dotazník ze ptal také na výši bankovních polpatků, přičemž pokud respondent používal více běžných účtů, měl vyplnit nejvyšší měsíční částku v Korunách českých, kterou za některý z účtů platí. Částka 1500Kč / měsíc, kterou jeden z respondentů uvedl, byla z dat vyřazena jakožto odlehlé pozorování. Průměr 54,143 Medián 27,0 Směrodatná odchylka 70,464 Minimum 0 Maximum 321,0 Rozsah 321,0 7
3.1.4 Využívání spořících účtů Má spořící účet Absolutní četnosti Relativní četnosti ano 35 45% ne 42 55% CELKEM 77 100% Koláčový graf využívání spořících účtů: 8
4 Statistická indukce V následující kapitole bude vyhodnocováno, zda existují souvisosti mezi některými kombinacemi statistických proměnných. Data byla analyzována pomocí programu STATGRAPHICS Centurion XVI verze 16.1.18. 4.1 Sledování závislosti mezi výší placených bankovních poplatků a zaměstnaneckým statusem Myšlenkou vedoucí ke sledování této závislosti bylo, že podnikatelé a živnostníci potřebují pro svou činnost nadstandardní bankovní služby či nástroje. V důsledku toho je možné se domnívat, že za takové nadstandarty si budou muset v bankách připlatit. Nulová hypotéza H 0 : Alternativní hypotéza H A : H 0 Výše bankovních poplatků, které respondenti odvádějí bankám, nemá souvislost s tím, že provádějí podnikatelskou či živnostenskou činností K analyzování této závislosti použiji dvouvýběrový test parametrické hypotézy o shodě středních hodnot. Pro analýzu se tedy použije jako jedna skupina kategorie Ponikatelé a živnostníci a jako druhá skupina ostatní tedy zbývající kategorie. 4.1.1 Ověření předpokladů Nezávislé výběry populace Normální rozdělení Jak je vidět na histogramu poplatků, nejedná se o normální rozdělení hodnot. Z tohoto důvodu nemůžeme použít dvouvýběrový test parametrické hypotézy o shodě středních hodnot a namísto toho aplikujeme Mannův-Whitneyův test, což je neparamterický test o shodě mediánů. 9
4.1.2 Mannův-Whitneyův test Je potřeba zavést nové hypotézy: Nulová hypotéza H 0 : x 0,5 = y 0,5 Alternativní hypotéza H A : x 0,5 > y 0,5 U 1 =n 1 n 2 + n 1 (n 1 +1) 2 U 2 =n 1 n 2 + n 2 (n 2 +1) 2 T ( X, Y )=min(u 1, U 2 )= 1786 T 1 =10 67+ 67(67+1) 510=2438 2 T 2 =10 67+ 10(10+1) 2493= 1768 2 Dle tabulky T7. Kritické hodnoty Mannova-Whitneyova testu je vypočtená hodnota pod kritickou hodnotou tzn. zamítáme nulovou hypotézu. 4.1.3 Závěr Jelikož byla nulová hypotéza zamítnuta, příjímáme alternativní hypotézu. Z toho vyplývá, že existuje souvislost mezi podnikatelskou či živnostenskou činností a výší poplatků, které měsíčně daná osoba platí. 10
4.2 Sledování závislosti mezi dosaženým vzděláním a využíváním spořících účtů Zde chceme sledovat, zda existuje závislost mezi vzděláním respondentů a tím, zda si zřídili spořící účet. Jinými slovy zde sledujeme, zda lidé s vyšším vzděláním přikládají vyšší váhu eleminaci ztrát potenciálu peněz, kvůli snižování jejich hodnoty inflací. Úrok na spořicím účtu obvykle není dostatečně vysoký, aby kromě pokrytí inflace sloužil ke zhodnocení vkladu. Nulová hypotéza H 0 : Výše dosaženého vzdělání nemá vliv na využívání spořících účtů. Alternativní hypotéza H A : H 0 K analyzování této závislosti použiji kontingenční tabulku a na tu pak 2 (chí-kvadrát) test nezávislosti v kontingenční tabulce. Pro analýzu se použije na řádcích (nezávisle proměnná) jednotlivé úrovně dosaženého vzdělání a ve sloupcích (závisle proměnná) bude pouze má spořící účet / nemá spořící účet (možnosti, které se vyskytovali v dotazníku u otázky, týkajícíc se využívání spořících účtů, se zredukují pouze na má / nemá). 4.2.1 Ověření předpokladů Žádná z očekávaných četností nesmí být < 2 Alespoň 80% očekávaných četností musí být > 5 Oba předpoklady jsou splněny. 4.2.2 Kontingenční tabulka vzdělání ano ne Součty - řádky Maturita absolutní četnost 7 16 23 relativní četnost 9,09% 20,78% 29,87% očekávaná četnost 10,45 12,55 Vyšší odborné absolutní četnost 4 6 10 relativní četnost 5,19% 7,79% 12,99% očekávaná četnost 4,55 5,45 Vysokoškolské (Bc., Mgr., Ing., PhD.,... absolutní četnost 24 20 44 relativní četnost 31,17% 25,97% 57,14% očekávaná četnost 20,00 24,00 Součty - sloupce 35 42 77 45,45% 54,55% 100,00% 11
4.2.3 Mozaikový graf využívání spořících účtů podle dosaženého vzdělání 4.2.4 Shlukový graf 4.2.5 2 (chí-kvadrát) test p-hodnota = 0,1589 zamítáme nulovou hypotézu. 4.2.6 Závěr Jelikož byla nulová hypotéza na hladině významnosti 0,05 zamítnuta, příjímáme alternativní hypotézu. To také potvrzuje členitost mozaikového grafu. Z toho vyplývá, že existuje souvislost mezi dosaženým vzděláním a pravděpodobností využívání spořících účtů a to s přímou úměrností (čím vyšší vzdělání, tím vyšší pravděpodobnost využívání spořících účtů). 12