Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky



Podobné dokumenty
Návod na vypracování semestrálního projektu

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

TECHNICKÁ UNIVERZITA V LIBERCI

Statistika. Semestrální projekt

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Projekt z předmětu Statistika

Tabulka 1. Výběr z datové tabulky

Tomáš Karel LS 2012/2013

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

VŠB Technická univerzita Ostrava BIOSTATISTIKA

4ST201 STATISTIKA CVIČENÍ Č. 7

Korelace. Komentované řešení pomocí MS Excel

TECHNICKÁ UNIVERZITA V LIBERCI

Analýza dat z dotazníkových šetření

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

TECHNICKÁ UNIVERZITA V LIBERCI

Technická univerzita v Liberci

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jana Vránová, 3. lékařská fakulta UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Cvičení 12: Binární logistická regrese

TECHNICKÁ UNIVERZITA V LIBERCI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zápočtová práce STATISTIKA I

Ilustrační příklad odhadu LRM v SW Gretl

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

ADDS cviceni. Pavlina Kuranova

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

You created this PDF from an application that is not licensed to print to novapdf printer (

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Pravděpodobnost a matematická statistika

Semestrální projekt spočívá v nalezení vhodného datového souboru a jeho statistické analýze s využitím metod probíraných v rámci předmětu.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

STATISTIKA LS Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D.

Kontingenční tabulky, korelační koeficienty

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Statistické zkoumání faktorů výšky obyvatel ČR

Statistické metody uţívané při ověřování platnosti hypotéz

Tomáš Karel LS 2012/2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

VŠB Technická univerzita Ostrava

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Plánování experimentu

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování statistických hypotéz

Vzorová prezentace do předmětu Statistika

Úvodem Dříve les než stromy 3 Operace s maticemi

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

KGG/STG Statistika pro geografy

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

KORELACE. Komentované řešení pomocí programu Statistica

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Metodologie pro Informační studia a knihovnictví 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Lineární regrese. Komentované řešení pomocí MS Excel

INDUKTIVNÍ STATISTIKA

Jednostranné intervaly spolehlivosti

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

MOŽNOSTI A LIMITY VYUŽITÍ MODERNÍCH TECHNOLOGIÍ PŘI VÝUCE MATEMATIKY NA EKF VŠB-TUO

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Nejčastější chyby v explorační analýze

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Tomáš Karel LS 2012/2013

Kontingenční tabulky, korelační koeficienty

Transkript:

Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013

Úvod Cílem tohoto projektu, zadaného v rámci předmětu Statistika, bylo prozkoumat, zda existují pozoruhodné vlastnosti úživatelů bankovních účtů, či vlastností produktů, jež různé skupiny populace využívají. Data byla získána online dotazníkovým průzkumem. Nejprve byly zkoumány základní údaje respondentů, následně se několik otázek týkalo běžných bankovních účtů a doplňující otázky byly zaměřeny na spořící účty. 2

Obsah 1 Zadání...4 1.1 Zdroj dat...4 2 Zdrojová data...5 3 Analýza dat...6 3.1 Explorační analýza...6 3.1.1 Vzdělání...6 3.1.2 Zaměstnání...7 3.1.3 Výše bankovních poplatků...7 3.1.4 Využívání spořících účtů...8 4 Statistická indukce...9 4.1 Sledování závislosti mezi výší placených bankovních poplatků a zaměstnaneckým statusem9 4.1.1 Ověření předpokladů...9 4.1.2 Mannův-Whitneyův test...10 4.1.3 Závěr...10 4.2 Sledování závislosti mezi dosaženým vzděláním a využíváním spořících účtů...11 4.2.1 Ověření předpokladů...11 4.2.2 Kontingenční tabulka...11 4.2.3 Mozaikový graf využívání spořících účtů podle dosaženého vzdělání...12 4.2.4 Shlukový graf...12 4.2.5 2 (chí-kvadrát) test...12 4.2.6 Závěr...12 3

1 Zadání Zvolte si reálný výběrový soubor, který obsahuje alespoň 30 statistických jednotek 3 statistické proměnné Zpracovávaný soubor musí být výběrovým souborem (vzorkem z nějaké populace). Pokud data nejsou náhodným výběrem, nelze je použít. Jednalo by se o tzv. vyčerpávající šetření, u něhož pozbývá smyslu celá statistická indukce. Pro analýzu datového souboru použijte následující metody: Explorační analýza (povinně) a alespoň jednu z každé skupiny uvedených metod statistické indukce: Intervalové odhady, Jednovýběrové testy parametrických hypotéz, Dvouvýběrové testy parametrických hypotéz ANOVA, Analýza kontingenčních tabulek, Regresní (jednoduchá lineární regrese) a korelační analýza Součástí projektu je ověření všech předpokladů použitých metod statistické indukce. 1.1 Zdroj dat Internet, masová média (noviny, časopisy,...), vlastní laboratorní měření, vlastní sociologický průzkum (anketa), apod. 4

2 Zdrojová data Dotazníkové šetření probíhalo ve dnech 2.5.2013 8.5.2013 pomocí online dotazníku (https://docs.google.com/forms/d/1ttekk1ysgefamb_u1_ikasj2i0clevwfrlwur_mqxi/viewform) vytvořeného ve službě Google Docs / Google Drive. Odkaz na dotazník byl zveřejněn na sociální síti FaceBook a rozesílán pomocí prostředků pro rychlé posílání zpráv. Dotazník vyplnilo celkem 78 lidí, z nichž jeden záznam byl odstraněn jako irelevantní (daná osoba neměla zřízen žádný bankovní účet). Ukázka (část) dotazníku 5

3 Analýza dat 3.1 Explorační analýza V následujících kapitolách bude provedena explorační analýza statistických proměnných, které byly dále použity pro ověřování závislostí mezi jistými skupinami respondentů. 3.1.1 Vzdělání Dotazník vyplňovali pouze lidé s maturitou a vyšším vzděláním, počty respondentů s maturitou na gymnáziu a maturitou na odborné škole / učilišti byly sloučeny kvůli splnění podmínek při následné statistické indukci. Nejvyšší dosažené vzdělání Absolutní četnosti Relativní četnosti Maturita 23 30% Vyšší odborné 10 13% Vysokoškolské 44 57% CELKEM 77 100% 6

3.1.2 Zaměstnání U této statistické proměnné mohli respondenti vybrat více kategorií najednou. Zaměstnání Absolutní četnosti Relativní četnosti Student/ka 50 53% Zaměstnaná/ý 32 34% Nezaměstnaná/ý 2 2% Ponikatel/ka nebo živnostník 10 11% CELKEM 94 100% Histogram typu zaměstnání respondetnů 3.1.3 Výše bankovních poplatků Dotazník ze ptal také na výši bankovních polpatků, přičemž pokud respondent používal více běžných účtů, měl vyplnit nejvyšší měsíční částku v Korunách českých, kterou za některý z účtů platí. Částka 1500Kč / měsíc, kterou jeden z respondentů uvedl, byla z dat vyřazena jakožto odlehlé pozorování. Průměr 54,143 Medián 27,0 Směrodatná odchylka 70,464 Minimum 0 Maximum 321,0 Rozsah 321,0 7

3.1.4 Využívání spořících účtů Má spořící účet Absolutní četnosti Relativní četnosti ano 35 45% ne 42 55% CELKEM 77 100% Koláčový graf využívání spořících účtů: 8

4 Statistická indukce V následující kapitole bude vyhodnocováno, zda existují souvisosti mezi některými kombinacemi statistických proměnných. Data byla analyzována pomocí programu STATGRAPHICS Centurion XVI verze 16.1.18. 4.1 Sledování závislosti mezi výší placených bankovních poplatků a zaměstnaneckým statusem Myšlenkou vedoucí ke sledování této závislosti bylo, že podnikatelé a živnostníci potřebují pro svou činnost nadstandardní bankovní služby či nástroje. V důsledku toho je možné se domnívat, že za takové nadstandarty si budou muset v bankách připlatit. Nulová hypotéza H 0 : Alternativní hypotéza H A : H 0 Výše bankovních poplatků, které respondenti odvádějí bankám, nemá souvislost s tím, že provádějí podnikatelskou či živnostenskou činností K analyzování této závislosti použiji dvouvýběrový test parametrické hypotézy o shodě středních hodnot. Pro analýzu se tedy použije jako jedna skupina kategorie Ponikatelé a živnostníci a jako druhá skupina ostatní tedy zbývající kategorie. 4.1.1 Ověření předpokladů Nezávislé výběry populace Normální rozdělení Jak je vidět na histogramu poplatků, nejedná se o normální rozdělení hodnot. Z tohoto důvodu nemůžeme použít dvouvýběrový test parametrické hypotézy o shodě středních hodnot a namísto toho aplikujeme Mannův-Whitneyův test, což je neparamterický test o shodě mediánů. 9

4.1.2 Mannův-Whitneyův test Je potřeba zavést nové hypotézy: Nulová hypotéza H 0 : x 0,5 = y 0,5 Alternativní hypotéza H A : x 0,5 > y 0,5 U 1 =n 1 n 2 + n 1 (n 1 +1) 2 U 2 =n 1 n 2 + n 2 (n 2 +1) 2 T ( X, Y )=min(u 1, U 2 )= 1786 T 1 =10 67+ 67(67+1) 510=2438 2 T 2 =10 67+ 10(10+1) 2493= 1768 2 Dle tabulky T7. Kritické hodnoty Mannova-Whitneyova testu je vypočtená hodnota pod kritickou hodnotou tzn. zamítáme nulovou hypotézu. 4.1.3 Závěr Jelikož byla nulová hypotéza zamítnuta, příjímáme alternativní hypotézu. Z toho vyplývá, že existuje souvislost mezi podnikatelskou či živnostenskou činností a výší poplatků, které měsíčně daná osoba platí. 10

4.2 Sledování závislosti mezi dosaženým vzděláním a využíváním spořících účtů Zde chceme sledovat, zda existuje závislost mezi vzděláním respondentů a tím, zda si zřídili spořící účet. Jinými slovy zde sledujeme, zda lidé s vyšším vzděláním přikládají vyšší váhu eleminaci ztrát potenciálu peněz, kvůli snižování jejich hodnoty inflací. Úrok na spořicím účtu obvykle není dostatečně vysoký, aby kromě pokrytí inflace sloužil ke zhodnocení vkladu. Nulová hypotéza H 0 : Výše dosaženého vzdělání nemá vliv na využívání spořících účtů. Alternativní hypotéza H A : H 0 K analyzování této závislosti použiji kontingenční tabulku a na tu pak 2 (chí-kvadrát) test nezávislosti v kontingenční tabulce. Pro analýzu se použije na řádcích (nezávisle proměnná) jednotlivé úrovně dosaženého vzdělání a ve sloupcích (závisle proměnná) bude pouze má spořící účet / nemá spořící účet (možnosti, které se vyskytovali v dotazníku u otázky, týkajícíc se využívání spořících účtů, se zredukují pouze na má / nemá). 4.2.1 Ověření předpokladů Žádná z očekávaných četností nesmí být < 2 Alespoň 80% očekávaných četností musí být > 5 Oba předpoklady jsou splněny. 4.2.2 Kontingenční tabulka vzdělání ano ne Součty - řádky Maturita absolutní četnost 7 16 23 relativní četnost 9,09% 20,78% 29,87% očekávaná četnost 10,45 12,55 Vyšší odborné absolutní četnost 4 6 10 relativní četnost 5,19% 7,79% 12,99% očekávaná četnost 4,55 5,45 Vysokoškolské (Bc., Mgr., Ing., PhD.,... absolutní četnost 24 20 44 relativní četnost 31,17% 25,97% 57,14% očekávaná četnost 20,00 24,00 Součty - sloupce 35 42 77 45,45% 54,55% 100,00% 11

4.2.3 Mozaikový graf využívání spořících účtů podle dosaženého vzdělání 4.2.4 Shlukový graf 4.2.5 2 (chí-kvadrát) test p-hodnota = 0,1589 zamítáme nulovou hypotézu. 4.2.6 Závěr Jelikož byla nulová hypotéza na hladině významnosti 0,05 zamítnuta, příjímáme alternativní hypotézu. To také potvrzuje členitost mozaikového grafu. Z toho vyplývá, že existuje souvislost mezi dosaženým vzděláním a pravděpodobností využívání spořících účtů a to s přímou úměrností (čím vyšší vzdělání, tím vyšší pravděpodobnost využívání spořících účtů). 12