Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Statistika I Semestrální projekt Filmy a jejich diváci Autor: Petr Kašpar Login: KAS265 Datum: 19. května 2009
Obsah 1 Úvod... 3 1.1 Zadání... 3 2 Analyzovaná data... 4 2.1 Skladba otázek... 4 2.2 Ukázka vlastních dat... 5 3 Explorační analýza obecné informace... 6 3.1 Věk diváků... 6 3.2 Pohlaví diváků... 7 3.3 Počet obyvatel obce... 7 3.4 Zaměstnaní/studium respondentů... 8 4 Explorační analýza informace týkající se filmu... 9 4.1 Nejoblíbenější ţánr... 9 4.2 S kým nejčastěji koukají na film... 10 4.3 Kde nejčastěji koukají na film... 11 4.4 Je ve vašem městě kino?... 11 4.5 Co preferujete u zahraničních filmů... 12 4.6 Kolik filmů shlédnete za měsíc... 12 5 Statistické indukce... 14 5.1 Závislost velikosti města na existenci kina... 14 5.2 Závislost mezi zaměstnáním/studiem a preferencí lokalizace... 16 5.3 Závislost mezi pohlavím a oblíbeným ţánrem... 17 5.4 Závislost mezi velikostí obce a "s kým nejčastěji koukají"... 18 5.5 Závislost mezi pohlavím a počtem filmu shlédnutým za měsíc... 19 6 Závěr... 22 Pouţitá literatura a software... 23 2
1 Úvod V rámci tohoto semestrálního projektu se zaměřím na téma filmů a jejich diváků. Cílem tohoto projektu je dozvědět se zajímavé informace o vztahu diváků k filmům. Sám patřím mezi filmové fanoušky a výsledky tohoto projektu by mohly být zajímavé. V první části bude provedena explorační analýza nad zadanými daty. Data budou podrobně analyzována a případně vyvozeny patřičné závěry. Ve druhé části bude pouţito několik pokročilejších metod z oblasti statistické indukce, pomocí kterých budou ověřovány určité hypotézy. 1.1 Zadání Zvolte si reálný výběrový soubor, který obsahuje alespoň 30 statistických jednotek 3 statistické proměnné POZOR! Zpracovávaný soubor musí být výběrovým souborem (vzorkem z nějaké populace). Pokud data nejsou náhodným výběrem, nelze je pouţít. Jednalo by se o tzv. vyčerpávající šetření, u něhoţ pozbývá smyslu celá statistická indukce. Pro analýzu datového souboru pouţijte následující metody: Explorační analýza (povinně) a alespoň jednu z kaţdé skupiny uvedených metod statistické indukce: Intervalové odhady Jedno-výběrové testy parametrických hypotéz Dvou-výběrové testy parametrických hypotéz ANOVA Analýza kontingenčních tabulek Regresní (jednoduchá lineární regrese) a korelační analýza Součástí projektu je ověření všech předpokladů pouţitých metod statistické indukce. 3
2 Analyzovaná data Zdrojem dat pro tento projekt je vlastní průzkum (anketa), který byl proveden formou anonymního dotazníku. Dotazník byl vytvořen pomocí sluţby Formulář v aplikaci Google Docs. Odkaz na tento formulář byl následně umístěn na několik internetových stránek (vlastní stránky, stránky zabývající se filmovou a televizní tvorbou, různá společenská fóra a další). Tento průzkum probíhal v období od 22. 4. do 26. 4. a byl k dispozici pouze na internetu. Celkově se dotazníku zúčastnilo 520 respondentů. Po odstranění neplatných hlasů zbylo celkem 503 respondentů. Za neplatné hlasy jsem povaţoval neúplně či špatně vyplněné formuláře. 2.1 Skladba otázek Respondenti v dotazníku odpovídali na následující otázky: 1) Váš věk 0 15 16 20 21 30 31 40 více jak 40 2) Pohlaví Muţ Ţena 3) Počet obyvatel obce, ve které ţijete do 1000 1001 aţ 10 000 10 001 aţ 50 000 50 001 aţ 100 000 více neţ 100 000 4) Vaše aktuální zaměstnání / studium Student ZŠ Student SŠ Student VŠ Zaměstnanec/podnikatel Nezaměstnaný Penze 5) S kým nejčastěji koukáte na film? Sám S přítelkyní/přítelem S kamarády S rodinou 6) Je ve vašem městě kino? Ano Ne 7) Váš nejoblíbenější ţánr Akční Animovaný Dobrodruţný Dokumentární Drama Fantasy Historický Horor Hudební Komedie Krimi Mysteriózní Pohádka Romantický Sci-fi Thriller Válečný 8) Kde nejčastěji sledujete? TV/DVD Kino Počítač 9) Kolik filmů průměrně shlédnete za měsíc? Kvantitativní proměnná 10) Co preferujete u zahraničních filmů? CZ Titulky + originální znění CZ dabing Originální znění 4
2.2 Ukázka vlastních dat V následující tabulce (Tabulka 1) je ukázka získaných dat. Vzhledem k rozsáhlosti těchto dat je zde uvedeno pouze několik prvních odpovědí od respondentů. Všechny odpovědi jsou uvedeny v dokumentu filmy.xls, který je součástí tohoto projektu. Věk Pohlaví Počet obyvatel Zaměstnání Žánr S kým nejčastěji koukáte? Kde nejčastěji sledujete? Je ve vašem městě kino? Filmy za měsíc Co preferujete? 16 20 Muž více jak 100 000 Student SŠ Sci-fi S kamarády Kino Ano 20 CZ Titulky + orig. znění 16 20 Muž 10 001 až 50 000 Student SŠ Thriller S kamarády Kino Ano 15 CZ Titulky + orig. znění 16 20 Muž více jak 100 000 Student SŠ Thriller Sám Kino Ano 25 CZ Titulky + orig. znění 21 30 Muž 1001 až 10 000 Student VŠ Mysteriózní Sám Kino Ano 10 CZ Titulky + orig. znění 21 30 Muž více jak 100 000 Zaměstnanec Drama Sám Kino Ano 8 CZ Titulky + orig. znění 31 40 Muž více jak 100 000 Zaměstnanec Válečný Sám Kino Ano 10 CZ Titulky + orig. znění 16 20 Žena více jak 100 000 Student VŠ Akční Sám Kino Ano 15 CZ Titulky + orig. znění 21 30 Žena více jak 100 000 Zaměstnanec Drama S kamarády Kino Ano 8 CZ Titulky + orig. znění 16 20 Muž do 1000 Student SŠ Komedie Sám Kino Ano 20 CZ Titulky + orig. znění 16 20 Žena 10 001 až 50 000 Student SŠ Drama S kamarády Kino Ano 5 CZ Titulky + orig. znění 16 20 Muž 50 001 až 100 000 Student SŠ Komedie S kamarády Kino Ano 5 CZ Titulky + orig. znění 0 15 Muž 10 001 až 50 000 Student ZŠ Komedie Sám Počítač Ano 5 CZ dabing 16 20 Muž 1001 až 10 000 Student SŠ Akční S přítelkyní Počítač Ano 15 CZ dabing 21 30 Muž více jak 100 000 Student SŠ Komedie S přítelkyní Počítač Ano 5 CZ dabing 21 30 Muž 10 001 až 50 000 Zaměstnanec Akční S přítelkyní Počítač Ano 5 CZ dabing 16 20 Muž do 1000 Student SŠ Mysteriózní Sám Počítač Ne 5 CZ Titulky + orig. znění 16 20 Muž 10 001 až 50 000 Student SŠ Sci-fi Sám Počítač Ano 15 CZ Titulky + orig. znění 16 20 Muž do 1000 Student SŠ Válečný S kamarády Počítač Ne 10 CZ Titulky + orig. znění 16 20 Muž 50 001 až 100 000 Student SŠ Komedie Sám Počítač Ano 10 CZ Titulky + orig. znění Tabulka 1: Ukázka použitých dat 5
Kumulativní četnosti 3 Explorační analýza obecné informace 3.1 Věk diváků Věkové rozloţení respondentů je k dispozici v následující tabulce četnosti (Tabulka 2) a v histogramu (Obrázek 1) nebo ve výsečovém grafu (Obrázek 2). Celkem se ankety zúčastnilo 503 respondentů. Nejvíce byla zastoupena věková skupina 21 30 let. Konkrétně bylo respondentů s tímto věkem 245, coţ je téměř polovina všech dotázaných respondentů (48,71%). Druhá nejpočetnější skupina uvedla věk 16 20. Tento věk uvedlo 217 respondentů, coţ je 43,14% z celkového počtu. Nejméně zastoupená skupina je více jak 40 let. Tento věk uvedli pouze 3 respondenti, coţ je méně neţ 1%. Toto věkové rozloţení se dá odůvodnit cílovou skupinou webových stránek, na kterých byl umístěn odkaz na samotnou anketu. Na Obrázku 3 je vidět polygon kumulativních četností, ze kterého je jasně vidět, ţe největší četnosti jsou v rozmezí 16 aţ 30 let. # Věk Četnost Relativní četnost Kumulativní četnost Kum. rel. četnost 1 0 15 23 0,0457 23 0,0457 2 16 20 217 0,4314 240 0,4771 3 21 30 245 0,4871 485 0,9642 4 31 40 15 0,0298 500 0,9940 5 více jak 40 3 0,0060 503 1,0000 Tabulka 2: Četnosti věku respondentů Obrázek 1: Histogram věk diváků Obrázek 2: Výsečový graf věk diváků 600 500 400 300 200 100 0 Věk respondentů 0 15 16 20 21 30 31 40 více jak 40 Věk Obrázek 3: Galtonova ogiva věk respondentů 6
3.2 Pohlaví diváků Rozloţení pohlaví respondentů je patrné z následující tabulky četnosti (Tabulka 3) nebo z histogramu (Obrázek 4) či z výsečového grafu (Obrázek 5). Muţi měli značnou převahu. Z celkového počtu 503 respondentů uvedlo 445 z nich muţské pohlaví, coţ dává 88,47% z celkového počtu. Ţen bylo celkově 58, coţ je 11,53% z celkového počtu respondentů. Tato převaha muţů nad ţenami neznamená, ţe by se ţeny nedívaly na filmy. Je to s největší pravděpodobností zapříčiněno zaměřením internetových stránek, na kterých tento průzkum probíhal (na spoustě z nich převaţují muţi v roli návštěvníků). # Pohlaví Četnost Relativní četnost 1 Muţ 445 0,8847 2 Ţena 58 0,1153 Tabulka 3: Četnosti pohlaví respondentů Obrázek 4: Histogram pohlaví diváků Obrázek 5: Výsečový graf pohlaví diváků 3.3 Počet obyvatel obce Rozloţení velikostí obcí respondentů je patrné z následující tabulky četnosti (Tabulka 4) nebo z histogramu (Obrázek 6) či z výsečového grafu (Obrázek 7). Jelikoţ počet obyvatel obce je ordinální kvalitativní proměnná (obce se dají seřadit podle své velikosti), vytvořil jsem také polygon kumulativních četností, který je k vidění v grafu na Obrázku 8. Velikost bydliště byla rozdělená do 5 kategorií. Nejvíce respondentů pochází z největších obcí, které mají více neţ 100 000 obyvatel. Celkem tuto moţnost zvolilo 146 respondentů, coţ je 29,03%. Málo se od sebe lišili obce s počty obyvatel 1001 aţ 10 000 a 10 001 aţ 50 000. První moţnost zvolilo 115 diváků (22,86%), druhou moţnost zvolilo 114 diváků (22,66%). Nejmenší zastoupení měla obec s počtem obyvatel 50 001 aţ 100 000 a malé obce do 1000 obyvatel. První moţnost zvolilo 56 diváků (11,33%) a druhou 71 diváků, coţ je 14,12% z celkového počtu. # Počet obyvatel Četnost Relativní četnost Kumulativní četnost Kum. rel. četnost 1 1000 a méně 71 0,1412 71 0,1412 2 1001 aţ 10 000 115 0,2286 186 0,3698 3 10 001 aţ 50 000 114 0,2266 300 0,5964 4 50 001 aţ 100 000 57 0,1133 357 0,7097 5 více neţ 100 000 146 0,2903 503 1,0000 Tabulka 4: Četnosti velikosti obcí respondentů 7
Kumulativní četnosti Obrázek 6: Histogram počet obyvatel Obrázek 7: Výsečový graf počet obyvatel Na následujícím grafu (Obrázek 8) je vidět polygon kumulativních četností. Sklon (směrnice) polygonu u obce s počtem obyvatel 50 001 aţ 100 000 je niţší. Je to dáno tím, ţe četnost této varianty je také nízká. 600 500 400 300 200 100 0 Počet obyvatel do 1000 1001 až 10 000 10 001 až 50 000 50 001 až 100 000 více jak 100 000 Kategorie obce Obrázek 8: Galtonova ogiva počet obyvatel 3.4 Zaměstnaní/studium respondentů Zaměstnání/studium respondentů je k dispozici v následující tabulce četnosti (Tabulka 5) a v histogramu (Obrázek 9) nebo ve výsečovém grafu (Obrázek 10). Většina dotázaných nějakým způsobem studovala. Největší zastoupení měli studenti VŠ, kterých bylo 203, coţ je 40,36% ze všech. Studentů SŠ bylo 160 (31,81%) a studentů ZŠ 20 (3,98%). Další početná skupina byli zaměstnanci či podnikatelé. Tuto volbu uvedlo 99 respondentů, coţ je 19,68% z celkového počtu dotázaných. Volbu nezaměstnaný uvedlo 20 dotázaných (3,98%) a vyskytl se také 1 penzista (0,2%). # Zaměstnání Četnost Relativní četnost 1 Nezaměstnaný 20 0,0398 2 Penze 1 0,0020 3 Student SŠ 160 0,3181 4 Student VŠ 203 0,4036 5 Student ZŠ 20 0,0398 6 Zaměstnanec/podnikat 99 0,1968 Tabulka 5: Četnosti zaměstnání respondentů 8
Obrázek 9: Histogram zaměstnání Obrázek 10: Výsečový graf zaměstnání 4 Explorační analýza informace týkající se filmu V této části jiţ bude analýza statistických proměnných týkajících se přímo oblasti filmu. Jmenovitě to bude nejoblíbenější ţánr respondentů, s kým nejčastěji sledují, kde nejčastěji sledují, zda je v jejich městě kino, kolik průměrně shlédnou filmů za měsíc a jakou formu lokalizace preferují u zahraničních filmů. 4.1 Nejoblíbenější žánr Rozloţení nejoblíbenějších ţánrů u dotázaných diváků je patrné z následující tabulky četnosti (Tabulka 6) nebo z histogramu (Obrázek 11) či z výsečového grafu (Obrázek 12). # Žánr Četnost Relativní četnost 1 Akční 62 0,1233 2 Animovaný 13 0,0258 3 Dobrodruţný 6 0,0119 4 Dokumentární 4 0,0080 5 Drama 63 0,1252 6 Fantasy 25 0,0497 7 Historický 11 0,0219 8 Horor 20 0,0398 9 Hudební 1 0,0020 10 Komedie 152 0,3022 11 Krimi 6 0,0119 12 Mysteriózní 16 0,0318 13 Romantický 8 0,0159 14 Sci-fi 72 0,1431 15 Thriller 31 0,0616 16 Válečný 13 0,0258 Tabulka 6: Četnosti žánrů Mezi nejoblíbenější ţánr patří komedie. Tento ţánr preferuje 152 dotázaných respondentů, coţ je 30,22%. Další oblíbené ţánry (v pořadí od nejoblíbenějších) jsou sci-fi (72 respondentů, 14,31%), drama (63 respondentů, 12,52%) a akční (62 respondentů, 12,33%). 9
Obrázek 11: Histogram nejoblíbenější žánry Obrázek 12: Výsečový graf nejoblíbenější žánry Mezi méně oblíbené ţánry patří hudební, který si jako svůj nejoblíbenější zvolil pouze jediný respondent (0,2%). Ţánr dokument zvolili také pouze 4 diváci (0,8%). Zde je nutné mít na paměti, ţe dotázaní diváci měli na výběr pouze jeden nejoblíbenější ţánr, coţ mohla být pro spoustu z nich těţká volba. Spousta filmů navíc kombinuje více ţánrů a je mezi nimi těţké udělat rozlišení. 4.2 S kým nejčastěji koukají na film V této části jsou výsledky ohledně dotazu "S kým nejčastěji sledují film". Konkrétní výsledky jsou patrné z následující tabulky četnosti (Tabulka 7) nebo z histogramu (Obrázek 13) či z výsečového grafu (Obrázek 14). # S kým koukají Četnost Relativní četnost 1 S kamarády 48 0,0954 2 S přítelkyní/přítelem 67 0,1332 3 S rodinou 33 0,0656 4 Sám 355 0,7058 Tabulka 7: Četnosti "s kým koukají" Největší skupinou jsou samotáři, kteří na film koukají zásadně sami. Tuto moţnost označilo 355 respondentů, coţ je 70,58% z celkového počtu dotázaných. 13,32% dotázaných sleduje filmy s přítelkyní nebo přítelem (celkem 67 dotázaných). S kamarády sleduje filmy 9,54% dotázaných (48 lidí) a s rodinou 6,56% dotázaných (33 lidí). Obrázek 13: Histogram s kým koukají Obrázek 14: Výsečový graf s kým koukají 10
V souvislosti s touto otázkou a převahou samotářů při sledování filmů by jistě bylo zajímavé zjistit, zda je nějaká závislost mezi tím, s kým na film koukají, a tím, zda mají či nemají přítele/přítelkyni. Tato moţnost mě ale bohuţel při vytváření dotazníku nenapadla a tato otázka v něm chybí. 4.3 Kde nejčastěji koukají na film V této části jsou výsledky ohledně dotazu "Kde nejčastěji sledují film". Konkrétní výsledky jsou patrné z následující tabulky četnosti (Tabulka 8) nebo z histogramu (Obrázek 15) či z výsečového grafu (Obrázek 16). # Kde koukají Četnost Relativní četnost 1 Kino 11 0,0219 2 Počítač 386 0,7674 3 TV/DVD 106 0,2107 Tabulka 8: Četnosti "kde koukají" Nejvíce jednoznačně převládá sledování filmů na počítači. Tuto moţnost zvolilo 386 respondentů, coţ je 76,74% dotázaných. Sledování na počítači převáţně zahrnuje stahované filmy z internetu, které je však za určitých okolností v ČR legální. Kino uvedlo pouze 11 respondentů, coţ je 2,19% z celkového počtu dotázaných. To je celkem pochopitelné, jelikoţ pravidelná návštěva kina vyjde dráţ. V televizi či na DVD nosičích sleduje filmy 106 respondentů, coţ je 21,07% z celkového počtu dotázaných. Obrázek 15: Histogram kde koukají Obrázek 16: Výsečový graf kde koukají 4.4 Je ve vašem městě kino? Z následující tabulky četnosti (Tabulka 9) nebo z histogramu (Obrázek 17) či z výsečového grafu (Obrázek 18) je patrné, zda je ve městě respondentů kino nebo není. Tato otázka byla do dotazníku zařazena proto, ţe jsem chtěl ověřit, zda je závislost mezi kinem a tím, kde nejčastěji sledují. V kině však sleduje filmy mizivé % respondentů (viz předchozí kapitola 4.3). # Je u vás kino? Četnost Relativní četnost 1 Ano 391 0,7773 2 Ne 112 0,2227 Tabulka 9: Četnosti "je u vás kino" Na otázku, zda je ve městě dotázaných kino odpovědělo 391 respondentů odpovědí ano, coţ je 77,73% všech dotázaných. 112 respondentů (22,27%) nemá ve svém městě kino. 11
Obrázek 17: Histogram je u vás kino Obrázek 18: Výsečový graf je u vás kino 4.5 Co preferujete u zahraničních filmů V této kapitole jsou výsledky otázky, co preferujete u zahraničních filmů. Ty mohou být buď nadabovány do českého jazyka, mohou být v originálním jazyce + doplněné o české titulky, anebo pouze v originálním znění bez českých titulek. Konkrétní výsledky jsou patrné z následující tabulky četnosti (Tabulka 10) nebo z histogramu (Obrázek 19) či z výsečového grafu (Obrázek 20). # Co preferujete? Četnost Relativní četnost 1 CZ Titulky + originální znění 412 0,8191 2 CZ dabing 53 0,1054 3 Originální znění 38 0,0755 Tabulka 10: Četnosti preferencí lokalizace Největší procento dotázaných preferuje film v originálním znění + doplněné české titulky. Konkrétně tuto moţnost zvolilo 412 respondentů (81,91%). Český dabing před originálem preferuje 53 dotázaných (10,54%). Jakákoliv lokalizace přijde zbytečná 38 dotázaným, coţ je 7,55% z celkového počtu dotázaných. Obrázek 19: Histogram co preferujete Obrázek 20: Výsečový graf co preferujete 4.6 Kolik filmů shlédnete za měsíc U této kvantitativní proměnné nejprve provedu detekci a odstranění odlehlých pozorování, jelikoţ někteří respondenti podle zběţného pohledu na data výrazně přecenili tento počet. Dolní kvartil: x 0,25 = 5 Horní kvartil: x 0,75 = 15 Mezikvartilové rozpětí: IQR = 10 12
Identifikaci jsem provedl podle metody vnitřních hradeb, kdy dolní mez vyšla -10 a horní mez 30. Vzhledem k podstatě dat je skutečná dolní mez 1. Odstraněny byly hodnoty 0, 35, 50, 50, 50, 50, 60, 70, 80 a 92. Výsledky lze vyčíst z krabicového grafu na Obrázku 21 a z histogramu na Obrázku 22. Průměrný počet filmů, které respondenti shlédnou za měsíc, je 9,9. To například vychází přibliţně po 4 filmech ve 2 týdnech a po 6 filmech v dalších 2 týdnech. Modus (tj. hodnota, kterou respondenti nejčastěji uváděli) je 10, stejně tak medián. Minimální počet filmů, který se vyskytl, je 1. Největší počet filmů zhlédnutých za měsíc je 30. Výběrová šikmost je 1,19. Tato hodnota je větší neţ 0, z toho vyplývá, ţe u této proměnné převaţují hodnoty menší neţ je průměr. To znamená, ţe převaţují respondenti, kteří uvedli menší počet filmů za měsíc neţ 10 (viz histogram na Obrázku 22). Obrázek 21: Krabicový graf počet filmů za měsíc Obrázek 22: Histogram počet filmů za měsíc Na Obrázku 23 je pro zajímavost ještě uveden krabicový graf před smazáním odlehlých pozorování. Při porovnání s grafem po smazání odlehlých pozorování (Obrázek 21) je vidět, ţe se v podstatě jen odstranily odlehlá pozorování a změnilo se měřítko. Obrázek 23: Krabicový graf počet filmů s OP 13
5 Statistické indukce 5.1 Závislost velikosti města na existenci kina V této části bude ověřena hypotéza, zda je velikost města závislá na tom, zda je v daném městě přítomné kino. Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce neboli také Chi-Squared test. Potřebné hodnoty jsou uvedeny v Tabulce 11. Volba nulové a alternativní hypotézy H 0 : H A : Existence kina nezávisí na velikosti města. Existence kina závisí na velikosti města. Velikost města Existence kina Ano Ne Celkem řádky do 1000 (1) 17 54 71 (2) 3,38% 10,74% 14,12% (3) 55,19 15,81 (4) -38,19 38,19 (5) 26,43 92,26 1001 aţ 10 000 62 53 115 12,33% 10,54% 22,86% 89,39 25,61-27,39 27,39 8,39 29,31 10 0001 aţ 50 000 109 5 114 21,67% 0,99% 22,66% 88,62 25,38 20,38-20,38 4,69 16,37 50 001 aţ 100 000 57 0 57 11,33% 0,00% 11,33% 44,31 12,69 12,69-12,69 3,64 12,69 100 000 a více 146 0 146 29,03% 0,00% 29,03% 113,49 32,51 32,51-32,51 9,31 32,51 Celkem sloupce 391 112 503 77,73% 22,27% 100,00% Tabulka 11: Závislost velikosti města na existenci kina Legenda k tabulce Řádky číslo 1 Pozorované četnosti, 2 sdruţené relativní četnosti, 3 očekávané četnosti, 4 rozdíly mezi pozorovanými a očekávanými četnostmi, 5 sčítance testové statistiky χ 2. Předpoklady pro korektní uskutečnění tohoto testu jsou splněny, tj. všechny očekávané četnosti (řádky 3) jsou větší neţ 5. Můţeme tedy rozhodnout o výsledku. 14
Test Statistika Df P-Value Chi-Squared 235,592 4 0,0000 Rozhodnutí P- value < 0,01, proto zamítáme nulovou hypotézu ve prospěch alternativy, tj. velikost města závisí na existenci kina. Na následujícím mozaikovém grafu (Obrázek 24) je názorně vidět, jak pří zvětšování velikosti obce (počtu obyvatel v obci) klesají negativní odpovědi na existenci kina v daném městě. Na Obrázku 25 je vidět totéţ, jen ve formě histogramu. Obrázek 24: Mozaikový graf závislost velikosti města na existenci kina Obrázek 25: Histogram závislost velikosti města na existenci kina 15
5.2 Závislost mezi zaměstnáním/studiem a preferencí lokalizace V této části budu zkoumat závislost mezi aktuálním studiem/zaměstnáním na tom, jakou tazatel preferuje lokalizaci (ţádnou, CZ titulky, dabing). Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce (Tabulka 12) neboli také Chi-Squared test. Zam./stu. Lok. CZ titulky CZ dabing Originální znění Celkem řádky Student ZŠ (1) 10 8 2 20 (2) 1,99% 1,59% 0,40% 3,98% (3) 16,38 2,11 1,51 (4) -6,38 5,89 0,49 (5) 2,49 16,48 0,16 Student SŠ 134 14 12 160 26,64% 2,78% 2,39% 31,81% 131,05 16,86 12,09 2,95-2,86-0,09 0,07 0,48 0,00 Student V3 164 19 20 203 32,60% 3,78% 3,98% 40,36% 166,27 21,39 15,34-2,27-2,39 4,66 0,03 0,27 1,42 Zaměstnaný 87 8 4 99 17,30% 1,59% 0,80% 19,68% 81,09 10,43 7,48 5,91-2,43-3,48 0,43 0,57 1,62 Nezaměstnaný 16 4 0 20 3,18% 0,80% 0,00% 3,98% 16,38 2,11 1,51-0,38 1,89-1,51 0,01 1,70 1,51 Penze 1 0 0 1 0,20% 0,00% 0,00% 0,20% 0,82 0,11 0,08 0,18-0,11-0,08 0,04 0,11 0,08 Celkem sloupce 412 53 38 503 81,91% 10,54% 7,55% 100,00% Tabulka 12: Závislost mezi zaměstnáním/studiem a preferencí lokalizace Legenda k tabulce Řádky číslo 1 Pozorované četnosti, 2 sdruţené relativní četnosti, 3 očekávané četnosti, 4 rozdíly mezi pozorovanými a očekávanými četnostmi, 5 sčítance testové statistiky χ 2. Volba nulové a alternativní hypotézy H 0 : H A : Preference lokalizace nezávisí na typu zaměstnání/studia. Preference lokalizace závisí na typu zaměstnání/studia. 16
Test Statistika Df P-Value Chi-Squared 27,446 10 0,0022 Hodnota P-value je 0,0022. Výsledky však nemůţeme vyvodit, jelikoţ nemáme splněny předpoklady Chi-Squared testu. V kontingenční tabulce (Tabulka 12) je několik očekávaných četností, které jsou menší neţ 5, coţ odporuje podmínkám pro Chi-Squared test. Tyto četnosti jsou v tabulce zvýrazněny červenou barvou. Tento jev je způsoben nízkým počtem odpovědí na konkrétní otázky. P- value < 0,01, takže teoreticky bychom mohli zamítnout nulovou hypotézu ve prospěch té alternativní, tj. že studium/zaměstnání závisí na preferenci lokalizace. Z důvodu nesplnění podmínek Chi-Squared testu však nemusí být tento výsledek relevantní. Grafické znázornění je k vidění v mozaikovém grafu na Obrázku 26. Obrázek 26: Mozaikový graf závislost zaměstnání na preferenci lokalizace 5.3 Závislost mezi pohlavím a oblíbeným žánrem V této části budu zkoumat závislost mezi pohlavím a nejoblíbenějším ţánrem. Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce neboli také Chi-Squared test. U tohoto testu zde nebudu uvádět celou tabulku, jelikoţ ţánrů existuje obrovské mnoţství a celá tabulka by se zde v rozumné formě nevešla. Volba nulové a alternativní hypotézy H 0 : H A : Oblíbený ţánr nezávisí na pohlaví. Oblíbený ţánr závisí na pohlaví. U tohoto testu opět nebyla splněna podmínka pro provedení Chi-Squared testu a výsledky tedy nelze brát s jistotou. Test Statistika Df P-Value Chi-Squared 17,967 15 0,2644 P- value > 0,05, takže teoreticky bychom mohli zamítnout alternativní hypotézu ve prospěch té nulové, tj. že pohlaví nezávisí na oblíbeném žánru. Z důvodu nesplnění podmínek Chi-Squared testu však nemusí být tento výsledek relevantní. Grafické znázornění je vidět na mozaikovém grafu v Obrázku 27. 17
Obrázek 27: Mozaikový graf Závislost mezi pohlavím a oblíbeným žánrem 5.4 Závislost mezi velikostí obce a "s kým nejčastěji koukají" V této části budu zkoumat závislost mezi velikostí obce a tím, s kým respondenti nejčastěji sledovali film. Ověření budu provádět pomocí testu nezávislosti v kontingenční tabulce neboli také Chi-Squared test. Hodnoty jsou vidět v Tabulce 13. Velikost S kým S kamarády S přítelkyní přítelem S rodinou Sám Celkem ř. do 1000 (1) 8 9 6 48 71 (2) 1,59% 1,79% 1,19% 9,54% 14,12% (3) 6,78 9,46 4,66 50,11 (4) 1,22-0,46 1,34-2,11 (5) 0,22 0,02 0,39 0,09 1001 aţ 10 000 12 12 10 81 115 2,39% 2,39% 1,99% 16,10% 22,86% 10,97 15,32 7,54 81,16 1,03-3,32 2,46-0,16 0,10 0,72 0,80 0,00 10 001 aţ 50 000 8 12 5 89 114 1,59% 2,39% 0,99% 17,69% 22,66% 10,88 15,18 7,48 80,46-2,88-3,18-2,48 8,54 0,76 0,67 0,82 0,91 50 001 aţ 100 000 7 7 2 41 57 1,39% 1,39% 0,40% 8,15% 11,33% 5,44 7,59 3,74 40,23 1,56-0,59-1,74 0,77 0,45 0,05 0,81 0,01 100 000 a více 13 27 10 96 146 2,58% 5,37% 1,99% 19,09% 29,03% 13,93 19,45 9,58 103,04-0,93 7,55 0,42-7,04 0,06 2,93 0,02 0,48 Celkem sloupce 48 67 33 355 503 9,54% 13,32% 6,56% 70,58% 100,00% Tabulka 13: Závislost mezi velikostí obce a "s kým nejčastěji koukají" 18
Legenda k tabulce Řádky číslo 1 Pozorované četnosti, 2 sdruţené relativní četnosti, 3 očekávané četnosti, 4 rozdíly mezi pozorovanými a očekávanými četnostmi, 5 sčítance testové statistiky χ 2. Volba nulové a alternativní hypotézy H 0 : Osoby, se kterými respondenti nejčastěji koukají na filmy, nezávisí na velikosti obce. H A : Osoby, se kterými respondenti nejčastěji koukají na filmy, závisí na velikosti obce. Test Statistika Df P-Value Chi-Squared 10,305 12 0,5892 Hodnota P-value je 0,5892. Jedna očekávaná četnost je menší neţ 5 (označena červenou barvou). Z celkového počtu očekávaných četností je to však pouze 5% (celkem je 20 očekávaných četností), coţ můţeme povaţovat za přijatelné. P- value > 0,05, takţe můţeme zamítnout alternativní hypotézu ve prospěch té nulové, tj. ţe velikost obce nezávisí na osobě, se kterou respondenti nejčastěji sledují film. Grafické znázornění je vidět v mozaikovém grafu na Obrázku 28. Obrázek 28: Mozaikový graf závislost velikosti obce na osobě, se kterou koukají na film 5.5 Závislost mezi pohlavím a počtem filmu shlédnutým za měsíc Zde bych chtěl ověřit, zda existuje nějaká závislost mezi pohlavím respondenta a počtem filmů, které shlédne za měsíc. Ověření provedu parametrickým testováním. Ověření normality První krok je ověření normality, coţ je nezbytný krok před započetím parametrického testování. Na následujících dvou grafech je k vidění Q-Q graf počtů filmů (Obrázek 39) a graf empirické hustoty pravděpodobnosti (Obrázek 30). Z obou grafů je patrné, ţe data jsou pozitivně zešikmená. Na Q-Q grafu je vidět, ţe body neleţí moc v blízkosti vyznačené přímky. Graf má spíše konvexní tvar. Také graf empirické hustoty pravděpodobnosti příliš neodpovídá normálnímu rozdělení (delší pravý chvost hustoty). Podstatný odklon od normality naznačují také hodnoty šikmosti (10,8385) a špičatosti (4,89193). 19
Obrázek 29: Q-Q graf pro počty filmů Obrázek 30: Graf empirické hustoty pravd podobnosti Hodnoty počtu filmů za měsíc získaných od respondentů nemají normální rozdělení. Zkusím ověřit normalitu ještě Chi-Squared testem (doposud jsem ověřoval pouze vizuálním posouzením). H 0 : H A : Počty shlédnutých filmů za měsíc mají normální rozdělení Počty shlédnutých filmů za měsíc nemají normální rozdělení i Dolní mez ( Horní mez Počet pozorování Očekávané četnosti π 0,i Očekávané četnosti n π 0,i 1 - -3,41438 0 10,72 10,72 2-3,41438-1,38714 0 10,72 10,72 3-1,38714-0,0729383 0 10,72 10,72 4-0,0729383 0,933735 0 10,72 10,72 5 0,933735 1,76625 7 10,72 1,29 6 1,76625 2,48609 14 10,72 1,01 7 2,48609 3,12697 35 10,72 55,02 8 3,12697 3,70954 0 10,72 10,72 9 3,70954 4,24739 32 10,72 42,26 10 4,24739 4,75003 0 10,72 10,72 11 4,75003 5,22438 93 10,72 631,73 12 5,22438 5,67569 0 10,72 10,72 13 5,67569 6,10801 25 10,72 19,03 14 6,10801 6,52461 0 10,72 10,72 15 6,52461 6,92814 0 10,72 10,72 16 6,92814 7,32083 9 10,72 0,28 17 7,32083 7,70458 0 10,72 10,72 18 7,70458 8,08102 18 10,72 4,95 19 8,08102 8,45162 0 10,72 10,72 20 8,45162 8,8177 0 10,72 10,72 21 8,8177 9,18047 3 10,72 5,56 22 9,18047 9,54107 0 10,72 10,72 23 9,54107 9,90061 0 10,72 10,72 24 9,90061 10,2601 123 10,72 1176,13 25 10,2601 10,6207 0 10,72 10,72 26 10,6207 10,9835 0 10,72 10,72 27 10,9835 11,3496 1 10,72 8,81 28 11,3496 11,7202 0 10,72 10,72 29 11,7202 12,0966 6 10,72 2,08 30 12,0966 12,4804 0 10,72 10,72 20
31 12,4804 12,8731 0 10,72 10,72 32 12,8731 13,2766 2 10,72 7,09 33 13,2766 13,6932 0 10,72 10,72 34 13,6932 14,1255 1 10,72 8,81 35 14,1255 14,5768 0 10,72 10,72 36 14,5768 15,0512 52 10,72 159,02 37 15,0512 15,5538 0 10,72 10,72 38 15,5538 16,0917 2 10,72 7,09 39 16,0917 16,6742 0 10,72 10,72 40 16,6742 17,3151 1 10,72 8,81 41 17,3151 18,035 1 10,72 8,81 42 18,035 18,8675 0 10,72 10,72 43 18,8675 19,8742 0 10,72 10,72 44 19,8742 21,1884 42 10,72 91,31 45 21,1884 23,2156 0 10,72 10,72 46 23,2156 26 10,72 21,79 Poţadavky Chi-Squared testu jsou splněny, veškeré očekávané četnosti jsou větší neţ 5. Hodnota P-Value je 0, coţ je menší neţ 0,01. Zamítáme tedy nulovou hypotézu ve prospěch té alternativní, tj. počty shlédnutých filmů za měsíc nemají normální rozdělení. Závislost mezi pohlavím a počtem filmu shlédnutým za měsíc Data nemají normální rozdělení a z tohoto důvodu budu porovnávat hodnoty mediánů z počtu zhlédnutých filmů za měsíc u jednotlivých pohlaví. Nulová a alternativní hypotéza je zvolena následovně: H 0 : x 0,5M = x 0,5Ž (x 0,5M x 0,5Ž = 0) H A : x 0,5M x 0,5Ž (x 0,5M x 0,5Ž 0) Medián shlédnutých filmů za měsíc u muţů je 10, medián shlédnutých filmů za měsíc u ţen je také 10. P-value = 0,407669 > 0.05, čili nezamítáme nulovou hypotézu, tj. nebyla zjištěna závislost pohlaví na průměrném počtu zhlédnutých filmů za měsíc. Na Obrázku 31 je názorně vidět srovnání četností shlédnutých filmů u obou pohlaví. Obrázek 31: Srovnání histogramů 21
6 Závěr V rámci této práce jsem se zabýval analýzou dat z vlastního dotazníkového šetření. V části s explorační analýzou vyšla najevo spousta zajímavých informací o respondentech, které reflektují s realitou. Například se ukázalo, ţe kino je nejméně časté místo pro sledování filmů (s tím souvisí také to, ţe se menší kina ruší, protoţe nedokáţou obstát v konkurenci velkých multiplexů, občas i multiplexy zruší pro nezájem některý ze svých sálů). Některé hypotézy nešlo objektivně potvrdit nebo vyvrátit díky nesplnění podmínek nutných k provedení daných testů. Nejčastěji to bylo způsobeno malým počtem hlasu pro dané odpovědi. U těchto hypotéz jsem určit teoretickou platnost nebo neplatnost, je však nutnost mít na paměti, ţe při nesplnění podmínek jsou tyto výsledky neobjektivní. V průběhu zpracovávání této statistiky vyšlo najevo také spousta dalších otázek, které by se daly zapracovat do další verze tohoto dotazníkového šetření a daly by se ověřit další zajímavé hypotézy. 22
Použitá literatura a software Literatura BRIŠ, Radim, LITSCHMANNOVÁ, Martina. Statistika I. pro kombinované studium. [s.l.] : [s.n.], 2004. 391 s. Dostupný z WWW: <http://www.am.vsb.cz/~lit40/sta1/statistika.html?butt1=statistika+i>. Software LITSCHMANNOVÁ, Martina. Statistika I. - řešené příklady, studijní opora pro výuku Statistiky I.. [s.l.] : [s.n.], 2007. 195 s. Dostupný z WWW: <http://www.am.vsb.cz/~lit40/sta1/statistika.html?butt1=statistika+i>. STATGRAPHICS Centurion XV, verze 15.2.11 Microsoft Excel 2007 SP2 23