ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra ekonomických studií ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ STUDIJNÍ TEXT. Jana Borůvková



Podobné dokumenty
PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Deskriptivní statistika (kategorizované proměnné)

Statistika pro geografy

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Popisná statistika. Komentované řešení pomocí MS Excel

Spokojenost se životem

Metodologie pro Informační studia a knihovnictví 2

Analýza dat na PC I.

VÝBĚR A JEHO REPREZENTATIVNOST

Škály podle informace v datech:

23. Matematická statistika

Základy popisné statistiky

Metodologie pro Informační studia a knihovnictví

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Varianty výzkumu Kroky výzkumu Výběrový soubor

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Metodologie pro Informační studia a knihovnictví 2

Metody a techniky využitelné pro sociální zjišťování na venkově

Popisná statistika kvantitativní veličiny

Určeno studentům středního vzdělávání s maturitní zkouškou, předmět: Marketing a management, téma: Marketingový výzkum

METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY

Číselné charakteristiky

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Pojem a úkoly statistiky

Tomáš Karel LS 2012/2013

STATISTICKÉ ODHADY Odhady populačních charakteristik

Sociologický výzkum (stručný úvod) Michal Peliš

STATISTICA Téma 1. Práce s datovým souborem

Metody sociálních výzkumů

7. Rozdělení pravděpodobnosti ve statistice

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Metodologie pro Informační studia a knihovnictví 2

Zápočtová práce STATISTIKA I

STATISTICKÉ CHARAKTERISTIKY

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Popisná statistika. Statistika pro sociology

Renáta Bednárová STATISTIKA PRO EKONOMY

Metody sociálních výzkumů

Metodologie pro ISK II

Náhodné chyby přímých měření

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Nejčastější chyby v explorační analýze

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)

Číselné charakteristiky a jejich výpočet

Metodologie sociologického výzkumu Jiří HODNÝ, Ph.D.

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

4. Zpracování číselných dat

Metodologie pedagogického výzkumu Téma číslo 8 Dotazník

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Induktivní statistika. z-skóry pravděpodobnost

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

HODNOCENÍ VÝUKY STUDENTY PEDF UK ZS 2016/2017

Názor občanů na drogy květen 2019

Kontingenční tabulky v MS Excel 2010

Jednofaktorová analýza rozptylu

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

STUDENTSKÉ HODNOCENÍ VÝUKY ZA LS 2015/2016 NA PEDF UK

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Metodologie pedagogického výzkumu Téma číslo 4 Validita a reliabilita

Výuka s ICT na SŠ obchodní České Budějovice Šablona III/2:

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

Kvantitativní metody výzkumu v praxi PRAKTIKUM. Příprava výzkumného projektu

STATISTICKÉ ZJIŠŤOVÁNÍ

Náhodné (statistické) chyby přímých měření

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

GEN104 Koncipování empirického výzkumu

Role statistiky ve výzkumu

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Základy biostatistiky

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Testování hypotéz a měření asociace mezi proměnnými

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013


Metodologie pro ISK 2, jaro Ladislava Z. Suchá

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Diskrétní náhodná veličina

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Transkript:

ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra ekonomických studií ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ STUDIJNÍ TEXT Jana Borůvková 2013

Jana Borůvková ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ 1. vydání ISBN 978-80-87035-80-1 Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2013 Tisk Ediční oddělení VŠPJ, Tolstého 16, Jihlava Za jazykovou a věcnou správnost obsahu díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou. Jana Borůvková, 2013

Vážení čtenáři, dostává se vám do ruky studijní text primárně určený studentům VŠPJ, kteří v rámci své bakalářské práce provádí dotazníkové šetření. V této oblasti se jedná o poměrně ojedinělý autorský počin, který umožňuje seznámit se v českém jazyce se správným postupem při realizaci dotazníkového šetření a následným statistickým zpracování dat pomocí MS Excel. Text je rozdělen do dvou částí. V první části lze nalézt stručný popis správného postupu při tvorbě dotazníku, který by měl umožnit analýzu vztahů mezi proměnnými, nikoli jen popisnou statistiku jednotlivých proměnných. Tento vyšší stupeň analýzy je možný pouze v případě správné konstrukce dotazníkového šetření, která začíná stanovením výzkumných otázek a hypotéz, pokračuje definováním proměnných a teprve poté definováním otázek do dotazníku. Druhá část studijního textu je věnována využití softwaru MS Excel pro předběžné zpracování dat, přípravu datové matice a popisnou statistiku jednotlivých proměnných. Cílem této části je přiblížit čtenáři možnosti softwaru MS Excel při zpracování dat, které jsou velmi omezené. MS Excel umožňuje uživateli připravit data do podoby vhodné pro analýzu dat a poskytnout prvotní náhled na jednotlivé proměnné. Co ovšem MS Excel neumožňuje nebo umožňuje jen v hodně omezené míře, je vlastní testování hypotéz a zkoumání vztahů mezi proměnnými. Za tímto účelem je nutné použít statistický software (např. STATISTICA nebo SPSS, které jsou studentům a učitelům VŠPJ k dispozici). Cílem autora bylo vytvořit studijní text, který bude prvním průvodcem studentům i vyučujícím VŠPJ v případě, že se rozhodnou pořídit data pro seminární práce, bakalářské práce nebo odborné články s využitím dotazníkového šetření a data následně analyzovat softwarem, který je na VŠPJ dostupný jak studentům, tak i vyučujícím. Jana Borůvková Jihlava, květen 2013

Obsah 1 Tvorba dotazníku jakožto nástroje sběru dat... 5 1.1 Kvalitativní a kvantitativní výzkum...5 1.1.1 Metodologie...5 1.1.2 Výhody a nevýhody...7 1.1.3 Techniky dotazování...8 1.2 Proměnné...9 1.2.1 Proměnné nominální...9 1.2.2 Proměnné ordinální...9 1.2.3 Proměnné měřitelné (intervalové)...9 1.3 Výzkumné otázky a hypotézy... 10 1.3.1 Výzkumné otázky... 10 1.3.2 Hypotézy... 11 1.4 Operacionalizace... 11 1.5 Dotazník... 13 1.5.1 Typy otázek v dotazníku... 13 1.5.2 Otázky a odpovědi... 14 1.5.3 Pravidla pro formulaci otázek... 15 1.6 Výběr respondentů pro dotazníkové šetření... 15 2 Zpracování dat pořízených dotazníkovým šetřením... 18 2.1 Sběr dat a jejich zpracování... 18 2.2 Třídění dat... 18 2.2.1 Bodové třídění... 19 2.2.2 Grafické znázornění dat tříděných bodovým tříděním... 22 2.2.3 Intervalové třídění dat a jejich grafické znázornění... 24 2.3 Charakteristiky polohy a variability... 26 2.3.1 Charakteristiky polohy... 26 2.3.2 Charakteristiky variability... 27 2.3.3 Krabicový graf... 29 2.4 Třídění druhého stupně... 31

1 Tvorba dotazníku jakožto nástroje sběru dat Záměrem této kapitoly je objasnit místo dotazníkového šetření v sociologickém výzkumu a z toho vyplývající možnosti dotazníkového šetření. Dále je obsahem této kapitoly popis postupu při tvorbě dotazníku, kdy na počátku všeho musí být formulace výzkumných otázek a hypotéz. Dále musí být pomocí tzv. operacionalizace definovány jednotlivé proměnné a indikátory neboli způsob, jak proměnné měřit. Teprve v této chvíli lze přistoupit k formulaci jednotlivých otázek do dotazníku. Mnoho autorů dotazníkového šetření se dopouští zásadního pochybení v tom, že nevytváří indikátory, které by v celkovém pojetí tvořily takový nástroj sběru dat (dotazník), který by měřil vztahy mezi proměnnými a v důsledku toho je veškerá analýza redukována na popisnou statistiku. V kapitole jsou též popsány typy otázek, se kterými se lze setkat při dotazníkovém šetření a je zde podrobně popsán i postup tvorby otázek do dotazníku a nejčastější chyby. V závěru je diskutován vhodný počet respondentů pro výběr i census. 1.1 Kvalitativní a kvantitativní výzkum Výzkum je systematický způsob řešení problémů, kterým se rozšiřují hranice vědomostí lidstva. Výzkumem se potvrzují či vyvracejí dosavadní poznatky, anebo se získávají poznatky nové. Výzkum snižuje nevědomost lidstva a odstraňuje nesprávné, neúplné anebo nedokonalé poznání jevů. Tato skripta pojednávají o společenskovědním výzkumu. Jeho základními typy jsou kvantitativní a kvalitativní výzkum. Ačkoli jsou oba přístupy rozdílné, vzájemně se doplňují. Kvalitativní výzkum pomáhá porozumět sociální realitě a kvantitativní výzkum testuje spolehlivost (tzv. validitu) tohoto porozumění. Hlavním cílem kvalitativního výzkumu je vytváření nových poznatků. Kvalitativní výzkum bývá také nazýván konstruktivistickým, naturalistickým, interpretativním nebo reflexivním. Jedná se o nenumerické šetření a interpretaci sociální reality. Kvalitativní přístup klade důraz na důkladné (hloubkové) poznání zkoumaného sociálního jevu (události, fenoménu). Snaží se o vytvoření komplexního, holistického obrazu zkoumaného problému, o porozumění lidem v různých sociálních situacích a jejich interpretacím těchto situací. Hlavním cílem kvantitativního výzkumu je ověřování platnosti teorií pomocí testování z těchto teorií vyvozených hypotéz. Kvantitativní výzkum se označuje jako tradiční, pozitivistický, experimentální nebo empiricko-analytický. Zaměřuje se na hledání vztahů mezi dvěma či více proměnnými. 1.1.1 Metodologie Kvalitativní typ výzkumu je založen na induktivní logice, kdy na počátku výzkumného procesu je sběr dat. V sebraných datech výzkumník posléze pátrá po pravidelnostech a na základě svých objevů poté formuluje (nové) teorie či hypotézy. 5

Kvantitativní výzkum je založen na deduktivním přístupu z teorie jsou vyvozovány hypotézy, které jsou poté prostřednictvím sebraných dat testovány. Vzorem pro kvantitativní typ výzkumu jsou metody přírodních věd. Metodologie kvantitativního výzkumu je výrazně strukturovaná a využívá statistické metody. Kvalitativní přístup je pružnější a méně atomizovaný. I v průběhu výzkumu jsou činěna rozhodnutí, jak by se mělo postupovat dále. Lze také měnit výzkumné otázky či hypotézy. Kvalitativní výzkumníci typicky pracují s malým množstvím případů. Pozorované případy jsou však studovány do hloubky, je zkoumáno mnoho jejich vlastností (proměnných). Setkáváme se zde tedy se silnou redukcí počtu sledovaných jedinců, v důsledku čehož je zobecnění zjištěných výsledků na celou populaci problematické. Kvantitativní výzkumy sledují velké množství případů, ovšem jen málo jejich vlastností. Dochází zde k výrazné redukci počtu sledovaných proměnných a vztahů mezi nimi. Výsledky výzkumů lze však snadno generalizovat na celou populaci. Kvantitativní výzkum vyžaduje silnou standardizaci, která mu zajišťuje vysokou reliabilitu (spolehlivost, hodnověrnost). Standardizace ale také vede k výrazné redukci množství zjišťovaných informací, což způsobuje poměrně nízkou validitu (udává, zda otázka skutečně měří měřenou vlastnost)výzkumů. V kvalitativním výzkumu je standardizace jen slabá, a proto má kvalitativní výzkum nižší reliabilitu než výzkum kvantitativní. Nízká úroveň standardizace kvalitativního výzkumu a menší počet transformací, kterými získávané informace procházejí, mu však zajišťují vysokou validitu. V kvantitativním výzkumu jsou sbírána jen ta data, která potřebujeme k testování hypotéz, v kvalitativním výzkumu se výzkumník snaží sebrat všechna data související s tématem šetření. Cílem konstrukce vzorku v kvantitativním výzkumu je reprezentace populace jedinců. V kvalitativním výzkumu se jedná o reprezentaci populace problému, jeho relevantních dimenzí. Mezi kvantitativní techniky sběru dat patří např. experiment, dotazníkové šetření, obsahová analýza dokumentů či strukturované pozorování. K základním metodám kvalitativního výzkumu patří např. zúčastněné pozorování, nestandardizovaný rozhovor, analýza osobních textů či dokumentů. Porovnání obou základních typů společenskovědního výzkumu je uvedeno v tabulce 1.1. 6

Tabulka 1.1: Porovnání kvantitativního a kvalitativního výzkumu Kvantitativní výzkum Ptáme se: Co? Jak? Kolik? Příklady využití: analýzy návštěvnosti, frekvence půjčování, určování míry spokojenosti uživatelů Deduktivní (postupuje od obecných soudů k jednotlivostem) Testování teorií, hypotéz Strukturované, standardizované metody (dotazník) Velký výzkumný vzorek Redukce informací Zprostředkovaný kontakt s respondenty Matematické, statistické zpracování Generalizace je možná Vysoká reliabilita Nízká validita Kvalitativní výzkum Ptáme se: Proč? Příklady využití: Proč lidé (ne)chodí do knihovny? Jak se v ní chovají a jaký význam pro ně knihovna má? Induktivní (postupujeme od jednotlivostí k obecným soudům) Vytváření teorií Rozhovor, pozorování Menší výzkumný vzorek Vyčerpávající informace o případu Těsný a dlouhodobý kontakt Kódování Generalizace je nemožná Reliabilita je nízká Vysoká validita 1.1.2 Výhody a nevýhody Kvantitativní výzkum výhody o eliminace působení rušivých proměnných o relativně rychlý sběr a analýza dat o výsledky poměrně nezávislé na výzkumníkovi nevýhody o kategorie použité ve výzkumu nemusí odpovídat lokálním, subkulturním apod. zvláštnostem o výsledky mohou být příliš abstraktní, obecné o výzkumník může opomenout důležité fenomény či intervenující proměnné, protože se soustřeďuje pouze na testování určité teorie, která s nimi nemusí počítat Kvalitativní výzkum výhody o problém zkoumán v přirozeném prostředí o zohlednění místních či jiných zvláštností o je vhodný k počátečnímu prozkoumání problému nevýhody o problematická generalizace výsledků o výzkum časově náročný 7

o výsledky snadněji ovlivnitelné interpretací výzkumníka 1.1.3 Techniky dotazování Nejčastěji používanou metodou získávání informací o postojích, názorech a mínění lidí je dotazování. Slabinou této metody je častý rozpor mezi řečí (písemným projevem) a reálným chováním lidí. Dotazování můžeme realizovat podle dvou základních technik: rozhovorem (interview) nebo dotazníkem. Rozhovor je verbální kontakt mezi tazatelem a dotazovaným s cílem získat informace pomocí otázek, které klade tazatel. Výhodou rozhovoru je možnost velké přizpůsobivosti tazatelů dotazovaným a dále možnost osobního kontaktu s dotazovanou osobou. Osobní kontakt vnímavému výzkumníkovi poskytuje mnohem komplexnější informaci. Obě okolnosti snižují riziko nedorozumění při dotazování. Z těchto výhod vyplývají možnosti uplatnění rozhovoru ve výzkumné praxi. Rozhovor je uplatňován v situacích, kdy se výzkumníci teprve orientují ve zkoumaném problému, kdy shromažďují základní informace a kdy je nutné mít osobní kontakt s dotazovaným z psychologických důvodů. Nevýhodou rozhovoru je neefektivnost a náročnost postupu na kvalifikované tazatele. Často hrozí také narušení stejných podmínek dotazování, odpovědi mohou být ovlivněny osobou tazatele. Náročné a problematické je též zaznamenávání ať již formou polních poznámek (field notes), nebo formou audio a video záznamu. Dotazovaní mají menší pocit anonymity než při dotazníku. Dotazník je technika, kdy informace od dotazovaného získáváme prostřednictvím písemného dotazu a respondent samostatně odpovídá na sérii otázek zaměřených k určitému problému. Výhodou je relativně velká operativnost a menší organizační a finanční náročnost. Základní nevýhodou je charakter informací dotazník neumožňuje poznávat výzkumný problém do větší hloubky. Dále je to nepružnost vzhledem k výzkumnému problému. Z uvedeného plyne, že rozhovor je vhodnou technikou zjišťování informací při realizaci kvalitativního výzkumu. Naopak dotazníkové šetření je vhodné při realizaci kvantitativního výzkumu. Dotazníkové šetření je využíváno v těchto situacích: Pokud potřebujeme generalizovat naše nálezy na populaci jedinců. Pokud je naším cílem testování hypotéz. Jsme-li s dostatečnou jistotou schopni říci, které proměnné jsou podstatné pro studovaný problém a že žádná z důležitých proměnných nebyla opomenuta. Pokud to, jak zkoumaní lidé interpretují studovaný problém, nemá pro nás prvořadou důležitost. Rozhovor používáme za těchto okolností: Potřebujeme-li zjistit, jak populace prožívá studovaný problém. Studujeme-li takový problém, o kterém nemáme dostatečnou předběžnou znalost. Jako předvýzkum pro kvantitativní výzkumnou akci. 8

1.2 Proměnné Chceme-li získat správná data, je potřeba postupovat metodologicky správně. Nelze si nejprve připravit dotazník a poté teprve přemýšlet, jaké jsou vlastně cíle našeho výzkumu. Na začátku výzkumného procesu musí být definován výzkumný problém, který chce výzkumník řešit. Výzkumný problém se týká vztahy mezi dvěma nebo více proměnnými. Klíčovým prvkem ve výzkumném problému jsou tedy proměnné. Proměnná je definována jako jistý znak popisující účastníky nebo situace v dané studii, která nabývá různých hodnot. Například pohlaví je proměnná, protože nabývá dvou hodnot muž a žena. Věk je proměnná, která může nabývat velkého množství různých hodnot. Druh léčby může být proměnná, pokud existuje více než jeden způsob léčby nebo pokud existuje léčená a kontrolní skupina. Počet dnů potřebných k zotavení se z nemoci jsou obvykle měřením efektu léčby, a tak tedy i potenciální proměnnou. Přestože každý znak může být proměnnou, nabývá-li jen jediné hodnoty, nejedná se o proměnnou ale o konstantu. Takže např. etnická skupina není proměnnou, jestliže všichni účastníci zahrnutí do studie jsou např. Rómové. Pohlaví není proměnnou, jestliže výzkum probíhá jen mezi ženami. Podle způsobu následného zpracování dat se obvykle dělí do tří skupin kategoriální nominální proměnné, kategoriální ordinální proměnné a měřitelné proměnné. 1.2.1 Proměnné nominální Jejich hodnoty se vyjadřují slovně, příkladem nominální proměnné je třeba pohlaví nebo rodinný stav. (např. hodnoty proměnné pohlaví jsou žena a muž). 1.2.2 Proměnné ordinální Mohou se také vyjadřovat slovně, ale oproti nominálním proměnným můžeme určit pořadí hodnot. Typickou ordinální proměnnou je třeba vzdělání (můžeme určit pořadí hodnot, ale nelze přesně říci, o kolik je například vysoká škola vyšší hodnota než škola základní). Jinou typickou ordinální proměnnou je míra souhlasu s daným výrokem (souhlasím spíše souhlasím nevím spíše nesouhlasím nesouhlasím). Ordinální proměnnou lze vyjadřovat i číselně, pokud je např. míra souhlasu vyjádřená na stupnici 0 až 5. 1.2.3 Proměnné měřitelné (intervalové) Hodnotou bývá zpravidla číslo a můžeme i přesně říci, o kolik je jedna hodnota vyšší než druhá. Typickými intervalovými proměnnými jsou např. věk nebo plat. Na rozdíl od ordinální číselné proměnné nabývá intervalová proměnná velkého množství obměn, které nemá smysl vyjmenovávat a pro jejich popis se používá sdružení proměnných do intervalů. Při statistické analýze dat, zejména snažíme-li se odhalit vztahy mezi proměnnými, je dále nutné rozhodnout, zda se jedná o závisle proměnnou či nezávisle proměnnou. Na tomto místě je vhodné poznamenat, že jedna konkrétní proměnná může v různých analýzách vystupovat v odlišných rolích. Chováním nezávisle proměnné se vysvětluje chování závisle proměnné. 9

Nezávisle proměnná proměnná, se kterou "manipulujeme", očekáváme její vliv na chování nebo prožívání respondenta. Závisle proměnná její změny sledujeme a měříme. Tyto změny jsou důsledkem "manipulace" s nezávisle proměnnou, případně působením dalších vlivů. Například zkoumáme-li vztah mezi BMI pacienta a jeho krevním tlakem, je zřejmé, že nadváha může být jednou z příčin zvýšeného krevního tlaku. Proto v tomto případě nezávisle proměnnou je BMI a závisle proměnnou hodnota krevního tlaku krevní tlak závisí na hodnotě BMI. 1.3 Výzkumné otázky a hypotézy Výzkumné hypotézy jsou výroky, které předpovídají vztahy mezi proměnnými, na něž se ptáme výzkumnými otázkami. Hlavní rozdíl mezi výzkumnou otázkou a výzkumnou hypotézou spočívá v tom, že hypotéza je výrok, tedy věta oznamovací s predikčním potenciálem, zatímco otázka je věta tázací. Tento rozdíl si ukážeme na následujícím příkladu. Výzkumník si může položit tuto výzkumnou otázku: "Jsou studenti přírodovědných oborů při vyhledávání zdrojů v univerzitní knihovně stejně úspěšní jako studenti humanitních oborů?". Hypotéza vztahující se k této otázce může být formulována: "Studenti přírodovědných oborů jsou při vyhledávání zdrojů v univerzitní knihovně úspěšnější než studenti humanitních oborů." 1.3.1 Výzkumné otázky Výzkumné otázky lze rozdělit do tří základních skupin: Otázky na popis proměnné tyto otázky slouží pouze k popisu proměnných a vzorků, které právě studujeme. Získané informace nelze zobecnit na celou populaci. Příkladem takovéto otázky může být Kolik procent respondentů je celkově spokojeno se službami knihovny? nebo Jaká je průměrná doba vyhledávání elektronického zdroje? Otázky na rozdíl mezi proměnnými porovnáváme např. průměrnou hodnotu dvou proměnných nebo průměrnou hodnotu proměnné v závislosti a jiné proměnné (např. v závislosti na věku, pohlaví, vzdělání atd.). Otázky tohoto typu se pokouší demonstrovat, že skupiny respondentů odpovídají různě v důsledku rozdílu nezávisle proměnné. Příkladem takovéto otázky může být např.: Liší se celková spokojenost mužů a žen se službami knihovny? Otázky na vztahy mezi proměnnými hledáme vztah mezi dvěma proměnnými. Zjišťujeme např. zda dvě proměnné korelují, to znamená, že vyšší hodnota jedné proměnné umožňuje očekávat i vyšší hodnotu druhé proměnné, případně jak pomocí jedné proměnné odhadnout hodnotu druhé proměnné. Příkladem otázky může být: Jsou celková spokojenost se službami knihovny a úspěšnost při vyhledávání zdrojů pozitivně korelované? nebo Jak závisí celková spokojenost se službami knihovny na úspěšnosti při vyhledávání zdrojů? 10

1.3.2 Hypotézy Zatímco k otázkám na popis proměnné je formulace hypotézy obtížná a téměř zbytečná, je bezpodmínečně nutné formulovat hypotézy o dosud neprokázaném vztahu dvou nebo více proměnných či rozdílu mezi dvěma či více proměnnými. Tyto hypotézy následně testujeme s využitím metod induktivní statistiky. Příklad hypotézy: Studenti přírodovědných oborů jsou při vyhledávání zdrojů v univerzitní knihovně úspěšnější než studenti humanitních oborů. Tato hypotéza predikuje vztah mezi dvěma proměnnými: obor (s hodnotami přírodovědný/humanitní) nezávisle proměnná, úspěšnost vyhledávání zdrojů závisle proměnná. Abychom obě proměnné mohli změřit, je zapotřebí správně provést tzv. operacionalizaci tedy určit, jak budeme obě proměnné měřit. 1.4 Operacionalizace V kvantitativním výzkumu jsou proměnné vymezeny tzv. operační definicí, tedy specifikací, jak je budeme měřit. Ve složitém sociálním světě nelze všechny proměnné změřit jednoduše např. jako ve fyzice měříme teplotu teploměrem. Operacionalizace je postup, kdy složité koncepty přetváříme na měřitelné znaky. Ukažme si to na příkladech. Příklad 1: Výzkumná hypotéza: Studenti přírodovědných oborů jsou při vyhledávání zdrojů v univerzitní knihovně úspěšnější než studenti humanitních oborů. Jak bylo uvedeno výše, v této hypotéze jsou dvě proměnné: obor a úspěšnost vyhledávání zdrojů. Změření první proměnné je jednoduché postačí nám např. jednoduchá otázka na studovaný obor v dotazníku. Jak změřit "úspěšnost vyhledávání zdrojů"? Nejprve provedeme dekompozici, proměnnou tedy rozložíme na dílčí ukazatele, a ke každému určíme indikátor (v našem případě např. čas, ze který bude student schopný najít konkrétní zdroj). Úspěšnost vyhledávání zdrojů můžeme tedy operačně definovat jako průměr časů, za které účastník výzkumu vyhledá dané dokumenty. Schematicky je tento postup zachycen na obrázku 1.1. 11

Obrázek 1.1: Ukázka dekompozice proměnné Příklad 2: Výzkumná hypotéza: Forma studia má vliv na celkovou spokojenost se službami knihovny. I zde sledujeme dvě proměnné. Formu studia (nezávisle proměnná) zjistíme jednou jednoduchou otázkou v dotazníku. Jak ale změřit "celkovou spokojenost"? Opět provedeme dekompozici. Podle předchozího výzkumu se celková spokojenost uživatele knihovny skládá ze spokojenosti s: elektronickými zdroji, tištěnými publikacemi, technickým zázemím, knihovním prostředím, personálem (případně s dalšími službami, které knihovna poskytuje). Každou z těchto komponent můžeme například změřit v dotazníku mírou souhlasu s výrokem. Spokojenost s elektronickými zdroji měříme tedy mírou souhlasu s výrokem "Knihovna disponuje dostačujícím počtem kvalitních elektronických zdrojů". Pro příklad postačí baterie otázek, která je na obrázku 1.2 (ve skutečnosti bychom ale mohli s dekompozicí pokračovat a dále zjemnit znaky a indikátory). 12

Obrázek 1.2: Ukázka baterie otázek jako výsledek operacionalizace 1.5 Dotazník Otázky do dotazníku by měly být formulovány tak, aby jejich počet nepřesáhl 20 a celková doba vyplňování netrvala více než 10 minut. Při překročení těchto hodnot se zvyšuje riziko, že respondent vyplnění dotazníku nedokončí. Otázky by měly být kladeny v logickém uspořádání za sebou. První otázky by měly vyvolat respondentův zájem, složitější otázky pokládáme uprostřed dotazníku a osobní otázky (na vzdělání, věk, pohlaví, ) by měly být kladeny až nakonec, tak, aby respondent nezaujal obranný postoj již na začátku. 1.5.1 Typy otázek v dotazníku V dotaznících se setkáváme se třemi typy otázek: uzavřené výběr z nabízených odpovědi, polouzvařené (nebo také polootevřené) výběr z nabízených odpovědí, kde poslední položka je "jiné" a respondentovi je umožněno tuto odpověď specifikovat, otevřené umožňují volnou tvorbu odpovědi. Použití otevřených otázek v rámci dotazníkového šetření je diskutabilní, tento typ otázek je vhodný v kvalitativním výzkumu. Stejně tak polouzavřené otázky, které se v rámci kvantitativního výzkumu vyhodnocují jen velmi obtížně. Proto se jako nejvhodnější typ jeví uzavřené otázky, které ovšem může vytvářet pouze člověk, který má o zkoumané problematice již nějakou představu a potřebný nadhled. Z hlediska statistického zpracování dat je potřeba rozlišit otázky podle počtu odpovědí, které respondent může u otázky z nabízených možností vybírat: výběr právě jedné odpovědi, výběr alespoň jedné odpovědi. 13

Výběr právě jedné odpovědi. Tato otázka tvoří v datové matici jednu proměnnou, která nabývá tolika hodnot, kolik je nabídnuto odpovědí (každá z nabízených variant tvoří jednu hodnotu proměnné). Výběr alespoň jedné odpovědi. V tomto případě se nejedná o jedinou otázku ale o baterii otázek, na které respondent odpovídá ano/ne (pokud volí odpověď ano, označí příslušnou položku). V datové matici potom každá nabízená odpověď tvoří jednu proměnnou, která nabývá pouze dvou hodnot, zpravidla 0 (ne) a 1 (ano). Takováto otázka je ve své podstatě baterie otázek s dichotomickou škálou. Baterie otázek. Sdružením více otázek na obdobné téma do jednoho bloku, respektive tabulky vzniká tzv. baterie otázek. Ta se používá zpravidla v kombinaci s hodnotící škálou. Baterie otázek výrazně urychluje a zjednodušuje vyplňování pro respondenta. Ukázka baterie otázek je na obrázku 1.2. Pomocí škálování přiřazujeme číselné hodnoty takovým jevům, které nemůžeme přímo měřit na intervalové stupnici. Škála je nástroj, který umožňuje zjišťovat míru vlastnosti nebo jevu nebo jeho intenzitu. Posuzovatel určuje polohu na škále (např. velmi oblíbený, oblíbený, ani oblíbený ani neoblíbený, neoblíbený, velmi neoblíbený) nebo přiřazuje dané vlastnosti nebo jevu počet bodů. Nejčastěji používanými typy škál jsou sémantické diferenciály a Likertovy škály. Likertova škála se používá zejména na měření míry souhlasu s jistým výrokem. Např. Zařazení Internetu do výuky může zvýšit účinnost výuky na ZŠ: naprosto souhlasím spíše souhlasím nemám názor spíše nesouhlasím naprosto nesouhlasím. Sémantický diferenciál obsahuje dvě krajní možnosti, např.: hezký x ošklivý a mezi nimi pětibodovou nebo častěji sedmibodovou stupnici (např. 2, 1, 0, 1, 2 nebo 1, 2, 3, 4, 5, 6, 7). 1.5.2 Otázky a odpovědi Předpokladem získání spolehlivých informací pomocí dotazníkového šetření je správná formulace otázek a odpovědí. Nabízené odpovědi musí představovat soubor vyčerpávající všechny možné alternativy odpovědí a současně všechny kategorie odpovědí se musí vzájemně vylučovat. Nebojte se přidat odpovědi typu "Nevím, nedokážu odpovědět". Z uvedeného vyplývá, že autor dotazníku musí být odborníkem v daném oboru, musí být schopen vyjmenovat všechny alternativy. Cílem dotazníkového šetření jakožto nástroje kvantitativního výzkumu nemůže být odpověď na otázky Co? nebo Jaký? ale jen na otázku Kolik? Pokud si autor dotazníku není z jakéhokoli důvodu jistý tím, že nabídnul všechny odpovědi, je nutné otázky a nabízené odpovědi ještě před započetím dotazníkového šetření konzultovat s dalšími odborníky nebo provede předvýzkum a pilotáž 14

1.5.3 Pravidla pro formulaci otázek Při sestavování jednotlivých otázek byste měli mít na paměti zejména tyto hlavní zásady: Formulujte stručné a jasné otázky, aby jim respondenti bez většího úsilí rozuměli. Komplikované otázky respondenty znechucují a odrazují od dalšího vyplňování dotazníku. Nepoužívejte hovorový jazyk ani slangové výrazy. Na druhou stranu je nutné vyhnout se i odborným výrazům (není-li dotazník určen pro odborníky), cizím slovům a také zkratkám. Neužívejte příliš volné znění otázky, aby se respondenti nemuseli dotazovat Který? Otázky musí být pro respondenty smysluplné. Smysluplnost zvyšuje zájem respondenta a zvyšuje validitu odpovědi. Nepoužívejte vágní otázky (otázky nemající jasný smysl). Výrazy jako několik, obyčejně, někdy interpretují respondenti různě, proto se jim raději vyhněme. Vyhněte se dvojitým otázkám, které se ptají na více informací (Jste šťasten ve svém manželství a práci?). Klaďte jen takové otázky, na které dovedou respondenti odpovědět, to znamená znají odpověď. Nepoužívejte v otázkách podmiňovací způsob (Nechala byste svoji dceru očkovat?). Vyhýbejte se záporným výrazům, pokud jich užijete, zápor zvýrazněte, ale dvojitý zápor neužívejte nikdy. Vyhýbejte se otázkám, které vzbuzují předpojatost. Jinak bude respondent odpovídat, jak si to vyžaduje společenská nebo profesní konvence. Nepokládejte otázky, které nesouvisí s cílem vašeho průzkumu. 1.6 Výběr respondentů pro dotazníkové šetření Hotový dotazník bude potřeba rozdat respondentům, od kterých chceme získat odpovědi a výzkumník musí mít rozmyšleno, koho oslovit a kolik respondentů zahrnout do výzkumu. Nejdříve je nutné uvážit, kolik jednotek čítá náš základní soubor. Pokud se jedná o řádově desítky nebo stovky, neděláme žádný výběr a oslovíme všechny lidi, kteří tvoří základní soubor. Toto se nazývá census. Například budou-li nás zajímat názory studentů prvních ročníků zdravotnických oborů na VŠPJ, základní soubor budou tvořit pouze tito studenti. Vzhledem k tomu, že těchto studentů je každoročně kolem stovky, určitě bude nutné oslovit je všechny a všechny požádat o vyplnění dotazníku. V tomto případě, pokud by návratnost dotazníků činila plných 100 %, bychom získali naprosto přesnou informaci o našem základním souboru. V praxi však bohužel k takové situaci nedochází, zpravidla se vrátí jen malá část rozeslaných dotazníků. Je 15

potřeba si uvědomit, že i malý poměr respondentů, kteří dotazník nevyplní (10 až 15 %), zpravidla způsobí značné zkreslení skutečnosti. Odlišná situace nastává tehdy, když základní soubor tvoří tisíce lidí. V tom případě není možné zjistit údaje o celém základním souboru. O vyplnění dotazníku jsou požádány jen vybrané jednotky, které tvoří výzkumný vzorek. Aby byl výzkum úspěšný, je nesmírně důležité správně vybrat, koho oslovit a požádat o vyplnění dotazníku. Základem je zvolit správnou strategii, abychom eliminovali chyby výběru a zajistili reprezentativitu souboru. Volíme mezi pravděpodobnostními a nepravděpodobnostními metodami výběru vzorku. Metody výběru vzorku z populace můžeme rozdělit do tří skupin: I. náhodný (též pravděpodobnostní) výběr, II. reprezentativní (kvótní) výběr, III. namátkový výběr, anketa. ad I. Preferovanou metodou výběru je náhodný výběr, který poskytuje výsledky nezkreslené tendenčností výběru. Tendenčnost ve výběru vzniká tehdy, když jsou některé skupiny populace systematicky nadhodnocované nebo podhodnocované. Vzorky pořízené náhodným výběrem mají vlastnosti, které umožňují měřit nejistotu, které jsme vystaveni, protože se výběr od populace neodlišuje systematicky, ale jen náhodně. Aby byl výběr náhodný, musí splňovat podmínku, že každá statistická jednotka musí mít stejnou pravděpodobnost, že bude do výběru zahrnuta. To v praxi znamená, že musí být splněny dvě základní vlastnosti: 1. pravděpodobnost zařazení do výběru je pro všechny statistické jednotky nenulová, 2. statistické jednotky jsou do výběru zařazovány nezávisle na sobě. Pokud náhodně oslovujeme lidi procházející centrem města v určitém čase, vzorek, který takto pořídíme, by mohl být přinejlepším náhodný z populace lidí procházejících v daném čase centrem. Pokud by ale tazatel oslovoval (záměrně či neúmyslně) např. jen mladé lidi, byl by vzorek zkreslen úplně. Takto není možné získat náhodný vzorek obyvatel města, protože většina z nich v době, kdy provádíme dotazování, centrem neprochází (a tedy pravděpodobnost, že je zahrneme do výběru, je nulová). Vzhledem k tomu, že každá jednotka musí mít stejnou pravděpodobnost zařazení do vzorku, je nezbytným předpokladem náhodného výběru tzv. opora, tedy úplný a přesný seznam všech statistických jednotek. Z tohoto seznamu již můžeme náhodně vybrat respondenty, které oslovíme. Příkladem opory může být např. databáze všech pacientů daného zdravotnického zařízení nebo jmenný seznam obyvatel určitého města. Pokud naše opora obsahuje např. 25 000 jednotek a my z nich chceme náhodně vybrat 700, vygenerujeme 700 náhodných čísel z intervalu 1 až 25 000. Např. v Excelu za tímto účelem lze použít funkce NÁHČÍSLO. Z opory vybereme ty jednotky, které mají námi vygenerované náhodné číslo jako pořadí. Z uvedeného je zřejmé, že pokud neexistuje opora, není vůbec možné náhodný výběr realizovat. Toto bývá velmi častou chybou mnoha výzkumů, protože i pro naprosto běžné situace není reálné pořídit seznam všech statistických jednotek. 16

Příkladem mohou být výzkumy v oblasti cestovního ruchu, kde by oporu tvořil např. seznam všech návštěvníků dané památky nebo regionu. Druhým problémem náhodných výběrů bývá tzv. nonresponse, který je způsoben faktem, že statistická jednotka může zařazení do výzkumu odmítnout. Jestliže možnost odmítnout využije 10 až 15 % z poctivě vybraného náhodného vzorku, teorie pravděpodobnosti se stane málo použitelnou. V praxi se však velmi často stává, že účast odmítne až 80 % náhodně vybraných respondentů. Vzorek, který získáme je sice náhodně vybraný ale ne z naší populace, ale ze subpopulace ochotných zúčastnit se výzkumu. Přitom subpopulace ochotných a subpopulace neochotných se může velmi často diametrálně lišit. Proto zevšeobecňovat na celou populaci závěry, které byly učiněny na vzorku ochotných, je nesprávné. ad II. Jak se ukazuje, pořídit náhodný výběr není jednoduché, velmi často to je zhola nemožné. Pokud se při výběru respondentů nedá postupovat náhodně, je možné místo náhodného výběru pořídit tzv. reprezentativní výběr. Nejčastěji používanou metodou je kvótní výběr, který vychází z toho, že se populace rozdělí na určité skupiny podle několika proměnných (např. věk, pohlaví, vzdělání, místo bydliště, atd.). Protože vzorek má být reprezentativní (má být věrným obrazem populace), určují se tzv. kvóty. To znamená, že se předem ví, kolik je v populaci mužů a žen, jaká část populace spadá do jednotlivých věkových kategorií, kolik procent lidí dosahuje určitého vzdělání a kolik lidí žije v příslušných regionech. Potom již není problém udělat takový výběr, aby jeho struktura odpovídala struktuře populace. Předpokladem této metody však je znalost struktury populace. Výsledky reprezentativního výběru nelze zobecnit na celou populaci, přesto však ukazují, jaké je nejpravděpodobnější rozdělení proměnných v populaci. Má tedy smysl na ně použít metody popisné statistiky, se kterými se seznámíme v následující kapitole. ad III. Nejhorší možné výsledky poskytují metody typu anketa a namátkový výběr. Výsledky těchto průzkumů nejenže nejsou zobecnitelné na celou populaci, ale zpravidla ani nepopisují rozdělení proměnných v populaci. Přesto však se u výzkumníků těší značné oblibě, zejména pro svoji jednoduchost a snadnou dostupnost v době internetu. Je nutné zdůraznit, že na data pořízená těmito metodami nemá valný smysl používat metody popisné statistiky, protože přináší velmi zkreslené informace. Rozsah výběru. Neméně podstatným problémem je volba vhodného rozsahu výběru. Velké vzorky jsou spojené s vysokými náklady, malé vzorky s nedostatečnou přesností. Renomované firmy, které se zabývají statistickým šetřením, používají kolem 1 000 respondentů. Pro účely běžného dotazníkového šetření by neměl počet respondentů klesnout pod 300, pokud se bude jednat o reprezentativní vzorek. 17

2 Zpracování dat pořízených dotazníkovým šetřením V této kapitole se budeme věnovat metodám, které umožňují charakterizovat (tedy popsat) datové soubory pořízené různými metodami nejčastěji vlastním dotazníkovým šetřením. Cílem je vždy zjednodušit pohled na data, vypočítat hodnoty (tzv. charakteristiky), které datový soubor popisují, a prezentovat data pomocí vhodných grafů. 2.1 Sběr dat a jejich zpracování Údaje je potřeba sbírat nejefektivnějším způsobem, jaký situace umožňuje. Provádíme-li dotazníkové šetření, je vhodné vždy, pokud to situace umožňuje, nahradit papírové formuláře elektronickými. Využití webových formulářů eliminuje riziko vzniku chyby při přepisování údajů do počítače a získaná data je možné ihned analyzovat ve statistickém programu. Takový postup zvýší kvalitu výzkumu a ušetří čas i energii. Samozřejmě, že i při využití internetu je nutné mít na paměti, že musíme oslovovat záměrně vybrané respondenty a požádat je o vyplnění dotazníku. Nelze postupovat tak, že dotazník zveřejníme a čekáme, kdo jej objeví a vyplní. Ať už máme data posbíraná jakýmkoli způsobem, je nutné je před zpracováním převést do excelovské databáze. Jedná se o tabulku v Excelu, která se řídí několika pravidly: 1. Jednotlivé řádky tabulky obsahují informace o jednotlivých respondentech tzn. tabulka obsahuje tolik řádků, kolik jsme oslovili respondentů + jeden řádek záhlaví. 2. Záhlaví tabulky obsahuje názvy proměnných (sloupců tabulky) zpravidla jde o zkrácené znění otázek z dotazníku. Záhlaví tabulky smí tvořit pouze jeden řádek, nesmí se zde slučovat buňky. 3. V prvním sloupci je vhodné uvést číslo respondenta, pro případ nějakých nesrovnalostí a nutnosti kontroly. Stejně očíslované by měly být dotazníky či jiné informační zdroje, aby byly propojené s elektronickou podobou dat. 4. V tabulce nesmí zůstat prázdný řádek nebo prázdný sloupec to by rozdělilo databázi na dvě databáze, které by nespolupracovaly. Prázdné buňky databáze obsahovat může a v praxi i velmi často obsahuje. Pokud chybí informace (např. respondent neodpověděl), necháme buňku prázdnou, nepíšeme otazník, pomlčku či jiný znak. 5. Formátování databáze by mělo být co nejjednodušší, zejména nesmí být použito slučování buněk. Po vytvoření a kontrole databáze je již možné přistoupit k vlastní analýze dat a jejich prezentaci. V současné době je běžné pro tyto účely použít statistický software, buď Excel, který obsahuje celou řadu statistických funkcí, ale pro pokročilejší analýzy je nutné použít specializovaný statistický software, jakým je např. Statistica, SPSS nebo SAS. 2.2 Třídění dat Databáze, které obsahují záznamy o všech proměnných a o všech respondentech, mívají zpravidla stovky řádků a desítky sloupců. Jsou značně nepřehledné a pro běžného uživatele je 18

téměř nemožné vyčíst z takto uspořádaných informací nějaké závěry. Proto je nutné tyto informace zpracovat tak, aby na první pohled bylo jasné, jakých hodnot zvolená proměnná nabývá a jak často se jednotlivé hodnoty (nazývané též obměny) v datovém souboru vyskytují. Tuto činnost nazýváme třídění dat a výsledkem je pro každou proměnnou tzv. frekvenční tabulka. Jak už jsme uvedli v kapitole 1, zkoumané proměnné mohou mít různý charakter, podle toho, jakých hodnot nabývají. Z hlediska metod, které používáme při třídění dat, lze třídění rozdělit do dvou skupin: 1. bodové třídění, které používáme pro kategoriální (nominální a ordinální) proměnné, 2. intervalové třídění, které používáme pro intervalové (kardinální) proměnné. 2.2.1 Bodové třídění Bodové třídění je vhodné pro slovní znaky a číselné proměnné s rozumným počtem obměn. Rozumný počet obměn zpravidla znamená 6 až 10, ale pro soubory s velkým rozsahem také třeba i 15 až 20. Tímto způsobem lze třídit například informace o dietě pacienta (nominální slovní znak), spokojenosti se stravou (ordinální slovní znak) nebo délce hospitalizace ve dnech (ordinální číselný znak). Výsledkem třídění je frekvenční tabulka, která zpravidla obsahuje následující informace: pořadové číslo obměny (i), hodnota znaku (x i ), absolutní četnost (n i ), relativní četnost (p i ), kumulativní relativní četnost (kp i ). Pořadové číslo obměny se zpravidla neuvádí v případě nominálního slovního znaku, protože u tohoto typu znaku nemá smysl mluvit o přirozeném pořadí. Obměny se nejčastěji seřadí podle četností (od nejvyšší po nejnižší). Při třídění ordinálních znaků je sloupec pořadových čísel obměny vhodný, nikoli však důležitý jinými slovy: je logické jej uvést, ale není to bezpodmínečně nutné. Hodnota znaku je naopak jednou ze dvou nepostradatelných informací, které frekvenční tabulka musí obsahovat. Jedná se o přehled všech obměn, které proměnná nabývá. Druhou neméně důležitou informací, kterou je nutné z frekvenční tabulky vyčíst, je tzv. absolutní četnost, která uvádí, kolikrát se daná hodnota v databázi vyskytuje. Součet všech absolutních četností se rovná rozsahu souboru 1 n. Vzhledem k tomu, že absolutní četnosti vždy závisí na rozsahu souboru, velmi často je vyjadřujeme v procentech a nazýváme relativní četnosti 2 p i. Součet všech relativních četností je vždy 100 % (nebo 1, použijeme-li formát bez procent). 1 ni n i 2 p i ni n 19

Pro ordinální znaky má smysl ještě absolutní četnosti načítat (kumulovat) a vytvořit sloupec, který obsahuje kumulativní relativní četnosti. Ten obsahuje v j-tém řádku součet relativních četností prvních j řádků 3. Např. ve třetím řádku je kp 3 = p 1 + p 2 + p 3. V posledním řádku tabulky je vždy 100 %, protože do něj sečteme všechny relativní četnosti, jejichž součet je vždy 100 %. Součtový řádek nemá smysl vyplňovat, proto je v něm křížek, což je ve statistice symbol používaný pro tyto případy. Příklady frekvenčních tabulek, které získáme prostým tříděním nominálních (slovních) znaků, ordinálních slovních znaků a ordinálních číselných znaků jsou uvedeny v tabulkách 2.1, 2.2 a 2.3. Tabulka 2.1: Počet lékařů v okresech kraje Vysočina k 31. 12. 2011; příklad frekvenční tabulky pro nominální znak (zdroj: ČSÚ) okres (x i ) n i p i Jihlava 758 26,3% Žďár nad Sázavou 598 20,9% Havlíčkův Brod 561 20,1% Třebíč 541 19,9% Pelhřimov 341 12,8% celkem 1 845 100,0 % V tabulce 2.1 stojí za pozornost skutečnost, že okresy jsou seřazeny podle absolutní četnosti, tedy podle počtu lékařů v daném okrese. Poznamenejme též, že seřazení podle relativní četnosti by nepřineslo žádnou změnu. Obměny ordinálních proměnných mají již nějaké logické pořadí a to je nutné ve frekvenční tabulce zachovat (viz tabulky 2.2 a 2.3). Pro tento typ proměnných má smysl relativní četnosti načítat a vytvořit sloupeček kumulativních relativních četností, s jehož využitím se seznámíme později. Analogicky by bylo možné vytvořit i sloupec kumulativních absolutních četností, ale ten nemá žádný praktický význam. Sloupce kumulativních četností nesčítáme (součet by nedával žádný smysl), políčko vyplníme křížkem (x). Tabulka 2.2: Příklad frekvenční tabulky pro ordinální slovní znak míra souhlasu s daným výrokem i míra souhlasu (x i ) n i p i kp i 1 zcela souhlasím 75 25,0 % 25,0 % 2 spíš souhlasím 98 32,7 % 57,7 % 3 spíš nesouhlasím 61 20,3 % 78,0 % 4 zcela nesouhlasím 41 13,7 % 91,7 % 5 bez odpovědi 25 8,3 % 100,0 % x celkem 300 100,0 % x V tabulce 2.3 jsme vynechali sloupec pořadových čísel, protože by obsahoval stejné informace jako sloupec obsahující hodnoty číselného znaku, a je tedy zbytečné jej uvádět. i 3 j1 kp j p j 20