Základní pojmy a cíle statistiky 1

Podobné dokumenty
veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Základní pojmy a úvod do teorie pravděpodobnosti. Ing. Michael Rost, Ph.D.

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

Popisná statistika. Statistika pro sociology

Škály podle informace v datech:

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Mnohorozměrná statistická data

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Pojem a úkoly statistiky

Statistika pro geografy

Renáta Bednárová STATISTIKA PRO EKONOMY

Mnohorozměrná statistická data

Třídění statistických dat

Informační technologie a statistika 1

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy pravděpodobnosti a statistiky. Popisná statistika

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Analýza dat na PC I.

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Popisná statistika - úvod

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

23. Matematická statistika

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

7. Rozdělení pravděpodobnosti ve statistice

Základy teorie pravděpodobnosti

Statistika I (KMI/PSTAT)


Základy štatistiky. Charakteristiky štatistického znaku

Základy popisné statistiky

Předmět studia: Ekonomická statistika a analytické metody I, II

2. Bodové a intervalové rozložení četností

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Náhodná veličina a rozdělení pravděpodobnosti

Tabulka 1. Výběr z datové tabulky

Základy biostatistiky

Kontingenční tabulky v Excelu. Představení programu Statistica

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Základy popisné statistiky

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Technická univerzita v Liberci

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Sázíte-li v loterii, je to hazard. Hrajete-li poker, je to zábava. Obchodujete-li na burze, je to ekonomie. Vidíte ten rozdíl?

Statistika pro gymnázia

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

STATISTIKA jako vědní obor

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Úvodní statistické pojmy

Funkce a lineární funkce pro studijní obory

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Číselné charakteristiky

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Obsah. Statistika Zpracování informací ze statistického šetření Třídění statistického souboru. Třídění dle statistického znaku.

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Popisná statistika. Komentované řešení pomocí MS Excel

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

I. D i s k r é t n í r o z d ě l e n í

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

p(x) = P (X = x), x R,

Diskrétní náhodná veličina. November 12, 2008

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Nejčastější chyby v explorační analýze

Popisná statistika kvantitativní veličiny

Zápočtová práce STATISTIKA I

Základní statistické pojmy

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

Statistika. zpracování statistického souboru

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Funkce - pro třídu 1EB

Chyby měření 210DPSM

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Základní statistické charakteristiky

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Praktická statistika. Petr Ponížil Eva Kutálková

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

1 Statistická data a jejich prezentace 1.1 Co je to statistika

Statistika I (KMI/PSTAT)

Náhodné (statistické) chyby přímých měření

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

Transkript:

Základní pojmy a cíle statistiky 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Předmět zkoumání Statistiky Definice statistiky Statistika zasahuje do mnoha oblastí našeho moderního života. Lze se s ní setkat jak ve velmi specifických vědních disciplínách, tak i v běžném každodenním životě. Příkladem mohou být výzkumy veřejného mínění, stanovení farmakokinetiky účinné látky v krvi sledované osoby při bioekvivalenčních studiích, vývoj ceny sledovaných akcí, či prostorové modely území využívající různých regresních modelů. Statistiku lze definovat jako vědní obor, zabývající se hromadnými jevy a procesy. Existují však i jiné definice. Statistika zahrnuje jak získávání, tak i analýzu a interpretaci napozorovaných dat. Cílem statistického zpracování dat je podání informace o vlastnostech, povaze a zákonitostech projevujících se na pozorovaných datech. Počátky statistiky Slovo statistický je odvozeno od latinského slova status. To lze přeložit jako stav či v přeneseném významu jako stát. V 16. - 17. století se začínají vyskytovat slova statistico a státística. Význam těchto slov spočíval v souhrnu znalostí o státních záležitostech, či jako označení znalce státních záležitostí. V polovině 18. století se v Německu vyučovala disciplína tzv. státověda die Staatswissenschaft ta byla zpočátku spíše slovním popisem. Významná jména spojená se statistikou Mezi přední světové statistiky bezesporu patří tato jména: Galileo Galilei, Blaise Pascal, Piere Fermat, Jacob Bernoulli, Thomas Bayes, Karl Friedrich Gauss, Andrej Andrejevič Markov, Andrej Nikolajevič Kolmogorov, Karel Pearson, atd... Hromadný jev Jevy které se vyskytují v masovém měřítku a mohou se neustále opakovat nazýváme hromadnými jevy. V zásadě existují dva typy hromadných jevů: Prvním je opakované měření sledované vlastnosti jednoho předmětu Druhým typem je pak sledování vlastnosti(í) na předem definované množině sledovaných předmětů. Hranice mezi individuálním a hromadným pojetím je neostrá. Statistický soubor Je definován jako množina sledovaných statistických jednotek. Statistika rozeznává základní statistický soubor a výběrový statistický soubor. Počet jednotek v analyzovaném statistickém souboru se nazývá rozsah souboru. Z hlediska rozsahu souboru se může jednat o konečný či nekonečný soubor. 1

Statistická jednotka Statistické jednotky jsou obecně nositeli sledovaných vlastností. Pokud sledujeme výsledky hospodaření podniků v ČR, pak je statistickou jednotkou právě podnik. Ten je nositelem sledovaných vlastností tj. statistických znaků jako jsou zisk, obrat, rentabilita vloženého kapitálu atd... Statistický znak Je obrazem určité vlastnosti každé statistické jednotky ze statistického souboru. Hodnota statistického znaku je pak označením stupně dané vlastnosti. Hodnota statistického znaku se často nazývá pozorování. Lze rozlišovat statistické znaky: konstantní jejich hodnota je pro všechny jednotky stejná. Dále identifikační a proměnlivé neboli variabilní. Právě tyto znaky - proměnné jsou předmětem statistického zkoumání. Zamyslete se nad tím, že vyjádření hodnot nemusí být vždy číselné. Výsledkem statistického šetření, tj. analýzy dat je množina informací o hodnotách jednotlivých statistických znaků. Indukce dedukce Indukce znamená usuzování z partikulárního na obecné. Dedukce znamená usuzování na základě obecných poznatků či axiómů na partikulární. Typy statistických znaků V praxi se lze setkat s různými druhy dat. Příkladem mohou být záznamy o pohlaví dítěte, záznamy o postoji voliče k programu politické strany, počet potratů, ceny mléčných výrobků v různých obchodech, nebo soubor dat zachycující hmotnost substance obsažené v produkčním médiu po několikadenní fermentaci. Nominální znaky V případě práce s nominálními daty je nutné zavést disjunktní kategorie, které budou vyčerpávat všechny možnosti. Jednotlivé hodnoty znaku mohou být vyjádřeny slovně či pomocí čísel. Číselné vyjádření nominálního znaku je v tomto případě kódem, který slouží pouze k odlišení. Pokud existují pouze dvě hodnoty jichž může sledovaný znak nabývat, pak takový znak nazýváme dichotomickým či binárním. Příkladem takovéhoto znaku může být záznam narozených chlapců, nebo záznam výskytu infekční choroby A u sledovaných pacientů. Veličinám vyjádřeným v nominálním měřítku se také v některých případech říká faktory. 2

Ordinální znaky Pokud pracujeme s daty které lze uspořádat, tj. jsme schopni rozlišit, zda jde o vyšší respektive nižší úroveň sledovaného znaku, pak lze zavést ordinální stupnici. Jsme tedy schopni pro každou dvojici hodnot určit, která v daném uspořádání předchází. Ordinální veličina bývá někdy nazývaná uspořádaným faktorem. Příkladem ordinálního znaku může být postoj zákazníka ke koupi určitého produktu, nebo stádium nemoci či stupeň zaplevelení. Pro úplnost ze uvést, že nominální a ordinální znaky jsou znaky kvalitativní. Následující znaky patří naopak mezi znaky kvantitativní, neboli mezi znaky kardinální. Intervalové znaky metrické znaky Na rozdíl od výše uvedených předpokládá, že mezi sousedními hodnotami jsou stejné vzdálenosti. Běžné je přiřazení jednotlivých hodnot stupnice přirozeným nebo reálným číslům. Typickým příkladem intervalového měřítka je Celsiova stupnice. Při zavedení takovéto stupnice má smysl se ptát o kolik se dvě hodnoty liší. Ptáme se tedy na rozdíl dvou hodnot. Lze dodat, že nula nemusí znamenat neexistenci sledované vlastnosti. Poměrové veličiny kardinální veličiny Zde údaj znamená násobek přesně definovaného jednotkového množství. Nula v tomto případě znamená neexistenci sledované vlastnosti. Vyjádření pomocí reálných čísel je zde nezbytné. Při porovnávání hodnot v podílovém měřítku se lze ptát jak na otázku o kolik se dvě hodnoty liší, tak i na otázku kolikrát je daná hodnota větší či menší než hodnota druhá. Podle počtu hodnot, kterých může daný statistický znak nabývat lze znaky dělit na diskrétní a spojité. Diskrétní znaky Jsou takové znaky, které mohou nabýt konečného či spočetného počtu hodnot. Příkladem může být počet lidí zaměstnaných ve státním podniku Budvar. Spojité znaky Jsou takové statistické znaky, které mohou nabývat nekonečně mnoha hodnot v konečném či nekonečném intervalu. Příkladem může být čistý zisk po zdanění. Třídění V podstatě jde o uspořádání získaných dat. Volba třídícího znaku je zpravidla dána účelem třídění. Dle počtu třídících znaků rozeznáváme třídění jednostupňové, dvoustupňové, či vícestupňové. Jde-li o třídění kategoriálního znaku, nebo jedná-li se o numerický znak s malým 3

počtem hodnot, lze provádět tzv. třídění prosté. Je-li třídícím znakem numerická proměnná s velkým počtem hodnot, pak je vhodnější provádět intervalové třídění. Volba počtu intervalů je velmi důležitá, ale neexistuje žádné obecné doporučení pro jejich určení. Pokud je intervalů příliš mnoho, jsou většinou příliš krátké a informace obsažené v nich jsou nepřehledné. Pokud je jich naopak málo, pak jsou do stejného intervalu zařazeny zcela odlišné statistické jednotky. Vodítkem pro určení počtu intervalů může být Sturgesovo pravidlo. To je definováno takto: k = 1 + 3, 3log n (1) V některých případech je vhodné charakterizovat statistický soubor prostřednictvím tzv. četností. Zpravidla rozeznáváme několik druhů četností. Absolutní četnost zpravidla ji značíme prostřednictvím symbolu n i a udává kolikrát se hodnota x i znaku X vyskytuje v souboru. Relativní četnost p i udává, v jak velké části souboru je hodnota znaku X rovna x i Kumulativní absolutní četnost k ni udává počet statistických jednotek, u nichž byla hodnota statistického znaku X x i tj. k ni = n 1 + n 2 +... + n i udává jaká část souboru vykazo- Kumulativní relativní četnost K Pi vala hodnoty X x i tj. k pi = p 1 + p 2 +... + p i Relativní a kumulativní četnosti se počítají pouze pokud mají smysl. Při určování mezí je třeba volit meze tak, aby nedocházelo k nejasnostem, tj. abychom mohli každou hodnotu jednoznačně zařadit do určitého intervalu. Grafické znázornění souboru Znázornění provádíme zpravidla pomocí polygonu četností, nebo pomocí histogramu četností. Polygon četností Jde o spojnicový graf rozdělení četností kvantitativního znaku. Vzniká tak, že na x-vé ose zobrazíme hodnoty znaku X a na y-ové ose zobrazíme četnosti. Body pak spojíme lomenou čarou. V případě intervalového třídění bude každý interval zasoupen středem intervalu. 4

Frequency 0 2 4 6 8 150 200 250 300 350 x Histogram četností Jde o grafické znázornění intervalového rozdělení četností. Na ose x zobrazíme meze intervalů hodnot X a nad nimi vytvoříme sloupce. Šířka sloupce odpovídá velikosti intervalu, výška pak četnostnostem znaků v příslušném intervalu. Tyto dva grafy jsou sice nejužívanější, lze však využít i jiné typy grafického znázornění. Box plot Pro vytvoření prvotní představy o vlastnosti souboru dat zpravidla využíváme několika typů grafů. Jedním z nich je tzv. Box-plot. Ten vhodným způsobem zachycuje minima, maxima, průměr či medián a dále pak horní a dolní kvartily. Nevýhodou tohoto grafu je, že nelze zhodnotit zda studovaný soubor má unimodální či vícemodální rozdělení. 5

Obrázek 1: Ukázka Box-plotu Guinejske prase Rust zubu 35 30 25 Delka zubu [mm] 20 15 10 5 Kyselina askorbova vitamin C Pomerancova stava 0 0.5 0.5 1 1 2 2 Vitamin C davka [mg] 6