Úvodní statistické pojmy STATISTIKA Statistika vznikla z úředních zjišťování (počtu lidí a jejich majetku), univerzitní státovědy, politické aritmetiky (zkoumání společenských jevů na podkladě objektivních převážně číselných záznamů) a teorie pravděpodobnosti. Zdokonalování zjišťování do podoby dnešního Sčítání lidu. Co je to statistika Praktická činnost činnost, spočívající ve zjišťování, shromaždování, zpracování a prezentaci dat; samotný vyplněný dotazník nebo statistický výkaz (výsledky uvedené činnosti); specializovaná instituce, organizace, pověřena praktickou statistickou činností (v ČR Český statistický úřad). Věda (teorie statistiky, statistické metody) provedení statistické analýzy předpokládá znalost statistických postupů a metod (vlastní matematický aparát). Popisná statistika nejjednodušší disciplína, pouhý statistický popis určité reality. Teorie výběrových zjišťování řešení zjišťování u velkého množství podniků. Matematická statistika konstrukce statistických odhadů, testování hypotéz. Teorie výběrových zjišťování a matematická statistika využívají (na rozdíl od popisné statistiky) teorii pravděpodobnosti, která jim umožňuje kvalifikovaně se vyslovit k hlubší podstatě zkoumaných jevů. Výpočetní statistika programové řešení náročných statistických algoritmů na počítačích. Základní statistické pojmy Typické pro statistiku jsou hromadné jevy, což jsou jevy vyznačující se opakovatelností a masovým výskytem, tedy takové, u kterých lze poměrně snadno shromáždit velký počet případů, pozorování. Vlastním smyslem statistiky je zobecňovat zákonitosti jevů na základě pozorování velkých objemů dat. Statistika se nezajímá o jednotlivé, neopakovatelné, výjimečné jevy a události. Statistika se zajímá především o proměnlivé, variabilní vlastnosti hromadných jevů. Proměnlivost jednotlivých zkoumaných případů je žádoucí, pozor na hrubé chyby.
Úvodní statistické pojmy Statistika se vyznačuje číselným kvantitativním vyjádřením zkoumané reality. Základním vyjadřovacím prostředkem je tedy číslo. Slovní komentář má jen vysvětlující význam. Současná statistika je nemyslitelná bez použití výpočetní techniky. Datové editory (uchování dat), internet (informace), statistické výpočetní systémy STATGRAPHICS, UNISTAT, SPSS, STATISTICA, SAS. Výuka statistiky tabulkové procesory MS Excel (základní statistické funkce). Doplněk pro statistickou analýzu dat. STATISTICKÁ JEDNOTKA je nositelem statistické informace. Základní prvek hromadného jevu. Široký pojem z hlediska rozmanitosti jejích druhů: reálně existující objekty a živé bytosti (lidé, živočichové, rostliny, výrobky), části přírodního nebo společenského prostředí (obce, regiony, státy, podniky), přírodní a společenské jevy a události (narození, úmrtí, požáry, povodně). a z hlediska rozlišovací úrovně: relativně malá jednotka rostlina, zvíře, zaměstnanec x velká porost na pozemku, stádo zvířat, zemědělské podniky. Mnohastupňová hierarchie vymezení statistických jednotek: student studijní skupina ročník obor fakulta univerzita. Specifický problém: - vzorky odebírané ze spojitého prostředí vzorek vody z rybníka, vzorek zrn ječmene z jednoho pytle nelze vybrat tutéž jednotku vícekrát za sebou; - zjišťování je spojeno s destrukcí jednotky rozemletí zrn, usmrcení zvířete, vypití vzorku. Statistická jednotka je vymezena z hlediska věcného (KDO, CO), prostorového (KDE) a časového (KDY). STATISTICKÝ SOUBOR tvoří množinu všech statistických jednotek, na nichž je prováděno statistické zjišťování, a které tvoří hromadný jev. Může být vymezen explicitně (přímý seznam statistických jednotek) nebo implicitně (nepřímé vymezení, výčet vlastností statistických jednotek). Počet statistických jednotek rozsah souboru (n; N).
Úvodní statistické pojmy Vyčerpávající zjišťování (základní soubor, populace) x nevyčerpávající zjišťování (výběrový soubor) výběrové (reprezentativní) x nereprezentativní zjišťování. Malé soubory (pivovary v ČR), velké soubory (skot v ČR), nekonečně rozsáhlé soubory (zrnka ječmene na jednom poli). STATISTICKÉ ZNAKY vlastnosti, jejichž nositeli jsou statistické jednotky, mohou být předmětem statistického zkoumání. Mírou dané vlastnosti z každé jednotky souboru je hodnota (slovní nebo číselná) daného znaku. Počet hodnot jednoho statistického znaku je roven rozsahu souboru. Každá jednotlivá hodnota lze nazvat pozorováním. STATISTICKÉ ZNAKY Společné Číselné Slovní Proměnlivé Měřitelné Spojité Diskrétní Pořadové Alternativní Množné Společné (identifikační) znaky: rozhodují o příslušnosti statistické jednotky k určitému statistickému souboru, nejsou předmětem statistického zpracování, identifikují statistickou jednotku ze tří hledisek věcného, časového a prostorového. Časové (jsou dány časem vzniku nebo existence statistické jednotky), prostorové (jsou dány územím, na němž statistické jednotky vznikly nebo existují), věcné (charakterizují nejrůznější věcné vlastnosti statistických jednotek). Proměnlivé (variabilní) znaky: jsou předmětem zkoumání (HDP, výše průměrné mzdy, procento nezaměstnanosti), nabývají v daném statistickém souboru více než jedné varianty.
Klasifikace variabilních znaků: Úvodní statistické pojmy Číselné (kvantitativní) znaky: Měřitelné (kardinální) znaky: hodnoty jsou výsledkem měření (hmotnost, čas), vyjadřují velikost měřených vlastností statistických jednotek, jsou definovány rozdíly jednotlivých hodnot. Pořadové (ordinální) znaky: řadí zjištěné hodnoty na určitou škálu (školní klasifikace, stupnice mzdových tarifů), lze pouze říci, která hodnota je menší a která větší. Vyjadřují v číselné podobě různou úroveň výskytu původně slovního znaku. Číselné znaky je možno dále rozdělit na přímo zjišťované a dopočtené (obytná plocha připadající na 1 osobu). Slovní (kvalitativní) znaky: Nominální znaky slovní proměnné, u jejichž obměn nelze objektivně jednoznačně stanovit pořadí (pohlaví, rodinný stav, apod.). Kódování: číselné vyjádření obměn slovního znaku (muž = 1, žena = 0, apod.), čísla nemají význam velikosti. Slovní znaky: sociologické výzkumy, marketingové výzkumy, degustační zkoušky, vyzrálost sýrů, jediným číselným znakem jsou zjištěné četnosti. Hodnoty x obměny znaku. Měřitelné znaky dále dělíme na: Spojité znaky reálná čísla (příjmy, výdaje, apod.). Diskrétní znaky nespojité hodnoty, celočíselné, nezáporné (počet dětí v domácnosti). STATISTICKÁ DATA (ÚDAJE): shromážděné hodnoty číselných a obměny slovních znaků pro určitý soubor statistických jednotek, typický způsob uchování dat: statistické databáze (např. Český statistický úřad, Eurostat), pokus vlastní data v tabulce v Excelu diplomová práce. Symbolika Číselné znaky velká písmena z konce abecedy: X, Y, Z
Úvodní statistické pojmy Slovní znaky velká písmena ze začátku abecedy: A, B, C Hodnoty číselného znaku X, tvořící statistický soubor o rozsahu n, označíme jako: x, x,... 1 2 xi,..., xn, xi, i = 1,2,..., n a obměny slovního znaku A, které tvoří statistický soubor o rozsahu n, značíme jako: a, a,... 2 ai,..., an, ai, i 1,2,..., n 1 = malá písmena, index i souvisí s pořadím zjišťování. Kvádr dat: xijk hodnota j-tého znaku na i-té jednotce v k-tém okamžiku. Analýza vlastností statistických jednotek by měla probíhat současně ve všech třech dimenzích, což by bylo obtížné. Dílčí analýzy: zjednodušený pohled na data: jeden znak, v jednom čase, pro různé jednotky analýza struktury hromadného jevu, dva znaky, v jednom čase, pro různé jednotky analýza závislosti, jeden znak, pro jednu jednotku v různém čase analýza vývoje (časová datová řada). STATISTICKÉ CHARAKTERISTIKY (UKAZATELE): hlavním cílem statistické analýzy je ze statistických údajů, které charakterizují každou statistickou jednotku zvlášť, získat informace, umožňující charakterizovat statistický soubor jako celek. Hodnoty statistických charakteristik měří určité vlastnosti datových souborů, jako např. úroveň nebo proměnlivost. Statistické charakteristiky: jsou nositeli informace funkce všech hodnot souboru x významné hodnoty, chybějící hodnoty minimalizovat ztrátu informace, podezřelé hodnoty chyby měření. Úroveň a variabilita dat.
Etapy statistického zkoumání Statistická šetření a zpracování dat ZJIŠŤOVÁNÍ ZPRACOVÁNÍ ANALÝZA PREZENTACE VÝSLEDKŮ Zjišťování: shromažďování a zaznamenávání údajů číselné (slovní) povahy o zkoumaném hromadném jevu úplné (vyčerpávající) neúplné (nevyčerpávající): nereprezentativní (nezobecnitelné) anketa metoda základního masívu (do souboru jsou zahrnuty jen velké statistické jednotky), reprezentativní (zobecnitelné, výběrové) výsledky lze zobecnit i na neprošetřenou část úsudkový (záměrný) výběr ve šlechtitelství, odborník určí, kterou jednotku zahrne do souboru, snaha vybrat typické jednotky náhodný (pravděpodobnostní) výběr - výběr se stejnými (sportka) a nestejnými pravděpodobnostmi - výběr s vracením (opakováním) a bez vracení (opakování) - přesnější, více se dovíme o souboru - přímý výběr jednotek x složitější uspořádání souboru Prosté pozorování (oblast sociálně ekonomických jevů vývoj kurzu akcie) x řízený experiment (oblast přírodních jevů polní pokusy, krmivářské pokusy), eliminují vliv rušivých faktorů. Primární údaje x sekundární údaje. Zpracování: spočívá v uspořádání zjištěných chaotických informací.
Statistická šetření a zpracování dat Číselnou (variační) řadu znaku X zapíšeme pomocí indexovaných hodnot znaku x 1, x 2,..., x i,..., x n-1, x n i = 1..n, kde n je počet případů (rozsah souboru) Zpracování třídění dat Analýza: základním úkolem statistické analýzy je ze statistických údajů, které charakterizují každou statistickou jednotku zvlášť, získat informaci, umožňující charakterizovat statistický soubor jako celek. Nositeli této informace jsou statistické charakteristiky (statistické ukazatele). Prezentace výsledků zpracování výsledků analýzy do srozumitelné podoby, vyjadřovací prostředky: statistické tabulky, grafy. Základním předpokladem úspěšné statistické analýzy je předběžná vizualizace neboli grafické znázornění vstupních dat.