BIOMEDICÍNSKA ŠTATISTIKA ( Poznámky k problematike - nutný komentár prednášajúceho )
Úvod do biomedicínskej štatistiky Čo si myslíte o štatistike? Je to nuda?...
Štatistika je dovtedy nudná", kým sa nezačne týkať priamo nás...
Štatistika......presná interpretácia nepresných čísel Jedna z najkratších a najvýstižnejších definícií Hmm,... teraz nepozerajte na kocky, tých bude ešte dosť, ale štatistika bude iba chvíľu...
Verím len tým štatistikám, ktoré si sfalšujem sám ( W.L.S.Churchill - britský politik, historik, žurnalista )
Základné štatistické pojmy Predmet štatistiky a významy pojmu štatistika: Termín štatistika (lat. status = stav, štát) Pozor, nemýliť si to s pojmom "štatista"... napr. vo filme!...alebo niekedy aj vo firme :-) Štatistika - vedná disciplína, ktorá sa zaoberá metódami zberu, usporiadania, vyhodnocovania a interpretácie údajov získaných z jednotlivých alebo hromadných pozorovaní a experimentov.
Štatistika a súčasnosť Využívajú sa všetky postupy a metódy, ktoré si štatistika behom svojho vývoja vytvorila alebo osvojila (matematický aparát, software, počítačka kusov) Použitie ďalších nástrojov (diaľková čítačka čiarového kódu, vysokofrekvenčná identifikácia RFID pre tovar v obchodoch; i lieky) Zbližovanie štatistiky a informatiky (využitie osobných počítačov, mikroprocesory vo výrobkoch i v tele človeka)
Počítač víťazí nad človekom pri triedení, vyhľadávaní a výpočtoch najmä pri veľkom množstve údajov Človek víťazí nad počítačom pri rozhodovaní a vytváraní záverov ("nevinný" počítač a štatistický softvér) S ktorým tvrdením máte viac skúseností?
Štatistické programy - Veľký výber: Stats Direct, SPSS, SAS, Statistica, Minitab... - Často neúmerne vysoká cena...u nás :-( - Dobrý a vyhovujúci kompromis: Microsoft Excel
Kto vykonáva praktickú štatistickú činnosť? Odkiaľ máme údaje o inflácii, HDP, výsledkov volieb, prieskume trhu, sociologickom výskume, účinnosti liekov...? Zber dát z terénu, laboratórií, cielených prieskumov,...
Štatistika skúma hromadné javy Teória pravdepodobnosti skúma individuálne javy Dva pohľady na rovnaký problém: hromadný jav 52 % narodených detí sú dievčatá individuálny jav - pravdepodobnosť narodenia dievčaťa je 52 %
Hromadný jav sa vzťahuje k veľkému počtu prvkov, osôb, javov: hrubý mesačný príjem občanov SR počet kazových výrobkov vo výrobe hlasovanie v parlamentných voľbách priemerná denná teplota Skúste sami vymenovať ďalšie hromadné javy zo svojho okolia, z medicínskej teórie i praxe [ napr. morbidita pacientov pre určitú chorobu ]
Štatistický súbor: množina všetkých štatistických jednotiek, u ktorých skúmame príslušné štatistické znaky. Základný súbor (populácia): štatistický súbor všetkých jednotiek, ktorý je vlastným predmetom skúmania a o ktorom chceme robiť závery. Výberový súbor (výber, vzorka): štatistický súbor, ktorý vznikne zo základného súboru, ak sa z neho vyberú len niektoré prvky.
Indukcia: prenášanie záverov z výberu na celú populáciu (t.j. z časti na celok). Napr. ak je niekto malého vzrastu a má krátke končatiny, predpokladáme, že aj iní malí jedinci budú mať krátke ruky i nohy. Dedukcia: zo všeobecných zákonitostí uskutočňujeme závery pre jednotlivé prípady (t.j. z celku na časť). Napr. ak máme skupinu vysokoškolákov, predpokladáme, že každý z nich predtým úspešne absolvoval strednú i základnú školu.
Štatistické zisťovanie: sledovanie znakov jednotlivých prvkov súboru. Úplné (vyčerpávajúce) zisťovanie: sledovanie znakov všetkých prvkov súboru, napr. umiestnenie pacientov (doma, v nemocnici a...kde?). Výberové zisťovanie: požadované vlastnosti skúmame len u niektorých prvkov súboru, ktoré tak predstavujú výber (vzorku).
Štatistické znaky a ukazovatele Štatistické znaky podľa vyjadrenia hodnôt: kvalitatívne vyjadrené slovne: nízky, vysoký,... kvantitatívne vyjadrené číselne: 2, 17, 5,...
Štatistické znaky podľa spôsobu spracovania: nominálne - hodnoty majú rovnakú váhu: národnosť http://cs.wikipedia.org/wiki/národnost ordinálne - hodnoty je možné usporiadať: vek metrické - s hodnotami sa dá počítať: tlak krvi
Štatistické znaky podľa počtu hodnôt: alternatívne (dichotomické) - iba 2 možnosti, napr. áno/nie, muž/žena viackategoriálne viac ako 2 možnosti, napr. vek, výška, hmotnosť
Analýza interpretácia prezentácia výsledkov Výsledkom štatistického zisťovania je spravidla veľké množstvo údajov. Aby sa tieto údaje stali prehľadnými, musíme ich zotriediť. Metódy popisnej štatistiky umožňujú prehľadné usporiadanie dát (štatistické triedenie) a výpočet potrebných ukazovateľov
Organizácia údajov (prakticky) Majme základný súbor ( populácia, celá množina) šk. známok: 11 Interval (trieda) objekt (variant) 213 325 244 53 Rozsah výberu = počet vybraných objektov: 4 Početnosť (váha, frekvencia, výskyt, počet opakovaní) daného objektu (hodnoty, variantu) 2 je 3 ks. Variačné rozpätie radu: w=5-1=4 (Keby v základnom súbore namiesto 1-ky bola 2-ka a namiesto 5-ky 4-ka, w=4-2=2
Organizácia údajov (teoreticky) Majme základný súbor ( populácia, celá množina) objektov: n Interval (trieda) objekt (variant) Rozsah výberu = počet vybraných objektov: r Početnosť (váha, frekvencia, výskyt, počet opakovaní) daného objektu (hodnoty, variantu) x j je n j Variačné rozpätie radu: w = x max - x min
Nasledujúce vzorce a popisy niektorých najčastejších štatistických hodnôt a definícií sú väčšinou v zjednodušenej forme, ktorej úlohou je najmä priblížiť princíp výpočtu, príp. jeho aplikovanie pomocou programu Microsoft Excel.
Priemer aritmetický (platí pre malý súbor, kde n<30): n - počet objektov x j - hodnota objektu Priemer aritmetický vážený (platí pre veľký súbor, kde n 30) z j - hodnota objektu n - počet objektov n j - početnosť objektu Jéééžišmária, zasa matika...
Výpočet v Exceli Priemer aritmetický: výpočet pomocou funkcie AVERAGE súbor Statistika(priklady).xls, hárok PriemAritm Priemer aritmetický vážený: výpočet pomocou funkcií SUMPRODUCT a SUM súbor Statistika(priklady).xls, hárok PriemAritmVaz
Priemery - vlastnosti, popis Výhody majú uplatnenie pri riešení takmer všetkých úloh štatistiky Nevýhody zakrývajú rozdiely, ktoré existujú medzi jednotlivými hodnotami majú fiktívny charakter (vypočítaná priemerná hodnota sa nemusí vyskytovať u žiadnej štatistickej jednotky)
Vlastnosti priemeru aritmetického súčet jednotlivých odchýlok od priemeru je nulový aritmetický priemer konštanty je rovný konštante ak pripočítame k jednotlivým hodnotám znaku konštantu, zvýši sa o túto konštantu i aritmetický priemer ak násobíme jednotlivé hodnoty znaku konštantou, je touto konštantou násobený aj priemer ak násobíme váhy aritmetického priemeru konštantou, priemer sa nemení
Priemer geometrický (platí pre malý súbor, kde n<30): n - počet objektov x j - hodnota objektu Priemer geometrický vážený (platí pre veľký súbor, kde n 30): z j - hodnota objektu n - počet objektov n j - početnosť objektu
Výpočet v Exceli Priemer geometrický: výpočet pomocou funkcie GEOMEAN súbor Statistika(priklady).xls, hárok PriemGeom Priemer geometrický vážený: výpočet pomocou funkcií... súbor Statistika(priklady).xls, hárok PriemGeomVaz
Priemer harmonický (platí pre malý súbor, kde n<30): n - počet objektov x j - hodnota objektu Priemer harmonický vážený (platí pre veľký súbor, kde n 30): z j - hodnota objektu n - počet objektov n j - početnosť
Výpočet v Exceli Priemer harmonický: výpočet pomocou funkcie HARMEAN súbor Statistika(priklady).xls, hárok PriemHarm Priemer harmonický vážený: výpočet pomocou funkcií... súbor Statistika(priklady).xls, hárok PriemHarmVaz
Priemer kvadratický (platí pre malý súbor, kde n<30): n - počet objektov x j - hodnota objektu Priemer kvadratický vážený (platí pre veľký súbor, kde n 30): z j - hodnota objektu n - počet objektov n j - početnosť
Výpočet v Exceli Priemer kvadratický: výpočet pomocou funkcie... súbor Statistika(priklady).xls, hárok PriemKvadr Priemer kvadratický vážený: výpočet pomocou funkcií... súbor Statistika(priklady).xls, hárok PriemKvadrVaz
Vzťah medzi priemermi Aritmetický, geometrický, harmonický a kvadratický priemer tých istých hodnôt je v tomto vzájomnom vzťahu:
Ďalšie stredné hodnoty Modus - najpočetnejšia hodnota štatistického znaku Napr. pre štatistické údaje 3 2 65 9 1 4 2 153 17 2 je modus rovný hodnote 2 ( vyskytuje sa najčastejšie... 3x ) Výpočet v Exceli Modus: výpočet pomocou funkcie MODE (pozor, nie MOD!)
Medián - prostredná hodnota usporiadaného štatistického súboru Napr. pre štatistické údaje 3 2 65 9 1 4 2 153 17 2 je medián rovný hodnote 3.5 (keďže jediná prostredná hodnota neexistuje, považujeme za ňu aritmetický priemer dvoch prostredných hodnôt 3 a 4) Výpočet v Exceli Medián: výpočet pomocou funkcie MEDIAN
Charakteristiky variability Rozptyl je najpoužívanejšou mierou variability indikuje, ako sa hodnoty líšia od priemeru je definovaný ako priemer štvorcov odchýlok jednotlivých hodnôt znaku od ich aritmetického priemeru Pre rozptyl malého súboru platí: Pre rozptyl veľkého súboru platí:
Výpočet v Exceli Rozptyl malého súboru: výpočet pomocou funkcie VARP súbor Statistika(priklady).xls, hárok Rozptyl Rozptyl veľkého súboru: výpočet pomocou funkcií... súbor Statistika(priklady).xls, hárok Rozptyl
Smerodajná odchýlka Vyjadruje štatistické rozloženie údajov. Zjednodušene povedané, hovorí o tom, ako široko sú rozložené hodnoty v množine údajov. Smerodajná odchýlka malého súboru: Smerodajná odchýlka veľkého súboru:
Výpočet v Exceli Smerodajná odchýlka malého súboru: výpočet pomocou STDEVP súbor Statistika(priklady).xls, hárok SmerodOdchyl Smerodajná odchýlka veľkého súboru: výpočet pomocou... súbor Statistika(priklady).xls, hárok SmerodOdchyl
Priemerná absolútna odchýlka Vyjadruje aritmetický priemer absolútnych hodnôt rozdielov aritmetického priemeru štatistického základného súboru a hodnôt jednotlivých objektov. Priemerná absolútna odchýlka malého súboru: Priemerná absolútna odchýlka veľkého súboru:
Výpočet v Exceli Priemerná odchýlka malého súboru: výpočet pomocou AVEDEV súbor Statistika(priklady).xls, hárok PriemOdchyl Priemerná odchýlka veľkého súboru: výpočet pomocou... súbor Statistika(priklady).xls, hárok PriemOdchyl
Variačný koeficient Pomer smerodajnej odchýlky a aritmetického priemeru. Variabilita sa udáva obvykle v percentách. Ak je hodnota variačného koeficientu vyššia než 50%, možno uvažovať o značnej nesúrodosti štatistického súboru. Variačný koeficient:
Výpočet v Exceli Variačný koeficient: výpočet pomocou STDEVP a AVERAGE súbor Statistika(priklady).xls, hárok VariacKoef
Korelácia Korelácia je miera závislosti medzi dvoma alebo viacerými premennými. Korelačný koeficient môže dosahovať hodnoty od -1 do +1. Hodnota -1 reprezentuje najvyššiu negatívnu koreláciu Hodnota +1 reprezentuje najvyššiu pozitívnu koreláciu. Hodnota 0 vypovedá o žiadnej korelácii. Interpretácia nemá byť podložená len výpočtom, Odporúča sa urobiť aj vizuálnu kontrolu korelogramu.
Výpočet v Exceli Korelačný koeficient: výpočet pomocou CORREL alebo PEARSON Vplyv extrémnych hodnôt na korelačnú krivku pozri animované obrázky (*.gif)
Normálne (Gaussovo) rozdelenie V praxi najčastejšie sa vyskytujúce rozdelenie. ( Dvojparametrické: stredná hodnota a rozptyl ) Najpočetnejší výskyt znakov má hodnotu priemeru a početnosť výskytu nad- a podpriemerných hodnôt rovnakej odchýlky od priemeru je rovnaký (symetria). Až 70% premenných sa riadi touto frekvenčnou funkciou (vek, telesná výška,...).
Histogram početnosti Histogram znázorňuje pomocou stĺpcového grafu rozdelenie intervalovej premennej. Graf na osi y zobrazuje početnosti hodnôt premennej v intervaloch jej hodnôt na osi x. ( Podrobnosti v súbore "Statistika(priklady)...xls" )
Kontingenčná tabuľka ( Cvičný príklad pomocou súboru "Pacienti.xls" )
Student-ov T-test Vypočíta očakávané hodnoty a rozptyl hodnôt. V programe Excel sú funkcie T-testov už implementované. ( Meno "Student" je vymyslené - je to pseudonym skutočného autora, ktorý sa volal W.S.Gosset. Ako zamestnanec pivovaru Guinness na začiatku 20. storočia nesmel publikovať vedecké práce )
LITERATÚRA (so štatistickou problematikou): http://www.avozarm.sk (niektoré kapitoly) http://ipzass.modtut.net/download/1roc/leto/skripta- Statisticke_metody.doc http://frcatel.fri.uniza.sk/users/pesko/stat/peskostatistika.pdf (niektoré kapitoly)