Biostatistika základní kurz

Podobné dokumenty
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Kontingenční tabulky v Excelu. Představení programu Statistica

Analýza dat na PC I.

7. Rozdělení pravděpodobnosti ve statistice

Pojem a úkoly statistiky

Mnohorozměrná statistická data

Základy teorie pravděpodobnosti

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Popisná statistika. Statistika pro sociology

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Náhodná veličina a rozdělení pravděpodobnosti

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

23. Matematická statistika

Základy pravděpodobnosti a statistiky. Popisná statistika

analýzy dat v oboru Matematická biologie

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Praktická statistika. Petr Ponížil Eva Kutálková

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Škály podle informace v datech:

Mnohorozměrná statistická data

Základy biostatistiky

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Základy popisné statistiky

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Třídění statistických dat

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Renáta Bednárová STATISTIKA PRO EKONOMY

Tomáš Karel LS 2012/2013

KGG/STG Statistika pro geografy

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika pro geografy

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Vybraná rozdělení náhodné veličiny

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Charakterizace rozdělení

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Číselné charakteristiky

AVDAT Náhodný vektor, mnohorozměrné rozdělení

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Počet pravděpodobnosti

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

NÁHODNÁ VELIČINA. 3. cvičení

PRAVDĚPODOBNOST A STATISTIKA

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Návrh a vyhodnocení experimentu

Tomáš Karel LS 2012/2013

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan


Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Téma 22. Ondřej Nývlt

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

Návrh a vyhodnocení experimentu

5EN306 Aplikované kvantitativní metody I

Inovace bakalářského studijního oboru Aplikovaná chemie

III. Úplná pravděpodobnost. Nezávislé pokusy se dvěma výsledky. Úplná pravděpodobnost Nezávislé pokusy se dvěma výsledky Náhodná veličina

Úvod do statistické metodologie

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Charakteristika datového souboru

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Design of Experiment (DOE) Petr Misák. Brno 2017

Pravděpodobnost a matematická statistika

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

I. Příprava dat Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou

TECHNICKÁ UNIVERZITA V LIBERCI

Popisná statistika kvantitativní veličiny

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Transkript:

Lékařská a Přírodovědecká fakulta, Masarykova univerzita Biostatistika základní kurz http://wwwcbamunicz http://wwwcbamunicz/vyuka

BioStatistika na Přf a LF MU

Centrum biostatistiky a analýz Pracoviště specializované na analýzu biologických dat Výuka analýzy biologických dat řada kurzů Kontakt: Ladislav Dušek dusek@cbamunicz Jiří Jarkovský jarkovsky@cbamunicz

Kurz biostatistiky Sada přednášek pokrývajících základní oblasti analýzy biologických dat, zejména z praktického hlediska: Způsoby ukládání dat, typy dat a jejich statistický popis Hypotézy o datech a jejich testování Vztahy proměnných a jejich statistické hodnocení Predikce a příčinné vztahy proměnných Grafické zobrazení dat a výsledků analýz Příklady aplikace na reálných datech Přehled základních statistických SW Složitější metody statistické analýzy přehled metod Cyklus přednášek ukončen zkouškou Písemná zkouška příklady Zaměřeno na postup řešení, číselný výsledek méně významný

1 Data a informace

BIOSTATISTIKA - BIOMETRIKA Věda zabývající se hodnocením biologických dat = záznamů o biologických systémech a jejich chování Malá data Velká data Obrovská data Umění prodat Umění pochopit Umění uchopit

Opakování 3 4 8 11 12 14 16 2 21 22 37 38 39 49 51 52 55 56 6 9 13 15 17 19 24 26 29 3 31 32 33 34 4 DATA ukázka uspořádání datového souboru Parametry (znaky) p Pacient Clovek aleu aty% ase% aneu% aly% aty ase aneu aly ahtc aclsk aclneus acloz cell1 6 / % % % % cell1 6 / cell1 6 / cell1 6 / cell1 6 / % mvs1 3 mvs1 3 mvs1 3 1 4 33 72 32 2 7,6 8 58 66 24,6 4,4 5, 1,8 33 95 19 48 3 4 3 52 55 4,1 2,1 2,2 1,6 22 77 35 33 4 6,1 5 59 64 35,3 3,6 3,9 2,1 33 13 26 49 5 6,9 3 85 88 9,2 5,9 6,1,6 37 81 13 45 6 5,9 15 55 7 19,9 3,3 4,1 1,1 32 137 33 61 7 8 18 75 93 7 1,4 6, 7,4,6 34 151 2 59 8 9,6 3 72 75 23,3 6,9 7,2 2,2 4 77 11 38 9 6 1 67 77 19,6 4, 4,6 1,1 32 12 26 52 1 3,3 4 55 59 39,1 1,8 2, 1,3 28 81 42 24 11 3,8 1 6 7 3,4 2,3 2,7 1,1 32 111 42 29 12 6,4 2 76 78 17,1 4,9 5, 1,1 25 366 73 115 13 6,8 1 57 58 39,1 3,9 3,9 2,7 2 234 59 71 14 8,5 7 67 74 26,6 5,7 6,3 2,2 3 156 25 18 15 9,3 7 57 64 35,7 5,3 6, 3,3 35 129 21 23 16 2,2 1 56 66 34,2 1,2 1,5,7 33 46 3 12 17 9,9 3 78 81 1,3 7,7 8,,1 3 189 24 14 18 5 2 8 82 13,1 4, 4,1,7 26 11 25 54 1 8,8 11 72 83 12 1, 6,3 7,3 1,1 44 268 36,6 145 2 9,2 2 66 68 28,2 6,1 6,3 2,6 42 168 26,9 76 3 1, 7 83 9 8,7 8,3 9,,8 54 181 2,1 81 4 9,6 1 75 76 23,1 7,2 7,3 2,2 45 343 47 124 5 6, 45 4 21 6 7,2 2 78 8 18,1 5,6 5,8 1,3 44 13 17,8 63 7 8,2 1 72 73 25,1 5,9 6, 2,1 41 29 34,9 57 8 1,3 1 85 86 3,1 8,8 8,9,3 41 364 41,1 112 9 5, 1 74 75 21,1 3,7 3,8 1,1 39 83 22,1 32 1 11,9 1 51 52 47,1 6,1 6,2 5,6 33 83 13,4 52 11 7,2 3 53 56 29,2 3,8 4, 2,1 28 19 27,1 63 12 1,8 36 5 76 8 3,9 5,4 9,3,9 27 146 15,7 16 13 11,8 22 54 76 16 2,6 6,4 9, 1,9 45 246 27,4 63 14 17, 1 82 83 16,2 13,9 14,1 2,7 34 44 31,2 119 15 1, 8 72 8 4,8 7,2 8,,4 37 176 22, 52 aclneuo mvs1 3 1 15 13 7 15 8 5 11 12 11 23 18 17 4 8 18 13 19,9 12,2 9 16,9 1,9 9,6 12,6 8,5 8,4 15,5 11,4 7 8,4 6,5

p BIOSTATISTIKA - BIOMETRIKA Pacient Clovek aleu aty% ase% aneu% aly% aty ase aneu aly ahtc aclsk aclneus acloz aclneuo cell1 6 / % % % % cell1 6 / cell1 6 / cell1 6 / cell1 6 / % mvs1 3 mvs1 3 mvs1 3 mvs1 3 3 1 4 33 72 32 4 2 7,6 8 58 66 24,6 4,4 5, 1,8 33 95 19 48 1 8 3 4 3 52 55 4,1 2,1 2,2 1,6 22 77 35 33 15 11 4 6,1 5 59 64 35,3 3,6 3,9 2,1 33 13 26 49 13 12 5 6,9 3 85 88 9,2 5,9 6,1,6 37 81 13 45 7 14 6 5,9 15 55 7 19,9 3,3 4,1 1,1 32 137 33 61 15 16 7 8 18 75 93 7 1,4 6, 7,4,6 34 151 2 59 8 2 8 9,6 3 72 75 23,3 6,9 7,2 2,2 4 77 11 38 5 21 9 6 1 67 77 19,6 4, 4,6 1,1 32 12 26 52 11 22 1 3,3 4 55 59 39,1 1,8 2, 1,3 28 81 42 24 12 37 11 3,8 1 6 7 3,4 2,3 2,7 1,1 32 111 42 29 11 38 12 6,4 2 76 78 17,1 4,9 5, 1,1 25 366 73 115 23 39 13 6,8 1 57 58 39,1 3,9 3,9 2,7 2 234 59 71 18 49 14 8,5 7 67 74 26,6 5,7 6,3 2,2 3 156 25 18 17 51 15 9,3 7 57 64 35,7 5,3 6, 3,3 35 129 21 23 4 52 16 2,2 1 56 66 Data 34,2 1,2 1,5,7 33 46 3 12 8 55 17 9,9 3 78 81 1,3 7,7 8,,1 3 189 24 14 18 56 18 5 2 8 82 13,1 4, 4,1,7 26 11 25 54 13 6 1 8,8 11 72 83 12 1, 6,3 7,3 1,1 44 268 36,6 145 19,9 9 2 9,2 2 66 68 28,2 6,1 6,3 2,6 42 168 26,9 76 12,2 13 3 1, 7 83 9 8,7 8,3 9,,8 54 181 2,1 81 9 15 4 9,6 1 75 76 23,1 7,2 7,3 2,2 45 343 47 124 16,9 17 5 6, 45 4 21 19 6 7,2 2 78 8 18,1 5,6 5,8 1,3 44 13 17,8 63 1,9 24 7 8,2 1 72 73 25,1 5,9 6, 2,1 41 29 34,9 57 9,6 26 8 1,3 1 85 86 3,1 8,8 8,9,3 41 364 41,1 112 12,6 29 9 5, 1 74 75 21,1 3,7 3,8 1,1 39 83 22,1 32 8,5 3 1 11,9 1 51 52 47,1 6,1 6,2 5,6 33 83 13,4 52 8,4 31 11 7,2 3 53 56 29,2 3,8 4, 2,1 28 19 27,1 63 15,5 32 12 1,8 36 5 76 8 3,9 5,4 9,3,9 27 146 15,7 16 11,4 33 13 11,8 22 54 76 16 2,6 6,4 9, 1,9 45 246 27,4 63 7 34 14 17, 1 82 83 16,2 13,9 14,1 2,7 34 44 31,2 119 8,4 4 15 1, 8 72 8 4,8 7,2 8,,4 37 176 22, 52 6,5 1 8 6 4 2 1 2 3 4 Schopnost: vidět data komunikovat interpretovat - prodávat

BIOSTATISTIKA - BIOMETRIKA Věda zabývající se variabilitou Variabilita opakovaných měřm ěření Variabilita znaku v populaci chyba Data 2,1 2,8 3,2 1,2 5,2 2,9 165 cm 14 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita Variabilita modelovaných dat Variabilita časových řad Variabilita ve skladbě biologických ch společenstev enstev y y DRUH 1 DRUH 2 DRUH 3 DRUH 4 15 3 4 14 chyba = nepřesnost modelu x čas fluktuace, časová proměnlivost biodiverzita

Pojem VARIABILITA má mnoho významů a ty určují přístup k jejímu hodnocení Maskování a minimalizace vlivu Respektování a odhadování vlivu Přímé využití k predikcím chování systému

Variabilita = základ biologického principu neurčitosti existuje pravděpodobnost výskytu jevů (nedeterministické závěry) vše je možné : pouze jev s pravděpodobností nikdy nenastane pravděpodobnost lze zkoumat retrospektivně i prospektivně pravděpodobnost výskytu ϕ(x) plocha = pravděpodobnost výskytu 1 2 3 4 5 x počet chlapců v rodině s X dětmi výška postavy x

BIOSTATISTIKA - BIOMETRIKA Věda přinášející novou kvalitu Popisná analýza dat ( exploratorní analýzy) Data mining ( investigativní analýzy) Srovnávací analýzy, testy hypotéz Experimentální plány ( experimental design ) QA/QC Stochastické modelování, hodnocení prognóz Vícerozměrné analýzy, pattern recognition Analýza biodiverzity (species community associations, ) Analýza časových řad, analýzy trendů Analýza biomedicínských dat

Experimentální design: nezbytná výbava biologa Účel analýzy: Popisný cílová populace? Reprezentativnost Spolehlivost výběr dle optimálního plánu VÝSLEDKY reprezentativní vzorek n jedinců (faktor F) měření znaku variabilita hodnot ve výběrovém souboru ZÁVĚRY (reprezentativnost, spolehlivost)? Přesnost analyzovaný znak cílové populace (X) jiný významný faktor charakterizující cílovou populaci (F)

Experimentální design: nezbytná výbava biologa Účel analýzy: Srovnávací (2 ramena) cílová populace výběr subjektů pro vstup do hodnocení / studie RANDOMIZACE vzájemně srovnatelné vzorky (faktor F) rameno A variabilita hodnot X v rameni A měření znaku X VÝSLEDKY rameno B variabilita hodnot X v rameni B ZÁVĚRY (rozlišovací schopnost, rozdíl ramen A x B, srovnatelnost ramen, reprezentativnost)? analyzovaný znak cílové populace (X) jiný významný faktor charakterizující cílovou populaci (F)? Srovnatelnost Spolehlivost Přesnost

Stochastické modelování: predikce neurčitých jevů Prospektivně modelově - postihuje chování jevů při respektování variability

Stochastické modelování: predikce neurčitých jevů 1, 1, Age = 55 years Osa Y Predikovaná pravděpodobnost podobnost,8,6,4,2,8,6,4,2 P =8 P =4, -4, -2,, 2, 4,, 1 2 3 4 5 6 7 8 Osa X Parametr nebo kombinace parametrů Data konkrétn tních pacientů (subjektů) k přímému p mu hodnocení

Pravděpodobnostní prediktivní modely Maligní lymfomy: Pravděpodobnost časného relapsu Stádium I - II Stádium III - IV Estimated probability of early relapse 1 8 6 4 2 M/(A+5) =1 P =5 5 1 15 2 25 3 35 Ratio M / (A + 5) 1 8 6 4 2 Regression 95% confid M/(A+5) =15 Index Mitosis / (Apoptosis + 5) 5 1 15 2 25 3 35 P =5 Grade = 2 Grade = 1 Regression 95% confid Schopnost: vytvářet prakticky využitelné nástroje

Vícerozměrné vnímání skutečnosti nová kvalita analýzy dat x1 x2 x1 skupina 1 skupina 2 Vícerozměrný rný systém x2 n x1 x2 Klasická jednorozměrn rná analýza skup 1 skup 2 skup 1 skup 2

Biologové analýzou dat proti variabilitě nebojují! VARIABILITA? CHYBA INFORMACE

Běžná sumarizace dat likviduje individualitu jedince? Průměr ± SE BĚŽNÁ STATISTICKÁ SUMARIZACE Zpřehlednění dat Neodliší původní měření

Vícerozměrné hodnocení s ohledem na individualitu! X 2 X 3 X p X 3 X p W X 3 X p X 1 X 2 X 2 X 1 X 1

Vícerozměrné hodnocení nová kvalita Pouze kombinované parametry mají odpovídaj dající informační sílu X 2 B B B B B B B B B A B B B B A B B B A A A A B B B B A A A B A A B A A A A A A A A A X 1 příklad: X1 =

Vícerozměrné hodnocení vychází z jednoduchých principů X 2 příklad: vícerozmv cerozměrná vzdálenost měřm ěření mezi dvěma objekty (body) X 22 2 c = a 2 + b 2 2 b = x 22 -x 21 = d 2 X 21 1 a = x 12 -x 11 = d 1 X 1 X 11 X 12

Vícerozměrné modelování je strategickou disciplínou X 1 X n technické parametry automobilu X n+1 X p řidičovy schopnosti a jeho stav X p+1 X 2 rychlost, povrch, situace X 1 X 2 X 3 X 4 X 5 X p

2 Data a jejich prezentace základ statistické analýzy

Zásady pro ukládání dat Správné a přehledné uložení dat je základem jejich pozdější analýzy Je vhodné rozmyslet si předem jak budou data ukládána Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce (např rozepsané taxonomické zařazení, abundance, místo a vlastnosti odběru atd) Taxon Abundance Lokalita etc Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku

Grafická prezentace dat - umění komunikace 1 Výskyt kategorií (1, 2, 3,) Koláčový (výsečový) graf Absolutní počty Sloupcový graf 4 2 1 2 3 Řada2 2 Vývoj hodnot (v čase) Y vs X (t) % Sloupcový graf 1 5 1 2 3 Řada2 4% 3% 1 2 3% 3 1 2 3 4% 3% 3% Spojnicový graf Řada Bodový graf Řada Plošný graf Řada2 3 Y Y Y 3 3 15 15 15 1 2 3 1 2 X 5 1 15 2 25 X 1 2 3 1 2 X

Grafická prezentace dat umění komunikace 3 Vztahy mezi proměnnými - korelace Bodový - korelační diagram Bodový - korelační diagram X1 3 Řada2 X1 3 Řada2 AGE 15 15 LN_CRP 1 2 3 1 2 X2 5 1 15 2 25 X2 CD56 X1 3 Řada2 X1 3 Řada2 CD57 15 15 CD8 1 2 3 1 2 X2 1 2 3 1 2 X2

Grafická prezentace dat umění komunikace 4 Kvantitativní hodnoty parametru(ů) - X - v rámci kategorií A, B, C Krabicový graf Sloupcový graf X 4 Řada2 X 1 Řada2 X 1 Řada2 2 5 5 A B C A B C A B C 5 Histogram 22 2 18 16 14 12 1 8 6 4 2-2 -1 1 2 3 4 5 6 7 8 9 11112 4 35 3 25 2 15 1 5-5 5 1 15 2 25 3 9 8 7 6 5 4 3 2 1 5 1 15

Grafická prezentace dat - umění komunikace 6 Zviditelnění primárních dat x 1 x 2 x 3 n

Grafická prezentace dat umění komunikace 7 Vztahy mezi proměnnými - interakce dvou parametrů, reakční plochy

Grafická prezentace dat umění komunikace 8 Grafické zviditelnění má nekonečně mnoho možností 9 9 1 5 7 7 35 5 5 3 25 3 1 3 1 2 15 1-1 BUNKY2 BUNKY1 ENZYM2-1 BUNKY2 BUNKY1 ENZYM2 5 1 15 2 25 3 35 4 45 5 ENZYM1 Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7 Case 8 Case 9 Case 1 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 2 Case 21 Case 22 Case 23 Case 24 Case 25 Case 26 Case 27 Case 28 Case 29 Case 3 Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7 Case 8 Case 9 Case 1 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 2 Case 21 Case 22 Case 23 Case 24 Case 25 Case 26 Case 27 Case 28 Case 29 Case 3 ENZYM2 5 4 8 Case 1 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 2 Case 21 Case 9 Case 8Case 7 1 2 Case 6 3 4 Case 22 Case 23Case 24 Case 25 Case 5 5 6 Case 4 7 Case 26 Case 3 8 Case 27 Case 2 9 Case 28 Case 1 Case 3 Case 29 BUNKY2 BUNKY1 ENZYM2 Case 1 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 2 Case 21 Case 9 Case 8Case 7 Case 6 Case 5 Case 4 Case 3 Case 2-1 1 3 5 7 9 Case 22 Case 23Case 24 Case 25 Case 26 Case 27 Case 28 Case 1 Case 3 Case 29 BUNKY2 BUNKY1 ENZYM2 BUNKY2 BUNKY1 ENZYM2 9 8 7 6 5 4 3 2 1 Stacked Plot (DISKRIMSTA 7v*3c) Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7 Case 8 Case 9 Case 1 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 2 Case 21 Case 22 Case 23 Case 24 Case 25 Case 26 Case 27 Case 28 Case 29 Case 3

Nesprávné užití grafů - problém rozsahu číselné osy

Nesprávné užitígrafů - grafické zastírání trendu

Nesprávné užitígrafů - problém standardizace hodnot

Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat

3 JAK vznikají informace

Primárním důvodem analýzy dat je získání nezkreslené a přehledné INFORMACE Ukázka uspořádaného datového souboru cislo stadium vek tran1_3 tran1_4 tran1_5 tran1_6 alb_pbsct ldh_vstup sternum typ_myel 1 3 33 1436 2324 143 5777 33 62 4 IgG 2 3 33 18488 784 155 1382 26 41 3 IgG 3 1 34 12341 98 733 135 32 373 452 IgG 4 2 43 5217 666 183 1719 42 467 48 IgG 5 1 45 822 22 822 32 825 2 B-J 6 3 46 438 11531 297 717 388 IgA 7 2 49 45 1225 34 499 64 IgG 8 2 5 3313 964 3313 35 399 14 IgG 9 3 52 2578 125 8516 324 39 1214 122 IgG Primární data 1 2 53 7833 1134 4754 777 39 53 136 IgG 11 3 53 6143 467 1438 372 32 451 492 B-J 12 3 53 1358 67 1358 593 38 26 IgG 13 3 54 12916 1333 926 3824 32 418 2 IgG 14 3 54 6689 674 3358 173 38 844 72 B-J 15 3 54 8286 432 189 164 37 36 5 B-J 16 3 55 7137 634 2391 534 43 875 27 B-J 17 3 6 146 9 146 1188 44 535 75 IgG 18 3 61 947 562 947 151 33 429 64 B-J 19 3 62 8684 753 3213 261 29 455 34 IgA Sumarizace v jedné skupině ( one-sample ) ve dvou skupinách ( two-sample ) ve více skupinách ( multiple sample )

JAK vznikají informace? základní pojmy Skutečnost Náhoda (vybere jednu z možností pokusu) Jev podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne Pozorovatel Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje Jevové pole třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost

JAK vznikají informace? Empirical approach Classical approach Empirický postup f n 3 n = 1 f n 3 n = 5 f n 3 n = 2 2 2 1 1 1 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 možné jevy: čísla 1 6 n počet hodů (opakování) U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit

JAK vznikají informace? Empirický postup f n 3 n = 1 f n 3 n = 5 f n 3 n = 2 2 2 1 1 1 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 možné jevy: čísla 1 6 n počet hodů (opakování) Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) diskutabilní je ale ovšem míra zobecnění konkrétního experimentu

Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu - 1 A C B Ḋ P(A) A 1 P (A) = 1 jev jistý P (A) = jev nemožný P (A B) = P (A) P (B) nezávislé jevy P (A B) = P (A) P (B/A) závislé jevy Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost P (A / B) = P (A B) / P (B) podmíněná pravděpodobnost

4 Základní typy dat

Jak vznikají informace? různé typy dat znamenají různou informaci Data poměrová Kolikrát t? Data intervalová Data ordinální Data nominální O kolik? Větší,, menší? Rovná se? Spojitá data Kategoriální otázky Diskrétní data Otázky Ano/Ne Podíl hodnot větší/menší než specifikovaná hodnota? Procenta odvozené hodnoty Samotná znalost typu dat ale na dosažení informace nestačí

Jak vznikají informace? různé typy dat znamenají různou informaci Statistika středu Data poměrová Data intervalová PRŮMĚR Spojitá data Y = f Data ordinální MEDIÁN Data nominální MODUS Diskrétní data X

JAK vznikají informace? - opakovaná měření informují rozložením hodnot Y: frekvence - absolutní / relativní KOLIK se naměřilo y y A B C D E x I II III IV V x CO se naměřilo X: měřený znak Diskrétní data Spojitá data

Odvozená data Pozor na odvozené indexy Příklad I: Příklad II: Znak X: Hmotnost Znak Y: Plocha X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku průměr : (min - max) X: 1,2 : (1,15-1,24) + / - 3,8 % Y: 1,8 : (1,75-1,84) + / - 2,5 % X/Y =,667 : 1,15 1,84 1,24 1,75 ( - ) + / - 6,2 % Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená

Jak vznikají informace? -frekvenční tabulka jako základní nástroj popisu DISKRÉTNÍ DATA Počty epizod pro n = 1 hemofiliků Primární data 1 2 1 1 3 1 1 2 n = 1 Frekvenční sumarizace N: 1 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc x n(x) p(x) N(x) F(x) 2,2 2,2 1 1,1 3,3 2 3,3 6,6 3 4,4 1 1, n(x) absolutní četnost x p(x) relativní četnost; p(x) = n(x) / n N(x) kumulativní četnost hodnot nepřevyšujících x; N(x) = Σ n(t) t x F(x) kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n

Jak vznikají informace? -frekvenční sumarizace diskrétních dat Grafické výstupy z frekvenční tabulky n(x) p(x) x 1 2 3 1 2 3 x N(x) F(x) 1 2 3 x 1 2 3 x

Jak vznikají informace? -frekvenční tabulka jako základní nástroj popisu SPOJITÁ DATA Příklad: x: koncentrace látky v krvi n = 1 pacientů Hodnoty pro n = 1 osob Primární data 1,21 1,48 1,56,31 1,21 1,33,33,21 1,32 1,11 n = 1 Frekvenční sumarizace n = 1 opakovaných měření (1 pacientů) x: koncentrace sledované látky v krvi (2 1 jednotek) interv d(l) n(l) n(l)/n N(x ) F(x ) <2, 4) 2 2,2 2 <4, 6) 2 1,1 3,3 <6, 8) 2 4,4 7,7 <8, 1) 2 3,3 1 1, d(l) šířka intervalu n(l) absolutní četnost n(l) / n intervalová relativní četnost N(x ) intervalová kumulativní četnost do horní hranice X F(x ) intervalová relativní kumulativní četnost do horní hranice X,2

Jak vznikají informace? -frekvenční sumarizace spojitých dat Histogram Výběrová distribuční funkce Plocha: n(l) / n 25 1 2 15 1 5 2 4 6 8 1 x 2 4 6 8 1 x f(x)= n(l) / n d(l) Intervalová hustota četnosti F(x) Intervalová relativní kumulativní četnost

Histogram = standardní nástroj zviditelnění spojitých dat 1 2 3 4 Data X: 14,1; 8,4; 12,1; 18,2; 2,4; n Setřídění dat podle velikosti Kategorizace hodnot X - vytvoření intervalů Frekvenční tabulka 5 Histogram "Absolute frequency histogram" f(x) = n(i) d(i) "Relative frequency histogram" f(x) = n(i) / n d(i)

Spojitá data postup frekvenčních analýz Aktivita enzymu (X) I Utřídit podle velikosti II Rozdělit do intervalů o rozumné šířce III Vyhodnotit počty hodnot v jednotlivých intervalech - absolutní četnosti IV Vyhodnotit podíly (relativní četnosti) hodnot v jednotlivých intervalech V Grafické znázornění - histogram f(x) Aktivita Počet intervalů X: dán daty a hodnotitelem Šířka intervalů: pokud možno stejná

Počet zvolených tříd a velikost souboru určují kvalitu výstupu 5 4 3 2 1 k = 1 tříd k = 5 tříd 1,5 2, 2,5 3, 3,5 4, 4,5 5, 1 2 3 4 5 8 7 6 5 4 3 2 1 5 4 3 k = 2 tříd 2 1 1, 2, 3, 4, 5,

Histogram vyjadřuje tvar výběrového rozložení f(x) f(x) f(x) x f(x) x f(x) x x x

Příklad: věk účastníků vážných dopravních nehod Frekvence Frekvence po roce věku 35 3 25 2 15 1 5 35 3 25 2 15 1 5 Správný histogram? 1 2 3 4 5 6 7 8 Věk (roky) Správný histogram? 1 2 3 4 5 6 7 8 Věk - 4 5-9 1-15 16-19 2-24 25-59 > 6 Věk (roky) f 28 46 58 2 114 316 13

Pojem ROZLOŽENÍ - příklad spojitých dat ϕ(x) Rozložení F(x) x Distribuční funkce Je - li dána distribuční funkce, je dáno rozložení x

Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) ϕ(x) f(x) x ϕ(x) f(x) x ϕ(x) x

Distribuční funkce jako užitečný nástroj pro práci s rozložením ϕ(x) Plocha = relativní četnost x ϕ(x) d(x) = 1 F(x): Pravděpodobnost, že se X vyskytuje v intervalu M 1, F(x) P(X x) = Φ(x) = F(x") M x Φ(x) distribuční funkce P(X x) = ϕ(x) d(x) M Známe-li distribuční funkci, pak známe rozložení sledované veličiny Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří

Jak vznikají informace? -frekvenční sumarizace spojitých dat Grafické výstupy z frekvenční tabulky spojitá data f(x) 25 2 15 1 5 2 4 6 8 1 x Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty 1 F(x) KVANTIL 2 4 6 8 1 x X 1 ; X 9 ; X 5 ; X θ

Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? θ =,95 Pravděpodobnost x θ = (x,95) =? j(x) Hledáme: P(X x θ ) =,95 = θ 5 % F (xθ ) = θ X,95 x,95 Φ(x) Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován Jakékoliv číslo na ose x je kvantilem