ANALÝZA DAT V R 1. JAK SPRÁVNĚ PŘIPRAVIT A NAČÍST DATA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Podobné dokumenty
PŘÍPRAVA BAKALÁŘSKÉ PRÁCE 3. DESIGN STUDIE A SBĚR DAT

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Zpracování chybějících dat a dat mimo rozsah

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

Microsoft. Access. Výběrové dotazy. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

Access Tabulka letní semestr 2013

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

DATABÁZE MS ACCESS 2010

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Pojem a úkoly statistiky

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

Škály podle informace v datech:

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Návod k práci s programem MMPI-2

Studie EHES - výsledky. MUDr. Kristýna Žejglicová

Microsoft. Access. Nová databáze, návrh tabulky. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

Tabulkový procesor. Základní rysy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Základní popis Toolboxu MPSV nástroje

Velmi stručný návod jak dostat data z Terminálu Bloomberg do R

Ovládání Open Office.org Calc Ukládání dokumentu : Levým tlačítkem myši kliknete v menu na Soubor a pak na Uložit jako.

DIABETOLOGIČTÍ PACIENTI V REGIONECH ČESKA

CEBO: (Center for Evidence Based Oncology) Incidence Kostních příhod u nádorů prsu PROJEKT IKARUS. Neintervenční epidemiologická studie

zobrazuje názvy polí, vložené hodnoty jednotlivých záznamů, lze v něm zadávat data (přidávat záznamy) v návrhovém zobrazení:

Telemedicína a asistivní technologie pro praxi

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

III. Statistiky Výkazy

Analýza dat na PC I.

EPOSS výsledky interim analýzy. Jan Maláska za kolektiv investigátorů projektu EPOSS

Základy pravděpodobnosti a statistiky. Popisná statistika

MONITOROVÁNÍ. Jan Prášek

Projekt Využití ICT ve výuce na gymnáziích, registrační číslo projektu CZ.1.07/1.1.07/ MS Excel

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

KIV/ZIS - cvičení. je dobré chodit na cvičení, lépe se pak vypracovávají semestrálky. první 2 týdny podle kapacity 1/37

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

2. popis prostředí, nastavení pracovní plochy

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Kalkulace závažnosti komorbidit a komplikací pro CZ-DRG

Výsledky ankety uživatelé NSHNU ( sběr dat)

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

INFORMATIKA EXCEL 2007

Hodnocení a modelování populačních dat na příkladu epidemiologie vážných chorob: I. Analýza dat, princip predikcí.

VÝBĚR A JEHO REPREZENTATIVNOST

Kontingenční tabulky v MS Excel 2010

TEST UČEBNÍCH STYLŮ INSTRUKCE

PhDr. Dana Petrýdesová Krajská vědecká knihovna v Liberci

DATABÁZE ACCESS Vytváření tabulek TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY.

Rubrika Zajímavostí ze zahraničního obchodu končí, ostatní zdroje získávání dat zůstávají

Microsoft Office. Excel vyhledávací funkce

Obsah. Několik slov o Excelu 2007 a Operace při otvírání a ukládání sešitu 15. Operace s okny 27. Kapitola 1

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi.

HTS Report. d2-r. d2-r. Jan Novák ID Datum administrace Standard 1. Vydání. Hogrefe Testcentrum, Praha

STATISTICA Téma 1. Práce s datovým souborem

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

RELAČNÍ DATABÁZE ACCESS

odlehlých hodnot pomocí algoritmu k-means

Kurz Databáze. Obsah. Návrh databáze E-R model. Datová analýza, tabulky a vazby. Doc. Ing. Radim Farana, CSc.

Tematický celek Proměnné. Proměnné slouží k dočasnému uchovávání hodnot během provádění aplikace Deklarace proměnných

Sázíte-li v loterii, je to hazard. Hrajete-li poker, je to zábava. Obchodujete-li na burze, je to ekonomie. Vidíte ten rozdíl?

Agilent 5110 ICP-OES vždy o krok napřed

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Tiskové sestavy. Zdroj záznamu pro tiskovou sestavu. Průvodce sestavou. Použití databází

Časný záchyt chronické obstrukční plicní nemoci v rizikové populaci

Příprava dat v softwaru Statistica

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Nová podoba Národního registru vrozených vad (NRVV)

EHIS Vybrané výsledky v Evropě. Naďa Čapková, Michala Lustigová, Státní zdravotní ústav. 22. konference Zdraví a životní prostředí Milovy 2017

Chyby měření 210DPSM

2.8.8 Výpočty s odmocninami II

KIV/ZIS - cvičení 1/39

Microsoft Excel kopírování vzorců, adresování, podmíněný formát. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

Projekt. Sestavení projektu

3 Makra Příklad 4 Access Ve vytvořené databázi potřebuje sekretářka společnosti Naše zahrada zautomatizovat některé úkony pomocí maker.

Úvodem... 4 Co je to vlastně formulář Co je to šablona dokumentu Jak se šablona uloží Jak souvisí formulář se šablonou...

DATIS PODVOJNÉ ÚČETNICTVÍ Změny 2015

Přijmi a vydej 2009 MUDr. Věra Kernová MUDr. Ludmila Skálová Státní zdravotní ústav Praha

Systém monitorování zdravotního stavu obyvatelstva ve vztahu k životnímu prostředí

SISP - charakteristika výběrového souboru

Epidemiologické metody

1 Tabulky Příklad 3 Access 2010

Test s uživatelem Ashampoo Burning Studio

Nadváha a obezita u populace v ČR MUDr. Věra Kernová Státní zdravotní ústav Praha

PaedDr. Lenka Dohnalová RNDr. Tomáš Fürst, PhD. Katedra Hv PdF UP Olomouc

Manuál k programu RIZIKA

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Elektronické zpracování dotazníků AGEL. Verze

Popisná statistika kvantitativní veličiny

Mobilní aplikace Diabetesdagboka

PROMĚNNÉ, KONSTANTY A DATOVÉ TYPY TEORIE DATUM VYTVOŘENÍ: KLÍČOVÁ AKTIVITA: 02 PROGRAMOVÁNÍ 2. ROČNÍK (PRG2) HODINOVÁ DOTACE: 1

Tabletová aplikace. Uživatelský manuál

Úvod do MS Access. Modelování v řízení. Ing. Petr Kalčev

Aktualizace klasifikačního systému CZ-DRG

Bc. Jiří Kotrbatý Akreditace v hematologické laboratoři, Sysmex Hotel Holiday Inn, Brno, salonek Beta

Transkript:

ANALÝZA DAT V R 1. JAK SPRÁVNĚ PŘIPRAVIT A NAČÍST DATA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz

JAK VZNIKÁ VĚDECKÁ STUDIE

JAK VZNIKÁ VĚDECKÁ STUDIE

JAK VZNIKÁ VĚDECKÁ STUDIE

KDY PŘEMÝŠLET O DATECH Už ve chvíli, kdy o studii teprve uvažujeme Co budeme sbírat? Co s tím pak budeme chtít dělat? K čemu budou výsledky užitečné? Jak budeme sbírat? Na kom to budeme měřit / sledovat / zjišťovat? Kolik toho bude? Bude to stačit? Jak to pak budeme analyzovat?

DESIGN STUDIE Jak a na kom budeme měřit? popisujeme jen stav nebo porovnáváme intervence? vzorek pacientů z ambulance / hospitalizace volba zda a jaká kontrolní skupina: zdraví lidé / jiná terapie koho náš vzorek reprezentuje? zobecnitelné? jdeme do minulosti? case-control studie, průřezová studie retrospektivně z dokumentace? registr? jdeme do budoucnosti? (observace, randomizovaný experiment)

DESIGN STUDIE děláme průzkum? je vzorek respondentů reprezentativní? oslovení pacientů v ambulanci výzva na internetu: riziko samovýběru extrémů Kolik toho budeme měřit? cílový počet respondentů / vyšetřených ideálně stanoveny z výpočtů síly studie (power study) uskutečnitelné? realistický odhad

DESIGN STUDIE Co budeme měřit? výskyt jevu (ano/ne např. výskyt AI onemocnění) odběr a hodnoty z laboratoře (např. koncentrace kappa-lambda FLC) popis stavu pomocí škály nebo skóre (MMSE pro Alzheim. nemoc) cílený test (např. TUG test) doba od do nějaké události (např. od operace do úmrtí/propuštění) dotazníkové šetření (např. kvalita života) minimalizace zátěže pacienta při maximalizaci informace Vždy evidujeme i relevantní demografické / anamnestické proměnné

SBĚR DAT Kvalitně sebraná a připravená data umožňují včasnou detekci problémů významně urychlují analýzu omezují riziko chyby při analýze lze lépe interpretovat, činit závěry s větší jistotou lze snadno doplňovat pro budoucí použití, lze se k nim vracet s minimem nároků na čas porozumí jim i někdo jiný a může vaši práci převzít

SBĚR DAT Jak budeme data uchovávat? příprava datového formuláře Access, Excel, Calc jasný identifikátor jedince, posléze anonymizovaný, ale přiřazení zaheslované uložit pro budoucí referenci proměnná s kategoriemi: definice, zařazení do skupin, názvy skupin proměnná s hodnotami: možné limity hodnot, jednotky přehlednost, popis na zvláštním listě databázi pak může použít i někdo jiný než já sám při opisu z karet zapsat vše, co mohu nezahazovat primární informaci (BMI: nechat i výšku i hmotnost)

TYPY PROMĚNNÝCH Základní dva typy proměnných (veličin) kategoriální proměnná omezené množství hodnot pohlaví, NYHA klasifikace, typ DM, genotyp,... podtyp binární proměnná (ano/ne) přítomnost onemocnění, pozitivita testu,... spojitá proměnná spojité množství hodnot BMI, glykemie, ph, věk,...

KATEGORIÁLNÍ PROMĚNNÁ Omezené množství hodnot znak přítomen / nepřítomen výběr z rovnocenných (neseřaditelných) možností: umístění nádoru, druh terapie,... hodnoty lze seřadit: úroveň vzdělání, stupeň závažnosti onemocnění,... Povaha kategorií přirozené (žena/muž, barva, diagnóza,...) umělé: vznikají pojmenováním nějakých intervalů spojité proměnné podváha / normální váha / nadváha / obezita / morbidní obezita ve skutečnosti je to BMI rozsekané na kousky Umělé kategorie znamenají ztrátu informace obsaženou ve spojité proměnné Lepší zaznamenat tu, pokud to jde, kategorizace se dá vytvořit vždycky

KATEGORIÁLNÍ PROMĚNNÁ Na co si dát pozor, když zapisuji kategoriální proměnnou jasně definovaná množina hodnot, kterých faktor nabývá pokud slovně, dávám pozor na překlepy, mezery pokud číselně, uchovávám si bokem správné přiřazení číselných kódů a názvů ideálně si v databázi nastavím povolené hodnoty, když chci napsat něco jiného, zařve pokud vytvořena uměle, uchovávám i původní proměnnou

SPOJITÁ PROMĚNNÁ má zpravidla jednotky má logická rozmezí ph krve = 4 je spíše chyba než reálná hodnota BMI = 10 nebo BMI = 100 tyto informace v seznamu proměnných poslouží skvěle při kontrole dat a analýze jednotky nepíšu do dat, ale bokem pozor na desetinnou tečku / čárku

UKÁZKA DAT CO JE ŠPATNĚ? ukážeme si data společně budeme identifikovat, co je špatně ukážeme si, co to udělá při natažení do R ukážeme si, jak to napravit

ZAČÁTEK PRÁCE S R STUDIEM vytvořte si někde pracovní adresář http://biostatisticka.cz/vyuka do adresáře si stáhněte lekce1.r a data kliknutím nebo otevřením v Rstudiu spusťte kurzor na řádku + Ctrl+Enter spustí řádek blok označený myší + Ctrl+Enter spustí blok

UKÁZKA DAT CO JE ŠPATNĚ?

UKÁZKA DAT CO JE ŠPATNĚ? že je diabetes, hypertenze apod faktor (tj. kategoriální) je OK že je věk, glykemie atd. faktor je špatně co se stalo?

UKÁZKA DAT CO JE ŠPATNĚ? pozn.: data v Excelu

UKÁZKA DAT CO JE ŠPATNĚ?

UKÁZKA DAT CO JE ŠPATNĚ? věk není číslo ale text! Hezké, ale nepoužitelné.

UKÁZKA DAT CO JE ŠPATNĚ?

UKÁZKA DAT CO JE ŠPATNĚ? text uprostřed čísel, navíc nenesoucí příliš informace

UKÁZKA DAT CO JE ŠPATNĚ?

UKÁZKA DAT CO JE ŠPATNĚ? prázdné pole: je to NE nebo chybějící pozorování?

UKÁZKA DAT CO JE ŠPATNĚ?

UKÁZKA DAT CO JE ŠPATNĚ? desetinná čárka a desetinná tečka zároveň

UKÁZKA DAT CO JE ŠPATNĚ?

UKÁZKA DAT CO JE ŠPATNĚ? nesmyslná hodnota obvykle nenajdeme na první pohled

UKÁZKA DAT CO JE ŠPATNĚ?

UKÁZKA DAT CO JE ŠPATNĚ? tři informace (přítomnost, typ, terapie) naráz, takto neanalyzovatelné

UKÁZKA DAT NÁPRAVA

UKÁZKA DAT NÁPRAVA věk přepočítán (zaokrouhlení vizuální, jinak des. číslo)

UKÁZKA DAT NÁPRAVA čárka opravena na tečku, nejsou texty; NA je ekvivalentní prázdnému poli

UKÁZKA DAT NÁPRAVA rozlišeno ne a chybějící, poznámka je vedle

UKÁZKA DAT NÁPRAVA rozlišeno ne a chybějící, poznámka je vedle

UKÁZKA DAT NÁPRAVA rozděleno na výskyt a poznámku

UKÁZKA DAT NÁPRAVA rozlišen výskyt, typ, terapie do samostatných proměnných

UKÁZKA DAT OPRAVA

přehledný seznam slouží jako reference pro autora databáze pro analytika pro návrat v budoucnosti snižuje riziko chyby, záměny, nepochopení

VÝSLEDEK OPRAV data jsou v R přímo čitelná se správným typem dají se na ně rovnou uplatnit analytické nástroje (tabulky, výpočet průměrů atd) radikálně rychlejší, efektivnější práce s menším rizikem chyb dobrá příprava předem se rozhodně vyplatí DOMÁCÍ ÚKOL navrhnout, jak přepracovat poslední sloupec (laická KPCR) zkusit si natáhnout do Rstudia nějaká svoje data a podívat se na ně

KDE HLEDAT POMOC S R R pro biology (Karel Zvára, KPMS) http://www.karlin.mff.cuni.cz/~zvara/biostat/2009/erkobio.pdf Materiály k Rku (Arnošt Komárek, KPMS MFF UK) http://www.karlin.mff.cuni.cz/~komarek/vyuka/2011_12/rko-2011.html Hrátky s R (správný odkaz): https://www.karlin.mff.cuni.cz/~kulich/vyuka/rdoc/arnost_intror.pdf Cookbook for R (www.cookbook-r.com) Stackoverflow (stackoverflow.com) dotazy s řešeními od uživatelů typicky se sem dostanu po dotazu v googlu

DĚKUJI ZA POZORNOST www.biostatisticka.cz