Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Podobné dokumenty
VŠB Technická univerzita Ostrava BIOSTATISTIKA

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

VŠB Technická univerzita Ostrava

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Jak importovat šablony tiskových sestav do aplikace MarkTime PORTAL. Administrační manuál Bellman Group, s.r.o. 2007/09/23 verze 1.

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Statistický popis dat. Tvorba kontingenních tabulek. Grafická prezentace dat.

Systém monitorování zdravotního stavu obyvatelstva ve vztahu k životnímu prostředí

Analýza dat s využitím MS Excel

Zápočtová práce STATISTIKA I

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

VŠB Technická univerzita Ostrava

Segmentace bankovních zákazníků algoritmem k- means

POUŽITÍ DATABÁZÍ. Po ukončení tohoto kurzu budete schopni

Access Tabulka letní semestr 2013

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ZÁVĚREČNÁ ZPRÁVA Z AKCE

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Office Arena 2017 Krajské kolo

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Protokol č. 1. Tloušťková struktura. Zadání:

Úvod do MS Access. Modelování v řízení. Ing. Petr Kalčev

Systém monitorování zdravotního stavu obyvatelstva ve vztahu k životnímu prostředí

Cvičení č. 3. Sdílené prostředky a synchronizace Program Banka. 4 body

Pracovní list VY_32_INOVACE_33_20 Databáze Databáze Databáze Projekt II. Ing. Petr Vilímek

Pracovní list VY_32_INOVACE_33_19 Databáze Databáze Databáze Ing. Petr Vilímek

Vzorová prezentace do předmětu Statistika

Střední odborná škola stavební Karlovy Vary Sabinovo náměstí 16, Karlovy Vary Autor: Ing. Hana Šmídová Název materiálu:

Popisná statistika kvantitativní veličiny

ZÁVĚREČNÁ ZPRÁVA Z AKCE

Kontrola kvality Levey-Jenningsův graf

Popisná statistika. Komentované řešení pomocí MS Excel

Analýza a prezentace dat

Cíl: Práce s tabulkami a grafy v prostředí programu Microsoft Excel

Část A matematika (otázky 1-10 celkem za 40 bodů)

Cíl výuky: Cílem předmětu je uvedení studentů do problematiky projektování, seznámit posluchače se zásadami

Analýza dat na PC I.

Příloha III. Úpravy příslušných bodů souhrnu údajů o přípravku a příbalové informace

Zadání soutěžních úloh

Státní zdravotní ústav Praha

PŘIJÍMACÍ TEST z informatiky a matematiky pro navazující magisterské studium Fakulta informatiky a managementu Univerzity Hradec Králové

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Vyhodnocení studie SPACE

Získávání znalostí z dat

Tabulka 1. Výběr z datové tabulky

Cvičná bakalářská zkouška, 1. varianta

Časové řady - Cvičení

WORD. 4. Texty vyskytují se v dokumentu 3x mají zelenou barvu

Návod na vypracování semestrálního projektu

Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007

Uživatelská příručka

Tabulkový procesor Excel tvorba grafů v Excelu

MBI - technologická realizace modelu

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

E-LEARNINGOVÁ OPORA PŘEDMĚTU PROGRAMOVÉ VYBAVENÍ ORDINACE ZUBNÍHO LÉKAŘE Kateřina Langová, Jana Zapletalová, Jiří Mazura

Návrh a vyhodnocení experimentu

Statistika pro geografy

ZÁVĚREČNÁ ZPRÁVA Z AKCE DNY ZDRAVÍ. Termín pořádání : Místo: ŘÍČANY STÁTNÍ ZDRAVOTNÍ ÚSTAV

Slovo na úvod FTG 1 ZS Jasné vymezení hřiště a domluva pravidel hry usnadňuje vzájemnou komunikaci.

HODNOCENÍ VÝUKY STUDENTY PEDF UK ZS 2016/2017

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

Word Lekce III. a IV.

Provozní dokumentace. Seznam orgánů veřejné moci. Příručka pro běžného uživatele

Modul 1: Operace s obrazem

Tab. 3 NRS 2002, riziko podvýživy u hospitalizovaných pacientů. Zhubl pacient za poslední 3 měsíce? ANO NE

PRODUKTY. Tovek Tools

NOVÉ TRENDY A TECHNOLOGIE V OŠETŘOVATELSKÉ PÉČI. Aplikace metody krátkých intervencí v praxi

EXPERIMENTÁLNÍ METODY I. 1. Základy měření

Níže uvedená tabulka obsahuje technické údaje a omezení aplikace Excel (viz také článek Technické údaje a omezení aplikace Excel (2007).

Microsoft. Word. Šablony. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

NÁVOD NA PRÁCI S KATALOGEM CKAN. Vzniklo v rámci výzkumného grantu Sémantické propojování dat ve veřejné správě IG407011

Pokyny pro řešení příkladů z předmětu Mechanika v dopravě pro obor. Pozemní doprava AR 2006/2007

VYBRANÉ STATĚ Z PROCESNÍHO INŢENÝRSTVÍ cvičení 8

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Export tabulky výsledků

Posudek oponenta diplomové práce

Semestrální práce z předmětu Matematika 6F

Deskriptivní statistika (kategorizované proměnné)

ZADÁNÍ KRAJSKÉHO KOLA

Státní zdravotní ústav Praha. Milovy 2017

Slouží k propojení aplikací, s čímž Vám pomůže odborná firma (tyto aplikace spravující).

Využití rozptylových studií pro hodnocení zdravotních rizik. MUDr.Helena Kazmarová Státní zdravotní ústav Praha

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Stručný obsah. K2118.indd :15:27

Možnosti aplikace: Copyright 2001, COM PLUS CZ, Praha

Analytické procedury v systému LISp-Miner

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

O P A K O V A C Í T E S T z a d á n í 1/5 TEXTOVÝ EDITOR. Pomocí nástroje hromadná korespondence vytvořte formulářové dopisy: Hlavní dokument

Povinný předmět (verze 2013)

INFORMATIKA. Libovolná učebnice k MS OFFICE 200x (samostatné učebnice k textovému procesoru MS Word 200x, tabulkovému procesoru MS Excel 200x).

EXCEL IV. část. 7. Vzorce a funkceuložení, tisk a doplňky 8. Používané zkratky. Zpracoval: Ing. Pavel branšovský. pro potřebu VOŠ a SŠSE

4. Zpracování číselných dat

Kurz Biostatistiky pro zaměstnance FNO

MS Word pro administrátory projektů Pokročilí

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Transkript:

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010 Obecné zadání Dle zadání zpracujte data ze studie STULONG (soubory Entry a Contr). Práce je rozdělena do tří částí, které se řeší odděleně. Výstupem každé části bude výsledná zpráva popisující kroky zpracování dat, vyskytnuté problémy, jejich řešení a výsledky dané části úlohy. Jednotlivé části úlohy jsou: 1. Příprava (analyzujte a předzpracujte) zadaných data pro úlohu získávání znalostí (nalezení vzájemných vztahů a souvislostí mezi jednotlivými atributy) a vytvoření datového souboru pro modelování. 2. Na vytvořeném datovém souboru za použití metod symbolického modelování nalezněte vztahy a souvislosti mezi atributy. Vyberte nejsilnější z nich. 3. Na základě vybraných vztahů (pravidel) vytvořte znalostní systém, který bude po dodání údajů schopen podpořit jednu z definovaných hypotéz (zamítnou druhou hypotézu). Jednotlivé body zadání každé části a podmínky pro zpracování a odevzdání jsou uvedeny vždy v příslušném odstavci. Základní pokyny a informace Pročtěte si pečlivě údaje na stránce http://euromise.vse.cz/stulong/ (protože data jsou vztažena k původnímu popisu z roku 2004 čerpejte (validujte) v případě nesrovnalostí více kódů, jiné četnosti, atributy nejsou v české verzi popsány, atd. také z anglické verze popisu tohoto projektu z roku 2004, který je dostupný na http://euromise.vse.cz/challenge2004/index.html). Cíle studie, výběr populace, protokoly, rozdělení pro analýzu, atd. naleznete pod položkou Metodika http://euromise.vse.cz/stulong/metodika/index.php?page=metodika. Pro dobré vyhodnocení a validaci dosažených výsledků je nezbytné znát některé již zjištěné výchozí informace o souvislostech jednotlivých atributů a jejich stavů, které najdete na http://euromise.vse.cz/stulong/znalosti/index.php?page=znalosti. Prostudujte zadaná data veškeré informace o atributech naleznete na http://euromise.vse.cz/stulong/data/index.php?page=prvotni_data. Obecné pokyny ke zpracování a odevzdání Veškeré úkony při zpracování dělejte tak, aby výsledek byl přehledný. Komentujte a pište si poznámky, velmi vám to pomůže při sepisování závěrečných zpráv. Pracujte samostatně! Práce je z velké části založena na experimentálním přístupu.

Každá zpráva by měla obsahovat odpovědi na body v zadání s vazbou na jejich provádění (v 1. části odkazy na příslušná místa v excelovském souboru, ve 2. a 3. části vložené výsledky a příklady řešení). Osnova zprávy by měla mít následující tvar: o Popis problematiky příslušné části úlohy o Navržené a vybrané přístupy řešení (objasněte důvody vašich rozhodnutí) o Problémy a jejich řešení (objasněte důvody vašich rozhodnutí) o Dosažené výsledky o Diskuze o Zdroje Pište srozumitelně a věcně (není to slohová práce). Nezapomeňte, že problémy jsou to nejzajímavější, takže se o nich zmiňujte a diskutujte je. Závěry se snažte dělat jasné a podložené dosaženými výsledky. Diskuze slouží k zhodnocení nejen výsledků, ale také zvoleného postupu, možných a vybraných řešení. Jednotlivé části úlohy: 1. Pochopení a předzpracování dat - analýza a úprava dat 1.1. Zadání i) Analyzujte a předzpracujte data ze souboru Entry.csv a) Vytvořte přehledné (grafické) zobrazení jednotlivých atributů (histogramy diskutujte rozložení dat). b) Stanovte a zobrazte rozložení skupin (normální, riziková, patologická) (histogramy diskutujte rozložení dat). c) Vytvořte grafické zobrazení atributů v závislosti na jednotlivých skupinách (histogramy diskutujte rozložení dat). d) Detekujte chybějící hodnoty a chyby (odlehlé hodnoty, nesprávný formát hodnot) a rozhodněte o způsobu jejich ošetření. e) Rozhodněte o případném vynechání, sloučení a odvození atributů. f) U atributů, které to umožňují, stanovte (v souladu s rozložením dat) středních hodnoty, mediány, rozptyly, atd. g) Na základě předchozí analýzy promyslete vhodný intervaly diskretizace hodnot. h) Na základě předchozí analýzy upravte (vytvořte nový) datový soubor obsahující provedené úpravy. i) Diskutujte dosažené výsledky ii) Analyzujte a předzpracujte data ze souboru Contr.csv a) Vytvořte přehledné (grafické) zobrazení jednotlivých atributů. b) Stanovte rozložení skupin (normální, riziková, patologická). c) Detekujte chybějící hodnoty a chyby (odlehlé hodnoty, nesprávný formát hodnot) a rozhodněte o způsobu jejich ošetření.

d) Rozhodněte o případném vynechání, sloučení a odvození atributů. e) Určete trendy atributů pro jednotlivé skupiny. f) Hledejte významné změny trendů. g) Na základě předchozí analýzy promyslete vhodné intervaly diskretizace hodnot. h) Na základě předchozí analýzy upravte (vytvořte nový) datový soubor obsahující provedené úpravy. 1.2. Zpracování Pro tuto část úlohy budete používat program Microsoft Excel. Data jsou uložena ve formátu csv tedy jsou v tomto programu rovnou otevřít. Soubor v Excelu by měl obsahovat list s původní datovou tabulkou, listy s vytvořenými grafy a jejich popisy (přehledně pro každý bod zadání) a list s upravenou datovou tabulkou, ze které bude vytvořen soubor pro systém WEKA (soubor typu arff). 1.3. Odevzdání Odevzdávat bude soubor v Excelu, který bude obsahovat veškeré provedené analýzy (funkční vztahy) a závěrečnou zprávu obsahující stručný (max. 2 stránky) popis provedených kroků a hodnocení výsledků analýzy. 2. Modelování 2.1. Zadání - Přehled analytických otázek: Následující analytické otázky se vztahují k souboru (tabulce) Entry. Na základě předchozího zpracování by měla být data předzpracována (odvozené atributy, vynechání atributů, doplnění hodnot). Dále s využitím výsledků z přechozí části úlohy předzpracuje data v systému WEKA (selekce atributů, diskretizace hodnot) a proveďte modelování. Všechny níže uvedené analytické otázky jsou též dostupné na http://euromise.vse.cz/stulong/a-otazky/index.php?page=otazky. i) Jaké jsou vztahy mezi sociálními faktory (viz atributy skupiny sociální charakteristiky) a následujícími charakteristikami mužů v jednotlivých skupinách? a) Tělesné aktivity v práci a ve volném čase (viz skupina atributů tělesné aktivity). b) Kouření (viz skupinu atributů kouření). c) Spotřeba alkoholu (viz skupina atributů alkohol). d) BMI (body mass index, BMI = váha v kg / (výška v m)2) (viz skupinu e) Krevní tlak (viz skupina f) Úroveň cholesterolu a trigliceridů (viz skupina atributů biochemické

ii) Jaké jsou vztahy mezi tělesnými aktivitami v práci a ve volném čase (viz skupina atributů tělesné aktivity) a následujícími charakteristikami mužů v jednotlivých skupinách? a) Kouření (viz skupina atributů kouření). b) Spotřeba alkoholu (viz skupina atributů alkohol). c) BMI (body mass index, BMI = váha v kg / (výška v m)2) (viz skupina d) Krevní tlak (viz skupina e) Úroveň cholesterolu a trigliceridů (viz skupina atributů biochemické f) Atributy biochemického vyšetření. iii) Jaké jsou vztahy mezi spotřebou alkoholu (viz skupina atributů alkohol) a následujícími charakteristikami mužů v jednotlivých skupinách? a) Kouření (viz skupina atributů kouření). b) BMI (body mass index, BMI = váha v kg / (výška v m)2) (viz skupina c) Krevní tlak (viz skupinu d) Úroveň cholesterolu a trigliceridů (viz skupina atributů biochemické iv) Jsou nějaké rozdíly mezi jednotlivými skupinami pacientů vzhledem k výše uvedeným relacím? Následující analytické otázky se vztahují k souborům (tabulkám) Entry a Contr. Pro otázky vi x si prostudujte rozdělení pacientů podle nadváhy a krevního tlaku: http://euromise.vse.cz/stulong/a-otazky/index.php?page=sledovani2) v) Jsou nějaké rozdíly mezi muži z rizikové skupiny, kteří onemocněli některou ze sledovaných kardiovaskulárních onemocnění v průběhu dvaceti let a těmi, kteří zůstali zdraví? Kardiovaskulárních onemocnění se týkají atributy HODN1, ROK1, HODN2, ROK2, HODN3, ROK3, HODN11, ROK11, HODN12, ROK12, HODN13, ROK13, HODN14, ROK14, HODN21, ROK21, HODN23, ROK23, viz skupinu atributů dotazník A2. vi) Jsou tyto skupiny stabilní nebo mezi nimi pacienti migrují? vii) Které typy migarcí pacientů mezi skupinami existují. Kterých pacientů se migrace týkají? viii) Liší se jednotlivé skupiny pacientů vzhledem k lipidům (cholesterol, HDL, triglyceridy a LDL)? ix) Liší se jednotlivé skupiny pacientů vzhledem ke kombinaci zvýšené triglyceridy + nižší HDL cholesterol?

x) Liší se jednotlivé skupiny pacientů vzhledem k sociálním faktorům (viz atributy skupiny sociální charakteristiky), tělesným aktivitám (viz skupinu atributů tělesné aktivity), kouření (viz skupinu atributů kouření). 2.2. Zpracování Zpracování této části úlohy budete provádět v programu Microsoft Excel a systému WEKA (http://www.cs.waikato.ac.nz/ml/weka/). Jedná se o úlohu vyhledávání vztahů (asociace) mezi jednotlivými atributy pro modely budete využívat asociačních pravidel nebo jiné symbolické modely. Velmi důležité je porozumět vytvořeným pravidlům a jejich hodnocení. Na základě těch totiž budete následně tvořit inferenční síť expertního systému a její parametry. 2.3. Odevzdání Odevzdáte soubory arff použité k vašemu modelování a závěrečnou zprávu obsahující popis (max. 4 stránky) provedených kroků, parametrů předzpracování, použitých technik modelování, jejich parametrů a výběr výsledků analýzy se slovním hodnocením jednotlivých výstupů. 3. Tvorba znalostního systému 3.1. Zadání V této části úlohy byste měli využít výsledky z předchozích dvou částí. 3.2. Zpracování 3.3. Odevzdání