Získávání znalostí z dat



Podobné dokumenty
Dobývání znalostí z databází

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Získávání dat z databází 1 DMINA 2010

Předzpracování dat. Lenka Vysloužilová

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

IBM SPSS Decision Trees

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dobývání a vizualizace znalostí

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Přednáška 13 Redukce dimenzionality

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí

OSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA

Analýza dat z porodnického modulu nemocničního informačního systému

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

MINISTERSTVO VNITRA ČR

Datový sklad. Datový sklad

Etapy tvorby lidského díla

Univerzita Pardubice. Fakulta ekonomicko-správní

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

1. Dobývání znalostí z databází

Simulace systému hromadné obsluhy Nejčastější chyby v semestrálních pracích

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Pokročilé neparametrické metody. Klára Kubošová

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

RNDr. Tomáš Pavlík, PhD. RNDr. Jiří Jarkovský, PhD. Doc. RNDr. Ladislav Dušek, PhD. Ústav zdravotnických informací a statistiky České republiky

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Rozhodovací stromy a jejich konstrukce z dat

ELEKTRONICKÁ PORODNÍ KNIHA POPIS APLIKACE Michal Huptych, Petr Janků, Lenka Lhotská

PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION

Pořízení licencí statistického SW

Předzpracování dat pro data mining: metody a nástroje

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU

VEŘEJNÁ ZAKÁZKA MODEL MAPY PRO SLEDOVÁNÍ SOCIÁLNÍCH JEVŮ, KTERÉ SOUVISÍ SE SOCIÁLNÍM OHROŽENÍM NEBO VYLOUČENÍM

Rozhodovací stromy a lesy

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Dolování znalostí z rozsáhlých statistických souborů lékařských dat

Vytěžování znalostí z dat

Prof. Ing. Miloš Konečný, DrSc. Nedostatky ve výzkumu a vývoji. Klíčové problémy. Tyto nedostatky vznikají v následujících podmínkách:

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

BA_EM Electronic Marketing. Pavel

Úvod do zpracování obrazů. Petr Petyovský Miloslav Richter

KE STATISTICKÉ DEFINICI DOMÁCNOSTI Jaromír Běláček

Dynamické metody pro predikci rizika

Bayesovská klasifikace digitálních obrazů

Informační systém banky

(n, m) (n, p) (p, m) (n, m)

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Regresní a korelační analýza

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

Informační systémy pro podporu rozhodování

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 Využití doménových znalostí

APLIKACE NÁSTROJŮ KVALITY VE SPOLEČNOSTI METEOSERVIS V.O.S. SVOČ FST 2011

Budování informačních systémů pro komunitní plánování

Přednáška 5. Výběrová šetření, Exploratorní analýza

Centrální databáze nežádoucích událostí

Extrakce a selekce příznaků

Business Intelligence. Adam Trčka

Vytěžování znalostí z dat

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

Úvod do dobývání. znalostí z databází

Lineární programování

1 VZNIK, VÝVOJ A DEFINICE MECHATRONIKY

Implementace metodiky oceňování v RN

ZPRACOVÁNÍ NEURČITÝCH ÚDAJŮ V DATABÁZÍCH

znalostí z databází- mnohostranná interpretace dat

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

DOJÍŽĎKA A VYJÍŽĎKA DO ZAMĚSTNÁNÍ DO/Z HL. M. PRAHY

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Institut biostatistiky a analýz MU. Zkušenosti s vyhodnocováním telemedicínských technologií

Vyhodnocování biologických dat pomocí statistických metod Eva Gelnarová

Vícekriteriální hodnocení variant metody

KVALITA OČIMA PACIENTŮ - A

VYBRANÉ MOŽNOSTI SNIŽOVÁNÍ EMISÍ SO2 U STÁVAJÍCÍCH UHELNÝCH ZDROJŮ

1. ZÁKLADNÍ ÚDAJE O ŠETŘENÍ

M. Litschmannová: Scénař videa Analýza závislosti kvantitativní proměnné na proměnné kategoriální příklad

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Marta Vomlelová

UNIVERZITA PARDUBICE

Vytěžování dat přednáška I

Výzvy využívání otevřených dat v ČR

Klíčová slova prediktory absolvování studia medicíny, logistická regrese, ROC křivky

PROFIL BUDOUCÍHO ABSOLVENTA OBORU INFORMATIKA

KONTROLA PŘESNOSTI VÝROBY S VYUŽITÍM MATLABU

Metodické postupy tvorby architektury

Moderní systémy pro získávání znalostí z informací a dat

INFORMAČNÍ A ŘÍDÍCÍ SYSTÉMY PRO TECHNOLOGICKÉ PROCESY (Soudobé vážicí systémy se zaměřením na zemědělskou výrobu)

4IT218 Databáze. 4IT218 Databáze

Data mining. Letní semestr. únor červen Ondřej Brom lektor, analytik, konzultant spoluautor knihy SPSS Praktická analýza dat

Řízení SW projektů. Lekce 1 Základní pojmy a jejich vztahy. přednáška pro studenty FJFI ČVUT. zimní semestr 2012

Hledání závislostí technologických a nákladových charakteristik při tavení oceli na elektrických obloukových pecích

Alternativní ovládání PC a okolí

10. blok Logický návrh databáze

KGG/STG Statistika pro geografy

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 6

Transkript:

Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví

Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace z dat. Cíl: částečná automatizace procesu získání zajímavých vzorů chování z reálných dat: tvorba jejich modelů - např. pomocí nástrojů strojového učení Nové slibné odvětví SW průmyslu, jehož cílem je využít existující data pro zlepšení rozhodovacích procesů

Získávání znalostí z dat (ZZD)

ZZD - Příklady aplikací Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů). Predikce vývoje kursů akcií. Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony). Segmentace a klasifikace klientů pojišťovny. Analýza nákupního košíku (Market Basket Analysis). Predikce spotřeby elektrické energie, plynu, Analýza příčin poruch v telekomunikačních sítích. Rozbor databáze pacientů v nemocnici. Charakterizace karcinogenních látek. Mapování lidského genomu. Veřejné mínění a sčítání lidu.

ZZD - Terminologie Koncept oblast zájmu co chceme předpověď počasí Objekt (třída) obecný (abstraktní) prvek konceptu den předpovědi počasí Atributy jednotlivé vlastnosti objektu teplota, tlak, množství srážek Instance Kokrétní případ objektu - jednotlivá data data o počasí jednoho konkrétního dne

ZZD - Typy atributů Nominální 2 hodnoty - muž/žena => binární více hodnot barva (červená, modrá, zelená) Binární boolean (True/False) Ordinální celá čísla, reálná čísla jakou přesnost dají se řadit Kategoriální nabývají diskrétních hodnot, avšak nelze je řadit Řady veličin, které pravidelně měřeny zaznamenávány vždy vztaženy k jediné monotónní veličině, která slouží jako index

ZZD - Typy úloh Klasifikace přiřazení třídy objektu Predikce předpověď chování objektu v čase Asociace hledání vazeb mezi objekty Shluková analýza seskupování podobných objektů

Klasifikace / Predikce Cílem je nalézt znalosti použitelné pro klasifikaci nových případů Požadujeme, aby získané znalosti co nejlépe odpovídaly danému konceptu Dáváme přednost přesnosti pokrytí na úkor jednoduchosti - připouštíme větší množství méně srozumitelných dílčích znalostí. Rozdíl mezi klasifikací a predikcí spočívá v roli času Predikce = ze starších hodnot nějaké veličiny se pokoušíme odhadnout její vývoj v budoucnosti.

Asociace / Shluková analýza Asociace žádný atribut (sloupec tabulky) není vyčleněn jako cíl klasifikace asociace je proces hledaní všech zajímavých vztahů (implikace, ekvivalence) mezi hodnotami různých atributů. Jednoduchá (pravděpodobnostní) tvrzení o spoluvýskytu událostí v datech Shluková analýza vícerozměrná statistická metoda, která se používá ke klasifikaci objektů slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých

ZZD - Typy úloh detekce odchylek highlighting predikce klasifikace regrese asociační pravidla shlukování modelování závislostí modelování kauzalit sumarizace deskripce vztahy v databázích SQO pravidla

Metodiky ZZD Metodika SEMMA Podle metodologie SEMMA spočívá proces dobývání v těchto krocích: Sample - vybírání vhodných objektů Explore - vizuální explorace a redukce dat Modify - seskupování objektů a hodnot atributů, datové transformace Model - analýza dat Assess - porovnání modelů a interpretace Metodika 5A Assess - posouzení potřeb projektu Access - shromáždění potřebných dat Analyze - provedení analýz Act - přeměna znalostí na akční znalosti Automate - převedení výsledků analýzy do praxe

Metodika CRISP-DM CRISP-DM (CRoss-Industry Standard Process for DataMining) Vznikla vrámci výzkumného projektu Evropské komise. Cílem projektu je navrhnout univerzální postup použitelný v nejrůznějších aplikacích. Na projektu spolupracují firmy NCR (přední dodavatel datových skladů) DaimlerChrysler Integral Solutions (tvůrce systému Clementine) OHRA (velká holandská pojišťovna).

Metodika CRISP-DM CRISP-DM (CRoss-Industry Standard Process for DataMining) 1. Zadání 2. Porozumění datům 3. Příprava dat 5. Vyhodnocení 4. Modelování 6. Použití

Zadání / porozumění cílům Pochopení cílů úlohy Co klient chce Manažerský náhled, např. Primární cíl: Udržet si současné zákazníky pomocí predikce okamžiku, kdy jsou nakloněni přejít ke konkurenci Související cíl: Budou nižší poplatky pro výběr z automatu signifikantně sníží počet bonitních klientů, kteří odejdou? Hodnocení situace Seznam zdrojů (personál, data) Požadavky (srozumitelnost, přesnost) Omezení (bezpečnostní otázky, anonimizace) Terminologie Analýza náklady / přínos

Zadání / porozumění cílům Vymezení cílů ZZD Příklad odlišnosti terminologií Cíl obchodníka: Rozšířit katalog prodeje pro existující zákazníky. Cíl informatika: Predikovat jak mnoho věcí bude zákazník kupovat z jeho nákupů za poslední tři měsíce, demografických informací (věk, město, plat, atd.) a ceny nabízené věci. Vytvoření projektového plánu Období provádění projektu společně s dobou trvání, požadavky na zdroje, vstupy, výstupy a závislostmi. Výběr možných nástrojů pro řešení

Porozumění datům Shromáždění dat Počáteční předzpracování dat Popis dat Formát dat Množství Prozkoumání dat Descriptivní charakteristiky dat Rozložení klíčových atributů, jednoduché statistiky, Jednoduché vztahy mezi atributy, významné podskupiny, odlehlé hodnoty (outliers). Použití vizualizačních technik Ověření dat Jsou kompletní (popisují celou oblast) Složitost formy uložení dat Šum, chybějící a špatné údaje

Problém reálných dat Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohoto hlediska bývá sběr i uložení optimalizováno. Data obsahují špatné údaje způsobené chybami měřicích přístrojů i lidské obsluhy. Nevyplněné údaje. U některých atributů se stává, že vyplnění údaje je skoro výjimkou mluvíme pak o řídce (sparse) obsazených atributech. Data jsou popsána pomocí příliš mnoha atributů není zřejmé, které z nich jsou pro řešení zvolené úlohy relevantní. Úspěch modelování závisí na volbě vhodné množiny atributů. Data mají formu složitého relačního schématu, nikoliv jediné tabulky předpokládané atributovými metodami strojového učení.

Úkoly předzpracování dat Množina vlastností (atributů nebo příznaků) Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěch použití technik strojového učení. S dimenzí exponenciálně rostou i nároky na počet trénovacích příkladů. Příprava dat pro modelování Čištění dat Normalizace dat Převod typů dat, formátování a kódování Transformace dat do jedné tabulky Úpravy dimenze

Předzpracování dat Zpráva o stavu proměnných typ (spojitá X diskrétní) rozsah definičního oboru (počet hodnot) rozsah a frekvence výskytů (histogram) typ rozdělení a jeho statistické charakteristiky osamělé mimořádné hodnoty (outliers) téměř konstantní atributy (možné vynechat) nevyplněná datová pole znečištění dat data neodpovídají deklarovanému formátu hodnoty neodpovídají deklarované množině

Předzpracování dat Čištění dat (chybějící a špatné údaje) Nedělat nic některým algoritmům chybějící hodnoty nevadí Ignorovat celou instanci ideální pro data s minimem chybějících hodnot pozor u časových řad na porušení vzorkování Náhrada nejčetnější hodnotou průměrem, mediánem nalezení nejbližšího souseda využití algoritmu pro modelování Náhrada hodnotou nevím

Předzpracování dat Čištění dat (čištění signálů) Korekce resp. odstranění šumu - tento proces se nazývá filtrace. Většinou velmi podstatné pro získání příznaků ze signálu Ignorování šumu Čištění dat (monotónní atributy) Představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu. Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam.

Předzpracování dat Normalizace dat Převod numerických hodnot do intervalu <0,1> a i vi - Avg ( vi ) vi min( vi ) = nebo ai = StDev( v ) max( v ) min( v ) i i i Úprava rozsahu hodnot atributů pomocí logistické transformace 1 0.8 0.6 g(x) 0.4 0.2 0-6 -4-2 0 2 4 6 x a = 0, b = 1 a = 0, b = 2 a = 0, b = 4

Převod formátování a kódování Datum volba přesnosti např. roky, měsíce, dny, hodin, reprezentace reálným číslem Nominální hodnoty 2 hodnoty 0,1 výběr nejfrekventovanějších hodnot spojení do větších přirozených celků (město,kraj) Při sloučení atributů Častokrát nutné nové kódování Numerické hodnoty některé analytické algoritmy vyžadují pouze kategoriální data diskretizace dat volba intervalů

Diskretizace Neinformované metody ekvidistantní intervaly ekvifrekvenční intervaly

Diskretizace Informované metody využití znalosti o příslušnosti objekt -> třída strategie rozdělování nebo spojování intervalů Fayyadův a Iraniho algoritmus (Entropy Based Discretization) Metoda založená na použití informací o třídách přítomných v datech kritérium entropie objekty mezi, kterými se mění třída výběr nejlepšího dělicího bodu Jde o hledání místa s maximálním informačním ziskem Fayyad, Irani : Multi-interval discretization of continuous-valued attributes for classification learning In: Proc. 1st Int. Conf. on Knowledge Discovery and Data Mining. AAAI Press, 1995, s. 39-44

Transformace dat do jedné tabulky 1:1 prakticky pouze doplnění tabulky o nové atributy 1:N vytvoření agregovaných hodnot součet, min, max, průměr, regresní křivka majoritní hodnota, počet různých hodnot, výskyt konkrétní hodnoty do této skupiny patří časové řady M:N nutná volba úlohy, zda chceme 1:N nebo 1:M

Úpravy dimenze Snížení dimenze Vynecháním konstantních atributů atributů řídce obsazených atributů s duplicitní informací (rok narození X věk, apod.) Sloučením atributů řídce obsazených z několika řídce obsazených atributů je možné zřetězením vytvořit jeden nový (PVP - present value pattern)

Úpravy dimenze Zvýšení dimenze Obohacení doplněním údajů z jiných zdrojů (např. meteorologická měření, demografické údaje, apod.) Rozšíření přidání odvozených atributů např. pohlaví z rodného čísla Body Mass Index (BMI) BMI = váha [kg] 2 výška [m] otočení dat (reverse pivoting) - nový atribut a n+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí a n+1 (i) = a n (i+1).

Úpravy dimenze Selekce atributů hledáme k správnému výsledku nejvíce přispívající atributy metoda filtru spočteme charakteristiku vyjadřující vhodnost atributu chi-kvadrát, entropie, informační míra závislosti vychází z kontingenční tabulky nevýhoda: posuzujeme každý atribut samostatně ne množiny atributů metoda obálky použití metod strojového učení Analýza hlavních komponent (PCA) Nové atributy nelze interpretovat

Úprava množin pro modelování Hlavní zásada každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru. Vytvoření trénovacích a testovacích dat Vzorkování dat obrovský počet instancí redukce počtu dat tvorba modelů na základě podmnožin a jejich následná kombinace pro algoritmy pracující v dávkovém režimu nutnost nevyvážená data např třída A 95%, třída B 5% různé ceny chybného rozhodnutí výběr dat pro různé třídy s různou pravděpodobností

Modelování Výběr techniky modelování s ohledem na data, pochopitelnosti, budoucímu použití a omezením rozhodovací stromy, asociační pravidla, neuronové sítě, regresní analýza, shluková analýza Kombinace více modelů Návrh testování Technika validace techniky (trenovací/testovací množina), scóre, atd. Vytvoření modelu Ladění parametrů, následné zpracování vygenerovaných pravidel Ohodnocení modelu Splnění požadovaných testovacích kriterií. Přesnost a obecnost vytvořeného modelu

Vyhodnocení Úspěšné dosažení zadavatelových cílů Výsledek je kombinace Modelu a Závěry Závěry nemusí být srozumitelné vzhledem k zadavatelovým cílům nutné převézt do zadavatelovy terminologie Hodnocední výsledků Rozdílné stupně než u ohodnocení modelu Jestliže je to možné test na reálné aplikaci Revizní proces Rekapitulace, hlavní cíl: nalézt přehlédnuté úlohy Určení dalších kroků Rozhodnutí o možném vylepšení

Použití Plán použití Shrnutí použitelných výsledků Rozhodnutí o způsobu předání (nasazení) získaných znalostí a informací uživateli. Rozhodnutí jak bude vytvořený model nebo software použit v rámci exitujících systémů. Odhalení možných problémů při nasazení výsledků ZZD Plán monitorování a podpory Je důležité vyhnout se dlouhým obdobím nesprávného užívání Vytvoření závěrečné zprávy (dokumentace)

Časové nároky v ZZD 0 20 40 60 Formulace problému Volba typu řešení Předpokládané využití Posouzení dat Potřebná čast času v rámci celého projektu (v %) Význam pro úspěch projektu (v %) Příprava dat Modelování

Vizualizace dat Omezení vnímání na 3D Vizualizace 1-D, 2-D a 3-D standard grafy, matematika, statistika Vizualizace n-d nutná pro ZZD (Data mining)

Vizualizace dat Grafy sloupcové grafy koláčové grafy grafy X-Y časové řady, trendy

Vizualizace dat 3D vizualizace

Vizualizace dat Statistické grafy

Iris data Iris setosa sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 4.9 3 1.4 0.2............ 5.9 3 5.1 1.8 Iris versicolor Iris virginica

Vizualizace dat Zobrazení matice rozptylů

Parallel coordinates

RadViz

Dobrá příprava dat je klíčem k vytvoření platného a spolehlivého modelu Konec? Ne! Začátek!