Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví
Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace z dat. Cíl: částečná automatizace procesu získání zajímavých vzorů chování z reálných dat: tvorba jejich modelů - např. pomocí nástrojů strojového učení Nové slibné odvětví SW průmyslu, jehož cílem je využít existující data pro zlepšení rozhodovacích procesů
Získávání znalostí z dat (ZZD)
ZZD - Příklady aplikací Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů). Predikce vývoje kursů akcií. Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony). Segmentace a klasifikace klientů pojišťovny. Analýza nákupního košíku (Market Basket Analysis). Predikce spotřeby elektrické energie, plynu, Analýza příčin poruch v telekomunikačních sítích. Rozbor databáze pacientů v nemocnici. Charakterizace karcinogenních látek. Mapování lidského genomu. Veřejné mínění a sčítání lidu.
ZZD - Terminologie Koncept oblast zájmu co chceme předpověď počasí Objekt (třída) obecný (abstraktní) prvek konceptu den předpovědi počasí Atributy jednotlivé vlastnosti objektu teplota, tlak, množství srážek Instance Kokrétní případ objektu - jednotlivá data data o počasí jednoho konkrétního dne
ZZD - Typy atributů Nominální 2 hodnoty - muž/žena => binární více hodnot barva (červená, modrá, zelená) Binární boolean (True/False) Ordinální celá čísla, reálná čísla jakou přesnost dají se řadit Kategoriální nabývají diskrétních hodnot, avšak nelze je řadit Řady veličin, které pravidelně měřeny zaznamenávány vždy vztaženy k jediné monotónní veličině, která slouží jako index
ZZD - Typy úloh Klasifikace přiřazení třídy objektu Predikce předpověď chování objektu v čase Asociace hledání vazeb mezi objekty Shluková analýza seskupování podobných objektů
Klasifikace / Predikce Cílem je nalézt znalosti použitelné pro klasifikaci nových případů Požadujeme, aby získané znalosti co nejlépe odpovídaly danému konceptu Dáváme přednost přesnosti pokrytí na úkor jednoduchosti - připouštíme větší množství méně srozumitelných dílčích znalostí. Rozdíl mezi klasifikací a predikcí spočívá v roli času Predikce = ze starších hodnot nějaké veličiny se pokoušíme odhadnout její vývoj v budoucnosti.
Asociace / Shluková analýza Asociace žádný atribut (sloupec tabulky) není vyčleněn jako cíl klasifikace asociace je proces hledaní všech zajímavých vztahů (implikace, ekvivalence) mezi hodnotami různých atributů. Jednoduchá (pravděpodobnostní) tvrzení o spoluvýskytu událostí v datech Shluková analýza vícerozměrná statistická metoda, která se používá ke klasifikaci objektů slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých
ZZD - Typy úloh detekce odchylek highlighting predikce klasifikace regrese asociační pravidla shlukování modelování závislostí modelování kauzalit sumarizace deskripce vztahy v databázích SQO pravidla
Metodiky ZZD Metodika SEMMA Podle metodologie SEMMA spočívá proces dobývání v těchto krocích: Sample - vybírání vhodných objektů Explore - vizuální explorace a redukce dat Modify - seskupování objektů a hodnot atributů, datové transformace Model - analýza dat Assess - porovnání modelů a interpretace Metodika 5A Assess - posouzení potřeb projektu Access - shromáždění potřebných dat Analyze - provedení analýz Act - přeměna znalostí na akční znalosti Automate - převedení výsledků analýzy do praxe
Metodika CRISP-DM CRISP-DM (CRoss-Industry Standard Process for DataMining) Vznikla vrámci výzkumného projektu Evropské komise. Cílem projektu je navrhnout univerzální postup použitelný v nejrůznějších aplikacích. Na projektu spolupracují firmy NCR (přední dodavatel datových skladů) DaimlerChrysler Integral Solutions (tvůrce systému Clementine) OHRA (velká holandská pojišťovna).
Metodika CRISP-DM CRISP-DM (CRoss-Industry Standard Process for DataMining) 1. Zadání 2. Porozumění datům 3. Příprava dat 5. Vyhodnocení 4. Modelování 6. Použití
Zadání / porozumění cílům Pochopení cílů úlohy Co klient chce Manažerský náhled, např. Primární cíl: Udržet si současné zákazníky pomocí predikce okamžiku, kdy jsou nakloněni přejít ke konkurenci Související cíl: Budou nižší poplatky pro výběr z automatu signifikantně sníží počet bonitních klientů, kteří odejdou? Hodnocení situace Seznam zdrojů (personál, data) Požadavky (srozumitelnost, přesnost) Omezení (bezpečnostní otázky, anonimizace) Terminologie Analýza náklady / přínos
Zadání / porozumění cílům Vymezení cílů ZZD Příklad odlišnosti terminologií Cíl obchodníka: Rozšířit katalog prodeje pro existující zákazníky. Cíl informatika: Predikovat jak mnoho věcí bude zákazník kupovat z jeho nákupů za poslední tři měsíce, demografických informací (věk, město, plat, atd.) a ceny nabízené věci. Vytvoření projektového plánu Období provádění projektu společně s dobou trvání, požadavky na zdroje, vstupy, výstupy a závislostmi. Výběr možných nástrojů pro řešení
Porozumění datům Shromáždění dat Počáteční předzpracování dat Popis dat Formát dat Množství Prozkoumání dat Descriptivní charakteristiky dat Rozložení klíčových atributů, jednoduché statistiky, Jednoduché vztahy mezi atributy, významné podskupiny, odlehlé hodnoty (outliers). Použití vizualizačních technik Ověření dat Jsou kompletní (popisují celou oblast) Složitost formy uložení dat Šum, chybějící a špatné údaje
Problém reálných dat Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohoto hlediska bývá sběr i uložení optimalizováno. Data obsahují špatné údaje způsobené chybami měřicích přístrojů i lidské obsluhy. Nevyplněné údaje. U některých atributů se stává, že vyplnění údaje je skoro výjimkou mluvíme pak o řídce (sparse) obsazených atributech. Data jsou popsána pomocí příliš mnoha atributů není zřejmé, které z nich jsou pro řešení zvolené úlohy relevantní. Úspěch modelování závisí na volbě vhodné množiny atributů. Data mají formu složitého relačního schématu, nikoliv jediné tabulky předpokládané atributovými metodami strojového učení.
Úkoly předzpracování dat Množina vlastností (atributů nebo příznaků) Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěch použití technik strojového učení. S dimenzí exponenciálně rostou i nároky na počet trénovacích příkladů. Příprava dat pro modelování Čištění dat Normalizace dat Převod typů dat, formátování a kódování Transformace dat do jedné tabulky Úpravy dimenze
Předzpracování dat Zpráva o stavu proměnných typ (spojitá X diskrétní) rozsah definičního oboru (počet hodnot) rozsah a frekvence výskytů (histogram) typ rozdělení a jeho statistické charakteristiky osamělé mimořádné hodnoty (outliers) téměř konstantní atributy (možné vynechat) nevyplněná datová pole znečištění dat data neodpovídají deklarovanému formátu hodnoty neodpovídají deklarované množině
Předzpracování dat Čištění dat (chybějící a špatné údaje) Nedělat nic některým algoritmům chybějící hodnoty nevadí Ignorovat celou instanci ideální pro data s minimem chybějících hodnot pozor u časových řad na porušení vzorkování Náhrada nejčetnější hodnotou průměrem, mediánem nalezení nejbližšího souseda využití algoritmu pro modelování Náhrada hodnotou nevím
Předzpracování dat Čištění dat (čištění signálů) Korekce resp. odstranění šumu - tento proces se nazývá filtrace. Většinou velmi podstatné pro získání příznaků ze signálu Ignorování šumu Čištění dat (monotónní atributy) Představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu. Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam.
Předzpracování dat Normalizace dat Převod numerických hodnot do intervalu <0,1> a i vi - Avg ( vi ) vi min( vi ) = nebo ai = StDev( v ) max( v ) min( v ) i i i Úprava rozsahu hodnot atributů pomocí logistické transformace 1 0.8 0.6 g(x) 0.4 0.2 0-6 -4-2 0 2 4 6 x a = 0, b = 1 a = 0, b = 2 a = 0, b = 4
Převod formátování a kódování Datum volba přesnosti např. roky, měsíce, dny, hodin, reprezentace reálným číslem Nominální hodnoty 2 hodnoty 0,1 výběr nejfrekventovanějších hodnot spojení do větších přirozených celků (město,kraj) Při sloučení atributů Častokrát nutné nové kódování Numerické hodnoty některé analytické algoritmy vyžadují pouze kategoriální data diskretizace dat volba intervalů
Diskretizace Neinformované metody ekvidistantní intervaly ekvifrekvenční intervaly
Diskretizace Informované metody využití znalosti o příslušnosti objekt -> třída strategie rozdělování nebo spojování intervalů Fayyadův a Iraniho algoritmus (Entropy Based Discretization) Metoda založená na použití informací o třídách přítomných v datech kritérium entropie objekty mezi, kterými se mění třída výběr nejlepšího dělicího bodu Jde o hledání místa s maximálním informačním ziskem Fayyad, Irani : Multi-interval discretization of continuous-valued attributes for classification learning In: Proc. 1st Int. Conf. on Knowledge Discovery and Data Mining. AAAI Press, 1995, s. 39-44
Transformace dat do jedné tabulky 1:1 prakticky pouze doplnění tabulky o nové atributy 1:N vytvoření agregovaných hodnot součet, min, max, průměr, regresní křivka majoritní hodnota, počet různých hodnot, výskyt konkrétní hodnoty do této skupiny patří časové řady M:N nutná volba úlohy, zda chceme 1:N nebo 1:M
Úpravy dimenze Snížení dimenze Vynecháním konstantních atributů atributů řídce obsazených atributů s duplicitní informací (rok narození X věk, apod.) Sloučením atributů řídce obsazených z několika řídce obsazených atributů je možné zřetězením vytvořit jeden nový (PVP - present value pattern)
Úpravy dimenze Zvýšení dimenze Obohacení doplněním údajů z jiných zdrojů (např. meteorologická měření, demografické údaje, apod.) Rozšíření přidání odvozených atributů např. pohlaví z rodného čísla Body Mass Index (BMI) BMI = váha [kg] 2 výška [m] otočení dat (reverse pivoting) - nový atribut a n+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí a n+1 (i) = a n (i+1).
Úpravy dimenze Selekce atributů hledáme k správnému výsledku nejvíce přispívající atributy metoda filtru spočteme charakteristiku vyjadřující vhodnost atributu chi-kvadrát, entropie, informační míra závislosti vychází z kontingenční tabulky nevýhoda: posuzujeme každý atribut samostatně ne množiny atributů metoda obálky použití metod strojového učení Analýza hlavních komponent (PCA) Nové atributy nelze interpretovat
Úprava množin pro modelování Hlavní zásada každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru. Vytvoření trénovacích a testovacích dat Vzorkování dat obrovský počet instancí redukce počtu dat tvorba modelů na základě podmnožin a jejich následná kombinace pro algoritmy pracující v dávkovém režimu nutnost nevyvážená data např třída A 95%, třída B 5% různé ceny chybného rozhodnutí výběr dat pro různé třídy s různou pravděpodobností
Modelování Výběr techniky modelování s ohledem na data, pochopitelnosti, budoucímu použití a omezením rozhodovací stromy, asociační pravidla, neuronové sítě, regresní analýza, shluková analýza Kombinace více modelů Návrh testování Technika validace techniky (trenovací/testovací množina), scóre, atd. Vytvoření modelu Ladění parametrů, následné zpracování vygenerovaných pravidel Ohodnocení modelu Splnění požadovaných testovacích kriterií. Přesnost a obecnost vytvořeného modelu
Vyhodnocení Úspěšné dosažení zadavatelových cílů Výsledek je kombinace Modelu a Závěry Závěry nemusí být srozumitelné vzhledem k zadavatelovým cílům nutné převézt do zadavatelovy terminologie Hodnocední výsledků Rozdílné stupně než u ohodnocení modelu Jestliže je to možné test na reálné aplikaci Revizní proces Rekapitulace, hlavní cíl: nalézt přehlédnuté úlohy Určení dalších kroků Rozhodnutí o možném vylepšení
Použití Plán použití Shrnutí použitelných výsledků Rozhodnutí o způsobu předání (nasazení) získaných znalostí a informací uživateli. Rozhodnutí jak bude vytvořený model nebo software použit v rámci exitujících systémů. Odhalení možných problémů při nasazení výsledků ZZD Plán monitorování a podpory Je důležité vyhnout se dlouhým obdobím nesprávného užívání Vytvoření závěrečné zprávy (dokumentace)
Časové nároky v ZZD 0 20 40 60 Formulace problému Volba typu řešení Předpokládané využití Posouzení dat Potřebná čast času v rámci celého projektu (v %) Význam pro úspěch projektu (v %) Příprava dat Modelování
Vizualizace dat Omezení vnímání na 3D Vizualizace 1-D, 2-D a 3-D standard grafy, matematika, statistika Vizualizace n-d nutná pro ZZD (Data mining)
Vizualizace dat Grafy sloupcové grafy koláčové grafy grafy X-Y časové řady, trendy
Vizualizace dat 3D vizualizace
Vizualizace dat Statistické grafy
Iris data Iris setosa sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 4.9 3 1.4 0.2............ 5.9 3 5.1 1.8 Iris versicolor Iris virginica
Vizualizace dat Zobrazení matice rozptylů
Parallel coordinates
RadViz
Dobrá příprava dat je klíčem k vytvoření platného a spolehlivého modelu Konec? Ne! Začátek!