Předzpracování dat. Lenka Vysloužilová

Podobné dokumenty
Extrakce a selekce příznaků

Získávání znalostí z dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Pravděpodobně skoro správné. PAC učení 1

Přednáška 13 Redukce dimenzionality

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Vytěžování znalostí z dat

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Vytěžování znalostí z dat

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Dobývání a vizualizace znalostí

Získávání dat z databází 1 DMINA 2010

AVDAT Mnohorozměrné metody, metody klasifikace

Vytěžování znalostí z dat

odlehlých hodnot pomocí algoritmu k-means

Asociační i jiná. Pravidla. (Ch )

Dobývání a vizualizace znalostí

Úvod do dobývání. znalostí z databází

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Pokročilé neparametrické metody. Klára Kubošová

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Selekce a extrakce příznaků 2

DATA MINING KLASIFIKACE DMINA LS 2009/2010

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Moderní systémy pro získávání znalostí z informací a dat

Výpočetní teorie učení. PAC učení. VC dimenze.

Automatické vyhledávání informace a znalosti v elektronických textových datech

Chybějící atributy a postupy pro jejich náhradu

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Strojové učení Marta Vomlelová

ANALÝZA A KLASIFIKACE DAT

Úvodem Dříve les než stromy 3 Operace s maticemi

Klasifikace a rozpoznávání

Státnice odborné č. 20

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

INDUKTIVNÍ STATISTIKA

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Kybernetika a umělá inteligence, cvičení 10/11

Segmentace bankovních zákazníků algoritmem k- means

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)

Statistická teorie učení

Učící se klasifikátory obrazu v průmyslu

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

x T 1 matici & S 1 kovarianční matici &

UČENÍ BEZ UČITELE. Václav Hlaváč

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Rozdělování dat do trénovacích a testovacích množin

DSS a De Novo programming

Neuronové časové řady (ANN-TS)

Příprava dat a) Kontrola dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

Regresní a korelační analýza

Intervalová data a výpočet některých statistik

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

O kurzu MSTU Témata probíraná v MSTU

Vytěžování znalostí z dat

Regresní a korelační analýza

Cvičení 12: Binární logistická regrese

Rozhodovací stromy a jejich konstrukce z dat

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

Kombinování klasifikátorů Ensamble based systems

Předzpracování dat pro data mining: metody a nástroje

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Integrace. Numerické metody 7. května FJFI ČVUT v Praze

Trénování sítě pomocí učení s učitelem

Dolování z textu. Martin Vítek

Získávání znalostí z databází. Alois Kužela

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Měření závislosti statistických dat

Statistická analýza dat

Univerzita Pardubice Fakulta ekonomicko-správní. Využití soft computingu pro redukci atributů v informačním systému. Bc.

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Změkčování hranic v klasifikačních stromech

Kalkulace závažnosti komorbidit a komplikací pro CZ-DRG

Analytické procedury v systému LISp-Miner

Tomáš Karel LS 2012/2013

Úloha - rozpoznávání číslic

Příprava dat v softwaru Statistica

Regresní a korelační analýza

Regresní a korelační analýza

Transkript:

Předzpracování dat Lenka Vysloužilová 1

Metodika CRISP-DM (www.crisp-dm.org)

Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání odvozených příznaků převod typů dat transformace dat do jedné velké tabulky formátování pro jednotlivé modelovací techniky nejpracnější část celého procesu často se provádí opakovaně

Transformace dat do jedné tabulky 1:1 prakticky pouze doplnění tabulky o nové atributy 1:N vytvoření agregovaných hodnot součet, min, max, průměr, regresní křivka majoritní hodnota, počet různých hodnot, výskyt konkrétní hodnoty do této skupiny patří časové řady M:N nutná volba úlohy, zda chceme 1:N nebo 1:M Propozicionalizace

Datová tabulka Sepallength Sepalwidth Petallength Petalwidth Class Filtrování a úprava instancí 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 7.0 3.2 4.7 1.4 Iris-versicolor 6.4 3.2 4.7 1.5 Iris-versicolor 6.9 3.1 4.9 1.5 Iris-versicolor 6.3 3.3 6.0 2.5 Iris-virginica 5.8 2.7 5.1 1.9 Iris-virginica Filtrování a úprava příznaků

ÚPRAVA INSTANCÍ

Náhrada chybějících hodnot nedělat nic, náhrada hodnotou nevím některým algoritmům chybějící hodnoty nevadí, např. rozhodovací stromy Not Available NA ignorovat celou instanci ideální pro data s minimem chybějících hodnot newdata <- na.omit(mydata) náhrada nejčetnější hodnotou průměrem, mediánem replace(x, is.na(x), median(x, na.rm=t)) nalezení nejbližšího souseda využití algoritmu pro modelování

Outliers Výrazně odlišné hodnoty atributu pro danou instanci Outlier pro jeden atribut nemusí být outlier i pro kombinaci atributů a naopak! Boxplot

Vzorkování dat obrovský počet instancí - pro algoritmy pracující v dávkovém režimu nutnost redukce počtu dat tvorba modelů na základě podmnožin a jejich následná kombinace rozdělení dat na trénovací a testovací část nevyvážená data např. třída A 95%, třída B 5% každý objekt patří do majoritní třídy různé ceny chybného rozhodnutí výběr dat pro různé třídy s různou pravděpodobností

ÚPRAVA PŘÍZNAKŮ

Které příznaky mají význam v DM? V případě prediktivních úloh musí jít především o příznaky, jejichž hodnota je známá v okamžiku, kdy chceme predikci provádět. Pozor na anachronické příznaky (anachronistic at.), tj. takové, že nesplňují výše uvedený požadavek. Příklad. Telefonní operátor a predikce těch, co přecházejí k jinému operátorovi. Mezi 500 použitými atributy se ukázal mít velkou prediktivní sílu atribut odpovídající jménu zaměstnance, který dělal s klientem poslední interview. Později se ukázalo, že jiný člověk měl na starosti klienty, kteří projevili zájem odejít.

Diskretizace dat Neinformované metody ekvidistantní intervaly ekvifrekvenční intervaly Informované metody využití znalosti o příslušnosti objekt -> třída strategie rozdělování nebo spojování intervalů

Diskretizace: Ekvidistantní intervaly 64 65 68 69 70 71 72 72 75 75 80 81 83 85 Počet 2 2 4 2 2 2 0 [64,67) [67,70) [70,73) [73,76) [76,79) [79,82) [82,85]

Diskretizace: Ekvidistantní intervaly Nevýhoda: metoda může vytvářet shluky dat Počet [0 200,000). Platy 1 [1,800,000 2,000,000]

Diskretizace: Ekvifrekvenční intervaly 64 65 68 69 70 71 72 72 75 75 80 81 83 85 Počet 4 4 4 2 [64........ 69] [70.. 72] [73................ 81] [83.. 85]

Diskretizace: v závislosti na třídě požadujeme minimálně 3 instance na interval 64 65 68 69 70 71 72 72 75 75 80 81 83 85 Yes No Yes Yes No No No Yes Yes Yes No Yes Yes No A B C 65 85 70 75 80

Normalizace dat Převod numerických hodnot do intervalu <0,1> Numerické atributy a i vi min vi max v min v i v i : aktuální hodnota atributu I i nebo a i vi Avg( vi ) StDev ( v ) i

Odvozené atributy výpočet nového atributu ze stávajících BMI = váha(kg) / výška(m) 2 rodné číslo => věk a pohlaví agregační hodnoty

Redukce počtu příznaků Proč je výběr příznaků důležitý? Extrakce příznaků PCA principal component analysis Selekce příznaků Míru pro měření kvality vybrané podmnožiny příznaků Strategii prohledávání prostoru Metody výběru příznaků

Proč je výběr příznaků důležitý? Vztah mezi výběrem příznaků a strojovým učení (ML) nebo dobýváním znalostí? - Předpokládáme-li, že informace o cílové třídě je implicitně zahrnuta v hodnotách příznaků, pak - Můžeme učinit naivní závěr, že mít více příznaků - je výhodné, neboť tím získáváme => víc informací => větší rozlišovací schopnost. - Praktická zkušenost upozorňuje, že často tomu tak není! - Další doplňkový argument: Optimalizace je (obvykle) výhodná. Proč se tedy nepokusit o optimalizaci kódování vstupu?

Věta o PAC učení rozhodovacího stromu Nechť objekty jsou charakterizovány pomocí n binárních atributů a nechť připouštíme jen hypotézy ve tvaru rozhodovacího stromu s maximální délkou větve k. Dále nechť, jsou malá pevně zvolená kladná čísla blízká 0. Pokud algoritmus strojového učení vygeneruje hypotézu, která je konzistentní se všemi m příklady trénovací množiny a platí m m k-dt (n) c ( n k + ln (1/ )) / pak je -skoro správná hypotéza s pravděpodobností větší než (1- ), t.j. chyba hypotézy na celém definičním oboru konceptu je menší než s pravděpodobností větší než (1- ). PAC učení = Probably Approximately Correct Learning

Prokletí dimensionality Počet trénovacích příkladů m potřebných proto, aby byla vytvořena hypotéza o dostatečné přesnosti roste exponenciálně s počtem atributů! PAC: m > Počet_prvků (Prostor_hypotéz) V praktických úlohách bývá maximální počet trénovacích příkladů pevně dán! => výkon klasifikátoru (classifier performance) výrazně klesá s rostoucím počtem atributů (# of variables)! Velmi často lze docílit toho, že ztráta informace vzniklá vynecháním některých atributů je vyvážena daleko lepšími výsledky klasifikace v prostoru o nižší dimenzi!

2 cesty k redukci dimenze Extrakce příznaků (Feature Extraction) váha(kg) váha / výška Vytvoří nový příznak, který může skupinu jiných nahradit Např. váha/výška Výběr příznaků (Feature Selection) Vybere 1 nebo více příznaků, na které se sosutředí např. zachová p. váha (používá příslušný průmět) V tomto příkladě není klasifikace jednoznačná Weight (kg) výška(cm ) Height (cm) váha(kg)

Principal Component Analysis

Výběr podmnožin příznaků Potřebujeme: Míru pro měření kvality vybrané podmnožiny příznaků (hodnotící funkci) Strategii prohledávání prostoru všech možných podmnožin => Good heuristics are needed! Používané metody: Filtrační metody Wrappers Vnořené metody jsou zabudované do jednotlivých algoritmů strojového učení (např. uvnitř ID3) [9] E. Amaldi, V. Kann: The approximability of minimizing nonzero variables and unsatisfied relations in linear systems. (1997)

Vhodná hodnotící kritéria Pearsonův korelační koeficient R ( f, y) i cov( f, y) var( f ) var( y) i i Odhad pro m vzorků: R( f, y) i m m k 1 f k, i fi yk y m f fi y y k, i k k 1 k 1 2 2

Hodnotící kriterium korelace

Hodnotící kriterium korelace Může být skupina (alespoň 2) příznaků s nízkým hodnocením užitečná? ANO! Je nutné hledat další kriteria

Další hodnotící kriteria Korelace Chi-kvadrát test, entropie, informační míra závislosti vychází z kontingenční tabulky nevýhoda: posuzujeme každý atribut samostatně množiny atributů

Výběr podmnožin příznaků Potřebujeme: Míru pro měření kvality vybrané podmnožiny příznaků Strategii prohledávání prostoru všech možných podmnožin => Good heuristics are needed! Používané metody: Filtrační metody Vybírají podmnožinu příznaků obvykle v rámci předzpracování a nezávisle na tom, jaký bude použit klasifikátor!! Wrappers Wrapper prohledává prostor všech možných podmnožin příznaků a každou zvažovanou podmnožinu hodnotí tak, že její kvalitu otestuje na trénovacích datech s použitím nějakého učicího algoritmu Vnořené metody jsou zabudované do jednotlivých algoritmů strojového učení (např. uvnitř ID3)

Závěrečné poznámky Vhodný výběr příznaků může významně zlepšit výkon při řešení problému strojového učení (přesnost i počítačová náročnost) ale jedná se o náročnou úlohu! Je to cesta k řešení problémů s velmi mnoha atributy Pozor na vztah mezi relevancí a optimalitou (nelze automaticky ignorovat všechny příznaky s malým hodnocením mohou mít význam v kombinaci!). Prostor pro vylepšení? Nový způsob prohledávání prostoru podmnožin příznaků Odhad kvality aktuální množiny příznaků Malé množiny příznaků lze najít i při použití metody boosting (kombinace klasifikátorů) pro klasifikátory s jediným příznakem!