Chybějící atributy a postupy pro jejich náhradu

Podobné dokumenty
Doplňování chybějících hodnot v kategoriálních datech 2.00

odlehlých hodnot pomocí algoritmu k-means

Dolování asociačních pravidel

Moderní systémy pro získávání znalostí z informací a dat

Pravděpodobně skoro správné. PAC učení 1

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Dolování z textu. Martin Vítek

Algoritmy a struktury neuropočítačů ASN - P11

Omezení barevného prostoru

Inovace tohoto kurzu byla spolufinancována z Evropského sociálního fondu a státního rozpočtu České republiky.

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Aplikace vytěžování dat

Lineární klasifikátory

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Usuzování za neurčitosti

Automatizace je proces při němž je řídicí funkce člověka nahrazována činností

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Opravný list k diplomové práci ERRATA


Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Neuronové sítě v DPZ

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Překladač a jeho struktura

Metody založené na analogii

Algoritmy a datové struktury

Automatické vyhledávání informace a znalosti v elektronických textových datech

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Databáze I. 4. přednáška. Helena Palovská

Analytické procedury v systému LISp-Miner

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

VZÁJEMNÁ POLOHA DVOU PŘÍMEK V ROVINĚ

SDĚLENÍ Ministerstva pro místní rozvoj ze dne 12. června 2009

Direct Digital Synthesis (DDS)

Test č.1 Porozumění zadání úloh

Úloha - rozpoznávání číslic

Konvolučníkódy. MI-AAK(Aritmetika a kódy)

Kombinatorická minimalizace

Stavový model a Kalmanův filtr

Statistická teorie učení

Kybernetika a umělá inteligence, cvičení 10/11

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

Funkce rostoucí, funkce klesající II

ANALÝZA A KLASIFIKACE DAT

Milí rodiče a prarodiče,

Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup

Jana Vránová, 3. lékařská fakulta UK

Autodiagnostika učitele

Autor práce: Mgr. Romana Klímová ARO, Slezská nemocnice Opava Vedoucí práce: PhDr. Sabina Psennerová, Ph.D. LF, Ostravská univerzita v Ostravě

Předzpracování dat. Lenka Vysloužilová

Začátek budování sítě, současný stav, návrh rozvoje, problémy při stavbách dálnice, ekologické aspekty

Využití metod strojového učení v bioinformatice David Hoksza

Postup měření při stanovení radonového indexu pozemku

SOUHRNNÉ VÝSLEDKY ZPĚTNÝCH VAZEB NA PACIENTSKÝ PROGRAM AD VITAM

Jak postavit nízkoenergetický dům - Průkaz energetické náročnosti nízkoenergetických budov

SOFTWAROVÉ INŽENÝRSTVÍ

OSA. maximalizace minimalizace 1/22

Jednoznačná identifikace jako předpoklad funkčního e-health. Martin Pavlík

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Vytěžování znalostí z dat

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Straumann CARES Visual 8.9

11. Tabu prohledávání

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Univerzita Pardubice 8. licenční studium chemometrie

Aplikace obrazové fúze pro hledání vad

Integrovaný Ekonomický Systém Účetnictví - IES WIN Úvod...5

7. Rozdělení pravděpodobnosti ve statistice

Klasifikace hudebních stylů

Prodejní ceny zemního plynu Pražské plynárenské, a. s., platné od 1. ledna 2014 pro zákazníky kategorie Maloodběratel a Domácnost

ZPRACOVÁNÍ DAT DÁLKOVÉHO PRŮZKUMU

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

PRINCIPY OPERAČNÍCH SYSTÉMŮ

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Prodejní ceny zemního plynu Pražské plynárenské, a. s., platné od 1. ledna 2015 pro zákazníky kategorie Maloodběratel a Domácnost

Jednoznačná identifikace jako předpoklad funkčního e-health. Matěj Adam

Lokační referenční metody a jejich interpretace ve standardech

S databázemi se v běžném životě setkáváme velmi často. Uvádíme běžné použití databází velkého rozsahu:

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Vývojové diagramy - zápis algoritmu

Prodejní ceny zemního plynu Pražské plynárenské, a. s., platné od 1. ledna 2016 pro zákazníky kategorie Maloodběratel a Domácnost

ODR metody Runge-Kutta

GEODETICKÉ VÝPOČTY I.

0.1 Úvod do lineární algebry

Kartografické modelování. VIII Modelování vzdálenosti

Lineární regrese. Komentované řešení pomocí MS Excel

METODY ŘEŠENÍ ÚLOH MX2M

P = 1;3;3; 4; Množiny. Předpoklady:

6 Samodružné body a směry afinity

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

PODPROGRAMY PROCEDURY A FUNKCE

Spojování rezistorů I

1 0 0 u 22 u 23 l 31. l u11

Kalibrační proces ve 3D

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Mgr. Tomáš Kotler. I. Cvičný test 2 II. Autorské řešení 7 III. Klíč 15 IV. Záznamový list 17

Network Management Software

VÝBĚR A JEHO REPREZENTATIVNOST

Náhodné chyby přímých měření

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Transkript:

Chybějící atributy a postupy pro jejich náhradu

Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage in, garbage out! Jaké kroky se používají při čištění dat? Řešení problému chybějících údajů Identifikace mimořádných hodnot (outliers) a vyhlazení zašuměných dat Oprava nekonzistentních údajů v datech Řešení redundancí vzniklých při integraci dat 2

(diagnoza chřipka?) 1 zvýšená? ne ano 3? ne ne ne Z jakých důvodů mohou data chybět? 5 zvýšená? ano ne 8? ano? ano Bylo zbytečné je zjišťovat, neboť rozhodnutí lze udělat i bez nich nebo v daném případě nemají smysl (např. spotřeba u bezmotorového dopravního prostředku) : data jsou pak označovány jako údaje, o které nestojíme ( do not care ) Jedná se o ztracené údaje, tedy ty hodnoty, které 3 se nepodařilo zjistit z neznámých důvodů, byly omylem vymazány, šlo o evidentní překlep,.

Způsoby řešení problému chybějících atributů Sekvenční metody jsou součástí předzpracování dat. Jejich cílem je ze souboru s nekompletními daty vytvořit nový soubor, který je úplný: příslušné případy mohou být vynechány nebo naopak v nich chybějící data doplněna. Paralelní metody řeší problém chybějících hodnot až v průběhu nasazení algoritmu strojového učení (např. při hledání příslušných rozhodovacích pravidel) 4

5 SEKVENČNÍ METODY

1. Vynechání neúplných příkladů Nejjednodušší řešení. Ovšem tím se připravíme o významnou část cenných dat: z původní množiny případů může zbýt malý díl (zde jen polovina!) (diagnoza chřipka?) 6

2a. Náhrada nejobvyklejší hodnotou Pro všechny atributy se zjistí relativní frekvence jednotlivých hodnot a pro náhradu se zvolí hodnota s nejvyšší frekvencí, viz příklad: : zvýšená (3/8), normální (2/8), vysoká (1/8) _: ano (4/8), ne (2/8) : ano (4/8), ne (3/8) 1 zvýšená? ne ano 3? ne ne ne 5 zvýšená? ano ne 8? ano? ano 1 zvýšená ano ne ano 3 zvýšená ne ne ne 7 Výsledek náhrady Přístup použitý např. v algoritmu CN2 5 zvýšená anp ano ne 8 zvýšená ano ano ano

2b. Náhrada nejobvyklejší hodnotou vzhledem ke klasifikaci případu Při nahrazování hodnoty pro případ, který je klasifikován do třídy c1, se vybírá nejfrekventovanější odpověď zjištěná jenom mezi případy dané třídy c1. Např. pro pacienty 3 a 5 zařazené do třídy diagnóza chřipka ne musíme zjistit frekvence výskytu hodnot mezi pacienty {3,5,6,7}: : zvýšená (1/4), normální (2/4), vysoká (0/4) _: ano (1/4), ne (2/4) Tato náhrada není použita pro pacienty 1 a 8, pro něž musíme naopak zjišťovat relativní frekvenci výskytů v množině pacientů {1,2,4,8}, tedy: _: ano (3/4), ne (0/4) : ano (2/4), ne (1/4) 1 zvýšená? Ne ano 2 vysoká ano Ano ano 3? ne Ne ne 5 zvýšená? ano ne 8? ano? ano 1 zvýšená ano ne ano 2 vysoká Ano ano ano 3 normální ne ne ne 8 Výsledek náhrady Použito např. v ASSISTANT (Kononenko et. al., 1984) 5 zvýšená ne ano ne 8 zvýšená ano ano ano

3. Náhrada všemi možnými hodnotami daného atributu 1 zvýšená? ne ano 3? ne ne ne Každý případ (pacient) je popsán více alternativními vektory údajů. Výsledná data mohou být nekonzistentní (např. řádky 1 a 3 ) - vhodné jen pro metody stroj. učení, které s tím dovedou pracovat (např. užívající rough sets theory). Opět jsou 2 přístupy: 5 zvýšená? ano ne 8? ano? ano každá možná hodnota chybějícího atributu je použita 1 zvýšená ano ne ano 1 zvýšená ne ne ano 3 zvýšená ne ne ne 3 vysoká ne ne ne 3 normální ne ne ne každá možná hodnota chybějícího atributu v dané klasifikační třídě je použita: Např. u pacienta 1 tedy není použita náhrada hodnotou ne, která pro třídu diagnóza chřipka ano, tj. pro pacienty { 1,2,4,8 } není nikdy v datech použita. Dále u pacienta 3 tedy není použita náhrada hodnotou vysoká, která pro třídu diagnóza chřipka ne, tj. pro pacienty {3,5,6,7} není nikdy v datech použita. 9 1 zvýšená ano ne ano 3 zvýšená ne ne ne 3 normální ne ne ne

4. Náhrada průměrem (u spoj.dat) nebo nejčastější hodnotou Průměrná hodnota pro teplotu je 37,4 o C pro celý soubor. 37,9 o C pro data klasifikovaná diagnóza chřipka ano, 36,4 o C pro diagnóza chřipka ne. 1 37,5? ne ano 2 39,1 ano ano ano 3? ne ne ne 4 37,2 ano ano ano 5 37,6? ano ne 6 36,2 ano ne ne 7 36,7 ne ano Ne 8? ano? ano 1 37,5 ano ne ano Opět jsou 2 přístupy: 2 39,1 ano ano ano 3 37,4 ne ne ne 4 37,2 ano ano ano Náhrada je provedena pomocí průměru na celém souboru 5 37,6 ano ano ne 1 37,5 ano ne ano 10 Pro náhradu se používají hodnoty průměru v příslušné klasifikační třídě. 2 39,1 ano ano ano 3 36,4 ne ne ne 4 37,2 ano ano ano 5 37,6 ano ano ne

5. Náhrada hodnotou nejbližšího souseda Vzdále 2 vzorků x a y popsaných n atributy, jejichž některé hodnoty mohou chybět: n distance(x, y)= distance(x i, y i ), kde i = i 1 1 37,5? ne ano 2 39,1 ano ano ano 3? ne ne ne 4 37,2 ano ano ano 5 37,6? ano ne 6 36,1 ano ne ne 7 36,7 ne ano ne 8? ano? ano { 0 pokud x i = y i distance(x i, y i ) 1 pokud hodnoty x i a y i jsou výčtového typu nebo jedna z nich chybí x i - y i /r i jinak (tedy jde o reálné hodnoty s rozsahem r i, odpovídajícímu rozdílu mezi max a min hodnotou) a) Postup náhrady hodnoty atributu bolest pro vzorek 1 přes všechna data: Postup náhrady hodnoty atributu bolest pro vzorek 1 d(1,2) d(1,3) d(1,4) d(1,5) d(1,6) d(1,7) d(1,8) 1. Vypočti vzdálei vzorku 1 od ostatních. 2. Vyber nejbližší (je jím???) 3. Jeho hodnotu (???) použij jako náhradu pro vzorek 1. 1 37,5 ano ne ano 11 b) Obdobně lze postupovat také jen uvnitř jediné třídy! 2 39,1 ano ano ano 3 36,4 ne ne ne 4 37,2 ano ano ano

12 PARALELNÍ METODY