odlehlých hodnot pomocí algoritmu k-means

Podobné dokumenty
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Analýza dat na PC I.

KGG/STG Statistika pro geografy

Vytěžování znalostí z dat

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Modifikace algoritmu FEKM

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Chybějící atributy a postupy pro jejich náhradu

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Vícerozměrné statistické metody

Usuzování za neurčitosti

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Pravděpodobnost, náhoda, kostky

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTICKÉ ODHADY Odhady populačních charakteristik

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Statistická analýza dat

Příprava dat v softwaru Statistica

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Úvodem Dříve les než stromy 3 Operace s maticemi

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pravděpodobnost, náhoda, kostky

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Průzkumová analýza dat

Popisná statistika. Statistika pro sociology

Cvičná bakalářská zkouška, 1. varianta

Robustní odhady statistických parametrů

Národní informační středisko pro podporu kvality

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Předzpracování dat. Lenka Vysloužilová

vzorek vzorek

Lineární regrese. Komentované řešení pomocí MS Excel

Tabulka 1. Výběr z datové tabulky

Dolování asociačních pravidel

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Instance based learning

Metodologie pro Informační studia a knihovnictví 2

Činnost: 1) Vyhodnotí se výraz E. 2) Jeho hodnota se uloží do proměnné V.

PRAVDĚPODOBNOST A STATISTIKA

Popisná statistika kvantitativní veličiny

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

Náhodná veličina X má Poissonovo rozdělení se střední hodnotou lambda. Poissonovo rozdělení je definováno jako. P(X=k) = 0,036

Charakteristika datového souboru

Zkušenosti s použitím metod Counterfactual Impact Evaluation při evaluaci ESF v České republice. Jan Brůha IREAS

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Obsah předmětu

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Laboratorní automatizace - pohled z praxe. Zdeněk Veškrna OKB Nemocnice Znojmo

Metody založené na analogii

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Metodologie pro Informační studia a knihovnictví 2

Semestrální práce z KIV/PRO. Využití Voroného diagramu pro inicializaci K-means

Aplikovaná statistika v R - cvičení 3

Praktická statistika. Petr Ponížil Eva Kutálková

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Univerzita Pardubice 8. licenční studium chemometrie

Chyby měření 210DPSM

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Návrh a vyhodnocení experimentu

Metodologie pro ISK II

Návrh datového skladu z hlediska zdrojů

Shluková analýza dat a stanovení počtu shluků

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Dolování v objektových datech. Ivana Rudolfová

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Diagnostika regrese pomocí grafu 7krát jinak

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Čtvrtek 8. prosince. Pascal - opakování základů. Struktura programu:

Úvod do dobývání. znalostí z databází

Algoritmy pro shlukování prostorových dat

Změna hodnoty pozice v důsledku změn tržních cen.

MATEMATICKÁ STATISTIKA - XP01MST

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Úvod do problematiky měření

Metody analýzy dat I. Míry a metriky - pokračování

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Změna hodnoty pozice v důsledku změn tržních cen.

Nejistota měř. ěření, návaznost a kontrola kvality. Miroslav Janošík

8. Normální rozdělení

Zada ní 1. Semina rní pra ce z pr edme tu Matematický software (KI/MSW)


MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

Charakterizace rozdělení

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Základy teorie odhadu parametrů bodový odhad

Robustní statistické metody

NADSTAVBOVÝ MODUL MOHSA V1

You created this PDF from an application that is not licensed to print to novapdf printer (

0.1 Úvod do matematické analýzy

Poslední nenulová číslice faktoriálu

Transkript:

Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování dat. Konkrétně se seznámíte se základními metodami manipulace s odlehlými a chybějícími hodnotami. 1 Chybějící hodnoty Výskyt chybějících hodnot mívá různé příčiny. Může to být například rozbitý senzor vedoucí k chybějícím hodnotám nebo lidé, kteří odmítli či opomněli vyplnit dotazník, nebo zkrátka nějaký atribut nemá smysl pro jisté druhy objektů (např. atribut gravidita nemá pro samce význam). Je velice důležité identifikovat typ skryté chybějící hodnoty, nebot analýza jinak může vést k nesmyslným závěrům. Nejčastěji se u chybějících hodnot předpokládá, že data chybějí zcela náhodně (Missing Completely At Random). Takovou chybu si lze představit jako náhodnou kaňku na papíře s vytištěnými daty. Naopak chybový model Missing At Random pracuje s předpokladem, že pravděpodobnost chybějící hodnoty závisí na nějaké jiné proměnné. Teploměr vrací chybové hodnoty s pravděpodobností p > 0 pouze při dešti, jinak funguje správně. Nejhorším případem jsou neignorovatelné chybějící hodnoty (Nonignorable Missing Values). Příkladem této situace může být teploměr, který kvůli poškození neměří teploty nižší než 0 C. 1

Imputace Chybějící hodnoty nelze vždy vyloučit. Nejjednodušší způsob je nahradit chybějící hodnotu střední hodnotou u numerického atributu, nebo módem u atributu kategorického. Další možností je použít k nahrazení hodnoty záznam od nejbližšího souseda, tedy záznam, který je nejpodobnější tomu s chybějící hodnotou (např. podle Eukleidovské metriky na zbývajících atributech). 2 Normalizace dat Normalizací pro účely zpracování dat se zpravidla rozumí postup, kterým se snažíme eliminovat nestejný vliv nebo důležitost proměnných. Typickými přístupy jsou min-max normalizace a z-skóre standardizace. min-max normalizace: Pro numerický atribut x kde min x a max x je minimální a maximální hodnota vzorku je min-max normalizace definována následovně: x x min x max x min x Z-skóre standardizace: Pro numerický atribut x kde ˆµ x a ˆσ x jsou střední hodnota a odhad standardní odchylky vzorku je Z-skóre standardizace definována následovně: 3 Odlehlé hodnoty x x ˆµ x ˆσ x Odlehlé hodnoty bývají v zásadě způsobené chybným měřením nebo překlepem. Taková chybná data, nelze-li provést nápravu, je třeba z data setu vyloučit. Nicméně se může stát, že nějaká odlehlá hodnota je ve své podstatě hodnotou správnou a liší se výrazně od ostatních pouze náhodou, a nebo třeba náleží k nějaké výjimečné situaci. Přesto, že takové hodnoty jsou správné, může (ale samozřejmě nemusí) být vhodné je dočasně vyloučit z analýzy a zpracovávat je odděleně. Některé analytické metody jsou robustní proti takovým odlehlým hodnotám, zatímco jiné mohou být značně citlivé a i přítomnost jedné odlehlé hodnoty může vést k nesmyslným závěrům. 2

Odlehlé hodnoty silně závisí na distribuční funkci, ze které byla data navzorkovaná. Při detekci takových hodnot pomocí jediného atributu se u kategorických dat vychází z toho, že se odlehlé hodnoty vyskytují s extrémně malou frekvencí. U numerických atributů je situace složitější. Problém spočívá ve faktu, že u rozsáhlejších datových souborů vždy budou nějaké body označené jako odlehlé. Univariátní odlehlé hodnoty Necht x je aritmetický průměr a s je standardní odchylka náhodného rozdělení dat. Pozorování je deklarováno jako odlehlé, pokud leží mimo interval (x ks, x + ks) kde k je zpravidla 2 nebo 3. Za předpokladu normálního rozdělení tento interval odpovídá 95.45%, resp. 99.75% dat. Tento předpoklad bohužel často nebývá zcela splněn, navíc výpočty aritmetického průměru a standardní odchylky jsou vysoce citlivé právě na odlehlé hodnoty. Multivariátní odlehlé hodnoty U vícerozměrných dat se obvykle nevychází z žádných specifických předpokladů o distribuci. K detekci odlehlých hodnot lze užít techniky redukující dimenzi dat a pokusit se identifikovat odlehlé hodnoty v bodovém grafu, nebo přístupy založené na shlukování, kde jsou jako odlehlé hodnoty označeny takové hodnoty, které nemohou být smysluplně přiřazeny do žádného shluku. Příkladem tohoto přístupu je algoritmus COR [1]. Algoritmus COR IN OUT X data X data without outliers m number of clusters th threshold R number of iterations 3

i 0 repeat i i + 1 len numof Samples(X) P new, C new k means(x, m) {BEGIN: outlier removal} X new X for cluster c X new do if numof Samples(c) > 1 then s max maxdistantsamplef romcentroid(c) s min mindistantsamplef romcentroid(c) distortion distancef romcentroid(s min, c)/distancef romcentroid(s max, c) if distortion < th then P new, C new, X new removesample(s max, X new ) end if else P new, C new, X new removecluster(c, X new ) m m 1 end if end for {END: outlier removal} len new numofsamples(x new ) X X new until i > R len new == len return(x) Zadání práce Vypracujte níže uvedené úkoly do předpřipraveného souboru missing and outlier values.m. Místa pro Vaše řešení jsou v kódu vyznačena. Úkoly 1. Nahrad te chybějící hodnoty metodou nejbližšího souseda. 2. Data z předchozího bodu normalizujte pomocí Z-skóre standardizace. Na bodových grafech diskutujte vliv standardizace na PCA redukci. 4

3. V datech outlier data.mat najděte a odstraňte odlehlé objekty. K tomuto kroku využijte metodu COR. Očekávaný výstup Ad 1. Nahrazení chybějících hodnot podle nejbližšího souseda by mělo na cvičných datech vykazovat mnohem více vizuálně konzistentní výsledky. Nevýhodou tohoto přístupu může být obecně nežádoucí vliv na umístění těžiště dat. Ad 2. Některé algoritmy pro analýzu dat jsou citlivé na relativní měřítko vstupních proměnných. Pokud například máme dvě proměnné, které mají stejnou varianci a jsou pozitivně korelované, PCA nalezne transformaci, které bude natáčet původní prostor o 45. Pokud ale například vynásobíme všechny hodnoty v první proměnné stokrát, pak tranformace bude respektovat téměř výhradně první proměnnou s malým příspěvkem druhé nepozměněné proměnné. Natočení proto bude minimální. Jako výsledek úlohy tedy můžeme očekávat vizuálně viditelnou eliminaci nestejného vlivu proměnných. Ad 3. Cvičná data pro detekci odlehlých hodnot obsahují pět uměle zavedených odlehlých objektů. Tři objekty je možno dobře detekovat univariátními metodami (viz příklad 2). Další dva objekty jsou sice patrně viditelné, ale není možno je odstranit univariátním přístupem. U vícerozměrných dat důležitost multivariátních metod narůstá. Reference [1] Svetlana Cherednichenko. Outlier detection in clustering, 2005. 5