Příprava dat data preprocessing

Podobné dokumenty
Úvodem Dříve les než stromy 3 Operace s maticemi

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Analýza dat na PC I.

5EN306 Aplikované kvantitativní metody I

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

odlehlých hodnot pomocí algoritmu k-means

5EN306 Aplikované kvantitativní metody I

Příprava dat v softwaru Statistica

Vícerozměrné statistické metody

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Vytěžování znalostí z dat

Korelační a regresní analýza

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Základy teorie pravděpodobnosti

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Získávání znalostí z dat

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Měření závislosti statistických dat

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Úvod do dobývání. znalostí z databází

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Renáta Bednárová STATISTIKA PRO EKONOMY

Mnohorozměrná statistická data

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Univerzita Pardubice 8. licenční studium chemometrie

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Přednáška 13 Redukce dimenzionality

Základy pravděpodobnosti a statistiky. Popisná statistika

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Základy popisné statistiky

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

ANALÝZA A KLASIFIKACE DAT

Mnohorozměrná statistická data

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Pořízení licencí statistického SW

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY

vzorek vzorek

Předmluva S o u h rn... 89

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Kontingenční tabulky v Excelu. Představení programu Statistica

Zápočtová práce STATISTIKA I

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistika I (KMI/PSTAT)

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

4. Zpracování číselných dat

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Popisná statistika. Statistika pro sociology

Popisná statistika kvantitativní veličiny

Diagnostika regrese pomocí grafu 7krát jinak

Popisná statistika. Komentované řešení pomocí MS Excel

AVDAT Mnohorozměrné metody metody redukce dimenze

Statistika pro geografy

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Pokročilé neparametrické metody. Klára Kubošová

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Cvičení ze statistiky - 3. Filip Děchtěrenko

Nejčastější chyby v explorační analýze

Pravděpodobnost, náhoda, kostky

Návrh datového skladu z hlediska zdrojů

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Simulace. Simulace dat. Parametry

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Pravděpodobnost a aplikovaná statistika

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Učební plán 4. letého studia předmětu matematiky. Učební plán 6. letého studia předmětu matematiky

Odhad parametrů N(µ, σ 2 )

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Úvod do statistické metodologie

přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Vytěžování znalostí z dat

Regresní analýza 1. Regresní analýza

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Tematický plán Obor: Informační technologie. Vyučující: Ing. Joanna Paździorová

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Pravděpodobnost, náhoda, kostky

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Transkript:

Příprava dat data preprocessing 1

Příprava dat integrace, čištění, transformace, redukce 2

Integrace dat Spojení dat z několika zdrojů do jednoho datového souboru Správně identifikovat záznamy, které k sobě patří Jiné označení nebo hodnoty jednotlivých veličin Jiné jednotky měřených veličin (kg vs lb) Redundance v datech Odstranění duplicit Vytvoření datové matice 3

Datová matice Nutný formát dat pro modelování. 2-rozměrná matice n x p. Řádky reprezentují n statistických jednotek (pozorování). Sloupce reprezentují p statistických proměnných. 4

Čištění dat: Praktické zkušenosti Pokud vaše nová data obsahují více než 30 čísel, tak je v nich skoro jistě nějaká chyba. Čištění a příprava dat zabírá obvykle 80 90 % analytikova času. Pokud budete VELMI pečliví v této fázi, ušetříte si daleko víc času a nervů později jinak stavíte dům na písku. GIGO Garbage in, Garbage out (smetí dovnitř, smetí ven) sebelepší model (proces) nevyrobí ze smetí nic jiného než opět smetí. 5

Co způsobí nekvalitní data Správa nekvalitních/nadbytečných dat Nedoručené zásilky (marketing, fakturace) Nesprávné výsledky zpracování (reporting, analýzy, data mining) Špatné fungování systému (nekompatibilita) Ztráta image, nespokojení klienti 6

Co způsobí nekvalitní data 7

Čištění dat problémy a úkoly neúplná data (incomplete) hodnoty některých veličin nejsou známé (chybějící pozorování) chybná data (noisy) hodnoty některých veličin jsou nesmyslné, nebo mimo obor svých hodnot nekonzistentní data (inconsistent) nesrovnalosti v kódování některých veličin (souvisí s agregací dat) záměrné chyby v datech (intentional) místo chybějící hodnoty defaultní hodnota 8

Čištění dat: Ověření souboru Ověření souboru s daty / zdrojů dat Jsou to správná data (čas vzniku, výzkum )? Jsou kompletní, bez duplicit, umím je číst Zkoumání případů Mají identifikátory? Jsou tyto ID správné? Neopakují se (duplicity)? Existují i skoro duplicity dva podobné, ale ne přesně totožné záznamy o tomtéž subjektu. Nejsou vynechány? 9

Metadata - Ověření proměnných jsou strukturovaná data o datech Zkoumání metadat o proměnných Jsou tam všechny proměnné a správně značené? Je jasné, co znamenají (kódovníky, definice )? Dokumentace OK? Pozor na mezinárodní studie, produkty konsorcií agentur a opakované vlny výzkumů. Jemné nuance metody mohou způsobit hrubý nesoulad! Neopakuje se některá proměnná vícekrát? 10

Čištění dat: Průzkum proměnných Nabývá přípustných hodnot (x out of range)? Divné kódy ( xxx, 9999 ) Duplicitní kódy pro stejnou věc ( Ž, ž, žena, zena ) Kódování češtiny/ruštiny/ Překlepy apod. Editovací distance (např. Levenshteinova) pomohou odhalit překlep Editovací distance = počet elementárních editovacích kroků (vložení, mazání, nahrazení) potřebných pro změnu jednoho řetězce na druhý 11

Čištění dat: Průzkum proměnných Shluky (clumping), typicky kolem zaokrouhlených hodnot Lidé rádi zaokrouhlují směrem nahoru. Nebo třeba kolem hranic věkových kvót, vzniklé tím, jak tazatelé upravují věky respondentů, aby se vešli do kvót. Pozor na kódy časů (amer. x evrop. konvence), formátů datumu, regionů apod.! 12

Chybějící pozorování Důvody: citlivé údaje chyba přístroje lidský faktor odhalena chyba při čištění dat přidání nové proměnné veličina má smysl jen pro některé hodnoty předchozí veličiny 13

Chybějící pozorování mechanismy vzniku MCAR (missing completely at random) nezávisí na chybějící hodnotě ani hodnotách ostatních veličin MAR (missing at random) nezávisí na chybějící hodnotě, ale může záviset na hodnotách ostatních veličin MNAR (missing not at random) závisí na chybějící hodnotě i hodnotách ostatních veličin 14

Chybějící pozorování - řešení vynechání záznamu (pozorování) zejména pokud chybí cílová proměnná, případně pokud chybí větší množství hodnot (nutný předpoklad MCAR): listwise deletion (vynechání celého pozorování) pairwise deletion (ponechat nechybějící hodnoty) pairwise available deletion někdy lze chybějící hodnotu odvodit z ostatních veličin (např. věk z data narození) imputace nahrazení chybějící hodnoty jinou hodnotou 15

Chybějící pozorování - imputace Doplnění nějakou hodnotou z datového souboru: průměrem mediánem metoda maximální věrohodnosti (EM algoritmus) pomocí lineární regrese pomocí lineární regrese + šum Po nahrazení chybějících hodnot těmito technikami se s imputovanými hodnotami pracuje jako s původně pozorovanými. Analýzy tedy vůbec nezohledňují nejistotu spojenou s realizovanými imputacemi. Metody podhodnocují odhady směrodatných odchylek zkoumaných parametrů, užší intervaly spolehlivosti a menší p-hodnoty. 16

Imputace - příklad Zkoumání vztahu mezi IQ (horizontální osa) a hrubou měsíční mzdou (vertikální osa). U všech grafů chybí asi 30% hodnot hrubé měsíční mzdy. 17

Mnohonásobné imputace (multiple imputation) Místo jedné hodnoty je každá chybějící hodnota nahrazena současně několika (m) hodnotami => m modelů. Conditional multiple imputation, joint multiple imputation (nahrazované hodnoty jsou generované z podmíněného nebo sdruženého rozdělení). Každý imputovaný datový soubor vede k jinému odhadu zkoumaného parametru. Sloučení výsledků - souhrnný odhad parametru se vypočítá jako průměr ze všech odhadů. Vedou k nevychýleným odhadům parametrů a jejich směrodatných odchylek při MCAR a MAR. 18

Transformace proměnných Aplikace deterministické funkce na původní proměnné, aby byly splněny předpoklady statistických procedur, nebo pro lepší interpretovatelnost. Normalita dat. Stabilizace rozptylu. Standardizace dat. Vícerozměrné transformace. V širším smyslu: vytváření nových proměnných z původních, třeba i jiného typu. 19

Typy proměnných Kvantitativní (číselné) diskrétní spojité Kvalitativní (slovní, znakové) - nemůžeme je měřit, můžeme ji pouze zařadit do tříd nominální - nelze je smysluplně porovnávat ani seřadit ordinální hodnoty umíme porovnávat, seřadit Kategoriální = kvalitativní + diskrétní 20

Standardizace min-max normalizace: x -> (x-min)/(max-min) Z-score normalizace: x -> (x-prumer)/sd Decimal scaling normalizace : x -> x/10 j, j je nejmenší přirozené číslo aby maximum x /10 j bylo <1. 21

Přiblížení se normalitě logaritmická transformace: x -> log (x) 22

Přiblížení se normalitě mocninná transformace: x -> x k k>1 zdůrazňují se vysoké číselné hodnoty používá se zřídka k<1 vysoké číselné hodnoty se podhodnocují k=0.5 - odmocninová transformace 23

Boxova-Coxova transformace parametr λ lze odhadnout například pomocí metody maximální věrohodnosti 24

Kategorizace (diskretizace) proměnných Ze spojité proměnné chceme vytvořit kategoriální rozdělením hodnot na určité intervaly. Nutné pro některé statistické procedury. Rozdělení podle logické struktury, ze zkušenosti. Histogramová metoda. Rozdělení se stejnou délkou intervalů, nebo se stejnou frekvencí. Pokročilé metody: založené na entropii, shlukování, rozhodovacích stromech. Dělení top-down, nebo bottom-up. 25

Kategorizace proměnných 26

Transformace kategoriálních proměnných Slučování podobných hodnot (věcná podobnost, podobnost hodnot ve vztahu k cílové proměnné, ) Příklad (prodavač prodejce prodavačka) Slučování málo četných hodnot (národnost brazilská ) je třeba sloučit/přiřadit k nějaké(kým) více četné(ným) kategorii(ím) na základě nějakého vhodného kriteria. 27

Transformace kategoriálních proměnných Binarizace (dummy proměnné) Dummy proměnné představují techniku využívající dichotomické proměnné (kódované 0 nebo 1) pro vyjádření jednotlivých hodnot nominálních proměnných. Název dummy poukazuje na fakt, že přítomnost znaku označeného kódem 1 reprezentuje faktor, nebo soubor faktorů, který není měřitelný žádným lepším způsobem v rámci dané analýzy. 28

Dummy proměnné Dummy proměnná přiřazuje hodnotu 1 danému pozorování vybrané proměnné a hodnotu 0 ve zbývajících případech. Pro pohlaví (2 kategorie), např. přiřadí 1 pro ženu a 0 pro muže. V tomto případě je postačující vytvoření právě jedné dummy proměnné. Pro rasu (4 kategorie), je třeba vytvořit více dummy proměnných. P1=1, pokud rasa= běloch a 0 jinak. P2=1, pokud rasa= černoch a 0 jinak. P3=1, pokud rasa= asiat a 0 jinak. P4=1, pokud rasa= ostatní a 0 jinak. Důležité: Všechny 4 proměnné nejsou zahrnuty do modelování (způsobilo by to perfektní multikolinearitu, P4=1-P3-P2-P1). Počet dummy proměnných=počet kategorií -1. Vynechaná proměnná je referenční proměnnou. Konstanta obsahuje informaci o této referenční proměnné. Koeficienty zahrnutých proměnných jsou brány ve vztahu ke konstantě. 29

Redukce datového souboru Cíl: Získat redukovanou reprezentaci původních dat, která má mnohem menší objem, ale má stále (přibližně) stejnou informační hodnotu. Proč? Databáze mohou obsahovat obrovské množství dat, jejichž zpracování a analýza může trvat velmi dlouho. Strategie: - redukce počtu pozorování - redukce dimenze 30

Redukce počtu pozorování Vzorkování (sampling) z celého datového souboru vybereme malý vzorek dat (pozorování), které budeme analyzovat. Výběr musí být reprezentativní. Prostý náhodný výběr. Stratifikovaný náhodný výběr - rozdělení dat na strata, v každém stratu náhodný výběr proporcionálně k celému souboru. 31

Redukce dimenze Prokletí dimenzionality Vyšší dimenze, data stále více a více řidší (sparse) Problémy s odhady hustoty, distribuční funkce, vzdáleností, Počet všech možných podprostorů roste exponenciálně Redukce dimenze Vyhnout se prokletí dimenzionality Eliminovat irelevantní rysy a redukovat šum Snížit časovou a prostorovou náročnost Snazší zobrazení dat Techniky redukce dimenze Waveletovské transformace Analýza hlavních komponent Supervised a nelineární techniky (např. budoucí selekce) 32

Vlnková transformace (wavelet transform) Původně aplikace v teorii signálu detekce nespojitostí signálu a jeho derivací, identifikace okamžitých frekvencí, odstranění šumu, komprese signálů. Zobecnění Fourierovy transformace. Rozkládá signál podle frekvencí do spektra. Komprese: pracujeme jen s malým počtem nejvyšších koeficientů transformace. Zachovává relativní vzdálenosti mezi objekty. Dokáže lépe rozlišit přirozené shluky. Dokáže odhalit odlehlá pozorování. 33

Analýza hlavních komponent (PCA) 1901 Pearson, 1933 Hotelling. Lineární transformace původních proměnných na nové, nekorelované, zvané hlavní komponenty. Celková variabilita dat je zachována. Většina informace o variabilitě dat je soustředěna do první komponenty a nejméně informace je obsaženo v poslední komponentě. Snížení dimenze: užití pouze prvních několik hlavních komponent. Nevyužité hlavní komponenty obsahují malé množství informace, protože jejich rozptyl je příliš malý. 34

PCA geometrická interpretace 35

PCA geometrická interpretace 36

PCA - příklad Ekonomické ukazatele EU: data o 27 zemích EU + Island, Norsko a Švýcarsko, 16 ekonomických ukazatelů: 37

PCA - příklad 38

PCA - příklad 39

PCA - příklad 40

Faktorová analýza (Factor Analysis) Zobecnění metody hlavních komponent. Cíl: původní proměnné napsat jako lineární kombinaci malého počtu obecných (nekorelovaných) faktorů a jednoho faktoru specifického (pro každou proměnnou). Nejednoznačnost výsledku vzhledem k rotaci. Exploratorní, konfirmatorní FA. Kontroverze o ekvivalenci PCA a FA. 41

Faktorová analýza - příklad 42

Faktorová analýza - příklad 43

Faktorová analýza - příklad 44

45

Mnohorozměrné škálování (MDS) PCA a FA vhodné pro spojité veličiny. MDS je vhodné i pro kategoriální veličiny. MDS je metoda založená na zkoumání (ne)podobností mezi objekty. Najít reprezentaci těchto objektů v prostoru nízké dimenze, aby co nejlépe reflektovala vstupní informaci o těchto objektech. Vstupem není datová matice, ale matice nepodobností. Metrické, nemetrické škálování. Nejednoznačnost výsledku vzhledem k posunutí, rotaci a reflexi. 46

Mnohorozměrné škálování (MDS) - příklad Vzdálenosti německých měst. Úkol: Na základě tabulky vzdáleností zrekonstruovat mapu německých měst. 47

Mnohorozměrné škálování (MDS) - příklad 48

Mnohorozměrné škálování (MDS) příklad II 49

Mnohorozměrné škálování (MDS) příklad II 50

Literatura Diplomová práce Tibora Vansy Extrakce informace z mnohorozměrných dat a jejich zobrazování is.cuni.cz/webapps/zzp/detail/49034/13372235/ Wolfgang Härdle, Leopold Simar - Applied Multivariate Statistical Analysis 51