Příprava dat data preprocessing 1
Příprava dat integrace, čištění, transformace, redukce 2
Integrace dat Spojení dat z několika zdrojů do jednoho datového souboru Správně identifikovat záznamy, které k sobě patří Jiné označení nebo hodnoty jednotlivých veličin Jiné jednotky měřených veličin (kg vs lb) Redundance v datech Odstranění duplicit Vytvoření datové matice 3
Datová matice Nutný formát dat pro modelování. 2-rozměrná matice n x p. Řádky reprezentují n statistických jednotek (pozorování). Sloupce reprezentují p statistických proměnných. 4
Čištění dat: Praktické zkušenosti Pokud vaše nová data obsahují více než 30 čísel, tak je v nich skoro jistě nějaká chyba. Čištění a příprava dat zabírá obvykle 80 90 % analytikova času. Pokud budete VELMI pečliví v této fázi, ušetříte si daleko víc času a nervů později jinak stavíte dům na písku. GIGO Garbage in, Garbage out (smetí dovnitř, smetí ven) sebelepší model (proces) nevyrobí ze smetí nic jiného než opět smetí. 5
Co způsobí nekvalitní data Správa nekvalitních/nadbytečných dat Nedoručené zásilky (marketing, fakturace) Nesprávné výsledky zpracování (reporting, analýzy, data mining) Špatné fungování systému (nekompatibilita) Ztráta image, nespokojení klienti 6
Co způsobí nekvalitní data 7
Čištění dat problémy a úkoly neúplná data (incomplete) hodnoty některých veličin nejsou známé (chybějící pozorování) chybná data (noisy) hodnoty některých veličin jsou nesmyslné, nebo mimo obor svých hodnot nekonzistentní data (inconsistent) nesrovnalosti v kódování některých veličin (souvisí s agregací dat) záměrné chyby v datech (intentional) místo chybějící hodnoty defaultní hodnota 8
Čištění dat: Ověření souboru Ověření souboru s daty / zdrojů dat Jsou to správná data (čas vzniku, výzkum )? Jsou kompletní, bez duplicit, umím je číst Zkoumání případů Mají identifikátory? Jsou tyto ID správné? Neopakují se (duplicity)? Existují i skoro duplicity dva podobné, ale ne přesně totožné záznamy o tomtéž subjektu. Nejsou vynechány? 9
Metadata - Ověření proměnných jsou strukturovaná data o datech Zkoumání metadat o proměnných Jsou tam všechny proměnné a správně značené? Je jasné, co znamenají (kódovníky, definice )? Dokumentace OK? Pozor na mezinárodní studie, produkty konsorcií agentur a opakované vlny výzkumů. Jemné nuance metody mohou způsobit hrubý nesoulad! Neopakuje se některá proměnná vícekrát? 10
Čištění dat: Průzkum proměnných Nabývá přípustných hodnot (x out of range)? Divné kódy ( xxx, 9999 ) Duplicitní kódy pro stejnou věc ( Ž, ž, žena, zena ) Kódování češtiny/ruštiny/ Překlepy apod. Editovací distance (např. Levenshteinova) pomohou odhalit překlep Editovací distance = počet elementárních editovacích kroků (vložení, mazání, nahrazení) potřebných pro změnu jednoho řetězce na druhý 11
Čištění dat: Průzkum proměnných Shluky (clumping), typicky kolem zaokrouhlených hodnot Lidé rádi zaokrouhlují směrem nahoru. Nebo třeba kolem hranic věkových kvót, vzniklé tím, jak tazatelé upravují věky respondentů, aby se vešli do kvót. Pozor na kódy časů (amer. x evrop. konvence), formátů datumu, regionů apod.! 12
Chybějící pozorování Důvody: citlivé údaje chyba přístroje lidský faktor odhalena chyba při čištění dat přidání nové proměnné veličina má smysl jen pro některé hodnoty předchozí veličiny 13
Chybějící pozorování mechanismy vzniku MCAR (missing completely at random) nezávisí na chybějící hodnotě ani hodnotách ostatních veličin MAR (missing at random) nezávisí na chybějící hodnotě, ale může záviset na hodnotách ostatních veličin MNAR (missing not at random) závisí na chybějící hodnotě i hodnotách ostatních veličin 14
Chybějící pozorování - řešení vynechání záznamu (pozorování) zejména pokud chybí cílová proměnná, případně pokud chybí větší množství hodnot (nutný předpoklad MCAR): listwise deletion (vynechání celého pozorování) pairwise deletion (ponechat nechybějící hodnoty) pairwise available deletion někdy lze chybějící hodnotu odvodit z ostatních veličin (např. věk z data narození) imputace nahrazení chybějící hodnoty jinou hodnotou 15
Chybějící pozorování - imputace Doplnění nějakou hodnotou z datového souboru: průměrem mediánem metoda maximální věrohodnosti (EM algoritmus) pomocí lineární regrese pomocí lineární regrese + šum Po nahrazení chybějících hodnot těmito technikami se s imputovanými hodnotami pracuje jako s původně pozorovanými. Analýzy tedy vůbec nezohledňují nejistotu spojenou s realizovanými imputacemi. Metody podhodnocují odhady směrodatných odchylek zkoumaných parametrů, užší intervaly spolehlivosti a menší p-hodnoty. 16
Imputace - příklad Zkoumání vztahu mezi IQ (horizontální osa) a hrubou měsíční mzdou (vertikální osa). U všech grafů chybí asi 30% hodnot hrubé měsíční mzdy. 17
Mnohonásobné imputace (multiple imputation) Místo jedné hodnoty je každá chybějící hodnota nahrazena současně několika (m) hodnotami => m modelů. Conditional multiple imputation, joint multiple imputation (nahrazované hodnoty jsou generované z podmíněného nebo sdruženého rozdělení). Každý imputovaný datový soubor vede k jinému odhadu zkoumaného parametru. Sloučení výsledků - souhrnný odhad parametru se vypočítá jako průměr ze všech odhadů. Vedou k nevychýleným odhadům parametrů a jejich směrodatných odchylek při MCAR a MAR. 18
Transformace proměnných Aplikace deterministické funkce na původní proměnné, aby byly splněny předpoklady statistických procedur, nebo pro lepší interpretovatelnost. Normalita dat. Stabilizace rozptylu. Standardizace dat. Vícerozměrné transformace. V širším smyslu: vytváření nových proměnných z původních, třeba i jiného typu. 19
Typy proměnných Kvantitativní (číselné) diskrétní spojité Kvalitativní (slovní, znakové) - nemůžeme je měřit, můžeme ji pouze zařadit do tříd nominální - nelze je smysluplně porovnávat ani seřadit ordinální hodnoty umíme porovnávat, seřadit Kategoriální = kvalitativní + diskrétní 20
Standardizace min-max normalizace: x -> (x-min)/(max-min) Z-score normalizace: x -> (x-prumer)/sd Decimal scaling normalizace : x -> x/10 j, j je nejmenší přirozené číslo aby maximum x /10 j bylo <1. 21
Přiblížení se normalitě logaritmická transformace: x -> log (x) 22
Přiblížení se normalitě mocninná transformace: x -> x k k>1 zdůrazňují se vysoké číselné hodnoty používá se zřídka k<1 vysoké číselné hodnoty se podhodnocují k=0.5 - odmocninová transformace 23
Boxova-Coxova transformace parametr λ lze odhadnout například pomocí metody maximální věrohodnosti 24
Kategorizace (diskretizace) proměnných Ze spojité proměnné chceme vytvořit kategoriální rozdělením hodnot na určité intervaly. Nutné pro některé statistické procedury. Rozdělení podle logické struktury, ze zkušenosti. Histogramová metoda. Rozdělení se stejnou délkou intervalů, nebo se stejnou frekvencí. Pokročilé metody: založené na entropii, shlukování, rozhodovacích stromech. Dělení top-down, nebo bottom-up. 25
Kategorizace proměnných 26
Transformace kategoriálních proměnných Slučování podobných hodnot (věcná podobnost, podobnost hodnot ve vztahu k cílové proměnné, ) Příklad (prodavač prodejce prodavačka) Slučování málo četných hodnot (národnost brazilská ) je třeba sloučit/přiřadit k nějaké(kým) více četné(ným) kategorii(ím) na základě nějakého vhodného kriteria. 27
Transformace kategoriálních proměnných Binarizace (dummy proměnné) Dummy proměnné představují techniku využívající dichotomické proměnné (kódované 0 nebo 1) pro vyjádření jednotlivých hodnot nominálních proměnných. Název dummy poukazuje na fakt, že přítomnost znaku označeného kódem 1 reprezentuje faktor, nebo soubor faktorů, který není měřitelný žádným lepším způsobem v rámci dané analýzy. 28
Dummy proměnné Dummy proměnná přiřazuje hodnotu 1 danému pozorování vybrané proměnné a hodnotu 0 ve zbývajících případech. Pro pohlaví (2 kategorie), např. přiřadí 1 pro ženu a 0 pro muže. V tomto případě je postačující vytvoření právě jedné dummy proměnné. Pro rasu (4 kategorie), je třeba vytvořit více dummy proměnných. P1=1, pokud rasa= běloch a 0 jinak. P2=1, pokud rasa= černoch a 0 jinak. P3=1, pokud rasa= asiat a 0 jinak. P4=1, pokud rasa= ostatní a 0 jinak. Důležité: Všechny 4 proměnné nejsou zahrnuty do modelování (způsobilo by to perfektní multikolinearitu, P4=1-P3-P2-P1). Počet dummy proměnných=počet kategorií -1. Vynechaná proměnná je referenční proměnnou. Konstanta obsahuje informaci o této referenční proměnné. Koeficienty zahrnutých proměnných jsou brány ve vztahu ke konstantě. 29
Redukce datového souboru Cíl: Získat redukovanou reprezentaci původních dat, která má mnohem menší objem, ale má stále (přibližně) stejnou informační hodnotu. Proč? Databáze mohou obsahovat obrovské množství dat, jejichž zpracování a analýza může trvat velmi dlouho. Strategie: - redukce počtu pozorování - redukce dimenze 30
Redukce počtu pozorování Vzorkování (sampling) z celého datového souboru vybereme malý vzorek dat (pozorování), které budeme analyzovat. Výběr musí být reprezentativní. Prostý náhodný výběr. Stratifikovaný náhodný výběr - rozdělení dat na strata, v každém stratu náhodný výběr proporcionálně k celému souboru. 31
Redukce dimenze Prokletí dimenzionality Vyšší dimenze, data stále více a více řidší (sparse) Problémy s odhady hustoty, distribuční funkce, vzdáleností, Počet všech možných podprostorů roste exponenciálně Redukce dimenze Vyhnout se prokletí dimenzionality Eliminovat irelevantní rysy a redukovat šum Snížit časovou a prostorovou náročnost Snazší zobrazení dat Techniky redukce dimenze Waveletovské transformace Analýza hlavních komponent Supervised a nelineární techniky (např. budoucí selekce) 32
Vlnková transformace (wavelet transform) Původně aplikace v teorii signálu detekce nespojitostí signálu a jeho derivací, identifikace okamžitých frekvencí, odstranění šumu, komprese signálů. Zobecnění Fourierovy transformace. Rozkládá signál podle frekvencí do spektra. Komprese: pracujeme jen s malým počtem nejvyšších koeficientů transformace. Zachovává relativní vzdálenosti mezi objekty. Dokáže lépe rozlišit přirozené shluky. Dokáže odhalit odlehlá pozorování. 33
Analýza hlavních komponent (PCA) 1901 Pearson, 1933 Hotelling. Lineární transformace původních proměnných na nové, nekorelované, zvané hlavní komponenty. Celková variabilita dat je zachována. Většina informace o variabilitě dat je soustředěna do první komponenty a nejméně informace je obsaženo v poslední komponentě. Snížení dimenze: užití pouze prvních několik hlavních komponent. Nevyužité hlavní komponenty obsahují malé množství informace, protože jejich rozptyl je příliš malý. 34
PCA geometrická interpretace 35
PCA geometrická interpretace 36
PCA - příklad Ekonomické ukazatele EU: data o 27 zemích EU + Island, Norsko a Švýcarsko, 16 ekonomických ukazatelů: 37
PCA - příklad 38
PCA - příklad 39
PCA - příklad 40
Faktorová analýza (Factor Analysis) Zobecnění metody hlavních komponent. Cíl: původní proměnné napsat jako lineární kombinaci malého počtu obecných (nekorelovaných) faktorů a jednoho faktoru specifického (pro každou proměnnou). Nejednoznačnost výsledku vzhledem k rotaci. Exploratorní, konfirmatorní FA. Kontroverze o ekvivalenci PCA a FA. 41
Faktorová analýza - příklad 42
Faktorová analýza - příklad 43
Faktorová analýza - příklad 44
45
Mnohorozměrné škálování (MDS) PCA a FA vhodné pro spojité veličiny. MDS je vhodné i pro kategoriální veličiny. MDS je metoda založená na zkoumání (ne)podobností mezi objekty. Najít reprezentaci těchto objektů v prostoru nízké dimenze, aby co nejlépe reflektovala vstupní informaci o těchto objektech. Vstupem není datová matice, ale matice nepodobností. Metrické, nemetrické škálování. Nejednoznačnost výsledku vzhledem k posunutí, rotaci a reflexi. 46
Mnohorozměrné škálování (MDS) - příklad Vzdálenosti německých měst. Úkol: Na základě tabulky vzdáleností zrekonstruovat mapu německých měst. 47
Mnohorozměrné škálování (MDS) - příklad 48
Mnohorozměrné škálování (MDS) příklad II 49
Mnohorozměrné škálování (MDS) příklad II 50
Literatura Diplomová práce Tibora Vansy Extrakce informace z mnohorozměrných dat a jejich zobrazování is.cuni.cz/webapps/zzp/detail/49034/13372235/ Wolfgang Härdle, Leopold Simar - Applied Multivariate Statistical Analysis 51