ANALÝZA VÍCEROZMĚRNÝCH DAT



Podobné dokumenty
DEFINICE TLAKŮ A JEJICH VZÁJEMNÝ VZTAH PŘI KONSTRUOVÁNÍ A ZKOUŠENÍ HLAVNÍ DĚL, MINOMETŮ A MUNICE

EFEKTIVNÍ TERMOMECHANICKÉ VLASTNOSTI ZDIVA

Pravděpodobnost a matematická statistika

FAKULTA STAVEBNÍ GEODÉZIE, KARTOGRAFIE A GEOINFORMATIKA

Prognózování vzdělanostních potřeb na období 2008 až stav modelu a aktuální prognóza

Kapitola VIII. CHYBĚJÍCÍ A ODLEHLÉ HODNOTY. Luděk Dohnal. Chybějící a odlehlé hodnoty 43

Analýza celoživotního dopadu. veřejného důchodového pojištění. v České republice

Numerické metody pro nalezení

Model ideální sítě škol

Sdružení požárního a bezpečnostního inženýrství se sídlem VŠB - Technická univerzita Ostrava. Kartografie

Open Access Repository eprint

Řízení vztahů se zákazníky a tvorba hodnoty a přidané hodnoty produktu

Materiál od ing. Pinkasové

FAKULTA ELEKTROTECHNICKÁ

Základní pojmy termodynamiky

Nesprávná užívání statistické významnosti a jejich možná řešení*

METODIKA STANOVENÍ PRAHOVÝCH HODNOT PRO PODZEMNÍ VODU V INTERAKCI S POVRCHOVOU VODOU

Možnosti analýzy a hodnocení dopravní dostupnosti

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Dendrometrie Garant předmětu : Doc.Ing.Josef Sequens, Csc.

MAPOVÁNÍ ZMĚN ZÁSTAVBY S VYUŽITÍM DAT DPZ

1 Nástroje používané v mikroekonomii

České vysoké učení technické v Praze Fakulta stavební Katedra mapování a kartografie DIPLOMOVÁ PRÁCE. Filip Antoš

NABÍDKA PRACOVNÍCH SIL

Indikátory kvality dynamiky vývoje na všech úrovních ekonomiky.

Srovnatelnost skupin pacientů v observačních a klinických studiích Bakalářská práce

Manuál pracovních postupů v GIS pro oblast sociálního výzkumu a sociální práci

Stavební materiály jako zdroj radonu a gama záření

STUDIUM FAKTORŮ OVLIVŇUJÍCÍCH OZONU. MALEC a VIKTOR TEKÁČ. Experimentální část

1. 1 V Z N I K A V Ý V O J A T O M O V É T E O R I E

Transkript:

ANALÝZA VÍCEROZMĚRNÝCH DAT JIŘÍ MILITKÝ, Katedra textilních ateriálů, Technická universita v Liberci, Hálkova 6 461 17 Liberec, e- ail: jiri.iliky@vslib.cz Motto: Všechno není jinak MILAN MELOUN, Katedra analytické cheie, Universita Pardubice, Pardubice Abstrakt: Jsou popsány základní probléy vznikající v důsledku použití vícerozěrných dat. Je pojednáno o vybraných projekcích pro obecně korelovaná data a jsou uvedeny některé ožnosti snižování diense ve statistické analýze vícerozěrných dat. 1.Úvod Jední ze základních rysů vícerozěrných dat je jejich rozěr (diense), která koplikuje jak jejich statistickou tak i průzkuovou analýzu. Pro znázornění vícerozěrných dat je pak třeba hledat vhodné projekce, velikosti výběrů usí být značně větší než u jednorozěrných dat a řada statistických technik naráží na obtíže. Je tedy vždy účelné uvažovat o redukci dat, která ůže být výhodná zejéna pokud platí, že: a) řada proěnných á variabilitu na úrovní šuu takže jsou s ohlede na statistickou analýzu nadbytečná. b) V datech existují výrazné lineární vazby (korelace), které jsou způsobeny buď použití redundantních proěnných nebo vazbai vyplývající i z jejich podstaty. Tyto proěnné lze často bez újy na přesnosti nahradit podstatně enší počte proěnných, které jsou již nekorelované. Základní důvode pro redukci počtu proěnných však ůže být tzv. prokletí vícerozěrnosti (ultivariate curse), které se projevuji již v to, že počet dat potřebných k zachování stejné přesnosti při odhadu funkce několika proěnných je exponenciálně rostoucí funkcí jejich počtu. V případě vícerozěrných dat se také vyskytuje problé tzv. prázdného prostoru, který klade další nároky na zvětšování velikosti výběru. Saostatný problée je vyjádření vzdálenosti, které se používá v řadě etod jak průzkuové tak i konfirativní statistické analýzy dat. Místo klasické Eukleidovské vzdálenosti je výhodné použít vzdálenost Mahalanobisovu, která bere v úvahu i korelační vazby.

Tento příspěvek je zaěřen na diskusi ke tře výše zíněný probléů vícerozěrné statistické analýzy dat, tedy: 1. Důsledky růstu diense vícerozěrných dat. Snižování rozěrnosti dat 3. Vybrané projekce vícerozěrných dat Protože je snahou deonstrovat základní a přito opoíjené skutečnosti je oezen ateatický aparát resp. citování původních prací. Čtenář nalezne oboje v knihách [1-5].. Základní postupy Vyjděe z jednoduchého zadání, kdy je k dispozici pro n objektů (bodů) celke znaků (proěnných) vyjádřených v kardinální škále. Zdrojová atice X á rozěr n, kde standardně platí, že n je podstatně vyšší než. Předpokládeje, že veličina definuje diensi probléu (určující počet znaků). Před vlastní aplikací vhodné etody vícerozěrné statistické analýzy je třeba vždy provést exploratorní (průzkuovou) analýzu dat, která uožňuje: (a) posoudit podobnost objektů resp. jejich tendenci ke shlukování, (b) nalézt vybočující objekty, resp. jejich znaky, (c) stanovit, zda lze použít předpoklad lineárních vazeb, (d) ověřit předpoklady o datech (noralitu, nekorelovanost, hoogenitu). Pro účely průzkuové analýzy vícerozěrných dat se používá různých technik, uožňujících jejich grafické zobrazení ve dvourozěrné souřadnicové systéu a u novějších výpočetních prostředků i v třírozěrné souřadnicové systéu. Toto zobrazení uožňuje zejéna: a) identifikaci objektů nebo jejich složek, které se jeví jako vybočující, b) indikaci různých struktur v datech, které ukazují na heterogenitu použitého výběru nebo přítonost různých dílčích výběrů s odlišný chování. Na základě těchto inforací a výsledků testů norality (příp. grafických ekvivalentů těchto testů) pak ůže být před vlastní statistickou analýzou provedena řada různých korekcí, vedoucích k odstranění nehoogenity výběru a přiblížení se k vícerozěrné noralitě. Většina používaných technik pro zobrazení vícerozěrných dat se dá zařadit do jedné ze dvou základních skupin, a to zobecněné rozptylové diagray nebo sybolové grafy.

Pro základní případ dvojice náhodných znaků ( = ) lze snadno a bez zkreslení konstruovat rozptylové grafy, které uožňují sledovat statistické zvláštnosti dat. Je ožné použít i histogray, neparaetrické odhady hustoty a jiné grafy pro konstrukci výběrového rozdělení nebo jeho porovnání s rozděleníi teoretickýi. Probléy však nastávají u vícerozěrných dat pro >, kdy je ožno buď volit několik různých grafů či vhodný způsobe provést redukci na dvou dienzionální data. V obou případech nelze vyloučit zkreslení způsobené vícerozěrný charaktere dat, které ůže vést k ylný závěrů. Jednoduchou ožnost dvourozěrného zobrazení -rozěrných dat představují profily. Každý bod x i je zde charakterizován vertikálníi úsečkai nebo sloupci. Jejich velikost je úěrná hodnotě odpovídající složky x ij j = 1,...,. Na x-ovou osu se vynáší index dané složky j. Profil pak vzniká spojení koncových bodů těchto úseček či sloupců. Je vhodné použít škálované znaky kde ax ax abs(x ij ) je axiální hodnota absolutní velikosti složky x j vektoru x přes všechny body, i = 1,..., n. Profily jsou jednoduché a uožňují určení rozdílů ezi jednotlivýi body x i, x k i v dílčích složkách. Snadno lze tedy identifikovat vybočující složku objektu, respektive skupiny objektů, s prakticky shodný chování. Ke zjednodušení interpretace a oezení artefaktů se často používá rozptylových grafů v odifikovaných souřadnicích, které souvisí se zavedení tzv. latentních proěnných resp. vhodnou projekcí vícerozěrných dat do dvou dienzí. Z řady různých technik, jsou veli často využívány techniky založené na etodě hlavních koponent, která je vhodná pro případy, kdy jsou sloupce atice X silně korelovány. 3. Vícerozěrná geoetrie Výše uvedené a řada dalších postupů grafického zobrazení dat ohou být pro případ většího počtu znaků (větší rozěrnosti úlohy) oezeně použitelné. To lze snadno deonstrovat na případu dat která se budou koncentrovat v diensionální prostoru io jeho souřadnice. Vyjděe z představy, že data leží v hyper-krychli [ 1,1] na diagonální vektoru v vycházející ze středu a končící v její rohu. Úhel ezi títo vektore a souřadnicovou osou ei je roven v * ei ± 1 cosθ i = = (1) v * e i Je zřejé, že pro dostatečně vysoké vyjde tento kosínus přibližně roven nule a tedy, diagonální vektory budou přibližně kolé na všechny souřadné osy. Při použití rozptylových diagraů se pak shluky bodů ležících ve sěru těchto diagonálních vektorů proítnou do počátku a nebude je ožné je

identifikovat. Naopak shluky bodů ležící přibližně ve sěrech jednotlivých os se v rozptylových diagraech proítnou prakticky ne zkresleně. Další problée související s vícerozěrnýi daty je fenoén koncentrace objeu, který není zřejý z klasického 3 diensionální geoetrie. Lze dokázat, že obje hyper-koule poloěru r v rozěrné prostoru á tvar Vk / π = r Γ( / + 1) () Pro obje hyper kryche o velikosti strany r platí, že Vh = * r (3) Předpokládeje hyper- kouli vepsanou do hyper-krychle. Poěr objeů pak bude roven Vk Vh / = π 0 pro Γ + * ( / 1) (4) S rostoucí rozěrností se tedy obje hyper-krychle koncentruje v rozích a střední část je álo obsazená. Na obr. 1. je poěr objeů znázorněn graficky. Obr. 1. Vliv diense prostoru na poěr objeů krychle a vepsané koule.

Je patrné, že už pro = 8 je obje koule zanedbatelně alý vůči objeu krychle. To znaená, že se i data ve vícerozěrné prostoru budou koncentrovat spíše v oblasti konců než středu a bude potřeba ít dostatečně veliké výběry aby se data význanou ěrou vyskytovala i o oblastech blízko ódu. Dobře e to patrné při použití vícerozěrného norálního rozdělení s nulový vektore středních hodnot a jednotkovou kovarianční aticí. Na obr. je znázorněna závislost velikosti distribuční funkce vícerozěrného stadardizovaného norálního rozdělení v ístě x= (1, 1,1.1) Obr. Závislost distribuční funkce vícerozěrného norálního rozdělení v ístě x= (1, 1,1.1) na jeho diensi Připoeňe, že hodnota distribuční funkce odpovídá pravděpodobnosti s jakou leží náhodná veličina pod zadaný vektore x. Z obr. je patrné, že tato pavděpodobnost poěrně význaně klesá s růste. To indikuje, že se v centrální oblasti výrazně snižuje pravděpodobnost výskytu náhodné veličiny Naopak, v oblasti konců rozdělení tato pravděpodobnost výrazně roste. Na obr. 3 je e znázorněna závislost velikosti distribuční funkce vícerozěrného stadardizovaného norálního rozdělení v ístě x= (,,.). Je opět patrný pokles pravděpodobnosti s růste, který deonstruje, že se obje hroadí v oblasti krajů. Z předpokladů nezávislých složek náhodného vektoru x ajícího standardizované vícerozěrné norální rozdělení resultuje znáý výsledek, že

součet čtverců složek á chí kvadrát rozdělení. Obr. 3 Závislost distribuční funkce vícerozěrného norálního rozdělení v ístě x= (,,.) na jeho diensi Tedy x x i i= 1 = χ (5) Protože je střední hodnota rovna nulovéu vektoru definuje tato nora čtverec vícerozěrné vzdálenosti. Pro výpočet pravděpodobnosti výskytu vícerozěrné náhodné veličiny v hyper kouli s počátke v nule a poloěre r pak platí, že. P( x r) = P( χ r) (6) Z tohoto vztahu lze tedy snadno určit pravděpodobnost s jakou se data budou vyskytovat v centrální oblasti. Na obr. 4 je znázorněna závislost výskytu vícerozěrné norálně rozdělené náhodné veličiny v oblasti o poloěru 3. na diensi náhodné veličiny. Je patrný rychlý pokles sěre k nule. To ukazuje, že pro případy od = 8 bude třeba počítat s tí, že výskyt hodnot jednotlivých objektů v oblastí středu je álo pravděpodobný.může se tedy snadno stát, zejéna pro enší,

že celý výběr bude ležet v oblasti konců. Proti běžné intuici zde tedy dochází k výraznéu posílení vlivu konců rozdělení na úkor centra. Obr. 4 Pravděpodobnosti výskytu vícerozěrné, norálně rozdělené náhodné veličiny na hyper kouli o poloěru 3. Z uvedeného je patrné, že s růste diense dochází k paradoxní jevů, které pochopitelně výrazně ovlivní jak průzkuovou analýzu dat, tak i funkci řady statistických etod. 4. Redukce počtu proěnných V řadě případů lze zjistit, že rozěrnost vektoru objektu je silně ovlivněna šuy, nepřesnosti a nevýznanýi znaky. Pak je logické hledat redukovanou velikost, tedy oezený počet znaků.pro případ zobrazení dat se spíše hledá vhodná projekce resp. se původní znaky nahrazují latentníi proěnnýi, které jsou jejich lineární kobinací ale jsou vzájeně nezávislé. Na bázi latentních proěnných je založena etoda hlavních koponent, která je podrobně popsána v knize [1]. Tato etoda patří ezi lineární projekční etody. Důležité je to, že projekce odpovídá iniu součtu čtverců odchylek od hlavních koponent (latentních proěnných). Základní cíle PCA je transforace původních znaků x i, j=1,...,, do enšího počtu latentních proěnných y j. Tyto latentní proěnné ají vhodnější vlastnosti: je jich výrazně éně, vystihují téěř celou proěnlivost původních

znaků a jsou vzájeně nekorelované. Latentní proěnné jsou nazvány hlavníi koponentai a jsou to lineární kobinace původních proěnných: první hlavní koponenta y 1 popisuje největší část rozptylu původních dat, druhá hlavní koponenta y zase největší část rozptylu neobsaženého v y 1 atd. Mateaticky řečeno, první hlavní koponenta je takovou lineární kobinací vstupních znaků, která á největší rozptyl ezi všei ostatníi lineárníi kobinacei. Druhá hlavní koponenta á největší rozptyl ezi zbytke lineárních kobinací a je kolá na koponentu první. Analogicky jsou definovány ostatní hlavní koponenty. Pro řešení úlohy hlavních koponent postačuje rozklad kovarianční atice dat na vlastní čísla vlastní vektory. Analýza hlavních koponent je standardní součástí průzkuové analýzy dat. Snížení rozěrnosti je často využíváno při konstrukci koplexních ukazatelů jako lineárních kobinací původních znaků. Např. první hlavní koponenta je vlastně vhodný ukazatele jakosti pokud původní znaky charakterizují její složky. Obyčejně se pro D projekci volí první dvě hlavní koponenty, i když lze často získat zajíavé inforace i z posledních hlavních koponent. Výhodou je, že tyto projekce zachovávají vzdálenosti a úhly ezi jednotlivýi objekty. Nevýhodou hlavních koponent jako prostředku D projekce je fakt, že není nikterak zohledněna potřeba optiální projekce s ohlede na odkrytí struktur v datech. Tuto nevýhodu odstraňují techniky lineární projekce vícerozěrných dat (projection pursuit), optializující zvolený index projekce IP(C i ). Forálně se tedy hledají vektory projekce C i, axializující funkci IP(C i ) při oezení C i T C i = 1. Projekce na tyto vektory je pak C i T X. Lze snadno ukázat, že index IP, odpovídající etodě hlavních koponent á tvar T T i = IP( C) = ax( Ci SCi ) pro C Ci 1 (7) kde je S výběrová kovarianční atice. Jak je ukázáno v knize [1]je C i splňující podínku axia rov. (7) vlastní vektore atice S kteréu odpovídá i-té největší vlastní číslo λ i, i = 1,. Navíc jsou C 1 a C ortogonální. Lze ukázat [1], že index IP(C) odpovídá iniu ze všech projekcí C axia logaritu věrohodnostní funkce pro norálně rozdělená data. N(c T µ, c T C c). Tedy za předpokladu norality dat je statisticky odvoditelná jako optiální projekce do prvních dvou hlavních koponent. Častý požadavke bývá vyhledávání shluků v projekci. Pro tento účel se používá celá řada indexů. Jednoduchý je např. poěr ezi průěrnou eziobjektovou vzdáleností D a průěrnou vzdáleností nejbližších sousedů d. Řada indexů využívá odhadu hustoty rozdělení dat v projekci f P (x). Jako odhad f P (x) ) se obyčejně volí jádrový odhad hustoty [1]. Často se doporučuje volba

IP( C ) = f p ( x) dx (8) Tento index však ukazuje spíše na odchylky od parabolického tvaru než na shluky. Odchylky od norality, vyjádřené hustotou pravděpodobnosti φ(x) vyjadřuje index IP( C) = φ( x)[ f ( x) φ( x)] dx (9) p Základní problée při použití těchto indexů je velká časová náročnost výpočtů. Kroě lineárních projekčních etod existuje dnes již celá řada nelineárních projekčních etod [5] Mezi znáé patří Kohonenova saoorganizující apa a generativní topografická apa, nelineární varianty PCA, založené na použití neuronových sítí. Saonův algoritus provádí projekci z původního prostoru do prostoru enšího rozěru tak, aby byly pokud * ožno zachovány vzdálenosti ezi objekty. Pokud jsou d ij vzdálenosti ezi dvěa objekty v původní prostoru a d ij vzdálenosti v redukované prostoru je cílová funkce E (která á být iniální) ve tvaru * 1 ( dij - dij ) E = * (10) * d d ij i< j i< j ij Pro inializaci této funkce se používá iterativní Newtonova etoda nebo řada heuristických optializačních postupů. Jak je patrné, souvisí volba IP s tí, co se od projekce očekává. Jedna poěrně jednoduchá projekční technika spočívá v zobecnění PCA, kdy je atice S nahrazena vhodnou robustní verzí S R. To vede k projekci, která je schopna indikovat buď vybočující body nebo shluky v datech. Pro určení S R je ožné použít řady technik, popsaných v knize [1] 5. Závěr Je patrné, že vícerozěrná data ají celou řadu specifických zvláštností. V řadě případů je třeba i ve zdánlivě jednoduchých situacích používat poěrně speciální postupy. Poděkování: Tato práce vznikla s podporou výzkuného centra Textil LN00B090 6. Literatura [1] Meloun M., Militký J.: Zpracování experientálních dat, East Publishing Praha 1998 resp nové přepracované vydání Acadeia Praha 004 [] Bellan R.: Adaptive control processes, Princeton 1961 [3] Silveran B.W.: Density estiation for statistics and data analysis, Chapan and Hall, London 1986 [4] Spivak M.: Calculus on Mainfolds, Addison Wesley 1965 [5] Perpinan M.,A.C.: A review of diension reduction techniques, Tec.h Rept. CS-96-09, Sheffield University, 1996