4.4 Exploratorní analýza struktury objektů (EDA)



Podobné dokumenty
POLYMERNÍ BETONY Jiří Minster Ústav teoretické a aplikované mechaniky AV ČR, v. v. i.

NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT

POTENCIÁL ELEKTRICKÉHO POLE ELEKTRICKÉ NAPĚTÍ

Matematika I A ukázkový test 1 pro 2018/2019

FYZIKA 3. ROČNÍK. Obvod střídavého proudu s odporem. ϕ = 0. i, u. U m I m T 2

REDUKCE DIMENSIONALITY PRAVDĚPODOBNOSTNÍCH MODELŮ PRO FDI

MĚŘENÍ INDUKČNOSTI A KAPACITY

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

Základy matematiky kombinované studium /06

Numerické metody optimalizace

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

S E M E S T R Á L N Í

Příprava ke státním maturitám 2011, vyšší úroveň obtížnosti materiál stažen z

Euklidovský prostor Stručnější verze

Klasifikace a predikce. Roman LUKÁŠ

( x ) 2 ( ) Úlohy na hledání extrémů. Předpoklady: 10211

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Regresní a korelační analýza

VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:


V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek

Teorie elektrických ochran

Matice. Je dána matice A R m,n, pak máme zobrazení A : R n R m.

ESR, spinový hamiltonián a spektra

LINEÁRNÍ PROGRAMOVÁNÍ

Tématické celky { kontrolní otázky.

Tento dokument je obsahově identický s oficiální tištěnou verzí. Byl vytvořen v systému TP online a v žádné případě nenahrazuje tištěnou verzi

6. T e s t o v á n í h y p o t é z



VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

Návody na cvičení. Prof. Ing. Jiří Militký CSc. EUR ING Ing. Miroslava Maršálková

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

INTERAKCE KŘEMÍKU A NIKLU ZA VYSOKÝCH TEPLOT

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

2 Spojité modely rozhodování

Analýza závislosti veličin sledovaných v rámci TBD


z možností, jak tuto veličinu charakterizovat, je určit součet

Poznámky k předmětu Aplikovaná statistika, 9.téma

Elektronický obvod. skládá se z obvodových součástek navzájem pospojovaných vodiči působí v něm obvodové veličiny Příklad:

Bořka Leitla Bolometrie na tokamaku GOLEM

2. ELEKTRICKÉ OBVODY STEJNOSMĚRNÉHO PROUDU

Posuzování dynamiky pohybu drážních vozidel ze záznamu jejich jízdy

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

5. Maticová algebra, typy matic, inverzní matice, determinant.

Osvětlování a stínování

REGRESNÍ ANALÝZA. 13. cvičení

MATEMATIKA základní úroveň obtížnosti

APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY

Podmínky přijetí uprchlíků a důvěra v kompetence politiků

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

Zápočtová písemka z Matematiky III (BA04) skupina A

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

radiační ochrana Státní úřad pro jadernou bezpečnost

FAKULTA STAVEBNÍ VUT V BRNĚ PŘIJÍMACÍ ŘÍZENÍ DO MNSP STAVEBNÍ INŽENÝRSTVÍ PRO AKADEMICKÝ ROK

I Mechanika a molekulová fyzika

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

ENÍ TEXTILIÍ PŘEDNÁŠKA 2

Zpracování a vyhodnocování analytických dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VĚTRACÍ SYSTÉMY OBYTNÝCH DOMŮ BAKALÁŘSKÁ PRÁCE FAKULTA STROJNÍHO INŽENÝRSTVÍ ENERGETICKÝ ÚSTAV

Regresní a korelační analýza

Faktorová analýza (FACT)

Matematika I: Aplikované úlohy

Aplikovaná optika. Optika. Vlnová optika. Geometrická optika. Kvantová optika. - pracuje s čistě geometrickými představami

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.


Testy statistických hypotéz

6 LINEÁRNÍ REGRESNÍ MODELY

OPTIKA Fotometrie TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY.

Kapka kapaliny na hladině kapaliny

4EK211 Základy ekonometrie

Matematika I Reálná funkce jedné promìnné

TECHNICKÉ ZNALECTVÍ. Metody soudně znalecké analýzy. Prof. Ing. Jan Mareček, DrSc. ÚZPET

Modelování elektrických sítí KEE/MS Přednáška na téma: Výpočty chodu sítě. Ing. Jan Veleba, Ph.D. doc. Ing. Karel Noháč, Ph.D.

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

a m1 a m2 a mn zobrazení. Operaci násobení u matic budeme definovat jiným způsobem.

Přednáška 5. Výběrová šetření, Exploratorní analýza

Pasivní Koherentní Lokace. Duben 2008

Jednotlivé mezivýsledky, získané v prbhu analýzy rozptylu, jsou prbžn a systematicky zaznamenávány v tabulce ANOVA. Prmrný tverec. volnosti SS B.

Maticová exponenciála a jiné maticové funkce

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

4EK211 Základy ekonometrie

CVIČENÍ 1 PRVKY KOVOVÝCH KONSTRUKCÍ

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

Otázky z kapitoly Stereometrie

Projekty do předmětu MF

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech.

MATEMATIKA 1 4 A B C D. didaktický test. Zadání neotvírejte, počkejte na pokyn! Krok za krokem k nové maturitě Maturita nanečisto 2006

Jan Perný využíváme při orientaci pomocí kompasu. Drobná odchylka mezi severním

ŠROUBOVÉ SPOJE VÝKLAD

Pro bodový odhad při základním krigování by soustava rovnic v maticovém tvaru vypadala následovně:

Transkript:

4.4 Exploratorní analýza struktury objektů (EDA) Průzkumová analýza vícerozměrných dat je stejně jako u jednorozměrných dat založena na vyšetření grafckých dagnostk. K tomuto účelu se využívá různých technk zobrazování vícerozměrných dat. Pro případ, kdy jsou jednotlvé sloupce matce X málo korelované postačují rozptylové dagramy pro jednotlvé kombnace složek vektoru x a pro nekorelované pak sloupce matce X. Obr. 4.1 Rozptylový dagram pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 nestandardzovaných dat B40, SCAN. Je patrná podobnost objektů a vysoká korelovanost zejména prvních dvo proměnných. Jso patrné odlehlé objekty, představované body vzdáleným od ostatních. Rychlé posouzení podobnost mez jednotlvým objekty čl řádky datové matce usnadňují především symbolové grafy. Jednotlvé proměnné jsou v nch "kódovány" s ohledem na jejch konkrétní hodnoty do určtých geometrckých tvarů, symbolů. Každému objektu x (např. autu) tak odpovídá jstý obrazec zvaný symbol. Vlastnost dat se posuzují s ohledem na vzuální rozdíly mez symboly. ím lze v jednom grafu rozlšt více proměnných x j, j = 1,..., m. Prvním krokem před vlastním zobrazením do symbolů je obvykle standardzace. Mez základní typy zobrazovaných symbolů patří profly, polygony, tváře, křvky a stromy. Profly představují dvourozměrné zobrazení m-rozměrných objektů. Každý objekt x je charakterzován m proměnným, zobrazeným zde vertkálním úsečkam. Jejch velkost je úměrná hodnotě odpovídající proměnné x, j = 1,..., m. Profl pak vznká spojením koncových bodů těchto úseček. Je vhodné použít standardzované j proměnné dle vzorce x ( j ' x j (max *x j *) kde max*x j* je maxmální hodnota absolutní velkost proměnné x j vektoru x přes všechny body, = 1,..., n. Profly jsou jednoduché a umožňují snadné určení rozdílů mez jednotlvým objekty x a x k. Snadno lze takto dentfkovat vybočující objekt.,

Obr. 4. Korelační dagram (Casement Plot) pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 nestandardzovaných dat B40, SAGRAPHICS. Je patrná vysoká korelovanost čtyř sledovaných proměnných. V pravém horním roh jso patrné odlehlé objekty. Polygony jsou vlastně profly v polárních souřadncích, kdy každá proměnná objektu x, = 1,..., n, odpovídá délce paprsku vycházejícího ze společného středu. Paprsky dělí kružnc ekvdstantně, proměnné jsou standardzovány do ntervalu [0, 1]. Mez polygony patří graf slunečních paprsků a hvězdcový graf. (a) Graf slunečních paprsků má tvar sluníčka, které se skládá z paprsků, začínajících ve společném bodě, a úseček spojujících paprsky, které tak tvoří polygon. Zde každá proměnná x j objektu x odpovídá délce paprsku vycházejícího ze středu sluníčka. Paprsky jsou rozmístěny ekvdstantně, ve stejných vzdálenostech na kružnc, a proto se provádí lneární transformace do ntervalu [a, 1], kde a je zvolená spodní mez, obyčejně a = 0. Pro tuto transformac platí, že x ( j ' (1 & a)(x j & mn max x j & mn kde mn x j je mnmální a max x j maxmální hodnota j-té proměnné objektu x přes všechny objekty x, = 1,..., n. K určení směrů jednotlvých paprsků se defnuje jejch úhel α j, pro který platí π (j & 1) α j ', j ' 1,..., m. m Za společný střed paprsků se obyčejně volí počátek souřadnc. Pokud má být maxmální délka paprsků rovna R, je polygon pro objekt x p j ' (x ( j R cos" j, x ( spojncí m bodů p j o souřadncích j R sn" j ). Aby vznkl uzavřený obrazec, spojují se ještě první a poslední bod p 1 a p m. Vzájemné porovnání polygonů slouží k vzuálnímu posouzení podobnost objektů. V případě velkého počtu proměnných, např. m > 6, bývá však výsledný obrázek polygonů nepřehledný. (b) Hvězdcový graf vypadá na první pohled jako předchozí graf sluníčka. Sestává z paprsků, reprezentujících relatvní hodnoty proměnných u jednotlvých objektů, které se pro každý objekt spojují v jednom centrálním bodě. Stejně směřující paprsky u různých objektů se lší svojí délkou. Nejkratší paprsek ndkuje, že u objektu nabývá příslušná proměnná nejmenší hodnoty z celého výběru. Podobně nejdelší paprsek nformuje o nejvyšší hodnotě příslušné proměnné. Délky ostatních paprsků se pohybují podle relatvní velkost hodnot proměnné u příslušného objektu mez těmto dvěma krajním mezem. x j x j ) % a,

Obr. 4.3a Hvězdčkový graf (Stars Plot) pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 standardzovaných dat B40, SAGRAPHICS. Obr. 4.3b Klíč ke hvězdčkovém graf pro 4 proměnné B40X1, B40X, B40X3, B40X4 standardzo-vaných dat B40, SAGRAPHICS.

váře charakterzují každou proměnnou x j objektu x nějakým znakem. Mez znaky patří tvar tváře, délka nosu, velkost očí, tvar úst atp. var tváře závsí na použtém pořadí proměnných, které ovlvňuje snadnost nterpretace dat. Obr. 4.4 váře nestandardzovaných dat B40 pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4, S-Plus. Lze nalézt řad vzájemně podobných tváří, kaz jících na podobnost objektů. vář Pfl thxol se jeví slně odlšná od ostatních. Obr. 4.5 váře zlogartmovaných dat B40 pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4, S-Plus. Logartmováním dat se rozdíly mez objekty poněk d setřo a odlehlé objekty nejso př porovnání podobnost tak výrazné odlšné. vář Pfl thxol se však stále jeví odlšná od ostatních.

Křvky využívají transformace každého objektu x do spojté křvky, která je lneární kombnací všech jeho 1 proměnných. Andrews volí pro vyjádření křvky f odpovídajícího objektu x konečnou Fourerovu řadu f x f x (t) ' f ' x 1 % x sn(t) % x 3 cos(t) % x 4 sn( t) % x 5 cos( t) %... Křvky f, = 1,..., n, se vynášejí jako funkce proměnné t v ntervalu -π # t # π. Funkce f mají řadu výhodných vlastností: a) Funkce f zachovávají průměr. o znamená, že pokud je x průměrem z celkového počtu n vícerozměrných dat x, je funkce rovna f x (t) ' 1 n n j f x (t), kde funkce (t) je "průměrná" křvka. '1 Obr. 4.6 Andrewsův graf křvek dat pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 nestandardzovaných dat B40, S-Plus, Graf kaz je na značno podobnost celé řady objektů. Jeden objekt je však výrazně odlšný od ostatních, jde o odlehlý objekt. b) Funkce f zachovávají vzdálenost. o znamená, že celková vzdálenost mez křvkam f a f j, defnovaná jako ntegrální kvadratcká odchylka, odpovídá vzdálenost mez objekty x a x j. Blízké křvky ukazují na nepřílš vzdálené objekty. 0 f x 0 0 c) Pro zvolenou hodnotu t je funkce (t ) projekcí objektu x na vektor p o složkách p 0 ' ( 1,sn(t 0 ), cos(t 0 ), sn(t 0 ), cos(t 0 ),...). ato projekce do jednoho bodu umožňuje odhalení vybočujících objektů č skupn objektů, které mohou být ve více dmenzích špatně dentfkovatelné. Křvka (t) je složena ze všech projekcí na daném ntervalu hodnot t. f x d) Funkce f zachovávají rozptyl. o znamená, že pokud jsou proměnné x j objektu x nekorelované náhodné velčny se stejným rozptylem σ, je D(f ) ' σ (0.5 % sn (t) % cos (t) % sn (t) % cos (t) %...). Pro lché m je D(f ) = 0.5 σ m a pro sudé m je 0.5 σ (m - 1) < D(f ) < 0.5 σ (m + 1). Rozptyl funkce f je téměř konstantní v celém rozmezí velčny t. V praktckých úlohách je běžné, že jednotlvé proměnné jsou slně korelované a mají nestejné rozptyly. Pak je výhodné převést objekty původních dat x na objekty y, kde y odpovídá transformac do j-té hlavní komponenty. j Velčny y jsou jž nekorelované. Snadno lze provést jejch standardzac tak, aby měly konstantní rozptyly. j Nevýhodou křvek je to, že jejch tvar závsí na pořadí složek. Na druhé straně lze pomocí křvek snadno ndkovat vybočující objekty nebo skupny objektů a konstruovat konfdenční křvky. Pro větší počty objektů (n > 10) dochází ke splývání křvek, což ztěžuje jejch nterpretac. Pak je možné vynášet pouze zvolené podskupny objektů. Stromy čl dendrogramy jsou vhodné pro případy, kdy je počet proměnných m objektu x velký. Jednotlvé složky x j představují délku větví schematckého stromu. Jeho struktura větví vznká na základě předběžného herarchckého shlukování proměnných (vz shluková analýza). Předběžná shluková analýza se dá použít také př výběru pořadí složek objektu x př konstrukc ostatních symbolových grafů