Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd
|
|
- Vilém Esterka
- před 6 lety
- Počet zobrazení:
Transkript
1 Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) června 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky. 1
2 4.10 VÍCEROZMĚRNÉ ŠKÁLOVÁNÍ OBJEKTŮ (MDS) 2
3 Vícerozměrné škálování objektů ( MDS) Je vytvoření subjektivní mapy relativního umístění objektů v rovině grafu, a to na základě vzdáleností či podobností mezi objekty, tzv. matice proximity (blízkosti). Cílem: detekovat nejlepší počet souřadnic, které objasní podobnosti či vzdálenosti mezi vyšetřovanými objekty. Mapa objektů v jedné, dvou či tří souřadnicích pak vzájemně porovnává objekty. Podstata: v FA či PCA jsou podobnosti mezi objekty vyjádřeny v korelační matici, v MDS se analyzuje jakýkoliv druh podobnostní či vzdálenostní matice (proximita). 3
4 Příklad matice vzdáleností (proximity) mezi městy. Řešení: MDS vytvoří mapu, kde poloha se vyjádří dvěma souřadnicemi, sever-jih na y a západ-východ na x. Postup: 1. Počet vhodných souřadnic k vytvoření mapy měst, obvykle Vzdálenosti mezi městy na souřadnice polohy města na mapě. 3. Otočení souřadnicových os tak, aby se poloha dala co nejlépe vysvětlit. 4
5 Matice proximity Emoce obsahuje nepodobnosti dvojice následujících emocí: Spok značí spokojený, Vzru značí vzrušující, Prek překvapený, Horl horlivý, Stas šťastný, Vasn vášnivý, Nezn něžný, Pohr pohrdá, Vyle vylekaný, Bazl bázlivý, Prov provinilý, Smut smutný, Zlost zlostný, Odmi odmítavý. Kodování: Při dokonalé podobnosti každé emoce s každou je jejich vzdálenost 0, při jejich nepodobnosti pak vzdálenost 10. 5
6 Data Spok Vzru Prek Horl Stas Vasn Nezn Pohr Vyle Bazl Prov Smut Zlos Odmi Spok 0 Vzru 7 0 Prek Horl Stas Vasn Nezn Pohr Vyle Bazl Prov Smut Zlos Odmi
7 Matice proximity Emoce Posuďte porovnání každé emoce s každou. Matice proximity Emoce vyjadřuje vzdálenosti, nepodobnosti dvojic těchto emocí: Spok značí spokojený, Vzru značí vzrušující, Prek překvapený, Horl horlivý, Stas šťastný, Vasn vášnivý, Pohr pohrdá, Vyle vylekaný, Bazl bázlivý, Prov provinilý, Smut smutný, Zlost zlostný, Nezn něžný, Odmi odmítavý. Intuitivně podobné emoce jako spokojený Spok a šťastný Stas budou ležet těsně u sebe. Dimenze 1 bude oddělovat pozitivní emoce od negativních. 7
8 Dvojrozměrný škálovací diagram CMDS podobností u 14 emocí, stress = (NCSS2000). 8
9 Znaky Každý objekt je popsán svými znaky: a) znaky subjektivními (znaky vnímané člověkem, hezký, ošklivý, laciný, drahý, barvy,...), b) znaky objektivními (znaky měřitelné fyzikálně). 9
10 Matice proximity Matice vzdáleností objektů D: přímo měřená vzdálenost (disimilarita, nepodobnost) mezi objekty d ij. Matice podobností objektů S: podobnost mezi objekty S ij vyjadřují jak blízko se nacházejí dva objekty. Podobnost lze převést do veličiny vzdálenost d ij vztahem d ij = s ii + s jj 2s ij 10
11 Matice znaků objektů X: hodnoty znaků (sloupce) pro objekty (řádky) X ij představují proměnné pro jednotlivé objekty a jsou to spíše standardní míry. Z nich se vypočte nejprve korelační matice objektů R a nebo matice eukleidovských vzdáleností D či matice Mahalanobisových vzdáleností objektů D. Z matice znaků pro všechny objekty X lze vyčíslit přímo matici vzdáleností D vztahem m 2 d ij = k=1 x ik x jk Vzdálenost d ij mezi dvěma objekty x i a x j je eukleidovská (Pythagorova věta). 11
12 Matice proximity 1. Matice vzdáleností objektů D: Trojúhelníková matice proximity Sporty obsahuje vzdálenosti objektů u dvojic her: Hokej, Fotbal, Basket, Tenis, Golf, Kroket. Kodování: Při dokonalé podobnosti je vzdálenost 1, při nepodobnosti 6. Párové vzdálenosti tvoří prvky čtvercové matice, ze které se užije trojúhelníková část nad diagonálou jedniček. 12
13 Hokej Fotbal Basket Tenis Golf Kroket Hokej 1 Fotbal 2 1 Basket Tenis Golf Kroket MDS si vytváří svou náhodnou proměnnou L, tj. subjektivní souřadnici L jako řádek pomocné matice L vhodnou k vzájemnému porovnání objektů na MDS mapě. 13
14 Obr. 10.4a Dvojrozměrný škálovací CMDS diagram vyjadřuje příbuznost či podobnost 6 sportovních her, stress = 0.100, (STATISTICA). 14
15 2. Matice korelace objektů R Pro šest předmětů na vysvědčení u 220 žáků byla vyčíslena korelační matice R. Prvky korelační matice Vysve obsahují ve dvojicích tyto předměty: F francouzština, A angličtina, D dějepis, Ar aritmetika, Al algebra, G geometrie. F A D Ar Al G F 0 A D Ar Al G
16 2. Matice korelace objektů R MDS si vytváří svou náhodnou proměnnou L, tj. subjektivní souřadnici L jako řádek pomocné matice L vhodnou k vzájemnému porovnání objektů na MDS mapě. 16
17 Dvojrozměrný škálovací diagram CMDS podobností 6 předmětů na vysvědčení, stress = 0.097, (NCSS2000). F francouzština, A angličtina, D dějepis, Ar aritmetika, Al algebra, G geometrie. 17
18 Hledání nejlepší metody škálovací mapy podobností objektů. Obr. 10.8e Dvojrozměrný škálovací diagram CMDS podobností 6 předmětů na vysvědčení, stress = 0.097, (NCSS2000). Obr. 10.8f Dvojrozměrný škálovací diagram NNMDS podobností 6 předmětů na vysvědčení, stress = 0.173, (NCSS2000). 18
19 Matice proximit Relax obsahuje vzdálenosti jednotlivých aktivit relaxace ve dvojicích: Konc značí koncert, Muze značí muzeum, Diva divadlo, Kino kino, TV televize, Konf konference, Cetb četba, Hoke divák hokeje, Bale balet, Poli zájem o politiku, Moda móda, Doku dokumentaristika, Vyst zájemce o výstavy, Naku zájem o nákupy, Rest pobyt v restauraci. Kodování: Při dokonalé podobnosti je vzdálenost 0, při nepodobnosti pak
20 Data Konc Muze Diva Kino TV Konf Cetb Hoke Bale Poli Moda Doku Vyst Naku Rest Konc 0 Muze 16 0 Diva Kino TV Konf Cetb Hoke Bale Poli Moda Doku Vyst Naku Rest
21 Hledání shluků separovaných aktivit osobní relaxace Mapa separuje 15 aktivit osobní relaxace a indikuje 4 shluky. Dimenze 1 se pojmenuje aktivní relaxace (jde o intelektuální náročnost aktivit). Dimenze 2 se pojmenuje pasivní relaxace souvisí spíše s mírou vzrušení při zábavě či s akčností zábavy. Aktivní a pasivní je zde třeba chápat jako protipóly. CMDS diagram podobnosti 15 aktivit relaxace, stress = 0.089, (NCSS2000). 21
22 MDS vyčíslí a) metrické klasické řešení ( CMDS), b) nemetrické řešení ( NNMDS) a vychází buď přímo z experimentálních hodnot X, z korelační matice R, z matice podobností S, z matice vzdáleností D. - Pro n objektů existuje n(n - 1)/2 podobností čili vzdáleností mezi páry objektů. - Když podobnosti objektů nemohou být kvantifikovány, (např. podobnost mezi barvami), užijeme za vstupní data pořadová čísla podobností objektů. 22
23 Podobnosti objektů S lze vzestupně uspořádat do řady s i1 j 1 s i2 j 2 s i3 j 3 s im j m s i1 j 1 značí nejmenší podobnost ze všech. Chceme nalézt q-rozměrnou sestavu n objektů tak, že vzdálenosti mezi párem objektů souhlasí s pořadovými čísly uvedených podobností. Řada pořadových čísel objektů (q) q d i1 j 1 di2 j 2 q d i3 j 3 (q) d im j m popisuje sestupné řazení vzdáleností párů objektů od největší vzdálenosti objektů v páru do nejmenší. 23
24 Test těsnosti proložení s využitím statistické míry stress: je založen na rozdílu mezi skutečnou vzdáleností dvou objektů d ij a modelem predikovanou vzdáleností dle vzorce m (d ij d ij,vyp ) stress = ( k=1 m k=1 kde d ij,vyp je vypočtená vzdálenost objektů dle modelu MDS. Je-li hodnota stress blízká nule, jeví se proložení jako nejlepší. Pravidlo: čím menší je hodnota stress, tím těsnějšího proložení mezi vypočtenými a zadanými souřadnicemi objektů bylo dosaženo. 2 d ij ) 24
25 Test těsnosti proložení Kruskal navrhl míru důležitosti stress(q), dle které je souhlas modelu MDS s daty co nejlepší, stress q = m i<j m j m i<j d ij q m j q d ij,vyp d ij q 2 (q) kde d ij,vyp jsou vypočtená vzdálenostní pořadová čísla objektů, která jsou vypočtena dle monotónní funkce podobností objektů. 2 25
26 Test těsnosti proložení Takano zavedl přednostní kritérium S stress pro daný počet souřadnic q s stress = m i<j j d 2 ij d 2 ij,vyp v intervalu 0 až 1, a hodnoty menší než 0.1 se týkají dobré prezentace objektů body nalezeného uspořádání. m i<j j d 4 ij Počet potřebných souřadnic v modelu MDS Cattelův indexový grafem úpatí relativní velikosti hodnot stress, která jsou vyčíslována pro rostoucí počet souřadnic. 2 26
27 Cattelův indexový graf úpatí vlastních čísel formou čarového diagramu Pořadové číslo Vlastní Jednotlivé Kumulativní Čarový diagram souřadnice číslo procento procento vlastních čísel IIIIIIIIIIIIIIIIIIIIIIIIIII 2 (Užívané) IIIIIIIIIII IIIIII I IIII 27
28 MDS separuje hryzce do tří shluků: 1. shluk obsahuje PyrII, SSpa, JSpa a je dobře oddělen od ostatních. 2. shluk obsahuje 6 britských populací s německými Neme a norskými Norsk. 3. shluk obsahuje Alpy, Jugo a PyrI. Kritérium stress dosahuje 0.144, a tím ukazuje na těsné proložení dat. Obr. 10.9e Dvojrozměrný škálovací NNMDS diagram podobnosti lebek hryzců 14 míst Evropy, stress = 0.144, (NCSS2000) 28
29 Hledání nejlepší metody vícerozměrného škálování při třídění hryzců do shluků, a to CMDS nebo NNMDS. Obr. 10.9e Dvojrozměrný škálovací CMDS diagram podobnosti lebek hryzců 14 míst Evropy, stress = 0.093, (NCSS2000). Obr. 10.9f Dvojrozměrný škálovací NNMDS diagram podobnosti lebek hryzců 14 míst Evropy, stress = 0.144, (NCSS2000). 29
30 Postup klasické metrické metody CMDS Matice vzdáleností objektů D vystihuje vzdálenosti objektů X. Kroky MDS analýzy: 1. Z D se vypočte A = * 0.5 d 2 ij + 2. Z A se vypočte B = {a ij - a i. - a.j + a.. }, kde a i. je průměr všech a ij přes j a a.. je celkový průměr. 3. Nalezne se m největších vlastních čísel λ 1 > λ 2 >... > λ m matice B a odpovídající vlastní vektory L = L (1), L (2),..., L (m), které jsou normovány, takže L T (i) L (i) = λ i. Předpokládáme, že m je voleno tak, že vlastní hodnoty jsou relativně velké a kladné. 4. Souřadnicemi objektů jsou řádky matice L. 30
31 Postup klasické metrické metody CMDS Model závislosti mezi vypočtenou vzdáleností dvou objektů d ij = β 0 + β 1 δ ij + ε ij Nalezením nejlepších odhadů b 0 pro β 0 a b 1 pro β 1 obdržíme odhad vypočtené vzdálenosti U mod = n i<j d ij d ij,vyp 2 n i<j d 2 ij stress = U mod Pravidlo: pro stress menší než 0.05 je těsnost přijatelná, pro stress menší než 0.01 je výtečná. 31
32 Nemetrická MDS Vypočtené vzdálenosti jsou vyčíslovány monotónní regresí, kdy skutečné vzdálenosti objektů jsou uspořádány vzestupně do řady pořadových čísel objektů kde N jsou odhadovány tak, aby splnily podmínku slabé monotónosti (WM) nebo podmínku silné monotónosti (SM) 32
33 Porovnání tří metod: Metoda hlavních komponent PCA, FA třídí znaky, které definují dotyčné rozměry v původním souboru znaků či proměnných. Znaky, které silně korelují, jsou pak zařazeny spolu. Analýza shluků objektů CLU třídí objekty podle jejich profilu v souboru znaků, ve kterých jsou objekty v těsné blízkosti zařazovány spolu. Vícerozměrné škálování objektů MDS se liší od analýzy shluků objektů ve dvou klíčových bodech: Řešení může být získáno pro každý objekt. Neužívá se znaků ale vypočtených souřadnic v diagramu subjektivní mapy objektů. 33
34 Zdrojová matice dat Stat Cervene Bile Vejce Mleko Ryby Obiln Skrob Orech Ovoce Albania Austria Belgium Bulgaria Czechoslovakia Denmark E Germany Finland France Greece Hungary Ireland Italy Netherlands Norway Poland Portugal Romania Spain Sweden Switzerland UK USSR W Germany Yugoslavia
35 Korelační matice Cervene Bile Vejce Mleko Ryby Obiln Skrob Orech Cervene Bile Vejce Mleko Ryby Obiln Skrob Orech Ovoce
36 Metoda hlavních komponent PCA, FA 36
37 37
38 Analýza shluků objektů CLU 38
39 39
40 Vícerozměrné škálování objektů MDS Korelační matice Cervene Bile Vejce Mleko Ryby Obiln Skrob Orech Cervene Bile Vejce Mleko Ryby Obiln Skrob Orech Ovoce
41 D im 2 MDS Map 1.00 Ryby 0.60 Ovoce Skrob Orech Cervene Vejce Mleko Bile Obiln Dim1 41
42 Postup subjektivního mapování objektů MDS 1. Cíle vícerozměrného škálování objektů Subjektivní mapování objektů slouží k vyšetření: 1. Jako EDA k identifikování dosud nepoznaných znaků. 2. K porovnávání objektů, když specifický základ porovnání není předem znám. 3. V MDS není nutné specifikování znaků pro vzájemné porovnávání objektů. 4. Objekty musí sdílet společný základ porovnání (např. spokojenost s chutí coly). Vlastnosti (čili znaky) objektů bývají povšechné nebo emotivní a nedají se měřit v konvenčních škálách (např. spokojenost s chutí druhu Coca-coly). 42
43 Postup subjektivního mapování objektů MDS MDS techniky kombinují umístění objektů s umístěním respondentů na ploše společné mapy. Rysem MDS je nedostatek specifičnosti při definování standardů u objektů. Síla MDS mapování objektů spočívá ve schopnosti vyvozovat své závěry bez předešlého definovaní sledovaných znaků. Deduktivní povaha MDS klade proto větší odpovědnost na respondenta, který by měl správně ohodnotit objekty. Identifikace všech významných objektů: všechny vyšetřované objekty jsou zahrnuty do dat, protože subjektivní mapování objektů je technika jejich relativního rozmístění na mapě a porovnání jejich významnosti. 43
44 Postup subjektivního mapování objektů MDS Subjektivní mapy objektů bývají ale silně ovlivněny vynecháním objektu nebo zařazením špatného nebo neporovnatelného objektu. Způsob hodnocení objektů: dle podobnosti objektů nebo preferenční vybírání objektů. a) Subjektivní mapy objektů na bázi podobnosti představují podobnosti objektů a subjektivní rozměry porovnání, ale neberou v úvahu jakýkoliv přímý pohled do rozhodujícího kritéria volby. b) Subjektivní mapy objektů na bázi preferenčního výběru dat berou v úvahu preferovanou volbu, ale v žádném případě neodpovídají polohám podobnosti objektů, protože respondenti užijí svůj výběr na základě zcela jiných kritérií. Neexistuje zde optimální volba dat k vyhodnocení. 44
45 2. Formulace úlohy vícerozměrného škálování objektů Techniky MDS: dle charakteru respondentova hodnocení objektů. 1. Dekompoziční (rozkladná) metoda bez užití znaků měří celkový dojem při hodnocení objektu a vystihne tento dojem polohou objektu v mapě vícerozměrného prostoru objektů. Výhody: 1) Vyžaduje od respondentů svůj celkový pohled na objekty. 2) Respondenti nevyjmenovávají v hodnocení použité znaky. 3) Každý respondent dodává vyčíslení podobností mezi všemi objekty. 4) Každý respondent má tím svou mapu objektů. 5) Mapy mohou být sestrojeny také pro všechny respondenty najednou ve složené mapě. 45
46 2. Formulace úlohy vícerozměrného škálování objektů 2. Kompoziční (skladná) metoda při užití znaků využívá několik vícerozměrných technik např. DA, FA a CA. Je založena na souboru více posuzovaných znaků o objektech. Výhody: 1) Explicitní popis souřadnic subjektivního prostoru objektů, kdy respondent provádí detailní hodnocení jednotlivých znaků pro každý objekt. 2) Metody přímo zobrazují znaky a objekty v jediné mapě. 46
47 Data podobností objektů V datech se uživatel snaží určit, které objekty jsou vzájemně podobnější a které méně podobné. Výrazy podobnost a nepodobnost objektů jsou zaměnitelné v popisu rozdílů mezi objekty. Při měření podobností je možnost porovnávat všechny páry objektů. a) Porovnání párovaných objektů: k posouzení podobnosti se sestaví pořadí všech párů objektů. Z objektů A, B, C, D a E lze vytvořit páry AB, AC, AD, AE, BC, BD, BE, CD, CE a DE a seřadí se od nejpodobnějšího k nejméně podobnému. Jestliže pár AB je nejpodobnější má pořadí 1, zatímco hodnota 10 značí zcela nepodobné objekty. b) Pomíchané karty dat: Párování objektu A a objektu B jako subjektivní shlukování. Procedura se týká umístění objektů na malé karty a roztřídění karet dle podobných vlastností. 47
48 Data podobností objektů a) Odvozené míry podobnosti objektů: Založeny na skóre, která jsou respondenty přidělena jednotlivým objektům, např. ohodnocení tři objektů (třešně, jahody a citronová cola) dle znaků (dieta versus nedieta, sladký versus trpký, lehký versus těžký atd.), užitím různých významových stupnic. Znaky objektů jsou hodnoceny každým respondentem (například korelací, indexem souhlasu atd.) tak, aby se vytvořily mezi objekty míry podobnosti. Existují 3 předpoklady: 1) Uživatel musí vybrat vhodné znaky ke kvantitativnímu měření. 2) Stupnice mohou mít také svoji váhu (stejně nebo nestejně), abychom obdrželi podobnostní data objektů. 3) I když vážení stupnic lze zadat v datech, všechni respondenti mívají obvykle stejné váhy. 48
49 Uspořádání preferenčně vybraných dat objektů. Preference objektů naznačuje, že objekty jsou seřazeny v pojmech upřednostňování nějaké vlastnosti, např. znak A je upřednostňován před znakem C. 1. Přímé seřazení objektů. Seřadí se objekty od nejpreferovanějších k nejméně preferovaným. 2. Porovnání objektů v párech. Respondent u všech možných párů označí, který člen páru bude preferován. 49
50 Preferenční data objektů v porovnání s daty podobností. Preferenční data objektů dovolují uživateli posuzovat polohu objektů v subjektivní mapě objektů, v níž jejich vzdálenosti naznačují rozdíly v preferenci. Proto dva objekty mohou být chápány jako nepodobné v mapě podobností ale podobné v mapě preferencí. Oba přístupy pak vedou ke dvěma zcela rozličným mapám objektů. Postupy pro podobnostní i preferenční data mají společný cíl získání řady jednorozměrných odezev, které vyjadřují respondentův úsudek. Odezvy pak slouží jako vstup mnoha postupů vícerozměrného škálování objektů. 50
51 3. Předpoklady vícerozměrného škálování objektů Vícerozměrné škálování objektů nemá omezující požadavky. Vyžaduje pouze několik zásad o datech: 1. Kolísání ve volbě znaků. Každý respondent si musí uvědomit, že objekty musí mít stejnou dimenzi znaků (auto ve znacích výkonu a vzhledu nebo cena a komfort interiéru). 2. Kolísání v důležitosti znaků. Respondenti dávají rozličnou důležitost určitému znaku, např. respondent si uvědomuje coca-colu výhradně v hladině oxidu uhličitého zatímco druhý bere tento znak za nedůležitý. 3. Kolísání v čase. Úsudek o objektu nemusí být stabilní v čase, např. respondenti nezachovají stejný úsudek po dlouhé časové období Využití MDS objektů neleží pouze v pochopení jednotlivého respondenta, ale v identifikování sdílených pohledů na vyhodnocované znaky u více respondentů. 51
52 4. Nalezené řešení a dosažená těsnost proložení Prvním krokem v určení polohy objektu na mapě je co nejlepší vystižení vyhodnocované podobnosti. Postup určení optimálních poloh objektů v MDS má čtyři fáze: a) Vybere se počáteční sestava podnětů, znaků, vlastností při požadovaném počátečním počtu souřadnic q, který je založen na předešlých datech. b) Vypočtou se vzdálenosti mezi body objektů d ij v počáteční konfiguraci a porovnávají se se vzdálenostmi d ij,vyp vyčíslenými z jejich odhadů podobnosti S ij. Rozdíly ve vzdálenostech objektů čili v reziduích vedou k vyčíslení míry těsnosti proložení stress. 52
53 4. Nalezené řešení a dosažená těsnost proložení c) Jestliže stress nedosáhne předem zadané hodnoty terminačního kritéria, nalezne se nová konfigurace objektů, pro kterou je stress minimalizován. Program určí směry největšího zlepšení stressu a přemístí body na mapě v těchto směrech. d) Po dosažení uspokojivé hodnoty stress je počet souřadnic snížen o 1 a proces opakován, dokud není dosaženo nejnižšího počtu souřadnic s přijatelnou těsností proložení stress. Počet map objektů k interpretaci závisí na počtu zvolených souřadnic, a to pro každou kombinaci souřadnic vždy jedna mapa. Cílem je co nejlepší těsnost proložení při nejmenším možném počtu souřadnic. 53
54 Shepardův diagram je rozptylový diagram vypočtené vzdálenosti pro zvolený počet souřadnic na y-nové ose proti zadaným vzdálenostem na x-ové ose. Když všechny vypočtené body padnou na schodovitou křivku, je dosaženo těsného proložení. Když ale dojde k odchylkám od křivky, je dosaženo nedostatečného proložení. 54
55 Poloha ideálního bodu IB představuje nejlepší kombinaci vnímaných znaků a definuje relativní preference: objekty dále od ideálního bodu jsou tímto uživatelem méně preferovány. Nejvzdálenější objekt od ideálního bodu IB vyjadřuje nejmenší preferenci. Ideální bod IB tak umožní seřadit preference objektů dotyčného respondenta. Respondent vytváří pojem ideálního bodu IB z extrémů explicitního hodnocení objektů nebo z podobností s nejpreferovanějším objektem. Okolo ideálního bodu IB jsou nakresleny soustředné izopreferenční kružnice, usnadňující snadnější odečítání vzdálenosti objektů od ideálního bodu. 55
56 Bodové zobrazení IB a objektů A, B, C, D v subjektivní mapě s izopreferenčními kružnicemi. 56
57 5. Interpretace výsledků 1. Pro kompoziční metody musí být subjektivní mapa objektů ověřena proti ostatním mírám pohledu, vnímání, dojmu, protože polohy jsou jasně definovány znaky. 2. Pro dekompoziční metody je nejdůležitější popis subjektivních souřadnic a jejich vztah ke znakům. Dekompoziční metody poskytují počáteční pohled do dojmů, ze kterých se pak vytvářejí formálnější názory. 57
58 5. Interpretace výsledků 1. Subjektivní postupy. Respondent pojmenovává souřadnice vizuálním šetřením mapy objektů, čistě subjektivně. Když neexistuje způsob kvantitativního spojování souřadnic a znaků, jeví se tento způsob interpretace jako nejlepší, zvláště jsou-li souřadnice v obsahu třeba emotivní. 2. Objektivní postupy. Metoda PROFIT soustřeďuje znaky hodnocení každého objektu a nalezne nejlepší vztah každého znaku vůči odvozenému subjektivnímu prostoru. Míry těsnosti proložení jsou dány pro každý znak stejně jako pro jejich vztah se souřadnicemi. Uživatel může určit, které znaky nejlépe popisují subjektivní polohy a které jsou ilustrovány nalezenými souřadnicemi. 58
59 6. Ověření výsledků I když polohy objektů slouží k úspěšnému porovnání objektů, souřadnice nemají základ k porovnání. Často je porovnání mezi objekty provedeno jenom vizuálně. 59
60 CVIČENÍ V PROGRAMU STATISTICA 60
61 (1 značí málo podobné, 9 značí silně podobné)
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77 PŘÍKLAD 10.1 Porovnání podobnosti míčových sportů Posuďte podobnost a vztah 6 míčových a míčkových sportů, je-li dána tabulka vzájemných podobností (vzdáleností) porovnáním každého sportu s každým. Data: Prvky matice proximit Sporty vyjadřují nepodobnosti objektů u dvojic her: Hokej, Fotbal, Basket, Tenis, Golf, Kroket. Při podobnosti je 1, při nepodobnosti 6. Symetrická čtvercová matice proximit užije pouze horní trojúhelníkovou část. 77
78 PŘÍKLAD 10.1 Porovnání podobnosti míčových sportů Hokej Fotbal Basket Tenis Golf Kroket Hokej Fotbal Basket Tenis Golf Kroket
79 PŘÍKLAD 10.1 Porovnání podobnosti míčových sportů Řešení: NCSS2000, MINITAB a STATISTICA: MDS vytvoří mapu relativních poloh jednoho sportu vůči druhému. Řešení je dvojí: metrické CMDS na základě vzdálenosti mezi sporty, nemetrické NNMDS na základě pořadových čísel seřazených vzdáleností. 79
80 1. Nalezení počtu souřadnic MDS mapy (určení počtu použitelných souřadnic, ve kterých se zobrazí porovnávané sporty). Každá souřadnice představuje rozličný základní faktor. Cílem je udržet počet souřadnic na nejmenším počtu (obvykle 2D-graf). Kumulativní procento proměnlivosti v datech je kritériem určení počtu souřadnic. Kritérium ukazuje, že hrana je u 3 souřadnic: První dvě souřadnice pokrývají 77% a první tři souřadnice pokrývají 88% proměnlivosti. (Výhodnější se jeví užít první 2 souřadnice). 80
81 Cattelův indexový graf úpatí vlastních čísel formou čarového diagramu Pořadové číslo Vlastní Jednotlivé Kumulativní Čarový diagram souřadnice číslo procento procento vlastních čísel IIIIIIIIIIIIIIIIIIIIIIIIIII 2 (Užívané) IIIIIIIIIII IIIIII I IIII Součet
82 2. Optimalizace výpočtu vzdáleností Iterační algoritmus minimalizuje účelovou funkci, hledá optimální sestavu vypočtených vzdáleností a vyčíslí kritérium stress. Při minimalizaci jsou pak vyčíslována rezidua, d vyp (metricky) a d * vyp (nemetricky). Sleduje se jak MDS model prokládá data vzdáleností dané matice proximity. Proložení se sleduje kritériem těsnosti proložení stress. Stress je navíc funkcí počtu použitých souřadnic v CMDS modelu. 82
83 Vhodný počet použitelných souřadnic Počet užitých Čtverec Stress Pseudo R2 souřadnic reziduí Počet vzdáleností = Průměr vzdáleností = Suma čtverců vzdáleností = Suma čtv. vzd. okolo průměru =
84 Čtverec reziduí = rezidua jsou mezi vypočtenou a skutečnou vzdáleností sportů. Stress = odmocnina ze čtverců reziduí dělených odmocninou sumy čtverců vzdáleností. (Hodnoty pod 0.05 jsou přijatelné a pod 0.01 jsou dobré). Pseudo R2 ukazuje na procento sumy čtverců vzdáleností pro tento počet souřadnic. (Nad 80% je velmi nadějné). Suma čtverců vzdáleností = hodnota užitá ve jmenovateli vzorce pro stress. Suma čtverců vzdáleností okolo jejich průměru = ve jmenovateli vzorce Pseudo R2. 84
85 3. Těsnost proložení statistickou analýzou reziduí Indikovány vzdálenosti v těch dvojicích míčových sportů, které nejsou modelem dobře proloženy. Skutečná VypočtenáReziduum Relativní Řádek Sloupec vzdálenost vzdálenost reziduum, % 1 Hokej 2 Fotbal Golf 6 Kroket Hokej 3 Basket Fotbal 3 Basket Tenis 6 Kroket Hokej 4 Tenis Tenis 5 Golf Basket 5 Golf Basket 4 Tenis Hokej 5 Golf Hokej 6 Kroket Počet souřadnic = 2 2 Fotbal 6 Kroket Suma čtverců vzdáleností = Fotbal 4 Tenis Suma čtverců reziduí = Basket 6 Kroket Stress = Fotbal 5 Golf Pseudo R2 =
86 Skutečná vzdálenost = aktuální vzdálenost v datech. Vypočtená vzdálenost = vypočtenou vzdálenost pro zvolený počet souřadnic. Reziduum = rozdíl mezi skutečnou vzdáleností a vypočtenou. Suma čtverců vzdáleností = jmenovatel ve vzorci pro stress. Suma čtverců reziduí = čitatel ve vzorci pro stress. Stress = míra těsnosti proložení. (Pod 0.05 je přijatelné, pod 0.01 je ještě dobré). Pseudo R2 = obdoba koeficientu determinace R2 v regresi. Ukazuje na sumu čtverců vzdáleností, korigovanou na průměr a počítanou pro zvolený počet souřadnic. (Nad 80% značí velmi nadějné proložení). 86
87 4. Mapa objektů Představuje: cíl celé MDS analýzy (v tabelární a grafické podobě). Umožňuje: vysvětlit matici proximit obvykle ve dvojrozměrném rozptylovém diagramu. Protože jsou data škálovaná, je suma čtverců každého sloupce (každé souřadnice) rovna vlastnímu číslu této souřadnice. Souřadnice 1 Souřadnice 2 Souřadnice 3 Souřadnice 4 Hokej Fotbal Basketl Tenis Golf Kroket
88 Obr. 10.4a Dvojrozměrný škálovací CMDS diagram podobností 6 sportů, stress = 0.100, (STATISTICA). 88
89 5. Shepardův rozptylový diagram Zobrazuje: vypočtené vzdálenosti na y-nové ose proti skutečným podobnostem (opak vzdáleností) na x-ové ose a proto je křivka sestupná. Představuje: křivka představuje spojitou monotónní transformaci d ij,vyp = f(d ij ) hodnot. Těsnost proložení: body těsně u křivky značí dobrý MDS model, body od křivky vzdálené nedostatečné proložení. Pravidlo: je-li těsnost proložení při správně zvoleném počtu souřadnic velmi dobrá, jsou vypočtené vzdálenosti d vyp (metricky) a d * vyp (nemetricky) v dobré shodě. 89
90 90
91 6. Závěry o metodě MDS: Ve škálovacím diagramu CMDS není pevná orientace souřadných os. Osy lze otáčet okolo počátku k dosažení názorné polohy a separované shluky bodů. Respondenti v anketě považují hokej a fotbal za blízké sporty. Respondenti považují kroket a tenis za blízké míčkové hry. Fotbal je však považován za zcela odlišný od golfu. Z umístění objektů v MDS grafu plyne podobnost porovnávaných míčových her. 91
92 6. Závěry o metodě MDS: Hlavní rozdíl NNMDS mapy vůči metrické CMDS mapě spočívá: a) golf a kroket jsou nyní blíže sobě. b) fotbal a basketbal jsou těsněji u sebe, (zde se ale nejeví NNMDS mapa správnější než CMDS mapa). c) I když NNMDS dále zjemňuje CMDS mapu, nebylo dosaženo lepší těsnosti proložení kritéria stress. Vedle nalezení podobnosti ve druzích sportu je cílem MDS pojmenovat souřadnice: vertikální y-nová osa rozděluje shora dolů týmové sporty, horizontální osa spíše individuální sporty od nuly směrem doleva. 92
93 Obr. 10.4e Dvojrozměrný škálovací CMDS diagram podobností 6 sportů, stress = 0.025, (NCSS2000). Obr. 10.4f Dvojrozměrný škálovací NNMDS diagram podobností 6 sportů, stress = 0.052, (NCSS2000). 93
94 Závěr Metrická metoda vícerozměrného škálování CMDS dosáhla nejnižší hodnoty kritéria stress, a tím pádem i nejlepšího separování na škálovací mapě podobnosti šesti míčových sportů. 94
95 Obr. 10.4a Dvojrozměrný škálovací CMDS diagram podobností 6 sportů, stress = 0.100, (STATISTICA). Obr. 10.4b Shepardův diagram CMDS těsnosti proložení podobností 6 sportů, stress = 0.100, (STATISTICA). 95
96 Obr. 10.4c Těsnost proložení vzdáleností d ij,vyp mezi 6 sporty ve CMDS diagramu, stress = 0.361, (STATISTICA). Obr. 10.4d Těsnost proložení vzdáleností d * ij,vyp mezi 6 sporty v NNMDS diagramu, stress = 0.993, (STATISTICA). 96
97
98
99
100
101
102
103
104
105
Vícerozměrné škálování objektů ( MDS)
Vícerozměrné škálování objektů ( MDS) Je vytvoření subjektivní mapy relativního umístění objektů v rovině grafu, a to na základě vzdáleností či podobností mezi objekty, tzv. matice proximity (blízkosti).
PŘÍKLAD 10.2 Podobnost 10 výrobků cocacoly Je třeba vyhodnotit subjektivní mínění spotřebitelů: anketou posoudit podobnost 10 výrobků coca-coly A až J, a to technikou CMDS a NNMDS. Data: Data Cola obsahují
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována
SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat
UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH
Kanonická korelační analýza
Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KLASIFIKACE
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Faktorová analýza (FACT)
Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce ANALÝZA
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Vícerozm rná analýza dat metodou hlavních komponent a shluk
Vícerozm rná analýza dat metodou hlavních komponent a shluk Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565, 532 10 Pardubice,
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro
Univerzita Pardubice 8. licenční studium chemometrie
Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
http: //meloun.upce.cz,
Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,
Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )
Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Zadání : Titanová běloba (TiO ) se vyrábí ve dvou základních krystalových modifikacích - rutilové a anatasové.
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba nelineárních regresních modelů v analýze dat Vedoucí licenčního studia Prof. RNDr.
3.4 Určení vnitřní struktury analýzou vícerozměrných dat
3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková
AVDAT Mnohorozměrné metody metody redukce dimenze
AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak
Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)
Úvod do vícerozměrných metod Statistické metody a zpracování dat Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný O řadě jevů či procesů máme k dispozici ne jeden statistický
Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný
Statistické metody a zpracování dat IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný Úvod do vícerozměrných metod O řadě jevů či procesů máme k dispozici ne jeden statistický
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Kalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě
Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody
Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291
Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.1 Matematické principy vícerozměrných metod statistické analýzy
Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
Statistické zpracování vodohospodářských dat 8. Analýza říční vody vícerozměrným škálováním MDS
AA Statistické zpracování vodohospodářských dat 8. Analýza říční vody vícerozměrným škálováním MDS Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice,
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE
Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Semestrální práce Licenční studium Statistické zpracování dat při kontrole a řízení jakosti předmět 3.1. Matematické principy
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat ANOVA Zdravotní ústav se sídlem v Ostravě Odbor hygienických laboratoří
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Klasifikace analýzou vícerozměrných dat (Diskriminační analýza,
UNIVERZITA PARDUBICE. Semestrální práce z 5. soustředění
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium chemometrie na téma Statistické zpracování dat Semestrální práce z 5. soustředění Předmět: 3.5 Klasifikace
Vícerozměrné statistické metody
Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti
UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
Semestrální práce. 2. semestr
Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet
S E M E S T R Á L N Í
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět ANOVA analýza rozptylu
PŘÍKLAD 4.5 Chromatografická analýza farmakologických sloučenin Byly měřeny hodnoty R F pro 20 sloučenin s 18 eluenty. Žádné eluční činidlo však nepro
PŘÍKLAD 4.5 Chromatografická analýza farmakologických sloučenin Byly měřeny hodnoty R F pro 20 sloučenin s 18 eluenty. Žádné eluční činidlo však neprovedlo úplné rozdělení. Cílem je nalézt minimální výběr
Korelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
Učební plán 4. letého studia předmětu matematiky. Učební plán 6. letého studia předmětu matematiky
Učební plán 4. letého studia předmětu matematiky Ročník I II III IV Dotace 3 3+1 2+1 2+2 Povinnost povinný povinný povinný povinný Učební plán 6. letého studia předmětu matematiky Ročník 1 2 3 4 5 6 Dotace
Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti. Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Zpracovávaná data jsou
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
Tvorba nelineárních regresních
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Tvorba nelineárních regresních modelů v analýze dat Zdravotní ústav
1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,
KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
Testy do hodin - souhrnný test - 6. ročník
Kolik procent škol jste předstihli Škola: Název: Obec: BCEH ZŠ a MŠ, Slezská 316 Slavkov - 6. ročník ČESKÝ JAZYK Máte lepší výsledky než 7 % zúčastněných škol. MATEMATIKA Máte lepší výsledky než 7 % zúčastněných
AVDAT Geometrie metody nejmenších čtverců
AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Úloha 1: Lineární kalibrace
Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé
Předpokládané znalosti žáka 1. stupeň:
Předpokládané znalosti žáka 1. stupeň: ČÍSLO A POČETNÍ OPERACE používá přirozená čísla k modelování reálných situací, počítá předměty v daném souboru, vytváří soubory s daným počtem prvků čte, zapisuje
Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Učební texty ke kurzu Autoři: Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice,
SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Klasifikace analýzou vícerozměrných dat Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce je písemným vypracováním zkouškových otázek z okruhu Klasifikace analýzou vícerozměrných dat.
MĚŘENÍ CHUDOBY A PŘÍJMOVÁ CHUDOBA V ČESKÉ REPUBLICE
MĚŘENÍ CHUDOBY A PŘÍJMOVÁ CHUDOBA V ČESKÉ REPUBLICE Šárka Šustová ČESKÝ STATISTICKÝ ÚŘAD Na padesátém 81, 100 82 Praha 10 czso.cz 1/X MĚŘENÍ CHUDOBY KONCEPTY Objektivní x subjektivní Objektivní založena
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce STATISTICKÁ
Statistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Kalibrace a limity její přesnosti Vedoucí licenčního studia Prof. RNDr. Milan Meloun,
Arnoldiho a Lanczosova metoda
Arnoldiho a Lanczosova metoda 1 Částečný problém vlastních čísel Ne vždy je potřeba (a někdy to není ani technicky možné) nalézt celé spektrum dané matice (velké řídké matice). Úloze, ve které chceme aproximovat
SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404
SOLVER UŽIVATELSKÁ PŘÍRUČKA Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404 1. Solver Program Solver slouží pro vyhodnocení experimentálně naměřených dat. Základem
II. Úlohy na vložené cykly a podprogramy
II. Úlohy na vložené cykly a podprogramy Společné zadání pro příklady 1. - 10. začíná jednou ze dvou možností popisu vstupních dat. Je dána posloupnost (neboli řada) N reálných (resp. celočíselných) hodnot.
Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.
4 Afinita Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe. Poznámka. Vzájemně jednoznačným zobrazením rozumíme zobrazení,
Z X 5 0 4 H o d n o c e n í v l i v ů n a ž i v o t n í p r o s t ř e d í. Vybrané metody posuzování dopadu záměrů na životní
Z X 5 0 4 H o d n o c e n í v l i v ů n a ž i v o t n í p r o s t ř e d í Vybrané metody posuzování dopadu záměrů na životní prostředí. ř Posuzování dopadu (impaktu) posuzované činnosti na životní prostředí
KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce KALIBRACE
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá
STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá 1) Lineární i nelineární regrese prostá, korelace Naeditujeme data viz obr. 1. Obr. 1 V menu Statistika zvolíme submenu Pokročilé lineární/nelineární
Vzdělávací obor matematika
"Cesta k osobnosti" 6.ročník Hlavní okruhy Očekávané výstupy dle RVP ZV Metody práce (praktická cvičení) obor navázání na již zvládnuté ročník 1. ČÍSLO A Žák používá početní operace v oboru de- Dělitelnost
VÍCEKRITERIÁLNÍ ROZHODOVANÍ
VÍCEKRITERIÁLNÍ ROZHODOVANÍ 1 Obsah Typy modelů vícekriteriálního rozhodování Základní pojmy Typy informací Cíl modelů Užitek, funkce užitku Grafické zobrazení Metody vícekriteriální analýzy variant 2
Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.
Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc. Zadání: Do příštího soustředění předložte ke klasifikaci
Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah
MULTIKRITERIÁLNÍ ROZHODOVÁNÍ KOMPLEXNÍ HODNOCENÍ ALTERNATIV
PŘEDNÁŠKA 6 MULTIKRITERIÁLNÍ ROZHODOVÁNÍ KOMPLEXNÍ HODNOCENÍ ALTERNATIV Multikriteriální rozhodování Možnosti řešení podle toho, jaká je množina alternativ pokud množina alternativ X je zadaná implicitně
MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]
MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Základy popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
TEMATICKÝ PLÁN. září říjen
TEMATICKÝ PLÁN Předmět: MATEMATIKA Literatura: Matematika doc. RNDr. Oldřich Odvárko, DrSc., doc. RNDr. Jiří Kadleček, CSc Matematicko fyzikální tabulky pro základní školy UČIVO - ARITMETIKA: 1. Rozšířené