Klasifikace analýzou vícerozměrných dat

Podobné dokumenty
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Kalibrace a limity její přesnosti

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.

Cvičení 12: Binární logistická regrese

Klasifikace podzemních vod diskriminační analýzou

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Úvodem Dříve les než stromy 3 Operace s maticemi

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Kanonická korelační analýza

Popisná statistika. Komentované řešení pomocí MS Excel

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

UNIVERZITA PARDUBICE

Statistická analýza jednorozměrných dat

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

S E M E S T R Á L N Í

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Plánování experimentu

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

UNIVERZITA PARDUBICE

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

UNIVERZITA PARDUBICE

S E M E S T R Á L N Í

Regresní a korelační analýza

Regresní a korelační analýza

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

KORELACE. Komentované řešení pomocí programu Statistica

Vzorová prezentace do předmětu Statistika

Tvorba grafů v programu ORIGIN

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

6. Lineární regresní modely

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

Tvorba nelineárních regresních

Univerzita Pardubice 8. licenční studium chemometrie

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Regresní analýza 1. Regresní analýza

UNIVERZITA PARDUBICE. Semestrální práce z 5. soustředění

UNIVERZITA PARDUBICE

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Regresní a korelační analýza

Kalibrace a limity její přesnosti

Simulace. Simulace dat. Parametry

Měření závislosti statistických dat

Tvorba grafů a diagramů v ORIGIN

KGG/STG Statistika pro geografy

INDUKTIVNÍ STATISTIKA

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Korelace. Komentované řešení pomocí MS Excel

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Statistika pro geografy

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Počítačová analýza vícerozměrných dat

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Faktorová analýza (FACT)

You created this PDF from an application that is not licensed to print to novapdf printer (

Zápočtová práce STATISTIKA I

Regresní a korelační analýza

Kalibrace a limity její přesnosti

Analýza dat na PC I.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

x T 1 matici & S 1 kovarianční matici &

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

6. Lineární regresní modely

UNIVERZITA PARDUBICE

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Lineární regrese. Komentované řešení pomocí MS Excel

Aproximace a vyhlazování křivek

Třídění statistických dat

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Statistická analýza. jednorozměrných dat

Monitoring vod. Monitoring podzemní voda:

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Tvorba nelineárních regresních modelů v analýze dat

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

vzorek vzorek

Transkript:

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Klasifikace analýzou vícerozměrných dat Zdravotní ústav se sídlem v Ostravě Odbor hygienických laboratoří Karviná V Karviné dne 2.5.26 Ing. Miluše Galuszková 1/31

Předmět: 3.5 Klasifikace analýzou vícerozměrných dat Přednášející: Prof. RNDr. Milan Meloun, DrSc Zadání: Vypracujte písemně a postavte si alespoň 3 (tři) úlohy z dat Vašeho pracoviště (nebo z literatury) a vyřešte. Každá úloha bude mít strukturu dle vzorových příkladů v učebnici M. Meloun, J. Militký: Kompendium statistického zpracování experimentálních dat, Academia Praha 22, t. zn. Nadpis příkladu, Zadání, Data, Program, Řešení, Output, Obrázky, Závěr a bude doplněna disketou nebo CD s daty, výstupy a protokolem ve formátu *.DOC a *.PDF. V 1. úloze proveďte klasifikaci diskriminační analýzou DA. V 2. úloze aplikujte buď logistickou regresi LR nebo kanonickou korelační analýzu CCA, a to dle charakteru Vašich dat. Ve 3. úloze aplikujte metodu vícerozměrného škálování MDS a korespondenční analýzu CA kategorických dat. Pokud je to možné tak v úlohách využijte i shlukovou analýzu, výpočty korelační matice a kovarianční matice. K analýze vícerozměrných dat vždy patří úvodní exploratorní analýza vícerozměrných dat a její grafické diagnostiky (sluníčka, hvězdičky, rozptylové diagramy, atd.). Svůj postup velice detailně komentujte, popište a vysvětlete, abyste přesvědčili, že dané metodice dokonale rozumíte. Nejvíce se cení fyzikální, chemický či biologický smysl úlohy. Obsah Úloha 1. Monitoring vod 3 Exploratorní analýza vstupních dat 6 Diskriminační model Klasifikace objektů 1 Závěr 15 Úloha 2. Vzdělání a zařazení do zaměstnání 16 Řádkové a sloupcové profily 17 Počet projekčních dimenzí 18 Řádkové a sloupcové souřadnice a příspěvky do inercie 19 Diagnostické grafy korespondenční analýzy 2 Závěr 21 Úloha 3. Vody kanonická korelační analýza 22 Exploratorní analýza vstupních dat 23 Kanonická korelační analýza 28 Závěr 31 2/31

Úloha 1. Monitoring vod Zadání Byl proveden rozbor vod 9 vzorků vod v oblasti ovlivněné důlní činností. Odebrané vzorky vod z této oblasti byly rozdělené podle místa a způsobu odběru do tří tříd (matrice): vody minerální (léčivá minerální voda), podzemní (studny, vrty mimo ložisko minerální vody) a vody povrchové. V tomto výběru byly stanovovány znaky:,, vápník a sodík. Sestavte diskriminační model a proveďte klasifikaci objektů, zda byly správně zařazeny. Data: objekty 9 vzorků vod třídy voda minerální VM (matrice) voda podzemní VPOD voda povrchová VPOV diskriminátory vápník sodík Číslo vzorku mg/l Ca Na Matrice 1 1, 86,2 129, 91,8 VM 2 16,5 22,7 44,5 13,2 VPOV 3 26,7 35,3 59,5 23, VPOV 4 6,3 33,4 36, 8,1 VPOV 5 193, 217, 86,3 161, VM 6 33, 112, 145, 35,4 VPOD 7 179, 186, 78, 151, VM 8 5,6 39,1 27, 6,8 VPOV 9 112, 227, 91, 137, VM 1 11,2 28,4 29,4 17,6 VPOV 11 41,4 64,3 64, 29,1 VPOD 12 12, 126, 1, 15, VM 13 36,5 64,3 67,5 27,7 VPOD 14 27,4 44,2 65,5 22,2 VPOD 15 48,4 64,3 67, 36,1 VPOD 16 56,2 51,7 7,5 41,5 VPOD 17 18,2 44,2 64,5 16,6 VPOV 18 28,8 44,2 7, 17,8 VPOV 19 18,3 39,1 49, 17,7 VPOV 2 16,1 6,7 44, 1,6 VPOV 21 7, 25,4 37,6 12, VPOV 22 18,3 36,6 31, 13,5 VPOV 23 33,7 58,1 86, 36,3 VPOD 3/31

Číslo vzorku mg/l Ca Na Matrice 24 48,2 4,4 41, 42,2 VPOD 25 6,3 15,8 51, 12, VPOV 26 35,1 54, 51,5 32,8 VPOD 27 8,4 18,9 47, 22,8 VPOV 28 37,2 61,8 69, 34,2 VPOD 29 193, 212, 9,3 22, VM 3 214, 197, 75,2 247, VM 31 138, 181, 126, 194, VM 32 4,7 59,3 65, 3,3 VPOD 33 37,2 73,2 72,5 5,9 VPOD 34 124, 115, 96,5 153, VM 35 4, 72,3 58,6 28,8 VPOD 36 28,8 61,8 65, 26,9 VPOV 37 28,1 83,3 68,5 32,7 VPOD 38 5,6 73,2 65,5 59,6 VPOD 39 92,1 155, 244, 88,8 VM 4 38,4 148, 95, 63,8 VPOD 41 15, 313, 94, 26, VM 42 175, 321, 96,2 186, VM 43 91,3 93, 14, 89,9 VM 44 177, 273, 127, 175, VM 45 166, 217, 92,5 192, VM 46 163, 243, 77,5 188, VM 47 45,6 7,7 6, 39,7 VPOD 48 57,6 65, 6, 43,4 VPOD 49 34,4 82,4 75, 25, VPOD 5 19, 68,2 5,5 16,5 VPOV 51 111, 13, 84,8 95, VM 52 44,2 63,1 62, 35,7 VPOD 53 161, 192, 89,5 236, VM 54 152, 187, 75,4 218, VM 55 15,4 43,5 38,5 16,4 VPOV 56 31,6 88,3 95,5 43, VPOD 57 15, 27, 82, 194, VM 58 46,3 146, 63, 36,6 VPOD 59 49,8 83,3 77, 51,4 VPOD 6 43,5 78,2 6, 51, VPOD 61 25,3 48,2 5,5 22,5 VPOV 62 242, 185, 8, 26, VM 63 283, 237, 84,7 255, VM 64 163, 323, 84, 163, VM 65 128, 142, 65,5 87,7 VM 66 122, 85,8 6, 88,7 VM 67 132, 363, 14, 18, VM 68 7, 56,8 41, 4,9 VPOV 4/31

Číslo vzorku mg/l Ca Na Matrice 69 171, 474, 117, 274, VM 7 7,7 35,5 37, 1,6 VPOV 71 28,1 21,5 35,5 38, VPOV 72 125, 73,2 78,5 93,8 VM 73 39,8 162, 84, 54, VPOD 74 35,2 73,2 65,3 48,2 VPOD 75 2, 15,8 23,5 1,7 VPOV 76 12,6 14,5 34,2 19, VPOV 77 2,4 51,7 25,5 11,5 VPOV 78 28,8 119, 81,5 25, VPOD 79 4, 68,2 61,5 31,1 VPOD 8 36,4 72,3 57,5 31, VPOD 81 2, 35,3 27,5 9,5 VPOV 82 112, 151, 71,5 95,7 VM 83 36,4 9,8 46, 28,3 VPOD 84 11,2 6,7 27,5 13,8 VPOV 85 2,4 28, 33, 14,8 VPOV 86 11,9 42,5 61,5 9,7 VPOV 87 14, 227, 91,6 156, VM 88 12,6 3,9 49,8 12,3 VPOV 89 26, 53, 56,5 14,1 VPOV 9 2,4 78,2 4, 16,7 VPOV Program: Statistika Standard 7 Cz Řešení 1. Exploratorní analýza 2. Diskriminační model 3. Klasifikace objektů 5/31

1. Exploratorní analýza Krabicové grafy 3 Krabicový graf 25 2 15 1 5-5 -1 Ca Na Průměr Průměr±SmOdch Průměr±1,96*SmOdch Krabicové grafy přehledně zobrazily proměnlivost znaků matice zdrojových dat Monitoring vod. Největší míru proměnlivosti dosahují znaky, velkou proměnlivost mají znaky a Na, nejmenší proměnlivost má Ca. Histogramy 7 Histogram: K-S d=,2555, p<,1 ; Lilliefors p<,1 Očekávané normální 7 Histogram: K-S d=,2263, p<,1 ; Lilliefors p<,1 Očekávané normální 6 6 5 5 Počet pozor. 4 3 Počet pozor. 4 3 2 2 1 1-5 5 1 15 2 25 3-1 1 2 3 4 5 x <= hranice kategorie x <= hranice kategorie 7 Histogram: Ca K-S d=,9661, p>.2; Lilliefors p<,5 Očekávané normální 6 Histogram: Na K-S d=,24292, p<,1 ; Lilliefors p<,1 Očekávané normální 6 5 5 4 Počet pozor. 4 3 Počet pozor. 3 2 2 1 1 5 1 15 2 25 x <= hranice kategorie -5 5 1 15 2 25 3 x <= hranice kategorie Rozdělení hustoty pro znaky, Ca a Na není dvojrozměrně normální, vidíme rozdělení na více než jeden shluk. Nejhůře rozděluje znak. 6/31

Rozptylové diagramy pro páry Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) 3 Na = -1,3646+1,617*x 3 Na = -3,1711+,6956*x 25 25 2 2 15 15 Na Na 1 1 5 5-5 -5 5 1 15 2 25 3 :Na: r =,9439; p =, -5-1 1 2 3 4 5 :Na: r =,8522; p =, Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) 26 Ca = 52,755+,2546*x 26 Ca = 47,8554+,22*x 24 24 22 22 2 2 18 18 16 16 Ca 14 12 Ca 14 12 1 1 8 8 6 6 4 4 2 2-5 5 1 15 2 25 3 :Ca: r =,5244; p =,1-1 1 2 3 4 5 :Ca: r =,5733; p =,4 3 Bodový graf (data_vody_da 5v*9c) Na = -14,5282+1,2391*x 25 2 15 Na 1 5-5 2 4 6 8 1 12 14 16 18 2 22 24 26 Ca:Na: r =,5348; p =,6 Ca Mezi znaky :Na, :Na je silná lineární závislost. Existují shluky s nižší a vyšší koncentrací chloridů, síranů a Na. 7/31

Symbolové grafy Ikonový graf (data_vody_da 5v*9c) 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48 49 5 51 52 53 54 55 56 57 58 59 6 61 62 63 64 65 66 67 68 69 7 71 72 73 74 75 76 77 78 79 8 81 82 83 84 85 86 87 88 89 9 tvář/šíř = ucho/úrov = polovina tváře/výš = Ca horní tvář/exc = Na Ikonový graf (data_vody_da 5v*9c) 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48 49 5 51 52 53 54 55 56 57 58 59 6 61 62 63 64 65 66 67 68 69 7 71 72 73 74 75 76 77 78 79 8 81 82 83 84 85 86 87 87 89 9 Pravotočivě: Ca Na Symbolové grafy indikují podobné objekty Vlastnosti objektů se posuzují podle vizuálních rozdílů. Existuje několik shluků podobných objektů, zcela odlišné od ostatních se jeví objekty 39, 63, 69. 8/31

Maticový diagram Korelace (data_vody_da 5s*9ř) Ca Na Na obrázku jsou znázorněny histogramy a maticové grafy korelace znaků,, Ca, Na zdrojové matice Monitoring vod. např. v rozptylovém grafu závislosti diskriminátoru na diskriminátoru Na jsou patrný jeden velký shluk a dva mraky. Jde patrně o dvě až tři třídy.podobné dělení je patrné v závislosti diskriminátoru na diskriminátoru Na. Popisné statistiky proměnná N platných Průměr Minimum Maximum Sm. odch. 9 68,83 2, 283 64,89 9 17,66 14,5 474 89,44 Ca 9 69,6 23,5 244 31,51 Na 9 71,71 1,7 274 73, Korelace (celkové) Ca Na 1,,797,524,944,797 1,,573,852 Ca,524,573 1,,535 Na,944,852,535 1, Červeně označené korelace jsou významné na hlad. p<,5 9/31

Popisné statistiky diskriminátorů Matrice Průměry (data_monitoring vod) Ca Na Počet VM 151,15 23,74 95,87 161,88 3 VPOV 15,28 39,66 42,92 15,2 3 VPOD 4,6 79,56 7,1 38,23 3 celkem 68,83 17,66 69,6 71,71 9 Tabulka obsahuje průměry každého diskriminátoru pro každou třídu vzorků vod a jejich sumy. Matrice Směrodatné odchylky (data_monitoring vod) Ca Na Počet VM 44,35 9,78 32,79 57,41 3 VPOV 8,11 16,5 12,98 7,4 3 VPOD 7,75 29,8 18,79 1,65 3 celkem 64,89 89,44 31,51 73, 9 Tabulka obsahuje směrodatné odchylky každého diskriminátoru pro každou třídu vzorků vod a jejich sumy. Posuzujeme, zda jsou směrodatné odchylky v jednotlivých třídách přibližně stejné. Směrodatné odchylky tříd VM, VPOV, VPOD jsou odlišné pro diskriminátor. Proměnná Vnitřní korelace (data_monitoring vod) Ca Na 1,,317 -,225,79,317 1,,125,553 Ca -,225,125 1, -,96 Na,79,553 -,96 1, Proměnná Kovariance (data_monitoring vod) Ca Na 1,,317 -,225,79,317 1,,125,553 Ca -,225,125 1, -,96 Na,79,553 -,96 1, 1/31

Grafy bodové kategorizované Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) 26 3 24 22 25 2 18 2 16 14 15 Ca 12 1 Na 1 8 5 6 4 2-5 5 1 15 2 25 3 Matrice: VM Matrice: VPOV Matrice: VPOD -5-5 5 1 15 2 25 3 Matrice: VM Matrice: VPOV Matrice: VPOD Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) 26 3 24 22 25 2 18 2 16 14 15 Ca 12 1 Na 1 8 5 6 4 2-1 1 2 3 4 5 Matrice: VM Matrice: VPOV Matrice: VPOD -5-1 1 2 3 4 5 Matrice: VM Matrice: VPOV Matrice: VPOD Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) 3 5 25 4 2 3 15 Na 1 2 1 5-5 2 4 6 8 1 12 14 16 18 2 22 24 26 Matrice: VM Matrice: VPOV Matrice: VPOD -1-5 5 1 15 2 25 3 Matrice: VM Matrice: VPOV Matrice: VPOD Ca Pomocí bodových kategorizovaných grafů vidíme, že nejsilnějšími diskriminátory jsou Ca,, nejslabším diskriminátorem jsou. 11/31

2. Diskriminační model y 1x1 2x2 3x3 4x4 Výsledky diskriminační funkční analýzy (data_monitoring vod) Počet prom. v modelu: 4; grupovací: Matrice (3 skup) Wilks. lambda:,1771 přibliž F (8,168)=42,987 p<, F na vyj 1-toler. N=9 Wilks.Lamda Parc.Lambda Úroveň p Toler. (2,85) R^2,153338,72445 17,7912,,46919,5381,1839,994479,23318,792521,65768,342392 Ca,149415,72885 16,26171,1,9627,9373 Na,1126,978962,926,4948,377588,622413 Tabulka ukazuje vliv jednotlivých diskriminátorů na zařazení vzorku vod do tříd. Wilks. kritérium vyjadřuje diskriminační sílu navrženého modelu. Velkou diskriminační sílu mají diskriminátory a Ca. Výsledky diskriminační funkční analýzy (data_monitoring vod) Počet prom. v modelu: 3; grupovací: Matrice (3 skup) Wilks. lambda:,1831 přibliž F (6,17)=57,759 p<, F na vyj 1-toler. N=9 Wilks.Lamda Parc.Lambda Úroveň p Toler. (2,85) R^2,153781,7438 17,8429,,472496,52754 Ca,15674,69396 18,74272,,94988,5912 Na,11144,975373 1,731,346534,49321,5679 Proměnné aktuálně neobsažené v modelu (data_monitoring vod) SV pro vš. F-testy: 2,84 N=9 Wilks.Lamda Parc.Lambda F na zahr. Úroveň p Toler. 1-toler. R^2,17711,994479,233182,79252,65768,342392 Tabulky po odstranění diskriminátoru udávají hodnotu Wilks. kritérium, F test představuje hodnotu F kritéria k testování Wilks. kritéria. Kritéria nesplňuje diskriminátor Na. Výsledky diskriminační funkční analýzy (data_monitoring vod) Počet prom. v modelu: 2; grupovací: Matrice (3 skup) Wilks. lambda:,1114 přibliž F (4,172)=86,39 p<, F na vyj 1-toler. N=9 Wilks.Lamda Parc.Lambda Úroveň p Toler. (2,86) R^2,523941,21194 159,8878,,949187,5813 Ca,161891,685919 19,6897,,949187,5813 Parciální ukazuje na znaky, které nejvíce přispívají k diskriminaci. Čím nižší, tím větší síla diskriminátoru. V předchozích tabulkách vidíme, že diskriminační síla diskriminátorů, Ca byla podobná. Po odstranění diskriminátorů a Na ukazuje, že nejsilnějším diskriminátorem je znak. Chloridy mají přibližně 8x vyšší diskriminační sílu. 12/31

Vyčíslení diskriminační funkce Klasifikační funkce, grupovací (data_monitoring vod) Proměnná Klasifikační funkce pro třídu bude mít tvar: VM p=,333 VPOV p=,333 VPOD p=,333,2657,3982,878 Ca,2487,993,15423 konst. -33,995-3,3545-8,25634 VM - 33,995 +,2657 +,2487 Ca VPOV - 3,3545 +,,3982 +,993 Ca VPOD - 8,25634 +,878 +,15423 Ca Zjednodušený diskriminační model: y 1x1 2x2 3. Klasifikace objektů Klasifikační matice Klasifikační matice (data_monitoring vod) Řádky: pozorované matice Sloupce: předpovězené klasifikace Skup. % správných VM p=,333 VPOV p=,333 VPOD p=,333 VM 1 3 VPOV 86,67 26 4 VPOD 96,67 1 29 Celkem 94,44 3 27 33 Tabulka ukazuje, jak navržené diskriminační funkce zařazují vzorky vod do 3 tříd. VM bylo předpovězeno 3 a nalezeno 3. VPOV bylo správně zařazeno 26 a nesprávně 4. VPOD 29 správně a 1 špatně zařazený vzorek vody do matrice VPOV. 13/31

Zařazování objektů do tříd Případ Mahalanobisovy vzdálenosti (data_monitoring vod) Nesprávná klasifikace je označena * Případ Aposteriorní pravděpodobnosti (data_monitoring vod) Nesprávná klasifikace je označena * Pozorov. VM VPOV VPOD Pozorov. VM VPOV VPOD Pozorov. 1 2 3 Klasif. p=,33333 p=,33333 p=,33333 Klasif. p=,33333 p=,33333 p=,33333 Klasif. p=,33333 p=,33333 p=,33333 1 VM 4,8383 31,1985 15,7331 1 VM,994144,2,5854 1 VM VM VPOD VPOV 2 VPOV 38,187,87 2,59557 2 VPOV,,784728,215272 2 VPOV VPOV VPOD VM * 3 VPOV 29,5449,889,5978 * 3 VPOV,,463667,536333 * 3 VPOV VPOD VPOV VM 4 VPOV 45,5485,2651 4,971 4 VPOV,,91599,8941 4 VPOV VPOV VPOD VM 5 VM 2,5152 57,4448 37,811 5 VM 1,,, 5 VM VM VPOD VPOV 6 VPOD 21,33869 22,5167 1,79563 6 VPOD,595,2827,99278 6 VPOD VPOD VM VPOV 7 VM 1,41591 47,42 3,15259 7 VM,999999,,1 7 VM VM VPOD VPOV 8 VPOV 49,2342,7634 6,6122 8 VPOV,,94935,5965 8 VPOV VPOV VPOD VM 9 VM 2,5125 22,333 9,86745 9 VM,975317,48,24635 9 VM VM VPOD VPOV 1 VPOV 45,58283,4299 5,43729 1 VPOV,,924399,7561 1 VPOV VPOV VPOD VM 11 VPOD 22,9352 2,3397,682 11 VPOD,8,24385,75697 11 VPOD VPOD VPOV VM 12 VM 1,39884 27,6758 13,333 12 VM,99744,2,2594 12 VM VM VPOD VPOV 13 VPOD 23,98288 2,2831,3858 13 VPOD,5,245588,75448 13 VPOD VPOD VPOV VM 14 VPOD 27,88658 1,4449,32684 14 VPOD,1,363775,636224 14 VPOD VPOD VPOV VM 15 VPOD 19,987 3,4268,1353 15 VPOD,42,159536,84422 15 VPOD VPOD VPOV VM 16 VPOD 16,769 4,9152,425 16 VPOD,252,94682,9565 16 VPOD VPOD VPOV VM * 17 VPOV 31,8975,9842,87573 * 17 VPOV,,486439,513561 * 17 VPOV VPOD VPOV VM * 18 VPOV 26,4275 2,137,19152 * 18 VPOV,1,286781,713218 * 18 VPOV VPOD VPOV VM 19 VPOV 35,86118,113 1,9457 19 VPOV,,715488,284512 19 VPOV VPOV VPOD VM 2 VPOV 38,33568,4 2,69259 2 VPOV,,793193,2687 2 VPOV VPOV VPOD VM 21 VPOV 44,65621,1939 4,56613 21 VPOV,,898994,116 21 VPOV VPOV VPOD VM 22 VPOV 41,775,2669 4,3927 22 VPOV,,887124,112876 22 VPOV VPOV VPOD VM 23 VPOD 21,9322 4,86,48782 23 VPOD,2,13483,896497 23 VPOD VPOD VPOV VM 24 VPOD 26,37256 1,5948 1,58259 24 VPOD,2,498479,51519 24 VPOD VPOD VPOV VM 25 VPOV 4,74411,1947 2,93742 25 VPOV,,79763,22397 25 VPOV VPOV VPOD VM 26 VPOD 28,2534,8717,78725 26 VPOD,1,48945,5155 26 VPOD VPOD VPOV VM 27 VPOV 4,94588,827 3,1335 27 VPOV,,82113,178897 27 VPOV VPOV VPOD VM 28 VPOD 23,4284 2,5183,1662 28 VPOD,6,222556,777438 28 VPOD VPOD VPOV VM 29 VM 2,5257 58,7179 38,56763 29 VM 1,,, 29 VM VM VPOD VPOV 3 VM 5,829 66,7134 46,45962 3 VM 1,,, 3 VM VM VPOD VPOV 31 VM 1,74999 44,3637 24,97161 31 VM,999991,,9 31 VM VM VPOD VPOV 32 VPOD 22,9742 2,379,4787 32 VPOD,8,237659,762333 32 VPOD VPOD VPOV VM 33 VPOD 22,76936 2,9638,193 33 VPOD,9,186577,813414 33 VPOD VPOD VPOV VM 34 VM 1,156 28,799 13,76637 34 VM,998225,1,1774 34 VM VM VPOD VPOV 35 VPOD 24,63951 1,712,25842 35 VPOD,3,325896,6741 35 VPOD VPOD VPOV VM * 36 VPOV 27,44132 1,4742,28516 * 36 VPOV,1,355594,64445 * 36 VPOV VPOD VPOV VM 37 VPOD 26,97833 1,7996,23459 37 VPOD,1,313776,686222 37 VPOD VPOD VPOV VM 38 VPOD 19,47712 3,5156,17114 38 VPOD,54,158117,841829 38 VPOD VPOD VPOV VM 39 VM 41,89287 11,126 71,852 39 VM 1,,, 39 VM VM VPOD VPOV 4 VPOD 19,27921 7,1167 1,2799 4 VPOD,113,49525,95362 4 VPOD VPOD VPOV VM 41 VM 3,2975 2,8981 8,72454 41 VM,937884,141,61975 41 VM VM VPOD VPOV 42 VM,86588 5,7889 31,6195 42 VM 1,,, 42 VM VM VPOD VPOV 43 VM 5,16161 19,7362 7,61128 43 VM,77254,529,226967 43 VM VM VPOD VPOV 44 VM 3,55626 64,132 4,84173 44 VM 1,,, 44 VM VM VPOD VPOV 45 VM,31671 45,64 27,16874 45 VM,999999,,1 45 VM VM VPOD VPOV 46 VM,7138 39,319 23,6632 46 VM,99999,,1 46 VM VM VPOD VPOV 47 VPOD 22,32588 2,3699,2166 47 VPOD,12,252721,747267 47 VPOD VPOD VPOV VM 48 VPOD 18,38149 3,8463,52645 48 VPOD,111,159752,84137 48 VPOD VPOD VPOV VM 49 VPOD 23,34959 3,682,7558 49 VPOD,7,182975,81717 49 VPOD VPOD VPOV VM 5 VPOV 35,12694,1567 1,74398 5 VPOV,,688612,311387 5 VPOV VPOV VPOD VM 51 VM 3,2347 2,4377 8,85319 51 VM,948427,157,51416 51 VM VM VPOD VPOV 52 VPOD 22,37151 2,4143,12718 52 VPOD,11,241662,758326 52 VPOD VPOD VPOV VM 53 VM,178 41,6622 24,68424 53 VM,999995,,5 53 VM VM VPOD VPOV 54 VM,81683 33,7855 19,45648 54 VM,99991,,9 54 VM VM VPOD VPOV 55 VPOV 4,4219,382 3,4935 55 VPOV,,84897,15193 55 VPOV VPOV VPOD VM 56 VPOD 21,6221 6,5455 1,2267 56 VPOD,35,6539,934575 56 VPOD VPOD VPOV VM 57 VM,3959 34,5433 19,5751 57 VM,999931,,69 57 VM VM VPOD VPOV 58 VPOD 21,4336 2,7374,12213 58 VPOD,19,212877,78714 58 VPOD VPOD VPOV VM 59 VPOD 17,7136 5,169,29312 59 VPOD,151,86114,913735 59 VPOD VPOD VPOV VM 6 VPOD 23,688 2,1563,18955 6 VPOD,8,272221,727771 6 VPOD VPOD VPOV VM 61 VPOV 32,44896,3246 1,3732 61 VPOV,,62423,379577 61 VPOV VPOV VPOD VM 62 VM 11,84293 86,9194 63,3783 62 VM 1,,, 62 VM VM VPOD VPOV 63 VM 25,35993 12,448 92,36246 63 VM 1,,, 63 VM VM VPOD VPOV 64 VM,38137 41,333 24,55972 64 VM,999994,,6 64 VM VM VPOD VPOV 65 VM 3,1834 22,1857 11,41334 65 VM,983866,74,166 65 VM VM VPOD VPOV 66 VM 4,64526 19,218 9,7155 66 VM,9255,639,73862 66 VM VM VPOD VPOV 67 VM,56331 33,5235 17,49264 67 VM,999789,,211 67 VM VM VPOD VPOV 68 VPOV 43,51252,1233 4,65 68 VPOV,,87773,122297 68 VPOV VPOV VPOD VM 69 VM 1,8676 56,4873 35,6778 69 VM 1,,, 69 VM VM VPOD VPOV 7 VPOV 44,52657,1912 4,57214 7 VPOV,,899392,168 7 VPOV VPOV VPOD VM 71 VPOV 35,87637,2829 2,8968 71 VPOV,,78694,2136 71 VPOV VPOV VPOD VM 72 VM 1,98384 23,7341 11,6366 72 VM,991899,19,883 72 VM VM VPOD VPOV 73 VPOD 2,3662 5,35,38462 73 VPOD,49,8955,91896 73 VPOD VPOD VPOV VM 74 VPOD 24,922 1,9387,9746 74 VPOD,3,284829,715168 74 VPOD VPOD VPOV VM 75 VPOV 52,38492 1,2141 7,85131 75 VPOV,,96562,34938 75 VPOV VPOV VPOD VM 76 VPOV 43,18514,1795 4,4448 76 VPOV,,89434,15966 76 VPOV VPOV VPOD VM 77 VPOV 42,79842,576 5,18888 77 VPOV,,99629,9371 77 VPOV VPOV VPOD VM 78 VPOD 24,38972 3,63,35183 78 VPOD,5,162588,83747 78 VPOD VPOD VPOV VM 79 VPOD 23,97691 1,9647,14388 79 VPOD,5,286919,71376 79 VPOD VPOD VPOV VM 8 VPOD 26,23563 1,3347,36589 8 VPOD,1,38128,61879 8 VPOD VPOD VPOV VM 81 VPOV 5,8523,8968 7,2757 81 VPOV,,955443,44557 81 VPOV VPOV VPOD VM 82 VM 4,2345 17,926 7,962 82 VM,861673,927,1374 82 VM VM VPOD VPOV * 83 VPOD 29,27342,7432 1,2335 * 83 VPOD,,566,4394 * 83 VPOD VPOV VPOD VM 84 VPOV 46,29736,5448 5,79274 84 VPOV,,932387,67613 84 VPOV VPOV VPOD VM 85 VPOV 4,5548,1947 3,86333 85 VPOV,,862275,137725 85 VPOV VPOV VPOD VM 86 VPOV 35,35798,652 1,52793 86 VPOV,,67773,392227 86 VPOV VPOV VPOD VM 87 VM,268 32,9214 17,69283 87 VM,999836,,164 87 VM VM VPOD VPOV 88 VPOV 38,17254,93 2,3839 88 VPOV,,75866,241394 88 VPOV VPOV VPOD VM 89 VPOV 3,5668,6523,8811 89 VPOV,,519469,4853 89 VPOV VPOV VPOD VM 9 VPOV 37,69635,448 2,82711 9 VPOV,,878,19922 9 VPOV VPOV VPOD VM Případ Klasifikace případů (data_monitoring vod) Nesprávná klasifikace je označena * Chybně zařazené případy jsou označeny *. Vzorky vod ( případy ) č.3,17,18,36 byly nesprávně zařazeny jako VPOV, správně měly být zařazeny jako VPOD. Případ 83 by zařazen do VPOD, ale patří mezi VPOV. 14/31

9 Kořen1 vs. kořen2 8 7 6 5 4 Kořen2 3 2 1-1 -2-3 -1-8 -6-4 -2 2 4 6 Kořen1 VM VPOV VPOD Vzorky vod třídy VPOD, VPOV jsou zobrazeny na diagramu mnohem více vpravo, proto první diskriminační funkce diskriminuje mezi těmito třídami a třídou VM. Druhá diskriminační funkce diskriminuje mezi vzorky vod třídy VM, které vykazují záporné hodnoty druhé diskriminační funkce a ostatními vzorky vod, které mají kladné hodnoty. Závěr: y 1x x Byl sestaven zjednodušený diskriminační model 1 2 2 Nejvhodnějšími diskriminátory jsou znaky a Ca. Klasifikací objektů bylo identifikováno 5 špatně zařazených objektů do tříd. Chybně nebyly zařazeny. vzorky vod do matrice minerální vody (VM). Nesprávně byly zařazeny vzorky č. 3, 17,18, 36. Jedná se o podzemní vody(vpod), nikoli o vody povrchové(vpov). Úspěšnost diskriminačního zařazování do tříd byla 94,44%. Vidíme, že při monitoringu vod pro zařazování do tříd nestačí pouze znalost místa a způsobu odběru. Diskriminační analýza poodhalila možný průsak podzemních vod do povrchových, který mohl být způsoben důlní činností. 15/31

Úloha 2. Vzdělání a zařazení do zaměstnání Zadání Ve statistické ročence ČR 22 jsou uvedeny údaje o bilanci obyvatelstva a jeho struktury podle vzdělání. Výběrové šetření pracovních sil je zdrojem informací o trhu práce, zjišťovaným šetřením v domácnostech respondentů. Údaje uvedené v tabulce jsou za r. 21. Zaměstnaní jsou všechny osoby 15-ti leté a starší, které ve sledovaném období byly bez práce nebo hledali aktivně práci (úřad práce), popř.byly připraveny k nástupu do práce nejpozději do 14 dnů. Nepatří sem osoby, které hledají své první zaměstnání po studiu. Dále jsou v tabulce údaje o vzdělání pro neaktivní osoby, t.j. důchodci a studenti. proveďte korespondenční analýzu kategorických dat k zobrazení skryté vnitřní závislosti. Klasifikujte obyvatelstvo z pohledu vzdělání a pracovního zařazení. Data v tis. osobách vzdělání zaměstnaní nezaměstnaní důchodci studenti ZA 49,2 19 862,4 481,6 SO 21,1 185,9 736,6 13,4 VM 84,2 7,8 5,9 2,4 USO 1467,3 81,6 37,6 84,8 USV 187,8 16,1 62,2 116,5 VŠ 586,1 14,7 11,6 1,6 BV 5,4 5,8 48,5 87,4 vzdělání: ZA SO VM USO USV VŠ BV základní střední odborné vyučení s maturitou úplné střední odborné úplné střední všeobecné vysokoškolské bez vzdělání a nezjištěno Program Statistika Standard 7 CZ 16/31

Řešení Řádkové a sloupcové profily Řádkové profily v procentech Procenta z řádk. součtů (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=, zaměst. nezaměst. důchodci studenti Celkem ZA 21,97 5,85 46,31 25,86 1, SO 68,23 6,31 25,,45 1, VM 83,95 7,78 5,88 2,39 1, USO 73,21 4,7 18,49 4,23 1, USV 49,9 4,21 16,26 3,45 1, VŠ 81,18 2,4 15,32 1,47 1, BV 3,67 3,94 32,97 59,42 1, průměr 54,47 4,89 22,89 17,75 1, V tabulce vidíme, jak korespondenční analýza vyšetřila rozdíly mezi jednotlivými řádkovými profily a celkovým řádkovým profilem, který je v tabulce označen jako průměr. Sloupcové profily v procentech Procenta ze sloupc. součtů (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=, zaměst. nezaměst. důchodci studenti průměr ZA 8,61 25,9 39,26 6,45 33,55 SO 42,32 44,17 33,53 1,68 3,42 VM 1,77 1,85,27,3 1,5 USO 3,89 19,39 16,87 1,64 19,45 USV 3,95 3,83 2,83 14,62 6,31 VŠ 12,34 3,49 5,3 1,33 5,55 BV,11 1,38 2,21 1,97 3,67 Celkem 1, 1, 1, 1, 1, V tabulce jsou uvedeny sloupcové profily a celkový sloupcový průměr vyjádřené v procentech. 17/31

Počet projekčních dimenzí K získání celkové společné těsnosti proložení je nutné identifikovat počet projekčních dimenzí. Výpočtem Maximální počet dimenzí, které mohou být užity, je roven menšímu číslu z počtu řádků nebo sloupců zmenšené o 1. V příkladu máme 7 řádků a 4 sloupce. Maximální počet dimenzí je roven: 4-1=3 Cattelův indexový graf úpatí Vybereme počet dimenzí, založených na celkové úrovni objasněné variability v kategoriích a sledujeme přírůstek v objasněné variabilitě při přidání dalších dimenzí. Klíčové pravidlo zní: Dimenze s vlastním číslem (inercií) větší než,2 by měla být zařazena do analýzy.,35 Graf vlastních čísel Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=,,3,25 Vlast. číslo,2,15,1,5, 1 2 3 Počet dimenzí Vlast. čísla a inerce pro všechny dimenze (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=, Počet Singul. Vlast. Procent Kumulat. Chí dimenzí čísla čísla inerce Procent kvadrát 1,526845,277565 89,25 89,2514 2266,2 2,1767,31223 1,4 99,2911 254,9 3,46953,225,71 1, 18, V tabulce uvedené kumulativní procento představuje objem celkové informace, který je zobrazený počtem dimenzí. První dvě dimenze pokryjí 99,29% celkové informace. To znamená, že redukce dimenzí na dvě způsobí ztrátu pouze,71% informace. Inercie větší než,2 by měla být zařazena do analýzy. Individuální procento a kumulativní procenta jsou počítané ze všech vlastních čísel. Platí zde pravidlo, že první dvě dimenze mají pokrýt alespoň 9% celkové variability v datech. Kumulativní procento je větší ne 5%, proto můžeme korespondenční analýzu pro data použít. Výsledek hledání počtu projekčních dimenzí je 2. 18/31

Řádkové a sloupcové souřadnice a příspěvky do inercie Sloupcové souřadnice a příspěvky k inerci (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Sloupec Sloupec Souřad. Souřad. Masa Kvalita Relativ. inerce Cos^2 inerce Cos^2 Název Počet Dim.1 Dim.2 Inerce Dim.1 Dim.1 Dim.2 Dim.2 zaměst. 1,378 -,77,582 1,,278,299,96,111,4 nezaměst. 2 -,45,176,52,462,12,,28,51,433 důchodci 3 -,339,247,269,996,153,111,649,527,346 studenti 4-1,295 -,316,98 1,,557,589,944,311,56 Sloupcové souřadnice a příspěvky k inerci (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Sloupe Sloupec Souřad. Souřad. Masa Kvalita Relativ. inerce Cos^2 inerce Cos^2 c Název Počet Dim.1 Dim.2 Inerce Dim.1 Dim.1 Dim.2 Dim.2 zaměst. 1,378 -,77,582 1,,278,299,96,111,4 nezaměst. 2 -,45,176,52,462,12,,28,51,433 důchodci 3 -,339,247,269,996,153,111,649,527,346 studenti 4-1,295 -,316,98 1,,557,589,944,311,56 USV 5 -,54 -,488,47,992,75,43,512,358,48 VŠ 6,446 -,145,88,955,65,63,864,6,92 BV 7-1,649 -,576,18,999,177,177,89,192,19 Osa 1 a osa 2 představuje užité dimenze grafu ( první hlavní komponenty). Cílem korespondenční analýzy je sestrojení grafů v dvojrozměrném prostoru a grafická prezentace řádků a sloupců velkých četnostních tabulek. V tabulce uvedená Kvalita je suma hodnot Cos^2 Dim.1, Cos^2 Dim.2 obou osob. Je to díl variability v dotyčném profilu, který je reprodukován oběma osami. Oba profily jsou nad 89,4%. Body, které budou zobrazené v grafu nejsou zkresleny použitým projekčním procesem snížené dimenze. Masa je váha, která představuje procentuální podíl celé tabulky v této kategorii, to je u řádkové váhy představovaný tímto řádkem. 2 Inercie je Pearsonovo dělené sumou všech četností prvků tabulky. Relativní inercie, její hodnota představuje podíl celkové inercie na profilu ( na dotyčném bodu) a nezávisí na počtu dimenzí. 19/31

Diagnostické grafy korespondenční analýzy,3 2D graf řádkových souřadnic; Dimenze: 1 x 2 Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Dimenze 2; Vl. číslo:,3122 (1,4% inerce ),2,1, -,1 -,2 -,3 -,4 -,5 -,6 BV ZA USV SO USO VŠ VM -,7-2, -1,5-1, -,5,,5 1, Dimenze 1; Vl. číslo:,27757 (89,25% inerce ),4 2D graf sloupcových souřadnic; Dimenze: 1 x 2 Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Dimenze 2; Vl. číslo:,3122 (1,4% inerce ),3,2,1, -,1 -,2 -,3 studenti důchodci nezaměst. zaměst. -,4-1,6-1,4-1,2-1, -,8 -,6 -,4 -,2,,2,4,6 Dimenze 1; Vl. číslo:,27757 (89,25% inerce ) Každý bod v grafech diagnostikuje celý profil promítnutý do roviny vybraných os. Graf řádkových profilů zobrazuje první hlavní komponentu, která odděluje obyvatele bez vzdělání (BV) od obyvatel se vzděláním. Druhá hlavní komponenta odděluje obyvatele se základním (ZA) a středním odborným (SO) vzděláním od obyvatel se vzděláním úplným středním všeobecným (USV) umístěných v dolní části grafu. Čím blíže jsou body u sebe, tím těsnější jsou jejich profilové modely. Obyvatelé s USO, VŠ a VM jsou v grafu blízko sebe, to znamená, že jsou tyto skupiny z hlediska klasifikace v této úloze podobné. Graf sloupcových profilů zobrazuje roztříděnou kategorii obyvatel na studenty, důchodce, nezaměstnané a zaměstnané. První hlavní komponenta roztřídila obyvatele na studenty a zaměstnané. Druhá hlavní komponenta rozdělila obyvatele na zaměstnané, nezaměstnané s důchodci. 2/31

,4 2D graf řádkových a sloupc. souřadnic; Dimenze: 1 x 2 Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Dimenze 2; Vl. číslo:,3122 (1,4% inerce ),3,2,1, -,1 -,2 -,3 -,4 -,5 -,6 BV studenti ZA důchodci USV nezaměst. SO USO zaměst. VŠ VM -,7-2, -1,5-1, -,5,,5 1, Dimenze 1; Vl. číslo:,27757 (89,25% inerce ) Řád.souř. Sloup.sou. Grafy sloupcových a řádkových profilů jsou analogií předešlých grafů. Z polohy bodů USO, VŠ, VM, zaměst. lze vyvodit, že zaměstnaní jsou většinou obyvatelé s úplným středním odborným vzděláním, vyučení s maturitou a vysokoškolským vzděláním Závěr Cílem korespondenční analýzy bylo sestrojení grafů ve dvojrozměrném prostoru a grafická prezentace řádků a sloupců četnostních tabulek. Každý bod v těchto grafech diagnostikoval celý profil promítnutý do roviny vybraných dvou os. Grafy korespondenční analýzy názorně kvalifikovaly obyvatele z hlediska vzdělání a pracovního uplatnění. 21/31

Úloha 3. Vody kanonická korelační analýza Zadání Ve 48 vzorcích vod odebraných v různých lokalitách našeho okresu byly stanoveny tyto ukazatele:,, hydrouhličitany, vápník, sodík, hořčík a mineralizace. Data jsou tvořena dvěma skupinami znaků.zvolte znaky nezávislé proměnné a závisle proměnné. Pomocí kanonické korelační analýzy určete, zda skupiny znaků jsou na sobě nezávislé nebo určete velikost vztahu, který existuje mezi oběma skupinami. Data vz.č. miner. hydrouhl. Ca Mg Na mg/l 1 29 14,8 55,8 159 38, 11, 9,3 2 46 1,5 4,3 293 54,5 1, 41,6 3 52 1,5 75,7 293 69,5 16, 41,6 4 4 11,9 56,3 244 58, 7,5 9,6 5 3 13,3 39, 171 38,5 6,5 15,3 6 43 13,3 114, 195 46,5 13,5 43,9 7 35 14, 53,2 21 58,5 8,5 8,7 8 38 14, 77,4 21 58,5 11,5 17,4 9 66 14, 89,2 21 1,2 17,5 6, 1 41 14,7 47,1 21 86, 9, 16, 11 34 15,4 51,4 177 63,5 7, 23,3 12 34 16,1 44,5 183 63, 7, 17,9 13 39 16,8 39, 171 61, 9, 27, 14 36 17,5 54,8 195 61, 8,5 12,2 15 31 19, 46, 159 61,5 7, 15, 16 67 19, 129, 348 113, 1, 48,2 17 34 2,4 5,6 183 56, 8,5 13, 18 35 2,4 58,9 183 49, 11,5 17,2 19 29 21,1 57,4 61 11, 13,5 22, 2 31 21,8 51,4 139 64,5 7,5 17,1 21 26 21,8 92,8 67,1 14,5 3,5 53,4 22 34 22,5 54,7 165 6,5 1,5 13,6 23 48 23,9 64,7 22 73, 13, 23,9 24 41 23,9 71,6 22 61, 11,5 22,2 25 41 24,1 39,7 262 49, 16, 9, 26 26 26, 5,7 79,3 35,5 8,5 16,8 27 26 27,4 38,5 159 43,5 8, 7,1 28 49 27,4 75,1 268 75,5 9, 25,8 29 59 27,4 77,1 39 58, 8, 2,1 3 4 28,1 39,7 238 54, 1, 27,4 31 46 28,1 44,5 256 8, 8,5 29,3 32 33 28,8 48,8 139 62,5 7,5 25,8 33 43 28,8 61,8 214 82, 8, 3,9 34 67 28,8 11, 329 86,5 17, 71,8 35 69 31,6 86,5 39 98,5 15,5 14,8 36 41 32,3 71,9 189 44,5 8, 13,1 37 64 32,3 128, 293 8, 1,5 71, 38 37 33, 95,8 116 43, 7,5 23,4 39 59 35,8 12, 232 11, 12, 3,3 4 64 36,5 129, 299 16, 2, 43,9 41 32 41,4 71,4 134 37,5 9,5 24,7 42 62 42,1 59,2 348 19, 19,5 7,1 43 55 43,5 71,5 256 124, 1,5 36,2 44 4 43,5 8,8 171 42,5 13, 44,7 45 54 47, 48, 299 116, 2, 1,2 22/31

vz.č. miner. hydrouhl. Ca Mg Na mg/l 46 37 52,6 98,1 14 5,5 12, 23, 47 59 54,1 78, 275 13, 12,5 47,1 48 44 54,2 63,6 177 12, 17, 13,4 Program: Statistika Standard 7 Cz ( pokud není uvedeno jinak) Řešení Exploratorní analýza Kanonická korelační analýza 1. Exploratorní analýza Vyšetření vstupních dat Program: QC Expert 2.5 U znaků a Na byly diagnostikovány odlehlé vzorky (případy), které se nevyskytují jako odlehlé u dalších znaků. Z důvodu možné ztráty informace, kterou obsahují, nebudou vyřazeny ze zdrojové matice VODY. 23/31

Histogramy Histogram: Na Histogram: Mg Histogram: Ca K-S d=,15748, p<,2 ; Lilliefors p<,1 K-S d=,1339, p>.2; Lilliefors p<,5 K-S d=,16184, p<,2 ; Lilliefors p<,1 18 Očekávané normální 14 Očekávané normální 18 Očekávané normální 16 12 16 14 14 12 1 12 Počet pozor. 1 8 Počet pozor. 8 6 Počet pozor. 1 8 6 4 6 4 4 2 2 2 1 2 3 4 5 6 7 8 2 4 6 8 1 12 14 16 18 2-2 2 4 6 8 1 12 14 x <= hranice kategorie x <= hranice kategorie x <= hranice kategorie Histogram: hydrouhl. Histogram: Histogram: mineraliz. K-S d=,12612, p>.2; Lilliefors p<,1 K-S d=,14294, p>.2; Lilliefors p<,5 K-S d=,16111, p<,2 ; Lilliefors p<,1 18 Očekávané normální 22 Očekávané normální 2 Očekávané normální 16 2 18 Počet pozor. 14 12 1 8 6 4 Počet pozor. 18 16 14 12 1 8 6 4 Počet pozor. 16 14 12 1 8 6 4 2 2 2 5 1 15 2 25 3 35 4 2 4 6 8 1 12 14 2 3 4 5 6 7 x <= hranice kategorie x <= hranice kategorie x <= hranice kategorie Histogram: K-S d=,12648, p>.2; Lilliefors p<,1 2 Očekávané normální 18 16 14 Počet pozor. 12 1 8 6 4 2 1 2 3 4 5 6 x <= hranice kategorie Krabicové grafy 8 Krabicový graf 14 Krabicový graf 7 12 6 1 5 8 4 6 3 2 4 1 2-1 mineraliz. hydrouhl. Průměr Průměr±SmOdch Průměr±1,96*SmOdch -2 Ca Mg Na Průměr Průměr±SmOdch Průměr±1,96*SmOdch Krabicové grafy zobrazily proměnlivost znaků zdrojové matice, která se jeví pro kanonickou korelační analýzu dostatečná. Největší proměnlivost vykazují znaky mineralizace, hydrouhličitany, Ca a Na. 24/31

Podobnost objektů Symbolové grafy (ikonové grafy) Ikonový graf (data_vody_cca 7v*48c) Ikonový graf (data_vody_cca 7v*48c) vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 tvář/šíř = mineraliz. ucho/úrov = polovina tváře/výš = horní tvář/exc = hydrouhl. dolní tvář/exc = Ca nos/dél = Mg ústa/stř = Na vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 Pravotočivě: mineraliz. hydrouhl. Ca Mg Na Ikonový graf (data_vody_cca 7v*48c) Ikonový graf (data_vody_cca 7v*48c) vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 Pravotočivě: mineraliz. hydrouhl. Ca Mg Na vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 Pravotočivě: mineraliz. hydrouhl. Ca Mg Na V symbolových grafech jsou znaky kódované s ohledem na konkrétní hodnoty do určitých geometrických tvarů a nebo symbolů. Pomocí grafů Chernoffovy tváře, Výseče, Sluneční paprsky, Hvězdy byly zjištěny podobné případy např. 34-37, 13-14-15 a zcela nepodobné ostatním 9-16-4. Rozptylové diagramy pro páry: Bodový graf (data_vody_cca 7v*48c) = 18,2338+,1188*x Bodový graf (data_vody_cca 7v*48c) hydrouhl. = -14,9657+,5257*x 52,6 47, 41,4 36,5 32,3 28,1 23,9 19, 14,7 1,5 hydrouhl. 39 329 293 262 232 195 165 134 14 61 :: r =,2537; p =,819 38,5 47,1 55,8 64,7 75,1 86,5 95,8 11, 128, 26 3 34 38 43 48 52 59 64 69 mineraliz.:hydrouhl.: r =,8447; p =, mineraliz. Znaky a spolu velmi slabě korelují. Dobře korelují mezi sebou znaky hydrouhličitany a mineralizace 25/31

Popisné statistiky Popisné statistiky (data_vody_cca) Proměnná N platných Průměr Medián Minimum Maximum Sm. odch. mineraliz. 48 434,6 45, 26, 69, 125,3 48 26,4 24, 1,5 54,2 11,8 48 68,4 6,5 38,5 129, 25,2 hydrouhl. 48 213,5 21, 61, 39, 78, Ca 48 67, 61, 1,2 124, 26,5 Mg 48 11, 1, 3,5 2, 3,9 Na 48 26,2 22,6 7,1 71,8 16,3 Kovariance (data_vody_cca) proměnná mineraliz. hydrouhl. Ca Mg Na mineraliz. 15697,7 441,3 1895,6 8252, 1864,9 297, 161,7 441,3 139,1 75,4 97,5 131,1 17, 13,2 1895,6 75,4 634,4 556,9 128,9 3,3 278,7 hydrouhl. 8252, 97,5 556,9 679,7 176,2 137,4 282,1 Ca 1864,9 131,1 128,9 176,2 73,2 45,5 21,1 Mg 297, 17, 3,3 137,4 45,5 15, 11,1 Na 161,7 13,2 278,7 282,1 21,1 11,1 265,5 Proměnné mineraliz. hydrouhl. Ca Mg Na Korelace (data_vody_cca) Označ. korelace jsou významné na hlad. p <,5 N=48 (Celé případy vynechány u ChD) mineraliz. 1, p= ---,299 1, p=,39 p= ---,61,254 1, p=, p=,82 p= --- hydrouhl.,845,16,284 1, p=, p=,473 p=,51 p= --- Ca,561,419,193,521 1, p=, p=,3 p=,189 p=, p= --- Mg,613,373,311,456,444 1, p=, p=,9 p=,32 p=,1 p=,2 p= --- Na,52,69,679,222,49,177 1, p=, p=,642 p=, p=,129 p=,742 p=,23 p= --- V tabulce je uvedena korelační matice 7 znaků z matice dat VODY pro 48 případů (vzorků vod). v druhém řádku jsou uvedeny vypočtené hladiny významnosti p. Platí testační pravidlo, že je-li p< =,5, je hodnota korelačního koeficientu statisticky významná. V tabulce jsou statisticky významné korelační koeficienty označeny červeně. Nejvyšší korelace je mezi znaky mineraliz. a hydrouhl., r=,845. Nejnižší korelace je mezi znaky mineraliz. a, r=,299. 26/31

Maticový diagram Korelace (data_vody_cca 7s*48ř) mineraliz. hydrouhl. Ca Mg Na Na obrázku maticového diagramu jsou znázorněny histogramy a maticové grafy korelace znaků zdrojové matice VODY. Hydrouhličitany nekorelují s, a s Na. Mrak bodů mezi a Ca znázorňuje, že mezi znaky není korelace. 27/31

2. Kanonická korelační analýza Zadání kanonických proměnných nezávislé kanonické proměnné (L) hydrouhličitany závislé kanonické proměnné (P) mineralizace Ca Mg Na V tabulce jsou uvedeny zvolené kanonické proměnné, u kterých budou vypočteny zátěže. Pro výběr počtu kanonických proměnných použijeme Cattelův indexový diagram úpatí vlastních čísel. 1, Graf vlastních čísel,9,8,7,6 Hodn.,5,4,3,2,1, 1 2 3 Počet kanonických kořenů Souhrn kanonické analýzy (data_vody_cca) Kanonické R:,93814 Chí2(12)=118,88 p=, L P N=48 sada sada Počet proměnných 3 4 Získaný rozptyl 1,% 86,36% Celková redundance 52,17% 51,98% Proměnné: 1 mineraliz. 2 Ca 3 hydrouhl. Mg 4 Na Rozptyl extrahovaný (získaný rozptyl) značí průměrné množství rozptylu vyčísleného ze znaků v obou souborech všemi kanonickými proměnnými. Všechny kanonické proměnné vyčíslí 1% rozptylu na pravé straně ze 3 znaků,, hydrouhličitany a 86,36% rozptylu na levé straně ze 4 znaků mineralizace, Ca, Mg, Na. Celková redundance ukazuje na velikost celkové korelace mezi znaky na pravé straně rovnice 52,17% a na levé straně 51,98%. Vyčíslená hodnota rozptylu 52,17 % se týká aniontů stanovených ve 48 vzorcích vod. Hodnota 52,17% se týká skupiny znaků zahrnující kationty a znak mineralizace. 28/31

Test významnosti kanonických kořenů Vyšetřujeme, zda všechny tři kanonické kořeny jsou statisticky významné.maximální počet kanonických kořenů, který může být z dat vybrán, je roven nejmenšímu počtu znaků užitých v jednotlivých souborech na levé a pravé straně rovnice. Máme 3 znaky vlevo a 7 znaky vpravo, proto budou užity 3 kanonické proměnné. 1,1 Graf kanonických korelací 1,,9,8,7 Hodn.,6,5,4,3,2,1, 1 2 3 Počet kanonických kořenů Test chí-kvadrát po odstranění post. kořenů (data_vody_cca) Kořen Kanonic. Kanonic. Chí-kv. sv p První odstraněný R R-kvad. lambda,938,88 118,879 12,,63 1,624,389 27,666 6,1,526 2,374,14 6,482 2,391,86 V tabulce v prvním jsou údaje týkající se situace, že nebyl žádný kanonický kořen.odstraněn. Testy jsou vysoce statisticky významné. V druhém řádku je vidět, že po odstranění prvního nejvýznamnějšího kořene jsou testy ještě statisticky významné. Také po odstranění 1 a 2 kořene jsou testy nadále statisticky významné( p<,5). První kanonický kořen byl,938 a zahrnuje 88,% překrývajícího rozptylu. Druhý kanonický kořen měl hodnotu,624 a 38,9% překrývajícího rozptylu. Třetí kanonický kořen je,374 a zahrnuje 14,% překrývajícího rozptylu. 2 Pro všechny kanonické proměnné je rovno 118,88 a p<,1 a po odstranění první kanonické proměnné je 2 27, 67 a p=,1. Pro další test je 2 6, 48 a p=,391 ( p<,5). 29/31

Kanonické skóre Kanonické proměnné představují vážené součty znaků v každém souboru: P 1 =a 1 y 1 +a 2 y 2 +a 3 y 3 +a 4 y 4 L 1= b 1 x 1 +b 2 x 2 +b 3 x 3 Kanonické váhy, pravá sada (data_vody_cca) Proměnná Kořen 1 Kořen 2 Kořen 3 mineraliz. 1,111322 -,316251-1,27881 Ca,13767 -,267611,88625 Mg -,13137,1425,84183 Na -,121318 1,5436,62975 Kanonické váhy, levé sada (data_vody_cca) Proměnná Kořen 1 Kořen 2 Kořen 3,14648 -,4167,9393,323428 1,15957,11866 hydrouhl.,822834 -,51817 -,388491 Grafy kanonických skóre 2,5 Kanonické proměnné: Prom. 1 ( L sada ) ku 1 ( P sada ) 2, 1,5 1, Pr. sada,5, -,5-1, -1,5-2, -2, -1,5-1, -,5,,5 1, 1,5 2, 2,5 L. sada Objekty leží na přímce, nedochází k porušení předpokladů kanonické analýzy. 3 Kanonické proměnné: Prom. 1 ( L sada ) ku 2 ( P sada ) 4 Kanonické proměnné: Prom. 1 ( L sada ) ku 3 ( P sada ) 2 3 2 1 1 Pr. sada Pr. sada -1-1 -2-2 -3-3 -4-2, -1,5-1, -,5,,5 1, 1,5 2, 2,5-2, -1,5-1, -,5,,5 1, 1,5 2, 2,5 L. sada L. sada První kanonická proměnná spolehlivě interpretuje přímkovou závislost. 3/31

Závěr Provedením kanonické korelační analýzy jsme zjistily, že existuje lineární vztah mezi znaky anionty (,, hydrouhličitany) a znaky kationty (Ca,Mg,Na)se znakem mineraliz.. Nejlépe interpretuje tuto přímkovou závislost první kanonická proměnná. Tento lineární vztah je statisticky významný. mineraliz. a 1 =1,1113 Ca a 2 =,138 b 1 =,147 Mg P 1 L 1 b 2 =,147 a 3 =-,131 b 3 =,8228 Na a 4 =-,1213 hydrouhl. První pár kanonických korelačních proměnných L 1 a P 1 dostatečně popisuje závislost 4 znaků mineraliz., Ca, Mg, Na na 3 znacích,, hydrouhl.. 31/31