Klasifikace analýzou vícerozměrných dat

Rozměr: px
Začít zobrazení ze stránky:

Download "Klasifikace analýzou vícerozměrných dat"

Transkript

1 Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Klasifikace analýzou vícerozměrných dat Zdravotní ústav se sídlem v Ostravě Odbor hygienických laboratoří Karviná V Karviné dne Ing. Miluše Galuszková 1/31

2 Předmět: 3.5 Klasifikace analýzou vícerozměrných dat Přednášející: Prof. RNDr. Milan Meloun, DrSc Zadání: Vypracujte písemně a postavte si alespoň 3 (tři) úlohy z dat Vašeho pracoviště (nebo z literatury) a vyřešte. Každá úloha bude mít strukturu dle vzorových příkladů v učebnici M. Meloun, J. Militký: Kompendium statistického zpracování experimentálních dat, Academia Praha 22, t. zn. Nadpis příkladu, Zadání, Data, Program, Řešení, Output, Obrázky, Závěr a bude doplněna disketou nebo CD s daty, výstupy a protokolem ve formátu *.DOC a *.PDF. V 1. úloze proveďte klasifikaci diskriminační analýzou DA. V 2. úloze aplikujte buď logistickou regresi LR nebo kanonickou korelační analýzu CCA, a to dle charakteru Vašich dat. Ve 3. úloze aplikujte metodu vícerozměrného škálování MDS a korespondenční analýzu CA kategorických dat. Pokud je to možné tak v úlohách využijte i shlukovou analýzu, výpočty korelační matice a kovarianční matice. K analýze vícerozměrných dat vždy patří úvodní exploratorní analýza vícerozměrných dat a její grafické diagnostiky (sluníčka, hvězdičky, rozptylové diagramy, atd.). Svůj postup velice detailně komentujte, popište a vysvětlete, abyste přesvědčili, že dané metodice dokonale rozumíte. Nejvíce se cení fyzikální, chemický či biologický smysl úlohy. Obsah Úloha 1. Monitoring vod 3 Exploratorní analýza vstupních dat 6 Diskriminační model Klasifikace objektů 1 Závěr 15 Úloha 2. Vzdělání a zařazení do zaměstnání 16 Řádkové a sloupcové profily 17 Počet projekčních dimenzí 18 Řádkové a sloupcové souřadnice a příspěvky do inercie 19 Diagnostické grafy korespondenční analýzy 2 Závěr 21 Úloha 3. Vody kanonická korelační analýza 22 Exploratorní analýza vstupních dat 23 Kanonická korelační analýza 28 Závěr 31 2/31

3 Úloha 1. Monitoring vod Zadání Byl proveden rozbor vod 9 vzorků vod v oblasti ovlivněné důlní činností. Odebrané vzorky vod z této oblasti byly rozdělené podle místa a způsobu odběru do tří tříd (matrice): vody minerální (léčivá minerální voda), podzemní (studny, vrty mimo ložisko minerální vody) a vody povrchové. V tomto výběru byly stanovovány znaky:,, vápník a sodík. Sestavte diskriminační model a proveďte klasifikaci objektů, zda byly správně zařazeny. Data: objekty 9 vzorků vod třídy voda minerální VM (matrice) voda podzemní VPOD voda povrchová VPOV diskriminátory vápník sodík Číslo vzorku mg/l Ca Na Matrice 1 1, 86,2 129, 91,8 VM 2 16,5 22,7 44,5 13,2 VPOV 3 26,7 35,3 59,5 23, VPOV 4 6,3 33,4 36, 8,1 VPOV 5 193, 217, 86,3 161, VM 6 33, 112, 145, 35,4 VPOD 7 179, 186, 78, 151, VM 8 5,6 39,1 27, 6,8 VPOV 9 112, 227, 91, 137, VM 1 11,2 28,4 29,4 17,6 VPOV 11 41,4 64,3 64, 29,1 VPOD 12 12, 126, 1, 15, VM 13 36,5 64,3 67,5 27,7 VPOD 14 27,4 44,2 65,5 22,2 VPOD 15 48,4 64,3 67, 36,1 VPOD 16 56,2 51,7 7,5 41,5 VPOD 17 18,2 44,2 64,5 16,6 VPOV 18 28,8 44,2 7, 17,8 VPOV 19 18,3 39,1 49, 17,7 VPOV 2 16,1 6,7 44, 1,6 VPOV 21 7, 25,4 37,6 12, VPOV 22 18,3 36,6 31, 13,5 VPOV 23 33,7 58,1 86, 36,3 VPOD 3/31

4 Číslo vzorku mg/l Ca Na Matrice 24 48,2 4,4 41, 42,2 VPOD 25 6,3 15,8 51, 12, VPOV 26 35,1 54, 51,5 32,8 VPOD 27 8,4 18,9 47, 22,8 VPOV 28 37,2 61,8 69, 34,2 VPOD , 212, 9,3 22, VM 3 214, 197, 75,2 247, VM , 181, 126, 194, VM 32 4,7 59,3 65, 3,3 VPOD 33 37,2 73,2 72,5 5,9 VPOD , 115, 96,5 153, VM 35 4, 72,3 58,6 28,8 VPOD 36 28,8 61,8 65, 26,9 VPOV 37 28,1 83,3 68,5 32,7 VPOD 38 5,6 73,2 65,5 59,6 VPOD 39 92,1 155, 244, 88,8 VM 4 38,4 148, 95, 63,8 VPOD 41 15, 313, 94, 26, VM , 321, 96,2 186, VM 43 91,3 93, 14, 89,9 VM , 273, 127, 175, VM , 217, 92,5 192, VM , 243, 77,5 188, VM 47 45,6 7,7 6, 39,7 VPOD 48 57,6 65, 6, 43,4 VPOD 49 34,4 82,4 75, 25, VPOD 5 19, 68,2 5,5 16,5 VPOV , 13, 84,8 95, VM 52 44,2 63,1 62, 35,7 VPOD , 192, 89,5 236, VM , 187, 75,4 218, VM 55 15,4 43,5 38,5 16,4 VPOV 56 31,6 88,3 95,5 43, VPOD 57 15, 27, 82, 194, VM 58 46,3 146, 63, 36,6 VPOD 59 49,8 83,3 77, 51,4 VPOD 6 43,5 78,2 6, 51, VPOD 61 25,3 48,2 5,5 22,5 VPOV , 185, 8, 26, VM , 237, 84,7 255, VM , 323, 84, 163, VM , 142, 65,5 87,7 VM , 85,8 6, 88,7 VM , 363, 14, 18, VM 68 7, 56,8 41, 4,9 VPOV 4/31

5 Číslo vzorku mg/l Ca Na Matrice , 474, 117, 274, VM 7 7,7 35,5 37, 1,6 VPOV 71 28,1 21,5 35,5 38, VPOV , 73,2 78,5 93,8 VM 73 39,8 162, 84, 54, VPOD 74 35,2 73,2 65,3 48,2 VPOD 75 2, 15,8 23,5 1,7 VPOV 76 12,6 14,5 34,2 19, VPOV 77 2,4 51,7 25,5 11,5 VPOV 78 28,8 119, 81,5 25, VPOD 79 4, 68,2 61,5 31,1 VPOD 8 36,4 72,3 57,5 31, VPOD 81 2, 35,3 27,5 9,5 VPOV , 151, 71,5 95,7 VM 83 36,4 9,8 46, 28,3 VPOD 84 11,2 6,7 27,5 13,8 VPOV 85 2,4 28, 33, 14,8 VPOV 86 11,9 42,5 61,5 9,7 VPOV 87 14, 227, 91,6 156, VM 88 12,6 3,9 49,8 12,3 VPOV 89 26, 53, 56,5 14,1 VPOV 9 2,4 78,2 4, 16,7 VPOV Program: Statistika Standard 7 Cz Řešení 1. Exploratorní analýza 2. Diskriminační model 3. Klasifikace objektů 5/31

6 1. Exploratorní analýza Krabicové grafy 3 Krabicový graf Ca Na Průměr Průměr±SmOdch Průměr±1,96*SmOdch Krabicové grafy přehledně zobrazily proměnlivost znaků matice zdrojových dat Monitoring vod. Největší míru proměnlivosti dosahují znaky, velkou proměnlivost mají znaky a Na, nejmenší proměnlivost má Ca. Histogramy 7 Histogram: K-S d=,2555, p<,1 ; Lilliefors p<,1 Očekávané normální 7 Histogram: K-S d=,2263, p<,1 ; Lilliefors p<,1 Očekávané normální Počet pozor. 4 3 Počet pozor x <= hranice kategorie x <= hranice kategorie 7 Histogram: Ca K-S d=,9661, p>.2; Lilliefors p<,5 Očekávané normální 6 Histogram: Na K-S d=,24292, p<,1 ; Lilliefors p<,1 Očekávané normální Počet pozor. 4 3 Počet pozor x <= hranice kategorie x <= hranice kategorie Rozdělení hustoty pro znaky, Ca a Na není dvojrozměrně normální, vidíme rozdělení na více než jeden shluk. Nejhůře rozděluje znak. 6/31

7 Rozptylové diagramy pro páry Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) 3 Na = -1,3646+1,617*x 3 Na = -3,1711+,6956*x Na Na :Na: r =,9439; p =, :Na: r =,8522; p =, Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) 26 Ca = 52,755+,2546*x 26 Ca = 47,8554+,22*x Ca Ca :Ca: r =,5244; p =, :Ca: r =,5733; p =,4 3 Bodový graf (data_vody_da 5v*9c) Na = -14,5282+1,2391*x Na Ca:Na: r =,5348; p =,6 Ca Mezi znaky :Na, :Na je silná lineární závislost. Existují shluky s nižší a vyšší koncentrací chloridů, síranů a Na. 7/31

8 Symbolové grafy Ikonový graf (data_vody_da 5v*9c) tvář/šíř = ucho/úrov = polovina tváře/výš = Ca horní tvář/exc = Na Ikonový graf (data_vody_da 5v*9c) Pravotočivě: Ca Na Symbolové grafy indikují podobné objekty Vlastnosti objektů se posuzují podle vizuálních rozdílů. Existuje několik shluků podobných objektů, zcela odlišné od ostatních se jeví objekty 39, 63, 69. 8/31

9 Maticový diagram Korelace (data_vody_da 5s*9ř) Ca Na Na obrázku jsou znázorněny histogramy a maticové grafy korelace znaků,, Ca, Na zdrojové matice Monitoring vod. např. v rozptylovém grafu závislosti diskriminátoru na diskriminátoru Na jsou patrný jeden velký shluk a dva mraky. Jde patrně o dvě až tři třídy.podobné dělení je patrné v závislosti diskriminátoru na diskriminátoru Na. Popisné statistiky proměnná N platných Průměr Minimum Maximum Sm. odch. 9 68,83 2, , ,66 14, ,44 Ca 9 69,6 23, ,51 Na 9 71,71 1, , Korelace (celkové) Ca Na 1,,797,524,944,797 1,,573,852 Ca,524,573 1,,535 Na,944,852,535 1, Červeně označené korelace jsou významné na hlad. p<,5 9/31

10 Popisné statistiky diskriminátorů Matrice Průměry (data_monitoring vod) Ca Na Počet VM 151,15 23,74 95,87 161,88 3 VPOV 15,28 39,66 42,92 15,2 3 VPOD 4,6 79,56 7,1 38,23 3 celkem 68,83 17,66 69,6 71,71 9 Tabulka obsahuje průměry každého diskriminátoru pro každou třídu vzorků vod a jejich sumy. Matrice Směrodatné odchylky (data_monitoring vod) Ca Na Počet VM 44,35 9,78 32,79 57,41 3 VPOV 8,11 16,5 12,98 7,4 3 VPOD 7,75 29,8 18,79 1,65 3 celkem 64,89 89,44 31,51 73, 9 Tabulka obsahuje směrodatné odchylky každého diskriminátoru pro každou třídu vzorků vod a jejich sumy. Posuzujeme, zda jsou směrodatné odchylky v jednotlivých třídách přibližně stejné. Směrodatné odchylky tříd VM, VPOV, VPOD jsou odlišné pro diskriminátor. Proměnná Vnitřní korelace (data_monitoring vod) Ca Na 1,,317 -,225,79,317 1,,125,553 Ca -,225,125 1, -,96 Na,79,553 -,96 1, Proměnná Kovariance (data_monitoring vod) Ca Na 1,,317 -,225,79,317 1,,125,553 Ca -,225,125 1, -,96 Na,79,553 -,96 1, 1/31

11 Grafy bodové kategorizované Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) Ca 12 1 Na Matrice: VM Matrice: VPOV Matrice: VPOD Matrice: VM Matrice: VPOV Matrice: VPOD Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) Ca 12 1 Na Matrice: VM Matrice: VPOV Matrice: VPOD Matrice: VM Matrice: VPOV Matrice: VPOD Bodový graf (data_vody_da 5v*9c) Bodový graf (data_vody_da 5v*9c) Na Matrice: VM Matrice: VPOV Matrice: VPOD Matrice: VM Matrice: VPOV Matrice: VPOD Ca Pomocí bodových kategorizovaných grafů vidíme, že nejsilnějšími diskriminátory jsou Ca,, nejslabším diskriminátorem jsou. 11/31

12 2. Diskriminační model y 1x1 2x2 3x3 4x4 Výsledky diskriminační funkční analýzy (data_monitoring vod) Počet prom. v modelu: 4; grupovací: Matrice (3 skup) Wilks. lambda:,1771 přibliž F (8,168)=42,987 p<, F na vyj 1-toler. N=9 Wilks.Lamda Parc.Lambda Úroveň p Toler. (2,85) R^2,153338, ,7912,,46919,5381,1839,994479,23318,792521,65768, Ca,149415, ,26171,1,9627,9373 Na,1126,978962,926,4948,377588, Tabulka ukazuje vliv jednotlivých diskriminátorů na zařazení vzorku vod do tříd. Wilks. kritérium vyjadřuje diskriminační sílu navrženého modelu. Velkou diskriminační sílu mají diskriminátory a Ca. Výsledky diskriminační funkční analýzy (data_monitoring vod) Počet prom. v modelu: 3; grupovací: Matrice (3 skup) Wilks. lambda:,1831 přibliž F (6,17)=57,759 p<, F na vyj 1-toler. N=9 Wilks.Lamda Parc.Lambda Úroveň p Toler. (2,85) R^2,153781, ,8429,,472496,52754 Ca,15674, ,74272,,94988,5912 Na,11144, ,731,346534,49321,5679 Proměnné aktuálně neobsažené v modelu (data_monitoring vod) SV pro vš. F-testy: 2,84 N=9 Wilks.Lamda Parc.Lambda F na zahr. Úroveň p Toler. 1-toler. R^2,17711,994479,233182,79252,65768, Tabulky po odstranění diskriminátoru udávají hodnotu Wilks. kritérium, F test představuje hodnotu F kritéria k testování Wilks. kritéria. Kritéria nesplňuje diskriminátor Na. Výsledky diskriminační funkční analýzy (data_monitoring vod) Počet prom. v modelu: 2; grupovací: Matrice (3 skup) Wilks. lambda:,1114 přibliž F (4,172)=86,39 p<, F na vyj 1-toler. N=9 Wilks.Lamda Parc.Lambda Úroveň p Toler. (2,86) R^2,523941, ,8878,,949187,5813 Ca,161891, ,6897,,949187,5813 Parciální ukazuje na znaky, které nejvíce přispívají k diskriminaci. Čím nižší, tím větší síla diskriminátoru. V předchozích tabulkách vidíme, že diskriminační síla diskriminátorů, Ca byla podobná. Po odstranění diskriminátorů a Na ukazuje, že nejsilnějším diskriminátorem je znak. Chloridy mají přibližně 8x vyšší diskriminační sílu. 12/31

13 Vyčíslení diskriminační funkce Klasifikační funkce, grupovací (data_monitoring vod) Proměnná Klasifikační funkce pro třídu bude mít tvar: VM p=,333 VPOV p=,333 VPOD p=,333,2657,3982,878 Ca,2487,993,15423 konst. -33,995-3,3545-8,25634 VM - 33,995 +,2657 +,2487 Ca VPOV - 3,3545 +,,3982 +,993 Ca VPOD - 8, ,878 +,15423 Ca Zjednodušený diskriminační model: y 1x1 2x2 3. Klasifikace objektů Klasifikační matice Klasifikační matice (data_monitoring vod) Řádky: pozorované matice Sloupce: předpovězené klasifikace Skup. % správných VM p=,333 VPOV p=,333 VPOD p=,333 VM 1 3 VPOV 86, VPOD 96, Celkem 94, Tabulka ukazuje, jak navržené diskriminační funkce zařazují vzorky vod do 3 tříd. VM bylo předpovězeno 3 a nalezeno 3. VPOV bylo správně zařazeno 26 a nesprávně 4. VPOD 29 správně a 1 špatně zařazený vzorek vody do matrice VPOV. 13/31

14 Zařazování objektů do tříd Případ Mahalanobisovy vzdálenosti (data_monitoring vod) Nesprávná klasifikace je označena * Případ Aposteriorní pravděpodobnosti (data_monitoring vod) Nesprávná klasifikace je označena * Pozorov. VM VPOV VPOD Pozorov. VM VPOV VPOD Pozorov Klasif. p=,33333 p=,33333 p=,33333 Klasif. p=,33333 p=,33333 p=,33333 Klasif. p=,33333 p=,33333 p=, VM 4, , , VM,994144,2, VM VM VPOD VPOV 2 VPOV 38,187,87 2, VPOV,,784728, VPOV VPOV VPOD VM * 3 VPOV 29,5449,889,5978 * 3 VPOV,,463667, * 3 VPOV VPOD VPOV VM 4 VPOV 45,5485,2651 4,971 4 VPOV,,91599, VPOV VPOV VPOD VM 5 VM 2, , ,811 5 VM 1,,, 5 VM VM VPOD VPOV 6 VPOD 21, ,5167 1, VPOD,595,2827, VPOD VPOD VM VPOV 7 VM 1, ,42 3, VM,999999,,1 7 VM VM VPOD VPOV 8 VPOV 49,2342,7634 6, VPOV,,94935, VPOV VPOV VPOD VM 9 VM 2, ,333 9, VM,975317,48, VM VM VPOD VPOV 1 VPOV 45,58283,4299 5, VPOV,,924399, VPOV VPOV VPOD VM 11 VPOD 22,9352 2,3397, VPOD,8,24385, VPOD VPOD VPOV VM 12 VM 1, , , VM,99744,2, VM VM VPOD VPOV 13 VPOD 23, ,2831, VPOD,5,245588, VPOD VPOD VPOV VM 14 VPOD 27, ,4449, VPOD,1,363775, VPOD VPOD VPOV VM 15 VPOD 19,987 3,4268, VPOD,42,159536, VPOD VPOD VPOV VM 16 VPOD 16,769 4,9152, VPOD,252,94682, VPOD VPOD VPOV VM * 17 VPOV 31,8975,9842,87573 * 17 VPOV,,486439, * 17 VPOV VPOD VPOV VM * 18 VPOV 26,4275 2,137,19152 * 18 VPOV,1,286781, * 18 VPOV VPOD VPOV VM 19 VPOV 35,86118,113 1, VPOV,,715488, VPOV VPOV VPOD VM 2 VPOV 38,33568,4 2, VPOV,,793193, VPOV VPOV VPOD VM 21 VPOV 44,65621,1939 4, VPOV,,898994, VPOV VPOV VPOD VM 22 VPOV 41,775,2669 4, VPOV,,887124, VPOV VPOV VPOD VM 23 VPOD 21,9322 4,86, VPOD,2,13483, VPOD VPOD VPOV VM 24 VPOD 26, ,5948 1, VPOD,2,498479, VPOD VPOD VPOV VM 25 VPOV 4,74411,1947 2, VPOV,,79763, VPOV VPOV VPOD VM 26 VPOD 28,2534,8717, VPOD,1,48945, VPOD VPOD VPOV VM 27 VPOV 4,94588,827 3, VPOV,,82113, VPOV VPOV VPOD VM 28 VPOD 23,4284 2,5183, VPOD,6,222556, VPOD VPOD VPOV VM 29 VM 2, , , VM 1,,, 29 VM VM VPOD VPOV 3 VM 5,829 66, , VM 1,,, 3 VM VM VPOD VPOV 31 VM 1, , , VM,999991,,9 31 VM VM VPOD VPOV 32 VPOD 22,9742 2,379, VPOD,8,237659, VPOD VPOD VPOV VM 33 VPOD 22, ,9638, VPOD,9,186577, VPOD VPOD VPOV VM 34 VM 1,156 28,799 13, VM,998225,1, VM VM VPOD VPOV 35 VPOD 24, ,712, VPOD,3,325896, VPOD VPOD VPOV VM * 36 VPOV 27, ,4742,28516 * 36 VPOV,1,355594,64445 * 36 VPOV VPOD VPOV VM 37 VPOD 26, ,7996, VPOD,1,313776, VPOD VPOD VPOV VM 38 VPOD 19, ,5156, VPOD,54,158117, VPOD VPOD VPOV VM 39 VM 41, ,126 71, VM 1,,, 39 VM VM VPOD VPOV 4 VPOD 19, ,1167 1, VPOD,113,49525, VPOD VPOD VPOV VM 41 VM 3,2975 2,8981 8, VM,937884,141, VM VM VPOD VPOV 42 VM, , , VM 1,,, 42 VM VM VPOD VPOV 43 VM 5, ,7362 7, VM,77254,529, VM VM VPOD VPOV 44 VM 3, ,132 4, VM 1,,, 44 VM VM VPOD VPOV 45 VM, ,64 27, VM,999999,,1 45 VM VM VPOD VPOV 46 VM, ,319 23, VM,99999,,1 46 VM VM VPOD VPOV 47 VPOD 22, ,3699, VPOD,12,252721, VPOD VPOD VPOV VM 48 VPOD 18, ,8463, VPOD,111,159752, VPOD VPOD VPOV VM 49 VPOD 23, ,682, VPOD,7,182975, VPOD VPOD VPOV VM 5 VPOV 35,12694,1567 1, VPOV,,688612, VPOV VPOV VPOD VM 51 VM 3,2347 2,4377 8, VM,948427,157, VM VM VPOD VPOV 52 VPOD 22, ,4143, VPOD,11,241662, VPOD VPOD VPOV VM 53 VM,178 41, , VM,999995,,5 53 VM VM VPOD VPOV 54 VM, , , VM,99991,,9 54 VM VM VPOD VPOV 55 VPOV 4,4219,382 3, VPOV,,84897, VPOV VPOV VPOD VM 56 VPOD 21,6221 6,5455 1, VPOD,35,6539, VPOD VPOD VPOV VM 57 VM, , , VM,999931,,69 57 VM VM VPOD VPOV 58 VPOD 21,4336 2,7374, VPOD,19,212877, VPOD VPOD VPOV VM 59 VPOD 17,7136 5,169, VPOD,151,86114, VPOD VPOD VPOV VM 6 VPOD 23,688 2,1563, VPOD,8,272221, VPOD VPOD VPOV VM 61 VPOV 32,44896,3246 1, VPOV,,62423, VPOV VPOV VPOD VM 62 VM 11, , , VM 1,,, 62 VM VM VPOD VPOV 63 VM 25, ,448 92, VM 1,,, 63 VM VM VPOD VPOV 64 VM, ,333 24, VM,999994,,6 64 VM VM VPOD VPOV 65 VM 3, , , VM,983866,74, VM VM VPOD VPOV 66 VM 4, ,218 9, VM,9255,639, VM VM VPOD VPOV 67 VM, , , VM,999789,, VM VM VPOD VPOV 68 VPOV 43,51252,1233 4,65 68 VPOV,,87773, VPOV VPOV VPOD VM 69 VM 1, , , VM 1,,, 69 VM VM VPOD VPOV 7 VPOV 44,52657,1912 4, VPOV,,899392,168 7 VPOV VPOV VPOD VM 71 VPOV 35,87637,2829 2, VPOV,,78694, VPOV VPOV VPOD VM 72 VM 1, , , VM,991899,19, VM VM VPOD VPOV 73 VPOD 2,3662 5,35, VPOD,49,8955, VPOD VPOD VPOV VM 74 VPOD 24,922 1,9387, VPOD,3,284829, VPOD VPOD VPOV VM 75 VPOV 52, ,2141 7, VPOV,,96562, VPOV VPOV VPOD VM 76 VPOV 43,18514,1795 4, VPOV,,89434, VPOV VPOV VPOD VM 77 VPOV 42,79842,576 5, VPOV,,99629, VPOV VPOV VPOD VM 78 VPOD 24, ,63, VPOD,5,162588, VPOD VPOD VPOV VM 79 VPOD 23, ,9647, VPOD,5,286919, VPOD VPOD VPOV VM 8 VPOD 26, ,3347, VPOD,1,38128, VPOD VPOD VPOV VM 81 VPOV 5,8523,8968 7, VPOV,,955443, VPOV VPOV VPOD VM 82 VM 4, ,926 7, VM,861673,927, VM VM VPOD VPOV * 83 VPOD 29,27342,7432 1,2335 * 83 VPOD,,566,4394 * 83 VPOD VPOV VPOD VM 84 VPOV 46,29736,5448 5, VPOV,,932387, VPOV VPOV VPOD VM 85 VPOV 4,5548,1947 3, VPOV,,862275, VPOV VPOV VPOD VM 86 VPOV 35,35798,652 1, VPOV,,67773, VPOV VPOV VPOD VM 87 VM,268 32, , VM,999836,, VM VM VPOD VPOV 88 VPOV 38,17254,93 2, VPOV,,75866, VPOV VPOV VPOD VM 89 VPOV 3,5668,6523, VPOV,,519469, VPOV VPOV VPOD VM 9 VPOV 37,69635,448 2, VPOV,,878, VPOV VPOV VPOD VM Případ Klasifikace případů (data_monitoring vod) Nesprávná klasifikace je označena * Chybně zařazené případy jsou označeny *. Vzorky vod ( případy ) č.3,17,18,36 byly nesprávně zařazeny jako VPOV, správně měly být zařazeny jako VPOD. Případ 83 by zařazen do VPOD, ale patří mezi VPOV. 14/31

15 9 Kořen1 vs. kořen Kořen Kořen1 VM VPOV VPOD Vzorky vod třídy VPOD, VPOV jsou zobrazeny na diagramu mnohem více vpravo, proto první diskriminační funkce diskriminuje mezi těmito třídami a třídou VM. Druhá diskriminační funkce diskriminuje mezi vzorky vod třídy VM, které vykazují záporné hodnoty druhé diskriminační funkce a ostatními vzorky vod, které mají kladné hodnoty. Závěr: y 1x x Byl sestaven zjednodušený diskriminační model Nejvhodnějšími diskriminátory jsou znaky a Ca. Klasifikací objektů bylo identifikováno 5 špatně zařazených objektů do tříd. Chybně nebyly zařazeny. vzorky vod do matrice minerální vody (VM). Nesprávně byly zařazeny vzorky č. 3, 17,18, 36. Jedná se o podzemní vody(vpod), nikoli o vody povrchové(vpov). Úspěšnost diskriminačního zařazování do tříd byla 94,44%. Vidíme, že při monitoringu vod pro zařazování do tříd nestačí pouze znalost místa a způsobu odběru. Diskriminační analýza poodhalila možný průsak podzemních vod do povrchových, který mohl být způsoben důlní činností. 15/31

16 Úloha 2. Vzdělání a zařazení do zaměstnání Zadání Ve statistické ročence ČR 22 jsou uvedeny údaje o bilanci obyvatelstva a jeho struktury podle vzdělání. Výběrové šetření pracovních sil je zdrojem informací o trhu práce, zjišťovaným šetřením v domácnostech respondentů. Údaje uvedené v tabulce jsou za r. 21. Zaměstnaní jsou všechny osoby 15-ti leté a starší, které ve sledovaném období byly bez práce nebo hledali aktivně práci (úřad práce), popř.byly připraveny k nástupu do práce nejpozději do 14 dnů. Nepatří sem osoby, které hledají své první zaměstnání po studiu. Dále jsou v tabulce údaje o vzdělání pro neaktivní osoby, t.j. důchodci a studenti. proveďte korespondenční analýzu kategorických dat k zobrazení skryté vnitřní závislosti. Klasifikujte obyvatelstvo z pohledu vzdělání a pracovního zařazení. Data v tis. osobách vzdělání zaměstnaní nezaměstnaní důchodci studenti ZA 49, ,4 481,6 SO 21,1 185,9 736,6 13,4 VM 84,2 7,8 5,9 2,4 USO 1467,3 81,6 37,6 84,8 USV 187,8 16,1 62,2 116,5 VŠ 586,1 14,7 11,6 1,6 BV 5,4 5,8 48,5 87,4 vzdělání: ZA SO VM USO USV VŠ BV základní střední odborné vyučení s maturitou úplné střední odborné úplné střední všeobecné vysokoškolské bez vzdělání a nezjištěno Program Statistika Standard 7 CZ 16/31

17 Řešení Řádkové a sloupcové profily Řádkové profily v procentech Procenta z řádk. součtů (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=, zaměst. nezaměst. důchodci studenti Celkem ZA 21,97 5,85 46,31 25,86 1, SO 68,23 6,31 25,,45 1, VM 83,95 7,78 5,88 2,39 1, USO 73,21 4,7 18,49 4,23 1, USV 49,9 4,21 16,26 3,45 1, VŠ 81,18 2,4 15,32 1,47 1, BV 3,67 3,94 32,97 59,42 1, průměr 54,47 4,89 22,89 17,75 1, V tabulce vidíme, jak korespondenční analýza vyšetřila rozdíly mezi jednotlivými řádkovými profily a celkovým řádkovým profilem, který je v tabulce označen jako průměr. Sloupcové profily v procentech Procenta ze sloupc. součtů (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=, zaměst. nezaměst. důchodci studenti průměr ZA 8,61 25,9 39,26 6,45 33,55 SO 42,32 44,17 33,53 1,68 3,42 VM 1,77 1,85,27,3 1,5 USO 3,89 19,39 16,87 1,64 19,45 USV 3,95 3,83 2,83 14,62 6,31 VŠ 12,34 3,49 5,3 1,33 5,55 BV,11 1,38 2,21 1,97 3,67 Celkem 1, 1, 1, 1, 1, V tabulce jsou uvedeny sloupcové profily a celkový sloupcový průměr vyjádřené v procentech. 17/31

18 Počet projekčních dimenzí K získání celkové společné těsnosti proložení je nutné identifikovat počet projekčních dimenzí. Výpočtem Maximální počet dimenzí, které mohou být užity, je roven menšímu číslu z počtu řádků nebo sloupců zmenšené o 1. V příkladu máme 7 řádků a 4 sloupce. Maximální počet dimenzí je roven: 4-1=3 Cattelův indexový graf úpatí Vybereme počet dimenzí, založených na celkové úrovni objasněné variability v kategoriích a sledujeme přírůstek v objasněné variabilitě při přidání dalších dimenzí. Klíčové pravidlo zní: Dimenze s vlastním číslem (inercií) větší než,2 by měla být zařazena do analýzy.,35 Graf vlastních čísel Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=,,3,25 Vlast. číslo,2,15,1,5, Počet dimenzí Vlast. čísla a inerce pro všechny dimenze (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Celk. inerce =,3199 Chi2=2539,1 sv=18 p=, Počet Singul. Vlast. Procent Kumulat. Chí dimenzí čísla čísla inerce Procent kvadrát 1,526845, ,25 89, ,2 2,1767, ,4 99, ,9 3,46953,225,71 1, 18, V tabulce uvedené kumulativní procento představuje objem celkové informace, který je zobrazený počtem dimenzí. První dvě dimenze pokryjí 99,29% celkové informace. To znamená, že redukce dimenzí na dvě způsobí ztrátu pouze,71% informace. Inercie větší než,2 by měla být zařazena do analýzy. Individuální procento a kumulativní procenta jsou počítané ze všech vlastních čísel. Platí zde pravidlo, že první dvě dimenze mají pokrýt alespoň 9% celkové variability v datech. Kumulativní procento je větší ne 5%, proto můžeme korespondenční analýzu pro data použít. Výsledek hledání počtu projekčních dimenzí je 2. 18/31

19 Řádkové a sloupcové souřadnice a příspěvky do inercie Sloupcové souřadnice a příspěvky k inerci (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Sloupec Sloupec Souřad. Souřad. Masa Kvalita Relativ. inerce Cos^2 inerce Cos^2 Název Počet Dim.1 Dim.2 Inerce Dim.1 Dim.1 Dim.2 Dim.2 zaměst. 1,378 -,77,582 1,,278,299,96,111,4 nezaměst. 2 -,45,176,52,462,12,,28,51,433 důchodci 3 -,339,247,269,996,153,111,649,527,346 studenti 4-1,295 -,316,98 1,,557,589,944,311,56 Sloupcové souřadnice a příspěvky k inerci (data_vzdělání_zaměstnanost) Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Sloupe Sloupec Souřad. Souřad. Masa Kvalita Relativ. inerce Cos^2 inerce Cos^2 c Název Počet Dim.1 Dim.2 Inerce Dim.1 Dim.1 Dim.2 Dim.2 zaměst. 1,378 -,77,582 1,,278,299,96,111,4 nezaměst. 2 -,45,176,52,462,12,,28,51,433 důchodci 3 -,339,247,269,996,153,111,649,527,346 studenti 4-1,295 -,316,98 1,,557,589,944,311,56 USV 5 -,54 -,488,47,992,75,43,512,358,48 VŠ 6,446 -,145,88,955,65,63,864,6,92 BV 7-1,649 -,576,18,999,177,177,89,192,19 Osa 1 a osa 2 představuje užité dimenze grafu ( první hlavní komponenty). Cílem korespondenční analýzy je sestrojení grafů v dvojrozměrném prostoru a grafická prezentace řádků a sloupců velkých četnostních tabulek. V tabulce uvedená Kvalita je suma hodnot Cos^2 Dim.1, Cos^2 Dim.2 obou osob. Je to díl variability v dotyčném profilu, který je reprodukován oběma osami. Oba profily jsou nad 89,4%. Body, které budou zobrazené v grafu nejsou zkresleny použitým projekčním procesem snížené dimenze. Masa je váha, která představuje procentuální podíl celé tabulky v této kategorii, to je u řádkové váhy představovaný tímto řádkem. 2 Inercie je Pearsonovo dělené sumou všech četností prvků tabulky. Relativní inercie, její hodnota představuje podíl celkové inercie na profilu ( na dotyčném bodu) a nezávisí na počtu dimenzí. 19/31

20 Diagnostické grafy korespondenční analýzy,3 2D graf řádkových souřadnic; Dimenze: 1 x 2 Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Dimenze 2; Vl. číslo:,3122 (1,4% inerce ),2,1, -,1 -,2 -,3 -,4 -,5 -,6 BV ZA USV SO USO VŠ VM -,7-2, -1,5-1, -,5,,5 1, Dimenze 1; Vl. číslo:,27757 (89,25% inerce ),4 2D graf sloupcových souřadnic; Dimenze: 1 x 2 Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Dimenze 2; Vl. číslo:,3122 (1,4% inerce ),3,2,1, -,1 -,2 -,3 studenti důchodci nezaměst. zaměst. -,4-1,6-1,4-1,2-1, -,8 -,6 -,4 -,2,,2,4,6 Dimenze 1; Vl. číslo:,27757 (89,25% inerce ) Každý bod v grafech diagnostikuje celý profil promítnutý do roviny vybraných os. Graf řádkových profilů zobrazuje první hlavní komponentu, která odděluje obyvatele bez vzdělání (BV) od obyvatel se vzděláním. Druhá hlavní komponenta odděluje obyvatele se základním (ZA) a středním odborným (SO) vzděláním od obyvatel se vzděláním úplným středním všeobecným (USV) umístěných v dolní části grafu. Čím blíže jsou body u sebe, tím těsnější jsou jejich profilové modely. Obyvatelé s USO, VŠ a VM jsou v grafu blízko sebe, to znamená, že jsou tyto skupiny z hlediska klasifikace v této úloze podobné. Graf sloupcových profilů zobrazuje roztříděnou kategorii obyvatel na studenty, důchodce, nezaměstnané a zaměstnané. První hlavní komponenta roztřídila obyvatele na studenty a zaměstnané. Druhá hlavní komponenta rozdělila obyvatele na zaměstnané, nezaměstnané s důchodci. 2/31

21 ,4 2D graf řádkových a sloupc. souřadnic; Dimenze: 1 x 2 Vstupní tab. (řádky x sl.) : 7 x 4 Standardizace: Profily řádků a sloupců Dimenze 2; Vl. číslo:,3122 (1,4% inerce ),3,2,1, -,1 -,2 -,3 -,4 -,5 -,6 BV studenti ZA důchodci USV nezaměst. SO USO zaměst. VŠ VM -,7-2, -1,5-1, -,5,,5 1, Dimenze 1; Vl. číslo:,27757 (89,25% inerce ) Řád.souř. Sloup.sou. Grafy sloupcových a řádkových profilů jsou analogií předešlých grafů. Z polohy bodů USO, VŠ, VM, zaměst. lze vyvodit, že zaměstnaní jsou většinou obyvatelé s úplným středním odborným vzděláním, vyučení s maturitou a vysokoškolským vzděláním Závěr Cílem korespondenční analýzy bylo sestrojení grafů ve dvojrozměrném prostoru a grafická prezentace řádků a sloupců četnostních tabulek. Každý bod v těchto grafech diagnostikoval celý profil promítnutý do roviny vybraných dvou os. Grafy korespondenční analýzy názorně kvalifikovaly obyvatele z hlediska vzdělání a pracovního uplatnění. 21/31

22 Úloha 3. Vody kanonická korelační analýza Zadání Ve 48 vzorcích vod odebraných v různých lokalitách našeho okresu byly stanoveny tyto ukazatele:,, hydrouhličitany, vápník, sodík, hořčík a mineralizace. Data jsou tvořena dvěma skupinami znaků.zvolte znaky nezávislé proměnné a závisle proměnné. Pomocí kanonické korelační analýzy určete, zda skupiny znaků jsou na sobě nezávislé nebo určete velikost vztahu, který existuje mezi oběma skupinami. Data vz.č. miner. hydrouhl. Ca Mg Na mg/l ,8 55, , 11, 9, ,5 4, ,5 1, 41, ,5 75, ,5 16, 41, ,9 56, , 7,5 9, ,3 39, ,5 6,5 15, ,3 114, ,5 13,5 43, , 53, ,5 8,5 8, , 77, ,5 11,5 17, , 89,2 21 1,2 17,5 6, ,7 47, , 9, 16, ,4 51, ,5 7, 23, ,1 44, , 7, 17, ,8 39, , 9, 27, ,5 54, , 8,5 12, , 46, ,5 7, 15, , 129, , 1, 48, ,4 5, , 8,5 13, ,4 58, , 11,5 17, ,1 57, , 13,5 22, ,8 51, ,5 7,5 17, ,8 92,8 67,1 14,5 3,5 53, ,5 54, ,5 1,5 13, ,9 64, , 13, 23, ,9 71, , 11,5 22, ,1 39, , 16, 9, , 5,7 79,3 35,5 8,5 16, ,4 38, ,5 8, 7, ,4 75, ,5 9, 25, ,4 77, , 8, 2, ,1 39, , 1, 27, ,1 44, , 8,5 29, ,8 48, ,5 7,5 25, ,8 61, , 8, 3, ,8 11, ,5 17, 71, ,6 86, ,5 15,5 14, ,3 71, ,5 8, 13, ,3 128, 293 8, 1,5 71, , 95, , 7,5 23, ,8 12, , 12, 3, ,5 129, , 2, 43, ,4 71, ,5 9,5 24, ,1 59, , 19,5 7, ,5 71, , 1,5 36, ,5 8, ,5 13, 44, , 48, , 2, 1,2 22/31

23 vz.č. miner. hydrouhl. Ca Mg Na mg/l ,6 98,1 14 5,5 12, 23, ,1 78, , 12,5 47, ,2 63, , 17, 13,4 Program: Statistika Standard 7 Cz ( pokud není uvedeno jinak) Řešení Exploratorní analýza Kanonická korelační analýza 1. Exploratorní analýza Vyšetření vstupních dat Program: QC Expert 2.5 U znaků a Na byly diagnostikovány odlehlé vzorky (případy), které se nevyskytují jako odlehlé u dalších znaků. Z důvodu možné ztráty informace, kterou obsahují, nebudou vyřazeny ze zdrojové matice VODY. 23/31

24 Histogramy Histogram: Na Histogram: Mg Histogram: Ca K-S d=,15748, p<,2 ; Lilliefors p<,1 K-S d=,1339, p>.2; Lilliefors p<,5 K-S d=,16184, p<,2 ; Lilliefors p<,1 18 Očekávané normální 14 Očekávané normální 18 Očekávané normální Počet pozor. 1 8 Počet pozor. 8 6 Počet pozor x <= hranice kategorie x <= hranice kategorie x <= hranice kategorie Histogram: hydrouhl. Histogram: Histogram: mineraliz. K-S d=,12612, p>.2; Lilliefors p<,1 K-S d=,14294, p>.2; Lilliefors p<,5 K-S d=,16111, p<,2 ; Lilliefors p<,1 18 Očekávané normální 22 Očekávané normální 2 Očekávané normální Počet pozor Počet pozor Počet pozor x <= hranice kategorie x <= hranice kategorie x <= hranice kategorie Histogram: K-S d=,12648, p>.2; Lilliefors p<,1 2 Očekávané normální Počet pozor x <= hranice kategorie Krabicové grafy 8 Krabicový graf 14 Krabicový graf mineraliz. hydrouhl. Průměr Průměr±SmOdch Průměr±1,96*SmOdch -2 Ca Mg Na Průměr Průměr±SmOdch Průměr±1,96*SmOdch Krabicové grafy zobrazily proměnlivost znaků zdrojové matice, která se jeví pro kanonickou korelační analýzu dostatečná. Největší proměnlivost vykazují znaky mineralizace, hydrouhličitany, Ca a Na. 24/31

25 Podobnost objektů Symbolové grafy (ikonové grafy) Ikonový graf (data_vody_cca 7v*48c) Ikonový graf (data_vody_cca 7v*48c) vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 tvář/šíř = mineraliz. ucho/úrov = polovina tváře/výš = horní tvář/exc = hydrouhl. dolní tvář/exc = Ca nos/dél = Mg ústa/stř = Na vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 Pravotočivě: mineraliz. hydrouhl. Ca Mg Na Ikonový graf (data_vody_cca 7v*48c) Ikonový graf (data_vody_cca 7v*48c) vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.1 vz.2 vz.3 vz.4 vz.5 vz.6 vz.7 vz.8 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.9 vz.1 vz.11 vz.12 vz.13 vz.14 vz.15 vz.16 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.17 vz.18 vz.19 vz.2 vz.21 vz.22 vz.23 vz.24 vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 Pravotočivě: mineraliz. hydrouhl. Ca Mg Na vz.25 vz.26 vz.27 vz.28 vz.29 vz.3 vz.31 vz.32 vz.33 vz.34 vz.35 vz.36 vz.37 vz.38 vz.39 vz.4 vz.41 vz.42 vz.43 vz.44 vz.45 vz.46 vz.47 vz.48 Pravotočivě: mineraliz. hydrouhl. Ca Mg Na V symbolových grafech jsou znaky kódované s ohledem na konkrétní hodnoty do určitých geometrických tvarů a nebo symbolů. Pomocí grafů Chernoffovy tváře, Výseče, Sluneční paprsky, Hvězdy byly zjištěny podobné případy např , a zcela nepodobné ostatním Rozptylové diagramy pro páry: Bodový graf (data_vody_cca 7v*48c) = 18,2338+,1188*x Bodový graf (data_vody_cca 7v*48c) hydrouhl. = -14,9657+,5257*x 52,6 47, 41,4 36,5 32,3 28,1 23,9 19, 14,7 1,5 hydrouhl :: r =,2537; p =,819 38,5 47,1 55,8 64,7 75,1 86,5 95,8 11, 128, mineraliz.:hydrouhl.: r =,8447; p =, mineraliz. Znaky a spolu velmi slabě korelují. Dobře korelují mezi sebou znaky hydrouhličitany a mineralizace 25/31

26 Popisné statistiky Popisné statistiky (data_vody_cca) Proměnná N platných Průměr Medián Minimum Maximum Sm. odch. mineraliz ,6 45, 26, 69, 125, ,4 24, 1,5 54,2 11, ,4 6,5 38,5 129, 25,2 hydrouhl ,5 21, 61, 39, 78, Ca 48 67, 61, 1,2 124, 26,5 Mg 48 11, 1, 3,5 2, 3,9 Na 48 26,2 22,6 7,1 71,8 16,3 Kovariance (data_vody_cca) proměnná mineraliz. hydrouhl. Ca Mg Na mineraliz ,7 441,3 1895,6 8252, 1864,9 297, 161,7 441,3 139,1 75,4 97,5 131,1 17, 13,2 1895,6 75,4 634,4 556,9 128,9 3,3 278,7 hydrouhl. 8252, 97,5 556,9 679,7 176,2 137,4 282,1 Ca 1864,9 131,1 128,9 176,2 73,2 45,5 21,1 Mg 297, 17, 3,3 137,4 45,5 15, 11,1 Na 161,7 13,2 278,7 282,1 21,1 11,1 265,5 Proměnné mineraliz. hydrouhl. Ca Mg Na Korelace (data_vody_cca) Označ. korelace jsou významné na hlad. p <,5 N=48 (Celé případy vynechány u ChD) mineraliz. 1, p= ---,299 1, p=,39 p= ---,61,254 1, p=, p=,82 p= --- hydrouhl.,845,16,284 1, p=, p=,473 p=,51 p= --- Ca,561,419,193,521 1, p=, p=,3 p=,189 p=, p= --- Mg,613,373,311,456,444 1, p=, p=,9 p=,32 p=,1 p=,2 p= --- Na,52,69,679,222,49,177 1, p=, p=,642 p=, p=,129 p=,742 p=,23 p= --- V tabulce je uvedena korelační matice 7 znaků z matice dat VODY pro 48 případů (vzorků vod). v druhém řádku jsou uvedeny vypočtené hladiny významnosti p. Platí testační pravidlo, že je-li p< =,5, je hodnota korelačního koeficientu statisticky významná. V tabulce jsou statisticky významné korelační koeficienty označeny červeně. Nejvyšší korelace je mezi znaky mineraliz. a hydrouhl., r=,845. Nejnižší korelace je mezi znaky mineraliz. a, r=, /31

27 Maticový diagram Korelace (data_vody_cca 7s*48ř) mineraliz. hydrouhl. Ca Mg Na Na obrázku maticového diagramu jsou znázorněny histogramy a maticové grafy korelace znaků zdrojové matice VODY. Hydrouhličitany nekorelují s, a s Na. Mrak bodů mezi a Ca znázorňuje, že mezi znaky není korelace. 27/31

28 2. Kanonická korelační analýza Zadání kanonických proměnných nezávislé kanonické proměnné (L) hydrouhličitany závislé kanonické proměnné (P) mineralizace Ca Mg Na V tabulce jsou uvedeny zvolené kanonické proměnné, u kterých budou vypočteny zátěže. Pro výběr počtu kanonických proměnných použijeme Cattelův indexový diagram úpatí vlastních čísel. 1, Graf vlastních čísel,9,8,7,6 Hodn.,5,4,3,2,1, Počet kanonických kořenů Souhrn kanonické analýzy (data_vody_cca) Kanonické R:,93814 Chí2(12)=118,88 p=, L P N=48 sada sada Počet proměnných 3 4 Získaný rozptyl 1,% 86,36% Celková redundance 52,17% 51,98% Proměnné: 1 mineraliz. 2 Ca 3 hydrouhl. Mg 4 Na Rozptyl extrahovaný (získaný rozptyl) značí průměrné množství rozptylu vyčísleného ze znaků v obou souborech všemi kanonickými proměnnými. Všechny kanonické proměnné vyčíslí 1% rozptylu na pravé straně ze 3 znaků,, hydrouhličitany a 86,36% rozptylu na levé straně ze 4 znaků mineralizace, Ca, Mg, Na. Celková redundance ukazuje na velikost celkové korelace mezi znaky na pravé straně rovnice 52,17% a na levé straně 51,98%. Vyčíslená hodnota rozptylu 52,17 % se týká aniontů stanovených ve 48 vzorcích vod. Hodnota 52,17% se týká skupiny znaků zahrnující kationty a znak mineralizace. 28/31

29 Test významnosti kanonických kořenů Vyšetřujeme, zda všechny tři kanonické kořeny jsou statisticky významné.maximální počet kanonických kořenů, který může být z dat vybrán, je roven nejmenšímu počtu znaků užitých v jednotlivých souborech na levé a pravé straně rovnice. Máme 3 znaky vlevo a 7 znaky vpravo, proto budou užity 3 kanonické proměnné. 1,1 Graf kanonických korelací 1,,9,8,7 Hodn.,6,5,4,3,2,1, Počet kanonických kořenů Test chí-kvadrát po odstranění post. kořenů (data_vody_cca) Kořen Kanonic. Kanonic. Chí-kv. sv p První odstraněný R R-kvad. lambda,938,88 118,879 12,,63 1,624,389 27,666 6,1,526 2,374,14 6,482 2,391,86 V tabulce v prvním jsou údaje týkající se situace, že nebyl žádný kanonický kořen.odstraněn. Testy jsou vysoce statisticky významné. V druhém řádku je vidět, že po odstranění prvního nejvýznamnějšího kořene jsou testy ještě statisticky významné. Také po odstranění 1 a 2 kořene jsou testy nadále statisticky významné( p<,5). První kanonický kořen byl,938 a zahrnuje 88,% překrývajícího rozptylu. Druhý kanonický kořen měl hodnotu,624 a 38,9% překrývajícího rozptylu. Třetí kanonický kořen je,374 a zahrnuje 14,% překrývajícího rozptylu. 2 Pro všechny kanonické proměnné je rovno 118,88 a p<,1 a po odstranění první kanonické proměnné je 2 27, 67 a p=,1. Pro další test je 2 6, 48 a p=,391 ( p<,5). 29/31

30 Kanonické skóre Kanonické proměnné představují vážené součty znaků v každém souboru: P 1 =a 1 y 1 +a 2 y 2 +a 3 y 3 +a 4 y 4 L 1= b 1 x 1 +b 2 x 2 +b 3 x 3 Kanonické váhy, pravá sada (data_vody_cca) Proměnná Kořen 1 Kořen 2 Kořen 3 mineraliz. 1, , ,27881 Ca, ,267611,88625 Mg -,13137,1425,84183 Na -, ,5436,62975 Kanonické váhy, levé sada (data_vody_cca) Proměnná Kořen 1 Kořen 2 Kořen 3, ,4167,9393, ,15957,11866 hydrouhl., , , Grafy kanonických skóre 2,5 Kanonické proměnné: Prom. 1 ( L sada ) ku 1 ( P sada ) 2, 1,5 1, Pr. sada,5, -,5-1, -1,5-2, -2, -1,5-1, -,5,,5 1, 1,5 2, 2,5 L. sada Objekty leží na přímce, nedochází k porušení předpokladů kanonické analýzy. 3 Kanonické proměnné: Prom. 1 ( L sada ) ku 2 ( P sada ) 4 Kanonické proměnné: Prom. 1 ( L sada ) ku 3 ( P sada ) Pr. sada Pr. sada , -1,5-1, -,5,,5 1, 1,5 2, 2,5-2, -1,5-1, -,5,,5 1, 1,5 2, 2,5 L. sada L. sada První kanonická proměnná spolehlivě interpretuje přímkovou závislost. 3/31

31 Závěr Provedením kanonické korelační analýzy jsme zjistily, že existuje lineární vztah mezi znaky anionty (,, hydrouhličitany) a znaky kationty (Ca,Mg,Na)se znakem mineraliz.. Nejlépe interpretuje tuto přímkovou závislost první kanonická proměnná. Tento lineární vztah je statisticky významný. mineraliz. a 1 =1,1113 Ca a 2 =,138 b 1 =,147 Mg P 1 L 1 b 2 =,147 a 3 =-,131 b 3 =,8228 Na a 4 =-,1213 hydrouhl. První pár kanonických korelačních proměnných L 1 a P 1 dostatečně popisuje závislost 4 znaků mineraliz., Ca, Mg, Na na 3 znacích,, hydrouhl.. 31/31

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KLASIFIKACE

Více

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH

Více

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Klasifikace analýzou vícerozměrných dat Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce je písemným vypracováním zkouškových otázek z okruhu Klasifikace analýzou vícerozměrných dat.

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě

Více

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

3.4 Určení vnitřní struktury analýzou vícerozměrných dat 3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce STATISTICKÁ

Více

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc. Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc. Zadání: Do příštího soustředění předložte ke klasifikaci

Více

Cvičení 12: Binární logistická regrese

Cvičení 12: Binární logistická regrese Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,

Více

Klasifikace podzemních vod diskriminační analýzou

Klasifikace podzemních vod diskriminační analýzou Klasifikace podzemních vod diskriminační analýzou Prof. RNDr. Milan Meloun, DrSc., Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.meloun@upce.cz, a Jindřich Freisleben Český hydrometeorologický

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro

Více

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program: Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat ANOVA Zdravotní ústav se sídlem v Ostravě Odbor hygienických laboratoří

Více

Kanonická korelační analýza

Kanonická korelační analýza Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce ANALÝZA

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Určení vnitřní struktury analýzou vícerozměrných dat Ing. Pavel Bouchalík 1. ZADÁNÍ Tato semestrální práce je písemným vypracováním zkouškových otázek z okruhu Určení vnitřní struktury

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba nelineárních regresních modelů v analýze dat Vedoucí licenčního studia Prof. RNDr.

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce: UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat při managementu jakosti Semestrální práce: METODY S LATENTNÍMI PROMĚNNÝMI A KLASIFIKAČNÍ

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

S E M E S T R Á L N Í

S E M E S T R Á L N Í Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět Určení vnitřní

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015 UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015

Více

Plánování experimentu

Plánování experimentu Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces

Více

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Kalibrace a limity její přesnosti Vedoucí licenčního studia Prof. RNDr. Milan Meloun,

Více

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava BIOSTATISTIKA VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: BIOSTATISTIKA Domácí úkoly Zadání 5 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1:

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Klasifikace analýzou vícerozměrných dat (Diskriminační analýza,

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium chemometrie na téma Statistické zpracování dat Semestrální práce ze 6. soustředění Předmět: 3.3 Tvorba nelineárních

Více

S E M E S T R Á L N Í

S E M E S T R Á L N Í Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět ANOVA analýza rozptylu

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: SMAD Cvičení Ostrava, AR 2016/2017 Popis datového souboru Pro dlouhodobý

Více

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Vzorová prezentace do předmětu Statistika

Vzorová prezentace do předmětu Statistika Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota

Více

Tvorba grafů v programu ORIGIN

Tvorba grafů v programu ORIGIN LICENČNÍ STUDIUM GALILEO STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Tvorba grafů v programu ORIGIN doc.dr.ing.vladimír Pata Univerzita Tomáše Bati ve Zlíně Fakulta technologická Ústav výrobních technologií

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti. Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Zpracovávaná data jsou

Více

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar

Více

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Semestrální práce Licenční studium Statistické zpracování dat při kontrole a řízení jakosti předmět 3.1. Matematické principy

Více

Tvorba nelineárních regresních

Tvorba nelineárních regresních Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Tvorba nelineárních regresních modelů v analýze dat Zdravotní ústav

Více

Univerzita Pardubice 8. licenční studium chemometrie

Univerzita Pardubice 8. licenční studium chemometrie Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí

Více

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.

Více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.1 Matematické principy vícerozměrných metod statistické analýzy

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

UNIVERZITA PARDUBICE. Semestrální práce z 5. soustředění

UNIVERZITA PARDUBICE. Semestrální práce z 5. soustředění UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium chemometrie na téma Statistické zpracování dat Semestrální práce z 5. soustředění Předmět: 3.5 Klasifikace

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Vedoucí studia a odborný garant: Prof. RNDr. Milan Meloun, DrSc. Vyučující: Prof. RNDr. Milan Meloun, DrSc. Autor práce: ANDRII

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

Tvorba grafů a diagramů v ORIGIN

Tvorba grafů a diagramů v ORIGIN Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Tvorba grafů a diagramů v ORIGIN Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2016

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie KALIBRACE A LIMITY JEJÍ PŘESNOSTI Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2016

Více

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015 Doc. Mgr. Jan Muselík, Ph.D.

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Počítačová analýza vícerozměrných dat

Počítačová analýza vícerozměrných dat Seminární práce Vypracoval: Ing.Jiří Raška Obsah: Zadání 3 Průzkumová analýza 5 Symbolové grafy 8 Odhalení struktury ve znacích a objektech 11 Metoda hlavních komponent 16 Shluková analýza 22 Závěr 27

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Faktorová analýza (FACT)

Faktorová analýza (FACT) Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium GALILEO a limity její přesnosti Seminární práce Monika Vejpustková leden 2016 OBSAH Úloha 1. Lineární kalibrace...

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

x T 1 matici 45.53 25.22 57.81 12.39 11.88 36.09 22.15 7.52 &0.31 20.94 27.97 48.06 1.41 16.77 66.21 S 1 kovarianční matici 74.42 &9.52 37.

x T 1 matici 45.53 25.22 57.81 12.39 11.88 36.09 22.15 7.52 &0.31 20.94 27.97 48.06 1.41 16.77 66.21 S 1 kovarianční matici 74.42 &9.52 37. Vzorová úloha 4.7 Užití lineární diskriminační funkce Předpokládejme, že máme data o 2 třídách objektů tibetských lebek v úloze B4.14 Aglomerativní hierarchické shlukování při analýze lebek Tibeťanů: prvních

Více

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu. Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.

Více

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Seminární práce 1 Brno, 2002 Ing. Pavel

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Vedoucí studia a odborný garant: Prof. RNDr. Milan Meloun, DrSc. Vyučující: Prof. RNDr. Milan Meloun, DrSc. Autor práce: ANDRII

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství 1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí

Více

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality RNDr. Alena Mikušková FN Brno Pracoviště dětské medicíny, OKB amikuskova@fnbrno.cz Analytické znaky laboratorní metody

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) 5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) Cílem tématu je správné posouzení a výběr vhodného testu v závislosti na povaze metrické a kategoriální veličiny. V následující

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Aproximace a vyhlazování křivek

Aproximace a vyhlazování křivek Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Přednášející: Prof. Ing. Jiří Militký, Csc 1. SLEDOVÁNÍ ZÁVISLOSTI HODNOTY SFM2 NA BARVIVOSTI

Více

Třídění statistických dat

Třídění statistických dat 2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.

Více

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Úvod do vícerozměrných metod Statistické metody a zpracování dat Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný O řadě jevů či procesů máme k dispozici ne jeden statistický

Více

Statistická analýza. jednorozměrných dat

Statistická analýza. jednorozměrných dat Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie icenční studium chemometrie Statistické zpracování dat Statistická analýza jednorozměrných dat Zdravotní ústav se sídlem v

Více

Monitoring vod. Monitoring podzemní voda:

Monitoring vod. Monitoring podzemní voda: Monitoring vod Monitoring podzemní voda:...1 Předprovozní monitoring:...1 Monitoring v rámci provozu...2 Vyhodnocení monitoringu podzemních vod...3 Monitoring povrchová voda:...5 Profil Dubenecký potok

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

Tvorba nelineárních regresních modelů v analýze dat

Tvorba nelineárních regresních modelů v analýze dat Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Tvorba nelineárních regresních modelů v analýze dat Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza

Více

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Zadání : Titanová běloba (TiO ) se vyrábí ve dvou základních krystalových modifikacích - rutilové a anatasové.

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více