Univerzita Pardubice Fakulta chemicko-technologická. Licenční studium Statistické zpracování dat. 3.5 Klasifikace analýzou vícerozměrných dat

Podobné dokumenty
Vývoj demografické struktury obyvatelstva v zemích EU. Tomáš Fiala Jitka Langhamrová Katedra demografie Fakulta informatiky a statistiky VŠE Praha

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Bydlení v mezinárodním srovnání. vybrané údaje o bydlení ze zdrojů EUROSTAT, ČSÚ, publikace Housing Statistics in the European Union 2010

Podmínky pro výjezd studentů do zahraničí. ERASMUS+ a další programy

Výdaje na základní výzkum

ZÁKLADNÍ CENÍK. K ceně přepravy se připočítává mýto ve výši 0,50 Kč/kg a aktuální palivový příplatek

rok Index transparentnosti trhu veřejných zakázek ČR Index netransparentních zakázek ČR Index mezinárodní otevřenosti ČR

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Železniční doprava zboží mezi lety 2003 a 2004

1 kg 5 kg 10 kg 15 kg 20 kg 25 kg 30 kg 40 kg 50 kg

Formát Vysvětlení Poznámka 7 číslic 9 číslic

Administrativní zatížení vyplývající z povinnosti k DPH

DAŇOVÁ INDENTIFIKAČNÍ ČÍSLA (DIČ) Číslo DIČ podle tématu : Struktura DIČ. 1. AT Rakousko. 2. BE Belgie. 3. BG Bulharsko. 4.

SPOLEČNÁ ZEMĚDĚLSKÁ POLITIKA V ČÍSLECH

IBAN a BIC Přeshraniční převody

EVROPSKÁ UNIE ENERGETIKA & DOPRAVA V ČÍSLECH. Část doprava

ZÁKLADNÍ EXPORTNÍ CENÍK PŘEPRAVY ZÁSILEK NA FIREMNÍ ADRESY /B2B/

ZÁKLADNÍ EXPORTNÍ CENÍK PŘEPRAVY ZÁSILEK NA FIREMNÍ ADRESY /B2B/

ZPRÁVA KOMISE EVROPSKÉMU PARLAMENTU A RADĚ O POTRAVINÁCH A SLOŽKÁCH POTRAVIN OŠETŘOVANÝCH IONIZUJÍCÍM ZÁŘENÍM ZA ROK 2013

ZMĚNY VE STRUKTUŘE VÝDAJŮ DOMÁCNOSTÍ V ZEMÍCH EU

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

TABULKA I: RYBOLOVNÁ LOĎSTVA JEDNOTLIVÝCH ČLENSKÝCH STÁTŮ (EU-28) V ROCE 2014

A Telekomunikační a internetová infrastruktura

ZPRÁVA KOMISE EVROPSKÉMU PARLAMENTU A RADĚ O POTRAVINÁCH A SLOŽKÁCH POTRAVIN OŠETŘOVANÝCH IONIZUJÍCÍM ZÁŘENÍM ZA ROK 2010

A Telekomunikační a internetová infrastruktura

Úvodem Dříve les než stromy 3 Operace s maticemi

TABULKA I: RYBOLOVNÁ LOĎSTVA JEDNOTLIVÝCH ČLENSKÝCH STÁTŮ (EU-28) V ROCE 2014

Zahraniční obchod podle zboží a zemí

Zdraví: přípravy na dovolenou cestujete vždy s evropským průkazem zdravotního pojištění (EPZP)?

Příloha č. 1: Vstupní soubor dat pro země EU 1. část

Krize a konkurenceschopnost. Ing. Jaroslav Humpál

Statistická ročenka. Centra mezistátních úhrad styčného orgánu ČR v oblasti zdravotní péče

PŘÍLOHY. návrhu nařízení Evropského parlamentu a Rady. o evropské občanské iniciativě. {SWD(2017) 294 final}

NA PŘÍKOPĚ PRAHA 1. Popis struktury XML rozhraní pro elektronické podání hromadné žádosti o zápis do registru podle ZDPZ

Statistická ročenka 2006

Jaký by měl být optimální důchodový věk? (v ČR, SR, Evropě) Tomáš Fiala

ZPRÁVA KOMISE EVROPSKÉMU PARLAMENTU A RADĚ O POTRAVINÁCH A SLOŽKÁCH POTRAVIN OŠETŘOVANÝCH IONIZUJÍCÍM ZÁŘENÍM ZA ROK 2011

n Důchodce (soustava pro zaměstnané osoby) n Důchodce (soustava pro OSVČ) n Sirotek 1.1 Příjmení ( 1a ) Příjmení ( 1a )...

A Telekomunikační a internetová infrastruktura

Byrokratická bariéra kvality regulace

Absolutní rozdíl mezi ženami a muži v mírách zaměstnanosti (ženy a muži ve věku

Rozdílná míra vybavenosti výpočetní technikou mezi zeměmi nebo uvnitř jedné země

EVROPSKÝ RYBOLOV V ČÍSLECH

Ceník přepravce BALIKSERVIS Doba přepravy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

*+, -+. / 0( & -.7,7 8 (((!# / (' 9., /,.: (; #< # #$ (((!# / "

KOMISE EVROPSKÝCH SPOLEČENSTVÍ ROZHODNUTÍ KOMISE. ze dne ,

I. ŽÁDOST O INFORMACE. týkající se nadnárodního poskytnutí pracovníků v rámci poskytování služeb

Popis struktury XML rozhraní pro elektronické podání hromadné žádosti o zápis do registru PZ

Ochranné známky 0 ÚČAST

ČESKÁ TECHNICKÁ NORMA

DOPADY EVROPSKÉ MĚNOVÉ INTEGRACE NA ČR

Zahraniční obchod podle zboží a zemí

ZPRÁVA KOMISE EVROPSKÉMU PARLAMENTU A RADĚ O POTRAVINÁCH A SLOŽKÁCH POTRAVIN OŠETŘOVANÝCH IONIZUJÍCÍM ZÁŘENÍM ZA ROK 2014

Dosavadní zapojení subjektů ČR do výzev WIDESPREAD. Informační den v oblasti Šíření excelence a podpora účasti v programu Horizont 2020

Bezplatné informační zdroje v oblasti průmyslového vlastnictví

Rada Evropské unie Brusel 6. dubna 2016 (OR. en) Jordi AYET PUIGARNAU, ředitel, za generálního tajemníka Evropské komise

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Celoevropský průzkum veřejného mínění na téma bezpečnosti práce a zdraví Reprezentativní výsledky z 27 členských států Evropské unie

ZPRÁVA O TRHU HOVĚZÍHO A VEPŘOVÉHO MASA

Nominální konvergence české ekonomiky současný stav a vybrané implikace

VÝVOJ MLÉČNÉHO SEKTORU V EU A VE SVĚTĚ. Josef Kučera

CO ŘÍKAJÍ STATISTIKY O IT ODBORNÍCÍCH V ČR

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

PŘÍLOHA C. Tabulka se jmény studentů. PŘÍLOHA C. Tabulka se jmény studentů. pro 8 hráčů. pro 10 hráčů. stát projekt jméno Německo Více Evropy

KONKURENCESCHOPNOST V GLOBALIZOVANÉ A ZNALOSTNĚ ZALOŽENÉ EKONOMICE

Delegace naleznou v příloze dokument Komise KOM(2007) 617 v konečném znění.

EVROPSKÁ UNIE ENERGETIKA & DOPRAVA V ČÍSLECH. Část doprava Kapitola 1: Obecná data

EVROPSKÉ VOLBY V ROCE Standard Eurobarometr (EB 69) jaro 2008 První přibližné výsledky: Evropský průměr a významné tendence států

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Analýza možností zvýšenia príjmovej stránky rozpočtu verejných financií. Radko Kuruc Manažér sekcie finančného trhu IHP

ČESKÝ STATISTICKÝ ÚŘAD

STATISTIKY CESTOVNÍHO RUCHU JIŽNÍ ČECHY 2007

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Trendy v nákladní železniční dopravě

Osm členských států EU má náskok před USA v zavádění širokopásmového připojení, uvádí zpráva Komise z oblasti telekomunikací

II.3 Toky lidských zdrojů v oblasti vědy a technologií

PŘÍLOHA SDĚLENÍ KOMISE EVROPSKÉMU PARLAMENTU A RADĚ

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

ZPRÁVA KOMISE EVROPSKÉMU PARLAMENTU A RADĚ

ANALÝZA DLOUHODOBÉ NEZAMĚSTNANOSTI V ZEMÍCH EU # ANALYSIS OF LONG-TERM UNEMPLOYMENT IN EU COUNTRIES. KLÍMA Jan, PALÁT Milan.

Veřejné zakázky v ČR. 30. září 2015, Praha. Vysoká škola ekonomická v Praze Fakulta financí a účetnictví Katedra veřejných financí

Všeobecné poznámky. A. Ustanovení úmluv sociálního zabezpečení zůstávající v platnosti bez ohledu na článek 6 Nařízení. (Článek 7 (2) (c) Nařízení.

UNIVERZITA PARDUBICE. Semestrální práce z 5. soustředění

Úřad pro harmonizaci ve vnitřním trhu (OHIM) francouzština angličtina španělština

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE

Jan Koucký Konkurenceschopnost chemického průmyslu, kvalifikační požadavky a uplatnění absolventů vysokých škol: vývoj a srovnání

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

#Cesko2016. Česko : Jak jsme na tom?

II. Veřejně dostupné služby v mobilních sítích elektronických komunikací

Mediánový věk populace [demo_pjanind] 41,1 40,8 41,0 40,6 40,4 40,3 40,2 40,0

Univerzita Pardubice 8. licenční studium chemometrie

Kalibrace a limity její přesnosti

Sociální ochrana a sociální začlenění v Evropě hlavní fakta a čísla

Změny v úpravě zadávání veřejných zakázkách v České republice důvody a opatření

Turbulence na finančních trzích a jejich vliv na Českou republiku. Prof. Ing. KAMIL JANÁČEK, CSc. Česká národní banka Praha, 23.

9332/15 ADD 3 bl 1 DG D 2A

Tab. B1 Domácnosti v ČR s pevnou telefonní linkou

Traces - Export živých zvířat do třetích zemí z ČR

Transkript:

Univerzita Pardubice Fakulta chemicko-technologická Licenční studium Statistické zpracování dat 3.5 Klasifikace analýzou vícerozměrných dat RNDr. Lada Kovaříková České technologické centrum pro anorganické pigmenty a.s. Přerov 20. 4. 2006

Úloha č. 1: Klasifikace diskriminační analýzou Název úlohy: pigmenty 1.1 Zadání Data obsahují výsledky analýz tří skupin bílého pigmentu na bázi oxidu titaničitého (chemické a fyzikální vlastnosti pigmentů). Pigmenty jsou komerčně rozděleny do skupin na základě technologie povrchové úpravy. Proveďte klasifikaci diskriminační analýzou (DA); ověřte, zda je možné použít dosavadní třídění na základě použitých analýz; proveďte roztřídění (klasifikaci) vzorků, u kterých není znám původ (technologie povrchové úpravy). 1.2 Data Tabulka č. 1 obsahuje výsledky analýz vzorků, u kterých známe zařazení do tříd (typy RGA, RGX, RGU) tréninková data. Tabulka č. 2 obsahuje výsledky analýz neznámých vzorků, které potřebujeme zatřídit. Diskriminátory: Ti obsah Ti (%) TL obsah těkavých látek (%) SpO spotřeba oleje (g/100 g pigmentu) Barv barvivost Podt podtón Si obsah Si (%) Al obsah Al (%) 1.3 Program Úloha byla řešena programem: R Version 2.1.0 2

Tabulka č. 1: data pro úlohu č. 1 pigmenty data se známým zatříděním 3

Tabulka č. 2: data pro úlohu č. 1 pigmenty data s neznámým zatříděním ID Ti TL SpO Barv Podt Si Al 1 93,94 0,6 24,6 1850 9 1,548 3,664 2 95,96 0,4 20 1850 9 0,843 2,721 3 93,74 0,4 21,9 1870 12 2,077 3,526 4 98,07 0,2 18,5 1860 14 0,39 1,112 5 95,66 0,4 20,4 1850 10 0,981 2,869 6 95,96 0,4 20 1850 9 0,843 2,721 7 93,2 0,7 24,5 1860 11 2,181 3,904 8 95,96 0,4 20 1850 9 0,843 2,721 1.4 Řešení EDA, DA 1.4.1 Protokoly Odhady diskriminačních koeficientů tréninkových dat 4

Tréninková data zařazení do tříd, klasifikační matice Nová data zařazení do tříd 5

1.0 2.5 0.5 1.5 8 11 14 1830 1870 18 21 24 0.1 0.3 0.5 94 96 98 1.0 2.5 0.5 1.5 8 11 14 1830 1870 18 21 24 0.1 0.3 0.5 94 96 98 1.4.2 Obrázky Obrázek č. 1: maticový diagram, histogramy zárodek Ti 0.1 0.3 0.5 1830 1870 0.5 1.5 TL SpO Barv Podt Si Al 94 96 98 18 21 24 8 11 14 1.0 2.5 Obrázek č. 2: maticový diagram, korelační koeficienty zárodek Ti 0.1 0.3 0.5 0.92 0.79 1830 1870 0.17 0.63 0.5 1.5 0.93 0.96 TL 0.77 0.22 0.54 0.89 0.86 SpO 0.023 0.11 0.92 0.62 Barv 0.21 0.16 0.17 Podt 0.36 0.79 Si 0.80 Al 94 96 98 18 21 24 8 11 14 1.0 2.5 6

Obrázek č. 3: parallel coordinate graf Al Si Podt Barv SpO TL Ti Min Obrázek č. 4: hvězdicový graf pigmenty Max 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 PodtBarv SpO Si TL Al Ti 7

LD2-20 -10 0 10 20 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Obrázek č. 5: Kernelův odhad hustoty -15-10 -5 0 5 10 15 first linear discriminant Obrázek č. 6: klasifikační graf DA úloha pigmenty RGA RGA RGA RGA RGA RGA RGA RGA RGA RGA RGA RGA RGA RGX RGX RGX RGX RGX RGX RGX RGX RGX RGX RGX RGX RGU RGU RGU RGU RGU RGU RGU RGU -20-10 0 10 20 LD1 8

1.5 Závěr Maticový diagram rozptylových grafů potvrzuje rozdělení pigmentů do tří tříd (tři typy povrchové úpravy). Do diskriminační funkce nejvíce přispívají diskriminátory obsah Ti, obsah Si a obsah Al. Hvězdicový graf a graf odhadu hustoty rozlišil pigmenty na čtyři třídy (podskupinu ve třídě RGX ). Pro výpočet byla použita lineární diskriminační funkce. Stejného roztřídění bylo dosaženo i s použitím lineární diskriminační funkce s robustním odhadem kovariance a s použitím kvadratické diskriminační funkce. Pigmenty byly roztříděny do tří tříd (RGA, RGU a RGX); všechny objekty byly zařazeny správně. Na základě vypočtené diskriminační funkce byly neznámé vzorky zařazeny takto: ID 1 2 3 4 5 6 7 8 třída RGA RGU RGA RGX RGU RGU RGA RGU 9

Úloha č. 2: Logistická regrese Název úlohy: novorozenci 2.1 Zadání Cílem úlohy je navrhnout logistický regresní model pro znaky, které ovlivňují nízkou porodní váhu novorozenců a nalézt ty znaky, které jsou v navrženém modelu statisticky významné. 2.2 Data 1 Data obsahují údaje o 189 novorozencích. V souboru je 8 potenciálních nezávisle proměnných, z toho šest kategorických. Dvě kategorické proměnné (race, ptl) mají více než dvě hladiny. Závisle proměnnou je porodní váha novorozenců. Identifikace proměnných je uvedena v tabulce č. 3. Data novorozenci jsou uvedena v tabulce č. 4. Tabulka č. 3: identifikace proměnných Popis proměnné kód / hodnota název Porodní váha novorozence 0 = 2500 LOW 1 = <2500 Věk matky roky AGE Váha matky na počátku těhotenství libry LWT Rasová příslušnost 1 = bílá RACE 2= černá 3 = jiná Kouření matky během těhotenství 0 = Ne SMOKE 1 = Ano Počet laboratorních vyšetření matky v době těhotenství 0 = žádné PTL 1 = jedno 2 = dvě a více Hypertenze 0 = Ne HT 1 = Ano Podráždění dělohy 0 = Ne UI 1 = Ano Počet lékařských kontrol v 1. trimestru 1 = jedna 2 = dvě a více FTV 1 D. W. Hosmer, S. Lemeshow. Applied Logistic Regression. Wiley, New York, 1989. 10

Tabulka č. 4: data novorozenci 11

2.3 Program: Úloha byla řešena programem: R Version 2.1.0 2.4 Řešení 2.4.1 Protokol LR Call: bic.glm.formula(f = low ~ age + lwt + race + smoke + ptl + ht + ui + ftv, data = birthwt, glm.family = "binomial") 49 models were selected Best 5 models (cumulative posterior probability = 0.37 ): 12

0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 0.0 0.4 0.8 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 0.0 0.4 0.8 0.0 0.2 0.4 0.6 0.0 0.4 0.8 0.0 0.4 0.8 2.4.2 Obrázky Obrázek č. 7: aposteriorní distribuce parametrů logistické regrese age lwt race.2 race.3-0.20-0.10 0.00-0.04-0.02 0.00 0.01-1 0 1 2 3-0.5 0.5 1.5 2.5 smoke ptl.1 ptl.2 ptl.3-0.5 0.0 0.5 1.0 1.5 2.0-30 -20-10 0 10 20 30-30 -20-10 0 10 20 30-3000 -1000 1000 3000 ht ui ftv -1 0 1 2 3 4-0.5 0.5 1.0 1.5 2.0 2.5-0.8-0.4 0.0 0.2 0.4 0.6 13

Obrázek č. 8: grafická sumarizace navržených modelů (statisticky významný parametr je v daném modelu vyznačen červeně) Models selected by BMA age lwt race smoke ptl ht ui ftv 1 2 3 4 5 7 9 12 16 21 27 34 44 Model # 14

2.5 Závěr Bylo nalezeno 49 logistických regresních modelů. Na základě hodnot posteriorní pravděpodobnosti a hodnot Bayesova informačního kritéria (BIS) bylo nalezeno 5 nejlepších modelů, ve kterých jsou uvedeny pouze statisticky významné parametry. model 1 model 2 model 3 model 4 model 5 LOW = 1,451 0,019 LWT + 1,856 HT LOW = 1,068 0,017 LWT + 1,962 HT + 0,93 UI LOW = 1,207 0,019 LWT + PTL.1+ 0,501 PTL.2-13,986 PTL.3+1,924 HT LOW = 1,084 0,018 LWT + 0,684 SMOKE + 1,822 HT LOW = 0,722 0,016 LWT + 0,653 SMOKE + 1,922 HT + 0,896 UI Ve shodě s grafem aposteriorní distribuce parametrů logistické regrese (obr. č. 1) jsou statisticky nejvýznamnější parametry LWT (váha matky na počátku těhotenství), SMOKE (kouření), a HT (hypertenze); tyto parametry jsou statisticky nejvýznamnější pro odhad, zda hrozí nebezpečí nízké porodní váhy novorozence. 15

Úloha č. 3 A: Vícerozměrné škálování Název úlohy:emise 3.A.1. Zadání Vícerozměrným škálováním a analýzou klastrů posuďte podobnost evropských zemí z hlediska množství emisí produkovaných při výrobě energie. 3.A.2. Data Data emise jsou v tabulce č. 5. Jsou převzata z databáze Evropské komise 2. Obsahují emise v jednotlivých evropských zemích za rok 2003; v jednotkách 1000 tun. Emise jsou vyjádřeny v těchto kategoriích: sox oxidy síry nox oxidy dusíku pm10 pevné částice pod 10 m co2 oxid uhličitý ap kyselé emise top emise prekurzorů troposférického ozónu Pro názvy zemí jsou použity zkratky: be Belgie cz Česká republika dk Dánsko de Německo ee Estonsko gr Řecko es Španělsko fr Francie ie Irsko it Itálie cy Kypr lv Litva hu Maďarsko nl Holandsko at Rakousko pl Polsko pt Portugalsko sl Slovinsko sk Slovensko fi Finsko se Švédsko uk Velká Británie hr Chorvatsko no Norsko 3.A.3. Program: Úloha byla řešena programem: R Version 2.1.0 2 http://epp.eurostat.cec.eu.int 16

Tabulka č. 5: data emise země/emise sox nox pm10 co2 ap top be 56562,1 41641 4064,3 29141192 2674 54945,5 cz 144396,4 104724,4 4999,3 58924308 6790,8 136188,9 dk 17461 64507,7 1141,1 31401903 1948 84571,7 de 339921,8 267707 21471 362581556 16608,8 348633,8 ee 86290 15680 11433 15854745 3038 23259,3 gr 383330 89340 15828 56100103 13921 120134,1 es 985198,1 331984 26312 105332266 38010,3 417908,6 fr 205136,7 133192 13127 63802190 9306 170889,2 ie 45040 34713 1332,1 15480300 2162,2 43050,1 it 373763 139310 16560 160882830 1471,2 181393,4 cy 28920 5620 440 3214423 1025,9 9395,3 lv 3827,4 7611 1114,1 2416412,7 285,1 11724,8 hu 227080 33080 4605 20501452 7821,9 42844,7 nl 37580,7 60570,5 505,9 67347391 2491,3 79651,9 at 8430,2 16958,3 1541,4 16030352 650 21923,5 pl 823500 264528,6 301693,7 183069328 31543,8 340803,9 pt 186663 68096,9 3515,6 20009037 7313,6 84818,7 sl 51100 16520 866,9 6159862,3 1956 21927,5 sk 60121,7 22692,2 5206,4 13373548 2377,1 29947,1 fi 54034 60782 2704 36047271 3010,7 76603,3 se 15684,7 16854,3 5074,7 12768834 891,8 26575 uk 745447,9 468988,7 12786 212728525 33492,1 591358 hr 23289,8 13192,7 970 7873853,1 1015,3 16501,6 no 1387,5 45799,5 711,3 12713884 1039 59310,2 3.A.4 Řešení MDS, CLU 3.A.4.1 Protokoly Pro řešení bylo použité klasické metrické vícerozměrné škálování (CMDS), Sammonovo nelineární mapování (SMDS) a nemetrické vícerozměrné škálování (NNMDS). Všechny techniky vycházely z matice vzdáleností. Protokoly uvádějí tabelární podobu 2D mapy objektů a hodnoty koeficientu stress pro jednotlivé techniky.k posouzení úspěšnosti metody byl použit koeficient těsnosti proložení stress. 17

CMDS: SMDS: 18

NNMDS: 19

0 e+00 5 e+05 0 20000 0 e+00 3 e+08 0 150000 0 e+00 4 e+05 0 e+00 8 e+05-1 0 1 2 3 4 3.A.4.2 Obrázky Obrázek č. 9: krabicové grafy znaků emise sox nox pm10 co2 ap top Obrázek č. 10: Maticový diagram, korelační matice 0 e+00 4 e+05 0 e+00 3 e+08 0 e+00 5 e+05 sox 0.88 0.56 0.63 0.96 0.88 nox 0.38 0.80 0.91 1.00 pm10 0.37 0.53 0.39 co2 0.63 0.81 ap 0.91 top 0 e+00 8 e+05 0 150000 0 20000 20

Obrázek č. 11: hvězdicový graf evropské země be cz dk de ee gr es fr ie it cy lv hu nl at pl pt sl sk fi se uk hr no co2 pm10 ap nox top sox 21

-3-2 -1 0 1 2-4 -3-2 -1 0 1 2-4 -3-2 -1 0 1 2 3 Obrázek č. 12: Mapy objektů pro původní data klasické metrické MDS Sammon maping de de uk dk nl cy iebe fi lvat pt hr se slsk no ee hu cz fr gr it es nl nodk fi cz iebe lv at cy hr se slsk ee pt hu fr gr it es uk stress = 0.07891955 pl stress = 0.00236 pl -1 0 1 2 3 4 5-2 0 2 4 nemetrické MDS it nl no dk fi at se ie be lvcy hr sl sk ee hu pt cz fr gr es stress = 2.773-1 0 1 2 3 4 5 22

Obrázek č. 13: Hvězdicový graf po odstranění objektů de, es, pl, uk evropské země be cz dk ee gr fr ie it cy lv hu nl at pt sl sk fi se hr no co2 pm10 ap nox top sox 23

-3-2 -1 0 1 2 3-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 Obrázek č. 14: Mapy objektů po odstranění objektů de, es, pl, uk klasické metrické MDS Sammon maping gr gr hu hu ee fr cz pt ee be fi dk nl sk sl cy ie se hr lv at no fr cz pt be fi dk nl sk se sl cy hr ie at lv no it stress = 0.0924 it stress = 0.00501-5 -4-3 -2-1 0 1 2-5 -4-3 -2-1 0 1 2 nemetrické MDS ee cy de no gr cz uk nl be se pt dk hr pl es fi sl at ie sk it hu lv stress = 3.206 fr -5-4 -3-2 -1 0 1 2 24

pl de es uk nl dk fi at se lv cy hr ee sl sk no be ie it hu pt gr cz fr Height 0 5 10 15 20 25 hu pt at se lv cy hr ee sl sk nl dk fi no be ie it gr cz fr pl de es uk Height 0 2 4 6 Obrázek č. 15: Dendrogramy Cluster Dendrogram euro.dist Cluster hclust (*, Dendrogram "complete") euro.dist hclust (*, "ward") 25

3.A.5 Závěr Metodou MDS i CLU byly evropské země rozděleny do tří skupin: 1. Dánsko, Španělsko, Polsko, Velká Británie 2. Itálie, Maďarsko, Řecko, Česká republika, Francie 3. ostatní země Nejlepší výsledek (nejnižší hodnotu koeficientu stress poskytla metoda SMDS. Je ale nutné konstatovat, že podobnost evropských zemí na základě sledovaných parametrů (emise způsobené výrobou energie) je nízká a rozlišení do skupin je diskutabilní (v první skupině jde spíše o odlehlé objekty). Souřadnice map objektů se nepodařilo identifikovat. Zajímavé výsledky by mohlo přinést srovnání s analýzou zdrojů energie, používaných v jednotlivých zemích. 26

Úloha č. 3 B: Korespondenční analýza kategorických dat Název úlohy:slova 3.B.1. Zadání Ověřte apriorní rozdělení uživatelů anglického jazyka (anglický jazyk pro ně není jazyk mateřský) do dvou skupin na základě frekvence nejčastěji používaných anglických slov. Pět skupin uživatelů angličtiny jako cizího jazyka je na základě geografické polohy rozděleno do dvou oblastí takto: 1. Arabský poloostrov - RAK (emirát Ras al Khaimah) 2. Sino-pacifická skupina THAI (Thajsko) TAIWAN KOREA (Severní Korea) JAPAN 3.B.2. Data 3 Data slova jsou uvedena v tabulce č. 6. Tabulka uvádí četnost používání 19-ti nejfrekventovanějších anglických slov v jednotlivých studovaných skupinách uživatelů anglického jazyka. Četnost používaných slov byla zjišťována v textu o celkové průměrné délce 10 324 slov. 3 P. J. Hassall, S. Ganesh: Correspondence analysis of international relative deviance http:// fccl.ksu.ru/winter.99/lang_typ/hassal/reldev.pdf 27

Tabulka č. 6: data slova Word THAI TAIWAN RAK KOREA JAPAN IN 279 468 373 569 392 A 279 389 237 559 493 THE 228 528 359 461 260 CITY 184 340 206 573 433 AND 150 254 273 451 309 TO 182 305 159 336 293 LARGE 1 259 163 449 342 OF 183 182 121 389 275 CAN 94 210 181 346 233 MANY 111 140 135 408 194 IS 101 187 105 310 260 ARE 175 120 119 282 230 I 62 110 42 276 377 WE 7 141 34 375 223 THERE 117 90 103 198 245 YOU 124 216 213 66 65 PEOPLE 90 118 98 209 127 IT 42 127 84 147 118 LIVING 71 140 69 151 75 3.B.3. Program: Úloha byla řešena programem: R Version 2.1.0 28

3.B.4. 3.B.4. 1 Řešení Protokol CA 29

2. dimension -0.6-0.4-0.2 0.0 0.2 0.4-0.4-0.2 0.0 0.2 3.B.4.2 Graf Obrázek č. 16: graf řádkových a sloupcových profilů -0.4-0.2 0.0 0.2 THAI ARETHERE YOU RAK OF A PEOPLE TO IN CITY MANY IS LIVING AND THE CAN IT TAIWAN JAPAN I KOREA LARGE WE -0.6-0.4-0.2 0.0 0.2 0.4 1. dimension 3.B.5 Závěr Z protokolu CA plyne, že první dvě komponenty popisují 91 % variability datech; dvojrozměrný graf je tedy postačující. Korespondenční analýza na základě frekvence nejpoužívanějších slov rozdělila skupiny uživatelů angličtiny takto (v závorce jsou nejfrekventovanější slova příslušející skupině: 1. JAPAN + KOREA 2. RAK + TAIWAN, THAI (I, WE, IS, CITY, MANY) (YOU, THE, IN, LIVING, IT, AND) Nejzajímavější je naprostá rozdílnost v používání osobních zájmen I, WE YOU. Rozborem analyzovaných textů bylo zjištěno, že osobní zájména jsou často používána nesprávně; tato skutečnost může být zdrojem nedorozumění při komunikaci v cizím (anglickém) jazyce. 30