Závěrečná práce Ing. Jiří Pokorný Téma: Využití statistické analýzy vícerozměrných dat k hodnocení vlivu faktorů ovlivňujících prodejnost dětské školní fotografie Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. Datum: podzim 2010
Cíle práce: určit vnitřní skryté vazby mezi daty prodejnosti dětské školní fotografie a daty možných vlivů na tuto prodejnost zjistit vnitřní strukturu dat prodejnosti jednotlivých produktů znázornit podobnost či rozdílnost jednotlivých okresů ČR (kriteria třídění = vybrané znaky)
Zdrojová matice dat Znaky / vlastnosti (8): Prodeje dvou základních produktů Počty nafocených produktů Hrubá mzda Nezaměstnanost Objekty 77 okresů ČR
Charakter matice vícerozměrných dat Krabicové grafy 6 5 4 3 Median 25%-75% Min-Max 2 1 0-1 -2-3 -4-5 Prodej základ Počet sérií Počet skupin Prodej skupin Počet základ Nezaměstnan
Charakter matice vícerozměrných dat Maticový graf Prodej základ Prodej skupina Počet sérií Počet zákla Počet skupina Nezaměstnanost
Průzkumová analýza vícerozměrných dat Hvězdicové grafy
Metoda hlavních komponent Cattelův indexový graf 2.5 2.0 1.5 29,52% 24,44% 18,83% Výběr hl. komponent: P variabilita 70 90 % Kaiserovo kriterium Pravidlo Zlomené hole vlastní číslo 1.0 10,19% 6,88% 5,66% 0.5 3,84%,66% 0.0 0 1 2 3 4 5 6 7 8 index vlastního čísla Výsledek: Volíme tři hlavní komponenty
Metoda hlavních komponent Grafy komponentních vah/zátěží 1.0 1.0 0.5 Počet základ 0.5 0.0. Nezaměstnanost Počet sérií. 0.0 Počet skupin. Počet sérií. Prodej základ/ skupinek. Počet základ Počet skupin PC 2 : 24,44% -0.5-1.0 Prodej základ Prodej skupin -1.0-0.5 0.0 0.5 1.0 PC1 : 29,52% PC3 : 18,83% -0.5-1.0 Nezaměstnanost -1.0-0.5 0.0 0.5 1.0 PC1 : 29,52% PC1 = počty nafocených produktů PC2 = prodejnost vers. porodnost a mzda PC3 = ekonomická prosperita okresu
Metoda hlavních komponent Rozptylový diagram komponentního skóre 1,2 PC2: 24,44% 4 3 Náchod 03 Jabl. n/n. 03 Nymburk 03 Liberec Č.Lípa 03 03 Louny 03 Kladno 03 Most 03 l Děčín 03 2 Praha-záp 03 Ústí n/l. 03 Chomutov 12 Teplice 03 Litoměřice. 03 Jičín 03 Praha 03 Beroun Hr.Králové. Mělník 1 03 Semily Praha-vých 03 03Kolín 03 M.Boleslav 03 Žďár n/sáz. 14 Havl.Brod 14 Ostrava 10 0 Bruntál 10 Benešov Č. Rychnov Krumlov n/k. Chrudim 14 1214 Opava 14 10 Ústí n/orl. Brno-venk 15 N. Trutnov 10Prachatice Frýd-Místek Blansko Jičín 10 03 12 Cheb 12 10 15 Sokolov 12 Přerov 10 Jihlava 14 J. Příbram Hradec Znojmo 14 Pelhřimov Č. Budějice K. Plz-sever 12 15 Tachov Strakonice 12 Vary Hodonín 12 12 15 Jeseník Písek Klatovy 14 12 10 12 Plz-město 12 Třebíč 14 12 Šumperk Tábor Svitavy Pardubice Vyškov 12 15 15-1 10 14 Vsetín 10 Kroměříž 15. Břeclav 15Karviná 10 K.Hora 14 Plzeň-jih Prostějov 12 Zlín 10 15 Rakovník 12 Rokycany 12 Uh. Hradiště 15 Olomouc 10 Brno-měst 15. -2 0 2 4 6 PC1: 29,52%
Metoda hlavních komponent Rozptylový diagram komponentního skóre 1,3 5 Praha 03 4 3 Praha-záp Praha-vých. 03 Brno-město 15. PC3: 18,83% 2 1 0-1 -2 Ml. Boleslav 03 Benešov Beroun 14 03 Č.Budějice 12 Plzeň-měs. 12 Kladno 03 Mělník 03 Plzeň-jih Plz-sever 12 12 Kolín 03 Pardubice Vyškov 1514 Kutná Hora Nymburk 14 Prachatice Hr. 03 Králové Zlín 1512 03 Břeclav 15 Rychnov Domažlice Frýd-Místek Blansko 10 Jihlava 14 Rokycany Rakovník Příbram n/k. Pelhřimov N. J. Hradec Jičín 12 14 12 15 14 Klatovy 14 Tábor 10Uh. 12Hradiště Žďár n/sáz. 15 14 Semily 12 Náchod 03 Prostějov Č.Lípa 03 Č. Krumlov Havl.Brod 03 12 14 Litoměřice Strakonice 10 Písek Jabl. n/n. Kroměříž 03 Chrudim 12 03 12Ústí n/l. 03 Trutnov 14 Jičín 03 Cheb K. 15 03 Liberec 03 12Vary Opava 12 10 Vsetín Svitavy 15 Karviná 10 Přerov Teplice 10 10 Šumperk Louny 03 03 Chomutov 12 Hodonín 10 Znojmo Třebíč 15 1415 Tachov 12 Sokolov 12 Bruntál 10 Děčín 03 Jeseník 10 Most 03 Ostrava 10 Olomouc 10-2 0 2 4 6 PC1: 29,52%
Faktor_2 Faktor_3 Faktorová analýza Grafy faktorových vah/zátěží Graf faktorových vah 1,2 Graf faktorových vah 1,3 0.8 Prodej_skupinek 0.7 0.6 Prodej_zaklad 0.5 0.4 0.2 0.0 Pocet_skupinek Pocet_serii 0.2 0.0-0.2 Prodej z/skup Pocet_skupinek Pocet_serii Pocet_zaklad -0.2 Nezamestnanost -0.4 Pocet_zaklad -0.6 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 Faktor_1-0.4-0.7 Nezamestnanost -0.9 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 Faktor_1 Faktor_1 = proměnná vyjadřuje počty nafocených produktů Faktor_2 = proměnná vyjadřuje prodejnost Faktor_3 = proměnná vyjadřuje ekonomickou prosperitu
Faktorová analýza Rozptylový diagram faktorového skóre 1,2,3 Praha 03 Brno 15 Praha-vých 03 Praha-záp 03 M.Boleslav 03 Olomouc. 10 Plzeň Č.Budějice 12 12 Plzeň-j Benešov Pardubice 14 Beroun 14.. 03 Brno-ven 15Ostrava 10 K. Hora Zlín 14. 15. Jihlava 14 Klatovy Blansko Mělník 12 Kolín 15 03 H.Králové 03 N. Jičín Kladno 03 03 Karviná 10 Písek 12. 10 Šumperk K. Cheb Vary 12 Vsetín 10 Hodonín Třebíč 10 12. 14 15 Ústí n/l. 03 Sokolov 12 Chomutov 12 Č.Lípa 03 Jičín 03 Teplice 03 Náchod 03 Liberec 03 Bruntál 10 Jeseník 10. Louny 03. Děčín 03 Most 03 zobrazení ve 3D velmi podobné PCA jeden hlavní shluk z něj vybočují objekty = okresy všemi směry faktorům jsou přiřazeny logické vlastnosti metoda Varimax
Analýza shluků Dendrogram znaků Nezaměstnan Počet skupinek Počet sérií Počet základ Prodej základ Prodej skupinek shlukování metodou váženého průměru použity euklediovské vzdálenosti podobnost s PCA i FA vytvořeny shluky na základě podobnosti není vyjádřena záporná korelace 4 6 8 10 12 14 vzdálenost spojení
Analýza shluků Dendrogram objektů 8 7 6 5 4 3 vzdálenost spojení 2 1 0 Benešov 14 Ml. Boles Beroun 03 Kolín Praha-záp 03 Praha-vý Mělník 03 Blansko 15 Pardubice Uh. Hrad Zlín 15 Brno-ve Č. Budě Plz-sever 1 Vyškov Domažlice 15 Plz-město Rakovník 1 Plzeň-jih 12 Frýd-Mís Klatovy 12 Příbram 12 N. Jičín 10 J. Hradec 1 Tábor Pelhřimov 12 Kroměříž Prostějov 1 Bruntál 10 Vsetín 10 Sokolov Šumperk 12 10 K. Vary 12 Svitavy 15 Opava 10 Cheb 12 Chrudim 14 Hodonín 15 Znojmo 15 Třebíč 14 Ústí Č. Krumlo n/orl. Strakonic Prachatic Rychno Jeseník 10 Tachov Kutná 12 Ho Přerov 10 Rokycany 1 Havl.Brod Hr. Králov 1 Písek 12 Ústí Litoměřic n/l. 03 Teplice 03 Břeclav Žďár 15 n/s Jihlava Karviná 14 10 Ostrava 10 Č. Lípa 03 Liberec 03 Děčín 03 Chomutov Most 03 Jabl. n/n. 0 Louny 03 Náchod Nymburk 03 03 Kladno 03 Praha 03 Brno-mě Olomouc 10
Srovnání PCA a FA Grafy komponentních vs. faktorových vah 1.0 Graf komponentních vah 1,2 Graf faktorových vah 1,2 1.0 0.5 Počet základ 0.5 Počet základ. Nezaměstnanost Nezaměstnanost 0.0 Počet sérií. 0.0 Počet sérií. PC 2 : 24,44% -0.5-1.0 Prodej základ Prodej skupin Počet skupin -1.0-0.5 0.0 0.5 1.0 PC1 : 29,52% Faktor 2-0.5 Prodej základ Prodej skupin Počet skupin. -1.0-0.8-0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 1.0 Faktor 1
Srovnání PCA a FA Grafy komponentních vs. faktorových vah Graf komponentních vah 1,3 Graf faktorových vah 1,3 1.0 1.0 0.8 PC3 : 18,83% 0.5 0.0-0.5-1.0 0.6 0.4 Počet skupin. Počet sérií. 0.2 Prodej základ/ skupinek. Počet základ 0.0 Nezaměstnanost -1.0-0.5 0.0 0.5 1.0 PC1 : 29,52% Faktor 3-0.2-0.4-0.6-0.8 Počet skupin. Prodej základ/ skupin. Počet sérií. Počet základ Nezaměstnanost -1.0-0.8-0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 1.0 Faktor 1
Srovnání PCA a FA Rozptyl. diagram komponent. a faktorového skóre Diagram komponentního skóre 1,2,3 Diagram faktorového skóre 1,2,3 Praha 03 Brno-město 15 Praha-vých 03 Olomouc 10 Praha-záp 03 Plzeň 12. Ostrava 10 Č. Budějice Ml. Boleslav 12Břeclav 03 15 Plzeň-jih Benešov Pardubice 12 14 Zlín Hradiště 15 Beroun. 14 15Jihlava 03 14 K. Rokycany Hora 14 Tábor Příbram 12. 12 12 Karviná 10 Prostějov Pelhřimov J. Klatovy Hradec 12 N. Blansko Mělník 10 Jičín 14 14 Kolín 10 15 03 03 H. Králové Kladno 03 Písek Kroměříž 12 K. 15 Vary Šumperk Hodonín Třebíč 10 Opava 12. Trutnov 14 15 10 Cheb Chrudim 1203 14 Vsetín Znojmo. 15 Ústí n/l. 03 Semily Litoměřice 03 Chomutov Nymburk 03 03 12 Přerov 10 Sokolov 12 Č. Lípa 03 Tachov 12 Liberec 03 Bruntál Teplice 10 03 Jeseník 10. Náchod Louny 03 03. Děčín 03 Most 03 Praha 03 Brno 15 Praha-vých 03 Praha-záp 03 M.Boleslav 03 Olomouc. 10 Plzeň Č.Budějice 12 12 Plzeň-j Benešov Pardubice 14 Beroun 14.. 03 Brno-ven 15Ostrava 10 K. Hora Zlín 14. 15. Jihlava 14 Klatovy Blansko Mělník 12 Kolín 15 03 H.Králové 03 N. Jičín Kladno 03 03 Karviná 10 Písek 12. 10 Šumperk K. Cheb Vary 12 Vsetín 10 Hodonín Třebíč 10 12. 14 15 Ústí n/l. 03 Sokolov 12 Chomutov 12 Č.Lípa 03 Jičín 03 Teplice 03 Náchod 03 Liberec 03 Bruntál 10 Jeseník 10. Louny 03. Děčín 03 Most 03
Závěr práce byla objasněna vnitřní struktura dat prodejnosti dětské školní fotografie a dat vlivů na tuto prodejnost třem latentním proměnným byly přiřazeny logické vlastnosti ve 3D prostoru byla znázorněna podobnost či rozdílnost jednotlivých okresů ČR (tříděných dle našich znaků)
Faktor_2 Faktor_3 Otázka 1: Co lze v práci vyčíst z grafu faktorových zátěží? Uveďte závěry své diagnozy v analýze prodejnosti fotografií. Graf faktorových zátěží 1,2 Graf faktorových zátěží 1,3 0.8 Prodej_skupinek 0.7 0.6 Prodej_zaklad 0.5 0.4 0.2 0.0 Pocet_skupinek Pocet_serii 0.2 0.0-0.2 Prodej z/skup Pocet_skupinek Pocet_serii Pocet_zaklad -0.2 Nezamestnanost -0.4 Pocet_zaklad -0.6 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 Faktor_1-0.4-0.7 Nezamestnanost -0.9 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 Faktor_1 Faktor_1 = proměnná vyjadřuje počty nafocených produktů Faktor_2 = proměnná vyjadřuje prodejnost Faktor_3 = proměnná vyjadřuje ekonomickou prosperitu
Otázka 2: Co lze v práci vyčíst z grafu faktorového skóre? Uveďte závěry své diagnozy. Jaký je zde rozdíl mezi PCA a FA? 3D graf faktorového skóre 1,2,3 Praha 03 Brno 15 Praha-vých 03 Praha-záp 03 M.Boleslav 03 Olomouc. 10 Plzeň Č.Budějice 12 12 Plzeň-j Benešov Pardubice 14 Beroun 14.. 03 Brno-ven 15Ostrava 10 K. Hora Zlín 14. 15. Jihlava 14 Klatovy Blansko Mělník 12 Kolín 15 03 H.Králové 03 N. Jičín Kladno 03 03 Karviná 10 Písek 12. 10 Šumperk K. Cheb Vary 12 Vsetín 10 Hodonín Třebíč 10 12. 14 15 Ústí n/l. 03 Sokolov 12 Chomutov 12 Č.Lípa 03 Jičín 03 Teplice 03 Náchod 03 Liberec 03 Bruntál 10 Jeseník 10. Louny 03. Děčín 03 Most 03
PC_1 Otázka 3: Jak se indikuje interakce znaků a objektů ve dvojném grafu? Dvojný graf (Biplot) 1,2 metoda PCA PC_2
Otázka 4: Jak se pozná v maticovém diagramu znaků, zda data potřebují škálování? Jaké informace pro předúpravu dat poskytla EDA? Krabicový graf neškálovaných dat 30000 25000 20000 15000 10000 5000 0 Median 25%-75% Min-Max Krabicový graf škálovaných dat 6 Median 4 25%-75% Min-Max 2 0-2 -4-5000 -6 Porodnos Nez Počet s Počet z Počet sér Prodej Prodej Neza Počet sk Počet zá Počet sérií Prodej s Prodej z
Otázka 5: Uveďte postup analýzy PCA. Vedle Cattelova grafu úpatí, grafu komponentního vah a skóre s dvojným grafem bývá zvykem analyzovat též rezidua objektů a znaků, která by měla vesměs prokazovat dostatečnou těsnost proložení. Co učinit, když tomu tak není? Graf vlivných bodů statistické analýzy reziduí objektů (metoda PCA) 60 Olomouc 50 Brno 40 (NCSS) rezidua T2 30 Náchod Praha Jablonec 20 Most Kladno Jičín Praha-záp Teplice Břeclav Č. Lípa Hradec Chomutov Praha-vých Děčín. Kut. Hora Nymburk Hodonín Karviná Ostrava Ml. Jeseník Louny Mělník Boleslav Písek Rychnov n/k Tachov 10 Ústí n/l. Liberec Pardubice Prachatice Rokycany Semily 12 Benešov Beroun Blansko Brno-ven Bruntál Č. Krumlov Č. Budějice Havl.Brod Cheb J. Jihlava Hradec Litoměřice Kolín Pelhřimov Plzeň-jih Plz-město Hradiště Přerov 10 Domažlice F-Místek ChrudimK. Vary Klatovy Kroměříž N. Jičín Opava Plz-sever Prostějov Rakovník Strakonice SokolovTrutnov Ústí Vyškov n/orl. Znojmo Žďár Svitavy 12 Příbram 12 Šumperk Tábor Třebíč Vsetín Zlín 0 1 7 13 19 25 31 37 43 49 55 61 67 73 Pořadí objektů