Vícerozměrné statistické metody a možnosti jejich realizace v systému STATISTICA (vzdělávací kurz)

Centrum teorie vzdělávání přírodovědných oborů Reg. č.: CZ.1.07/2.3.00/20.0166 Vícerozměrné statistické metody a možnosti jejich realizace v systému STATISTICA (vzdělávací kurz) Doc. PhDr. Miroslav Chráska, Ph.D. Faculty of Education, Palacký University Olomouc, Žižkovo nám. č. 5, Olomouc 771 40, Czech Republic Tel.: +042-58563-5811; E-mail address: miroslav.chraska@upol.cz

Stručná charakteristika vícerozměrných metod Multivariační metody (metody vícerozměrné statistické analýzy) jsou spojeny se statistickou analýzou vícerozměrných dat. Pomocí vícerozměrné statistické analýzy se snažíme o popis vztahů mezi proměnnými a toto zkoumání probíhá pro všechny vztahy současně. S rostoucím počtem proměnných však zároveň roste i složitost úlohy. 2

Stručná charakteristika vícerozměrných metod Klasické multivariační metody pracují s kvantitativními (přesněji poměrovými) daty, existují však i metody či jejich modifikace pro kategorizovaná, nominální či pořadová data. Problémem je však především potřeba standardizace dat pro většinu metod (veličiny v modelu mají typicky různé rozsahy hodnot, různé typy distribuce) a správný způsob provedení standardizace, aby byly splněny metodické požadavky příslušné metody a přitom byla zachována i jistá variabilita veličin, která je předmětem našeho zájmu. 3

Shluková analýza (CLU) Shluková analýza (též clusterová analýza, anglicky cluster analysis) je vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých. Shlukovou analýzu je možné provádět jak na množině objektů, z nichž každý musí být popsán prostřednictvím stejného souboru znaků, které má smysl v dané množině sledovat, tak na množině znaků, které jsou charakterizovány prostřednictvím určitého souboru objektů, nositelů těchto znaků. 4

Shluková analýza (CLU) Shluková analýza je obecný název pro analytické techniky, pomocí nichž hledáme klasifikační strukturu proměnných nebo objektů. Využívají se k tomu různé míry podobnosti. Více se uplatňuje shlukování při klasifikaci objektů než proměnných. Shluková analýza patří mezi metody zabývající se zkoumáním podobnosti vícerozměrných objektů (objektů, u nichž je změřeno větší množství proměnných) a jejich roztříděním do skupin (shluků). Používá se především tam, kde objekty projevují přirozenou tendenci se seskupovat (vznikla jako taxonomická metoda), ale její použití je možné i v dalších 5 oblastech.

Podstata shlukové analýzy Shluková analýza může být prováděna pomocí tzv. hierarchické i nehierarchické analýzy. Hierarchické postupy jsou založeny na postupném spojování objektů a jejich shluků do dalších (větších) shluků. Nejprve se vypočte základní matice vzdáleností mezi objekty. Dva objekty, jejichž vzdálenost je nejmenší, se spojí do prvního shluku a vypočte se nová matice vzdáleností (v níž jsou vynechány objekty z prvního shluku a naopak je zařazen tento shluk jako celek). Celý postup se opakuje tak dlouho, dokud všechny objekty netvoří jeden velký shluk nebo dokud nezůstane určitý předem zadaný počet shluků. 6

Problémy shlukové analýzy Přitom vznikají dva základní problémy: 1. Způsob měření vzdálenosti mezi objekty (euklidovská metrika nebo vícerozměrná metrika), 2. Volba vhodné shlukovací procedury, při které vlastně určujeme, jak se počítá vzdálenost mezi shluky objektů (průměrová metoda, centroidní metoda, metoda nejbližšího souseda, mediánová metoda apod.). Tyto metodologické problémy se snaží různé statistické systémy různým způsobem zahrnout do parametrů svých procedur. 7

Dělení shlukovacích metod 1. Hierarchické shlukování je systém podmnožin, kde průnikem dvou podmnožin - shluků je buď prázdná množina, nebo jeden z nich. Pokud nastane alespoň jednou druhý případ, je systém hierarchický. Hierarchické shlukování nabízí více alternativních řešení, celý proces shlukování je pak možné vyjádřit dendogramem. Tato metoda však není vhodná pro velké datové soubory. 2. Nehierarchické shlukování je takový systém, kde je průnik shluků prázdný, jedná se o disjunktní množiny. Nehierarchickým metodám se také říká metody nejbližších těžišť K-means. Tyto metody nevytvářejí dendrogram, ale místo toho přidělují objekty do předem známého počtu shluků Obě metody je někdy možné s výhodou kombinovat. 8

Metody hierarchického shlukování Existují různé způsoby jak shlukovat objekty na základě jejich vzdálenosti či podobnosti. Mezi základní metody patří: Metoda nejbližšího souseda, Metoda nejvzdálenějšího souseda, Centroidní metoda, Párová vzdálenost, Wardova metoda. 9

Metody hierarchického shlukování Metoda nejbližšího souseda (single linkage, nearest neighbor) vzdálenost shluků je určována vzdáleností dvou nejbližších objektů z různých shluků. Při použití této metody jsou objekty taženy k sobě, výsledkem jsou dlouhé řetězy. Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbor) - vzdálenost shluků je určována naopak vzdáleností dvou nejvzdálenějších objektů z různých shluků. Funguje dobře především v případě, že objekty tvoří přirozeně oddělené shluky, nehodí se, pokud je tendence k řetězení. 10

Metody hierarchického shlukování Centroidní metoda - vzdálenost shluků je určována vzdáleností jejich center (hypotetická jednotka s průměrnými hodnotami znaků). Může být nevážená nebo vážená. Ta zohledňuje velikosti klastrů a hodí se, pokud očekáváme jejich rozdílnost. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností. Párová vzdálenost (pair-group average) - vzdálenost shluků je určována jako průměr vzdáleností všech párů objektů z různých shluků. Opět může být ve vážené i nevážené podobě. 11

Metody hierarchického shlukování Wardova metoda - vychází z analýzy rozptylu. Vybírá takové shluky ke sloučení, kde je minimální součet čtverců. Obecně lze říci, že je tato metoda velmi účinná, ale má tendenci tvořit poměrně malé shluky. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností. 12

Posouzení míry podobnosti při shlukování Cílem shlukové analýzy je přiřadit jednotky analýzy (např. osoby, případy, události apod.) na základě podobnosti ke skupinám (shlukům). Přitom charakteristiky shluků ani jejich počet nejsou předem známy - musí být odvozeny z výzkumných dat. Mírou podobnosti (resp. nepodobnosti) jednotek analýzy bývá obvykle tzv. euklidovská distance. Euklidovská distance D je definována jako vzdálenost dvou bodů (A, B) v n-dimenzionálním prostoru. 13

Posouzení míry podobnosti při shlukování Jestliže bod A má souřadnice a 1, a 2,, a n a bod B souřadnice b 1, b 2,, b n, potom je jejich vzdálenost dána vztahem Ve shlukové analýze potom vystupují jednotlivé jednotky analýzy (např. osoby, případy apod.) jako body v n-dimenzionálním prostoru. Souřadnice těchto bodů jsou dány vlastnostmi, které jednotky analýzy mají (které tyto jednotky charakterizují). 14

Posouzení míry podobnosti při shlukování Shluky jednotek analýzy (např. shluky osob, případů atd.) se mohou vytvářet na základě dvou, tří nebo i více (n) vlastností. Distance a obdobně i další charakteristiky, které se týkají vícerozměrných metod, lze prakticky počítat pouze pomocí statistických paketů (na Univerzitě Palackého v Olomouci je k dispozici multilicence programu STATISTICA ), běžnými prostředky by byl celý proces neúměrně zdlouhavý. Viz příklady. 15

Example: Joining (Tree Clustering) Cars This example is based on a sample of different automobiles. Specifically, one particular model was randomly chosen from among those offered by the respective manufacturer. The following data for each car were then recorded: 1. The approximate price of the car (variable Price). 2. The acceleration of the car (0 to 60 miles about 96 kmph in seconds; variable Acceler). 3. The braking performance of the car (braking distance from 80 mph about 129 kmph to complete standstill; variable Braking). 4. An index of road holding capability (variable Handling). 5. The gas-mileage of the car (miles per gallon 3,8 l; variable Mileage).

Example: Joining (Tree Clustering) Cars Scale of Measurement All clustering algorithms at one point need to assess the distances between clusters or objects, and obviously, when computing distances, you need to decide on a scale. Because the different measures included here used entirely different types of scales (e.g., number of seconds, thousands of dollars, etc.), the data were standardized (in STATISTICA 12 via the Standardize command from the Data menu) so that each variable has a mean of 0 and a standard deviation of 1. It is very important that the dimensions (variables in this example) that are used to compute the distances between objects (cars in this example) are of comparable magnitude; otherwise, the analysis will be biased and rely most heavily on the dimension that has the greatest range of values.

Example: Joining (Tree Clustering) Cars Performance, fuel economy, and approximate price for various automobiles PRICE - Approximate Price ACCELERATION - Acceleration BRAKING - Breaking from 80 mph HANDLING - Road holding index MILEAGE - Miles per gallon Acura -0,521 0,477-0,007 0,382 2,079 Audi 0,866 0,208 0,319-0,091-0,677 BMW 0,496-0,802 0,192-0,091-0,154 Buick -0,614 1,689 0,933-0,210-0,154 Corvette 1,235-1,811-0,494 0,973-0,677 Chrysler -0,614 0,073 0,427-0,210-0,154 Dodge -0,706-0,196 0,481 0,145-0,154 Eagle -0,614 1,218-4,199-0,210-0,677 Ford -0,706-1,542 0,987 0,145-1,724 Honda -0,429 0,410-0,007 0,027 0,369 Isuzu -0,798 0,410-0,061-4,230 1,067 Mazda 0,126 0,679-0,133 0,500-1,724 Mercedes 1,051 0,006 0,120-0,091-0,154 Mitsub. -0,614-1,003 0,084 0,382 0,718 Nissan -0,429 0,073-0,007 0,263 0,997 Olds -0,614-0,734 0,409 0,382 2,114 Pontiac -0,614 0,679 0,536 0,145 0,195 Porsche 3,454-2,215-0,296 0,618-1,026 Saab 0,588 0,679 0,246 0,263 0,021 Toyota -0,059 1,218 0,228 0,736-0,851 VW -0,706-0,128 0,102 0,382 0,195 Volvo 0,219 0,612 0,138-0,210 0,369

Example: Joining (Tree Clustering) Cars Purpose of the Analysis Given these data, can the taxonomy for the automobiles included in the study be developed? In other words, do these automobiles form "natural" clusters that can be labeled in a meaningful manner? First, perform a joining analysis (tree clustering, hierarchical clustering) on this data.

Example: Joining (Tree Clustering) Cars Str. diagram pro 22 případů Úplné spojení Euklid. vzdálenosti 8 7 6 5 4 3 2 1 0 Porsche Corvette Eagle Isuzu Ford Buick Toyota Mazda Volvo Saab BMW Mercedes Audi Nissan Mitsub. Pontiac Honda VW Dodge Chrysler Olds Acura Vzdálenost spoje

Example: Joining (Tree Clustering) Cars Str. diagram pro 22 případů Úplné spojení Euklid. vzdálenosti Acura Olds Chrysler Dodge VW Honda Pontiac Mitsub. Nissan Audi Mercedes BMW Saab Volvo Mazda Toyota Buick Ford Isuzu Eagle Corvette Porsche Cluster 1 Cluster 2 0 20 40 60 80 100 120 (dspoj/dmax)*100

Example: Joining (Tree Clustering) Cars Identifying Clusters For this discussion, consider only horizontal hierarchical tree diagrams (see the tree diagram with the standardized scale), and begin at the top of the diagram. Apparently, first there is a cluster consisting of only Acura and Olds; next there is a group (i.e., cluster) of seven cars: Chrysler, Dodge, VW, Honda, Pontiac, Mitsubishi, and Nissan. As it turns out, in this sample the entry level models (more or less) of these brands were chosen. Thus, we may want to call this cluster the "economy sedan" cluster.

Example: Joining (Tree Clustering) Cars The first two cars, Acura and Olds, join this cluster at the approximate linkage distance of 32; after that (to the right), this branch of the tree extends out to 60. Thus, these two cars could also be considered as members of the economy sedan cluster. Moving down the plot, a cluster starting with Audi extends to Ford, perhaps all the way to Eagle. These cars (i.e., the particular models chosen for the sample) more or less represent high-priced, luxury sedans; thus, this cluster can be identified as the "luxury" sedan cluster. Finally, at the bottom of the plot there are the Corvette and Porsche that are joined at the linkage distance of approximately 30.

Example: K-means Clustering Cars Example: Analysis of variance. In the k-means clustering was referred to as "analysis of variance in reverse". In an analysis of variance, the between-groups variance is compared to the within-groups variance to decide whether the means for a particular variable are significantly different between groups.

Example: K-means Clustering Cars Analýza rozptylu (Cars) Mezisk. - SČ sv Vnitřní - SČ sv F význam. - p PRICE 9,08159 2 11,91841 19 7,23881 0,004602 ACCELERATION 6,74790 2 14,25210 19 4,49794 0,025163 BRAKING 10,11892 2 10,88108 19 8,83457 0,001938 HANDLING 10,87750 2 10,12250 19 10,20857 0,000975 MILEAGE 7,99118 2 13,00882 19 5,83575 0,010573

Example: K-means Clustering Cars Identification of clusters - now, see how STATISTICA assigned cars to clusters using these criteria. Cluster 1: Členi shluku číslo 1 a vzdálenosti od příslušného středu shluku Shluk obsahuje 13 příp. Acura 0,754166 Buick 0,766466 Chrysler 0,356816 Dodge 0,384616 Honda 0,158199 Mitsub. 0,614239 Nissan 0,297823 Olds 0,889882 Pontiac 0,255611 Saab 0,508612 Toyota 0,766000 VW 0,284704 Volvo 0,362700 Vzdálen.

Example: K-means Clustering Cars Cluster 2 and 3 Členy shluku číslo 2 a vzdálenosti od příslušného středu shluku Shluk obsahuje 7 příp. Vzdálen. Audi 0,492166 BMW 0,414537 Corvette 0,636028 Ford 0,978105 Mazda 0,849100 Mercedes 0,509201 Porsche 1,319699 Členy shluku číslo 3 a vzdálenosti od přislušného středu shluku Shluk obsahuje 2 příp. Vzdálen. Eagle 1,360452 Isuzu 1,360452

Example: K-means Clustering Cars Cluster 1 consists of Acura, Buick, Chrysler, Dodge, Honda, Mitsubishi, Nissan, Olds, Pontiac, Saab, Toyota, VW, and Volvo. The second cluster contains Audi, BMW, Corvette, Ford, Mazda, Mercedes, and Porsche. The final cluster 3 consists of Eagle and Isuzu. These results do not entirely match the clusters found in the previous analysis. However, the distinction between economy sedan vs. high luxury sedan still seems tenable. The Eagle and Isuzu were probably moved into their own category because they did not "fit" anywhere else, and because any other split between cars did not improve the solution (i.e., increase between-groups sums of squares).

Example: K-means Clustering Cars

Example: K-means Clustering Cars Looking at the lines for the economy sedan cluster (Cluster 1) as compared to the luxury sedan cluster (Cluster 2) in the graph below, it is found that, indeed, the cars in the latter cluster are: 1. More expensive. 2. Have slower acceleration (probably because of greater weight). 3. Require about the same braking distances. 4. Are about equal in handling. 5. Get lower gas mileage.

Approaches of university student to traditional and electronic study materials results of cluster analysis The example presents the results of a research study performed at the Faculty of Education, Palacky University, Olomouc, which involved first grade students. The research was aimed at various types of information resources the students use during their study including their opinion about electronic study materials. We used a cluster analysis to investigate typical groups of students in the research sample according to their use of and approach to electronic study materials. A total of three groups of students were identified that have completely different approaches to using information resources.

Description of research study The objective of the research study performed in May 2013 at the Faculty of Education, Palacky University, Olomouc was to find out whether the students had come into contact with electronic study materials and whether they are satisfied with these materials. Another objective was to verify whether the students prefer learning through the use of traditional printed study materials or electronic study materials and whether this preference differs by various fields of study. The study also observed which information resources the students use and to what extent. The research method for data collection was a questionnaire specifically designed for these purposes.

Research sample The research sample consisted of 180 students, out of which 143 were women and 37 men. All of them were first grade students in a daily bachelor s study programme of the following fields: Mathematics focused on education, Fundamentals of the technical sciences and information technologies in education, Teaching at primary schools, Education, Pedagogy public administration, Speech and language therapy, Social sciences with a focus on education and Czech language and literature with an emphasis on educational aspects.

Observed variables Which information resources do you use during your study? Books, university textbooks, press, magazines, own notes, Internet, electronic study materials, learning programmes on CD/DVD, e- learning course. Do you know the term of Electronic study materials? Have you encountered electronic study materials during your study at university or secondary school? Indicate on a scale to what degree you are satisfied with electronic study materials?

Observed variables Do you prefer learning through the use of traditional printed materials (books, university textbooks, press, etc.) or electronic study materials? Which type of electronic study materials is most suitable for you? Indicate on a scale to what degree you are satisfied with traditional printed study materials? Would you like to use electronic study materials in your further study? Field of study. Gender.

Cluster analysis For the purposes of better interpretation, the observed variables were standardized and a cluster analysis was performed (both dendrogram and K- means). The resulting dendrogram (see Fig. 1) indicates that the observed students have a tendency to group into three main significant clusters. However, the results of the cluster analysis show that the same students can be (theoretically) divided into four characteristic groups see Fig. 2.

Cluster 1 Cluster 2 Cluster 3 Cluster analysis dendrogram identification of 3 clusters

Cluster 2 Cluster 3 Cluster 1 Cluster 4 Cluster analysis dendrogram identification of 4 clusters

Cluster analysis To allow a better interpretation of the results of the cluster analysis, a graph of average values (including an analysis of variance see Table 1) of all three identified clusters developed by the K-means method is provided. The graph enables a better expression of the characteristics of individual clusters as well as the average values of individual features of the observed clusters. For the purposes of completeness, Table 2 specifies the members (marked with student numbers) of individual identified clusters as they were determined by the STATISTICA 12 CZ programme.

Cluster analysis Cluster Cluster Cluster Significance Variable 1 2 3 Information resource: books 0,225-0,215-0,466 0,000 Information resource: press -0,190 0,930-0,257 0,000 Information resource: own notes 0,200-0,099-0,368 0,007 Information resource: Internet -0,318-0,188 0,925 0,000 Information resource: electronic study materials 0,175-0,358-0,027 0,048 Satisfaction with electronic study materials 0,208-0,479-0,172 0,002 Preference for study materials -0,134-0,613 0,854 0,000 Satisfaction with traditional printed study materials -0,022 0,719-0,580 0,000 Gender -0,507-0,324 1,590 0,000 Field of study 0,249-0,372-0,386 0,000 Use of electronic study materials in further study -0,424 1,830-0,355 0,000

Cluster analysis K-means

Cluster analysis Cluster 1 The first cluster consists of students whose most used information resource includes books, own notes and electronic study materials and whose least used resource is the Internet. Electronic study materials are well assessed by the students in this cluster. The cluster includes exclusively women and has 60 % of respondents.

Cluster analysis Cluster 2 The second cluster consists of students whose most used information resource includes press and whose least used resource includes electronic study materials, which are also badly assessed by these students. On the contrary, well assessed and preferred are traditional printed study materials. The cluster includes primarily women and consists primarily of students of social sciences and Czech language. This cluster has 16 % of respondents.

Cluster analysis Cluster 3 The third cluster consists of students whose most used information resource includes the Internet, other information resources are used the least of all students. Most preferred are electronic study materials; on the contrary, these students are least satisfied with traditional study materials. This cluster has 24 % of respondents, mostly men.

Faktorová analýza Pedagogický slovník definuje faktorovou analýzu jako: Soubor velkého počtu statistických postupů, které slouží ke stanovení co nejmenšího počtu základních dimenzí faktorů z velkého počtu studovaných proměnných. Jejich účelem je zredukovat výchozí data a seskupit je do několika hierarchicky vyšších celků. Faktorová analýza vychází z korelační matice (zachycuje hodnoty korelačních koeficientů) a matematickými postupy extrahuje z matice malý počet základních, obecnějších proměnných faktorů, které umožňují lépe vysvětlit studované vztahy. 45

Podstata faktorové analýzy Cílem faktorové analýzy, řečeno matematicky, je vyřešit základní rovnici: x i k a ir F r m) kde: r 1 x i je i-tý objekt, F r je společný faktor, k je zjištěný počet faktorů, e i je zbytek (neobjasněná korelace, chyba), který lze připsat na vrub pouze určité proměnné, m je počet proměnných. Koeficient a ir můžeme chápat jako určitou kvantifikaci vlivu r-tého faktoru na i-tou proměnnou. Většinou ho nazýváme 46 faktorová zátěž nebo faktorový náboj. e i ( i 1, 2,...

Předpoklady faktorové analýzy Pro aplikaci faktorové analýzy musí být splněny určité požadavky a uživatel si musí nejprve ověřit, zda matice dat obsahuje dostatečné korelace pro její použití. Jde zejména o následující testy: Bartlettův test sféričnosti, Výpočet parciálních korelačních koeficientů, Určení anti-image korelační matice, Keiser Meyer Olkinova (KMO) míra, Určení čtverce vícenásobného korelačního koeficientu R 2. 47

Explorativní faktorová analýza Každá faktorová analýza vychází z matice dat Y, z níž vypočítáme korelační matici R. V explorativní faktorové analýze potom do diagonály matice R dosadíme odhady komunalit (metod odhadu je více a jsou různě přesné), čímž dostaneme redukovanou faktorovou matici Rh. Z redukované korelační matice Rh potom určitými metodami extrahujeme (získáváme) faktory a jako výsledek dostaneme faktorovou matici A. Protože však existuje mnoho dalších matic A, které také reprodukují matici Rh, provádíme ještě rotaci podle určitého kriteria. Tím dostaneme rotovanou faktorovou matici V, kterou 48 potom interpretujeme.

Schéma průběhu explorativní FA Při provádění explorativní faktorové analýzy následují tedy za sebou určité kroky a problémy, které se dají shrnout do následujícího schématu, viz obr. 49

Explorativní faktorová analýza Úlohou faktorové analýzy je tedy nalézt faktorovou matici. Prvky matice nazýváme faktorové náboje. Pro jejich velikost platí, že mají hodnoty mezi -1 a 1 (pro ortogonální, tedy na sobě nezávislé faktory) a jsou to vlastně korelace mezi určitou proměnnou a určitým faktorem. Každý faktor je charakterizovaný jedním sloupcem faktorové matice a každá proměnná jedním řádkem matice. Aby interpretace faktorové matice byla jednodušší, provádíme tzv. rotaci faktorů. Smysl rotace je ověřit matematicky korektní transformaci výsledků faktorové analýzy tak, aby shoda mezi interpretací a výsledky faktorové analýzy byla co největší. 50

Varimax rotovaná faktorová matice (metoda centroidní) 51

Varimax rotovaná faktorová matice Tabulka: Faktorová analýza škál Škála (předpokládaný typ učitele) Faktor 1 Faktor 2 Faktor 3 Faktor 4 Komunalita (od 4 faktorů) Š1 (T2) -0,39-0,70 0,32-0,12 0,76 Š2 (T3) 0,08 0,12-0,11 0,88 0,81 Š3 (T5) 0,76 0,07-0,03 0,38 0,73 Š4 (T2) -0,26-0,47 0,32-0,45 0,59 Š5 (T3) 0,44 0,24-0,12 0,70 0,76 Š6 (T2) -0,22-0,48 0,33-0,62 0,77 Š8 (T1) -0,21-0,80 0,15-0,28 0,79 Š9 (T5 0,22 0,06-0,59 0,34 0,52 Š10 (T1) -0,32-0,51 0,38-0,33 0,61 Š11 (T4) 0,27 0,22-0,45 0,63 0,72 Š12 (T2) 0,14-0,80-0,01-0,10 0,67 Š13 (T1) -0,26-0,55 0,56-0,07 0,68 Š14 (T1) 0,08-0,20 0,84-0,12 0,76 Š15 (T5) 0,56 0,07-0,51 0,17 0,60 Š16 (T4) 0,81 0,18-0,09 0,11 0,71 52

Explorativní faktorová analýza Celkový rozptyl v jedné proměnné se rozkládá na jednotlivé části, které jsou reprezentované čtverci faktorových nábojů. Součet čtverců nábojů společných faktorů se nazývá komunalita h i 2 a je to ta část jednotkového rozptylu, která je společná se společnými faktory. Rozdíl 1 h i 2 je tzv. specifický rozptyl u i2, což je ta část rozptylu, která není společná se společnými faktory. Specifický rozptyl dále můžeme rozdělit na část b i 2, což je specifita, a na část e i2, což je zbytkový rozptyl. 53

Explorativní faktorová analýza Avšak klasická explorativní faktorová analýza umožňuje více různých ekvivalentních interpretací. Tak se může stát, že navržený model není zcela v souladu se skutečností. Je to způsobeno samou podstatou metody, která do sebe vnáší celou řadu problémů a dále sice přesně definovaná, ale ne příliš exaktní pravidla. Pokud bychom chtěli tyto nepřesnosti omezit, mohli bychom použít tzv. konfirmativní (někde též uváděnou konfirmační nebo potvrzující) faktorovou analýzu, která výše uvedené nedostatky nemá a umožňuje tak přesný důkaz námi stanovené hypotézy. 54

Konfirmativní faktorová analýza Konfirmativní faktorová analýza slouží k dokazování přesně definované hypotézy o struktuře dat. Je v ní možné volit mezi na sobě nezávislými (ortogonálními) faktory a mezi faktory šikmými, z nichž některé mohou být na sobě nezávislé. Dokazovaná hypotéza má obvykle podobu předepsané jednoduché struktury dle Thurstonových zásad. Při důkazu se vychází z analýzy korelační matice, která vede k proložení modelu společných faktorů, ve kterém má matice faktorových zátěží s obecně n testy a m společnými faktory na předepsaných místech pevné nuly. 55

Konfirmativní faktorová analýza Při konfirmativní faktorové analýze, buď na základě předchozí explorativní analýzy nebo na základě vlastní úvahy, určíme počet faktorů, které by měli objasnit rozptyl jednotlivých proměnných a do těch míst, kde předpokládáme nenulové faktorové zátěže, zapíšeme jedničky (viz příklad dále). Dále můžeme předpokládat, že zkoumané faktory jsou na sobě nezávislé nebo závislé. Vhodný statistický systém (v našem případě již dříve zmíněný STATISTICA ) potom spočítá odhady faktorového vzoru a jedinečný rozptyl (faktory neobjasněný rozptyl proměnných). Na základě výpočtu kriteria 2 potom můžeme rozhodnout, jak je naše hypotéza o námi předložené struktuře pravděpodobná. 56

Doporučené schéma pro postup při provádění faktorové analýzy 57

Děkuji Vám za pozornost Kontaktní adresa: doc. PhDr. Miroslav Chráska, Ph.D., Katedra technické a informační výchovy, Žižkovo nám 5, Pedagogická fakulta Univerzity Palackého, Olomouc, Česká republika, tel. 00420 585 635 803, 00420 585 635 802 e-mail: miroslav.chraska@upol.cz 58