Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:
|
|
- Alexandra Vítková
- před 6 lety
- Počet zobrazení:
Transkript
1 Vzorová úloha 4.10 Nalezení shluků hráčů podobných vlastností Použijeme dat úlohy S4.21 Shluky 12 superhvězd košíkové. Následující tabulka dat obsahuje informace o osmi hráčských vlastnostech a aktivitách 12 superhvězd košíkové v sezóně Cílem je najít shluky hráčů podobných vlastností, a naopak, odhalit jejich aktivity a vlastnost, ve které se hráč neshoduje s ostatními hráči. Řešení: Výklad výstupu programu NCSS2000: 1. Titulní stránka: Shlukovací metoda: Průměrová Typ vzdálenosti: Eukleidovská Typ škály: Směrodatná odchylka Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků: Shluk Shluk Oddíl řádek Hráč 2 1 Barry R. 3 1 Baylor E. 4 1 Bird L. 7 1 Erving J. 9 1 Jordan M Robertson O West J. 1 Jabbar K. A. 5 Chamberlain W. 6 Cousy B. 8 Johnson M. 11 Russell B. Každý řádek je spojen s číslem shluku. Tabulka je uspořádána dle čísel shluků. Čísla shluků, která nemohou být klasifikována, jsou ponechána prázdná. Sestava shluku je závislá na výseči shluků, která byla zadána v datech. 3. Tabulka linkování shluků v dendrogramu: Počet Velikost Diagram Propojené Spoj shluků vzdálenosti vzdálenosti řádky IIIIIIIIIIIIIIIIIIIIIIIIIIIIII 1,2,4,7,3,9,10,12,8,6,11, IIIIIIIIIIIIIIIIIIIIIIII 1,2,4,7,3,9,10,12,8,6, IIIIIIIIIIIIIIIIIIIII 1,2,4,7,3,9,10,12,8, IIIIIIIIIIIIIIIIIII 1,2,4,7,3,9,10,12, IIIIIIIIIIIIIIIIII 1,2,4,7,3,9,10, IIIIIIIIIIIII 2,4,7,3,9,10, IIIIIIIIIIII 9,10, IIIIIIIIIIII 2,4,7, IIIIIIIIII 10, IIIIIIIII 2,4, IIIIIIII 4,7 Kofenetická korelace: Delta(0.5):
2 2 Delta(1.0): Průběh spojování do shluků je zobrazen v opačném pořadí. Uvádí se také hladina vzdálenosti, na které dochází ke shlukování. To umožňuje vybrat si vhodnou hladinu, na které provedeme výseč shluků. Když vezmeme hladinu vzdálenosti rovnu 1, bude výseč u spojení 7 a 8 a povede to na 5 shluků. Podíváme-li se podrobněji, je zřejmé, že jde o 3 shluky a 2 odlehlé objekty. Oba odlehlé objekty jsou přesto nazvány shluky, i když každý shluk obsahuje pouze 1 objekt. Spoj: pořadové číslo shluku. Počet shluků však obsahuje také odlehlé hodnoty. Velikost vzdálenosti: vzdálenost mezi dvěma spojovanými shluky. Za normálních okolností se tato hodnota monotóně zvyšuje. Slouží k určování vhodného počtu shluků. Diagram vzdálenosti: čárový diagram hodnot vzdálenosti. Vybereme takový počet shluků, který vykazuje náhlý skok v diagramu. Propojené řádky: jde o čísla objektů čili řádků, propojených v tento aktuální shluk. Všimněte si, že propojení jsou zobrazena v opačném pořadí: v našem příkladě se objekt 7 a 10 spojují jako první, k nim se pak přidává objekt 4 atd. Kofenetická korelace: kofenetický korelační koeficient CC mezi skutečnou vzdáleností a dendrogramem predikovanou vzdáleností je založen na dotyčné hierarchické konfiguraci. Hodnoty CC = 0.75 a vyšší znamenají, že shlukování je možné považovat za užitečné. Delta(0.5, 1): obě kritéria jsou mírami těsnosti proložení. Užijeme je jako rozhodčí kritéria k hledání a rozlišení hledání a mezi technikami shlukování. Čím více je delta bližší nule, tím je shlukovací technika lepší a věrohodnější. 4. Tabulka vzdáleností skutečných a predikovaných v dendrogramu: První Druhý Skutečná Vzdálenost Rozdíl Procento řádek řádek vzdálenost ve shluku vzdálenosti rozdílu Ukazuje skutečné a v dendrogramu predikované vzdálenosti pro každý pár objektů. Obsahuje také jejich rozdíl a rozdíl v procentech. Obvykle se tento oddíl zkracuje, či vůbec vynechává, protože i pro malý počet objektů jeho délka velice narůstá. 5. Hledání nejlepší metody shlukování: V tabulce je uvedeno postupně 7 metod shlukování a za rozhodčí kritéria jsou použita kofenetický korelační koeficient a obě kritéria delta. Nejlepší technika tvorby dendrogramu vykazuje nejvyšší hodnotu kofenetického korelačního koeficientu a nejnižší hodnotu blízkou nule u kritérií delta. V dané úloze se ukázala jako nejlepší technika Průměrové metody (Group Average, Unweighted Pair-Group). 1. Metoda shlukování: Skupinový průměr, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): , 2. Metoda shlukování: Jednoduchý průměr, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): : Delta(1.0), : , 3. Metoda shlukování: Těžiště, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): , 4. Metoda shlukování: Nejbližšího souseda, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): , 5. Metoda shlukování: Nejvzdálenějšího souseda, Typ vzdálenosti: Eucleid., směrodatná odchylka Kofenetická korelace: , Delta(0.5): , Delta(1.0): , 6. Metoda shlukování: Median, Typ vzdálenosti:eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): , 7. Metoda shlukování: Wardova metoda, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): ,
3 3 6. Grafické zobrazení dendrogramu podobnosti objektů: Dendrogram podobnosti objektů názorně ukazuje tvorbu a rozlišení shluků a představuje vlastně rozhodující výsledek shlukové analýzy vícerozměrných dat. Obr. 4.18a Metoda váženého průměr (Simple Average). Obr. 4.18b Metoda nevážených průměrů (Gro p Average). Obr. 4.18c Metoda těžiště (Centroid). Obr. 4.18d Metoda nejbližšího o eda (Single Linkage).
4 4 Obr. 4.18e Metoda nejvdálenějšího o eda (Complete Link.). Obr. 4.18f Metoda mediánová (Median). Obr. 4.18g Metoda Wardova (Ward Minim m Variance). Interpretace dendrogramu je snadná: objekty blízko sebe jsou propojeny spojovací úsečkou hodně vpravo, mají malou vzdálenost, čili značnou podobnost. Objekty propojené hodně vlevo mají malou podobnost a mezi sebou vykazují velkou vzdálenost, např. hráč Bob Cousy se velice liší od všech ostatních hráčů. Míra podobnosti nebo naopak míra vzdálenosti dvou objektů se může přečíst přímo na ose. Počet vhodných shluků může být snadno určen zakreslením svislice do diagramu. Vztyčíme-li, například, kolmici v bodě 1.0 na ose vzdáleností x, dostaneme 5 shluků. Jeden shluk obsahuje 2 objekty, jeden shluk obsahuje 7 objektů a tři shluky obsahují každý pouze po 1
5 objektu. Nejvhodnější techniku shlukování vybereme na základě dvou rozhodčích kritérií, kofenetické korelace CC a kritéria delta. Na sedmi dendrogramech jsou uvedeny shluky, vytvořené sedmi rozličnými technikami. Protože rozhodčí kritéria nalezla jako nejlepší techniku průměrovou, budeme tento dendrogram považovat za optimální a v naší analýze za výsledný. Uživatel může porovnat jemné rozdíly mezi dendrogramy a posoudit jejich věrohodnost dle velikosti kofenetické korelace a kritérií delta. 7. Grafické zobrazení dendrogramu podobnosti proměnných: Dendrogram podobnosti proměnných názorně ukazuje rozlišení proměnných ve shlucích. Jeho interpretace je snadná: proměnné blízko sebe jsou propojeny spojovací úsečkou hodně nízko, mají malou vzdálenost čili značnou vzájemnou podobnost. Proměnné propojené hodně vysoko mají malou podobnost a mezi sebou vykazují velkou vzdálenost. Stejná interpretace podobnosti je i u dendrogramu objektů, kde jsou tentokrát objekty označeny nikoliv svými jmény, ale indexy. 5 Obr. 4.19a Dendrogram proměnných metodo průměrovo, MINITAB. Obr. 4.19b Dedrogram objektů (hráčů košíkové) metodo průměrovo, MINITAB. Vzorová úloha 4.11 Vytvoření dendrogramu objektů neuroleptika Vytvoření dendrogramu neuroleptik u Úlohy B4.02 Účinky neuroleptik při tlumení rozličných psychóz. Neuroleptika redukují nežádoucí účinky přebytečného dopaminu. Liší se však ve svých účincích: potlačují nervozitu, záchvaty, třes, ospalost, parkinsonismus, vynechávání menstruace, vyrážky, zvýšené slinění atd. Účelem je provést klasifikaci neuroleptik do shluků podobných účinků s ohledem na čtyři proměnné. Řešení: U úlohy uvedeme pro stručnost pouze zkrácený výstup programu NCSS2000. Po výběru optimální metody tvorby dendrogramu uvedeme dendrogram podobnosti proměnných a dendrogram podobnosti objektů. Nejvyšší hodnota kofenetického korelačního koeficientu a nejnižší hodnota kritéria delta svědčí o optimální shlukovací metodě tvorby dendrogramu metodou průměrovou 1. Metoda shlukování: Skupinový průměr, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): ; 2. Metoda shlukování: Jednoduchý průměr, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): ; 3. Metoda shlukování: Těžiště, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): ; 4. Metoda shlukování: Nejbližšího souseda, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): ;
6 6 5. Metoda shlukování: Median, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): ; 6. Metoda shlukování: Wardova metoda, Typ vzdálenosti: Eucleid., směrodatná odchylka, Kofenetická korelace: , Delta(0.5): , Delta(1.0): Obr. 4.20a Metoda nejbližšího o eda v dendrogram proměnných, MINITAB. Obr. 4.20b Metoda průměr v dendrogram proměnných, MINITAB. Metoda průměru v dendrogramu podobnosti objektů ukazuje na 6 shluků: první shluk obsahuje 10 objektů 18, 16, 17, 8, 20, 1, 12, 13, druhý shluk 5 objektů 3, 14, 5, 4, 19, třetí shluk 2 objekty 10 a 15 a zbývající tři shluky obsahují vždy po jednom objektu, a to 9, 11 a 7. Jako silně vybočující objekt se jeví objekt 7. Dendrogramy získané ostatními technikami dospěly převážně ke stejným shlukům a podobné struktuře. Obr. 4.21a Dendrogram objektů (ne roleptik) metodo nejbližšího o eda, CC = , )(0.5) = 0.474, )(1.0) = Obr. 4.21b Dendrogram objektů metodo nejvdálenějšího o eda, CC = , )(0.5) = 0.179, )(1.0) =
7 7 Obr. 4.21c Dendrogram objektů (ne roleptik) metodo průměr, CC = , )(0.5) = 0.178, )(1.0) = Obr. 4.21d Dendrogram objektů (ne roleptik) Wardovo metodo, CC = 0.979, )(0.5) = 0.549, )(1.0) = Vzorová úloha 4.12 Klasifikace objektů do shluků Vstupní data jsou z úlohy S4.16 Shluky 12 superhvězd košíkové. Tabulka dat obsahuje informace o osmi hráčských vlastnostech a aktivitách 12 superhvězd košíkové v sezóně Cílem je najít shluky hráčů podobných vlastností a naopak odhalit jejich aktivity a vlastnost, ve které se hráč neshoduje s ostatními hráči. Řešení: výklad výstupu programu NCSS Vyčíslení minimálního počtu iterací: Číslo Počet Procento Čárový diagram iterace shluků proměnlivosti procenta Oddíl pomáhá určit optimální počet shluků. Počet vytvořených shluků. Procento proměnlivosti: dává sumu čtverců pro daný počet shluků v tomto řádku ve formě procenta, kdyby vůbec nedošlo ke shlukování. Čárový diagram procenta proměnlivosti: grafické zobrazení procenta variace čárovým diagramem. 2. Iterování: Číslo Počet Procento Čárový diagram iterace shluků proměnlivosti procenta
8 8 Oddíl je zvláště užitečný k určení dostatečného počtu náhodných startovacích uspořádání. Když bylo specifikováno dost startovacích uspořádání, obvykle dvě či tři představují optimum pro každý počet shluků. To se pak posuzuje dle dosaženého minima procenta variace. Když se vůbec neobjeví, je třeba zvýšit počet startovacích uspořádání a výpočet opakovat. Počet shluků: v tomto uspořádání. Procento proměnlivosti: dává sumu čtverců pro počet shluků tohoto řádku vyjádřený jako procento sumy čtverců, když ke shlukování nedojde. Tak, jak se přidává více a více shluků, tato hodnota může poklesnout. Po volbě optimálního počtu shluků, bod selhání tohoto procenta dramaticky poklesne. Čárový diagram procenta: dává čárový diagram znázornění procenta variace. 3. Středy shluků: Proměnná Shluk 1 Shluk 2 Shluk 3 Height FgPct Points Rebounds Počet Tabulka ukazuje střední hodnoty proměnných pro jednotlivé shluky. Poslední řádek přináší počet objektů v dotyčném shluku. 4. Směrodatné odchylky shluků: Proměnná Shluk 1 Shluk 2 Shluk 3 Height FgPct Points Rebounds Počet Tabulka ukazuje směrodatné odchylky proměnných pro jednotlivé shluky. Poslední řádek přináší počet objektů v dotyčném shluku. 5. Testování F-poměru: Mezi průměrnými Uvnitř průměrných Spočtená hladina Proměnné SV1 SV2 čtverci čtverců F-test významnosti α Height FgPct Points Rebounds Oddíl přináší výsledky jednofaktorové analýzy rozptylu pro každou proměnnou, a to při použití běžně definovaných shluků jako faktoru. Tabulka pomáhá vyšetřit důležitost každé proměnné ve shlukovacím procesu. 6. Vzdálenosti: Řádek Shluk Vzdálenost 1 Vzdálenost 2 Vzdálenost 3 1 Jabbar K.A Barry R Baylor E Bird L Chamberlain W Cousy B Erving J
9 9 8 Johnson M Jordan M Robertson O Russell B West J Tabulka přináší relativní vzdálenosti každého objektu ke středu shluku. Tím se prokáže, jak ostře byly shluky vytvořeny: jestliže vzdálenost každého objektu ke středu shluku je mnohem menší než vzdálenost z objektu ke středům ostatních shluků, je uspořádání do shluků výtečné a účinné. Jestliže však nejmenší vzdálenost je téměř stejná jako vzdálenosti ke středům ostatních shluků, je pak otázkou, ke ktererému shluku daný objekt vlastně patří. Takové uspořádání pak není příliš žádoucí. 7. Oddíl jednotlivých vzdáleností: Vzdálenosti pro shluk 1: Řádek Shluk Vzdálenost 1 Vzdálenost 2 Vzdálenost 3 2 Barry R Baylor E Bird L Erving J Johnson M Jordan M Robertson O West J Počet = 8 Vzdálenosti pro shluk 2: Řádek Shluk Vzdálenost 1 Vzdálenost 2 Vzdálenost 3 1 Jabbar K. A Chamberlain W Počet = 2 Vzdálenosti pro shluk 3: Řádek Shluk Vzdálenost 1 Vzdálenost 2 Vzdálenost 3 6 Cousy B Russell B Počet = 2 Vysvětlení tohoto oddílu je stejné jako předešlého, kromě řádku, ve kterém byl zobrazen jediný shluk. Je pak snadnější poznat, který objekt připadá do kterého shluku.
10 10 8. Grafy: Obr. 4.22a Ropt lový diagram proměnných Height-FgPct. Obr. 4.22b Ropt lový diagram proměnných Height-Points. Obr. 4.22c Ropt lový diagram proměnných Height-Rebounds. Obr. 4.22d Ropt lový diagram proměnných FgPct-Points. Obr. 4.22e Ropt lový diagram proměnných FgPct-Rebounds. Obr. 4.22f Ropt lový diagram proměnných Points-Rebounds. Série indexových rozptylových diagramů, vždy pro dvojici proměnných, ukazuje rozdělení objektů do shluků. Diagramy jsou vlastně cílem shlukové analýzy, protože pomohou odhalit odlehlé objekty, anomálie a řadu dalších strukturních problémů.
11 Vzorová úloha 4.13 Odhalení struktury objektů rozličnými metodami shlukování Vstupní data jsou z úlohy S4.16 Shluky 12 superhvězd košíkové. Tabulka dat obsahuje informace o osmi hráčských vlastnostech a aktivitách 12 superhvězd košíkové v sezóně Cílem je najít shluky hráčů podobných vlastností, a naopak odhalit jejich aktivity a vlastnost, ve které se hráč neshoduje s ostatními hráči. Řešení: Výklad výstupu programu NCSS2000. Při shlukovací analýze těchto dat bude použito dvou rozličných metod medoidního shlukování programu NCSS2000: (i) Výstup algoritmu medoidního shlukování za použití Späthovy metody: 1. Titulní stránka: Metoda Späthova Proměnné: Metoda: Objektivní funkce: Typ vzdálenosti: Typ škály: Height až do Rebounds Späthova, Silueta, Eukleidovský, Směrodatná odchylka, 2. Iterační průběh hledání optimálního počtu shluků: Minimalizovat Nastavená Maximalizovat Počet tuto průměrnou průměrná tuto průměrnou shluků vzdálenost vzdálenost siluetu Průběh ukazuje hodnoty účelových funkcí D, D adjust a s pro každou iteraci a proměnný počet shluků metodou Späthovou. Tabulka je zváště užitečná při zadávání správného počtu opakování: jsou-li totiž dvě či tři shluková uspořádání při stejném požadovaném počtu shluků totožná, potom byl zvolen dostatečně velký zadaný počet opakování. Jinak bylo třeba zvýšit tuto hodnotu a analýzu opakovat. V tomto příkladu dojdeme k závěru, že optimální k je rovno 2. Protože jsme hodnotu siluety s = obdrželi pouze jednou, je třeba změnit počet opakování na 10 a výpočet opakovat. Průměrná vzdálenost: tato hodnota může být přepočtena tak, že uvede procento vzdálenosti, vztažené vůči maximální vzdálenosti v matici vzdáleností. Tím se zlepší interpretace této veličiny. Nastavená průměrná vzdálenost: jde o hodnotu nastavené průměrné vzdálenosti dle vzorce 11
12 12 D ' K N j K k'1. j i0c K. j j0c K d ij. Tato hodnota může být stejně jako předešlá vyjádřena v procentech maximální vzdálenosti. Průměrná hodnota siluety všech objektů: čili všech řádků, je důležitým kritériem úspěšnosti shlukování a především určení optimálního počtu shluků. Maximální hodnota siluety znamená nejlepší vhodný počet shluků. 3. Přehled iterací: Minimalizovat Nastavená Maximalizovat Počet tuto průměrnou průměrná tuto průměrnou shluků vzdálenost vzdálenost siluetu Přehled uvádí závěrečné výsledky účelových funkcí pro každý počet shluků. Uvádí závěry hledání vhodného počtu shluků. Tento počet odpovídá maximální hodnotě siluety v posledním sloupci. Takový řádek poskytne také důležitou hodnotu nalezeného průměru všech vzdáleností. Toto číslo by mělo dosahovat svého minima. 4. Souřadnice medoidů shluků: Proměnná Shluk 1 Shluk 2 Height Weight FgPct FtPct Points Rebounds Řádek 1 Jabbar K.A 10 Robertson Tabulka uvádí souřadnice čili proměnné medoidů všech shluků, což pomůže vysvětlit a kvalitativně rozlišit jednotlivé shluky. Poslední řádek přináší číslo nebo jméno objektu, který je označen jako medoid. Všimněme si, že hráči ve shluku č. 1 jsou typicky o 9 palců vyšší než ve shluku č. 2 a mají o 4 doskoky pod košem více právě kvůli své výhodné výšce. Shluk č. 1 proto obsahuje především vysoké podkošové hráče, zatímco shluk č. 2 pak ostatní hráče. 5. Objektové (řádkové) podrobnosti: Průměrná Průměr Nejbližší Vzdál. vzdálenost siluety Silueta Čárový diagram Řádek shluk soused k němu souseda 5 Chamberlai W IIIIIIIIII 11 Russell B Jabbar K. A Baylor E Jordan M Cluster Average 1 (5) Barry R IIIIIIIIIIIIIIIIIIIIIIIII 10 Robertson O IIIIIIIIIIIIIIIIIIIIIIII 12 West J IIIIIIIIIIIIIIIIIIIIII
13 13 7 Erving J IIIIIIIIIIIIIIIIIIIIII 6 Cousy B IIIIIIIIIIIIIIIII 8 Johnson M IIIIIIIIIIIIIIIII 4 Bird L IIIIIIIIIIIIIIII Shlukový průměr 2 (7) Celkový průměr (12) Maximální vzdálenost: Tabulka přináší cenné informace o každém objektu v řádku, který byl zařazen do shluků. Tabulka je uspořádána podle klesajících hodnot siluety v každém shluku. Řádek: číslo nebo jméno objektu v řádku. V tomto výstupu je vysvětlen každý řádek databáze. Číslo shluku: číslo, do kterého jsou objekty roztříděny. Nejbližší soused: identifikační číslo nejbližšího shluku vůči tomuto objektu v řádku. Tato informace je užita při výpočtu hodnoty siluety. Průměrná vzdálenost k němu: průměrná vzdálenost mezi tímto objektem a ostatními objekty v uvažovaném shluku. Jde o číslo a ve výpočtu siluety. Průměrná vzdálenost souseda: průměrná vzdálenost mezi tímto objektem a objekty v nejbližším sousedním shluku. Jde o číslo b ve výpočtu siluety. Silueta: hodnota s musí být kladná a pokud možno vyšší než 0.5, jinak je shluk nevhodný, špatný. (ii) Medoidního shlukování metodou PAM: 1. Titulní stránka: Metoda PAM (Partition Around Medoids): Proměnné: Height až do Rebounds Metoda: Kaufmanova-Rousseeuwova, Objektivní funkce: Silueta, Typ vzdálenosti: Eukleidovská, Typ škály: Směrodatná odchylka, 2. Iterační průběh hledání optimálního počtu shluků: Minimalizovat Nastavená Maximalizovat Počet tuto průměrnou průměrná tuto průměrnou shluků vzdálenost vzdálenost siluetu Souřadnice medoidů shluků: Proměnná Shluk 1 Shluk 2 Height Weight FgPct FtPct Points Rebounds Řádek 1 Jabbar K.A 10 Robertson O.
14 14 4. Objektové (řádkové) podrobnosti: Průměrná Průměr Nejbližší Vzdál. vzdálenost siluety Silueta Čárový diagram Řádek shluk soused k němu souseda 5 Chamberlain W IIIIIIIIIIIIII 11 Russell B II 1 Jabbar K. A Cluster Average 1 (3) Robertson O IIIIIIIIIIIIIIIIIIIIIIIIIIIIII 2 Barry R IIIIIIIIIIIIIIIIIIIIIIIIIIIII 12 West J IIIIIIIIIIIIIIIIIIIIIIIIIIIII 7 Erving J IIIIIIIIIIIIIIIIIIIIIIIIII 9 Jordan M IIIIIIIIIIIIIIIIIIIIIIII 4 Bird L IIIIIIIIIIIIIIIIIIIIII 6 Cousy B IIIIIIIIIIIIIIIIIIIII 3 Baylor E IIIIIIIIIIIIIIIIIII 8 Johnson M IIIIIIIIIIIIIIIII Shlukový průměr 2 (9) Celkový průměr (12) Maximální vzdálenost: Vzorová úloha 4.14 Klasifikace objektů barev fuzzy shlukováním V úloze S4.17 je dáno 22 objektů barev, které vznikly různým podílem červené a modré barvy. Je třeba provést klasifikaci objektů barev do shluků. Rešení: Výstup programu NCSS2000: 1. Titulní stránka: Fuzzy metoda Proměnné: Red, Blue Typ vzdálenosti: Eukleidovská, Typ škály: Směrodatná odchylka 2. Přehled závěrečných výsledků určení počtu shluků: Počet Průměrná Průměrná shluků vzdálenost silueta F(U) Fc(U) D(U) Dc(U) I když se tato tabulka objevuje až na samém konci výstupu, začneme s jejím výkladem hned na začátku. Ukazuje totiž na hledaný počet shluků, zde pro 3 shluky dosahuje průměrná silueta své maximální hodnoty, dále Fc(U) rovněž své maximální hodnoty a Dc(U) své minimální hodnoty. Průměrná vzdálenost: jde o hodnotu průměrné vzdálenosti. Tato hodnota může být přepočítána jako relativní procento vůči maximální vzdálenosti v matici vzdáleností. Průměrná silueta: jde o průměrnou siluetu ze všech objektů v řádcích. Optimální počet shluků je ten, pro který tato veličina nabývá své maximální hodnoty. F(U), Fc(U), D(U), Dc(U) jsou rozdělovací koeficienty.
15 15 Optimálního počtu shluků je dosaženo pro maximální F(U) a minimální D(U). Po určení optimálního počtu shluků bude řešení studováno detailně. Jelikož zde vyšlo, že optimální jsou 3 shluky, budeme si nadále všímat jenom výsledků pro 3 shluky a ostatní části výstupu pro počty shluků 2, 4, a 5 vynecháme. 3. Středy (medoidy) shluků: Proměnná Shluk 1 Shluk 2 Shluk 3 Červená (Red) Modrá (Blue) Řádek Tato tabulka uvádí středy, čili medoidy, nejbližšího pevného shlukování. Tabulka pomůže vysvětlit podstatu shluků v této úloze. Poslední řádek udává číslo řádku (a někdy také jméno) objektu každého shlukového středu - medoidu. 4. Přehled účastí ve shlucích: Přehled účasti ve 3 shlucích: Suma Čárový diagram Shluková čtverců čtverců Silueta Diagram siluety Row Shluk účast účasti účasti IIIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIII IIIIIIIIIII IIII IIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIII Tabulka přináší informaci o každém objektu (každém řádku). Je roztříděna dle hodnoty siluety v každém shluku. Všimněme si, jak dobře jsou identifikovány dva odlehlé objekty, č. 6 a č. 13. Řádek: číslo nebo i jméno objektu, řádku. Shluk: číslo shluku, do kterého je objekt klasifikován. Shluková účast: jde o maximum shlukové účasti. Je to účast pro shluky, do kterých byl tento řádek (objekt) zařazen při pevném shlukování. Suma čtverce účasti: všechny účasti pro daný objekt (řádek) jsou umocněny na druhou a sečteny. Když je objekt úplně přiřazen do jediného shluku, je tato hodnota rovna 1. Když je řádek klasifikován stejnou měrou do každého shluku, bude hodnota 1/K. Řádky s vysokými hodnotami jsou proto ve shluku blízko středu. Řádky s nízkými hodnotami jsou odlehlé hodnoty. Čárový diagram čtverce účasti: čárový diagram sumy čtverců hodnot účasti pomůže odhalit
16 16 řádky, které nejsou dobře zařazeny do shluků. Silueta: hodnota siluety by měla být kladná a větší než 0.5. Čárový diagram hodnot siluety: pomůže rozlišit řádky, objekty, které nejsou dobře zařazeny do shluků. 5. Účast objektů ve shlucích: ukazuje na pravděpodobnost účasti každého řádku v každém shluku. Řádek Shluk Pravděpod. v 1 Pravděpod. v 2 Pravděpod. v
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.
Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
Kanonická korelační analýza
Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle
Shluková analýza dat a stanovení počtu shluků
Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
Faktorová analýza (FACT)
Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 1 ČHMÚ, OPZV, Na Šabatce 17, 143 06 Praha 4 - Komořany sosna@chmi.cz, tel. 377 256 617 Abstrakt: Referát
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Fakulta chemicko technologická Katedra analytické chemie
Fakulta chemicko technologická Katedra analytické chemie Licenční studium statistické zpracování dat Analýza vícerozměrných dat Ing. Pavel Valášek Školní rok OBSAH ÚVOD DATA EDA EXPLORATORÍ AALÝZA 4 PCA
Vzorová prezentace do předmětu Statistika
Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována
Prohlášení o výkonu. 3. Účel použití Buková překližka podle EN 14374: pro všechny nosné, vyztužující nebo nenosné stavební díly
Prohlášení o výkonu 1. Ref. č. PM 005 2018 2. Typ Buková překližka 3. Účel použití Buková překližka podle EN 14374:2005-02 pro všechny nosné, vyztužující nebo nenosné stavební díly 4. Obchodní název Výrobce
Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:
Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
4EK213 LINEÁRNÍ MODELY
4EK213 LINEÁRNÍ MODELY Úterý 11:00 12:30 hod. učebna SB 324 Mgr. Sekničková Jana, Ph.D. 2. PŘEDNÁŠKA MATEMATICKÝ MODEL ÚLOHY LP Mgr. Sekničková Jana, Ph.D. 2 OSNOVA PŘEDNÁŠKY Obecná formulace MM Množina
ŘEŠENÉ ÚLOHY 25.2.2010 I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í 117 Příklad 9.4 Vytvoření dendrogramu neuroleptik Neuroleptika redukují nežádoucí účinky přebytečného dopaminu a liší se ve
4.6.2 Analýza shluků CLU
462 Analýza shluků CLU Analýza shluků (Cluster analysis CLU) patří mezi metody které se zabývaí vyšetřo-váním podobnosti vícerozměrných obektů (t obektů u nichž e změřeno větší množství proměnných) a eich
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM
Univerzita Pardubice 8. licenční studium chemometrie
Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí
Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat při managementu jakosti Semestrální práce: METODY S LATENTNÍMI PROMĚNNÝMI A KLASIFIKAČNÍ
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
StatSoft Shlukování podobných
StatSoft Shlukování podobných v softwaru STATISTICA Tímto článkem nakoukneme do oblasti statistiky zabývající se shlukováním. Tedy situací, kdy chcete data/objekty nějak seskupit na základě jejich podobnosti.
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Porovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem
3.4 Určení vnitřní struktury analýzou vícerozměrných dat
3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková
SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat
UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH
Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )
Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Zadání : Titanová běloba (TiO ) se vyrábí ve dvou základních krystalových modifikacích - rutilové a anatasové.
SYLABUS PŘEDNÁŠKY 10 Z GEODÉZIE 1
SYLABUS PŘEDNÁŠKY 10 Z GEODÉZIE 1 (Souřadnicové výpočty 4, Orientace osnovy vodorovných směrů) 1. ročník bakalářského studia studijní program G studijní obor G doc. Ing. Jaromír Procházka, CSc. prosinec
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární
Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2
Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Cvičná bakalářská zkouška, 1. varianta
jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KLASIFIKACE
4EK213 LINEÁRNÍ MODELY
4EK213 LINEÁRNÍ MODELY Úterý 11:00 12:30 hod. učebna SB 324 3. přednáška SIMPLEXOVÁ METODA I. OSNOVA PŘEDNÁŠKY Standardní tvar MM Základní věta LP Princip simplexové metody Výchozí řešení SM Zlepšení řešení
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté
Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté polynomy pro případ dvou uzlových bodů ξ 1 = 1 a ξ 2 = 4. Experimentální body jsou x = [0.2 0.4 0.6 1.5 2.0 3.0
Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
Počítačová analýza vícerozměrných dat
Seminární práce Vypracoval: Ing.Jiří Raška Obsah: Zadání 3 Průzkumová analýza 5 Symbolové grafy 8 Odhalení struktury ve znacích a objektech 11 Metoda hlavních komponent 16 Shluková analýza 22 Závěr 27
Plánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
Úloha 1: Lineární kalibrace
Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
6 Ordinální informace o kritériích
6 Ordinální informace o kritériích Ordinální informací o kritériích se rozumí jejich uspořádání podle důležitosti. Předpokládejme dále standardní značení jako v předchozích cvičeních. Existují tři základní
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro
Statistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)
Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií
Hodina 50 Strana /4 Gymnázium Budějovická Volitelný předmět Ekonomie - jednoletý BLOK ČÍSLO 8 Hodnocení akcií Předpokládaný počet : 9 hodin Použitá literatura : František Egermayer, Jan Kožíšek Statistická
Neparametrické metody
Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot
INDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Matematika Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady 4. ročník a oktáva 3 hodiny týdně PC a dataprojektor, učebnice
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.
Popisná statistika Slovní popis problému Naším cílem v této úloze bude stručně a přehledně charakterizovat rozsáhlý soubor dat - v našem případě počty bodů z prvního a druhého zápočtového testu z matematiky.
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
x T 1 matici 45.53 25.22 57.81 12.39 11.88 36.09 22.15 7.52 &0.31 20.94 27.97 48.06 1.41 16.77 66.21 S 1 kovarianční matici 74.42 &9.52 37.
Vzorová úloha 4.7 Užití lineární diskriminační funkce Předpokládejme, že máme data o 2 třídách objektů tibetských lebek v úloze B4.14 Aglomerativní hierarchické shlukování při analýze lebek Tibeťanů: prvních
Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:
Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami
Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Ivana Kozlová. Modely analýzy obalu dat
Západočeská univerzita v Plzni Fakulta aplikovaných věd SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU MATEMATICKÉ MODELOVÁNÍ Ivana Kozlová Modely analýzy obalu dat Plzeň 2010 Obsah 1 Efektivnost a její hodnocení 2 2 Základní
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
1. Přednáška. Ing. Miroslav Šulai, MBA
N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy
vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291
Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených
31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě
31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
4. Zpracování číselných dat
4. Zpracování číselných dat 4.1 Jednoduché hodnocení dat 4.2 Začlenění dat do písemné práce Zásady zpracování vědecké práce pro obory BOZO, PÚPN, LS 2011 4.1 Hodnocení číselných dat Popisná data: střední
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech
Neuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
NADSTAVBOVÝ MODUL MOHSA V1
NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je
OHYB (Napjatost) M A M + qc a + b + c ) M A = 2M qc a + b + c )
3.3 Řešené příklady Příklad 1: Pro nosník na obrázku vyšetřete a zakreslete reakce, T (x) a M(x). Dále určete M max a proveďte dimenzování pro zadaný průřez. Dáno: a = 0.5 m, b = 0.3 m, c = 0.4 m, d =
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát Obsah Úvod... 3 1 Charakterizujte
Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat
Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor
Popisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Inovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÉHO ŠETŘENÍ ANALÝZA VÝSLEDKŮ VYUŢITÍ PROJEKTOVÉHO ŘÍZENÍ V ESN Příjmení a jméno: Hrdá Sabina, Kovalčíková
Téma 9: Vícenásobná regrese
Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti. Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Zpracovávaná data jsou
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE