Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Rozměr: px
Začít zobrazení ze stránky:

Download "Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se."

Transkript

1 Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V

2 Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti a dle vybraných vlastností - proměnných. Objekty se často zařazují do skupin: Periodická tabulka prvků (chemie) Taxonomie rostlin a živočichů (zoologie, botanika) Účelem je: popis systematiky (taxonomie) Sumarizace podle jistých kritérií (zjednodušení) Predikce chování Vysvětlení zvláštností (predikce vztahů) Každá klasifikace objektů je závislá na cíli: různé cíle vedou k různým členěním. Klasifikace vyžaduje definici podobnosti resp. různosti objektů. O užitečnosti klasifikace rozhoduje využitelnost výsledků. Je výhodu, pokud existuje teoretické zdůvodnění klasifikace.

3 Typy klasifikace Cíl: zařazení objektů do skupin (tříd) na základě výsledků měření na těchto objektech. Řízená (supervised): třídy jsou předdefinován. Je třeba použít množinu označených objektů (trénovací nebo učící) pro vytvoření klasifikátoru umožňujícího klasifikaci budoucích objektů (diskriminační analýza) Neřízená (unsupervised): třídy jsou neznámé. Je třeba je stanovit na základě informací o objektech. (analýza shluků)

4 Analýza shluků K dispozici je n objektů, každý je popsán pomocí m rysů, proměnných resp. charakteristik. Cílem je zařazení objektů do skupin. Často se požaduje dělení objektů. Hledají se souvislosti v datech. Objasňuje se chování dat. Provádí se předpověď chování Provádí se vizualizace dat ve vhodné soustavě Neřízené učení Jde většinou o ne stochastické metody.

5 Struktura dat Matice dat (dva módy) Matice nepodobnosti (jeden mód) x... x... x 11 1j 1n x... x... x i1 ij in x... x... x n1 nj nn 0 d(2,1) 0 d(3,1) d(3,2) 0 : : : d(n,1) d(n,2) Shlukovací znaky 1) Znaky charakterizující shlukované objekty. 2) Analýza nerozlišuje významné a nevýznamné znaky. 3) Odlišení shluků za použití všech navržených znaků. 4) Na volbě znaků závisí nalezení správných shluků. 5)Výběr znaků, které dostatečně rozlišují mezi objekty.

6 Kvalita shlukování Nepodobost/Podobnost : Podobnost je vyjádřena jako funkce vzdálenosti, která je obecně vhodná metrika : d(i, j) Kvalita shluků je popsána speciálními charakteristikami. Funkce vzdálenosti se obyčejně silně liší pro různé typy speciálních škál dat jako jsou kardinální, booleovské, kategorizované, ordinální a nominální znaky. Pro různé znaky lze použít různé typy váhových koeficientů. Je složité vyjádřit dostatečně podobné nebo dostatečně dobré Podobnost : Podle vzdálenosti 1 a 9 jsou blízké 1, 9 a 7 jsou nepodobné Podle struktury 1 a 7 jsou podobné 1, 7 a 9 jsou nepodobné Vyjádření kvality je obyčejně pouze subjektivní.

7 Vzdálenost objektů I Pro hodnocení podobnosti/nepodobnosti se používají různé typy vzdáleností mezi dvojicemi objektů Populární je Minkowského vzdálenost: dij (, ) = q ( x x + x x x x ) q q q i1 j1 i2 j2 im jm kde i = (x i1, x i2,, x im ) a j = (x j1, x j2,, x jm ) jsou dva m- rozměrné datové objekty a q je celé kladné číslo Pokud je q = 1, je d. Manhattanská vzdálenost dij (, ) = x x + x x x x i1 j1 i2 j2 im jm

8 Vzdálenost objektů II Pokud je q = 2, je d tzv. Eukleidovská vzdálenost dij x i x j x i x j x i x j (, ) = ( ) m m Vlastnosti d(i,j) 0 d(i,i) = 0 y1 Euklidovská vzdálenost A D = (y 2 -y 1 )+(x 2 -x 1 ) y 2 -y 1 y1 Manhattanovská vzdálenost A D = Iy 2 -y 1 I+Ix 2 -x 1 I y 2 -y 1 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) y2 x 2 -x 1 B y2 x 2 -x 1 B x1 x2 x1 x2 Je možné použít také vážené vzdálenosti, Pearsonův korelační koeficient a jiné míry nepodobnosti.

9 Vzdálenost objektů III Tětivová vzdálenost (chord distance) m = dij (, ) = 2 1 x x ik jk k 1 m m 2 2 x ik x jk k= 1 k= 1 Mahalanobisova vzdálenost pro silně korelované znaky x i x j ) V případě tří znaků je tětivová vzdálenost přímou vzdáleností dvou bodů na povrchu koule s jednotkovým poloměrem a počátkem v těžišti. Problém všech vzdálenostních měr: při použití nestandardizovaných dat mohou při různých jednotkách měření vyjít značné rozdíly mezi různými typy vzdáleností. dij (, ) T = x x C x x ( ) 1 ( ) i j i j C (m x m) kovarianční matice pro m znaků

10 Vzdálenost objektů IV Korelační míry párové korelační koeficienty r ij mezi dvojicí objektů x i a x j pro m znaků ri (, j ) = k = m ( xik xi )( xjk xj ) 1 m m 2 ( xik xi ) ( xjk xj ) k= 1 k= 1 Silná korelace r ij 1 značí vysokou podobnost Slabá korelace r ij 0 značí nízkou podobnost 2 x 1 x 2 x 3 x 1 x 2 x 3

11 Podobnost pro binární proměnné (míry asociace) Kontingenční tabulka (odezva typu 0,1) Objekt j 1 0 suma Objekt i 1 a b a+ b 0 c d c+ d suma a+ c b+ d m Sokal Michener koeficient shody Hamman dij (, ) = a+ d a + b + c + d dij (, ) = a+ d b c a + b + c + d dij Russel Rao Rogers Tanimoto dij (, ) = d a + b + c + d dij (, ) = a+ d a + 2b + 2c + d a..pozitivní shoda tj. počet znaků, kde oba objekty mají hodnotu 1. d negativní shoda tj. počet znaků, kde oba objekty mají hodnotu 0. c. počet znaků, kde objekt i má hodnotu 0. a objekt j hodnotu 1 b počet znaků, kde objekt i má hodnotu 1. a objekt j hodnotu 0 (, ) = Korelační koeficient ad bc ( a+ b)( c+ d)( a+ c)( b+ b) Soerensen dij (, ) = 2a 2a+ b+ c

12 Podobnost mezi binárními proměnnými - příklad jméno pohlaví horečka kašel Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Pohlaví je symetrický atribut Ostatní jsou asymetrické binární atributy Nechť M, Y a P jsou rovny 1, a N, F je rovno 0 Jack Mary 1 0 suma suma Sokalův koeficient d(jack, Mary) = (2+3)/7 = Russel Rao koeficient d(jack, Mary) = (3)/7 =

13 Podobnost pro nominální proměnné Jde o zobecnění binárních proměnných pro více stavů např. barvy, značky aut, typ technologie atd. Metoda 1: Jednoduchá shoda p : počet shod, m : celkový počet znaků (proměnných) dij (, ) = m p m Metoda 2: převedení na binární proměnné Každý z M nominálních stavů je nová binární proměnná

14 Ordinální proměnné Ordinální proměnná je diskrétní nabývající konečného počtu stavů Důležité je uspořádání (pořadí) od nejhoršího k nejlepšímu Lze je zpracovat podobně jako spojité proměnné náhrada hodnoty x ij i-tého objektu a j-tého znaku odpovídajícími pořadími p ij p ij {1,..., M } mapování rozmezí každého znaku do intervalu [0, 1] náhradou i tého objektu pro j tý znak veličinou z ij p = M ij j j 1 1 Výpočet míry nepodobnosti pro z ij jako pro spojité proměnné

15 Kardinální proměnné Je možné použít všech typů vzdáleností. Protože jsou jednotlivé znaky v různých jednotkách (rozmezí) je vhodná standardizace dat. Výhodné je použití průměrné absolutní odchylky pro j tý znak: Výpočet z skóre s = n 1 x x aj n ij j z ij i= 1 = Průměrná absolutní odchylka je robustnější než směrodatná odchylka. x x s ij aj j

16 Předpoklady analýzy shluků Analýza shluků je objektivní kvantifikace strukturních zvláštností sledovaných objektů. Nejsou zde požadavky na normalitu, linearitu, nebo homoskedasticitu. Dva kritické předpoklady: Reprezentativnost výběru objektů Nalezené shluky mají odpovídat struktuře populace. Odlehlé objekty mohou způsobit vznik nevhodných shluků, které negativně ovlivní odhad struktury objektů. Vliv multikolinearity Multikolineární znaky jsou implicitně váženy intenzivněji. V případě silné multikolinearity je možno snížit počet znaků nebo použít Mahalanobisovu vzdálenost.

17 Problémy s definicí shluků

18 Základní přístupy ke shlukování Dělící (nehierarchické) Konstrukce různých skupin objektů (shluků) a výběr nejvhodnější podle zadaného kritéria. Hierarchické algoritmy: Konstrukce hierarchického rozkladu množiny objektů podle vhodného kritéria Rozlišovací kritérium: maximalizace rozdílů mezi shluky, Proměnlivost mezi shluky vůči proměnlivosti uvnitř shluků. Test: poměr rozptylu mezi shluky vůči rozptylu uvnitř shluků

19 Nehierarchické shlukování základy Dělící postupy: Celkem n objektů se dělí do k shluků nalezených podle zvoleného kritéria. Počet shluků je předem zvolen. Globální optimalita: hodnocení všech možných kombinací objektů ve shlucích Heuristické metody: k-means a k-medoids algoritmy k-means (MacQueen 67): Každý shluk je representován svým středem (těžištěm) k-medoids resp. PAM (Partition around medoids) (Kaufman & Rousseeuw 87): Každý shluk je representován jedním objektem, který v něm leží.

20 Nehierarchické shlukování postup 1. Zadání zárodku shluku (= počátečního středu shluku). 2. Objekty ležící uvnitř zadané vzdálenosti jsou do shluku zařazeny. 3. Zadání zárodku dalšího shluku a pokračování krokem 2. Postupy K-means shlukování (nejbližších středů, těžišť) (a) Sekvenční práh: začíná se volbou jednoho zárodku a zahrnují se všechny objekty uvnitř dané vzdálenosti. Dále je vybrán zárodek druhého shluku, atd. (b) Paralelní práh: vybírá se několik zárodků současně a objekty se zařazuje podle prahové vzdálenosti od nejbližšího zárodku. (c) Optimalizace: je možné znovu zařazení objektů. Když se objekt dostane blíže jinému shluku, než se právě nachází, je přeřazen do bližšího shluku.

21 Metoda shlukování K- Means Pro dané k, je k-means algoritmus rozdělen do těchto fází: Rozdělení objektů do k neprázdných podmnožin Výpočet bodů počátku (zárodků) jako centroidů shluků pro dané rozdělení objektů. Centroid je střed (průměrný bod) shluku. Přiřazení objektu do shluku s nejbližším bodem počátku. Návrat na krok 2, dokud se již nerealizuje další přiřazení. Klíčovým problémem je vhodná volba shlukových zárodků. Potíže u zašuměných dat a vybočujících hodnot. Shluky musí mít konvexní tvar. Musí být možné určit průměr. Je nalezeno lokální optimum

22 Shlukování: nejbližší soused Znak 2 Znak 1

23 Shlukování: nejbližší soused Znak 2 Znak 1

24 Shlukování: nejbližší soused Znak 2 Znak 1

25 Shlukování: nejbližší soused Znak 2 Znak 1

26 Shlukování: nejbližší soused Znak 2 Znak 1

27 Shlukování: nejbližší soused Znak 2 Znak 1 Vzdálenost objektu od shluku je definována jako nejmenší vzdálenost mezi tímto bodem a libovolným bodem ve shluku.

28 Metoda shlukování K-Medoids Funguje dobře jen pro malé počty objektů 1. Nalezení počáteční skupiny reprezentujících objeků (medoidů) Medoid - střed shluku, je objekt, pro který platí, že průměrná vzdálenost k ostatním objektům v tomto shluku je minimální. 2. Po nalezení medoidů jsou data klasifikována do shluků vždy okolo nejbližšího medoidu. Medoidy a shluky se vytvářejí na základě vzdáleností d ij. Algoritmus vyhledává dosud nezařazené objekty a přemísťuje je tak, aby se hodnota D snižovala. Jako účelová funkce se bere celková vzdálenost mezi všemi objekty ve shluku podle vzorce n D = j= 1 i c k j c k kde k je celkový počet shluků, d je vzdálenost mezi i-tým a j-tým objektem a c k udává všechny objekty ve shluku l. d ij

29 Celková cena za výměnu t i j h C jih = d(j, h) - d(j, i) h i t C jih = d(j, t) - d(j, i) j t j h i C jih = i h t C jih = d(j, h) - d(j, t) j Pro všechny dvojice nevybraného objektu h a vybraného objektu i, se určí celková cena za výměnu TC ih Pokud je TC ih < 0, je objekt i nahrazen objektem h Pak je každý nevybraný objekt přiřazen k nejpodobnějšímu medoidu Postup se opakuje až již neproběhne žádná náhrada. TC ih n = j= 1 C jih

30 Hierarchické shlukování I C1 C2 C3 C4 C5 C6.. Data 5 5 Kritéria podobnosti d ij Matice podobnosti (vzdálenosti) Kritéria shlukování Dendrogram

31 Hierarchické shlukování II Jako kritérium pro shlukování se využívá matice vzdáleností. Je třeba definovat kritérium pro ukončení. Algoritmy seskupování a rozdělování Krok 0 Krok 1 Krok 2 Krok 3 Krok 4 a b c d e a b d e c d e a b c d e Krok 4 Krok 3 Krok 2 Krok 1 Krok 0 seskupování (AGNES) rozdělování (DIANA)

32 Hierarchické shlukování III Způsob seskupování: 1. Dva objekty, jejichž vzdálenost je nejmenší se spojí do prvního shluku. 2. Vypočte se nová matice vzdáleností, v níž jsou vynechány objekty z prvního shluku, a tento shluk je pak zařazen jako objekt. 3. Celý postup se opakuje tak dlouho, dokud všechny objekty netvoří jeden velký shluk, nebo dokud nezůstane určitý, předem zadaný počet shluků. Způsob rozdělování: Inverzní postup od jednoho shluku ke shlukům jednoprvkovým

33 Mezi shlukové vzdálenosti Metoda nejbližšího souseda: minimální vzdálenosti mezi objekty dvou shluků Metoda nejvzdálenějšího souseda: maximální vzdálenost mezi objekty dvou shluků Metoda průměrového linkování: průměrná vzdálenost všech objektů v jednom shluku ke všem objektům ve druhém shluku. Wardova metoda: minimalizace přírůstku vnitro shlukové variability VSS (suma čtverců odchylek od průměrů znaků pro všech m objektů). Metoda těžiště: vzdálenost těžišť shluků. Těžiště shluku je průměrná hodnota shlukových znaků. k objektů ve shluku Metoda těžiště

34 Příklad: metoda nejbližšího souseda Data Matice eukleidovských vzdáleností E1 Spojí se objekt 1 a 2, protože jejich vzdálenost je v matici E1 nejmenší. Sestavení matice vzdáleností E2, zbylých objektů od shluku (1, 2). d (1,2).3) = min (d 1,3, d 2,3 ) = min (29, 26)= 26, d (1,2),4) = min (d 1,4, d 2,4 ) = 49, d (1,2),5) = min (d 1,5, d 2,5 ) = 50, Matice vzdáleností E2 Matice vzdáleností E3 další shluk (4, 5).

35 Porovnání mezi shlukových vzdálenosti 1. Skupinový průměr, Kofenetická korelace: 0.987, Delta(0.5): 0.137; 2. Nejbližší soused, Kofenetická korelace: 0.989, Delta(0.5): 0.474; 3. Nejvzdálenější soused, Kofenetická korelace: 0.989, Delta(0.5): ; 4. Wardova metoda, Kofenetická korelace: 0.979, Delta(0.5): Nejbližší soused Nejvzdálenější soused Průměrná vzdálenost Wardova metoda

36 Míry věrohodnosti 1. kritérium těsnosti proložení : kofenetický korelační koeficient CC - nejlépe odpovídá struktuře objektů a znaků mezi objekty, - je to Pearsonův korelační koeficient mezi skutečnou a predikovanou vzdáleností, založenou na dendrogramu. 2. kritérium těsnosti proložení: kritérium delta - měří stupeň přetvoření struktury dat, - je žádoucí, aby hodnoty delta byly blízké nule, kde A = 0.5 nebo 1, d ij je vzdálenost v původní matici vzdáleností a d * ij je vzdálenost získaná z dendrogramu.

37 Porovnání shlukovacích metod (1) Hierarchické metody: a) Hierarchické metody jsou rychlé. b) Hierarchické metody mohou být ovlivněny odlehlými objekty., c) Hierarchické metody nejsou vhodné pro velké počty objektů. (2) Nehierarchické metody: a) Použití nehierarchických metod závisí na schopnosti uživatele vybrat zárodkové body. b) Výsledky nehierarchických metod jsou méně ovlivněny odlehlými body. (3) Kombinace obou metod, hierarchických a nehierarchických: a) Nejprve se hierarchickou metodou určí: počet shluků, profily shlukovaných center a zřetelně odlehlé body. b) Po odstranění odlehlých bodů: zbývající objekty jsou shlukovány nehierarchicky se zárodky z výsledků hierarchické metody.

38 Zatím vše!!!

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Shluková analýza dat a stanovení počtu shluků

Shluková analýza dat a stanovení počtu shluků Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem

Více

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM

Více

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami

Více

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků: Vzorová úloha 4.10 Nalezení shluků hráčů podobných vlastností Použijeme dat úlohy S4.21 Shluky 12 superhvězd košíkové. Následující tabulka dat obsahuje informace o osmi hráčských vlastnostech a aktivitách

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION

Více

Univerzita Pardubice 8. licenční studium chemometrie

Univerzita Pardubice 8. licenční studium chemometrie Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program: Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných

Více

Vnitřní vazby a skrytá struktura v hutnických datech vícerozměrnou statistickou analýzou

Vnitřní vazby a skrytá struktura v hutnických datech vícerozměrnou statistickou analýzou Vnitřní vazby a skrytá struktura v hutnických datech vícerozměrnou statistickou analýzou Milan Meloun 1, Roman Lisztwan 2 1 Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice,

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Nehierarchické shlukování

Nehierarchické shlukování Základní informace Následující text je součástí učebních textů předmětu Vícerozměrné statistické metody a je určen zejména pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Shluková analýza. shlukovací metodě

Shluková analýza. shlukovací metodě Shluková analýza (Cluster analysis, numerická taxonomie,... ) Cíle shlukové analýzy : ne testovací, ale popisné: klasifikace objektů (Q-technika) nebo znaků (R-technika) nalezení typů generování hypotéz

Více

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza) ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2 Shluková analýza Jan Kelbel David Šilhán Obsah 1 Úvod 1 1.1 Formulace úlohy................................. 1 1.2 Typy metod shlukové analýzy.......................... 2 2 Objekty a znaky 2 2.1 Typy znaků....................................

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

4.6.2 Analýza shluků CLU

4.6.2 Analýza shluků CLU 462 Analýza shluků CLU Analýza shluků (Cluster analysis CLU) patří mezi metody které se zabývaí vyšetřo-váním podobnosti vícerozměrných obektů (t obektů u nichž e změřeno větší množství proměnných) a eich

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Miroslav Čepek

Miroslav Čepek Vytěžování Dat Přednáška 4 Shluková analýza Miroslav Čepek Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 14.10.2014 Miroslav Čepek

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

Inovace bakalářského studijního oboru Aplikovaná chemie

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)

Více

http: //meloun.upce.cz,

http: //meloun.upce.cz, Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

odpovídá jedna a jen jedna hodnota jiných

odpovídá jedna a jen jedna hodnota jiných 8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě

Více

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni Kvantifikace dat Pro potřeby statistického zpracování byly odpovědi převedeny na kardinální intervalovou

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele 1 Obsah přednášy 1. Shluová analýza 2. Podobnost objetů 3. Hierarchicé shluování 4. Nehierarchicé shluování 5. Optimální počet shluů 6. Další metody 2 Učení bez učitele není dána výstupní lasifiace (veličina

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Univerzita Pardubice Fakulta ekonomicko-správní Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Bakalářská práce 009 Tuto práci jsem

Více

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

VÍCEKRITERIÁLNÍ ROZHODOVANÍ VÍCEKRITERIÁLNÍ ROZHODOVANÍ 1 Obsah Typy modelů vícekriteriálního rozhodování Základní pojmy Typy informací Cíl modelů Užitek, funkce užitku Grafické zobrazení Metody vícekriteriální analýzy variant 2

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

LINEÁRNÍ REGRESE. Lineární regresní model

LINEÁRNÍ REGRESE. Lineární regresní model LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev NUMERICKÁ KLASIFIKACE http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172 http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický

Více

Rosenblattův perceptron

Rosenblattův perceptron Perceptron Přenosové funkce Rosenblattův perceptron Rosenblatt r. 1958. Inspirace lidským okem Podle fyziologického vzoru je třívrstvá: Vstupní vrstva rozvětvovací jejím úkolem je mapování dvourozměrného

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR KORELACE A REGRESE 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/..00/8.001)

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Kanonická korelační analýza

Kanonická korelační analýza Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba nelineárních regresních modelů v analýze dat Vedoucí licenčního studia Prof. RNDr.

Více

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ Předzpracování ekonomických dat pomocí metod shlukové analýzy Pavel Novák Bakalářská práce 2009 Prohlašuji: Tuto práci jsem vypracoval samostatně. Všechny

Více

Umělé neuronové sítě

Umělé neuronové sítě Umělé neuronové sítě 17. 3. 2018 5-1 Model umělého neuronu y výstup neuronu u vnitřní potenciál neuronu w i váhy neuronu x i vstupy neuronu Θ práh neuronu f neuronová aktivační funkce 5-2 Neuronové aktivační

Více

Tvorba nelineárních regresních

Tvorba nelineárních regresních Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Tvorba nelineárních regresních modelů v analýze dat Zdravotní ústav

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D. Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen

Více

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte

Více

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar Vysoká Škola Báňská Technická Univerzita Ostrava Fakulta Elektrotechniky a Informatiky Katedra Informatiky Metody shlukování 2003 Martin Hynar Obsah Seznam obrázků ii 1 Motivace 1 2 Míra (ne)podobnosti

Více

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná Cíl analýz Odhadnout hodnot

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015

Více

Vícerozm rná analýza dat metodou hlavních komponent a shluk

Vícerozm rná analýza dat metodou hlavních komponent a shluk Vícerozm rná analýza dat metodou hlavních komponent a shluk Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565, 532 10 Pardubice,

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována

Více

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky Drahomír Novák Jan Eliáš 2012 Spolehlivost konstrukcí, Drahomír Novák & Jan Eliáš 1 část 5 Aproximační techniky 2012 Spolehlivost

Více

Prostorová variabilita

Prostorová variabilita Prostorová variabilita prostorová závislost (autokorelace) reprezentuje korelaci mezi hodnotami určité náhodné proměnné v místě i a hodnotami téže proměnné v jiném místě j; prostorová heterogenita je strukturální

Více