4.6.2 Analýza shluků CLU

Rozměr: px
Začít zobrazení ze stránky:

Download "4.6.2 Analýza shluků CLU"

Transkript

1 462 Analýza shluků CLU Analýza shluků (Cluster analysis CLU) patří mezi metody které se zabývaí vyšetřo-váním podobnosti vícerozměrných obektů (t obektů u nichž e změřeno větší množství proměnných) a eich klasifikací do tříd čili shluků Hodí se zeména tam kde obekty proevuí přirozenou tendenci se seskupovat Podle způsobu shlukování se postupy dělí na hierarchické a nehierarchické Hierarchické se dělí dále na aglomerativní a divizní Hierarchické postupy sou založeny na postupném spoování obektů a eich shluků do dalších větších shluků eprve se vypočte základní matice vzdáleností mezi obekty U aglomerativního shlukování se dva obekty eichž vzdálenost e nemenší spoí do prvního shluku a vypočte se nová matice vzdáleností v níž sou vynechány obekty z prvního shluku a naopak tento shluk e zařazen ako celek Celý postup se opakue tak dlouho dokud všechny obekty netvoří eden velký shluk nebo dokud nezůstane určitý předem zadaný počet shluků Divizní postup e obrácený Vychází se z množiny všech obektů ako ediného shluku a eho postupným dělením získáme systém shluků až skončíme ve stadiu ednotlivých obektů Výhodou hierarchických metod e nepotřebnost informace o optimálním počtu shluků v procesu shlukování; tento počet se určue až dodatečně Při shlukování vznikaí dva základní problémy: (a) způsob měření vzdáleností mezi obekty I když existue celá řada měr vzdáleností (vícerozměrných metrik) nečastěi se užívá euklidovská metrika která e přirozeným zobecnením běžného pomu vzdálenosti; (b) volba vhodné shlukovací procedury dle zvoleného způsobu metriky Metody metriky shlukování sou Metoda průměrová (Average): vzdálenost dvou shluků se počítá ako průměr z možných mezishlukových vzdáleností dvou obektů kdy se mezishlukovou vzdáleností obektů rozumí vzdálenost dvou obektů z nichž každý patří do iného shluku ebližší sou shluky které maí nemenší průměrnou vzdálenost mezi všemi obekty ednoho a všemi obekty druhého shluku Dendrogramy maí strukturu podobnou dendrogramům metody nevzdáleněšího souseda pouze spoení e provedeno při obvykle vyšších vzdálenostech Metoda centroidní (Centroid): vzdálenost shluků se počítá ako euklidovská vzdálenost eich těžišť ebližší sou ty shluky které maí nemenší vzdálenost mezi těžišti Metoda nebližšího souseda (Single earest): kritériem pro vytváření shluků e minimum z možných mezishlukových vzdáleností obektů Metoda tvoří nový shluk na základě nekratší vzdálenosti mezi shluky (či obekty) a neumí proto rozlišit špatně separované shluky Je zde silná tendence ke tvorbě řetězců Jsou-li obekty na opačních koncích řetězce zcela nepodobné řetězování může vést až ke zcela mylným závěrům a druhé straně e to edna z mála metod která umí roztřídit a rozlišit i neeliptické shluky Metoda nevzdáleněšího souseda (Complete Furthest): počítá vzdálenost dvou shluků ako maximum z možných mezishlukových vzdáleností obektů Probíhá podobně ako metoda Single s ednou důležitou výimkou: vzdálenost (či nepodob-nost) mezi shluky e určována vzdáleností (či nepodobností) mezi dvěma nevzdá-leněšími obekty každý přitom e z iného shluku Proto všechny obekty ve shluku sou klasifikovány na základě maximální vzdálenosti či minimální podobnosti vůči obektům ve druhém shluku Metoda mediánová (Median): de o isté vylepšení centroidní metody neboť se snaží odstranit rozdílné váhy které centroidní metoda dává různě velkým shlukům Wardova metoda e založena na minimalizaci ztráty informace při spoení dvou tříd V každém kroku e uvažován takový možný pár obektů (či shluků) aby suma čtverců odchylek od střední hodnoty ESS = (x i & x) 2 dosáhla při vzniku shluku svého minima ehierarchické shlukovací metody: u metody typických bodů (Seeded) uživatel na základě svých věcných znalostí určí které obekty maí být typickými představiteli nově vytvořených shluků a systém rozdělí obekty do shluků podle eich euklidovské vzdálenosti od těchto typických obektů V nehierarchických shlukovacích metodách e počet shluků obvykle předem dán i když se v průběhu výpočtu může změnit Zůstává-li počet shluků zachován hovoříme o nehierarchických metodách s konstantním počtem shluků v opačném případě o nehierarchických metodách s optimalizovaným počtem shluků ehierarchické metody zahrnuí dvě základní varianty - optimalizační metody a analýzu módů medoidů Optimalizační nehierarchické metody hledaí optimální rozklad přeřazováním obektů ze shluku do shluku s cílem minimalizovat nebo maximalizovat něakou charakteristiku rozkladu Metody označované ako analýza módů medoidů představuí hledání rozkladu do shluků kde shluky sou chápány ako místa se zvýšenou koncentrací obektů v m-rozměrném prostoru proměnných Místo výchozí matice vzdáleností může být v některých případech ke shlukování použita i korelační matice n

2 (a) Hierarchické shlukování Analýza shluků patří mezi metody zabývaící se vyšetřováním podobnosti vícerozměrných obektů (t obektů u nichž e změřeno větší množství proměnných) a eich roztříděním do tříd čili shluků Hodí se zeména tam kde obekty proevuí přirozenou tendenci se seskupovat Analýzou shluků budeme sledovat a vyšetřovat ednak podobnost obektů analyzovanou pomocí dendrogramu obektů a ednak podobnost proměnných analyzovanou pomocí dendrogramu proměnných Dendrogram diagram shluků nebo vývoový strom se obeví pouze v případě zadání hodnot původních proměnných a nikoli při zadání maticí vzdáleností Výsledkem e zobrazení hodnot ve dvorozměrném prostoru kde osy tvoří zadané proměnné Obeví se také obkroužení obektů v ednotlivých shlucích Dendrogram podobnosti obektů e standardní výstup hierarchických shlukovacích metod ze kterého e patrná struktura obektů ve shlucích Dendrogram podobnosti proměnných odhalue nečastěi dvoice či troice (obecně m-tice) proměnných které sou si velmi podobné a silně spolu koreluí Odhalue proměnné které sou ve společném shluku které sou si tím pádem značně podobné a které sou také vzáemně nahraditelné To má značný význam při plánování experimentu a respektování úsporných ekonomických kritérií ěkteré vlastnosti (či proměnné) není třeba vůbec měřit protože sou snadno nahraditelné inými a nepřispívaí do celku velkou vypovídací schopností Míra věrohodnosti: dendrogram lze sestroit celou řadou technik Prvním kritériem věrohodnosti čili těsnosti proložení při volbě nelepšího dendrogramu ež nelépe odpovídá struktuře obektů a proměnných mezi obekty e kofenetický korelační koeficient CC Je to Pearsonův korelační koeficient mezi skutečnou a predikovanou vzdáleností založenou na dendrogramu Je-li tato hodnota větší než 075 e obvykle nulová hypotéza o dané struktuře zamítnuta Hodnota 09 svědčí že dendrogram vůbec neodpovídá skutečné struktuře dat Druhým kritériem těsnosti proložení e kritérium delta které měří stupeň přetvoření distorze spíše než stupeň podobnosti ritérium delta e definováno vztahem ) A ' <k <k *d k & d ( k *1/A (d ( k )1/A * kde A = 05 nebo 1 a d i e vzdálenost získaná z dendrogramu Jsou žádoucí hodnoty delta blízké nule Řada autorů ukázala že metoda průměrová vede obvykle k nelepšímu dendrogramu Postup shlukové analýzy 1 Volba vstupní databáze: zadává se typ dat (a) proměnných (sloupců) analyzovaných obektů (řádků) (b) sloupců matice vzdáleností (c) sloupců korelační matice 2 Volba druhu veličin: zadává se typ užitých veličin v datech která mohou být (a) intervalová (b) ordinální (c) nominální (d) symetrická binární (e) asymetrická binární (f) poměrová 3 ázev obektů: zadání pomenování či men ednotlivých obektů umístěných v řádcích které se mohou obevit v dendrogramu místo indexů (pořadových čísel) obektů 4 Typ shlukovací techniky: volba metody z možností: ednoduchá průměrová (Average) skupinového průměru centroidní (Centroid) nebližšího souseda (Single earest) nevzdáleněšího souseda (Complete Furthest) mediánová (Median) Wardova a flexibilní 5 Volí se druh užité vzdálenosti: vzdálenosti mohou být Eukleidova metrika čili geometrická vzdálenost Hammingova metrika čili Manhattanská vzdálenost zobecněná Minkowskiho metrika a Mahalanobisova metrika 6 Postup linkování a zařazení do shluků: tabelární výpočet vzdáleností (nebo podobností) mezi obekty a shluky a postupné vytváření dendrogramu Postupy sou (1) metodou hierarchického shlukování (2) shlukování metodou nebližších středů (3) shlukování metodou středů-medoidů a (4) metodou fuzzy shlukování 7 Výpočet skutečných a predikovaných vzdáleností v dendrogramu: sou porovnány skutečné vzdálenosti mezi obekty a vypočtené vzdálenosti (predikované) v dendrogramu eich rozdíl a konečně i procentuální vyádření tohoto rozdílu 8 Hledání nelepší techniky tvorby dendrogramu: dle bodu 4 a 5 lze k sestroení optimálního dendrogramu kombinovat řadu technik Rozhodčím kritériem věrohodnosti sou především kofenetický korelační koeficient CC obě míry těsnosti proložení delta ale také další kritéria: mezishluková suma čtverců WSS procento variace PV silueta s průměrná silueta SC Wilkova statistika λ rozdělovací koeficienty Dunnův F(U) a aufmanův D(U) A

3 9 Vysvětlení nelepšího dendrogramu podobností obektů: interpretace optimálního dendrogramu podobnosti ednotlivých obektů e prvním a nedůležitěším cílem shlukové analýzy 10 Vysvětlení nelepšího dendrogramu podobností proměnných: interpretace optimál-ního dendrogramu podobnosti ednotlivých proměnných odhalí souvislosti ve struktuře obektů analyzované databáze a e druhým důležitým cílem shlukové analýzy (b) Shlukování metodou nebližších středů (-Means) Při vytváření malého počtu shluků z velkého počtu obektů se eví neužitečněší shlukovací metodou Vyžadue spoité proměnné a především bez odlehlých hodnot Diskrétní data mohou být rovněž analyzována ale mohou způsobit problémy Princip metody spočívá v rozdělení n obektů o m proměnných do k shluků tak že mezishluková suma čtverců e přitom minimalizována Jelikož počet možných uspořádání e enormě veliký není praktické očekávat vždy nelepší řešení Algoritmus nalezne spíše optimum lokální než globální Je to takové uspořádání shluků kdy iž přemístění obektu z ednoho shluku do druhého nezpůsobí snížení sumy čtverců Algoritmus pracue opakovaně startue vždy z iného počátečního uspořádání akonec vybere optimální řešení ze všech možných dosažených uspořádání shluků Uživatel zadává počet shluků ež maí být nalezeny Pak sou vytvořeny prostorové shluky nalezením souboru středů shluků tak že každý obekt e přiřazen do ednoho shluku načež sou určeny nové shluky a celý proces se opakue Předpokládeme n obektů rozdělených do k shluků Pak k-tý shluk obsahue n obektů aždý obekt e v ednom řádku popsán m proměnnými Chyběící hodnota i-té proměnné v -tém řádku u k-tého shluku e označena δ Data x sou předem standardizována a označena z ik i i Počáteční přiblížení ovlivňue konečné uspořádání shluků Proto algoritmus pro každý pokus zcela náhodně přiřazue každý obekt ednomu shluku Toto uspořádání e pak optimalizováno Pokus nastartovat proces z rozličných náhodných uspořádání vysoko zvýší pravděpodobnost nalezení globálního optima počtu shluků ritérium věrohodnosti: de o kritérium těsnosti proložení které e založeno na srovnání rozličných konfigurací shluků a vychází z mezishlukové sumy čtverců WSS definované vztahem WSS ' nm nm & m k m n k '1 (1 & * ik )(y i & c ik ) 2 kde c e střední hodnota (průměr) i-té proměnné v k-tém shluku Procento variace (proměnlivosti) e definováno ik vztahem: PV ' 100% WSS WSS 1 Chyběící data: lze řídit vypouštění obektů s chyběícími hodnotami proměnných pomocí procenta chyběících hodnot u proměnných Obekty které maí více chyběících proměnných než dovolené procento sou z další analýzy vypuštěny (c) Shlukování metodou středů-medoidů Medoid čili střed shluku e střední obekt pro který platí že průměrná vzdálenost k ostatním obektům v tomto shluku e minimální Je-li požadováno k shluků bude existovat také k medoidů Po nalezení medoidů sou data klasifikována do shluků vždy okolo nebližšího medoidu Medoidy a shluky se vytvářeí na základě vzdáleností čili nepodobností (dissimilarities) Proměnné shluku Druhů proměnných e celá řada: Intervalové sou spoité kladné či záporné v lineární škále např výška hmotnost cena teplota čas atd Ordinální sou pořadová čísla stupnice hodnotící něakou vlastnost např silný nesouhlas (5) nesouhlas (4) neutrální (3) souhlas (2) a silný souhlas (1) Poměrové sou kladné hodnoty kdy vzdálenost mezi dvěma čísly e stená když i eich poměr e stený např mezi 3 a 30 e stená ako mezi 30 a 300 chemická koncentrace intenzita záření absorbance atd ominální sou proměnné které vyadřuí pouze kvalitu a nikoliv kvantitu např PSČ rasa barva název města atd Symetrické binární: maí dvě možnosti obvykle ano (1) ne (0) Asymetrické binární: přítomnost či nepřítomnost zřídka se vyskytuící události kdy nepřítomnost není tak důležitá např osoba má izvu na tváři a tím e lépe identifikovatelná

4 Späthova metoda Metoda minimalizue účelovou funkci přemísťováním obektů z ednoho shluku do druhého Začíná u počátečního uspořádání shluků algoritmus pak nade lokální minimum inteligentním přesouváním obektů ze shluku do shluku Jakmile se nepřemístí už žádný obekt metoda terminue Lokální minimum však nemusí být globálním Aby program překonal toto omezení zopakue se několikrát hledání vždy z iného startovacího uspořádání a nelepší uspořádání shluků e nakonec bráno za výsledné Za účelovou funkci se bere celková vzdálenost mezi všemi obekty ve shluku podle vzorce D ' d i kde e celkový počet shluků d i e vzdálenost mezi i-tým a -tým obektem a c e soubor všech obektů ve shluku k Metoda PAM (Partition Around Medoids) Algoritmus se opět pokouší minimali-zovat celkovou vzdálenost D ve dvou krocích: 1 alezne se reprezentativní soubor k obektů První obekt má nekratší vzdálenost ke všem ostatním obektům čili představue střed Pak se k-1 obektů nachází tak že hodnota D e co možná nemenší 2 Možné alternativy polohy k obektů sou vybírány iteračním způsobem Algoritmus vyhledává dosud nezařazené obekty a přemísťue e tak aby se hodnota D snižovala Iterace skončí akmile změny nezpůsobí další snížení hodnoty D Silueta: poskytue klíčovou informaci o dobrém a špatném shluku Hodnota siluety s se vypočte postupem: 1 Obekt i e ve shluku A a má průměrnou vzdálenost a ke všem obektům ve svém shluku Je-li ve shluku A ediný obekt e a = 0 2 Sousední shluk B obsahue obekty které sou nebližší k obektu i ve shluku A a b e průměrná vzdálenost mezi obektem i a všemi obekty ve shluku B 3 Silueta s obektu i se vyčíslí následovně: když shluk A obsahue pouze eden obekt e s = 0 dyž a < b e s = 1 - a/b dyž a> b e s = b/a - 1 dyž a = b e s = 0 Silueta se vyčíslí pro každý obekt Hodnota siluety se mění od -1 do +1 a e mírou úspěšné klasifikace do shluků při porovnání vzdáleností uvnitř shluku A se všemi vzdálenostmi obektů nebližšího souseda B dle pravidla: 1 Je-li s blízko +1 obekt i e dobře klasifikován do shluku A protože eho vzdálenosti k ostatním obektům v tomto shluku sou podstatně kratší než vzdálenosti k obektům nebližšího souseda B 2 Je-li s blízko nule obekt i se nachází kdesi uprostřed mezi shluky A a B a čistě náhodou byl přiřazen do shluku A 3 Je-li s blízko -1 obekt i e špatně klasifikován Vzdálenosti k ostatním obektů ve svém shluku sou mnohem větší než vzdálenosti k obektům nebližšího souseda B Otázkou pak e proč byl vlastně zařazen do shluku A Určení počtu shluků Přehlednou statistikou e průměrná silueta s počítaná přes všechny obekty Tato hodnota sumarizue ak těsně shlukové uspořádání tato prokládá analyzovaná data Snadný způsob nalezení správného počtu shluků spočívá v nalezení takového počtu který maximalizue průměrnou siluetu Označme maximální hodnotu průměrné siluety všech shluků k symbolem SC a pak budeme rozlišovat následuící typy shlukových uspořádání: i0c 0c SC od 071 do 100 od 051 do 070 od 026 do 050 od -100 do 025 Vysvětlení uspořádání do shluků Silná a dobrá struktura Ještě přiatelná struktura Slabá struktura asi umělá Je třeba naít novou lepší aprosto nevhodná struktura Diagnostika dobrého shlukování Čárový diagram siluet uspořádáný podle stoupaícího počtu shluků a hodnoty siluety dobře prokazue nelepší uspořádání shluků Důležitým kritériem e kladná hodnota siluety s která by měla být také větší než 050 Je-li silueta pro některé shluky menší než 050 nebo dokonce záporná sou takové shluky nepravděpodobné a měli bychom hledat iné Další analýza struktury obektů Po úspěšném nalezení počtu shluků a nelepšího shlukového uspořádání by měla následovat diskriminační analýza která statisticky testue ak dobře byly obekty (řádky) roztříděny do shluků Testování se provádí pomocí Wilkovy statistiky λ Vedle diskriminační analýzy sou sestroeny různé rozptylové diagramy ve kterých e počet shluků použit ako důležitá proměnná Teprve diagramy odhalí a vysvětlí pravý smysl klasifikační analýzy do shluků

5 (d) Fuzzy shlukování Fuzzy shlukování zobecňue všechny shlukovací metody tím že umožňue shlukování ednoho obektu do více než ednoho shluku zatímco v běžném shlukování e každý obekt členem pouze ednoho shluku Předpokládeme že máme shluků a budeme definovat soubor proměnných m m m které představuí pravděpodobnost že i1 i2 i obekt i e klasifikován do k-tého shluku V běžném shlukovacím algoritmu e edna z těchto proměnných rovna edné a zbytek roven nule To představue skutečnost že takový algoritmus klasifikue každý obekt do ednoho a právě ednoho shluku Ve fuzzy shlukování e účast obektu čili přítomnost obektu rozdělena do všech shluků Proměnná m může ik zde být rovna 1 nebo 0 a suma těchto hodnot musí být rovna 1 azveme tento process fuzzifikací shlukové konfigurace Proces má výhodu že nenutí obekt aby byl zařazen pouze do ediného specifického shluku evýhodou však e že se zde obevue mnohem více informací které musí být vysvětleny Fuzzy algoritmus minimalizue účelovou funkci C která e funkcí neznámých účastí ve shluku a dále funkcí i vzdáleností dle vztahu C ' m 2 ik m 2 k d i '1 kde m ik představue neznámou účast obektu i v k-tém shluku k a d i e vzdálenost mezi obekty i a Účasti ve shluku sou předmětem omezení a musí být nezápornými čísly a dále účasti pro eden obekt musí být v sumě rovny 1 To znamená že účasti maí stená omezení ako by to byly pravděpodobnosti že individuum patří do isté skupiny Míra věrohodnosti: edním z neobtížněších úkolů ve shlukové analýze e nalezení vhodného počtu shluků Velikost fuzzifikace v řešení se dá změřit Dunnovým rozdělovacím koeficientem který představue míru ak těsně padne fuzzy řešení na odpovídaící pevné shluky Za pevné shluky budeme považovat klasifikaci každého obektu do shluku který má nevětší účast Dunnův rozdělovací koeficient se vyádří vzorcem 2 '1 m 2 k F(U) ' 1 m 2 ik oeficient leží v intervalu od 1/ do 1 Hodnoty F(U) = 1/ se dosáhne když všechny účasti sou rovny 1/ Hodnota F(U) = 1 platí když pro každý obekt e účast ednotková a zbytek e roven nule Dunnův rozdělovací koeficient může být také normován tak že eho hodnota se mění od 0 (úplně fuzzy) do 1 (pevný shluk) ormovaná verze má tvar: F(U) & (1/) Fc(U) ' 1 & (1/) Další koeficient představue aufmanův rozdělovací koeficient D(U) ' 1 Dc(U) ' (h ik & m ik ) 2 oeficient má hodnotu danou intervalem od D(U) = 0 (pevné shluky) do D(U) = 1-(1/) (úplně fuzzy) ormovaná verze tohoto koeficientu má tvar D(U) 1 & (1/) Oba normované koeficienty Fc(U) a Dc(U) poskytuí dohromady dobrou indikaci optimálního počtu shluků celočíselná hodnota by měla být volena tak že Fc(U) bude nabývat malé a Dc(U) velké hodnoty

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti

Více

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků: Vzorová úloha 4.10 Nalezení shluků hráčů podobných vlastností Použijeme dat úlohy S4.21 Shluky 12 superhvězd košíkové. Následující tabulka dat obsahuje informace o osmi hráčských vlastnostech a aktivitách

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Shluková analýza dat a stanovení počtu shluků

Shluková analýza dat a stanovení počtu shluků Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele 1 Obsah přednášy 1. Shluová analýza 2. Podobnost objetů 3. Hierarchicé shluování 4. Nehierarchicé shluování 5. Optimální počet shluů 6. Další metody 2 Učení bez učitele není dána výstupní lasifiace (veličina

Více

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.

Více

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz o rozdělení Testování hypotéz o rozdělení Nechť X e náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládeme, že neznáme tvar distribuční funkce

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

Vztah pravděpodobnosti, statistiky a biostatistiky

Vztah pravděpodobnosti, statistiky a biostatistiky Vztah pravděpodobnosti, statistiky a biostatistiky V této kapitole dáme biostatistiku do kontextu s teorií pravděpodobnosti, z níž biostatistika společně se statistikou vycházeí Cílem e zavést důležité

Více

1. Úvod do genetických algoritmů (GA)

1. Úvod do genetických algoritmů (GA) Obsah 1. Úvod do genetických algoritmů (GA)... 2 1.1 Základní informace... 2 1.2 Výstupy z učení... 2 1.3 Základní pomy genetických algoritmů... 2 1.3.1 Úvod... 2 1.3.2 Základní pomy... 2 1.3.3 Operátor

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Fakulta chemicko technologická Katedra analytické chemie

Fakulta chemicko technologická Katedra analytické chemie Fakulta chemicko technologická Katedra analytické chemie Licenční studium statistické zpracování dat Analýza vícerozměrných dat Ing. Pavel Valášek Školní rok OBSAH ÚVOD DATA EDA EXPLORATORÍ AALÝZA 4 PCA

Více

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program: Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných

Více

Rekonstrukce křivek a ploch metodou postupné evoluce

Rekonstrukce křivek a ploch metodou postupné evoluce Rekonstrukce křivek a ploch metodou postupné evoluce Univerzita Karlova v Praze Matematicko-fyzikální fakulta petra.surynkova@mff.cuni.cz Přehled Evoluce křivek princip evoluce použití evoluce křivky ve

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Jednotlivé historické modely neuronových sítí

Jednotlivé historické modely neuronových sítí Jednotlivé historické modely neuronových sítí Tomáš Janík Vícevrstevná perceptronová síť opakování Teoretický model obsahue tři vrstvy perceptronů; každý neuron první vrstvy e spoen s každým neuronem z

Více

ρ = 0 (nepřítomnost volných nábojů)

ρ = 0 (nepřítomnost volných nábojů) Učební text k přednášce UFY Světlo v izotropním látkovém prostředí Maxwellovy rovnice v izotropním látkovém prostředí: B rot + D rot H ( r, t) div D ρ rt, ( ) div B a materiálové vztahy D ε pro dielektrika

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Kanonická korelační analýza

Kanonická korelační analýza Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle

Více

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Zadání : Titanová běloba (TiO ) se vyrábí ve dvou základních krystalových modifikacích - rutilové a anatasové.

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Vícerozměrné statistické metody v biologii

Vícerozměrné statistické metody v biologii Vícerozměrné statistické metody v biologii Danka Haruštiaková, Jiří Jarkovský, Simona Littnerová, Ladislav Dušek Únor 0 Příprava a vydání této publikace byly podporovány proektem ESF č. CZ..07/..00/07.038

Více

Interní norma č /01 Stupeň kotonizace lýkových vláken

Interní norma č /01 Stupeň kotonizace lýkových vláken Předmluva Text vnitřní normy byl vypracován v rámci Výzkumného centra Textil LN00B090 a schválen oponentním řízením dne 7.2.2004. Předmět normy Norma stanoví postup měření a hodnocení stupně kotonizace

Více

Univerzita Pardubice 8. licenční studium chemometrie

Univerzita Pardubice 8. licenční studium chemometrie Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

http: //meloun.upce.cz,

http: //meloun.upce.cz, Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,

Více

Vysoká škola báňská Technická univerzita Ostrava. Fakulta metalurgie a materiálového inženýrství

Vysoká škola báňská Technická univerzita Ostrava. Fakulta metalurgie a materiálového inženýrství Vysoká škola báňská Technická univerzita Ostrava Fakulta metalurgie a materiálového inženýrství Katedra automatizace a počítačové techniky v metalurgii DIPLOMOVÁ PRÁCE Aplikace fuzzy shlukování na řízení

Více

Modelování montážní linky

Modelování montážní linky Modelování montážní linky Geza Dohnal 1. Montážní linka S rozvoem hromadné výroby e velice těsně spoen rozvo a automatizace výrobních a montážních linek. Tyto linky se od sebe obecně liší ednak topologií

Více

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

3.4 Určení vnitřní struktury analýzou vícerozměrných dat 3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková

Více

Rozhodovací procesy v ŽP VÍCEKRITERIÁLNÍ HODNOCENÍ

Rozhodovací procesy v ŽP VÍCEKRITERIÁLNÍ HODNOCENÍ Rozhodovací procesy v ŽP Variantní řešení Metoda funkce užitku (vyhodnocení vhodnosti variant) katalog kritérií váha kritérií VÍCEKRITERIÁLNÍ transformační funkce HODNOCENÍ Katedra hydromeliorací a krainného

Více

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 000/00 Michal Marvan 3. Matice lineárního zobrazení V této přednášce budeme používat indexy dvoího druhu:

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21 Příklad 1 Soutěž o nelepší akost výrobků obeslali čtyři výrobci A, B, C, D celkem 26 výrobky. Porota sestavila toto pořadí (uveden pouze původ výrobku od nelepšího k nehoršímu): Pořadí 1 2 3 4 5 6 7 8

Více

NADSTAVBOVÝ MODUL MOHSA V1

NADSTAVBOVÝ MODUL MOHSA V1 NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Nehierarchické shlukování

Nehierarchické shlukování Základní informace Následující text je součástí učebních textů předmětu Vícerozměrné statistické metody a je určen zejména pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce ANALÝZA

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Plánování projektu. 3. dubna Úvod. 2 Reprezentace projektu. 3 Neomezené zdroje. 4 Variabilní doba trvání. 5 Přidání pracovní síly

Plánování projektu. 3. dubna Úvod. 2 Reprezentace projektu. 3 Neomezené zdroje. 4 Variabilní doba trvání. 5 Přidání pracovní síly Plánování proektu 3. dubna 2018 1 Úvod 2 Reprezentace proektu 3 Neomezené zdroe 4 Variabilní doba trvání 5 Přidání pracovní síly Problémy plánování proektu Zprostředkování, instalace a testování rozsáhlého

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION

Více

ení spolehlivosti elektrických sítís

ení spolehlivosti elektrických sítís VŠB - TU Ostrava Fakulta elektrotechniky a informatiky Katedra elektroenergetiky, Katedra informatiky Inteligentní metody pro zvýšen ení spolehlivosti elektrických sítís (Program MCA8 pro výpočet metodami

Více

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev NUMERICKÁ KLASIFIKACE http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172 http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický

Více

Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis

Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis Ing. Jitka Svobodová Ing. Jana Pružinová Abstrakt Příspěvek diskutuje možnosti zpracování velkých

Více

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

VÍCEKRITERIÁLNÍ ROZHODOVANÍ VÍCEKRITERIÁLNÍ ROZHODOVANÍ 1 Obsah Typy modelů vícekriteriálního rozhodování Základní pojmy Typy informací Cíl modelů Užitek, funkce užitku Grafické zobrazení Metody vícekriteriální analýzy variant 2

Více

Numerické metody a programování. Lekce 8

Numerické metody a programování. Lekce 8 Numerické metody a programování Lekce 8 Optimalizace hledáme bod x, ve kterém funkce jedné nebo více proměnných f x má minimum (maximum) maximalizace f x je totéž jako minimalizace f x Minimum funkce lokální:

Více

AVDAT Nelineární regresní model

AVDAT Nelineární regresní model AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA Vzorky Druhy druh 1 druh 2 druh 3 vzorek 1 0 1 1 vzorek 2 1 0 0 vzorek 3 0 4 4 vztahy mezi vzorky Q analýza vztahy mezi

Více

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami

Více

Faktorová analýza (FACT)

Faktorová analýza (FACT) Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou

Více

Téma: Průměrný součinitel prostupu tepla

Téma: Průměrný součinitel prostupu tepla Poznámky k zadání: ) Základní pomy éma: Průměrný součinitel prostupu tepla k výpočtu průměrného součinitele prostupu tepla budovy e nutné znát hodnoty součinitele prostupu tepla a plochy všech konstrukcí,

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě

Více

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH

Více

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Úloha 1: Lineární kalibrace

Úloha 1: Lineární kalibrace Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé

Více

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka 2. Statistická terminologie a vyjadřovací prostředky 2.1. Statistická terminologie Statistická jednotka Statistická jednotka = nositel statistické informace, elementární prvek hromadného jevu. Příklady:

Více

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza) ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,

Více

Plánování experimentu

Plánování experimentu Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství 1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí

Více

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.

Více

Vnitřní vazby a skrytá struktura v hutnických datech vícerozměrnou statistickou analýzou

Vnitřní vazby a skrytá struktura v hutnických datech vícerozměrnou statistickou analýzou Vnitřní vazby a skrytá struktura v hutnických datech vícerozměrnou statistickou analýzou Milan Meloun 1, Roman Lisztwan 2 1 Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice,

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB 62 REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB BEZOUŠKA VLADISLAV Abstrakt: Text se zabývá jednoduchým řešením metody nejmenších čtverců v prostředí Matlab pro obecné víceparametrové aproximační funkce. Celý postup

Více

Testy statistických hypotéz

Testy statistických hypotéz Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného

Více

Úvod do lineární algebry

Úvod do lineární algebry Úvod do lineární algebry 1 Aritmetické vektory Definice 11 Mějme n N a utvořme kartézský součin R n R R R Každou uspořádanou n tici x 1 x 2 x, x n budeme nazývat n rozměrným aritmetickým vektorem Prvky

Více