Vytěžování znalostí z dat

Rozměr: px
Začít zobrazení ze stránky:

Download "Vytěžování znalostí z dat"

Transkript

1 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 3: Předzpracování dat BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

2 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 2/29 Motivace Data v podobě v jaké jsou uloženy v databázích většinou nejsou vhodná pro analýzu a modelování Mohou být nekompletní, nekonzistentní, obsahovat chybná data Data potřebná k analýze mohou být uložena na různých místech a v různých formátech. Garbagein, Garbageout pokud k modelování použijeme nekvalitní data, tak výsledek bude také nekvalitní.

3 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 3/29 Součásti předzpracování dat Data cleansing Data integration Data reduction -2, 32, 100, 59, , 0.32, 1.00, 0.59, 0.48 Data transformation

4 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 4/29 Předzpracování dat Vstupem předzpracování dat jsou surová data v databázích, datových skladech, souborech Výstupem data ve formě vhodné pro modelování např. trénovací množina ve tvaru matice: instance atributy ID Name address City Zip Phone 1 Alan 1800 Bon Ave. Elk Grove Tom 600 Bender Rd. Sacramento Sam 300 Tent St. San Jose Různé metody požadují různě zpracovaná data

5 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 5/29 Validace dat Cílem je zjistit kvalitu dat a najít chybné hodnoty Pro validaci používáme jakoukoliv externí informaci o hodnotách atributů

6 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 6/29 Kontrola datových typů Kontrola rozsahu atributů Metody validace dat Porovnání hodnot s ostatním instancemi Kontrola konzistence, např. pokud těhotná = ano, tak pohlaví muž

7 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 7/29 Chybějící hodnoty Chybějící hodnota může znamenat, že žádná z možných hodnot není vhodná, nebo že se při sběru dat nezaznamenala Rozlišení těchto případů většinou není jednoduché ID Name Sandwitch Sauce 1 Alan Turkey Sweet Union 2 Tom Ham 3 Sam Beef Thousand Island Tom měl sendvič bez omáčky nebo ji prodavač zapomněl zapsat?

8 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 8/29 Nakládání s chybějícími daty Odstranění instancí s chybějícími hodnotami Nahrazení nulou Nahrazení průměrem/modem atributu Nahrazení průměrem/modem K nejbližších instancí Regresní nebo klasifikační model pro predikci hodnoty atributu

9 Konverze typu atributu Máme různé typy atributů, viz. minulá přednáška Binomiální Nominální Ordinální Numerické Spousta metod nepodporuje všechny typy atributů => pro konkrétní metodu musíme konvertovat atributy na správný typ Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 9/29

10 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 10/29 Nominální -> Binomiální Pro každou různou hodnotu nominálního atributu vytvoříme nový atribut. Kódování 1 z N Počasí Déšť Slunečno Oblačno Počasí = déšť Počasí = slunečno Počasí = oblačno Nelze použít pokud atribut má mnoho různých hodnot. V tom případě můžeme rozdělit hodnoty do skupin a použít pouze skupiny.

11 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 11/29 Diskretizace Převod Numercké-> Nominální Jinak také binning Rozdělení spojité veličiny do několika intervalů Počet intervalů musíme zvolit Teplota Teplota [-,0] [10,20] [0,10] [30, ] [0,10]

12 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 12/29 Equal-widthdiskretizace Rozdělení hodnot do stejně velkých intervalů Velikost intervalu je (Max-Min)/bins Do některých intervalů nemusí spadnout žádná hodnota Nejjednodušší metoda Odlehlé hodnoty mohou způsobit nerovnoměrné rozdělení Není vhodné pro šikmá rozdělení dat

13 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 13/29 Equal-widthdiskretizace Problémy při výskytu odlehlých hodnot: počet lidí plat

14 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 14/29 Také binning by frequency Equal-heightdiskretizace Intervaly jsou zvoleny tak, aby v každém byl pokud možno stejný počet hodnot. Šikmá rozdělení nejsou problém Většinou lepší výsledky než Eqal-width

15 Superviseddiskretizace Další metody Hranice intervalů jsou zvoleny tak, aby nejlépe rozdělovaly data do tříd Diskretizace podle entropie, informačního zisku Více v přednášce o rozhodovacích stromech Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 15/29

16 Normalizace Některé metody pracují pouze s omezeným rozsahem hodnot ( [0,1], [-1,+1]) Například některé typy neuronových sítí Metody založené na vzdálenostech špatně zvládají rozdílné obory hodnot atributů Která instance je nejpodobnější poslední instanci? Počet dětí Roční plat Eukleidovská vzdálenost je menší pro první řádek Pokud je obor hodnot atributu řádově nižší, pak na něm euklidovská vzdálenost prakticky nezávisí Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 16/29

17 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 17/29 Řešením je normalizace Normalizace Počet dětí Roční plat Počet dětí Roční plat ,2

18 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 18/29 Min-maxnormalizace Hodnoty se lineárně transformují do nového oboru hodnot, nejčastěji [0,1] nebo [-1,1] = _ _ + _ Distribuce zůstává stejná Musíme znát minimální a maximální hodnotu Problémy s odlehlými hodnotami

19 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 19/29 Soft-maxnormalizace Nelineární transformace pomocí sigmoidní funkce = Transformace do intervalu [0,1] (pro jiný interval lze posunout) Do vzdálenosti standardní odchylky od průměru jsou data transformována téměř lineárně Data dále od průměru jsou transformována nelineárně Nemusíme znát minimální a maximální hodnotu Odlehlé hodnoty nesnižují rozlišení pro ostatní hodnoty

20 Z-Score Další typy normalizace Normalizace na distribuci s nulovou střední hodnotou a standardní odchylkou 1 = Decimal scaling Posun desetinné čárky, = Logaritmování používané,když se hodnoty atributu liší o více řádů = ( ) Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 20/29

21 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 21/29 Tvorba nových atributů Někdy můžeme vytvořit odvozené atributy, které pomohou ke zlepšení modelu výška šířka výška šířka poměr , , například z atributů výška a šířka obrázku na webu můžeme vytvořit nový atribut poměr stran

22 Redukce počtu instancí Náhodný výběr reprezentativního vzorku Výběr s opakováním = sampling with replacement Vždy vybíráme náhodný prvek ze všech možností Jedna instance může být ve výběru vícekrát Výběr bez opakování = sampling without replacement Jednou vybraný prvek už znova vybrat nemůžeme Stratifikovaný výběr Výběr s opakováním kdy si zvolíme výsledný poměr tříd Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 22/29

23 Redukce počtu atributů Surová data mohou obsahovat nerelevantní, zašuměné, redundantní atributy Trénovacímatice by měla mít alespoň o řád více instancí než atributů Existují 2 přístupy řešení: Výběr nejrelevantnější podmnožiny atributů Transformace dat do prostoru s méně dimenzemi Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 23/29

24 Univariate/ Multivariate Výběr příznaků Univariate vždy hodnotí přínos jednoho atributu Multivariatehodnotí zvolenou podmnožinu atributů jako celek Filter/Wrapper/Embedded Filter hodnotí atributy nezávisle na použitém modelu Wrapperpoužívá jako kritérium pro výběr atributů chybu modelu s danými atributy Embedded výběr příznaků je součástí učení modelu Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 24/29

25 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 25/29 Filter: Filter/ wrapper All features Wrapper: Filter Feature subset Predictor All features Multiple Feature subsets Wrapper Predictor

26 Výběr příznaků Různé metody výběru příznaků se skládají ze tří základních kroků: Prohledávání: způsob výběru podmnožin příznaků Hodnocení: způsob hodnocení relevance příznaku nebo skupiny příznaků, statistické ukazatele pro filtermetody nebo chyba modelu pro wrapper metody Kritérium ukončeníprohledávání když se přidáním dalšího atributu výsledek nezlepší, maximální počet atributů Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 26/29

27 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 27/29 Výběr příznaků Cross validation Performance bounds Single feature relevance Relevance in context Feature subset relevance Performance Statistical learning tests Nested subset, machine Heuristic or forward selection/ stochastic search backward elimination Exhaustive search Single feature ranking Search

28 Metody prohledávání možných podmnožin n příznaků je 2 Kompletní prohledávání je časově náročné Heuristické metody: Nemusí najít optimální řešení Forward selection Začínáme s prázdnou podmnožinou atributů, v každém kroku přidáme nejvhodnější atribut dokud není splněna ukončovací podmínka Backward elimination Začínáme se všemi atributy a v každém kroku odebereme nejméně relevantní atribut Náhodný výběr, Evoluční metody Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 28/29

29 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 29/29 Metody hodnocení příznaků Korelační koeficient Vzájemná informace (Mutual information) T-test Chyba klasifikátoru

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 1/21 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 1 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)

Více

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 1/23 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Selekce a extrakce příznaků 2

Selekce a extrakce příznaků 2 Selekce a extrakce příznaků. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Selekce a extrakce příznaků Proč?..............................................................................................................

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 1/10 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších

Více

Chybějící atributy a postupy pro jejich náhradu

Chybějící atributy a postupy pro jejich náhradu Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz III. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD PŘÍZNAKOVÝ POPIS Příznakový obraz x zpracovávaných

Více

Příprava dat a) Kontrola dat

Příprava dat a) Kontrola dat Příprava dat a) Kontrola dat 2 Sběr data? Příprava dat Předpoklady o datech Software obsahuje nástroje pro: Detekci chybějících dat a dat mimo stanovených rozsah Detekci odlehlých a extrémních hodnot Překodování

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Kartografické stupnice Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Datum vytvoření dokumentu: 20. 9. 2004 Datum poslední aktualizace: 16. 10. 2012 Stupnice

Více

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Lineární klasifikátory

Lineární klasifikátory Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout

Více

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL Matematika a stejně i matematická statistika a biometrie s námi hovoří řečí čísel. Musíme tedy vlastnosti nebo intenzitu vlastností jedinců změřit kvantifikovat. Měřením

Více

Příprava dat data preprocessing

Příprava dat data preprocessing Příprava dat data preprocessing 1 Příprava dat integrace, čištění, transformace, redukce 2 Integrace dat Spojení dat z několika zdrojů do jednoho datového souboru Správně identifikovat záznamy, které k

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 1/14 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

13 Barvy a úpravy rastrového

13 Barvy a úpravy rastrového 13 Barvy a úpravy rastrového Studijní cíl Tento blok je věnován základním metodám pro úpravu rastrového obrazu, jako je např. otočení, horizontální a vertikální překlopení. Dále budo vysvětleny různé metody

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce

Více

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Matematika pro geometrickou morfometrii

Matematika pro geometrickou morfometrii Matematika pro geometrickou morfometrii Václav Krajíček Vaclav.Krajicek@mff.cuni.cz Department of Software and Computer Science Education Faculty of Mathematics and Physics Charles University Přednáška

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le Whale detection Brainstorming session Jiří Dutkevič Lenka Kovářová Milan Le Signal processing, Sampling theorem Spojitý signál může být nahrazen diskrétní posloupností vzorků, aniž by došlo ke ztrátě informace,

Více

Aplikovaná numerická matematika

Aplikovaná numerická matematika Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Úvod do optimalizace, metody hladké optimalizace

Úvod do optimalizace, metody hladké optimalizace Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011 O čem to bude? Příklady

Více

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze Jan Buriánek, 2010

Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze Jan Buriánek, 2010 Ing. Jan Buriánek (ČVUT FIT) Reprezentace bodu a zobrazení BI-MGA, 2010, Přednáška 2 1/33 Ing. Jan Buriánek Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické

Více

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost. Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační

Více

Asociační i jiná. Pravidla. (Ch )

Asociační i jiná. Pravidla. (Ch ) Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Změkčování hranic v klasifikačních stromech

Změkčování hranic v klasifikačních stromech Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz 5. LETNÍ ŠKOLA MATEMATICKÉ BIOLOGIE ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Učící se klasifikátory obrazu v průmyslu

Učící se klasifikátory obrazu v průmyslu Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map Vytěžování dat 6: Self Organizing Map Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 10 Slef Organizing Map SOM Toolbox V dnešním cvičení

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje: KVALITA DAT Správnost výsledku použití GIS ovlivňuje: POUŽITÁ APLIKACE Kvalita dat v databázi Kvalita modelu, tj. teoretického popisu krajinných objektů a jevů Způsob použití funkcí GIS při přepisu modelu

Více

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza) ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,

Více

O kurzu MSTU Témata probíraná v MSTU

O kurzu MSTU Témata probíraná v MSTU O kurzu MSTU Témata probíraná v MSTU 1.: Úvod do STU. Základní dělení, paradigmata. 2.: Základy statistiky. Charakteristiky, rozložení, testy. 3.: Modely: rozhodovací stromy. 4.: Modely: učení založené

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny PŘEDZPRACOVÁNÍ DAT Radek Mareček TERMINOLOGIE Session soubor skenů nasnímaných během jednoho běhu stimulačního paradigmatu (řádově desítky až stovky skenů) Sken jeden nasnímaný objem... Voxel elementární

Více

Grafové algoritmy. Programovací techniky

Grafové algoritmy. Programovací techniky Grafové algoritmy Programovací techniky Grafy Úvod - Terminologie Graf je datová struktura, skládá se z množiny vrcholů V a množiny hran mezi vrcholy E Počet vrcholů a hran musí být konečný a nesmí být

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 10 1/50 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů AGENDA Definice kvality DRG systému Statistické metody hodnocení kvality DRG klasifikace Identifikace nenáhodného rozložení případů Využití regresní analýzy nákladů při hledání důvodů v rozdílných nákladech

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

4 Kriteriální matice a hodnocení variant

4 Kriteriální matice a hodnocení variant 4 Kriteriální matice a hodnocení variant V teorii vícekriteriálního rozhodování pracujeme s kritérii, kterých je obecně k, a s variantami, kterých je obecně p. Hodnotu, které dosahuje varianta i pro j-té

Více

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení PSY117 2016 Statistická analýza dat v psychologii Přednáška 3 Transformace skórů a kvantily normálního rozložení Transformace skórů (dat) Pro usnadnění porozumění a možnost dalších analýz často přepočítáváme

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Zpracování digitalizovaného obrazu (ZDO) - Popisy III Zpracování digitalizovaného obrazu (ZDO) - Popisy III Statistické popisy tvaru a vzhledu Ing. Zdeněk Krňoul, Ph.D. Katedra Kybernetiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Zpracování

Více

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky Drahomír Novák Jan Eliáš 2012 Spolehlivost konstrukcí, Drahomír Novák & Jan Eliáš 1 část 5 Aproximační techniky 2012 Spolehlivost

Více

Rozdělování dat do trénovacích a testovacích množin

Rozdělování dat do trénovacích a testovacích množin Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném

Více