Vytěžování znalostí z dat
|
|
- Ivo Mareš
- před 5 lety
- Počet zobrazení:
Transkript
1 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 2: Statistické metody v data miningu BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
2 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 2/32 Přednáška 1) Střední hodnota: průměr/medián 2) Extrémy 3) Principal Component Analysis (PCA)
3 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 3/32 Aritmetický průměr = 1 =aritmetický průměr = počet vzorků =třída/hodnota vzorku
4 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 4/32 Medián Vzorky seřadit vzestupně/sestupně: =počet vzorků á = +1 2
5 Demonstrace -původní obrázek Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 5/32
6 Demonstrace přidání šumu Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 6/32
7 Demonstrace průměr Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 7/32
8 Demonstrace -medián Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 8/32
9 Demonstrace -původní obrázek Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 9/32
10 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 10/32 Symetrický šum Mějmě 1000 náhodně generovaných vzorků v rozsahu 0 až Histogram odhadů střední hodnoty průměr medián Počet odhadů Odhadovaná střední hodnota (správná je 0.5) Potom je aritmetický průměr přesnější než medián.
11 Medián ca. Aritmetický průměr Aritmetický průměr bere v potaz všechny vzorky, ale je náchylnýna (asymetrické) extrémy -> exceluje na symetrických distribucích Medián odolný na extrémní odchylky -> obvykle se používá u asymetrických distribucí matematický zápis je ale zdlouhavý výpočet na počítači je zdlouhavý Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 11/32
12 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 12/32 Co jeoutlier? Outlier je vzorek, který se liší od ostatních vzorků na tolik, že vzbuzuje podezření, že vznikl jiným mechanizmem. Ukázka outlierů (červeně)
13 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 13/32 Možné příčiny outlierů Chyba měření Chybné předpoklady (jiná distribuce) Neznámá datová struktura (vícero dist.) Nový fenomén
14 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 14/32 Outlier nám kazí výstup Lineární regrese (Metoda nejmenších čtverců)
15 Tak ho smažem! Příběh: V roce 1985 Britská Antarktická výprava naměřila koncentraci ozónu o 10% nižší, než bylo typické. Otázkou bylo, proč podobně nižší hodnoty nenaměřil i satelit. Nakonec se zjistilo, že satelit považoval tyto hodnoty za outliery a tak je mazal. A to už od roku 1976 Ponaučení: Nemažte automaticky outliery, neb právě oni mohou být tím nejcenějším na celém datasetu. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 15/32
16 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 16/32 Co tedy s outliery? U normální distribuce se očekává, že se tu a tam objeví outlier. V tom případě se outlier ponecháa použije se robustní metoda, která si s outliery poradí. Pokud ale nemáme robustní metodu, outlier lze odstranit. Je ale třeba se o něm zmínit a vysvětlit,proč byl odstraněn.
17 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 17/32 Outlieři anketa FIT 11/12 Z Zřejmě nejtypičtější předměty pro FIT jsou Java a databáze. Naopak BOZP, humanitní předměty a legendární PARy jsou zvláštnosti, ovšem nijak extrémní. Asi je tedy nelze vyškrtnout
18 z-score test Vz-scoretestuse spočte průměr a standartní odchylka celého datasetu, následně se pro každý vzorek spočte z-score: = Vzorky se z-score větší 3 jsou označeny za outliery. Nejedná se ale o nejspolehlivější metodu, neboť jak, tak jsou ovlivněny outliery. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 18/32
19 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 19/32 Local Outlier Factor Princip Local Outlier Factor(LOF) je v porovnání lokální hustoty vzorku s lokální hustotou sousedů. Tři nejbližší sousedi bodu A jsou dost vzdáleni (velká kružnice), porovnáme-li ji s kružnicemi sousedů.
20 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 20/32 Local Outlier Factor Zatímco shluk vpravo nahoře má srovnatelnou hustotu jako outlieři blízko levého dolního rohu, outlieři byli detekováni správně.
21 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 21/32 Rozptyl = ( ) = rozptyl populace N = počet vzorků = vzorek = střední hodnota
22 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 22/32 Principal Component Analysis (PCA) PCA se používá pro redukcipočtu atributů PCA nevybírá atributy, ale transformuje je PCA používá rozptyl
23 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 23/32 PCA vzorová 2D data PCA funguje pro libovolný počet dimenzí, pro názornost ale použijeme 2 dimenze.
24 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 24/32 PCA obepsaná elipsa Abychom viděli, jak jsou data rozprostřena, obepíšeme jim elipsu a popíšeme její osy.
25 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 25/32 PCA Principal Components První principal component maximalizuje rozptyl. Další principal component maximalizuje zbývající rozptyl.
26 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 26/32 PCA Principal Components Otázka: Jaký je úhel mezi P1 a P2?
27 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 27/32 PCA Principal Components Odpověď: Proncipal Components svírají vždy pravý úhel. PCA tedy jen natáčí kartézské souřadnice, jinak je nemění.
28 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 28/32 PCA použití Mějme Iris dataset, který má 4 atributy. A mějme klasifikátor, který přijímá jen 2 atributy, které atributy vybereme?
29 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 29/32 PCA použití Použijeme PCA a použijeme první 2 principal components!
30 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 30/32 PCA -ukázka Tohle je zcela běžný dataset s 35 atributy. Prvních 10 pc vysvětluje 90% rozptylu. Dalších 10 pc vysvětluje 9% rozptylu. Posledních 15 pc vysvětluje 1% rozptylu.
31 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 31/32 PCA -omezení PCA funguje dobře, když je v některém směru větší rozptyl, než v jiném. Otázka: Kdy PCA selže?
32 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 32/32 PCA -omezení Odpověď:Když je ve všech směrech stejný rozptyl, PCA nic nezmění.
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 1/21 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 1 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VícePřednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VícePředzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceSTATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VícePRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 1/14 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceMatematika pro geometrickou morfometrii
Matematika pro geometrickou morfometrii Václav Krajíček Vaclav.Krajicek@mff.cuni.cz Department of Software and Computer Science Education Faculty of Mathematics and Physics Charles University Přednáška
VícePopisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
Víceodlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
VíceOdhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára
Odhady parametrů základního souboru Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára Motivační příklad Mám průměrné roční teploty vzduchu z 8 stanic
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceÚloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
VícePředzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 1/23 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VíceVytěžování znalostí z dat
Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical
VíceStatistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
VíceZákladní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada
Základní statistické modely 1 Statistika Matematická statistika se zabývá interpretací získaných náhodných dat. Snažíme se přiřadit statistickému souboru vhodnou distribuční funkci a najít základní číselné
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 1/10 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VícePOPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
VícePopisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceSimulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
VíceUNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
Více11.Metody molekulové spektrometrie pro kvantitativní analýzu léčiv
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 11.Metody molekulové spektrometrie pro kvantitativní analýzu léčiv Vadym Prokopec Vadym.Prokopec@vscht.cz 11.Metody molekulové spektrometrie
VíceFaculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague
1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,
VíceÚvod do analýzy rozptylu
Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
VíceProtokol č. 1. Tloušťková struktura. Zadání:
Protokol č. 1 Tloušťková struktura Zadání: Pro zadané výčetní tloušťky (v cm) vypočítejte statistické charakteristiky a slovně interpretujte základní statistické vlastnosti tohoto souboru tloušťek. Dále
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
VíceSTATISTICKÉ CHARAKTERISTIKY
STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
Víceveličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
VíceExcel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu
Excel - pokračování Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu Př. Analýza prodeje CD základní jednoduché vzorce karta Domů Př. Skoky do dálky - funkce
VíceMgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.
Náhodné veličiny III Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc. Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman
VíceMatematika pro geometrickou morfometrii
Matematika pro geometrickou morfometrii Václav Krajíček Vaclav.Krajicek@mff.cuni.cz Department of Software and Computer Science Education Faculty of Mathematics and Physics Charles University Přednáška
VíceMatematika pro geometrickou morfometrii (3)
Ján Dupej (jdupej@cgg.mff.cuni.cz) Laboratoř 3D zobrazovacích a analytických metod Katedra antropologie a genetiky člověka Přírodovědecká fakulta UK v Praze Opakování Prokrustovská transformace (analýza,
VíceIntervalové Odhady Parametrů
Parametrů Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze
VíceAlgoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
VíceProtokol č. 5. Vytyčovací údaje zkusných ploch
Protokol č. 5 Vytyčovací údaje zkusných ploch Zadání: Ve vybraném porostu bylo prováděno zjišťování zásob za použití reprezentativní metody kruhových zkusných ploch. Na těchto zkusných plochách byl zjišťován
VíceNárodní informační středisko pro podporu kvality
Národní informační středisko pro podporu kvality Využití metody bootstrapping při analýze dat II.část Doc. Ing. Olga TŮMOVÁ, CSc. Obsah Klasické procedury a statistické SW - metody výpočtů konfidenčních
VíceNáhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1
Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud
VícePraktická statistika. Petr Ponížil Eva Kutálková
Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo
VícePředpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2
Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik
VíceOtázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?
Otázky k měření centrální tendence 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? 2. Určete průměr, medián a modus u prvních čtyř rozložení (sad dat): a.
VíceZimní semestr akademického roku 2014/ prosince 2014
Cvičení k předmětu BI-ZMA Tomáš Kalvoda Katedra aplikované matematiky FIT ČVUT Matěj Tušek Katedra matematiky FJFI ČVUT Obsah Cvičení Zimní semestr akademického roku 24/25 2. prosince 24 Předmluva iii
VíceE(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =
Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní
VíceStatistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
VíceStatistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
VíceAKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A
AKM - 1-2 CVIČENÍ Opakování maticové algebry Mějme matice A, B regulární, potom : ( AB) = B A 1 1 ( A ) = ( A ) ( A ) = A ( A + B) = A + B 1 1 1 ( AB) = B A, kde A je řádu mxn a B nxk Čtvercová matice
VíceAlgoritmy a struktury neuropočítačů ASN P6
Algoritmy a struktury neuropočítačů ASN P6 Syntéza neuronových sítí Optimalizace struktury Klestění neuronové sítě Výběr vstupních dat Syntéza neuronových sítí kanonické N je počet neuronů N=N krit dělení
VíceUNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE
UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT V OSTRAVĚ 20.3.2006 MAREK MOČKOŘ PŘÍKLAD Č.1 : ANALÝZA VELKÝCH VÝBĚRŮ Zadání: Pro kontrolu
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceZáklady popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
VíceÚvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)
Úvod do vícerozměrných metod Statistické metody a zpracování dat Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný O řadě jevů či procesů máme k dispozici ne jeden statistický
Více4. Zpracování číselných dat
4. Zpracování číselných dat 4.1 Jednoduché hodnocení dat 4.2 Začlenění dat do písemné práce Zásady zpracování vědecké práce pro obory BOZO, PÚPN, LS 2011 4.1 Hodnocení číselných dat Popisná data: střední
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VíceGymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto
Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Registrační číslo projektu Šablona Autor Název materiálu / Druh CZ.1.07/1.5.00/34.0951 III/2 INOVACE A ZKVALITNĚNÍ VÝUKY PROSTŘEDNICTVÍM ICT
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
VíceStatistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný
Statistické metody a zpracování dat IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný Úvod do vícerozměrných metod O řadě jevů či procesů máme k dispozici ne jeden statistický
VíceStatistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni
Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni Kvantifikace dat Pro potřeby statistického zpracování byly odpovědi převedeny na kardinální intervalovou
Více=10 =80 - =
Protokol č. DĚDIČNOST KVALITATIVNÍCH VLASTNOSTÍ ) Jednorozměrné rozdělení fenotypové charakteristiky (hodnoty) populace ) Vícerozměrné rozdělení korelační a regresní počet pro dvě sledované vlastnosti
VíceRobustní odhady statistických parametrů
Robustní odhady statistických parametrů ěkdy pracují dobře, jinde ne. Typická data - pozorování BL Lac 100 mag 40 0 0.41 0.40 JD date 0.39 0.38 0.38223-1.586 0.017 0.40550-1.530 0.019 0.39453-1.610 0.024
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VíceKorelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
VíceMetoda nejmenších čtverců Michal Čihák 26. listopadu 2012
Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012 Metoda nejmenších čtverců Matematicko-statistická metoda používaná zejména při zpracování nepřesných dat (typicky experimentálních empirických
VíceNejčastější chyby v explorační analýze
Nejčastější chyby v explorační analýze Obecně doporučuju přečíst přednášku 5: Výběrová šetření, Exploratorní analýza http://homel.vsb.cz/~lit40/sta1/materialy/io.pptx Použití nesprávných charakteristik
VíceB. (Obrázek není v elektronické podobµe k dispozici.)
Písemka..7 Cviµcení.. K úspµešnému absolvování zkoušky je potµreba nadpoloviµcní poµcet bod u z písemky. Kaµzdý pµríklad je hodnocen ;, nebo body a student odhadl, µze všechna bodová hodnocení jsou stejnµe
VíceZpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VíceVZOROVÝ TEST PRO 3. ROČNÍK (3. A, 5. C)
VZOROVÝ TEST PRO 3. ROČNÍK (3. A, 5. C) max. 3 body 1 Zjistěte, zda vektor u je lineární kombinací vektorů a, b, je-li u = ( 8; 4; 3), a = ( 1; 2; 3), b = (2; 0; 1). Pokud ano, zapište tuto lineární kombinaci.
VíceČíselné charakteristiky
. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch
VíceMetoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu
Metoda Monte Carlo a její aplikace v problematice oceňování technologií Manuál k programu This software was created under the state subsidy of the Czech Republic within the research and development project
VíceMatematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Náhodná proměnná Náhodná veličina slouží k popisu výsledku pokusu. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáme. Přesto bychom chtěli tento pokus
VíceK metodám převodu souřadnic mezi ETRS 89 a S-JTSK na území ČR
K metodám převodu souřadnic mezi ETRS 89 a S-JTSK na území ČR Vlastimil Kratochvíl * Příspěvek obsahuje popis vlastností některých postupů, využitelných pro transformaci souřadnic mezi geodetickými systémy
VíceÚloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:
Úloha č. 1 - Kvantily a typická hodnota (bodově tříděná data): Určete typickou hodnotu, 40% a 80% kvantil. Tabulka hodnot: Varianta Četnost 0 4 1 14 2 17 3 37 4 20 5 14 6 7 7 11 8 20 Typická hodnota je
VíceAVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
VíceStatistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012
Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012 Osnova Úvod (Neparametrické) odhady hustoty pravděpodobnosti Bootstrap Použití logistické regresi při klasifikaci Odhady
VíceKreslení elipsy Andrej Podzimek 22. prosince 2005
Kreslení elipsy Andrej Podzimek 22. prosince 2005 Kreslení elipsy v obecné poloze O co půjde Ukázat přesný matematický model elipsy Odvodit vzorce pro výpočet souřadnic důležitých bodů Nalézt algoritmus
VíceExperimentáln. lní toků ve VK EMO. XXX. Dny radiační ochrany Liptovský Ján 10.11.-14.11.2008 Petr Okruhlica, Miroslav Mrtvý, Zdenek Kopecký. www.vf.
Experimentáln lní měření průtok toků ve VK EMO XXX. Dny radiační ochrany Liptovský Ján 10.11.-14.11.2008 Petr Okruhlica, Miroslav Mrtvý, Zdenek Kopecký Systém měření průtoku EMO Měření ve ventilačním komíně
VíceÚloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté
Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté polynomy pro případ dvou uzlových bodů ξ 1 = 1 a ξ 2 = 4. Experimentální body jsou x = [0.2 0.4 0.6 1.5 2.0 3.0
VíceOdhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
Více3.4 Určení vnitřní struktury analýzou vícerozměrných dat
3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková
VíceDefinice spojité náhodné veličiny zjednodušená verze
Definice spojité náhodné veličiny zjednodušená verze Náhodná veličina X se nazývá spojitá, jestliže existuje nezáporná funkce f : R R taková, že pro každé a, b R { }, a < b, platí P(a < X < b) = b a f
Více