Vytěžování znalostí z dat

Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Přednáška 13 Redukce dimenzionality

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

STATISTICKÉ ODHADY Odhady populačních charakteristik

Vytěžování znalostí z dat

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Jednofaktorová analýza rozptylu

Vytěžování znalostí z dat

Matematika pro geometrickou morfometrii

Popisná statistika. Komentované řešení pomocí MS Excel

odlehlých hodnot pomocí algoritmu k-means

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Analýza dat na PC I.

Odhad parametrů N(µ, σ 2 )

Úloha - rozpoznávání číslic

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Lineární regrese. Komentované řešení pomocí MS Excel

Vytěžování znalostí z dat

Statistika pro geografy

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Vytěžování znalostí z dat

Vytěžování znalostí z dat

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika kvantitativní veličiny

UČENÍ BEZ UČITELE. Václav Hlaváč

Simulace. Simulace dat. Parametry

Pravděpodobnost, náhoda, kostky

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

11.Metody molekulové spektrometrie pro kvantitativní analýzu léčiv

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Úvod do analýzy rozptylu

KGG/STG Statistika pro geografy

Protokol č. 1. Tloušťková struktura. Zadání:

Pravděpodobnost, náhoda, kostky

STATISTICKÉ CHARAKTERISTIKY

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Matematika pro geometrickou morfometrii

Matematika pro geometrickou morfometrii (3)

Intervalové Odhady Parametrů

Algoritmy pro shlukování prostorových dat

Protokol č. 5. Vytyčovací údaje zkusných ploch

Národní informační středisko pro podporu kvality

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Praktická statistika. Petr Ponížil Eva Kutálková

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Zimní semestr akademického roku 2014/ prosince 2014

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Statistická analýza jednorozměrných dat

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Algoritmy a struktury neuropočítačů ASN P6

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

4. Zpracování číselných dat

Normální (Gaussovo) rozdělení

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

=10 =80 - =

Robustní odhady statistických parametrů

Odhad parametrů N(µ, σ 2 )

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Korelace. Komentované řešení pomocí MS Excel

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Nejčastější chyby v explorační analýze

B. (Obrázek není v elektronické podobµe k dispozici.)

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

VZOROVÝ TEST PRO 3. ROČNÍK (3. A, 5. C)

Číselné charakteristiky

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

PRAVDĚPODOBNOST A STATISTIKA

K metodám převodu souřadnic mezi ETRS 89 a S-JTSK na území ČR

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

AVDAT Mnohorozměrné metody, metody klasifikace

Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

Kreslení elipsy Andrej Podzimek 22. prosince 2005

Experimentáln. lní toků ve VK EMO. XXX. Dny radiační ochrany Liptovský Ján Petr Okruhlica, Miroslav Mrtvý, Zdenek Kopecký.

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Odhady Parametrů Lineární Regrese

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Definice spojité náhodné veličiny zjednodušená verze

Transkript:

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 2: Statistické metody v data miningu BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 2/32 Přednáška 1) Střední hodnota: průměr/medián 2) Extrémy 3) Principal Component Analysis (PCA)

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 3/32 Aritmetický průměr = 1 =aritmetický průměr = počet vzorků =třída/hodnota vzorku

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 4/32 Medián Vzorky seřadit vzestupně/sestupně: =počet vzorků á = +1 2

Demonstrace -původní obrázek Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 5/32

Demonstrace přidání šumu Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 6/32

Demonstrace průměr Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 7/32

Demonstrace -medián Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 8/32

Demonstrace -původní obrázek Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 9/32

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 10/32 Symetrický šum Mějmě 1000 náhodně generovaných vzorků v rozsahu 0 až 1 450 400 Histogram odhadů střední hodnoty průměr medián 350 300 Počet odhadů 250 200 150 100 50 0 0.44 0.46 0.48 0.5 0.52 0.54 0.56 Odhadovaná střední hodnota (správná je 0.5) Potom je aritmetický průměr přesnější než medián.

Medián ca. Aritmetický průměr Aritmetický průměr bere v potaz všechny vzorky, ale je náchylnýna (asymetrické) extrémy -> exceluje na symetrických distribucích Medián odolný na extrémní odchylky -> obvykle se používá u asymetrických distribucí matematický zápis je ale zdlouhavý výpočet na počítači je zdlouhavý Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 11/32

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 12/32 Co jeoutlier? Outlier je vzorek, který se liší od ostatních vzorků na tolik, že vzbuzuje podezření, že vznikl jiným mechanizmem. Ukázka outlierů (červeně)

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 13/32 Možné příčiny outlierů Chyba měření Chybné předpoklady (jiná distribuce) Neznámá datová struktura (vícero dist.) Nový fenomén

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 14/32 Outlier nám kazí výstup 18 16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 Lineární regrese (Metoda nejmenších čtverců)

Tak ho smažem! Příběh: V roce 1985 Britská Antarktická výprava naměřila koncentraci ozónu o 10% nižší, než bylo typické. Otázkou bylo, proč podobně nižší hodnoty nenaměřil i satelit. Nakonec se zjistilo, že satelit považoval tyto hodnoty za outliery a tak je mazal. A to už od roku 1976 Ponaučení: Nemažte automaticky outliery, neb právě oni mohou být tím nejcenějším na celém datasetu. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 15/32

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 16/32 Co tedy s outliery? U normální distribuce se očekává, že se tu a tam objeví outlier. V tom případě se outlier ponecháa použije se robustní metoda, která si s outliery poradí. Pokud ale nemáme robustní metodu, outlier lze odstranit. Je ale třeba se o něm zmínit a vysvětlit,proč byl odstraněn.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 17/32 Outlieři anketa FIT 11/12 Z Zřejmě nejtypičtější předměty pro FIT jsou Java a databáze. Naopak BOZP, humanitní předměty a legendární PARy jsou zvláštnosti, ovšem nijak extrémní. Asi je tedy nelze vyškrtnout

z-score test Vz-scoretestuse spočte průměr a standartní odchylka celého datasetu, následně se pro každý vzorek spočte z-score: = Vzorky se z-score větší 3 jsou označeny za outliery. Nejedná se ale o nejspolehlivější metodu, neboť jak, tak jsou ovlivněny outliery. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 18/32

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 19/32 Local Outlier Factor Princip Local Outlier Factor(LOF) je v porovnání lokální hustoty vzorku s lokální hustotou sousedů. Tři nejbližší sousedi bodu A jsou dost vzdáleni (velká kružnice), porovnáme-li ji s kružnicemi sousedů. http://wikipedia.com/local_outlier_factor

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 20/32 Local Outlier Factor Zatímco shluk vpravo nahoře má srovnatelnou hustotu jako outlieři blízko levého dolního rohu, outlieři byli detekováni správně.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 21/32 Rozptyl = ( ) = rozptyl populace N = počet vzorků = vzorek = střední hodnota

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 22/32 Principal Component Analysis (PCA) PCA se používá pro redukcipočtu atributů PCA nevybírá atributy, ale transformuje je PCA používá rozptyl

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 23/32 PCA vzorová 2D data PCA funguje pro libovolný počet dimenzí, pro názornost ale použijeme 2 dimenze.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 24/32 PCA obepsaná elipsa Abychom viděli, jak jsou data rozprostřena, obepíšeme jim elipsu a popíšeme její osy.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 25/32 PCA Principal Components První principal component maximalizuje rozptyl. Další principal component maximalizuje zbývající rozptyl.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 26/32 PCA Principal Components Otázka: Jaký je úhel mezi P1 a P2?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 27/32 PCA Principal Components Odpověď: Proncipal Components svírají vždy pravý úhel. PCA tedy jen natáčí kartézské souřadnice, jinak je nemění.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 28/32 PCA použití Mějme Iris dataset, který má 4 atributy. A mějme klasifikátor, který přijímá jen 2 atributy, které atributy vybereme?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 29/32 PCA použití Použijeme PCA a použijeme první 2 principal components!

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 30/32 PCA -ukázka Tohle je zcela běžný dataset s 35 atributy. Prvních 10 pc vysvětluje 90% rozptylu. Dalších 10 pc vysvětluje 9% rozptylu. Posledních 15 pc vysvětluje 1% rozptylu.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 31/32 PCA -omezení PCA funguje dobře, když je v některém směru větší rozptyl, než v jiném. Otázka: Kdy PCA selže?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 32/32 PCA -omezení Odpověď:Když je ve všech směrech stejný rozptyl, PCA nic nezmění.