Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Podobné dokumenty
Support Vector Machines (jemný úvod)

Citation Statistics. zpráva společné komise. Int. Mathematical Union. Int. Council of Industrial and Applied Mathematics. Institute of Statistics

IT4Innovations Centre of Excellence

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Litosil - application

Markovovy modely v Bioinformatice

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

MAGAZINE ABOUT WOMEN THE WAY THEY REALLY ARE

EXACT DS OFFICE. The best lens for office work

Strojové učení Marta Vomlelová

Lineární klasifikátory

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Important Disclosures

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Výukový materiál zpracován v rámci projektu EU peníze školám

Uznávání předmětů ze zahraničních studijních pobytů

Pokročilé neparametrické metody. Klára Kubošová

RYBÁŘSKÉ ŘETĚZY FISHING CHAINS

Immigration Bank. Bank - General. Bank - Opening a bank account. Mohu vybrat peníze z bankomatu v [název země] bez placení poplatků?

Metody analýzy dat I. Míry a metriky - pokračování

SHLUKOVACÍ METODY V DATA MININGU

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Strojové učení Marta Vomlelová

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Social Media a firemní komunikace

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Student: Draw: Convex angle Non-convex angle

Metody zpracování fyzikálních měření

E-LEARNINGOVÉ KURZY PRO OBOR STOMATOLOGIE E-LEARNING COURSES FOR DENTISTRY

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Data Science projekty v telekomunikační společnosti

Využití a zneužití statistických metod v medicíně

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

3MA524 Metody a techniky v managementu kvality 2

SLOVNIK CIZICH SLOV PDF

The Over-Head Cam (OHC) Valve Train Computer Model

Evropské výběrové šetření o zdravotním stavu v ČR - EHIS CR Základní charakteristiky zdraví

On large rigid sets of monounary algebras. D. Jakubíková-Studenovská P. J. Šafárik University, Košice, Slovakia

Informace jako antropologický fenomén

Influencer marketing. Hype or an effective marketing tool?

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

místo, kde se rodí nápady

Marta Vomlelová

Transportation Problem

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

Oxide, oxide, co po tobě zbyde

STLAČITELNOST. σ σ. během zatížení

Risk management in the rhythm of BLUES. Více času a peněz pro podnikatele

CZ.1.07/1.5.00/

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Research infrastructure in the rhythm of BLUES. More time and money for entrepreneurs

='L 'C\ znacky Primossa + /Z / N&~m T" ' - -"" '" S/)e/"kE)' :" 7. El m. fp '

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Klasifikace a rozpoznávání

Metodologie řízení projektů

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Web based dynamic modeling by means of PHP and JavaScript part II

Klepnutím lze upravit styl Click to edit Master title style předlohy nadpisů.

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

SSOS_AJ_3.18 British education

Virtuální pacient v interaktivním vzdělávání porodnických anesteziologů

Digitální učební materiály Česká republika základní informace

Šperky. značky Primossa

Porovnání předpovídané zátěže se zátěží skutečnou (podle modelu III-C BMP ČHMÚ) Martin Novák 1,2

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

A-PDF Split DEMO : Purchase from to remove the watermark

OPTIMALIZATION OF TRAFFIC FLOWS IN MUNICIPAL WASTE TREATMENT OPTIMALIZACE DOPRAVNÍCH TOKŮ V NAKLÁDÁNÍ S KOMUNÁLNÍM ODPADEM

Počítačové simulace a statistická mechanika

Dobývání a vizualizace znalostí

RELATIONAL DATA ANALYSIS

Kybernetika a umělá inteligence, cvičení 10/11

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Analýza dat v GIS. Dotazy na databáze. Překrytí Overlay Mapová algebra Vzdálenostní funkce. Funkce souvislosti Interpolační funkce Topografické funkce

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

Hodnocení nejen na cenu praktické zkušenosti

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Metody založené na analogii

Aplikácia viac ekonomického prístupu v oblasti vertikálnych obmedzení

logomanuál literární akademie 2009

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

LOGBOOK. Blahopřejeme, našli jste to! Nezapomeňte. Prosím vyvarujte se downtrade

WORKSHEET 1: LINEAR EQUATION 1

Odhad dlouhodobého a hloubkového geochemického vývoje důlních vod rosicko-oslavanské uhelné pánve ve vztahu k optimalizaci nutného čištění důlních vod

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

CZECH REPUBLIC. Dřevěné obrázkové kostky Wooden picture blocks.

UKÁZKA VYUŽITÍ PROGRAMU WINQSB PŘI VÝUCE KVANTITATIVNÍCH METOD V ROZHODOVÁNÍ V DISTANČNÍ FORMĚ STUDIA

Caroline Glendinning Jenni Brooks Kate Gridley. Social Policy Research Unit University of York

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Learning Technologies

ZÁKLADY ANGLICKÉ GRAMATIKY PRO SOU MGR. DITA HEJLOVÁ

Zkušenosti Knihovny Akademie věd ČR. Mgr. Pavel Mika KRE 2014

Projekt MŠMT ČR: EU peníze školám

Neuronové sítě (11. přednáška)

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL

Efektivní financování sociálních služeb v České republice Effective financing of social services in the Czech Republic

Rozvoj vzdělávání žáků karvinských základních škol v oblasti cizích jazyků Registrační číslo projektu: CZ.1.07/1.1.07/

MĚSTA (RODNÉ MĚSTO A DALŠÍ DŮLEŽITÁ MĚSTA) MICHAL KADLEC, DIS

Transkript:

Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze

Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3, 1993. L. Breiman: Statistical Modeling: The Two Cultures. Statistical Science 16, 2001. D. J. Hand: Classifier Technology and the Illusion of Progress. Statistical Science 21, 2006. R. J. Bolton, D. J. Hand: Statistical Fraud Detection: A Review. Statistical Science 17, 2002. Ch. Hennig: Measurement of Quality in Cluster Analysis. 59th ISI WSC, 2013. T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2009. W.N. Venables, B.D. Ripley: Modern Applied Statistics with S. 2002.

Klasifikace (klasifikačních) modelů Model typu Budeme se na něj dívat Model pro podporu rozhodování, model je návodem k jednání (výkonnost nás bude zajímat)

Zjišťování podvodů Metody a výsledky se moc nesdělují, podvodníci se také učí a reagují na vývoj Supervised learning - chytáme ty neúspěšné, známé vzory a unsupervised - zachycení neobvyklého chování (to se ale v čase mění) link analysis, social networks analysis nejisté přiřazení třídám, různě velké skupiny a různé ceny chybné klasifikace počítáme suspicion score (Bolton a Hand), je potřeba prověřit mimo statistickou analýzu měly by se uvážit ceny chybné klasifikace, náklady vyšetřování a přínosy z odhalení podvodu

Shlukování Do not assume that 'clustering' methods are the best way to discover interesting groupings in the data; in our experience the visualization methods are often more effective. There are many different clustering methods, often giving different answers, so the danger of over-interpretation is high. (Venables a Ripley) Specifying an appropriate dissimilarity measure is far more important in obtaining success with clustering than choice of clustering algorithm. This aspect of the problem is emphasized less in the clustering literature than the algorithms themselves, since it depends on domain knowledge specifics and is less amenable to general research. (Hastie et al.) Subjektivně stanovené míry odlišnosti často mají překvapivé vlastnosti (nesymetrické, neplatí trojúhelníková nerovnost,...)

Vzdálenosti pro sekvence stavů Hamming pro sekvence stejné délky; počet pozic, na kterých se sekvence liší LCP, LCS Edit distance náklady na optimální převod jedné sekvence na druhou pomocí základních operací vložení, odmazání nebo náhrada stavu v sekvenci

Edit distance Vstup: dvě sekvence a ceny jednotlivých úprav (Jak zvolit ceny úprav?) Řešení se hledá technikou dynamického programování Ceny: S=2; I,D=1 1 2 3 4 5 6 7 8 9 10 0 M I T U T L G S T G 1 T 2 3 2 3 4 5 6 7 7 8 2 L 3 4 3 4 5 4 5 6 7 8 3 G 4 5 4 5 6 5 4 5 6 7 4 S 5 6 5 6 7 6 5 4 5 6 5 C 6 7 6 7 8 7 6 5 6 7 6 T 7 8 7 8 9 8 7 6 5 6 7 G 8 9 8 9 10 9 8 7 6 5

Hodnocení klasifikátorů IFCS - podpora benchmarkingu ve vývoji shlukovacích metod (Hennig) Data pro benchmarking Generovaná data Reálná data se známými třídami Reálná data bez známých tříd Problémy se srovnáváním (Hand) Na jiných datech může technika fungovat jinak Nebere se v úvahu různá úroveň zkušeností uživatelů

Hodnocení klasifikátorů Data při aplikaci klasifikátoru často nejsou výběrem ze stejného rozdělení jako data, nad kterými je klasifikátor vytvářen Při tvorbě klasifikátoru se učinily volby a předpoklady, které nemusejí být správné -> zavádějící představa o výkonnosti klasifikátoru Obvykle se předpokládá, že třídy jsou objektivně dané, není nejistota o jejich přiřazení Parametry/struktura se odhadují podle optimalizačního kritéria, které ne zcela odpovídá skutečnému cíli klasifikace. Hodnocení podle podílu chybně klasifikovaných případů nebývá vhodné Apriorní pravděpodobnosti a ceny se mění... Jaký je přínos z vývoje lepších klasifikátorů?