Vytěžování znalostí z dat



Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Vytěžování znalostí z dat

Zvyšování kvality výuky technických oborů

Vytěžování znalostí z dat

Testování a spolehlivost. 6. Laboratoř Ostatní spolehlivostní modely

Vytěžování znalostí z dat

Cvičení 1,2 Osnova studie strategie ICT

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Vytěžování znalostí z dat

Základy vytěžování dat

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Informační systémy pro podporu rozhodování

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 Využití doménových znalostí

Normal mission real time system

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

Fakulta chemicko-technologická Faculty of Chemical Technology

Textmining a Redukce dimenzionality

Komputerizace problémových domén

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Mission ctitical real time system

REZISTIVNÍ DOTYKOVÉ OBRAZOVKY A VYUŽITÍ V UNIVERZÁLNÍM REGULÁTORU Resistive Touch Screens and Usage in a Universal Controller

Dynamické programování

Infogram: Nová platforma pro podporu informačního vzdělávání

Kombinatorický předpis

Úvod do zpracování obrazů. Petr Petyovský Miloslav Richter

HbbTV. Představení. Strana 1.

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

DysCom 10.1 program pro děti se specifickými výukovými potřebami v českém jazyce

Spolehlivost tekutinových systémů The Reliability of Fluid Systems

Testování vyhledávačů Google a Seznam.cz

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

JICH APLIKACE FAKULTA INFORMAČNÍCH TECHNOLOGIÍ BRNO UNIVERSITY OF TECHNOLOGY FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS

ORGANIZAČNÍ ŘÁD ČVUT FD

Modelování obchodních procesů

ORGANIZAČNÍ ŘÁD ČVUT FD

NLP & strojové učení

Principy operačních systémů. Lekce 7: Souborový systém

Zápis z 1. zasedání AS FIT ČVUT v Praze

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

MATEMATICKÁ OLYMPIÁDA NA STŘEDNÍCH ŠKOLÁCH

Vytěžování znalostí z dat

Matematické symboly a značky

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla

Vytěžování znalostí z dat

Programování v Pythonu

Pokročilé haldy. prof. Ing. Pavel Tvrdík CSc. Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010

Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze Jan Buriánek, 2010

Aplikace algoritmů umělé inteligence pro data mining v prostředí realitního trhu

IMPLEMENTACE AUTOMATIZOVANÉHO MĚŘENÍ HRTF V MATLABU

Dobývání znalostí z webu web mining

Projekt OPVK - CZ.1.07/1.1.00/ Matematika pro všechny. Univerzita Palackého v Olomouci

Matematická indukce a správnost programů. Základy diskrétní matematiky, BI-ZDM ZS 2011/12, Lekce 13

Distribuované systémy a výpočty

ČESKÝ JAZYK A LITERATURA 5. ROČNÍK

Podmínky použití webu Shopletaky.cz Seznam kapitol

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

NG C Implementace plně rekurentní

Vytěžování znalostí z dat

Dataprojektor, jazykové příručky, pracovní listy

Soubory. Hung Hoang Dieu. Department of Mathematics Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 7

DYNAMICKÉ PROGRAMOVÁNÍ A PROBLÉM BATOHU

Metodický návod ke zpracování ročního projektu

TECHNICKÉ ZNALECTVÍ. Metody soudně znalecké analýzy. Prof. Ing. Jan Mareček, DrSc. ÚZPET

Digitální učební materiál

Kabelové spojky a rozbočky IP44 až IP68

RELATIONAL DATA ANALYSIS

Programování v Pythonu

Hardwarová realizace konečných automatů

ZÁVAZNÉ POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ, DIPLOMOVÉ A DISERTAČNÍ PRÁCE

Nové kreativní týmy v prioritách vědeckého bádání CZ.1.07/2.3.00/ Tento projekt je spolufinancován z ESF a státního rozpočtu ČR.

Jan Březina. Technical University of Liberec. 30. dubna 2013

Ultrazvukový detektor úniku plynu GM. Jak rychle váš systém detekce plynu detekuje úniky? Protože každý život má smysl...

Měření axiálních rychlostních profilů v nádobách s centrální cirkulační trubkou pomocí LDA systému

Řešení rekurentních rovnic 3. Základy diskrétní matematiky, BI-ZDM ZS 2011/12, Lekce 12

Úvod... 1 Zkratky... 3 Poděkování... 7

Laboratorní práce č. 1: Určení výtokové rychlosti kapaliny

Pokyny pro autory. (Times, 14, tučně, kapitálky) (Times, 10, tučně, kurzívou) (Times, 10, normálně)

Souřadnicové konstrukce

HDTV. Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze


Počítačová analýza lekařských dat

Jan Březina. Technical University of Liberec. 21. dubna 2015

IT Governance. Libor TůmaT. konzultant, AHASWARE. itsmf

Projekt, prezentace, rétorika

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

TEMATICKÝ-ČASOVÝ PLÁN Vyučovací předmět : Český jazyk Ročník :_3. Školní rok:_ Vyučující: Z. Piknová. Zařazená průřezová témata OSV OSV, MV

Digitální telefonní signály

ˇ razen ı rychlejˇ s ı neˇ z kvadratick e Karel Hor ak, Petr Ryˇsav y 20. dubna 2016 Katedra poˇ c ıtaˇ c u, FEL, ˇ CVUT

Hologramy a holografie

Transkript:

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 1/14 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 13: Web mining BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 2/14 Rozdělení Web Mining Web mining se nechá rozdělit do tří typů: Obsahu Mining textů, obrázků a videa pro vyhledávače Například kdysi vyhledávač AltaVista Používání Co lidi vyhledávají (keywords)? Na co klikají? Struktury Pomocí teorie grafů se hledají vzory Například PageRank od Google

Text mining Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 3/14 Text mining Tak nám zabili Ferdinanda, řekla posluhovačka panu Švejkovi, který opustiv před léty vojenskou službu, když byl definitivně prohlášen vojenskou lékařskou komisí za blba, živil se prodejem psů, ošklivých nečistokrevných oblud, kterýmpadělalrodokmeny. JAROSLAV HAŠEK: Osudy dobrého vojáka Švejka za Světové války

Text mining Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 4/14 Tokenizace Rozdělení textu na jednotlivá slova. Tak nám zabili Ferdinanda, řekla posluhovačka panu Švejkovi, který Tak nám zabili Ferdinanda řekla posluhovačka panu Švejkovi který Součástí tokenizace mohou být interpunkční znamínka; nebo taky ne.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 5/14 Text mining Převod na malá písmenka Pro vyvarování se duplicitních záznamů Tak nám zabili Ferdinanda řekla posluhovačka panu Švejkovi který tak nám zabili Ferdinanda řekla posluhovačka panu Švejkovi který Jak ale rozpoznat vlastní jména

Text mining Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 6/14 Stop slova Stop slova (stop words) jsou pojmy, které nenesou samy o sobě žádný význam, přitom jsou velmi častá. Proto je užitečné je odfiltrovat pro ušetření paměti a zrychlení dalšího zpracování. V češtině jde především o předložky, spojky a některá další slova.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 7/14 Text mining n-gramy N-Gram je sekvence nslov jdoucích po sobě.

Text mining Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 8/14 Lemmatizace, stemming Lemmatizacenalezne ke každému slovu jeho základní tvar (lemma, základní tvar) Stemmingořízne slova o předpony a přípony s koncovkami (stem, kořen slova) Slovo/a Lemma Stem arcivévoda, arcivévodu vévoda vévod zabili zabít zab vojenskou, vojenská vojenský vojensk

Asociativní pravidla Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 9/14 Asociativní pravidla V americkém řetězci Walmart bylo zjištěno, že muži, kteří nakupují plenky, také často nakupují pivo. Na základě toho bylo pivo přesunuto vedle plenek, aby se vazba zesílila. Zisky z prodeje piva potom šli raketově nahoru. Data miningová legenda, 1992

Asociativní pravidla Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 10/14 Asociativní pravidla TransaNákup-id Koupeno 10 A, B, C 20 A, C 30 A, D 40 B, E, F Zákazník koupí pivo Zákazník koupí obé Zákazník koupí plenky PoložkyX={x 1,, x k } Najdi pravidlox Y salespoň minimální jistotou a podporou podpora, s, je pravděpodobnost, že nákup obsahuje X Y jistota, c,je podmíněná pravděpodobnost, že nákup mající X má také Y min_podpora = 50%, min_jistota = 50%: A C (50%, 66,7%) C A (50%, 100%)

Asociativní pravidla Asociativní pravidlo -příklad Nákup-id Pro pravidloa C: Koupeno 10 A, B, C 20 A, C 30 A, D 40 B, E, F podpora= podpora({a} {C}) = 50% jistota= podpora({a} {C})/podp ora({a}) = 66,6% min_podpora = 50%, min_jistota = 50% Vzor Podpora {A} 75% {B} 50% {C} 50% {A, C} 50% Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 11/14

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 12/14 Asociativní pravidla Apriori: Výběr kandidátů Jakákoliv podmnožina frekventované množiny musí být frekventovaná o If {pivo, plenky, oříšky} je frekventované, potom{pivo, plenky} je taky frekventované o Každý nákup obsahující {pivo, plenky, oříšky} také obsahuje {pivo, plenky} Apriori prořezávání: Pokud je množina nefrekventovaná, její nadmnožina bude taky nefrekventovaná. Nadmnožinu potom nemusíme testovat. Postup: o vytvoř kandidáty o (k+1) položkách z častých nákupů o k položkách o ověř proti databázi Studie ukazují, že algoritmus je rychlý a škálovatelný.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 13/14 Jak vygenerovat kandidáty? o Krok1: křížové spojeníl k o Krok 2: prořezávání Důležité detaily Apriori Jak spočítat podporu kandidátů? Příklad generování kandidátů o L 3 ={abc, abd, acd, ace, bcd} o Křížové spojení: L 3 L 3 abcd zabc aabd acde zacd aace o Prořezání: acdeje odebráno, protože adenení vl 3 o C 4 ={abcd} Asociativní pravidla

Odkazy Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 14/14 Odkazy http://www.youtube.com/watch?v=ejd2m4r4m BM&feature=related