Úvod do dobývání. znalostí z databází

Podobné dokumenty
Analytické procedury v systému LISp-Miner

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

Asociační pravidla (metoda GUHA)

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Výroková logika - opakování

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu

Dolování asociačních pravidel

LISp-Miner: systém pro získávání znalostí z dat 1

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Asociační i jiná. Pravidla. (Ch )

Bakalářská matematika I

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf

Každé formuli výrokového počtu přiřadíme hodnotu 0, půjde-li o formuli nepravdivou, a hodnotu 1, půjde-li. α neplatí. β je nutná podmínka pro α

Projekt LISp-Miner. M. Šimůnek

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc.

Kontingenční tabulky. (Analýza kategoriálních dat)

Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.

Příprava dat v softwaru Statistica

4.2 Syntaxe predikátové logiky

OSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA

Matematická logika. Rostislav Horčík. horcik

EXPERIMENTÁLNÍ GUHA PROCEDURY

Zápočtová práce STATISTIKA I

DATABÁZE MS ACCESS 2010

Tabulka 1. Výběr z datové tabulky

0. ÚVOD - matematické symboly, značení,

Matematika I. Přednášky: Mgr. Radek Výrut, Zkouška:

Výroková a predikátová logika - II

Základní pojmy matematické logiky

Místo pojmu výroková formule budeme používat zkráceně jen formule. Při jejich zápisu

Získávání znalostí z dat

Lokální a globální analytické zprávy o výsledcích DZD

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Výroková a predikátová logika - II

Nová GUHA-procedura ETree-Miner v systému LISp-Miner

Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce

Analýza dat na PC I.

Tematický plán Obor: Informační technologie. Vyučující: Ing. Joanna Paździorová

Předzpracování dat. Lenka Vysloužilová

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

vhodná pro strojové dokazování (Prolog) metoda založená na vyvracení: dokazuje se nesplnitelnost formulí

Databázové systémy. * relační kalkuly. Tomáš Skopal. - relační model

Třídění statistických dat

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Matematika B101MA1, B101MA2

Excel tabulkový procesor

Algoritmy a struktury neuropočítačů ASN P6

Michal Burda. 27. ledna Abstrakt

Základy logiky a teorie množin

Výpočet na gridu a LM TaskPooler

Výroková a predikátová logika - III

Dodatek č. 3 ke školnímu vzdělávacímu programu. Strojírenství. (platné znění k )

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Matematická analýza 1

Reporting. Ukazatele je možno definovat nad libovolnou tabulkou Helios Orange, která je zapsána v nadstavbě firmy SAPERTA v souboru tabulek:

Popisná statistika. Komentované řešení pomocí MS Excel

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI

Analýza hlavních komponent

10. Techniky formální verifikace a validace

Evropský zemědělský fond pro rozvoj venkova: Evropa investuje do venkovských oblastí. v cestovním ruchu P3. Pavel Petr Petr.USII@upce.

Výroková a predikátová logika - II

Sémantika výrokové logiky. Alena Gollová Výroková logika 1/23

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Získávání dat z databází 1 DMINA 2010

QAD Business Intelligence

Katedra kybernetiky, FEL, ČVUT v Praze.

Úvod do logiky (VL): 11. Ověřování, zda je formule tautologií metodou protipříkladu

Matematika pro informatiky KMA/MATA

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Logika. 2. Výroková logika. RNDr. Luděk Cienciala, Ph. D.

Statistické zpracování naměřených experimentálních dat za rok 2012

Booleovská algebra. Booleovské binární a unární funkce. Základní zákony.

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Odhad parametrů N(µ, σ 2 )

Míry podobnosti, základy fuzzy matematiky

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Popis zobrazení pomocí fuzzy logiky

Základy teorie pravděpodobnosti

Analýza dat z dotazníkových šetření

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Predikátová logika. Teoretická informatika Tomáš Foltýnek

Datové modelování II

4ft-Miner pro začátečníky Získávání znalostí z databází

Úvod do informatiky. Miroslav Kolařík

Vybrané přístupy řešení neurčitosti

Popisná statistika kvantitativní veličiny

Formální systém výrokové logiky

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Pravděpodobnost a statistika

1 Tabulky Příklad 3 Access 2010

Pojem a úkoly statistiky

Transkript:

POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů M. Šimůnek

Fáze DZD podle CRISP-DM POROZUMĚNÍ DOMÉNOVÉ OBLASTI VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ PŘÍPRAVA DAT MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) 4iz260 ukázka slidů 2

Hegelovská spirála 4iz260 POROZUMĚNÍ DOMÉNOVÉ OBLASTI VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ PŘÍPRAVA DAT MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) 4iz260 ukázka slidů 3

Pracnost a důležitost fází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DOMÉNOVÉ OBLASTI POROZUMĚNÍ DATŮM DISKUZE S MAJITELEM DAT CÍLE, SMYSL A CENA ANALÝZY, BUDOVÁNÍ DŮVĚRY (25 %) DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT DŮVĚRA VE VÝSLEDKY? PODSTOUPÍ RIZIKO UVEDENÍ DO PRAXE? (25 %) DATA PROBLÉMY SE ZÍSKÁNÍM DAT A JEJICH POPISU (5 %) CO VÝSLEDKY ZNAMENAJÍ? JAK POUŽÍT? (20 %) ČIŠTĚNÍ A PŘEDZPRA- COVÁNÍ DAT (20 %) 4iz260 ukázka slidů 4 MODE- LOVÁNÍ (5 %)

Princip GUHA procedury Analyzovaná data Jednoduchá definice potenciálně zajímavých vztahů Generování a verifikace jednotlivých vztahů Všechny prosté vztahy (pravdivé v datech a nevyplývající z jednodušších) 4iz260 ukázka slidů 5

Data Výuková data Hotel http://lispminer.vse.cz/files/data/hotelplusexterni.1000.txt Libovolným způsobem zjistěte nějakou základní charakteristiku dat nějakou vypočtenou charakteristiku něco zajímavého v datech Časový limit: 10 minut 4iz260 ukázka slidů 6

Základní obrazovka LM Workspace Titulek s názvem metabáze Číslo verze Záložky aktuálně otevřených oken Strom s názvy aktuálně otevřených záložek, členěný dle fází DZD Pracovní plocha s aktuálně vybraným oknem 4iz260 ukázka slidů 7

Údaje o sloupci 4iz260 ukázka slidů 8 Datový typ Statistické hodnoty min, max, průměr Graf hodnot pouze pro číselné hodnoty možné proložení trendu (polynom n-tého řádu) Výčet hodnot a jejich četnost zobrazení i jako graf možné proložení trendu (polynom n-tého řádu)

Scatter (XY) Plot Bodový graf hodnot ve dvou (numerických) sloupcích DB tabulky např. měsíc (osa X), teplota (osa Y) Možné omezit pouze na záznamy s danou kategorií vybraného předzpracovaného atributu DenTydne= Pátek 4iz260 ukázka slidů 9

Analýza hlavních komponent Technika redukce dimenzí mnoharozměrných (numerických) dat Principal Component Analysis (PCA) PCA se snaží nalézt takové zobrazení (natočení) mraku dat, aby byly nejlépe vidět odlišnosti a případné shluky při redukci na dvě hlavní komponenty možné zobrazit jako 2D graf 4iz260 ukázka slidů 10

Interpretace jedné varianty shlukování (PCA), shluky Zobrazení XY grafu s výsledky PCA viz Interactive analysis Výrazné odlišení třetího shluku Setosa (zeleně, úplně dole) První dva shluky mají k sobě relativně blízko 4iz260 ukázka slidů 11

Zobrazení hypotézy (stromu) Možnosti procházení jako u interaktivní analýzy Zobrazení detailu uzlu Další záložky text a data Převod stromu na rozhodovací pravidla 4iz260 ukázka slidů 12

Rozdělení věku v celých datech: CF Contingency analysis Rozdělení věku hostů s nástupem v pátek větší rozdíly v zastoupení jednotlivých věkových skupin výrazněji převažuje věková skupina 55 až 65 let 4iz260 ukázka slidů 13

KL Contingency analysis (2) Celková cena versus počet nocí na celých datech pouze pro Počet osob= 1 Přibližně funkční závislost 4iz260 ukázka slidů 14

Booleovské atributy Logický výraz můžeme rozhodnout o platnosti či neplatnosti v daných datech Základní booleovský atribut A(α), kde A je více-kategoriální atribut a α je libovolná neprázdná podmnožina jeho kategorií Město( Praha), Město( Praha, Brno), Národnost( CZ, SK) nabývá hodnoty TRUE (platí) pro daný řádek matice, když hodnota patří do jedné z uvedených kategorií Odvozený booleovský atribut odvozený ze základních booleovských atributů pomocí logických spojek (konjunkce), (disjunkce) a (negace) Měsíc( únor..květen) Národnost( CZ, SK ) [Věk( 20;50 ) Typ_Návštěvy( služební )] Den( Po, St) 4iz260 ukázka slidů 15

Koeficienty cyklická sekvence Jako sekvence, ale i přes konec Počet variant počet_kategorií Cyklické sekvence délky 1 Den(Po ) Den(Út ) Den(St ) Den(Čt ) Den(Pá ) Den(So ) Den(Ne ) Cyklické sekvence délky 2 Den(Po,Út ) Den(Út,St ) Den(St,Čt ) Den(Čt,Pá ) Den(Pá,So ) Den(So,Ne ) Den(Po,Ne ) Cyklické sekvence délky 3 Den(Po,Út,St ) Den(Út,St,Čt ) Den(St,Čt,Pá ) Den(Čt,Pá,So ) Den(Pá,So,Ne ) Den(Po,So,Ne ) Den(Po,Út,Ne ) 4iz260 ukázka slidů 16

Asociační pravidlo příklad (1) PočetNocí( 7) Měsíc( květen) 0.94, 47 Národnost( AT) Je-li délka pobytu týden (sedm dní) a zároveňjde o pobytu začínajícív květnupotomv 94 % případůje host rakouskénárodnosti. Pobytůsplňujících předpoklad i závěr je celkem 47. předpokladtyp vztahu sílavztahua zastoupenívztahu závěr Typ vztahu dán 4ft-kvantifikátorem kvantifikátor Fundovaná implikace (FUI) implikační kvantifikátor Síla a zastoupení vztahu vypočteno ze čtyřpolní tabulky 4iz260 ukázka slidů 17

Čtyřpolní tabulka četností (1) a: počet záznamů splňujících jak ϕ (antecedent), tak ψ (sukcedent) b: počet záznamů splňujících ϕ a nesplňujících ψ Μ PočetNocí( 7) Měsíc( květen) (PočetNocí( 7) Měsíc( květen)) Národnost( AT) 47 94 Národnost( AT) 3 854 c: počet záznamů nesplňujících ϕ a splňujících ψ d: počet záznamů nesplňujících ϕ ani ψ a/(a+b) = 47/(47+3) = 47/50 = 0,94 U fundované implikace na hodnotách c a d nezáleží! 4iz260 ukázka slidů 18

Interpretace výsledků Ukázka Věk( 25;35)) Typ( rekreace) Cena( <7500) 71,4 %, 25 Den( Ne,Po,Út) pro hosty mezi 25 a 35 lety na rekreaci v ceně do 7,5 tisíce platí, že přijedou v neděli, v pondělí nebo v úterý takových hostů je 25 z celkového počtu 35 z této podmnožiny. Takže platnost pravidla v analyzovaných datech je 71,4 %. Posteriorní pravděpodobnost (obecná platnost) se dá očekávat v rozmezí 70,3 % ± 22.2 p.b. (3 směrodatná odchylka 7,4 p.b.). Rozpětí je značné zejména kvůli nízkému počtu takových případů v analyzovaných datech Majiteli hotelu doporučujeme XXX a pro případ opakování této analýzy v budoucnu navrhujeme rozšířit velikost analyzovaných dat 4iz260 ukázka slidů 19