4ft-Miner pro začátečníky Získávání znalostí z databází

Rozměr: px
Začít zobrazení ze stránky:

Download "4ft-Miner pro začátečníky Získávání znalostí z databází"

Transkript

1 4ft-Miner pro začátečníky Získávání znalostí z databází Dobývání znalostí z databází (DZD) Knowledge Discovery in (from) Databases (KDD) Data Mining (DM) Materiál pro posluchače kurzů IZI211 Metody zpracování informací a IZI212 Metody zpracování informací praktika Martin Kejkula 1. října 2004

2 Slovo čtenáři Tento studijní materiál (sylabus) je doplňkem k přednášce IZI211 a ke cvičením IZI212, který má studentům pomoci při výuce úvodu do DZD/KDD. Není to však samostatný studijní materiál, ale jen a pouze doplňkový sylabus např. jsou zde použity některé termíny, které nejsou vysvětleny (koeficient, kvantifikátor, literál). Kromě zmiňovaných přednášek a cvičení slouží studentům ke studiu DZD/KDD literatura [1] a zdroje dostupné na Internetu: [2], [4], [6] a LISp-Miner. První část tohoto materiálu obsahuje velmi stručné charakteristiky procesu DZD/KDD, včetně stručných poznámek o metodice CRISP-DM. Druhá část je stručným průvodcem, který umožňuje čtenáři, aby si vytvořil v systému 4ft-Miner svou první úlohu DZD. DZD/KDD je v rámci předmětů IZI211 a IZI212, pro které je určen tento materiál, přednášen na seznamovací (začátečnické) úrovni, katedra IZI však vypisuje několik pokročilých kurzů DZD/KDD pro vyšší ročníky: IZI456 získávání znalostí z databází, IZI461 umělé neuronové sítě, IZI462 zpracování nejistoty v umělé inteligenci (bayesovské sítě), IZI495 specifické přístupy k získávání znalostí z databází. Protože si je autor vědom, že přes několikeré přečtení a překontrolování textu, v něm čtenáři můžou najít chyby, omlouvá se za ně tímto čtenářům. Své připomínky k tomuto sylabu můžete posílat na níže uvedenou adresu. V Praze, 1. října 2004 Martin Kejkula

3 Získávání znalostí z databází (data mining): cca od 60. let 20. století největší rozvoj cca od roku 1990 typicky je součástí business intelligence (BI) 1 induktivní charakter (z konkrétních dat se vyvozují obecná tvrzení o datech) Definice: Data mining je analýza (často obrovských) souborů dat, za účelem nalezení netušených vztahů a shrnutí dat novým způsobem tak, aby byly (tyto nalezené vztahy a nová shrnutí) pro vlastníka užitečné, a aby jim byl vlastník dat schopen porozumět [5]. Aplikační oblasti: snad všechny obory lidské činnosti (lékařství, výroba, finance, pojišťovnictví, marketing, státní a veřejná správa a mnoho dalších) aplikace: segmentace a klasifikace (např. klasifikace družicových snímků Země, rentgenových snímků pacientů, rozpoznávání problémových a bonitních klientů bank a pojišťoven (např. pojišťovacích podvodů), segmentace zákazníků (komu nabídnout jaký produkt),... ) predikce (vývoje kursu akcií, spotřeby elektrické energie v dané lokalitě, predikce spotřeby plynu, vody,... ) analýza příčin (onemocnění pacientů, účinnost léků, poruchy telekominikačních zařízení, poruchy technických zařízení,... ) hledání zajímavých vyjímek v datech (analýza dopravních nehod, hledání chyb v datech,... ) spousta dalších Používají se: databázové technologie statistika metody strojového učení (umělá inteligence) 1 Zejména v komerční sféře. BI představuje aplikaci datových skladů (data warehouse, DWH), reportů z databází reporting, OLAP technologií, získávání znalostí z databází a CRM (customer relationship management). Koncept BI má konsekvence s řízením podnikání (management)... 3

4 Proces (projekt) dobývání znalostí z databází se skládá ze šesti fází: (podle [6]) Porozumění problematice (Business understanding) dívat se na problém (úlohu) z úhlu pohledu koncového uživatele (bankéře, lékaře, managera,... ). Co je cílem projektu (identifikace skupiny zákazníků, kteří brzy odejdou ke konkurenci; identifikace, který z podaných léků je původcem uzdravení; které z faktorů ovlivňují nejvíce obezitu; predikce cen akcií,... )? Sbírání background knowledge na začátku projektu. Sepsání kritérií úspěchu projektu jak poznáme, že byl projekt úspěšný nebo neúspěšný? Popsání problému, který má být vyřešen. Jak je tento problém řešen dnes výhody a nevýhody? Kdo bude uživatelem výstupů projektu? Co uživatelé od projektu očekávají a co pro svou práci nutně potřebují? Převedení cílů projektu na technický popis (v terminologii data miningu) požadavků na výstupy data miningu (tj. modely). Porozumění datům (Data understanding) Sepsání všech dat, která se budou používat. Zvážit významnost atributů. Jsou všechna potřebná data k dispozici? Převedení dat do formátu, ve kterém se budou připravovat. Popsání dat (počet záznamů v tabulkách, počet atributů tabulek, významy atributů a hodnot, kontrola typů atributů, frekvenční analýza, základní statistické charakteristiky atributů průměry, minimální a maximální hodnoty, modus, směrodatná odchylka). Vizualizace dat (histogramy,... ) Obsahují data chyby? Jak se chyby rozpoznají? Jak časté jsou chyby v datech? Jaké významy mají chybějící hodnoty? 4

5 Příprava dat (Data preparation) Výběr dat, která budou použita pro fázi modelování. Čištění dat Je možné chybné hodnoty opravit? Jak byly ošetřeny chybné hodnoty opraveny (jak?), odstraněny, ignorovány? Jaký význam mají speciální hodnoty a jak tyto hodnoty ošetřit? Integrace dat z více tabulek do jediné tabulky. Transformace dat do formátu, se kterým pracuje nástroj, který bude použit pro modelování. Vytvoření odvozených (derived) atributů. Testování významností a korelací atributů. Zkušenosti z praxe ukazují, že fáze přípravy dat zaberou okolo 80 % času projektu DZD (KDD). Modelování (Modeling) Data mining. Výběr vhodné techniky (asociační pravidla, bayesovské sítě, neuronové sítě, rozhodovací pravidla a stromy, regresní stromy, induktivní logické programování, genetické algoritmy, shlukové analýzy) závisí na typu úlohy (segmentace, klasifikace, predikce, analýza závislostí). Nastavení parametrů úlohy, spuštění úlohy modelování. Problém (úloha) definovaný ve fázi porozumění problematice se obvykle rozpadne do řady úloh modelování. Každá úloha modelování se typicky ladí opakovaným spouštěním s upravenými parametry úlohy, dokud se nedosáhne uspokojivých výsledků. Testování a posouzení kvality modelu (jak je model přesný nebo obecný, pomůže vyřešit uživatelův problém)? Vyhodnocení výsledků (Evaluation) Do jakého stupně pomůže model vyřešit problém (jak přispívá k řešení)? Proč (v čem) je model nevhodný? Interpretace modelu, aby mu uživatel (bankéř, lékař, manager,... ) rozuměl. Porovnání výsledků modelu s background knowledge bylo objeveno něco nového? Bylo potvrzeno, co se už dávno vědělo? Bylo objeveno něco, co odporuje dosavadním znalostem? Porovnání interpretace modelu se sepsanými kritérii úspěchu. Jak by bylo možné model zlepšit? Co by se příště mělo dělat jinak (poučení z tohoto projektu)? Jaké jsou současné možnosti nasazení modelu v praxi? Využití výsledků (Deployment) Zavedení modelu do praktického používání (např. při rozhodování o poskytnutí úvěru). Sepsání modelů, které je možné nasadit (použít). Aktualizace modelu. Sledování přínosů používání modelů a vlivu používání modelů na na fungování procesů ve firmě. Sepsání závěrečné zprávy. Některé metody dobývání znalostí - data mining: rozhodovací stromy, rozhodovací pravidla, regresní stromy, asociační pravidla, neuronové sítě, genetické algoritmy, hledání nejbližšího souseda, bayesovské sítě, support vector machines (SVM), induktivní logické programování. V rámci předmětu IZI212 se studenti seznamují pouze s asociačními pravidly 2. 2 Katedra IZI však vypisuje specializované předměty pro studenty vyšších ročníků např. bayesovské sítě, neuronové sítě,... 5

6 softwarové nástroje pro KDD komerční sw nástroj producent URL Clementine SPSS Enterprise Miner SAS Intelligent Miner IBM Knowledge Studio Angoss Statistica Data Miner StatSoft PolyAnalyst Megaputer akademické nástroje SumatraTT FEL ČVUT nástroj pro předzpracování a transformaci dat WEKA University of Waikato (Nový Zéland) klasifikace: několik desítek algoritmů včetně neuronové sítě, bayesovských metod, shlukovacích metod, rozhodovacích stromů shlukování: 5 metod asociační pravidla: algoritmus apriori vizualizace výsledků 6

7 LISp-Miner FIS VŠE LM Admin: modul pro nastavení datových zdrojů LM DataSource: modul pro předzpracování dat (včetně vizualizace) LM 4ftTask: modul pro dobývání asociačních pravidel LM 4ftResult: modul pro zpracování objevených asociačních pravidel LM dále obsahuje moduly pro: Knowledge EXplorer (KEX): indukci rozhodovacích pravidel KL-Miner: analýzu dvoudimenzionálních kontingenčních tabulek CF-Miner: hledání podmínek, které určují splnění zvoleného rozdělení hodnot atributu TimeTransf: předzpracování časových řad 4ft-Miner pro začátečníky Pro 4ft data mining analýzu budeme potřebovat: 1. Data, která chceme analyzovat. Je třeba, mít je ve formátu, dostupném přes ODBC (např. tabulka uložená v souboru databáze MS Access). Každý řádek tabulky nese data o jednom objektu. 2. Metabáze. Metabáze je databáze, do které se při používání LMDataSource, 4ftTask, 4ftResult (a dalších) modulů ukládají data např. parametry úloh, výsledky (objevená asociační pravidla). Prázdnou metabázi je možné získat na (jako soubor LMEmpty.mdb) 3. Modul LMAdmin.exe pro propojení databáze a metabáze. LMAdmin.exe je možné získat na 4. Modul LMDataSource.exe pro přípravu dat. 5. Modul 4ftTask.exe pro dobývání asociačních pravidel. 6. Modul 4ftResult.exe pro analýzu objevených asociačních pravidel. Moduly DataSource, 4ftTask i 4ftResult je možné získat na Na adrese lispminer.vse.cz (sekce download) získáme prázdnou metabázi (LMEmpty.mdb) a potřebné exe soubory (z balíčku LISp-Miner.4ft zip použijeme 4ftResult.exe, 4ftTask.exe, LMAdmin.exe a LMDataSource.exe). V tomto příkladu budeme používat na ukázku data 7

8 fiktivní banky BARBORA, která také získáme na lispminer.vse.cz. Soubor s analyzovanými daty Barbora.mdb rozbalíme z balíčku Barbora.zip a přejmenujeme na data Barbora.mdb, metabázi LMEmpty.mdb si přejmenujeme na meta Barbora.mdb. Spustíme soubor LMAdmin.exe a v okně, které se nám zobrazilo vybereme volbu Create new data source. V následujícím okně vybereme tlačítkem Browse analyzovaná data (data Barbora.mdb) a LISp-Miner metabázi (meta Barbora.mdb), jako na obrázku: Všiměme si nastavení typu DSN: na počítačových učebnách musíme zvolit User a tuto proceduru nastavování pomocí LMAdmin opakovat po každém novém přihlášení ke školní síti. Doma můžete používat i volbu System; nastavování nebudete muset opakovat a nastavení zůstane uloženo, dokud jej sami neodstraníte. Po potvrzení nastavení databáze a metabáze se nám objeví základní obrazovka modulu LMAdmin. Tento modul již nebudeme potřebovat, můžeme jej tedy ukončit (exit nebo prostým zavřením okna). Nyní spustíme soubor LMDataSource.exe, vybereme datový zdroj, který jsme právě vy- 8

9 tvořili a dostaneme se na základní obrazovku modulu DataSorce. Vidíme, že naše analyzovaná data obsahují jedinou tabulku, která se jmenuje Loans. Když na základní obrazovce zvolíme tlačítko Columns, zjistíme, že tabulka má osm sloupců. Tlačítkem Rows zjistíme, že v naší tabulce Loans je záznamů (řádků). Pro práci s analyzovanými daty potřebujeme nejprve označit primární klíč. Primární klíč jednoznačně identifikuje každý řádek v jedné tabulce (musí obsahovat vzájemně různé hodnoty a nikdy nemůže nabýt hodnoty NULL). Primární klíč se může skládat z jediného nebo z několika sloupců tabulky. Stiskneme klávesu F5 nebo tlačítko nebo v menu Database zvolíme Data Matrices. V seznamu tabulek máme označenou naši jedinou tabulku, můžeme tedy pokračovat tlačítkem Details. Naše tabulka má jednoduchý primární klíč, tvořený sloupcem loan id vybereme tento sloupec a zvolíme tlačítko Primary key. Kontrolu duplicit spustíme tlačítkem Check. V tomto okně vidíme sloupce tabulky, ve které máme data, která budeme analyzovat. Vidíme, že tu máme například sloupec birth number (rodné číslo), ale nás by spíše zajímal věk. Vytvoříme tedy nový sloupec zvolíme tlačítko Add derived. Věk z rodného čísla zjistíme viz obrázek: Abychom mohli používat 4ftTask pro dobývání asociačních pravidel, musíme si v modulu LMAdmin vytvořit atributy. Stiskneme tlačítko nebo v menu Database zvolíme Attributes Lists. Zjistíme, že seznam atributů je zatím prázdný. Stiskneme tlačítko Add a v následujícím okně vybereme naši jedinou tabulku tlačítkem Select. Tím získáme okno se seznamem sloupců naší tabulky s analyzovanými daty, ze kterých budeme vytvářet atributy. Vybereme sloupec Amount a zvolíme tlačítko Create attribute. V okně Attribute definition začneme definovat nový atribut (Amount jsme přejmenovali na Castka výše poskytnutého 9

10 úvěru): V následujícím okně Automatic creation of categories přečteme, že atribut Castka byl vytvořen ze sloupečku amount, nejnižší poskytnutý úvěr představoval půjčenou částku 4 980, největší částka, kterou banka půjčila různých částek je rozumné sloučit do několika intervalů. Zvolíme ekvidistantní (stejně dlouhé) intervaly, začínající od nuly, s délkou : 10

11 Dostaneme se na okno Attribute. Tlačítkem Fr. analysis získáme frekvenční analýzu. Z důvodu relativně nízkého počtu můžeme sloučit poslední (nejvyšší) dvě hodnoty označíme je a poté je sloučíme tlačítkem Join (poté ji můžeme přejmenovat tlačítko Category, Edit Category). Máme vytvořen první atribut. Dále vytvoříme atribut ze sloupce District. V okně Automatic creation of categories ponecháme volbu Each value one category. Třetím atributrem bude doba splácení úvěru duration (počet měsíců). Opět ponecháme volbu Each value one category. V okně Attribute pak sloučíme hodnoty 12 a 13. Dalším atributem budou výše splátek Payments. V okně Automatic creation of categories zvolíme ekvidistanční intervaly, od nuly, s délkou Odlehlou hodnotu (maximální splátka) můžeme spolu s nulovými hodnotami odstranit (Del). Ze sloupce salary (výše mzdy) vytvoříme atribut (ekvidistantní intervaly od s délkou intervalu 1 000). Jako předposlední vytvoříme atribut status (each value one category). Interpretace hodnot atributu status: A = půjčka splacena bez problémů, B = půjčka nebyla řádně splacena, C = půjčka je splácena (zatím bez problémů), D = půjčka je splácena, splátky jsou ale se zpožděním. Nakonec vytvoříme atribut z námi vytvořeného sloupce věk (ekvidistantní intervaly od 20, délky 5). Tím jsme si připravili atributy pro dobývání asociačních pravidel, než však ukončíme práci s modulem DataSource, ukážeme si 11

12 ještě jednu možnou analýzu, kterou nám DataSource nabízí: v menu Analysis vybereme KxL Contingency Table. Například pro analýzu závislosti výše úvěru na věku klienta dostaneme: Z této kontingenční analýzy vidíme, že skupiny mladých a starších klientů si půjčovali spíše menší částky, zatímco klienti ve středním věku si půjčovali nejen menší, ale i vyšší částky. Nyní již modul DataSource opustíme. Spustíme modul 4ftTask.exe a vybereme náš zdroj dat. Novou úlohu dobývání asociačních pravidel vytvoříme, když stiskneme klávesu F6 nebo tlačítko nebo vybereme v menu Task description položku New task. Úlohu si pojmenujeme, zařadíme do nějaké skupiny (můžeme si vytvořit několik skupin úloh, skupiny slouží pro naši lepší orientaci), kdykoli si můžeme k úlohám editovat své poznámky komentáře. Dostaneme se na základní okno s parametry naší první úlohy. Úkolem naší první úlohy bude najít příčiny, které vedly k nesplacení půjček (status B). V okně Task zvolíme tlačítko ANTECEDENT. Tlačítkem Edit změníme 12

13 minimální délku antecedentu na 1, maximální délku na 4 literály. Literál do antecedentu přidáme tlačítkem Add a v následujícím okně vybereme atribut, ze kterého má být literál vytvořen. U každého literálu specifikujeme typ literálu, typ gace, typ koeficientu, minimální a maximální délky koeficientu: Každé asociační pravidlo musí v antecedentu obsahovat alespoň jeden literál typu Basic. (Dále může obsahovat i literály Remaining.) Typ gace literálu specifikuje, zda se daný literál v asociačních pravidlech může vyskytovat jen v pozitivní formě nebo jen ve své negaci, nebo v zda se může současně vyskytovat v některém asociačním pravidle v pozitivním tvaru a v jiném pravidle ve své negaci. Typ koeficientu říká, jakým způsobem se z hodnot atributu (tedy kategorií, viz modul DataSource, vytváření atributů ze sloupců tabulek) vytvářejí literály: Subset (podmnožiny kategorií atributu), Interval (intervaly kategorií atributu), Cyclical intervals (intervaly, včetně intervalů, které začínají posledními kategoriemi a končí počátečními kategoriemi), Left cut (levé řezy, intervaly, které obsahují první kategorii), Right cut (pravé řezy, intervaly, které obsahují poslední kategorii), Cuts (řezy, levé nebo pravé řezy), Boolean true (pouze u atributů, které mají u kategorií nastavenou hodnotu Boolean true nebo false),... Speciální typem koeficientu je typ One category (jediná kategorie), kdy současně musíme specifikovat i konkrétní kategorii. Poznamenejme ještě, že u koeficientů typu intervaly, řezy (i levé a pravé) a cyklické intervaly záleží na pořadí kategorií! Na tuto skutečnost musíme dát pozor v případech, kdy jsme v modulu DataSource slučovali nebo jinak editovali kategorie atributů. Zadání antecedentu pro náš první příklad: 13

14 Když nás zajímá pouze status půjčky B, nastavíme parametry sukcedentu takto: sukcedent bude obsahovat jediný literál Status, typ koeficientu One category, vybereme kategorii B. Protože hledáme asociační pravidla ve tvaru implikace: JESTLIŽE vypůjčená částka, okres bydliště klienta banky, doba splácení, velikost splátky, plat klienta, věk klienta POTOM půjčka nebyla splacena, zvolíme kvantifikátor fundované implikace (Founded Implication) s parametry p=0.9 a BASE 15 (parametr BASE nastavíme ve volbě Params, kde současně odznačíme dvě volby Options). Úlohu spustíme tlačítkem Generate. Úloha trvala cca 20 vteřin, bylo provedeno verifikací a bylo objeveno 23 asociačních pravidel (hypotéz hypotéza je metodologicky správnější označení pro méně správné asociační pravidlo; termín asociační pravidlo je však v literatuře příliš rozšířen). Objevená asociační pravidla si můžeme prohlédnout v modulu 4ftResult, který můžeme spustit tlačítkem na hlavní obrazovce modulu 4ftTask, nebo spuštěním 4ftResult.exe souboru. Modul 4ftResult slouží pro analýzu objevených asociačních pravidel (jak již víme hypotéz). V dolní polovině hlavního okna modulu vidíme všechna objevená asociační pravidla dané úlohy. Tlačítkem nebo klávesou F7 vybíráme úlohu, jejíž výsledky chceme analyzovat. Pravidla můžeme třídit tlačítkem Sort nebo můžeme jejich počet snížit vyfiltrováním pravidel, které splňují naše požadavky tlačítko Filter. 14

15 Podívejme se na detail jednoho asociačního pravidla, na kartu TEXT: Toto asociační pravidlo říká: Antecedent: klient je z Prahy a současně délka splácení úvěru je 24 nebo 36 měsíců a současně výše měsíční splátky je v intervalu od 6 do 8 tisíc a současně věk klienta je 65 nebo více let. Sukcedent: půjčka nebyla řádně splacena V databázi existuje 18 úvěrů, které současně splňují antecedent i sukcedent; 271 úvěrů, které současně splňují sukcedent a nesplňují antecedent; úvěrů, které současně nesplňují ani antecedent ani sukcedent. V databázi neexistuje úvěr, který by současně splňoval antecedent a nesplňoval sukcedent. Z těchto číselných údajů čtyřpolní kontingenční tabulky (4ft) můžeme získat zajímavé ukazatele, které asociační pravidlo charakterizují: a a+b Confidence nabývá pro naše pravidlo hodnotu Představuje podmíněnou pravděpodobnost sukcedentu za předpokladu, že platí antecedent. Měří sílu platnosti implikace: JESTLIŽE platí antecedent POTOM platí sukcedent. a Support a+b+c+d představuje pravděpodobnost, že současně platí antecedent i sukcedent. Naše ukázkové pravidlo má hodnotu support Vybrané asociační pravidlo můžeme interpretovat takto: V analyzovaných datech platí 100 % implikace 3 : klient, který je z Prahy a vypůjčil si na 24 nebo 36 měsíců a výše jeho měsíční splátky je vyšší než 6 tisíc a nižší než 8 3 Kdyby hodnota Confidence byla např. 0.85, říkali bychom, že jde o 85 % implikaci. 15

16 tisíc a je starší 65 let, potom půjčka nebyla řádně splacena; takových půjček bylo poskytnuto 18. Confidence je samozřejmě asymetrická, když vzájemně zaměníme sukcedent s antecedentem, hodnota Confidence se změní (až na specifické případy); implikace ANTECEDENT implikuje SUKCEDENT je něco jiného než implikace SUKCEDENT implikuje ANTECEDENT. Support je symetrický, vzájemnou záměnou cedentů zůstane hodnota support stejná. Zajímavou charakteristikou asociačních pravidelje charakteristika Average difference a(a+b+c+d) (a+b)(a+c) 1. Pro naše pravidlo nabývá hodnoty Pokud k této hodnotě přičteme jedničku, zjistíme, kolikrát se zvýší pravděpodobnost sukcedentu, když platí antecedent oproti případu, kdy nevíme, zda antecedent platí nebo neplatí jinými slovy: kolikrát musíme vynásobit apriorní pravděpodobnost sukcedentu, abychom dostali hodnotu posteriorní pravděpodobnosti sukcedentu pro případ, kdy antecedent platí. Zajímavostí (na první pohled dokonce docela paradoxní) je, že Average difference je symetrická! Tedy vzájemnou záměnou cedentů se hodnota Average difference nezmění. Naše asociační pravidlo tedy můžeme interpretovat také následujícím způsobem: pravděpodobnost, že úvěr nebude řádně splacen, je krát větší, pokud se jedná o klienta z Prahy, který bude půjčku splácet 24 nebo 36 měsíců a výše jeho měsíční splátky je vyšší než 6 tisíc a nižší než 8 tisíc a je starší 65 let, než jaká je pravděpodobnost nesplacení úvěru v případě, že o půjčce a klientovi nevíme žádné informace (myšlena pravděpodobnost nesplacení půjčky v celé naší fiktivní bance). 16

17 Literatura [1] BERKA, Petr: Dobývání znalostí z databází. Praha : Academia ISBN [2] BERKA, Petr: Aplikace systémů dobývání znalostí pro analýzu medicínských dat [online, citováno dne ]. Dostupné z Internetu: [3] BURIAN, Jan: Datamining a AA (Above Average) kvantifikátor. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [4] FAYYAD, Usama PIATETSKY-SHAPIRO, Gregory SMYTH, Padhraic: From Data Mining to Knowledge Discovery in Databases [online]. AI Magazine, Fall American Association for Artificial Intelligence, [citováno dne ]. Dostupné z Internetu: [5] HAND, David MANNILA, Heikki SMYTH, Padhraic: Principles of Data Mining. Cambridge : A Bradford Book MIT Press s. ISBN X. [6] CHAPMAN, Pete kolektiv: CRISP-DM 1.0 Step-by-step data mining guide [online]. CRISP-DM consortium, [citováno ]. Dostupné z Internetu: [7] KEJKULA, Martin: 4ft analýza sekvencí událostí. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [8] LÍN, Václav: Příspěvek k formalizaci úloh pro dobývání asociačních pravidel. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [9] MÁŠA, Petr: Relevance a interpretace asociačních pravidel. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [10] RAUCH, Jan ŠIMŮNEK, Milan: Systém LISp-Miner. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [11] ŠLESINGER, Jan: Předzpracování časových řad pro systém LISp-Miner. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN

LISp-Miner. 11.5.2004 Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích

LISp-Miner. 11.5.2004 Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích LISp-Miner 11.5.2004 Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích Zadání Popis systému LISp-Miner a experimenty s databází. Abstrakt Tento projekt popisuje systém LISp-Miner, jeho

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner Vysoká škola ekonomická Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Systém LISp-Miner Stručný popis určený pro posluchače kurzů Metod zpracování informací verse 20.

Více

Dobývání znalostí z databází

Dobývání znalostí z databází Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable

Více

MS SQL Server 2008 Management Studio Tutoriál

MS SQL Server 2008 Management Studio Tutoriál MS SQL Server 2008 Management Studio Tutoriál Vytvoření databáze Při otevření management studia a připojením se ke konkrétnímu sql serveru mám v levé části panel s názvem Object Explorer. V tomto panelu

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch Anotace: Příspěvek obsahuje základní informace o dobývání znalostí jakožto důležité disciplíně informatiky a ukazuje příklady

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9 Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Téma 9: Vícenásobná regrese

Téma 9: Vícenásobná regrese Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.

Více

Databáze v MS ACCESS

Databáze v MS ACCESS 1 z 14 19.1.2014 18:43 Databáze v MS ACCESS Úvod do databází, návrh databáze, formuláře, dotazy, relace 1. Pojem databáze Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele,

Více

Informační systémy 2006/2007

Informační systémy 2006/2007 13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza

Více

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009

Více

BA_EM Electronic Marketing. Pavel

BA_EM Electronic Marketing. Pavel BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?

Více

KAPITOLA 11 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

KAPITOLA 11 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM KAPITOLA 11 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM FILTROVÁNÍ DAT Po filtrování dat jsou zobrazeny pouze řádky, které splňují zadaná kritéria, a řádky, které nechcete zobrazit, jsou skryty. Filtrovat

Více

ANALYSIS SERVICES PROJEKT VYTVOŘENÍ PROJEKTU A DATOVÉ KOSTKY

ANALYSIS SERVICES PROJEKT VYTVOŘENÍ PROJEKTU A DATOVÉ KOSTKY ANALYSIS SERVICES PROJEKT VYTVOŘENÍ PROJEKTU A DATOVÉ KOSTKY Spusťte BIDS - z menu vyberte File/New/Project a vytvořte nový Analysis Services Project typu Bussines Inteligence Project - doplňte jméno projektu

Více

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií VY_32_INOVACE_33_04 Škola Střední průmyslová škola Zlín Název projektu, reg. č. Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/34.0333 Vzdělávací oblast Vzdělávání v informačních a komunikačních

Více

Analýza časových řad pomoci SAS82 for Win

Analýza časových řad pomoci SAS82 for Win Analýza časových řad pomoci SAS82 for Win 1) Vstupní data Vstupní data musí mít vhodný formát, tj. žádný oddělovač tisíců, správně nastavený desetinný oddělovač. Název proměnné pro SAS nesmí obsahovat

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské

Více

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně Identifikační karta modulu v. 4 Kód modulu Typ modulu profilující Jazyk výuky čeština v jazyce výuky Management informačních systémů česky Management informačních systémů anglicky Information systems management

Více

Access. Tabulky. Vytvoření tabulky

Access. Tabulky. Vytvoření tabulky Access správa databáze (tabulky, relace, omezující podmínky, data...) uživatelské prostředí pro práci s databází (formuláře, sestavy, datové stránky, makra...) ukázková aplikace Northwind hlavní okno databáze

Více

Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0).

Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0). Výroková logika II Negace Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0). Na konkrétních příkladech si ukážeme, jak se dají výroky negovat. Obecně se výrok dá negovat tak, že před

Více

Cíle supervizovaného učení Ondřej Háva

Cíle supervizovaného učení Ondřej Háva Cíle supervizovaného učení Ondřej Háva ACREA CR Využíváme více než 40 let zkušeností IBM s hlavním cílem: řízení rozhodovacích procesů Akvizice SPSS společností IBM v říjnu 2009 Přejmenování SPSS CR na

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Příprava dat v softwaru Statistica

Příprava dat v softwaru Statistica Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,

Více

LISp-Miner Na lékal kařských datech. Martin Šulc Cikháj 5.-4..005 4..005 Abstrakt Tato přednp ednáška je o systému vyvíjen jeném m na VŠE V E v Praze a o jeho aplikaci na data, která jsou genetickým obrazem

Více

Hromadná korespondence

Hromadná korespondence Kapitola dvanáctá Hromadná korespondence Učební text Mgr. Radek Hoszowski Hromadná korespondence Hromadná korespondence Představíme si jednoduchý nástroj, který nám může ušetřit velké množství práce. Je

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev Úvod do databází Modelování v řízení Ing. Petr Kalčev Co je databáze? Množina záznamů a souborů, které jsou organizovány za určitým účelem. Jaké má mít přínosy? Rychlost Spolehlivost Přesnost Bezpečnost

Více

Slučování tabulek. Sloučení dvou tabulek

Slučování tabulek. Sloučení dvou tabulek Slučování tabulek Newsletter Statistica ACADEMY Téma: Příprava dat Typ článku: Návody Máte informace ve více tabulkách a chcete je sloučit dohromady? Pak je tento článek právě pro Vás. Vysvětlíme, jaké

Více

Časové řady - Cvičení

Časové řady - Cvičení Časové řady - Cvičení Příklad 2: Zobrazte měsíční časovou řadu míry nezaměstnanosti v obci Rybitví za roky 2005-2010. Příslušná data naleznete v souboru cas_rada.xlsx. Řešení: 1. Pro transformaci dat do

Více

Návod pro práci s SPSS

Návod pro práci s SPSS Návod pro práci s SPSS Návody pro práci s programem SPSS pro kurz Metodologie pro Informační studia a knihovnictví 2 (jaro 2013) Ladislava Zbiejczuk Suchá Instalace programu SPSS najdete v INETu. Po přihlášení

Více

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla Dobývání znlostí z dtbází (MI-KDD) Přednášk číslo 4 Asociční prvidl (c) prof. RNDr. Jn Ruch, CSc. KIZI, Fkult informtiky sttistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Prh & EU: Investujeme

Více

Obr. P1.1 Zadání úlohy v MS Excel

Obr. P1.1 Zadání úlohy v MS Excel Přílohy Příloha 1 Řešení úlohy lineárního programování v MS Excel V této příloze si ukážeme, jak lze řešit úlohy lineárního programování pomocí tabulkového procesoru MS Excel. Výpočet budeme demonstrovat

Více

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára Odhady parametrů základního souboru Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára Motivační příklad Mám průměrné roční teploty vzduchu z 8 stanic

Více

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM CÍLE KAPITOLY Využívat pokročilé možnosti formátování, jako je podmíněné formátování, používat vlastní formát čísel a umět pracovat s listy. Používat

Více

Výpočet na gridu a LM TaskPooler

Výpočet na gridu a LM TaskPooler Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 10 Výpočet na gridu a LM TaskPooler v systému LISp-Miner (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský

Více

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci

Více

1. Dobývání znalostí z databází

1. Dobývání znalostí z databází 1. Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých kruzích mluvit počátkem 90. let. První impuls přišel z Ameriky, kde se na konferencích

Více

LISp-Miner: systém pro získávání znalostí z dat 1

LISp-Miner: systém pro získávání znalostí z dat 1 LISp-Miner: systém pro získávání znalostí z dat 1 Petr Berka, Jan Rauch, Milan Šimůnek VŠE Praha Nám. W. Churchilla 4, Praha 3 e-mail: {berka,rauch,simunek}@vse.cz Abstrakt. Systém LISp-Miner je otevřený

Více

FORTANNS. havlicekv@fzp.czu.cz 22. února 2010

FORTANNS. havlicekv@fzp.czu.cz 22. února 2010 FORTANNS manuál Vojtěch Havlíček havlicekv@fzp.czu.cz 22. února 2010 1 Úvod Program FORTANNS je software určený k modelování časových řad. Kód programu má 1800 řádek a je napsán v programovacím jazyku

Více

Credit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna 2013. Brno

Credit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna 2013. Brno Credit scoring Libor Vajbar Analytik řízení rizik 18. dubna 2013 Brno 1 PROFIL SPOLEČNOSTI Home Credit a.s. přední poskytovatel spotřebitelského financování Úvěrové produkty nákup na splátky u obchodních

Více

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf Pátek 30. září Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf Nástroje grafu (objeví se při označeném grafu) - 3 záložky návrh, rozložení,

Více

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi.

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi. Databáze Základní pojmy Pojem databáze označuje obecně souhrn informací, údajů, dat o nějakých objektech. Úkolem databáze je hlídat dodržení všech omezení a dále poskytovat data při operacích. Objekty

Více

Získávání znalostí z databází. Alois Kužela

Získávání znalostí z databází. Alois Kužela Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1 Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie

Více

Schvalovací proces žádostí o úvěr

Schvalovací proces žádostí o úvěr Schvalovací proces žádostí o úvěr Milan Roupec Embedit (Home Credit International) Martin Řezáč ÚMS PřF MU K čemu schvalovací proces? Posouzení žádosti o úvěr Odhalení pokusů o podvod Falešné údaje na

Více

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel

Více

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR Váš pomocník pro analýzu dat MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich StatSoft CR StatSoft StatSoft CR Dodavatel komplexních analytických řešení Výhradní dodavatel softwaru STATISTICA pro

Více

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel Přílohy Příloha 1 Řešení úlohy lineárního programování v MS Excel V této příloze si ukážeme, jak lze řešit úlohy lineárního programování pomocí tabulkového procesoru MS Excel 2007. Výpočet budeme demonstrovat

Více

Základní informace o co se jedná a k čemu to slouží

Základní informace o co se jedná a k čemu to slouží Základní informace o co se jedná a k čemu to slouží založené na relačních databází transakční systémy, které jsou určeny pro pořizování a ukládání dat v reálném čase (ERP, účetní, ekonomické a další podnikové

Více

Databázové systémy Cvičení 5.2

Databázové systémy Cvičení 5.2 Databázové systémy Cvičení 5.2 SQL jako jazyk pro definici dat Detaily zápisu integritních omezení tabulek Integritní omezení tabulek kromě integritních omezení sloupců lze zadat integritní omezení jako

Více

Cvičení 5 - Inverzní matice

Cvičení 5 - Inverzní matice Cvičení 5 - Inverzní matice Pojem Inverzní matice Buď A R n n. A je inverzní maticí k A, pokud platí, AA = A A = I n. Matice A, pokud existuje, je jednoznačná. A stačí nám jen jedna rovnost, aby platilo,

Více

MS Excel 2007 Kontingenční tabulky

MS Excel 2007 Kontingenční tabulky MS Excel 2007 Kontingenční tabulky Obsah kapitoly V této kapitole se seznámíme s nástrojem, který se používá k analýze dat rozsáhlých seznamů. Studijní cíle Studenti budou umět pro analýzu dat rozsáhlých

Více

Statistica Enterprise

Statistica Enterprise Statistica Enterprise díl první Newsletter Statistica ACADEMY Téma: Enterprise, možnosti software Typ článku: Příklad V starším článku jsme si představili jednotlivé typy licencí softwaru Statistica. V

Více

Úvod do databázových systémů

Úvod do databázových systémů Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Database Research Group Úvod do databázových systémů Cvičení 3 Ing. Petr Lukáš petr.lukas@vsb.cz

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Vzdálené ovládání dotykového displeje IDEC HG3G pomocí routeru VIPA TM-C VPN

Vzdálené ovládání dotykového displeje IDEC HG3G pomocí routeru VIPA TM-C VPN Vzdálené ovládání dotykového displeje IDEC HG3G pomocí routeru VIPA TM-C VPN Vzdálené ovládání dotykového displeje IDEC HG3G pomocí routeru VIPA TM-C VPN Abstrakt Tento aplikační postup je ukázkou jak

Více

StatSoft Úvod do data miningu

StatSoft Úvod do data miningu StatSoft Úvod do data miningu Tento článek je úvodním povídáním o data miningu, jeho vzniku, účelu a využití. Historie data miningu Rozvoj počítačů, výpočetní techniky a zavedení elektronického sběru dat

Více

3. Optimalizace pomocí nástroje Řešitel

3. Optimalizace pomocí nástroje Řešitel 3. Optimalizace pomocí nástroje Řešitel Rovnováha mechanické soustavy Uvažujme dvě různé nehmotné lineární pružiny P 1 a P 2 připevněné na pevné horizontální tyči splývající s osou x podle obrázku: (0,0)

Více

Úvod do databázových systémů

Úvod do databázových systémů Úvod do databázových systémů Databáze je dnes velmi často skloňovaným slovem. Co se pod tímto termínem skrývá si vysvětlíme na několika následujících stranách a cvičeních. Databáze se využívají k ukládání

Více

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 4

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 4 UNIVERZITA TOMÁŠE BATI VE ZLÍNĚ FAKULTA APLIKOVANÉ INFORMATIKY GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 4 Praktické zvládnutí software Geomedia Pavel Vařacha a kol. Zlín 2013 Tento studijní materiál vznikl

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Microsoft Office. Word hromadná korespondence

Microsoft Office. Word hromadná korespondence Microsoft Office Word hromadná korespondence Karel Dvořák 2011 Hromadná korespondence Hromadná korespondence je způsob, jak určitý jeden dokument propojit s tabulkou obsahující více záznamů. Tímto propojením

Více

5. POČÍTAČOVÉ CVIČENÍ

5. POČÍTAČOVÉ CVIČENÍ 5. POČÍTAČOVÉ CVIČENÍ Databáze Databázi si můžeme představit jako místo, kam se ukládají všechny potřebné údaje. Přístup k údajům uloženým v databázi obstarává program, kterému se říká Systém Řízení Báze

Více

1 Administrace systému 3. 1.3 Moduly... 3 1.4 Skupiny atributů... 4 1.5 Atributy... 4 1.6 Hodnoty atributů... 4

1 Administrace systému 3. 1.3 Moduly... 3 1.4 Skupiny atributů... 4 1.5 Atributy... 4 1.6 Hodnoty atributů... 4 CRM SYSTÉM KORMORÁN PŘÍRUČKA ADMINISTRÁTORA Obsah 1 Administrace systému 3 1.1 Uživatelské účty.................................. 3 1.2 Přístupová práva................................. 3 1.3 Moduly.......................................

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/34.0333 Vzdělávání v informačních a komunikačních technologií

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/34.0333 Vzdělávání v informačních a komunikačních technologií VY_32_INOVACE_33_06 Škola Střední průmyslová škola Zlín Název projektu, reg. č. Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/34.0333 Vzdělávací oblast Vzdělávání v informačních a komunikačních

Více

MS Word 2007 Šablony programu MS Word

MS Word 2007 Šablony programu MS Word MS Word 2007 Šablony programu MS Word Obsah kapitoly V této kapitole se seznámíme s: Možností využití šablon při vytváření nových dokumentů Vytvářením vlastních šablon Studijní cíle Po absolvování této

Více

My si nyní takovou sestavu vytvoříme na příkladu jednoduché kanceláře. Začneme vytvořením takové kanceláře.

My si nyní takovou sestavu vytvoříme na příkladu jednoduché kanceláře. Začneme vytvořením takové kanceláře. Sestavy Sestavy (angl. Reports) slouží ve Visiu k rychlému vytvoření přehledného souhrnu informací o objektech na výkresu. Visio umí tyto stručné sestavy vytvářet jako sešit programu Excelu, ve formátu

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Projekt Atlasu znečištění ovzduší

Projekt Atlasu znečištění ovzduší Projekt Atlasu znečištění ovzduší Tak jak bylo zmíněno na konci první kapitoly, budeme v následujících cvičeních pracovat na samostatném projektu. Cílem projektu je vytvořit jednoduchý atlas znečištění

Více

PostgreSQL jako platforma pro datové sklady

PostgreSQL jako platforma pro datové sklady PostgreSQL jako platforma pro datové sklady Vratislav Beneš benes@optisolutions.cz 1. Co to jsou datové sklady? 2. Požadavky na datový sklady 3. Technické řešení datového skladu 4. PostgreSQL a datové

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Úvod do problematiky Doc. RNDr. Iveta Mrázová,

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 7: Třídění druhého stupně. Kontingenční tabulky Co se dozvíte v tomto modulu? Co je třídění druhého stupně Jak vytvořit a interpretovat kontingenční

Více

zobrazuje názvy polí, vložené hodnoty jednotlivých záznamů, lze v něm zadávat data (přidávat záznamy) v návrhovém zobrazení:

zobrazuje názvy polí, vložené hodnoty jednotlivých záznamů, lze v něm zadávat data (přidávat záznamy) v návrhovém zobrazení: DUM 02 téma: Tabulky v MS Access ze sady: 3 tematický okruh sady: Databáze ze šablony: 07 - Kancelářský software určeno pro: 2. ročník vzdělávací obor: vzdělávací oblast: číslo projektu: anotace: metodika:

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

Datové modelování II

Datové modelování II Datové modelování II Atributy Převod DM do schématu SŘBD Dotazovací jazyk SQL Multidimenzionální modelování Principy Doc. Miniberger, BIVŠ Atributy Atributem entity budeme rozumět název záznamu či informace,

Více

František Hudek. červen 2012

František Hudek. červen 2012 VY_32_INOVACE_FH09 Jméno autora výukového materiálu Datum (období), ve kterém byl VM vytvořen Ročník, pro který je VM určen Vzdělávací oblast, obor, okruh, téma Anotace František Hudek červen 2012 8. ročník

Více

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o. GIS jako důležitá součást BI Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o. ARCDATA PRAHA, s.r.o. THE GEOGRAPHIC ADVANTAGE Motto Sladit operační taktiku s organizační strategií Strategie bez taktiky je

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Číslo a název šablony Číslo didaktického materiálu Druh didaktického materiálu Autor Jazyk Téma sady didaktických materiálů Téma didaktického materiálu Vyučovací předmět Cílová skupina (ročník) Úroveň

Více

Excel tabulkový procesor

Excel tabulkový procesor Pozice aktivní buňky Excel tabulkový procesor Označená aktivní buňka Řádek vzorců zobrazuje úplný a skutečný obsah buňky Typ buňky řetězec, číslo, vzorec, datum Oprava obsahu buňky F2 nebo v řádku vzorců,

Více

VYUŽITÍ MATLABU PRO VÝUKU NUMERICKÉ MATEMATIKY Josef Daněk Centrum aplikované matematiky, Západočeská univerzita v Plzni. Abstrakt

VYUŽITÍ MATLABU PRO VÝUKU NUMERICKÉ MATEMATIKY Josef Daněk Centrum aplikované matematiky, Západočeská univerzita v Plzni. Abstrakt VYUŽITÍ MATLABU PRO VÝUKU NUMERICKÉ MATEMATIKY Josef Daněk Centrum aplikované matematiky, Západočeská univerzita v Plzni Abstrakt Současný trend snižování počtu kontaktních hodin ve výuce nutí vyučující

Více

Evidence technických dat

Evidence technických dat 4 Evidence technických dat V té to ka pi to le: Evidence majetku Evidence zakázek Evidence technické dokumentace Kapitola 4 Evidence technických dat Povinnost evidovat různé druhy dat má každý podnikatelský

Více

Asociační pravidla (metoda GUHA)

Asociační pravidla (metoda GUHA) Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Asociační pravidla (metoda GUHA) Ing. Michal Burda () Získávání znalostí z dat Brno, 27. ledna

Více

ZŠ ÚnO, Bratří Čapků 1332

ZŠ ÚnO, Bratří Čapků 1332 MS Excel 2002 Grada - po spuštění je třeba kliknout do středu obrazovky - v dalším dialogovém okně (Přihlášení) vybrat uživatele, zřídit Nového uživatele nebo zvolit variantu Bez přihlášení (pro anonymní

Více

4. Vzorce v Excelu Tipy pro práci s Wordem Kontingenční tabulky v Excelu

4. Vzorce v Excelu Tipy pro práci s Wordem Kontingenční tabulky v Excelu 4. Vzorce v Excelu Tipy pro práci s Wordem Kontingenční tabulky v Excelu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Zdroje dat Excelu Import dat

Více

První kroky v tvorbě databáze v Access 2007

První kroky v tvorbě databáze v Access 2007 První kroky v tvorbě databáze v Access 2007 Daný dokument nabízí plán prezentování úvodní informace k aplikaci Access 2007. Příprava k tvorbě databáze Pro lepší orientace v následující práci představme

Více