4ft-Miner pro začátečníky Získávání znalostí z databází
|
|
- Jarmila Konečná
- před 10 lety
- Počet zobrazení:
Transkript
1 4ft-Miner pro začátečníky Získávání znalostí z databází Dobývání znalostí z databází (DZD) Knowledge Discovery in (from) Databases (KDD) Data Mining (DM) Materiál pro posluchače kurzů IZI211 Metody zpracování informací a IZI212 Metody zpracování informací praktika Martin Kejkula kejkula@vse.cz 1. října 2004
2 Slovo čtenáři Tento studijní materiál (sylabus) je doplňkem k přednášce IZI211 a ke cvičením IZI212, který má studentům pomoci při výuce úvodu do DZD/KDD. Není to však samostatný studijní materiál, ale jen a pouze doplňkový sylabus např. jsou zde použity některé termíny, které nejsou vysvětleny (koeficient, kvantifikátor, literál). Kromě zmiňovaných přednášek a cvičení slouží studentům ke studiu DZD/KDD literatura [1] a zdroje dostupné na Internetu: [2], [4], [6] a LISp-Miner. První část tohoto materiálu obsahuje velmi stručné charakteristiky procesu DZD/KDD, včetně stručných poznámek o metodice CRISP-DM. Druhá část je stručným průvodcem, který umožňuje čtenáři, aby si vytvořil v systému 4ft-Miner svou první úlohu DZD. DZD/KDD je v rámci předmětů IZI211 a IZI212, pro které je určen tento materiál, přednášen na seznamovací (začátečnické) úrovni, katedra IZI však vypisuje několik pokročilých kurzů DZD/KDD pro vyšší ročníky: IZI456 získávání znalostí z databází, IZI461 umělé neuronové sítě, IZI462 zpracování nejistoty v umělé inteligenci (bayesovské sítě), IZI495 specifické přístupy k získávání znalostí z databází. Protože si je autor vědom, že přes několikeré přečtení a překontrolování textu, v něm čtenáři můžou najít chyby, omlouvá se za ně tímto čtenářům. Své připomínky k tomuto sylabu můžete posílat na níže uvedenou adresu. V Praze, 1. října 2004 Martin Kejkula kejkula@vse.cz
3 Získávání znalostí z databází (data mining): cca od 60. let 20. století největší rozvoj cca od roku 1990 typicky je součástí business intelligence (BI) 1 induktivní charakter (z konkrétních dat se vyvozují obecná tvrzení o datech) Definice: Data mining je analýza (často obrovských) souborů dat, za účelem nalezení netušených vztahů a shrnutí dat novým způsobem tak, aby byly (tyto nalezené vztahy a nová shrnutí) pro vlastníka užitečné, a aby jim byl vlastník dat schopen porozumět [5]. Aplikační oblasti: snad všechny obory lidské činnosti (lékařství, výroba, finance, pojišťovnictví, marketing, státní a veřejná správa a mnoho dalších) aplikace: segmentace a klasifikace (např. klasifikace družicových snímků Země, rentgenových snímků pacientů, rozpoznávání problémových a bonitních klientů bank a pojišťoven (např. pojišťovacích podvodů), segmentace zákazníků (komu nabídnout jaký produkt),... ) predikce (vývoje kursu akcií, spotřeby elektrické energie v dané lokalitě, predikce spotřeby plynu, vody,... ) analýza příčin (onemocnění pacientů, účinnost léků, poruchy telekominikačních zařízení, poruchy technických zařízení,... ) hledání zajímavých vyjímek v datech (analýza dopravních nehod, hledání chyb v datech,... ) spousta dalších Používají se: databázové technologie statistika metody strojového učení (umělá inteligence) 1 Zejména v komerční sféře. BI představuje aplikaci datových skladů (data warehouse, DWH), reportů z databází reporting, OLAP technologií, získávání znalostí z databází a CRM (customer relationship management). Koncept BI má konsekvence s řízením podnikání (management)... 3
4 Proces (projekt) dobývání znalostí z databází se skládá ze šesti fází: (podle [6]) Porozumění problematice (Business understanding) dívat se na problém (úlohu) z úhlu pohledu koncového uživatele (bankéře, lékaře, managera,... ). Co je cílem projektu (identifikace skupiny zákazníků, kteří brzy odejdou ke konkurenci; identifikace, který z podaných léků je původcem uzdravení; které z faktorů ovlivňují nejvíce obezitu; predikce cen akcií,... )? Sbírání background knowledge na začátku projektu. Sepsání kritérií úspěchu projektu jak poznáme, že byl projekt úspěšný nebo neúspěšný? Popsání problému, který má být vyřešen. Jak je tento problém řešen dnes výhody a nevýhody? Kdo bude uživatelem výstupů projektu? Co uživatelé od projektu očekávají a co pro svou práci nutně potřebují? Převedení cílů projektu na technický popis (v terminologii data miningu) požadavků na výstupy data miningu (tj. modely). Porozumění datům (Data understanding) Sepsání všech dat, která se budou používat. Zvážit významnost atributů. Jsou všechna potřebná data k dispozici? Převedení dat do formátu, ve kterém se budou připravovat. Popsání dat (počet záznamů v tabulkách, počet atributů tabulek, významy atributů a hodnot, kontrola typů atributů, frekvenční analýza, základní statistické charakteristiky atributů průměry, minimální a maximální hodnoty, modus, směrodatná odchylka). Vizualizace dat (histogramy,... ) Obsahují data chyby? Jak se chyby rozpoznají? Jak časté jsou chyby v datech? Jaké významy mají chybějící hodnoty? 4
5 Příprava dat (Data preparation) Výběr dat, která budou použita pro fázi modelování. Čištění dat Je možné chybné hodnoty opravit? Jak byly ošetřeny chybné hodnoty opraveny (jak?), odstraněny, ignorovány? Jaký význam mají speciální hodnoty a jak tyto hodnoty ošetřit? Integrace dat z více tabulek do jediné tabulky. Transformace dat do formátu, se kterým pracuje nástroj, který bude použit pro modelování. Vytvoření odvozených (derived) atributů. Testování významností a korelací atributů. Zkušenosti z praxe ukazují, že fáze přípravy dat zaberou okolo 80 % času projektu DZD (KDD). Modelování (Modeling) Data mining. Výběr vhodné techniky (asociační pravidla, bayesovské sítě, neuronové sítě, rozhodovací pravidla a stromy, regresní stromy, induktivní logické programování, genetické algoritmy, shlukové analýzy) závisí na typu úlohy (segmentace, klasifikace, predikce, analýza závislostí). Nastavení parametrů úlohy, spuštění úlohy modelování. Problém (úloha) definovaný ve fázi porozumění problematice se obvykle rozpadne do řady úloh modelování. Každá úloha modelování se typicky ladí opakovaným spouštěním s upravenými parametry úlohy, dokud se nedosáhne uspokojivých výsledků. Testování a posouzení kvality modelu (jak je model přesný nebo obecný, pomůže vyřešit uživatelův problém)? Vyhodnocení výsledků (Evaluation) Do jakého stupně pomůže model vyřešit problém (jak přispívá k řešení)? Proč (v čem) je model nevhodný? Interpretace modelu, aby mu uživatel (bankéř, lékař, manager,... ) rozuměl. Porovnání výsledků modelu s background knowledge bylo objeveno něco nového? Bylo potvrzeno, co se už dávno vědělo? Bylo objeveno něco, co odporuje dosavadním znalostem? Porovnání interpretace modelu se sepsanými kritérii úspěchu. Jak by bylo možné model zlepšit? Co by se příště mělo dělat jinak (poučení z tohoto projektu)? Jaké jsou současné možnosti nasazení modelu v praxi? Využití výsledků (Deployment) Zavedení modelu do praktického používání (např. při rozhodování o poskytnutí úvěru). Sepsání modelů, které je možné nasadit (použít). Aktualizace modelu. Sledování přínosů používání modelů a vlivu používání modelů na na fungování procesů ve firmě. Sepsání závěrečné zprávy. Některé metody dobývání znalostí - data mining: rozhodovací stromy, rozhodovací pravidla, regresní stromy, asociační pravidla, neuronové sítě, genetické algoritmy, hledání nejbližšího souseda, bayesovské sítě, support vector machines (SVM), induktivní logické programování. V rámci předmětu IZI212 se studenti seznamují pouze s asociačními pravidly 2. 2 Katedra IZI však vypisuje specializované předměty pro studenty vyšších ročníků např. bayesovské sítě, neuronové sítě,... 5
6 softwarové nástroje pro KDD komerční sw nástroj producent URL Clementine SPSS Enterprise Miner SAS Intelligent Miner IBM Knowledge Studio Angoss Statistica Data Miner StatSoft PolyAnalyst Megaputer akademické nástroje SumatraTT FEL ČVUT nástroj pro předzpracování a transformaci dat WEKA University of Waikato (Nový Zéland) klasifikace: několik desítek algoritmů včetně neuronové sítě, bayesovských metod, shlukovacích metod, rozhodovacích stromů shlukování: 5 metod asociační pravidla: algoritmus apriori vizualizace výsledků 6
7 LISp-Miner FIS VŠE LM Admin: modul pro nastavení datových zdrojů LM DataSource: modul pro předzpracování dat (včetně vizualizace) LM 4ftTask: modul pro dobývání asociačních pravidel LM 4ftResult: modul pro zpracování objevených asociačních pravidel LM dále obsahuje moduly pro: Knowledge EXplorer (KEX): indukci rozhodovacích pravidel KL-Miner: analýzu dvoudimenzionálních kontingenčních tabulek CF-Miner: hledání podmínek, které určují splnění zvoleného rozdělení hodnot atributu TimeTransf: předzpracování časových řad 4ft-Miner pro začátečníky Pro 4ft data mining analýzu budeme potřebovat: 1. Data, která chceme analyzovat. Je třeba, mít je ve formátu, dostupném přes ODBC (např. tabulka uložená v souboru databáze MS Access). Každý řádek tabulky nese data o jednom objektu. 2. Metabáze. Metabáze je databáze, do které se při používání LMDataSource, 4ftTask, 4ftResult (a dalších) modulů ukládají data např. parametry úloh, výsledky (objevená asociační pravidla). Prázdnou metabázi je možné získat na (jako soubor LMEmpty.mdb) 3. Modul LMAdmin.exe pro propojení databáze a metabáze. LMAdmin.exe je možné získat na 4. Modul LMDataSource.exe pro přípravu dat. 5. Modul 4ftTask.exe pro dobývání asociačních pravidel. 6. Modul 4ftResult.exe pro analýzu objevených asociačních pravidel. Moduly DataSource, 4ftTask i 4ftResult je možné získat na Na adrese lispminer.vse.cz (sekce download) získáme prázdnou metabázi (LMEmpty.mdb) a potřebné exe soubory (z balíčku LISp-Miner.4ft zip použijeme 4ftResult.exe, 4ftTask.exe, LMAdmin.exe a LMDataSource.exe). V tomto příkladu budeme používat na ukázku data 7
8 fiktivní banky BARBORA, která také získáme na lispminer.vse.cz. Soubor s analyzovanými daty Barbora.mdb rozbalíme z balíčku Barbora.zip a přejmenujeme na data Barbora.mdb, metabázi LMEmpty.mdb si přejmenujeme na meta Barbora.mdb. Spustíme soubor LMAdmin.exe a v okně, které se nám zobrazilo vybereme volbu Create new data source. V následujícím okně vybereme tlačítkem Browse analyzovaná data (data Barbora.mdb) a LISp-Miner metabázi (meta Barbora.mdb), jako na obrázku: Všiměme si nastavení typu DSN: na počítačových učebnách musíme zvolit User a tuto proceduru nastavování pomocí LMAdmin opakovat po každém novém přihlášení ke školní síti. Doma můžete používat i volbu System; nastavování nebudete muset opakovat a nastavení zůstane uloženo, dokud jej sami neodstraníte. Po potvrzení nastavení databáze a metabáze se nám objeví základní obrazovka modulu LMAdmin. Tento modul již nebudeme potřebovat, můžeme jej tedy ukončit (exit nebo prostým zavřením okna). Nyní spustíme soubor LMDataSource.exe, vybereme datový zdroj, který jsme právě vy- 8
9 tvořili a dostaneme se na základní obrazovku modulu DataSorce. Vidíme, že naše analyzovaná data obsahují jedinou tabulku, která se jmenuje Loans. Když na základní obrazovce zvolíme tlačítko Columns, zjistíme, že tabulka má osm sloupců. Tlačítkem Rows zjistíme, že v naší tabulce Loans je záznamů (řádků). Pro práci s analyzovanými daty potřebujeme nejprve označit primární klíč. Primární klíč jednoznačně identifikuje každý řádek v jedné tabulce (musí obsahovat vzájemně různé hodnoty a nikdy nemůže nabýt hodnoty NULL). Primární klíč se může skládat z jediného nebo z několika sloupců tabulky. Stiskneme klávesu F5 nebo tlačítko nebo v menu Database zvolíme Data Matrices. V seznamu tabulek máme označenou naši jedinou tabulku, můžeme tedy pokračovat tlačítkem Details. Naše tabulka má jednoduchý primární klíč, tvořený sloupcem loan id vybereme tento sloupec a zvolíme tlačítko Primary key. Kontrolu duplicit spustíme tlačítkem Check. V tomto okně vidíme sloupce tabulky, ve které máme data, která budeme analyzovat. Vidíme, že tu máme například sloupec birth number (rodné číslo), ale nás by spíše zajímal věk. Vytvoříme tedy nový sloupec zvolíme tlačítko Add derived. Věk z rodného čísla zjistíme viz obrázek: Abychom mohli používat 4ftTask pro dobývání asociačních pravidel, musíme si v modulu LMAdmin vytvořit atributy. Stiskneme tlačítko nebo v menu Database zvolíme Attributes Lists. Zjistíme, že seznam atributů je zatím prázdný. Stiskneme tlačítko Add a v následujícím okně vybereme naši jedinou tabulku tlačítkem Select. Tím získáme okno se seznamem sloupců naší tabulky s analyzovanými daty, ze kterých budeme vytvářet atributy. Vybereme sloupec Amount a zvolíme tlačítko Create attribute. V okně Attribute definition začneme definovat nový atribut (Amount jsme přejmenovali na Castka výše poskytnutého 9
10 úvěru): V následujícím okně Automatic creation of categories přečteme, že atribut Castka byl vytvořen ze sloupečku amount, nejnižší poskytnutý úvěr představoval půjčenou částku 4 980, největší částka, kterou banka půjčila různých částek je rozumné sloučit do několika intervalů. Zvolíme ekvidistantní (stejně dlouhé) intervaly, začínající od nuly, s délkou : 10
11 Dostaneme se na okno Attribute. Tlačítkem Fr. analysis získáme frekvenční analýzu. Z důvodu relativně nízkého počtu můžeme sloučit poslední (nejvyšší) dvě hodnoty označíme je a poté je sloučíme tlačítkem Join (poté ji můžeme přejmenovat tlačítko Category, Edit Category). Máme vytvořen první atribut. Dále vytvoříme atribut ze sloupce District. V okně Automatic creation of categories ponecháme volbu Each value one category. Třetím atributrem bude doba splácení úvěru duration (počet měsíců). Opět ponecháme volbu Each value one category. V okně Attribute pak sloučíme hodnoty 12 a 13. Dalším atributem budou výše splátek Payments. V okně Automatic creation of categories zvolíme ekvidistanční intervaly, od nuly, s délkou Odlehlou hodnotu (maximální splátka) můžeme spolu s nulovými hodnotami odstranit (Del). Ze sloupce salary (výše mzdy) vytvoříme atribut (ekvidistantní intervaly od s délkou intervalu 1 000). Jako předposlední vytvoříme atribut status (each value one category). Interpretace hodnot atributu status: A = půjčka splacena bez problémů, B = půjčka nebyla řádně splacena, C = půjčka je splácena (zatím bez problémů), D = půjčka je splácena, splátky jsou ale se zpožděním. Nakonec vytvoříme atribut z námi vytvořeného sloupce věk (ekvidistantní intervaly od 20, délky 5). Tím jsme si připravili atributy pro dobývání asociačních pravidel, než však ukončíme práci s modulem DataSource, ukážeme si 11
12 ještě jednu možnou analýzu, kterou nám DataSource nabízí: v menu Analysis vybereme KxL Contingency Table. Například pro analýzu závislosti výše úvěru na věku klienta dostaneme: Z této kontingenční analýzy vidíme, že skupiny mladých a starších klientů si půjčovali spíše menší částky, zatímco klienti ve středním věku si půjčovali nejen menší, ale i vyšší částky. Nyní již modul DataSource opustíme. Spustíme modul 4ftTask.exe a vybereme náš zdroj dat. Novou úlohu dobývání asociačních pravidel vytvoříme, když stiskneme klávesu F6 nebo tlačítko nebo vybereme v menu Task description položku New task. Úlohu si pojmenujeme, zařadíme do nějaké skupiny (můžeme si vytvořit několik skupin úloh, skupiny slouží pro naši lepší orientaci), kdykoli si můžeme k úlohám editovat své poznámky komentáře. Dostaneme se na základní okno s parametry naší první úlohy. Úkolem naší první úlohy bude najít příčiny, které vedly k nesplacení půjček (status B). V okně Task zvolíme tlačítko ANTECEDENT. Tlačítkem Edit změníme 12
13 minimální délku antecedentu na 1, maximální délku na 4 literály. Literál do antecedentu přidáme tlačítkem Add a v následujícím okně vybereme atribut, ze kterého má být literál vytvořen. U každého literálu specifikujeme typ literálu, typ gace, typ koeficientu, minimální a maximální délky koeficientu: Každé asociační pravidlo musí v antecedentu obsahovat alespoň jeden literál typu Basic. (Dále může obsahovat i literály Remaining.) Typ gace literálu specifikuje, zda se daný literál v asociačních pravidlech může vyskytovat jen v pozitivní formě nebo jen ve své negaci, nebo v zda se může současně vyskytovat v některém asociačním pravidle v pozitivním tvaru a v jiném pravidle ve své negaci. Typ koeficientu říká, jakým způsobem se z hodnot atributu (tedy kategorií, viz modul DataSource, vytváření atributů ze sloupců tabulek) vytvářejí literály: Subset (podmnožiny kategorií atributu), Interval (intervaly kategorií atributu), Cyclical intervals (intervaly, včetně intervalů, které začínají posledními kategoriemi a končí počátečními kategoriemi), Left cut (levé řezy, intervaly, které obsahují první kategorii), Right cut (pravé řezy, intervaly, které obsahují poslední kategorii), Cuts (řezy, levé nebo pravé řezy), Boolean true (pouze u atributů, které mají u kategorií nastavenou hodnotu Boolean true nebo false),... Speciální typem koeficientu je typ One category (jediná kategorie), kdy současně musíme specifikovat i konkrétní kategorii. Poznamenejme ještě, že u koeficientů typu intervaly, řezy (i levé a pravé) a cyklické intervaly záleží na pořadí kategorií! Na tuto skutečnost musíme dát pozor v případech, kdy jsme v modulu DataSource slučovali nebo jinak editovali kategorie atributů. Zadání antecedentu pro náš první příklad: 13
14 Když nás zajímá pouze status půjčky B, nastavíme parametry sukcedentu takto: sukcedent bude obsahovat jediný literál Status, typ koeficientu One category, vybereme kategorii B. Protože hledáme asociační pravidla ve tvaru implikace: JESTLIŽE vypůjčená částka, okres bydliště klienta banky, doba splácení, velikost splátky, plat klienta, věk klienta POTOM půjčka nebyla splacena, zvolíme kvantifikátor fundované implikace (Founded Implication) s parametry p=0.9 a BASE 15 (parametr BASE nastavíme ve volbě Params, kde současně odznačíme dvě volby Options). Úlohu spustíme tlačítkem Generate. Úloha trvala cca 20 vteřin, bylo provedeno verifikací a bylo objeveno 23 asociačních pravidel (hypotéz hypotéza je metodologicky správnější označení pro méně správné asociační pravidlo; termín asociační pravidlo je však v literatuře příliš rozšířen). Objevená asociační pravidla si můžeme prohlédnout v modulu 4ftResult, který můžeme spustit tlačítkem na hlavní obrazovce modulu 4ftTask, nebo spuštěním 4ftResult.exe souboru. Modul 4ftResult slouží pro analýzu objevených asociačních pravidel (jak již víme hypotéz). V dolní polovině hlavního okna modulu vidíme všechna objevená asociační pravidla dané úlohy. Tlačítkem nebo klávesou F7 vybíráme úlohu, jejíž výsledky chceme analyzovat. Pravidla můžeme třídit tlačítkem Sort nebo můžeme jejich počet snížit vyfiltrováním pravidel, které splňují naše požadavky tlačítko Filter. 14
15 Podívejme se na detail jednoho asociačního pravidla, na kartu TEXT: Toto asociační pravidlo říká: Antecedent: klient je z Prahy a současně délka splácení úvěru je 24 nebo 36 měsíců a současně výše měsíční splátky je v intervalu od 6 do 8 tisíc a současně věk klienta je 65 nebo více let. Sukcedent: půjčka nebyla řádně splacena V databázi existuje 18 úvěrů, které současně splňují antecedent i sukcedent; 271 úvěrů, které současně splňují sukcedent a nesplňují antecedent; úvěrů, které současně nesplňují ani antecedent ani sukcedent. V databázi neexistuje úvěr, který by současně splňoval antecedent a nesplňoval sukcedent. Z těchto číselných údajů čtyřpolní kontingenční tabulky (4ft) můžeme získat zajímavé ukazatele, které asociační pravidlo charakterizují: a a+b Confidence nabývá pro naše pravidlo hodnotu Představuje podmíněnou pravděpodobnost sukcedentu za předpokladu, že platí antecedent. Měří sílu platnosti implikace: JESTLIŽE platí antecedent POTOM platí sukcedent. a Support a+b+c+d představuje pravděpodobnost, že současně platí antecedent i sukcedent. Naše ukázkové pravidlo má hodnotu support Vybrané asociační pravidlo můžeme interpretovat takto: V analyzovaných datech platí 100 % implikace 3 : klient, který je z Prahy a vypůjčil si na 24 nebo 36 měsíců a výše jeho měsíční splátky je vyšší než 6 tisíc a nižší než 8 3 Kdyby hodnota Confidence byla např. 0.85, říkali bychom, že jde o 85 % implikaci. 15
16 tisíc a je starší 65 let, potom půjčka nebyla řádně splacena; takových půjček bylo poskytnuto 18. Confidence je samozřejmě asymetrická, když vzájemně zaměníme sukcedent s antecedentem, hodnota Confidence se změní (až na specifické případy); implikace ANTECEDENT implikuje SUKCEDENT je něco jiného než implikace SUKCEDENT implikuje ANTECEDENT. Support je symetrický, vzájemnou záměnou cedentů zůstane hodnota support stejná. Zajímavou charakteristikou asociačních pravidelje charakteristika Average difference a(a+b+c+d) (a+b)(a+c) 1. Pro naše pravidlo nabývá hodnoty Pokud k této hodnotě přičteme jedničku, zjistíme, kolikrát se zvýší pravděpodobnost sukcedentu, když platí antecedent oproti případu, kdy nevíme, zda antecedent platí nebo neplatí jinými slovy: kolikrát musíme vynásobit apriorní pravděpodobnost sukcedentu, abychom dostali hodnotu posteriorní pravděpodobnosti sukcedentu pro případ, kdy antecedent platí. Zajímavostí (na první pohled dokonce docela paradoxní) je, že Average difference je symetrická! Tedy vzájemnou záměnou cedentů se hodnota Average difference nezmění. Naše asociační pravidlo tedy můžeme interpretovat také následujícím způsobem: pravděpodobnost, že úvěr nebude řádně splacen, je krát větší, pokud se jedná o klienta z Prahy, který bude půjčku splácet 24 nebo 36 měsíců a výše jeho měsíční splátky je vyšší než 6 tisíc a nižší než 8 tisíc a je starší 65 let, než jaká je pravděpodobnost nesplacení úvěru v případě, že o půjčce a klientovi nevíme žádné informace (myšlena pravděpodobnost nesplacení půjčky v celé naší fiktivní bance). 16
17 Literatura [1] BERKA, Petr: Dobývání znalostí z databází. Praha : Academia ISBN [2] BERKA, Petr: Aplikace systémů dobývání znalostí pro analýzu medicínských dat [online, citováno dne ]. Dostupné z Internetu: [3] BURIAN, Jan: Datamining a AA (Above Average) kvantifikátor. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [4] FAYYAD, Usama PIATETSKY-SHAPIRO, Gregory SMYTH, Padhraic: From Data Mining to Knowledge Discovery in Databases [online]. AI Magazine, Fall American Association for Artificial Intelligence, [citováno dne ]. Dostupné z Internetu: [5] HAND, David MANNILA, Heikki SMYTH, Padhraic: Principles of Data Mining. Cambridge : A Bradford Book MIT Press s. ISBN X. [6] CHAPMAN, Pete kolektiv: CRISP-DM 1.0 Step-by-step data mining guide [online]. CRISP-DM consortium, [citováno ]. Dostupné z Internetu: [7] KEJKULA, Martin: 4ft analýza sekvencí událostí. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [8] LÍN, Václav: Příspěvek k formalizaci úloh pro dobývání asociačních pravidel. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [9] MÁŠA, Petr: Relevance a interpretace asociačních pravidel. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [10] RAUCH, Jan ŠIMŮNEK, Milan: Systém LISp-Miner. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN [11] ŠLESINGER, Jan: Předzpracování časových řad pro systém LISp-Miner. Sborník 2. ročníku konference Znalosti. Ostrava, ISBN
LISp-Miner. 11.5.2004 Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích
LISp-Miner 11.5.2004 Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích Zadání Popis systému LISp-Miner a experimenty s databází. Abstrakt Tento projekt popisuje systém LISp-Miner, jeho
Analytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
Získávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
Úvod do dobývání. znalostí z databází
POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů
Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011
Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých
Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner
Vysoká škola ekonomická Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Systém LISp-Miner Stručný popis určený pro posluchače kurzů Metod zpracování informací verse 20.
Dobývání znalostí z databází
Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable
Získávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
MS SQL Server 2008 Management Studio Tutoriál
MS SQL Server 2008 Management Studio Tutoriál Vytvoření databáze Při otevření management studia a připojením se ke konkrétnímu sql serveru mám v levé části panel s názvem Object Explorer. V tomto panelu
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2 Projekt LISp-Miner http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch Anotace: Příspěvek obsahuje základní informace o dobývání znalostí jakožto důležité disciplíně informatiky a ukazuje příklady
Dolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
Dobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
Téma 9: Vícenásobná regrese
Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
Segmentace bankovních zákazníků algoritmem k- means
Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22 Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování...
Informační systémy 2006/2007
13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza
Asociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
Databáze v MS ACCESS
1 z 14 19.1.2014 18:43 Databáze v MS ACCESS Úvod do databází, návrh databáze, formuláře, dotazy, relace 1. Pojem databáze Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele,
Profitabilita klienta v kontextu Performance management
IBM Technical specialist team Pre Sale 26/10/2010 Profitabilita klienta v kontextu Performance management Co všechno řadíme do PM? Automatická data Běžný reporting Pokročilé statistické modely Včera What
Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009
BA_EM Electronic Marketing. Pavel
BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?
KAPITOLA 11 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM
KAPITOLA 11 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM FILTROVÁNÍ DAT Po filtrování dat jsou zobrazeny pouze řádky, které splňují zadaná kritéria, a řádky, které nechcete zobrazit, jsou skryty. Filtrovat
ANALYSIS SERVICES PROJEKT VYTVOŘENÍ PROJEKTU A DATOVÉ KOSTKY
ANALYSIS SERVICES PROJEKT VYTVOŘENÍ PROJEKTU A DATOVÉ KOSTKY Spusťte BIDS - z menu vyberte File/New/Project a vytvořte nový Analysis Services Project typu Bussines Inteligence Project - doplňte jméno projektu
Projekt LISp-Miner. M. Šimůnek
Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Analýza časových řad pomoci SAS82 for Win
Analýza časových řad pomoci SAS82 for Win 1) Vstupní data Vstupní data musí mít vhodný formát, tj. žádný oddělovač tisíců, správně nastavený desetinný oddělovač. Název proměnné pro SAS nesmí obsahovat
Access. Tabulky. Vytvoření tabulky
Access správa databáze (tabulky, relace, omezující podmínky, data...) uživatelské prostředí pro práci s databází (formuláře, sestavy, datové stránky, makra...) ukázková aplikace Northwind hlavní okno databáze
Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií
VY_32_INOVACE_33_04 Škola Střední průmyslová škola Zlín Název projektu, reg. č. Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/34.0333 Vzdělávací oblast Vzdělávání v informačních a komunikačních
Metadata. RNDr. Ondřej Zýka
Metadata RNDr. Ondřej Zýka 1 Metadata Jedna z kompetencí Data managementu Cíle kompetence: Zajistit jednotné porozumění a užití termínů Provázat informace na různých úrovních (byznys, aplikační, technické)
Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské
Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0).
Výroková logika II Negace Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0). Na konkrétních příkladech si ukážeme, jak se dají výroky negovat. Obecně se výrok dá negovat tak, že před
Dobývání a vizualizace znalostí. Olga Štěpánková et al.
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
Cíle supervizovaného učení Ondřej Háva
Cíle supervizovaného učení Ondřej Háva ACREA CR Využíváme více než 40 let zkušeností IBM s hlavním cílem: řízení rozhodovacích procesů Akvizice SPSS společností IBM v říjnu 2009 Přejmenování SPSS CR na
Příprava dat v softwaru Statistica
Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,
Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně
Identifikační karta modulu v. 4 Kód modulu Typ modulu profilující Jazyk výuky čeština v jazyce výuky Management informačních systémů česky Management informačních systémů anglicky Information systems management
LISp-Miner Na lékal kařských datech. Martin Šulc Cikháj 5.-4..005 4..005 Abstrakt Tato přednp ednáška je o systému vyvíjen jeném m na VŠE V E v Praze a o jeho aplikaci na data, která jsou genetickým obrazem
Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)
Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod
Úvod do databází. Modelování v řízení. Ing. Petr Kalčev
Úvod do databází Modelování v řízení Ing. Petr Kalčev Co je databáze? Množina záznamů a souborů, které jsou organizovány za určitým účelem. Jaké má mít přínosy? Rychlost Spolehlivost Přesnost Bezpečnost
Dobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
Slučování tabulek. Sloučení dvou tabulek
Slučování tabulek Newsletter Statistica ACADEMY Téma: Příprava dat Typ článku: Návody Máte informace ve více tabulkách a chcete je sloučit dohromady? Pak je tento článek právě pro Vás. Vysvětlíme, jaké
Časové řady - Cvičení
Časové řady - Cvičení Příklad 2: Zobrazte měsíční časovou řadu míry nezaměstnanosti v obci Rybitví za roky 2005-2010. Příslušná data naleznete v souboru cas_rada.xlsx. Řešení: 1. Pro transformaci dat do
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Kontingenční tabulky v MS Excel 2010
Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data
Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla
Dobývání znlostí z dtbází (MI-KDD) Přednášk číslo 4 Asociční prvidl (c) prof. RNDr. Jn Ruch, CSc. KIZI, Fkult informtiky sttistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Prh & EU: Investujeme
Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner
Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner (c) prof. RNDr. Jan Rauch, CSc. KIZI, Fakulta informatiky a statistiky VŠE zimní semestr
Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky
Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci
Návod pro práci s SPSS
Návod pro práci s SPSS Návody pro práci s programem SPSS pro kurz Metodologie pro Informační studia a knihovnictví 2 (jaro 2013) Ladislava Zbiejczuk Suchá Instalace programu SPSS najdete v INETu. Po přihlášení
Hromadná korespondence
Kapitola dvanáctá Hromadná korespondence Učební text Mgr. Radek Hoszowski Hromadná korespondence Hromadná korespondence Představíme si jednoduchý nástroj, který nám může ušetřit velké množství práce. Je
Statistica Enterprise
Statistica Enterprise díl první Newsletter Statistica ACADEMY Téma: Enterprise, možnosti software Typ článku: Příklad V starším článku jsme si představili jednotlivé typy licencí softwaru Statistica. V
Výpočet na gridu a LM TaskPooler
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 10 Výpočet na gridu a LM TaskPooler v systému LISp-Miner (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský
FORTANNS. havlicekv@fzp.czu.cz 22. února 2010
FORTANNS manuál Vojtěch Havlíček havlicekv@fzp.czu.cz 22. února 2010 1 Úvod Program FORTANNS je software určený k modelování časových řad. Kód programu má 1800 řádek a je napsán v programovacím jazyku
1. Dobývání znalostí z databází
1. Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých kruzích mluvit počátkem 90. let. První impuls přišel z Ameriky, kde se na konferencích
Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi.
Databáze Základní pojmy Pojem databáze označuje obecně souhrn informací, údajů, dat o nějakých objektech. Úkolem databáze je hlídat dodržení všech omezení a dále poskytovat data při operacích. Objekty
Schvalovací proces žádostí o úvěr
Schvalovací proces žádostí o úvěr Milan Roupec Embedit (Home Credit International) Martin Řezáč ÚMS PřF MU K čemu schvalovací proces? Posouzení žádosti o úvěr Odhalení pokusů o podvod Falešné údaje na
Credit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna 2013. Brno
Credit scoring Libor Vajbar Analytik řízení rizik 18. dubna 2013 Brno 1 PROFIL SPOLEČNOSTI Home Credit a.s. přední poskytovatel spotřebitelského financování Úvěrové produkty nákup na splátky u obchodních
LISp-Miner: systém pro získávání znalostí z dat 1
LISp-Miner: systém pro získávání znalostí z dat 1 Petr Berka, Jan Rauch, Milan Šimůnek VŠE Praha Nám. W. Churchilla 4, Praha 3 e-mail: {berka,rauch,simunek}@vse.cz Abstrakt. Systém LISp-Miner je otevřený
Nastavení programu Morinus pro rektifikaci podle Ing.Baudyše.
Nastavení programu Morinus pro rektifikaci podle Ing.Baudyše. Pro ty, kteří nemají SolarFire a chtějí se naučit používat metodu rektifikace horoskopu podle Ing.Baudyše, která byla pěkně popsána v prezentaci
Získávání znalostí z databází. Alois Kužela
Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel
KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM
KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM CÍLE KAPITOLY Využívat pokročilé možnosti formátování, jako je podmíněné formátování, používat vlastní formát čísel a umět pracovat s listy. Používat
Obr. P1.1 Zadání úlohy v MS Excel
Přílohy Příloha 1 Řešení úlohy lineárního programování v MS Excel V této příloze si ukážeme, jak lze řešit úlohy lineárního programování pomocí tabulkového procesoru MS Excel. Výpočet budeme demonstrovat
MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR
Váš pomocník pro analýzu dat MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich StatSoft CR StatSoft StatSoft CR Dodavatel komplexních analytických řešení Výhradní dodavatel softwaru STATISTICA pro
Zobrazení zdrojových dat u krabicového grafu
StatSoft Zobrazení zdrojových dat u krabicového grafu Krabicový graf zobrazuje informace o poloze i variabilitě dat. Zachycujeme na něm různé charakteristiky a někdy může být žádoucí zobrazit si v grafu
Úvod do databázových systémů
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Database Research Group Úvod do databázových systémů Cvičení 3 Ing. Petr Lukáš petr.lukas@vsb.cz
Cvičení 5 - Inverzní matice
Cvičení 5 - Inverzní matice Pojem Inverzní matice Buď A R n n. A je inverzní maticí k A, pokud platí, AA = A A = I n. Matice A, pokud existuje, je jednoznačná. A stačí nám jen jedna rovnost, aby platilo,
Databázové systémy Cvičení 5.2
Databázové systémy Cvičení 5.2 SQL jako jazyk pro definici dat Detaily zápisu integritních omezení tabulek Integritní omezení tabulek kromě integritních omezení sloupců lze zadat integritní omezení jako
Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára
Odhady parametrů základního souboru Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára Motivační příklad Mám průměrné roční teploty vzduchu z 8 stanic
GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic
GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování
Vzdálené ovládání dotykového displeje IDEC HG3G pomocí routeru VIPA TM-C VPN
Vzdálené ovládání dotykového displeje IDEC HG3G pomocí routeru VIPA TM-C VPN Vzdálené ovládání dotykového displeje IDEC HG3G pomocí routeru VIPA TM-C VPN Abstrakt Tento aplikační postup je ukázkou jak
Dobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1 Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie
GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 4
UNIVERZITA TOMÁŠE BATI VE ZLÍNĚ FAKULTA APLIKOVANÉ INFORMATIKY GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 4 Praktické zvládnutí software Geomedia Pavel Vařacha a kol. Zlín 2013 Tento studijní materiál vznikl
5. POČÍTAČOVÉ CVIČENÍ
5. POČÍTAČOVÉ CVIČENÍ Databáze Databázi si můžeme představit jako místo, kam se ukládají všechny potřebné údaje. Přístup k údajům uloženým v databázi obstarává program, kterému se říká Systém Řízení Báze
Ilustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
1 Administrace systému 3. 1.3 Moduly... 3 1.4 Skupiny atributů... 4 1.5 Atributy... 4 1.6 Hodnoty atributů... 4
CRM SYSTÉM KORMORÁN PŘÍRUČKA ADMINISTRÁTORA Obsah 1 Administrace systému 3 1.1 Uživatelské účty.................................. 3 1.2 Přístupová práva................................. 3 1.3 Moduly.......................................
Microsoft Office. Word hromadná korespondence
Microsoft Office Word hromadná korespondence Karel Dvořák 2011 Hromadná korespondence Hromadná korespondence je způsob, jak určitý jeden dokument propojit s tabulkou obsahující více záznamů. Tímto propojením
StatSoft Úvod do data miningu
StatSoft Úvod do data miningu Tento článek je úvodním povídáním o data miningu, jeho vzniku, účelu a využití. Historie data miningu Rozvoj počítačů, výpočetní techniky a zavedení elektronického sběru dat
My si nyní takovou sestavu vytvoříme na příkladu jednoduché kanceláře. Začneme vytvořením takové kanceláře.
Sestavy Sestavy (angl. Reports) slouží ve Visiu k rychlému vytvoření přehledného souhrnu informací o objektech na výkresu. Visio umí tyto stručné sestavy vytvářet jako sešit programu Excelu, ve formátu
Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf
Pátek 30. září Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf Nástroje grafu (objeví se při označeném grafu) - 3 záložky návrh, rozložení,
Základní informace o co se jedná a k čemu to slouží
Základní informace o co se jedná a k čemu to slouží založené na relačních databází transakční systémy, které jsou určeny pro pořizování a ukládání dat v reálném čase (ERP, účetní, ekonomické a další podnikové
Úvod do databázových systémů
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Úvod do databázových systémů Cvičení 3 Ing. Petr Lukáš petr.lukas@vsb.cz Ostrava, 2014 Opakování 4 fáze vytváření
Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel
Přílohy Příloha 1 Řešení úlohy lineárního programování v MS Excel V této příloze si ukážeme, jak lze řešit úlohy lineárního programování pomocí tabulkového procesoru MS Excel 2007. Výpočet budeme demonstrovat
Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
Databázové systémy. - SQL * definice dat * aktualizace * pohledy. Tomáš Skopal
Databázové systémy - SQL * definice dat * aktualizace * pohledy Tomáš Skopal Osnova přednášky definice dat definice (schémat) tabulek a integritních omezení CREATE TABLE změna definice schématu ALTER TABLE
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Úvod do problematiky Doc. RNDr. Iveta Mrázová,
Asociační pravidla (metoda GUHA)
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Asociační pravidla (metoda GUHA) Ing. Michal Burda () Získávání znalostí z dat Brno, 27. ledna
MS Excel 2007 Kontingenční tabulky
MS Excel 2007 Kontingenční tabulky Obsah kapitoly V této kapitole se seznámíme s nástrojem, který se používá k analýze dat rozsáhlých seznamů. Studijní cíle Studenti budou umět pro analýzu dat rozsáhlých
3. Optimalizace pomocí nástroje Řešitel
3. Optimalizace pomocí nástroje Řešitel Rovnováha mechanické soustavy Uvažujme dvě různé nehmotné lineární pružiny P 1 a P 2 připevněné na pevné horizontální tyči splývající s osou x podle obrázku: (0,0)
III/2 Inovace a zkvalitnění výuky prostřednictvím ICT
Číslo a název šablony Číslo didaktického materiálu Druh didaktického materiálu Autor Jazyk Téma sady didaktických materiálů Téma didaktického materiálu Vyučovací předmět Cílová skupina (ročník) Úroveň
Úvod do databázových systémů
Úvod do databázových systémů Databáze je dnes velmi často skloňovaným slovem. Co se pod tímto termínem skrývá si vysvětlíme na několika následujících stranách a cvičeních. Databáze se využívají k ukládání
Metodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul 7: Třídění druhého stupně. Kontingenční tabulky Co se dozvíte v tomto modulu? Co je třídění druhého stupně Jak vytvořit a interpretovat kontingenční