Michal Burda. 27. ledna Abstrakt
|
|
- Vladimír Špringl
- před 7 lety
- Počet zobrazení:
Transkript
1 Získávání znalostí z databází - Asociační pravidla Michal Burda 27. ledna 2004 Abstrakt Získávání asociačních pravidel z dat je jedním z významných oborů Data Miningu. Hledají se pomocí něj zajímavé vztahy v datech. Tento dokument se zabývá podstatou asociačních pravidel a jejich rozdělením. Nastiňuje způsoby určování relevantnosti asociací, prezentuje základní algoritmy pro hledání asociačních pravidel v datech a možné způsoby dalšího zrychlování. Obsah 1 Úvod 3 2 Hledání asociačních pravidel v transakčních databázích Algoritmy hledání asociací z transakčních databází Triviální algoritmus Apriori algoritmus Zlepšování efektivity apriori algoritmu Metoda GUHA Principy Kvantifikátory Implikační kvantifikátory Asociační kvantifikátory Korelační kvantifikátory Dedukční pravidla Neúplná informace Procedury metody GUHA ASSOC Ing. Michal Burda, VŠB TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra informatiky, michal.burda@vsb.cz, 1
2 3.5.2 IMPL CORREL Rozdělení asociací 20 5 Statistický pohled 21 Seznam tabulek 1 Transakční data Transakční data jako množiny Hash tabulka vzniklá při zjišťování L Seznam obrázků 1 Průběh apriorního algoritmu
3 1 Úvod Proces získávání asociačních pravidel z databází hledá zajímavé vztahy mezi velkým množstvím datových položek. Co se historie nápadu vytěžování pravidel z dat týče, autoři knihy [3] (str. 276) se nejspíše mýlí, když za praotce tohoto odvětví data miningu prohlásili trojici Agrawal, Imielinski, Swami, kteří roku 1993 vydali článek Mining association rules between sets of items in large databases. Je totiž známo, že se hledáním asociací (byť trochu jiného druhu) zabývala skupina českých autorů (P. Hájek, M. K. Chytil a T. Havránek) už v 80. létech (metoda GUHA). Typickým příkladem dolování asociačních pravidel je tzv. analýza nákupního košíku (market basket analysis). Tento proces analyzuje zvyky nakupujících a hledá závislosti mezi různým zbožím, které si zákazníci vloží do svého nákupního košíku. Znalost informace o tom, které výrobky zákazníci obvykle kupují současně, mohou v praxi pomoci v tvorbě katalogů, pomáhají při definování strategie rozmístění zboží v prodejně atd. Použití metod získávání asociačních pravidel však nekončí pouze u ekonomických dat. Dají se pochopitelně používat v mnoha různých oblastech od výzkumu v medicíně po sociologii, hutnictví atd. (Více viz např. [5].) V souvislosti s hledáním asociací vyvstává mnoho problémů (ostatně pro Data Mining typických) zejména jak efektivně hledat závislosti v obrovském množství dat a hlavně jak určit, která asociace je relevantní a která ne. Základy řešení obou těchto problémů se snažím nastínit v tomto dokumentu popisem dvou konkrétních metod vytěžování asociací: analýzy nákupního košíku a metody GUHA. 2 Hledání asociačních pravidel v transakčních databázích Začněme nejprve od nejjednodušších asociací, které jsou výsledkem už dříve zmiňované analýzy nákupního košíku. Zkoumaná data pochází z transakčních databáze, tj. z databáze, která zaznamenává všechny (obchodní) transakce např. podrobnosti o každém nákupu. Přídavné jméno transakční zde v žádném případě neznamená pojem transakce, jak jej známe z databázových technologií (skupina databázových operací, které musí být provedeny všechny (nebo žádná), aby nedošlo k porušení konzistence databáze). Analyzovaná data sestávají z řady booleovských atributů (tj. mohou nabývat jen hodnot 0 nebo 1) stejné dimenze. Typickým příkladem může být dimenze koupil s atributy odpovídajícími jednotlivým položkám zboží. Atribut bude mít v záznamu provedeného nákupu hodnotu 1, pokud si zákazník dané zboží koupil, a 0, pokud ne. Ukázku možné datové tabulky (ovšem podstatně zkrácené) můžeme vidět v tabulce 1. Výsledkem analýzy nákupního košíku jsou asociační pravidla obecně tvaru: i 1 i 2... i n 1 i n [ podpora = p, spolehlivost = s ] s následujícím významem: Jestliže si nějaký zákazník koupí zároveň zboží i 1,..., i n 1, pak si koupí i zboží i n s podporou p a spolehlivostí s. 3
4 TID Zboží1 Zboží2 Zboží3 Zboží4 Zboží Tabulka 1: Transakční data. TID označuje jednoznačný identifikátor transakce. Nuly byly pro přehlednost vynechány. Příkladem konkrétního objeveného vztahu může být např.: Tequila citróny [ podpora = 1 %, spolehlivost = 80 % ] Typickou reakcí supermarketu na zjištěné pravidlo může být umístění stojanu s mexickým alkoholickým nápojem co nejdále od oddělení s ovocem a zeleninou v naději, že zákazník kupující Tequilu uvidí a koupí na cestě prodejnou za citróny také něco jiného. Symbolům i i v asociačním pravidle se ve shodě s pojmy matematické logiky říká predikáty. Později si ukážeme, že se dá vytěžovat asociace s predikáty i trochu jiného (obecnějšího) tvaru. Zmiňovaná podpora (support) a spolehlivost (confidence) jsou základní mírou relevance (zajímavosti) asociačního pravidla. Podpora představuje pravděpodobnost výskytu záznamu, který splňuje všechny predikáty i 1,..., i n, v datech. Jinými slovy je to podíl počtu záznamů, obsahujících všechny druhy zboží určené predikáty i 1,... i n, a všech záznamů. Spolehlivost určuje tzv. podmíněnou pravděpodobnost jevu i n v datech za podmínky, že platí i 1,..., i n 1. Je to tedy poměr počtu záznamů o koupi zboží i 1,... i n vůči počtu záznamů obsahujících pouze i 1,..., i n 1. Asociace, které překročí uživatelem nastavené prahy pro podporu i spolehlivost, jsou považovány za zajímavé a jsou zahrnuty do zprávy o výsledcích vytěžování. Vězměme si například opět datovou tabulku 1. Asociační pravidlo Zboží2 Zboží3 Zboží1 má podporu p = 2. 9 = 0, 22 (22 %) a spolehlivost s = 2 4 = 0, 5 (50 %). Při nastavených prahových hodnotách p p = 0, 2 a s p = 0, 75 bychom toto asociační pravidlo prohlásili za irelevantní. Stojí ještě za zmínku podotknout, že pro nastavení prahových hodnot p p = 0 a s p = 1 se jedná o prostou implikaci, jak ji známe z matematické logiky. 4
5 TID T k 01 i 1, i 2, i 5 02 i 2, i 4 03 i 2, i 3 04 i 1, i 2, i 4 05 i 1, i 3 06 i 2, i 3 07 i 1, i 3 08 i 1, i 2, i 3, i 5 09 i 1, i 2, i 3 Tabulka 2: Transakční data jako množiny 2.1 Algoritmy hledání asociací z transakčních databází Na řádky datové matice tvořené jen booleovskými hodnotami (viz tabulka 1) se můžeme dívat také jako na množiny položek, pro které je na řádcích v příslušných sloupcích hodnota 1 (viz tabulka 2). Předpokládejme, že naše datová matice má m řádků a n sloupců s booleovskými hodnotami. Můžeme zavést množinu všech položek I = {i 1, i 2,..., i n } a jednotlivé transakce T k (pro k = 1,..., m) chápat jako podmnožiny T k I. Hledaná asociační pravidla jsou potom tvaru A B, kde A I, B I a A B =. Podpora p je pravděpodobnost výskytu množiny položek A B (tedy všech položek obsažených v A i B) v množině transakcí (datové tabulce). Spolehlivost s je pravděpodobnost výskytu B v transakcích, které obsahují A. Tedy: p = podpora(a B) = P (A B), s = spolehlivost(a B) = P (B A) Množina položek M se nazývá frekventovaná, jestliže dosahuje minimální stanovené podpory p p, tedy P (M) p p. Asociační pravidlo A B se nazývá silné, jestliže množina položek A B je frekventovaná, (P (A B) p p ) a spolehlivost pravidla dosahuje minimální stanovené hodnoty s p (P (B A) s p ). Je tedy jasné, že výsledkem algoritmu hledání asociací by měl být seznam všech silných asociačních pravidel Triviální algoritmus S takovýmto rozborem problému už není těžké formulovat základní algoritmus, který by hledání asociačních pravidel (nejen) v transakčních datech prováděl: Můžeme postupně generovat všechny možné kombinace predikátů na levé i pravé straně pravidla, postupně prodlužovat levou stranu a testovat v datech, je-li výsledkem silné asociační pravidlo. 5
6 Takový algoritmus je však pro větší data nepoužitelný, jelikož vede na tzv. kombinační explozi s exponenciální časovou složitostí. Data zkoumaná analýzou nákupního košíku jsou obvykle velmi rozsáhlá co do počtu řádků (počtu transakcí) tak i co do počtu sloupců (možných položek nákupu) Apriori algoritmus Mnohem větší efektivity výpočtu dosáhneme využitím jisté apriorní znalosti o silných asociacích. Tzv. apriori algoritmus (viz [3] na str ) probíhá ve dvou krocích. Nejprve jsou vyhledány frekventované množiny položek (tj. ty, které dosahují minimální stanovené hodnoty podpory) a z nich jsou generovány silné asociace (takové, které navíc dosahují i minimální spolehlivosti). Pro generování frekventovaných asociací je možné použít induktivní přístup, ve kterém díky jisté apriorní znalosti umíme (relativně efektivně) z frekventované množiny k položek vygenerovat frekventované množiny (k + 1) položek. Zmiňovanou apriorní znalostí je skutečnost, že jestliže množina k určitých položek není frekventovaná, pak přidání jakékoliv další položky z ní frekventovanou množinu neudělá. (Jinými slovy s přidáváním položek do množiny M pravděpodobnost P (M) monotónně klesá.) Algoritmus funguje tak, že nejprve se vyhledají všechny frekventované množiny velikosti 1 (množinu těchto množin označme L 1 ). L 1 je použita k nalezení L 2 (množina frekventovaných množin kardinality 2) a ta je využita k nalezení L 3 atd., dokud nelze nalézt žádnou další frekventovanou množinu velikosti k. Nalezení každé L k vyžaduje jeden celý průchod daty. Diskutovaná apriorní znalost pomáhá snížit prohledávací prostor. Je totiž pravdou, že každá neprázdná podmnožina R frekventované množiny M musí být rovněž frekventovaná. Tj.: R M : P (M) p p P (R) p p (1) Než přistoupíme k formulaci postupu nalezení L k ze znalosti L k 1, je třeba ještě zavést pojem kandidát na frekventovanou množinu položek. Jedná se o takovou množinu položek, kterou výše rozebíraná apriorní znalost neprohlásila za nefrekventovanou, ale u níž ještě frekventovanost nebyla potvrzena průchodem daty. Postup nalezení L k z L k 1 : 1. Předpokládejme, že máme nalezeno L k 1 a hledáme L k. Vygenerujeme nejprve z L k 1 všechny kandidáty na L k (označme je C k ). Předpokládejme, že jednotlivé položky jsou v množinách lexikograficky seřazeny. Pak stačí kombinovat takové dvojice množin l i, l j L k 1 (i j), které mají stejné prvních k 2 položek a pro které platí, že (k 1)-položka je u l i (lexikograficky) menší, než u l j. Výsledný kandidát vznikne spojením l i s poslední (k 1) položkou l j. 2. L k C k, je proto nutné nalézt v C k ty množiny, které nejsou frekventované a vyloučit je. O frekventovanosti množin se přesvědčíme jedním průchodem databází. Množina C k však může být obrovská a to povede k pomalému výpočtu. K jejímu redukování se 6
7 dá využít apriorní znalost (1). Z C k tedy vyloučíme ty množiny, pro které neplatí, že všechny její podmnožiny jsou frekventované. Toto testování se dá provádět velice rychle, když budeme všechny frekventované množiny položek uchovávat v hashovacím stromu. Teprve s redukovaným C k provedeme průchod datovou tabulkou a zjištění skutečného počtu výskytů všech množin položek ty množiny, které nedosáhnou minimální podpory p p vyloučíme a získáme tak hledanou množinu L k. Máme-li získané frekventované množiny položek l, není už příliš výpočetně náročné generovat všechny podmnožiny s množiny l a vypisovat ta asociační pravidla tvaru s (l s), která splňují požadavek minimální spolehlivosti s p. Samotný algoritmus nalezení všech množin L k zní takto: 1. Nejprve se vygeneruje množina C 1 kandidátů c 1 i na frekventované množiny velikosti jedna (C 1 = {c 1 i : c 1 i I card(c 1 i ) = 1}). Následuje průchod datovou tabulkou s tím, že pro každou kandidátskou množinu položek se zjišťuje počet výskytů. Po tomto kroku nastupuje ořezávání: vyloučení těch kandidátských množin c 1 i, které nedosáhly minimální stanovené podpory p p. Takto získáme množinu L 1 frekventovaných množin lj 1 velikosti jedna (L 1 = {li 1 : l1 i C 1 P (li 1) p p}). Tj. je zřejmé, že L 1 C V dalším kroku se vytvářejí kandidáti délky 2 vzájemným kombinováním frekventovaných množin délky 1. Díky apriorní znalosti se výše uvedeným postupem sníží počet těchto množin. (Celou operaci spojení L k 1 a aplikace apriorní znalosti budeme označovat L k 1 L k 1.) Následuje průchod databází a počítání výskytů každé zbylé kandidátské množiny. Odstraní se množiny nedosahující prahové podpory a zůstanou jen frekventované množiny položek délky Naznačený postup pokračuje až do chvíle, kdy odstraněním všech nefrekventovaných množin z kandidátů nám nezbyde žádná frekventovaná množina položek. Máme-li nalezeny všechny frekventované množiny položek z databáze, vygenerování silných asociačních pravidel je už naprosto přímočaré. Lze k tomu využít následující rovnici vyjadřující spolehlivost pravidla pomocí počtů výskytů: spolehlivost(a B) = P (B A) = Samotné generování asociačních pravidel může vypadat takto: počet výskytů(a B) počet výskytů(a) 1. Pro každou frekventovanou množinu položek l vygeneruj všechny neprázdné podmnožiny. počet výskytů(l) 2. Pro každou neprázdnou podmnožinu s množiny l otestuj nerovnost počet výskytů(s) s p, kde s p je minimální (prahová) hodnota spolehlivosti. Je-li tato nerovnost splněna, vypiš na výstup asociační pravidlo tvaru s (l s). Jelikož jsou asociační pravidla generována jen z frekventovaných množin položek, je jasné, že musí automaticky splňovat také požadavek přesahu prahové hodnoty podpory. Počty výskytů frekventovaných množin položek mohou být výhodně uchovávány v hash tabulkách, takže přístup k nim může být realizován velmi rychle. 7
8 C 1 Množ. {i 1 } {i 2 } {i 3 } {i 4 } {i 5 } Zjištění počtu čtením dat C 1 Množ. Počet {i 1 } 6 {i 2 } 7 {i 3 } 6 {i 4 } 2 {i 5 } 2 Porovnání četností s p p L 1 Množ. Počet {i 1 } 6 {i 2 } 7 {i 3 } 6 {i 4 } 2 {i 5 } 2 L 1 L 1 C 2 Množ. {i 1, i 2 } {i 1, i 3 } {i 1, i 4 } {i 1, i 5 } {i 2, i 3 } {i 2, i 4 } {i 2, i 5 } {i 3, i 4 } {i 3, i 5 } {i 4, i 5 } Zjištění počtu čtením dat C 2 Množ. Počet {i 1, i 2 } 4 {i 1, i 3 } 4 {i 1, i 4 } 1 {i 1, i 5 } 2 {i 2, i 3 } 4 {i 2, i 4 } 2 {i 2, i 5 } 2 {i 3, i 4 } 0 {i 3, i 5 } 1 {i 4, i 5 } 0 Porovnání četností s p p L 2 Množ. Počet {i 1, i 2 } 4 {i 1, i 3 } 4 {i 1, i 5 } 2 {i 2, i 3 } 4 {i 2, i 4 } 2 {i 2, i 5 } 2 L 2 L 2 C 3 Množ. {i 1, i 2, i 3 } {i 1, i 2, i 5 } Zjištění počtu čtením dat C 3 Množ. Poč. {i 1, i 2, i 3 } 2 {i 1, i 2, i 5 } 2 Porovnání četností s p p L 3 Množ. Poč. {i 1, i 2 } 4 {i 1, i 3 } 4 {i 1, i 5 } 2 {i 2, i 3 } 4 {i 2, i 4 } 2 {i 2, i 5 } 2 Obrázek 1: Průběh apriorního algoritmu 8
9 Hash hodnota (h): Počet prvků (c h ): Obsah: {i 1, i 4 } {i 1, i 5 } {i 2, i 3 } {i 2, i 4 } {i 2, i 5 } {i 1, i 2 } {i 1, i 3 } {i 3, i 5 } {i 1, i 5 } {i 2, i 3 } {i 2, i 4 } {i 2, i 5 } {i 1, i 2 } {i 1, i 3 } {i 2, i 3 } {i 1, i 2 } {i 1, i 3 } {i 2, i 3 } {i 1, i 2 } {i 1, i 3 } Tabulka 3: Hash tabulka vzniklá při zjišťování L 1 Příklad: Pokusme se nyní uvedeným postupem nalézt všechna asociační pravidla z dat v tabulce 1. Minimální podporu p p nastavíme na 20 % a spolehlivost s p na 70 %. Průběh výpočtu znázorňuje obrázek Prvním krokem je nalezení počtů výskytů všech položek k tomu je potřebný jeden průchod celou datovou tabulkou. (Získáme C 1.) 2. Porovnáme kardinality všech prvků c 1 i C 1 se stanovenou minimální podporou p p a vyloučíme ty, které ji nedosahují. (Získáme tak L 1.) 3. Provedeme L 1 L 1 a získáme tak C 2. Průchodem databází zjistíme četnosti množin c 2 i C 2 v datech a z nich opět vyloučíme ty, které nedosahují stanovené podpory p p. (Získáme tak L 2.) 4. Nastíněným postupem pokračujeme tak dlouho, dokud nám vychází neprázdná množina L k. Obecně C k získáme provedením L k 1 L k 1. L k z C k obdržíme zjištěním četností všech množin položek z C k a porovnáním s p p. 5. Zbývá určit, které frekventované množiny položek zároveň splňují i požadavek minimální spolehlivosti s p. Pro každou frekventovanou množinu položek l j i L j (j = 1, 2,..., k a i = 1, 2,..., card(l j )) vygenerujeme všechny neprázdné podmnožiny s r l j i. Pro každou tuto podmnožinu otestujeme nerovnost počet výskytů(lj i ) počet výskytů(s s r) p a pokud platí, vypíšeme na výstup asociační pravidlo tvaru s r (l j i s r). Postup nalezení všech frekventovaných množin položek ukazuje obrázek Zlepšování efektivity apriori algoritmu Efektivita algoritmu z odstavce se dá dalšími postupy ještě zvýšit. Několik možných postupů následuje níže. Hashování: Použitím hashovací techniky můžeme redukovat velikost množiny kandidátských množin položek C k (pro k > 1). Například při průchodu databází, když zjišťujeme počet výskytů množin položek z C 1, můžeme z každé transakce (řádku datové tabulky) generovat všechny množiny položek kardinality 2, ukládat je do hash-tabulky 9
10 (separate chaining) a přitom si pamatovat počet c h množin uložených pod stejnou hodnotou h hashovací funkce. Je jasné, že množiny položek s hash-hodnotami h, pro které c h < p p nemohou být frekventované a proto je při ořezávání C 2 můžeme z C 2 vynechat. Tak například tabulka 3 ukazuje hash-tabulku vzniklou při průchodu daty, kdy se zjišťuje, které množiny z C 1 patří do L 1. Pro každý řádek datové tabulky se vytvořily všechny možné dvojice položek a ty se uložily do této hash-tabulky. Hashovací funkce byla následující: h(x, y) = (10 pořadí(x)+pořadí(y)) mod 7. Kdybychom měli p p = 3, pak v kroku prořezávání C 2 můžeme ještě před průchodem daty z kandidátských množin položek odstranit dvojice {i 1, i 4 }, {i 3, i 5 }, {i 1, i 5 }, {i 2, i 4 } a {i 2, i 5 }, protože počet c h jejich hash-hodnoty h je menší než p p (c h < p p pro h {0, 1, 3, 4}). Redukce prohledávaných transakcí (řádků tabulky): Transakce, která neobsahuje žádnou frekventovanou množinu položek velikosti k, nemůže obsahovat žádnou frekventovanou množinu položek velikosti (k + 1). Taková transakce může být během výpočtu v databázi nějak vhodně označena nebo odstraněna, protože v budoucích průchodech daty, které budou zjišťovat četnosti množin položek velikosti j > k, nebude potřebná. Rozdělení dat: Celá datová tabulka se rozdělí na N částí o velikosti (zhruba) n. Podstatou této metody je, že se volí takové n, aby se všechny potřebné informace vešly do paměti. V jednotlivých částech se pak hledají lokální frekventované množiny položek. Mírou lokální frekventovanosti je upravená prahová hodnota podpory p u = n p p. Lokální frekventovaná množina položek může (ale nemusí) být frekventovaná v pohledu celé datové tabulky. Platí, že každá potenciálně frekventovaná množina položek se musí vyskytnout jako frekventovaná alespoň v jedné části dat. Každá lokálně frekventovaná množina položek je tedy kandidátem na frekventovanou z hlediska celé datové tabulky. Jelikož se každá část vejde celá do paměti, stačí k nalezení všech lokálně frekventovaných množin položek pouze jeden průchod daty. Všechny lokálně frekventované množiny dohromady tvoří kandidáty na globálně frekventované množiny. O jejich skutečné frekventovanosti se rozhodne na závěr dalším průchodem daty. Všechny frekventované množiny se tak naleznou pouhými dvěma průchody daty. Vzorkování: Tento postup se používá zejména v aplikacích, kde je požadavek na rychlost kritický. Myšlenka spočívá v náhodném výběru n transakcí z celé datové tabulky tak, aby se všechny vešly do paměti. Frekventované množiny se potom hledají na této množině transakcí. Veliké zrychlení platíme menší přesností algoritmu a nebezpečím, že se nenajdou všechny frekventované množiny. Ke snížení této hrozby se často volí nižší prahová hodnota podpory. Jedním průchodem celé databáze se dá určit, jsou-li nalezené frekventované množiny frekventované i globálně. 3 Metoda GUHA GUHA (General Unary Hypothesis Automaton automat na obecné unární hypotézy) je původní česká metoda pro systematické vytváření hypotéz na základě empirických dat (viz [2]). Umožňuje automaticky vytvářet především hypotézy (pravidla) implikační, asociační či korelační (viz sekce 4). 10
11 Metoda pracuje hlavně s dvouhodnotovými daty a velmi těží z faktu, že kategoriální data mohou být dichotomizací převedena na binární, reálněhodnotová data vhodným rozdělením na kategoriální... Výsledkem jsou obecně multidimenzionální pravidla (viz odstavec 4). Např.: věk(31-40) plat( tis.) 0,8;0,15 koupil(bmw) (2) Zaveďme nejprve několik pojmů, které jsou při popisu metody hojně využívány: Predikát symbolické jméno veličiny, elementární formule (např.: věk, plat, koupil) (Otevřená) formule predikát nebo několik predikátů složených pomocí logických spojek negace ( ), konjunkce ( ) a disjunkce ( ). Např.: predikát1 predikát2 predikát3 nebo konkrétněji věk(31-40) plat( tis.) Kvantifikátor symbolické jméno zobrazení, které určuje kvantitativní intenzitu souvislosti. Představuje druh zjištěného vztahu v datech a stanovuje, jak silný tento vztah je. (Např. s,p fundovaná implikace viz dále) Formální sentence zápis tvaru formule1 q formule2 (kde q je kvantifikátor) jehož pravdivost v datech se testuje. Pravdivá sentence sentence, pro níž funkce kvantifikátoru vydala hodnotu 1. Sentence pravdivá v datech; výstup metody GUHA. (Např. (2).) Antecedent predikát vyskytující se uvnitř formule na levé straně sentence (před kvantifikátorem). V sentenci (2) je antecedentem formule: věk(31-40) plat( tis.) Sukcedent predikát vyskytující se uvnitř formule na pravé straně sentence (za kvantifikátorem). V sentenci (2) je sukcedentem formule: koupil(bmw) 3.1 Principy GUHA ze zadaných množin antecedentů a sukcedentů systematicky generuje všechny hypotézy a testuje, zda jsou nějak podporovány zpracovávanými daty. Řekneme-li, že data podporují nějakou hypotézu, znamená to zhruba, že v datech platí něco, co by bylo velmi nepravděpodobné, kdyby hypotéza neplatila. Pro analýzu dat nejsou podstatné hodnoty veličin na jednotlivých objektech, ale charakteristiky veličin v rámci celých dat. Podle hodnot těchto charakteristik a zvoleného kvantifikátoru se usuzuje, jestli je daná sentence pravdivá v datech nebo ne. 11
12 GUHA pracuje s charakteristikami, kterým se říká frekvence. Omezme se na binární veličiny. Nechť M je tabulka vzniklá pozorováním n dvouhodnotových veličin X 1,..., X n. Pro každou n-tici možných hodnot veličin, tj. e = e 1,..., e n {0, 1} n definujeme frekvenci fr(e, M) jako počet objektů z M, pro které jsme napozorovali hodnoty veličin rovné e = e 1,..., e n. Konkrétně pro n = 2, tj. tabulku se dvěma sloupci X 1 a X 2, definujeme čtyři frekvence a, b, c, d jako: a počet objektů z tabulky, pro které je X 1 = X 2 = 1 b počet objektů z tabulky, pro které je X 1 = X 2 = 1 c počet objektů z tabulky, pro které je X 1 = X 2 = 1 d počet objektů z tabulky, pro které je X 1 = X 2 = 1 Schematicky se frekvence zapisují do formy frekvenční (čtyřpolní) tabulky (pro dané M!): X 2 X 2 X 1 a b r X 1 c d s k l m kde k = a + c, l = b + d, r = a + b, s = c + d a m = a + b + c + d, tedy celkový počet všech objektů (záznamů, řádků datové tabulky). Obecněji pro dvě konečněhodnotové veličiny používáme frekvenční tabulku následujícího tvaru: X 2 (hodn0) X 2 (hodn1)... X 2 (hodnk) X 1 (hodn0) a 00 a a 0k a 0. X 1 (hodn1) a 10 a a 1k a X 1 (hodnl) a l0 a l1... a lk a l. a.0 a.1... a.k m V následujícím textu se budu zabývat pouze dvouhodnotovými veličinami. 3.2 Kvantifikátory Nad charakteristikami a, b, c a d (viz minulý odstavec) je definována řada kvantifikátorů. Kvantifikátory mohou být podle typu prezentovaného asociačního pravidla implikační, asociační nebo korelační. Každý kvantifikátor se definuje jako funkce frekvencí a, b, c, d. Pokud je výsledkem zobrazení hodnota 1, zkoumané asociační pravidlo je přijato jako zajímavé. 12
13 3.2.1 Implikační kvantifikátory A (asi, většinou) je příčinou B (A B): 1. s,p fundovaná implikace (pro s (0; 1 a p > 0): s,p (a, b, c, d) = 1, je-li a p a a s(a + b) Tento kvantifikátor v podstatě představuje dříve (viz 2) zmíněný požadavek na splnění minimální podpory (p) a spolehlivosti (s). (Až na to, že zde číslo p nepředstavuje relativní, nýbrž absolutní počet výskytů.) 2.! s,p,α dolní kritická implikace (pro s (0; 1, p > 0 a α 0; 0, 5 ):! s,p,α (a, b, c, d) = 1, je-li r i=a ( ) r s i (1 s) r i α i Je založen na testu nulové hypotézy, že podmíněná pravděpodobnost sukcedentu za podmínky antecedentu je menší nebo rovna s, proti alternativní hypotéze, že je větší než s. Jde o test na hladině významnosti α. Hodnota 1 indikuje přijetí alternativní hypotézy. 3.? s,p,α horní kritická implikace (pro s (0; 1, p > 0 a α 0; 0, 5 ):? s,p,α (a, b, c, d) = 1, je-li a i=0 ( ) r s i (1 s) r i > α i Je založen na testu nulové hypotézy, že podmíněná pravděpodobnost sukcedentu za podmínky antecedentu je větší nebo rovna s, proti alternativní hypotéze, že je menší než s. Jde o test na hladině významnosti α. Hodnota 1 indikuje nezamítnutí nulové hypotézy. Dolní a horní kritickou implikaci vybíráme podle toho, kterou statistickou chybu chceme omezit hodnotou α: dolní kritická implikace nám zaručuje, že pravděpodobnost vygenerování vztahu A B při současné neplatnosti tohoto pravidla je rovna hodnotě α, zatímco horní kritická implikace zajišťuje, že pravděpodobnost nevygenerování vztahu A B při jeho skutečné platnosti je rovna dané hodnotě α. (Původně se v knize [2] ve vzorcích implikačních kvantifikátorů používají symboly p a s v prohozeném významu. Vzhledem ke značení v ostatních částech tohoto článku jsem si dovolil jejich význam takto pozměnit.) Zhodnocení implikačních kvantifikátorů: Všechny zde prezentované kvantifikátory se liší svou citlivostí nechť R M ( ) je množina všech pravdivých sentencí s implikačním kvantifikátorem v datech M; pak platí: R M (! s,p,α) R M ( s,p ) R M (? s,p,α) Jinými slovy, horní kritická implikace dává na výstup nejvíce sentencí, dolní kritická implikace nejméně... 13
14 3.2.2 Asociační kvantifikátory A (asi, většinou) souvisí s B (A B)... Volně řečeno, kvantifikátor je asociační, když nějakým způsobem říká, že shody převažují nad neshodami. Všechny dále zmíněné asociační kvantifikátory jsou symetrické v tom smyslu, že pro ně platí q(a, b, c, d) = q(a, c, b, d) tj. že predikát1 q predikát2 predikát2 q predikát1 1. δ prosté vychýlení (pro lib. δ 0) (speciálně pro δ = 0 dostáváme ad > bc). δ (a, b, c, d) = 1, je-li ad > e δ bc 2. 1 α Fisherův kvantifikátor (pro lib. α 0; 0, 5 ): 1 α (a, b, c, d) = 1, je-li ad > bc a min(r,k) i=a ( k m k ) i)( r i ( m ) α r Tento kvantifikátor je založen na statistickém testu hypotézy o nezávislosti veličin proti alternativě o jejich kladné závislosti na hladině významnosti α. Hodnota 1 indikuje přijetí alternativní hypotézy α χ 2 -kvantifikátor (pro α (0; 0, 5 ): 2 α (a, b, c, d) = 1, je-li ad > bc a (ad bc) 2 m χ 2 α rkls kde χ 2 α je (1 2α)-kvantil χ 2 -rozložení s jedním stupněm volnosti. Tento kvantifikátor má stejné statistické pozadí jako Fisherův. Doporučení k používání asociačních kvantifikátorů: Nechť lh je součet nejdelší délky antecedentu a sukcedentu a m počet záznamů (řádků) datové matice. Autoři metody formulovali několik (často heuristických) pravidel pro použití jednotlivých kvantifikátorů: Pro χ 2 -kvantifikátor platí následující hrubý dolní odhad vztahu m k lh: Pro Fisherův kvantifikátor by mělo platit: 5 2 lh m m 2 lh χ 2 -test má větší sílu než Fisherova statistika. Proto je-li min{5 2 lh, 250} m používáme raději kvantifikátor χ 2 místo Fisherova. 14
15 3.2.3 Korelační kvantifikátory Za podmínky F hodnoty A a B (asi, většinou) korelují (A corr B / F): Všechny korelační kvantifikátory původní metody GUHA jsou založeny na pojmu pořadí. Předpokládejme, že máme data vzniklá pozorováním dvou reálněhodnotových veličin, t 1 a t 2. Navíc předpokládejme, že v datech nemáme žádné dva objekty se stejnými hodnotami t 1 nebo t 2 (situace se dá ošetřit, pokud je tam máme). R(i) definujme jako počet objektů, pro něž hodnota veličiny t 1 je menší než hodnota t 1 pro i-tý objekt. Podobně definujme i Q(i) (vzhledem k veličině t 2 ). 1. s-corr α Spearmanův kvantifikátor (pro α (0; 0, 5 ): s-corr α ( t 1, t 2 ) = 1, je-li m R(i)Q(i) k α i=1 kde k α je vhodná konstanta. Za jistých dodatečných předpokladů jde o statistický test nulové hypotézy nezávislosti proti alternativní hypotéze o kladné závislosti. Hodnota 1 indikuje kladnou závislost na hladině α. 2. k-corr α Kendallův kvantifikátor (pro α (0; 0, 5 ): ( ( ) ( k-corr α ( t 1, t 2 ) = 1, je-li sign R(i) R(j) sign Q(i) Q(j)) ) k α i j kde k α je vhodná konstanta. Statistická interpretace je stejná jako výše. sign(x) znamená funkci signum (kladného čísla je 1, záporného 1). 3. e-corr pořadově ekvivalenční kvantifikátor: e-corr( t 1, t 2 ) = 1, je-li R(i) = Q(i) pro i = 1,..., m 3.3 Dedukční pravidla Při hledání asociací se dá využít různých dedukčních pravidel. Lze jimi např. urychlit algoritmy hledání, protože nemusíme testovat sentence, které jdou odvodit z ostatních hypotéz. 1. Pravidlo záměny ekvivalentních formulí. V každé sentenci S(F ) obsahující formuli F a pravdivé v datech M lze nahradit formuli F jinou formulí F, která je v datech M ekvivalentní formuli F. Vzniklá sentence je opět pravdivá v datech M. Speciálním případem jsou formule logicky ekvivalentní, tj. formule ekvivalentní v každých datech. (Např.: p 1 p 2 a p 2 p 1 jsou logicky ekvivalentní.) 2. Pravidlo úprav elementární implikace. V elementární implikaci K D pravdivé v datech M můžeme: (a) Převést některé členy z antecedentu do sukcedentu za současné změny znamení (prostý/negace). 15
16 (b) Přidat do sukcedentu nové členy. Vzniklá sentence je opět pravdivá v datech M. Elementární implikace je sentence tvaru K D, kde K je elementární konjunkce, nějaký implikační kvantifikátor, D elementární disjunkce a K, D nemají žádný společný predikát. Např. je-li sentence p 1 p 2 0,8 p 3 v datech pravdivá, jsou pravdivé i tyto sentence: p 1 0,8 p 2 p 3 (převod p 2 ) p 2 0,8 p 1 p 3 (převod p 1 ) p 2 0,8 p 1 p 3 p 4 p 5 (přidání členů) 3. Pravidlo symetrie. Je-li symetrický kvantifikátor a je-li sentence F 1 F 2 pravdivá v datech M, pak i sentence F 2 F 1 je pravdivá v datech M. 4. Pravidlo konzervativního zlepšování. V sentenci pravdivé v datech a obsahující elementární konjunkci K lze ke K přidat do konjunkce libovolný počet predikátů a negovaných predikátů, které K konzervativně zlepšují. Výsledná sentence je opět pravdivá v datech M. Řekneme, že predikát p i (resp. jeho negovaná varianta p i ) konzervativně zlepšuje elementární konjunkci K v datech M, jestliže predikát p i se nevyskytuje v K a formule K p i (resp. K p i ) je ekvivalentní formuli K v datech M. 5. Pravidlo ostrého zlepšování pro konjunktivní asociace. V konjunktivní asociaci K 1 K 2 pravdivé v datech M lze k antecedentu přidat do konjunkce libovolný počet predikátů či negovaných predikátů tento antecedent ostře zlepšujících a podobně pro sukcedent. Výsledná sentence je opět pravdivá v datech M. Predikát F ostře zlepšuje antecedent K 1 konjunktivní asociace K 1 K 2, jestliže se tento predikát nevyskytuje v K 1 a formule K 1 K 2 je v datech ekvivalentní formuli K 1 K 2 F. Podobně F ostře zlepšuje sukcedent K 2 této asociace, jestliže se tento predikát nevyskytuje v K 2 a formule K 1 K 2 je v datech ekvivalentní formuli K 1 K 2 F. Platí, že jestliže predikát (negovaný predikát) konzervativně zlepšuje antecedent (sukcedent) konjunktivní asociace, pak jej zlepšuje i ostře. 3.4 Neúplná informace Uvedenou teorii lze rozšířit o schopnost pracovat s neúplnou informací. V následujícím výkladu se omezím pouze na dvouhodnotová data s neúplnou informací (tedy na trojhodnotová data s hodnotami 0, X, 1). Mějme nyní takovou trojhodnotovou tabulku dat M. Dvouhodnotové doplnění tabulky M je každá tabulka M, která vznikne z M tak, že nějakým způsobem nahradíme všechny křížky (chybějící hodnoty) nulami a jedničkami. Jedno jediné dvouhodnotové doplnění je správné; 16
17 totiž to, kde jsou chybějící hodnoty správně doplněny. Protože však tyto hodnoty neznáme, musíme brát v úvahu všechna doplnění. Vyhodnocování formulí složených z predikátů s chybějícími hodnotami se odehrává podle následujících pravidel: 1 jestliže p = 0 p = 0 jestliže p = 1 X jestliže p = X 1 jestliže p 1 =... = p n = 1 (p 1... p n ) = 0 jestliže některé p = 0 X jindy 1 jestliže některé p = 1 (p 1... p n ) = 0 jestliže p 1 =... = p n = 0 X jindy Pro elementární konjunkce a elementární disjunkce tedy platí princip zabezpečení: Každá taková formule F má pro libovolný objekt dvouhodnotových dat M s neúplnou informací hodnotu X, právě když existuje dvouhodnotové doplnění M dat M, v němž F = 1 a jiné dvouhodnotové doplnění M dat M, v němž F = 0. Funkce kvantifikátorů pracující s neúplnou informací se definuje takto: 1 jestliže q(m ) = 1, doplnění M tabulky M q(m) = 0 jestliže q(m ) = 0, doplnění M tabulky M X jindy I pro kvantifikátory tedy platí výše zmiňovaný princip zabezpečení. Pro práci s neúplnou informací se místo čtyřpolní tabulky používá zcela analogicky devítipolní tabulka: 1 X 0 1 a i b r X o n p 0 c j d s k l m Přechod k některému dvouhodnotovému doplnění se projeví tak, že i bude dílem přičteno k a, dílem k b; o k a a c,... a n dílem k a, b, c a d: a i b o n p c j d Příklad. Máme následující frekvenční tabulku (sloupce se týkají, jako obvykle, antecedentu a řádky sukcedentu): 17
18 1 X X které odpovídají tři možná doplnění: Snadno se přesvědčíme, že ve všech doplněních je pravdivá sentence Naproti tomu sentence reprezentovaná frekvenční tabulkou jejíž všechny tři možná doplnění jsou: antecedent 0,9 sukcedent antecedent 0,9 sukcedent 1 X X je pravdivá v prvním doplnění, ale nepravdivá ve druhém i třetím. Bude tedy mít v našich datech hodnotu X (nelze rozhodnout, jestli je pravdivá nebo ne). 3.5 Procedury metody GUHA Samotná metoda GUHA se skládá z řady procedur. Mnohé z nich se zabývají i předzpracováním. K hlavním procedurám, které jsou v tomto textu popsány, patří: ASSOC vyhledávání sentencí s asociačními kvantifikátory IMPL vyhledávání implikací CORREL vyhledávání vysokých podmíněných korelací 18
19 3.5.1 ASSOC ASSOC je metoda, která hledá v datech sentence s asociačními kvantifikátory. Antecedent i sukcedent jsou formule ve tvaru elementární konjunkce. Jako vstup této metody vytěžování je třeba specifikovat, o jaký tvar výsledných sentencí máme zájem. Musí se určit kvantifikátor, jeho parametry a povolený tvar antecedentu a sukcedentu. Povolený tvar antecedentu a sukcedentu určuje řešitel tak, že zadá čtyři množiny predikátů: 1. BA důležité antecedentové predikáty, 2. CA ostatní vyšetřované antecedentové predikáty, 3. BS důležité sukcedentové predikáty, 4. CS ostatní vyšetřované sukcedentové predikáty. V každé z těchto čtyř množin určí ke každému predikátu povolený tvar (pozitivní, negativní nebo oba). Navíc ještě stanoví maximální povolenou délku antecedentu a maximální povolenou délku sukcedentu. Generovat se budou jen sentence, které mají v antecedentu i sukcedentu alespoň jeden důležitý predikát a volitelně několik dalších predikátů podle zadání (všechny v povolených tvarech). Výstupem jsou všechny sentence pravdivé v datech a vyhovující tvaru zadanému na vstupu. Samotný algoritmus probíhá zhruba takto: 1. Začíná se od sentencí tvořených jedním predikátem v antecedentu a jedním v sukcedentu. Postupně se testuje pravdivost všech přípustných kombinací počítáním čtyřpolních tabulek a vyhodnocováním funkce kvantifikátoru. 2. Následuje prodlužování antecedentu i sukcedentu. Obě formule jsou tvořeny jako elementární konjunkce. Opět se testuje pravdivost všech přípustných kombinací. 3. Délka sentence se zvětšuje až do maximální stanovené velikosti. Pro zmenšení objemu výstupních sentencí se dá využít dedukčních pravidel (viz sekce 3.3) a vypisovat pouze ty sentence, které nelze odvodit z ostatních IMPL Procedura IMPL slouží k vyhledávání vysokých podmíněných pravděpodobností v dvouhodnotových datech. Jinými slovy, generuje pravdivé sentence s implikačními kvantifikátory. Antecedent je ve tvaru elementární konjunkce a sukcedent ve tvaru elementární disjunkce. Vstupy jsou stejné jako u procedury ASSOC (viz sekce 3.5.1). Také algoritmus výpočtu je podobný proceduře ASSOC. 19
20 3.5.3 CORREL Procedura CORREL generuje a vydává elementární konjunkce, pro které je podmíněná korelace dvou vybraných reálných veličin v datech vysoká. Jinými slovy, vydává sentence tvaru (p 1 corr p 2 )/f kde p 1 a p 2 jsou zvolené reálněhodnotové veličiny a f je elementární konjunkce, kterou nazýváme podmínka. V jednotlivých bězích procedury CORREL jsou p 1, p 2 a korelační kvantifikátor corr pevné, mění se jen podmínka f. Procedura CORREL není uzpůsobená pro práci s neúplnou informací, proto se záznamy s neúplnou informací ze zpracování vylučují. Vstupy: 1. reálněhodnotové veličiny p 1 a p 2, které chceme zkoumat, 2. užitý korelační kvantifikátor 3. povolený tvar podmínky: (a) B důležité predikáty, (b) C ostatní vyšetřované predikáty U každé z těchto množin se ještě určí povolený tvar predikátu (pozitivní, negativní nebo obojí). 4. maximální povolená délka podmínky Procedura bude generovat pouze takové podmínky, které jsou elementární konjunkcí predikátů z B nebo C v povolených tvarech, přičemž obsahují alespoň jeden predikát z B. Výstupem jsou tedy všechny pravdivé sentence zadaného tvaru a následujícího formátu: (p 1 corr p 2 )/f Algoritmus hledání pravdivých sentencí spočívá v postupném generování podmínek povoleného tvaru, jejich postupným prodlužováním až do zadané maximální velikosti a testováním pravdivosti vzniklých sentencí. 4 Rozdělení asociací Získávání asociačních pravidel z dat je dnes rozsáhlé odvětví Data Miningu. Nebylo proto možné se v tomto textu zabývat všemi druhy získaných pravidel a všemi známými způsoby, jak je z dat vytěžit. Dovolím si ale alespoň na závěr stručné shrnutí různých druhů pravidel, která se dají z dat získávat. 1 Asociační pravidla můžeme rozdělovat mnoha způsoby (viz [3], [6]; každý druh se obvykle získává více či méně odlišnými metodami): 1 Obávám se, že ani tento souhrn není kompletní... 20
21 Podle typu asociačních pravidel: implikační (A B) asociační pravidla, jak byla prezentována v předchozím odstavci. (A (asi, většinou) je příčinou B.); asociační (A B) pravidla zachycující souvislost mezi daty. (A (asi, většinou) souvisí s B.); korelační (A corr B / F ) posuzují kladné závislosti dvou (spojitých) veličin. (Za podmínky F veličiny A, B (asi, většinou) korelují.) Podle typu hodnot použitých v pravidlech: booleovská (dvouhodnotová) pravidla charakterizující vztahy mezi přítomností a absencí znaků o datech; vícehodnotová pravidla kvantitativní asociační pravidla pracující se spojitými hodnotami. Podle dimenzí obsažených v pravidlu: jednodimenzionální pravidla (transakční asociace) zachycující vztahy uvnitř jedné dimenze dat (jinými slovy, v asociačním pravidlu se vyskytuje pouze jeden druh predikátu p i ). Např.: koupil(x, chipsy) koupil(x, křupky) koupil(x, pivo) multidimenzionální pravidla (klasické asociace) kombinují obecně více dimenzí. Např.: věk(x, 31-40) plat(x, tis.) koupil(x, BMW) (atributy jedné množiny se nazývají antecedenty (předpoklady) a druhé sukcedenty (závěry, závisle proměnné)) agregovaná mezi podmnožinou atributů a charakteristikami jiných atributů (testy významnosti rozdílů středních hodnot různých ukazatelů počítaných z agregovaných údajů daných skupin záznamů, rozptylů... ) Podle úrovně abstrakce použité v množině pravidel: Někdy je vhodné testovat asociační pravidla na různých úrovních abstrakce. Například můžeme testovat závislost věku na koupi konkrétní značky vozu nebo jen typu vozu (sedan, limuzína atd.). První případ je konkrétnější než druhý. Podle různých vylepšení: hledání asociací může být obohaceno např. o korelační analýzu, zajímavost asociací se určuje navíc dalšími statistickými testy atd., hledání asociačních pravidel v textových dokumentech. 5 Statistický pohled Jak jsme viděli, v procesu získávání asociačních pravidel z dat se pro rozhodnutí o zajímavosti pravidla často používají různé statistické testy. Statistika pracuje s pravděpodobností 21
22 a veškeré výsledky dává na základě skutečnosti, že existuje jistá (byť malá) pravděpodobnost nepravdivosti statistických závěrů. Existuje-li tedy určitá (malá) pravděpodobnost α i, že konkrétní získané pravidlo F i není pravdivé, celková pravděpodobnost skutečnosti, že do množiny M vytěžených pravidel F i se vloudí alespoň jedno, které neodpovídá realitě, je nutně menší rovno M α i. Jevu se říká simultánní statistická inference. Při větší mohutnosti množiny M tento práh rychle roste k 1 pravděpodobnost, že mezi získanými asociačními pravidly je alespoň jedno nepravdivé, se blíží k jistotě. Co z toho vyplývá a má tedy získávání asociačních pravidel vůbec smysl? Samozřejmě ano. Na vytěžené znalosti ovšem nemůžeme pohlížet jako na jisté pravdy. Nelze je prohlásit za zákony zkoumané oblasti. Asociační pravidla nám pouze dávají přehled o charakteru dat. Ukazují, které hypotézy jsou daty podporovány, jaké vztahy jsou možná pravdivé a které směry dalšího bádání v datech jsou nadějné. (Více viz např. [2], [4] (str ) nebo [1] (str. 106).) Reference [1] Anděl J.: Statistické metody. MATFYZPRESS Praha 1998, ISBN [2] Hájek P., Havránek T., Chytil M.K.: Metoda GUHA automatická tvorba hypotéz. Academia Praha 1983 [3] Han J., Kamber M.: Data Mining: Concepts and Techniques. Academic Press 2001, ISBN [4] Havránek T.: Statistika pro biologické a lékařské vědy. Academia Praha 1993 [5] Šarmanová J.: Metody dolování znalostí z dat. Datakon Brno 2002 [6] Šarmanová J.: Metody analýzy dat. [učební text stejnojmenného předmětu], VŠB-TU Ostrava
Asociační pravidla (metoda GUHA)
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Asociační pravidla (metoda GUHA) Ing. Michal Burda () Získávání znalostí z dat Brno, 27. ledna
VíceDolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
VíceZákladní pojmy matematické logiky
KAPITOLA 1 Základní pojmy matematické logiky Matematická logika se zabývá studiem výroků, jejich vytváření a jejich pravdivostí. Základním kamenem výrokové logiky jsou výroky. 1. Výroková logika Co je
VíceMísto pojmu výroková formule budeme používat zkráceně jen formule. Při jejich zápisu
VÝROKOVÁ LOGIKA Matematická logika se zabývá studiem výroků, jejich vytváření a jejich pravdivostí. Základním kamenem výrokové logiky jsou výroky. Co je výrok nedefinujejme, pouze si řekneme, co si pod
VíceNegativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1
Negativní informace Petr Štěpánek S použitím materiálu M.Gelfonda a V. Lifschitze 2009 Logické programování 15 1 Negace jako neúspěch Motivace: Tvrzení p (atomická formule) neplatí, jestliže nelze odvodit
VíceÚvod do dobývání. znalostí z databází
POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů
VíceFormální systém výrokové logiky
Formální systém výrokové logiky 1.Jazyk výrokové logiky Nechť P = {p,q,r, } je neprázdná množina symbolů, které nazýváme prvotní formule. Symboly jazyka L P výrokové logiky jsou : a) prvky množiny P, b)
VíceJana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
VícePredikátová logika. prvního řádu
Predikátová logika prvního řádu 2 Predikát Predikát je n-ární relace - vyjadřuje vlastnosti objektů a vztahy mezi objekty - z jednoduchého výroku vznikne vypuštěním alespoň jednoho jména objektu (individua)
VíceUnární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek
Otázka 06 - Y01MLO Zadání Predikátová logika, formule predikátové logiky, sentence, interpretace jazyka predikátové logiky, splnitelné sentence, tautologie, kontradikce, tautologicky ekvivalentní formule.
VíceVýroková a predikátová logika - II
Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2015/2016 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2015/2016 1 / 18 Základní syntax Jazyk Výroková logika je logikou
VíceAsociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
VíceMatematická logika. Rostislav Horčík. horcik
Matematická logika Rostislav Horčík horcik@math.feld.cvut.cz horcik@cs.cas.cz www.cs.cas.cz/ horcik Rostislav Horčík (ČVUT FEL) Y01MLO Letní semestr 2007/2008 1 / 20 Predikátová logika Motivace Výroková
VíceMaticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:
3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...
VíceVýroková a predikátová logika - II
Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2017/2018 1 / 17 Předběžnosti Základní pojmy n-ární relace a funkce
VíceKaždé formuli výrokového počtu přiřadíme hodnotu 0, půjde-li o formuli nepravdivou, a hodnotu 1, půjde-li. α neplatí. β je nutná podmínka pro α
1. JAZYK ATEATIKY 1.1 nožiny nožina je souhrn objektů určitých vlastností, které chápeme jako celek. ZNAČENÍ. x A x A θ A = { { a, b a A = B A B 0, 1 2 a, a,..., a n x patří do množiny A x nepatří do množiny
VíceZáklady vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
Více5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
VíceMÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
VíceVýroková a predikátová logika - II
Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2013/2014 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2013/2014 1 / 20 Základní syntax Jazyk Výroková logika je logikou
VíceMATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]
MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě
Víceteorie logických spojek chápaných jako pravdivostní funkce
Výroková logika teorie logických spojek chápaných jako pravdivostní funkce zabývá se způsoby tvoření výroků pomocí spojek a vztahy mezi pravdivostí různých výroků používá specifický jazyk složený z výrokových
Více1 Pravdivost formulí v interpretaci a daném ohodnocení
1 Pravdivost formulí v interpretaci a daném ohodnocení Než uvedeme konkrétní příklady, zopakujme si definici interpretace, ohodnocení a pravdivosti. Necht L je nějaký jazyk. Interpretaci U, jazyka L tvoří
VíceVýroková logika. p, q, r...
Výroková logika Výroková logika je logika, která zkoumá pravdivostní podmínky tvrzení a vztah vyplývání v úsudcích na základě vztahů mezi celými větami. Můžeme též říci, že se jedná o logiku spojek, protože
VícePredikátová logika Individua a termy Predikáty
Predikátová logika Predikátová logika je rozšířením logiky výrokové o kvantifikační výrazy jako každý, všichni, někteří či žádný. Nejmenší jazykovou jednotkou, kterou byla výroková logika schopna identifikovat,
VíceSémantika predikátové logiky
Sémantika predikátové logiky pro analýzu sémantiky potřebujeme nejprve specifikaci jazyka (doména, konstanty, funkční a predikátové symboly) příklad: formální jazyk s jediným binárním predikátovým symbolem
VíceMatematická logika. Miroslav Kolařík
Matematická logika přednáška šestá Miroslav Kolařík Zpracováno dle textu R. Bělohlávka: Matematická logika poznámky k přednáškám, 2004. a dle učebního textu R. Bělohlávka a V. Vychodila: Diskrétní matematika
VíceTesty dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich
VíceVektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
VíceKonstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i,
[161014-1204 ] 11 2.1.35 Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i, kde i = 0, 1,..., takto: p 0 q právě tehdy, když bud p, q F nebo p, q F. Dokud i+1 i konstruujeme p
VíceMatematika B101MA1, B101MA2
Matematika B101MA1, B101MA2 Zařazení předmětu: povinný předmět 1.ročníku bc studia 2 semestry Rozsah předmětu: prezenční studium 2 + 2 kombinované studium 16 + 0 / semestr Zakončení předmětu: ZS zápočet
VíceVýroková logika - opakování
- opakování ormální zavedení Výroková formule: Máme neprázdnou nejvýše spočetnou množinu A výrokových proměnných. 1. Každá proměnná je výroková formule 2. Když α, β jsou formule, potom ( α), (α β), (α
Víceplatné nejsou Sokrates je smrtelný. (r) 1/??
Predikátová logika plně přejímá výsledky výrokové logiky zabývá se navíc strukturou jednotlivých jednoduchých výroků na základě této analýzy lze odvodit platnost některých výroků, které ve výrokové logice
Více12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
VíceMatematická analýza 1
Matematická analýza 1 ZS 2019-20 Miroslav Zelený 1. Logika, množiny a základní číselné obory 2. Limita posloupnosti 3. Limita a spojitost funkce 4. Elementární funkce 5. Derivace 6. Taylorův polynom Návod
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Vícehledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku
Asociační pravidla Asociační pravidla hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku podpora rozhodování Analýza nákupního
Více1 Výroková logika 1. 2 Predikátová logika 3. 3 Důkazy matematických vět 4. 4 Doporučená literatura 7
1 Výroková logika 1 Výroková logika 1 2 Predikátová logika 3 3 Důkazy matematických vět 4 4 Doporučená literatura 7 Definice 1.1 Výrokem rozumíme každé sdělení, o kterém má smysl uvažovat, zda je, či není
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceVektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u
VíceStatistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.
VíceAnalytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
VíceLogika. 2. Výroková logika. RNDr. Luděk Cienciala, Ph. D.
Logika 2. Výroková logika RNDr. Luděk Cienciala, Ph. D. Tato inovace předmětu Úvod do logiky je spolufinancována Evropským sociálním fondem a Státním rozpočtem ČR, projekt č. CZ. 1.07/2.2.00/28.0216, Logika:
VíceZáklady algoritmizace. Pattern matching
Základy algoritmizace Pattern matching 1 Pattern matching Úloha nalézt v nějakém textu výskyty zadaných textových vzorků patří v počítačové praxi k nejfrekventovanějším. Algoritmy, které ji řeší se používají
VíceZpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceBooleovská algebra. Booleovské binární a unární funkce. Základní zákony.
Booleovská algebra. Booleovské binární a unární funkce. Základní zákony. Tomáš Bayer bayertom@natur.cuni.cz Katedra aplikované geoinformatiky a kartografie, Přírodovědecká fakulta UK. Tomáš Bayer bayertom@natur.cuni.cz
VíceVýroková a predikátová logika - IV
Výroková a predikátová logika - IV Petr Gregor KTIML MFF UK ZS 2018/2019 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - IV ZS 2018/2019 1 / 17 Tablo metoda Tablo Tablo - příklady F (((p q)
Více1. Matematická logika
MATEMATICKÝ JAZYK Jazyk slouží člověku k vyjádření soudů a myšlenek. Jeho psaná forma má tvar vět. Každá vědní disciplína si vytváří svůj specifický jazyk v úzké návaznosti na jazyk živý. I matematika
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Více1 Linearní prostory nad komplexními čísly
1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)
VíceVýroková a predikátová logika - III
Výroková a predikátová logika - III Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - III ZS 2017/2018 1 / 16 2-SAT 2-SAT Výrok je v k-cnf, je-li v CNF a
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Více0. ÚVOD - matematické symboly, značení,
0. ÚVOD - matematické symboly, značení, číselné množiny Výroky Výrok je každé sdělení, u kterého lze jednoznačně rozhodnout, zda je či není pravdivé. Každému výroku lze proto přiřadit jedinou pravdivostní
VíceMatematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic
Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je
VíceMatematická logika. Miroslav Kolařík
Matematická logika přednáška třetí Miroslav Kolařík Zpracováno dle textu R. Bělohlávka: Matematická logika poznámky k přednáškám, 2004. a dle učebního textu R. Bělohlávka a V. Vychodila: Diskrétní matematika
VíceÚvod do logiky (presentace 2) Naivní teorie množin, relace a funkce
Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce Marie Duží marie.duzi@vsb.cz 1 Úvod do teoretické informatiky (logika) Naivní teorie množin Co je to množina? Množina je soubor prvků
VíceNáhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
VíceVýroková logika. Teoretická informatika Tomáš Foltýnek
Výroková logika Teoretická informatika Tomáš Foltýnek foltynek@pef.mendelu.cz Teoretická informatika strana 2 Opakování z minulé přednášky Co je to formalismus a co je jeho cílem? Formulujte Russelův paradox
Více1 Vektorové prostory.
1 Vektorové prostory DefiniceMnožinu V, jejíž prvky budeme označovat a, b, c, z, budeme nazývat vektorovým prostorem právě tehdy, když budou splněny následující podmínky: 1 Je dáno zobrazení V V V, které
VíceGrafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.
Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy
VícePřednáška 3: Limita a spojitost
3 / 1 / 17, 1:38 Přednáška 3: Limita a spojitost Limita funkce Nejdříve je potřeba upřesnit pojmy, které přesněji popisují (topologickou) strukturu množiny reálných čísel, a to zejména pojem okolí 31 Definice
VíceVýroková a predikátová logika - V
Výroková a predikátová logika - V Petr Gregor KTIML MFF UK ZS 2015/2016 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - V ZS 2015/2016 1 / 21 Dokazovací systémy VL Hilbertovský kalkul Hilbertovský
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
Více1 Řešení soustav lineárních rovnic
1 Řešení soustav lineárních rovnic 1.1 Lineární rovnice Lineární rovnicí o n neznámých x 1,x 2,..., x n s reálnými koeficienty rozumíme rovnici ve tvaru a 1 x 1 + a 2 x 2 +... + a n x n = b, (1) kde koeficienty
VíceOkruh č.3: Sémantický výklad predikátové logiky
Okruh č.3: Sémantický výklad predikátové logiky Predikátová logika 1.řádu formalizuje úsudky o vlastnostech předmětů a vztazích mezi předměty pevně dané předmětné oblasti (univerza). Nebudeme se zabývat
Více1 Soustavy lineárních rovnic
1 Soustavy lineárních rovnic 1.1 Základní pojmy Budeme uvažovat soustavu m lineárních rovnic o n neznámých s koeficienty z tělesa T (potom hovoříme o soustavě m lineárních rovnic o n neznámých nad tělesem
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceGenerování pseudonáhodných. Ing. Michal Dorda, Ph.D.
Generování pseudonáhodných čísel při simulaci Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky V simulačních modelech se velice často vyskytují náhodné proměnné. Proto se budeme zabývat otázkou, jak při simulaci
VíceDefinice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují
Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují 1. u + v = v + u, u, v V 2. (u + v) + w = u + (v + w),
VíceTestování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Více4.2 Syntaxe predikátové logiky
36 [070507-1501 ] 4.2 Syntaxe predikátové logiky V tomto oddíle zavedeme syntaxi predikátové logiky, tj. uvedeme pravidla, podle nichž se tvoří syntakticky správné formule predikátové logiky. Význam a
VíceTESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě
VícePravděpodobnost a statistika
Pravděpodobnost a statistika 1 Náhodné pokusy a náhodné jevy Činnostem, jejichž výsledek není jednoznačně určen podmínkami, za kterých probíhají, a které jsou (alespoň teoreticky) neomezeně opakovatelné,
VícePříklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11
Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:
Více5. Lokální, vázané a globální extrémy
5 Lokální, vázané a globální extrémy Studijní text Lokální extrémy 5 Lokální, vázané a globální extrémy Definice 51 Řekneme, že f : R n R má v bodě a Df: 1 lokální maximum, když Ka, δ Df tak, že x Ka,
VíceVysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner
Vysoká škola ekonomická Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Systém LISp-Miner Stručný popis určený pro posluchače kurzů Metod zpracování informací verse 20.
VíceTestování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
VíceÚvod do informatiky. Miroslav Kolařík
Úvod do informatiky přednáška první Miroslav Kolařík Zpracováno dle učebního textu prof. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Obsah 1 Co a k čemu je logika? 2 Výroky a logické spojky
Více12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ
56 12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ Těžiště I. impulsová věta - věta o pohybu těžiště II. impulsová věta Zákony zachování v izolované soustavě hmotných bodů Náhrada pohybu skutečných objektů pohybem
VíceZáklady biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
VícePoznámky k předmětu Aplikovaná statistika, 11. téma
Poznámky k předmětu Aplikovaná statistika, 11. téma Testy založené na χ 2 rozdělení V přehledu významných rozdělení jsme si uvedli, že Poissonovým rozdělením se modeluje počet událostí, které nastanou
Více8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice
9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky
VíceZáklady logiky a teorie množin
Pracovní text k přednášce Logika a teorie množin (I/2007) 1 1 Struktura přednášky Matematická logika 2 Výroková logika Základy logiky a teorie množin Petr Pajas pajas@matfyz.cz Predikátová logika 1. řádu
VíceÚvod do lineární algebry
Úvod do lineární algebry 1 Aritmetické vektory Definice 11 Mějme n N a utvořme kartézský součin R n R R R Každou uspořádanou n tici x 1 x 2 x, x n budeme nazývat n rozměrným aritmetickým vektorem Prvky
VíceNÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
Více1. Matematická logika
Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/07.0018 1. Matematická logika Základem každé vědy (tedy i matematiky i fyziky) je soubor jistých znalostí. To, co z těchto izolovaných poznatků
VíceÚvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.
Úvod do informatiky přednáška čtvrtá Miroslav Kolařík Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Obsah 1 Pojem relace 2 Vztahy a operace s (binárními) relacemi
VíceZpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VíceÚvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot formule tabulkovou metodou
Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia (reg. č. CZ.1.07/2.2.00/28.0216, OPVK) Úvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot
VíceZískávání znalostí z databází. Alois Kužela
Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního
Více0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde
VíceZadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016
Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 206 Zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia
VíceRelační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky
Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci
Více4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
VíceTestování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
VíceNAIVNÍ TEORIE MNOŽIN, okruh č. 5
NAIVNÍ TEORIE MNOŽIN, okruh č. 5 Definování množiny a jejích prvků Množina je souhrn nějakých věcí. Patří-li věc do množiny X, říkáme, že v ní leží, že je jejím prvkem nebo že množina X tuto věc obsahuje.
Více