Michal Burda. 27. ledna Abstrakt

Rozměr: px
Začít zobrazení ze stránky:

Download "Michal Burda. 27. ledna Abstrakt"

Transkript

1 Získávání znalostí z databází - Asociační pravidla Michal Burda 27. ledna 2004 Abstrakt Získávání asociačních pravidel z dat je jedním z významných oborů Data Miningu. Hledají se pomocí něj zajímavé vztahy v datech. Tento dokument se zabývá podstatou asociačních pravidel a jejich rozdělením. Nastiňuje způsoby určování relevantnosti asociací, prezentuje základní algoritmy pro hledání asociačních pravidel v datech a možné způsoby dalšího zrychlování. Obsah 1 Úvod 3 2 Hledání asociačních pravidel v transakčních databázích Algoritmy hledání asociací z transakčních databází Triviální algoritmus Apriori algoritmus Zlepšování efektivity apriori algoritmu Metoda GUHA Principy Kvantifikátory Implikační kvantifikátory Asociační kvantifikátory Korelační kvantifikátory Dedukční pravidla Neúplná informace Procedury metody GUHA ASSOC Ing. Michal Burda, VŠB TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra informatiky, michal.burda@vsb.cz, 1

2 3.5.2 IMPL CORREL Rozdělení asociací 20 5 Statistický pohled 21 Seznam tabulek 1 Transakční data Transakční data jako množiny Hash tabulka vzniklá při zjišťování L Seznam obrázků 1 Průběh apriorního algoritmu

3 1 Úvod Proces získávání asociačních pravidel z databází hledá zajímavé vztahy mezi velkým množstvím datových položek. Co se historie nápadu vytěžování pravidel z dat týče, autoři knihy [3] (str. 276) se nejspíše mýlí, když za praotce tohoto odvětví data miningu prohlásili trojici Agrawal, Imielinski, Swami, kteří roku 1993 vydali článek Mining association rules between sets of items in large databases. Je totiž známo, že se hledáním asociací (byť trochu jiného druhu) zabývala skupina českých autorů (P. Hájek, M. K. Chytil a T. Havránek) už v 80. létech (metoda GUHA). Typickým příkladem dolování asociačních pravidel je tzv. analýza nákupního košíku (market basket analysis). Tento proces analyzuje zvyky nakupujících a hledá závislosti mezi různým zbožím, které si zákazníci vloží do svého nákupního košíku. Znalost informace o tom, které výrobky zákazníci obvykle kupují současně, mohou v praxi pomoci v tvorbě katalogů, pomáhají při definování strategie rozmístění zboží v prodejně atd. Použití metod získávání asociačních pravidel však nekončí pouze u ekonomických dat. Dají se pochopitelně používat v mnoha různých oblastech od výzkumu v medicíně po sociologii, hutnictví atd. (Více viz např. [5].) V souvislosti s hledáním asociací vyvstává mnoho problémů (ostatně pro Data Mining typických) zejména jak efektivně hledat závislosti v obrovském množství dat a hlavně jak určit, která asociace je relevantní a která ne. Základy řešení obou těchto problémů se snažím nastínit v tomto dokumentu popisem dvou konkrétních metod vytěžování asociací: analýzy nákupního košíku a metody GUHA. 2 Hledání asociačních pravidel v transakčních databázích Začněme nejprve od nejjednodušších asociací, které jsou výsledkem už dříve zmiňované analýzy nákupního košíku. Zkoumaná data pochází z transakčních databáze, tj. z databáze, která zaznamenává všechny (obchodní) transakce např. podrobnosti o každém nákupu. Přídavné jméno transakční zde v žádném případě neznamená pojem transakce, jak jej známe z databázových technologií (skupina databázových operací, které musí být provedeny všechny (nebo žádná), aby nedošlo k porušení konzistence databáze). Analyzovaná data sestávají z řady booleovských atributů (tj. mohou nabývat jen hodnot 0 nebo 1) stejné dimenze. Typickým příkladem může být dimenze koupil s atributy odpovídajícími jednotlivým položkám zboží. Atribut bude mít v záznamu provedeného nákupu hodnotu 1, pokud si zákazník dané zboží koupil, a 0, pokud ne. Ukázku možné datové tabulky (ovšem podstatně zkrácené) můžeme vidět v tabulce 1. Výsledkem analýzy nákupního košíku jsou asociační pravidla obecně tvaru: i 1 i 2... i n 1 i n [ podpora = p, spolehlivost = s ] s následujícím významem: Jestliže si nějaký zákazník koupí zároveň zboží i 1,..., i n 1, pak si koupí i zboží i n s podporou p a spolehlivostí s. 3

4 TID Zboží1 Zboží2 Zboží3 Zboží4 Zboží Tabulka 1: Transakční data. TID označuje jednoznačný identifikátor transakce. Nuly byly pro přehlednost vynechány. Příkladem konkrétního objeveného vztahu může být např.: Tequila citróny [ podpora = 1 %, spolehlivost = 80 % ] Typickou reakcí supermarketu na zjištěné pravidlo může být umístění stojanu s mexickým alkoholickým nápojem co nejdále od oddělení s ovocem a zeleninou v naději, že zákazník kupující Tequilu uvidí a koupí na cestě prodejnou za citróny také něco jiného. Symbolům i i v asociačním pravidle se ve shodě s pojmy matematické logiky říká predikáty. Později si ukážeme, že se dá vytěžovat asociace s predikáty i trochu jiného (obecnějšího) tvaru. Zmiňovaná podpora (support) a spolehlivost (confidence) jsou základní mírou relevance (zajímavosti) asociačního pravidla. Podpora představuje pravděpodobnost výskytu záznamu, který splňuje všechny predikáty i 1,..., i n, v datech. Jinými slovy je to podíl počtu záznamů, obsahujících všechny druhy zboží určené predikáty i 1,... i n, a všech záznamů. Spolehlivost určuje tzv. podmíněnou pravděpodobnost jevu i n v datech za podmínky, že platí i 1,..., i n 1. Je to tedy poměr počtu záznamů o koupi zboží i 1,... i n vůči počtu záznamů obsahujících pouze i 1,..., i n 1. Asociace, které překročí uživatelem nastavené prahy pro podporu i spolehlivost, jsou považovány za zajímavé a jsou zahrnuty do zprávy o výsledcích vytěžování. Vězměme si například opět datovou tabulku 1. Asociační pravidlo Zboží2 Zboží3 Zboží1 má podporu p = 2. 9 = 0, 22 (22 %) a spolehlivost s = 2 4 = 0, 5 (50 %). Při nastavených prahových hodnotách p p = 0, 2 a s p = 0, 75 bychom toto asociační pravidlo prohlásili za irelevantní. Stojí ještě za zmínku podotknout, že pro nastavení prahových hodnot p p = 0 a s p = 1 se jedná o prostou implikaci, jak ji známe z matematické logiky. 4

5 TID T k 01 i 1, i 2, i 5 02 i 2, i 4 03 i 2, i 3 04 i 1, i 2, i 4 05 i 1, i 3 06 i 2, i 3 07 i 1, i 3 08 i 1, i 2, i 3, i 5 09 i 1, i 2, i 3 Tabulka 2: Transakční data jako množiny 2.1 Algoritmy hledání asociací z transakčních databází Na řádky datové matice tvořené jen booleovskými hodnotami (viz tabulka 1) se můžeme dívat také jako na množiny položek, pro které je na řádcích v příslušných sloupcích hodnota 1 (viz tabulka 2). Předpokládejme, že naše datová matice má m řádků a n sloupců s booleovskými hodnotami. Můžeme zavést množinu všech položek I = {i 1, i 2,..., i n } a jednotlivé transakce T k (pro k = 1,..., m) chápat jako podmnožiny T k I. Hledaná asociační pravidla jsou potom tvaru A B, kde A I, B I a A B =. Podpora p je pravděpodobnost výskytu množiny položek A B (tedy všech položek obsažených v A i B) v množině transakcí (datové tabulce). Spolehlivost s je pravděpodobnost výskytu B v transakcích, které obsahují A. Tedy: p = podpora(a B) = P (A B), s = spolehlivost(a B) = P (B A) Množina položek M se nazývá frekventovaná, jestliže dosahuje minimální stanovené podpory p p, tedy P (M) p p. Asociační pravidlo A B se nazývá silné, jestliže množina položek A B je frekventovaná, (P (A B) p p ) a spolehlivost pravidla dosahuje minimální stanovené hodnoty s p (P (B A) s p ). Je tedy jasné, že výsledkem algoritmu hledání asociací by měl být seznam všech silných asociačních pravidel Triviální algoritmus S takovýmto rozborem problému už není těžké formulovat základní algoritmus, který by hledání asociačních pravidel (nejen) v transakčních datech prováděl: Můžeme postupně generovat všechny možné kombinace predikátů na levé i pravé straně pravidla, postupně prodlužovat levou stranu a testovat v datech, je-li výsledkem silné asociační pravidlo. 5

6 Takový algoritmus je však pro větší data nepoužitelný, jelikož vede na tzv. kombinační explozi s exponenciální časovou složitostí. Data zkoumaná analýzou nákupního košíku jsou obvykle velmi rozsáhlá co do počtu řádků (počtu transakcí) tak i co do počtu sloupců (možných položek nákupu) Apriori algoritmus Mnohem větší efektivity výpočtu dosáhneme využitím jisté apriorní znalosti o silných asociacích. Tzv. apriori algoritmus (viz [3] na str ) probíhá ve dvou krocích. Nejprve jsou vyhledány frekventované množiny položek (tj. ty, které dosahují minimální stanovené hodnoty podpory) a z nich jsou generovány silné asociace (takové, které navíc dosahují i minimální spolehlivosti). Pro generování frekventovaných asociací je možné použít induktivní přístup, ve kterém díky jisté apriorní znalosti umíme (relativně efektivně) z frekventované množiny k položek vygenerovat frekventované množiny (k + 1) položek. Zmiňovanou apriorní znalostí je skutečnost, že jestliže množina k určitých položek není frekventovaná, pak přidání jakékoliv další položky z ní frekventovanou množinu neudělá. (Jinými slovy s přidáváním položek do množiny M pravděpodobnost P (M) monotónně klesá.) Algoritmus funguje tak, že nejprve se vyhledají všechny frekventované množiny velikosti 1 (množinu těchto množin označme L 1 ). L 1 je použita k nalezení L 2 (množina frekventovaných množin kardinality 2) a ta je využita k nalezení L 3 atd., dokud nelze nalézt žádnou další frekventovanou množinu velikosti k. Nalezení každé L k vyžaduje jeden celý průchod daty. Diskutovaná apriorní znalost pomáhá snížit prohledávací prostor. Je totiž pravdou, že každá neprázdná podmnožina R frekventované množiny M musí být rovněž frekventovaná. Tj.: R M : P (M) p p P (R) p p (1) Než přistoupíme k formulaci postupu nalezení L k ze znalosti L k 1, je třeba ještě zavést pojem kandidát na frekventovanou množinu položek. Jedná se o takovou množinu položek, kterou výše rozebíraná apriorní znalost neprohlásila za nefrekventovanou, ale u níž ještě frekventovanost nebyla potvrzena průchodem daty. Postup nalezení L k z L k 1 : 1. Předpokládejme, že máme nalezeno L k 1 a hledáme L k. Vygenerujeme nejprve z L k 1 všechny kandidáty na L k (označme je C k ). Předpokládejme, že jednotlivé položky jsou v množinách lexikograficky seřazeny. Pak stačí kombinovat takové dvojice množin l i, l j L k 1 (i j), které mají stejné prvních k 2 položek a pro které platí, že (k 1)-položka je u l i (lexikograficky) menší, než u l j. Výsledný kandidát vznikne spojením l i s poslední (k 1) položkou l j. 2. L k C k, je proto nutné nalézt v C k ty množiny, které nejsou frekventované a vyloučit je. O frekventovanosti množin se přesvědčíme jedním průchodem databází. Množina C k však může být obrovská a to povede k pomalému výpočtu. K jejímu redukování se 6

7 dá využít apriorní znalost (1). Z C k tedy vyloučíme ty množiny, pro které neplatí, že všechny její podmnožiny jsou frekventované. Toto testování se dá provádět velice rychle, když budeme všechny frekventované množiny položek uchovávat v hashovacím stromu. Teprve s redukovaným C k provedeme průchod datovou tabulkou a zjištění skutečného počtu výskytů všech množin položek ty množiny, které nedosáhnou minimální podpory p p vyloučíme a získáme tak hledanou množinu L k. Máme-li získané frekventované množiny položek l, není už příliš výpočetně náročné generovat všechny podmnožiny s množiny l a vypisovat ta asociační pravidla tvaru s (l s), která splňují požadavek minimální spolehlivosti s p. Samotný algoritmus nalezení všech množin L k zní takto: 1. Nejprve se vygeneruje množina C 1 kandidátů c 1 i na frekventované množiny velikosti jedna (C 1 = {c 1 i : c 1 i I card(c 1 i ) = 1}). Následuje průchod datovou tabulkou s tím, že pro každou kandidátskou množinu položek se zjišťuje počet výskytů. Po tomto kroku nastupuje ořezávání: vyloučení těch kandidátských množin c 1 i, které nedosáhly minimální stanovené podpory p p. Takto získáme množinu L 1 frekventovaných množin lj 1 velikosti jedna (L 1 = {li 1 : l1 i C 1 P (li 1) p p}). Tj. je zřejmé, že L 1 C V dalším kroku se vytvářejí kandidáti délky 2 vzájemným kombinováním frekventovaných množin délky 1. Díky apriorní znalosti se výše uvedeným postupem sníží počet těchto množin. (Celou operaci spojení L k 1 a aplikace apriorní znalosti budeme označovat L k 1 L k 1.) Následuje průchod databází a počítání výskytů každé zbylé kandidátské množiny. Odstraní se množiny nedosahující prahové podpory a zůstanou jen frekventované množiny položek délky Naznačený postup pokračuje až do chvíle, kdy odstraněním všech nefrekventovaných množin z kandidátů nám nezbyde žádná frekventovaná množina položek. Máme-li nalezeny všechny frekventované množiny položek z databáze, vygenerování silných asociačních pravidel je už naprosto přímočaré. Lze k tomu využít následující rovnici vyjadřující spolehlivost pravidla pomocí počtů výskytů: spolehlivost(a B) = P (B A) = Samotné generování asociačních pravidel může vypadat takto: počet výskytů(a B) počet výskytů(a) 1. Pro každou frekventovanou množinu položek l vygeneruj všechny neprázdné podmnožiny. počet výskytů(l) 2. Pro každou neprázdnou podmnožinu s množiny l otestuj nerovnost počet výskytů(s) s p, kde s p je minimální (prahová) hodnota spolehlivosti. Je-li tato nerovnost splněna, vypiš na výstup asociační pravidlo tvaru s (l s). Jelikož jsou asociační pravidla generována jen z frekventovaných množin položek, je jasné, že musí automaticky splňovat také požadavek přesahu prahové hodnoty podpory. Počty výskytů frekventovaných množin položek mohou být výhodně uchovávány v hash tabulkách, takže přístup k nim může být realizován velmi rychle. 7

8 C 1 Množ. {i 1 } {i 2 } {i 3 } {i 4 } {i 5 } Zjištění počtu čtením dat C 1 Množ. Počet {i 1 } 6 {i 2 } 7 {i 3 } 6 {i 4 } 2 {i 5 } 2 Porovnání četností s p p L 1 Množ. Počet {i 1 } 6 {i 2 } 7 {i 3 } 6 {i 4 } 2 {i 5 } 2 L 1 L 1 C 2 Množ. {i 1, i 2 } {i 1, i 3 } {i 1, i 4 } {i 1, i 5 } {i 2, i 3 } {i 2, i 4 } {i 2, i 5 } {i 3, i 4 } {i 3, i 5 } {i 4, i 5 } Zjištění počtu čtením dat C 2 Množ. Počet {i 1, i 2 } 4 {i 1, i 3 } 4 {i 1, i 4 } 1 {i 1, i 5 } 2 {i 2, i 3 } 4 {i 2, i 4 } 2 {i 2, i 5 } 2 {i 3, i 4 } 0 {i 3, i 5 } 1 {i 4, i 5 } 0 Porovnání četností s p p L 2 Množ. Počet {i 1, i 2 } 4 {i 1, i 3 } 4 {i 1, i 5 } 2 {i 2, i 3 } 4 {i 2, i 4 } 2 {i 2, i 5 } 2 L 2 L 2 C 3 Množ. {i 1, i 2, i 3 } {i 1, i 2, i 5 } Zjištění počtu čtením dat C 3 Množ. Poč. {i 1, i 2, i 3 } 2 {i 1, i 2, i 5 } 2 Porovnání četností s p p L 3 Množ. Poč. {i 1, i 2 } 4 {i 1, i 3 } 4 {i 1, i 5 } 2 {i 2, i 3 } 4 {i 2, i 4 } 2 {i 2, i 5 } 2 Obrázek 1: Průběh apriorního algoritmu 8

9 Hash hodnota (h): Počet prvků (c h ): Obsah: {i 1, i 4 } {i 1, i 5 } {i 2, i 3 } {i 2, i 4 } {i 2, i 5 } {i 1, i 2 } {i 1, i 3 } {i 3, i 5 } {i 1, i 5 } {i 2, i 3 } {i 2, i 4 } {i 2, i 5 } {i 1, i 2 } {i 1, i 3 } {i 2, i 3 } {i 1, i 2 } {i 1, i 3 } {i 2, i 3 } {i 1, i 2 } {i 1, i 3 } Tabulka 3: Hash tabulka vzniklá při zjišťování L 1 Příklad: Pokusme se nyní uvedeným postupem nalézt všechna asociační pravidla z dat v tabulce 1. Minimální podporu p p nastavíme na 20 % a spolehlivost s p na 70 %. Průběh výpočtu znázorňuje obrázek Prvním krokem je nalezení počtů výskytů všech položek k tomu je potřebný jeden průchod celou datovou tabulkou. (Získáme C 1.) 2. Porovnáme kardinality všech prvků c 1 i C 1 se stanovenou minimální podporou p p a vyloučíme ty, které ji nedosahují. (Získáme tak L 1.) 3. Provedeme L 1 L 1 a získáme tak C 2. Průchodem databází zjistíme četnosti množin c 2 i C 2 v datech a z nich opět vyloučíme ty, které nedosahují stanovené podpory p p. (Získáme tak L 2.) 4. Nastíněným postupem pokračujeme tak dlouho, dokud nám vychází neprázdná množina L k. Obecně C k získáme provedením L k 1 L k 1. L k z C k obdržíme zjištěním četností všech množin položek z C k a porovnáním s p p. 5. Zbývá určit, které frekventované množiny položek zároveň splňují i požadavek minimální spolehlivosti s p. Pro každou frekventovanou množinu položek l j i L j (j = 1, 2,..., k a i = 1, 2,..., card(l j )) vygenerujeme všechny neprázdné podmnožiny s r l j i. Pro každou tuto podmnožinu otestujeme nerovnost počet výskytů(lj i ) počet výskytů(s s r) p a pokud platí, vypíšeme na výstup asociační pravidlo tvaru s r (l j i s r). Postup nalezení všech frekventovaných množin položek ukazuje obrázek Zlepšování efektivity apriori algoritmu Efektivita algoritmu z odstavce se dá dalšími postupy ještě zvýšit. Několik možných postupů následuje níže. Hashování: Použitím hashovací techniky můžeme redukovat velikost množiny kandidátských množin položek C k (pro k > 1). Například při průchodu databází, když zjišťujeme počet výskytů množin položek z C 1, můžeme z každé transakce (řádku datové tabulky) generovat všechny množiny položek kardinality 2, ukládat je do hash-tabulky 9

10 (separate chaining) a přitom si pamatovat počet c h množin uložených pod stejnou hodnotou h hashovací funkce. Je jasné, že množiny položek s hash-hodnotami h, pro které c h < p p nemohou být frekventované a proto je při ořezávání C 2 můžeme z C 2 vynechat. Tak například tabulka 3 ukazuje hash-tabulku vzniklou při průchodu daty, kdy se zjišťuje, které množiny z C 1 patří do L 1. Pro každý řádek datové tabulky se vytvořily všechny možné dvojice položek a ty se uložily do této hash-tabulky. Hashovací funkce byla následující: h(x, y) = (10 pořadí(x)+pořadí(y)) mod 7. Kdybychom měli p p = 3, pak v kroku prořezávání C 2 můžeme ještě před průchodem daty z kandidátských množin položek odstranit dvojice {i 1, i 4 }, {i 3, i 5 }, {i 1, i 5 }, {i 2, i 4 } a {i 2, i 5 }, protože počet c h jejich hash-hodnoty h je menší než p p (c h < p p pro h {0, 1, 3, 4}). Redukce prohledávaných transakcí (řádků tabulky): Transakce, která neobsahuje žádnou frekventovanou množinu položek velikosti k, nemůže obsahovat žádnou frekventovanou množinu položek velikosti (k + 1). Taková transakce může být během výpočtu v databázi nějak vhodně označena nebo odstraněna, protože v budoucích průchodech daty, které budou zjišťovat četnosti množin položek velikosti j > k, nebude potřebná. Rozdělení dat: Celá datová tabulka se rozdělí na N částí o velikosti (zhruba) n. Podstatou této metody je, že se volí takové n, aby se všechny potřebné informace vešly do paměti. V jednotlivých částech se pak hledají lokální frekventované množiny položek. Mírou lokální frekventovanosti je upravená prahová hodnota podpory p u = n p p. Lokální frekventovaná množina položek může (ale nemusí) být frekventovaná v pohledu celé datové tabulky. Platí, že každá potenciálně frekventovaná množina položek se musí vyskytnout jako frekventovaná alespoň v jedné části dat. Každá lokálně frekventovaná množina položek je tedy kandidátem na frekventovanou z hlediska celé datové tabulky. Jelikož se každá část vejde celá do paměti, stačí k nalezení všech lokálně frekventovaných množin položek pouze jeden průchod daty. Všechny lokálně frekventované množiny dohromady tvoří kandidáty na globálně frekventované množiny. O jejich skutečné frekventovanosti se rozhodne na závěr dalším průchodem daty. Všechny frekventované množiny se tak naleznou pouhými dvěma průchody daty. Vzorkování: Tento postup se používá zejména v aplikacích, kde je požadavek na rychlost kritický. Myšlenka spočívá v náhodném výběru n transakcí z celé datové tabulky tak, aby se všechny vešly do paměti. Frekventované množiny se potom hledají na této množině transakcí. Veliké zrychlení platíme menší přesností algoritmu a nebezpečím, že se nenajdou všechny frekventované množiny. Ke snížení této hrozby se často volí nižší prahová hodnota podpory. Jedním průchodem celé databáze se dá určit, jsou-li nalezené frekventované množiny frekventované i globálně. 3 Metoda GUHA GUHA (General Unary Hypothesis Automaton automat na obecné unární hypotézy) je původní česká metoda pro systematické vytváření hypotéz na základě empirických dat (viz [2]). Umožňuje automaticky vytvářet především hypotézy (pravidla) implikační, asociační či korelační (viz sekce 4). 10

11 Metoda pracuje hlavně s dvouhodnotovými daty a velmi těží z faktu, že kategoriální data mohou být dichotomizací převedena na binární, reálněhodnotová data vhodným rozdělením na kategoriální... Výsledkem jsou obecně multidimenzionální pravidla (viz odstavec 4). Např.: věk(31-40) plat( tis.) 0,8;0,15 koupil(bmw) (2) Zaveďme nejprve několik pojmů, které jsou při popisu metody hojně využívány: Predikát symbolické jméno veličiny, elementární formule (např.: věk, plat, koupil) (Otevřená) formule predikát nebo několik predikátů složených pomocí logických spojek negace ( ), konjunkce ( ) a disjunkce ( ). Např.: predikát1 predikát2 predikát3 nebo konkrétněji věk(31-40) plat( tis.) Kvantifikátor symbolické jméno zobrazení, které určuje kvantitativní intenzitu souvislosti. Představuje druh zjištěného vztahu v datech a stanovuje, jak silný tento vztah je. (Např. s,p fundovaná implikace viz dále) Formální sentence zápis tvaru formule1 q formule2 (kde q je kvantifikátor) jehož pravdivost v datech se testuje. Pravdivá sentence sentence, pro níž funkce kvantifikátoru vydala hodnotu 1. Sentence pravdivá v datech; výstup metody GUHA. (Např. (2).) Antecedent predikát vyskytující se uvnitř formule na levé straně sentence (před kvantifikátorem). V sentenci (2) je antecedentem formule: věk(31-40) plat( tis.) Sukcedent predikát vyskytující se uvnitř formule na pravé straně sentence (za kvantifikátorem). V sentenci (2) je sukcedentem formule: koupil(bmw) 3.1 Principy GUHA ze zadaných množin antecedentů a sukcedentů systematicky generuje všechny hypotézy a testuje, zda jsou nějak podporovány zpracovávanými daty. Řekneme-li, že data podporují nějakou hypotézu, znamená to zhruba, že v datech platí něco, co by bylo velmi nepravděpodobné, kdyby hypotéza neplatila. Pro analýzu dat nejsou podstatné hodnoty veličin na jednotlivých objektech, ale charakteristiky veličin v rámci celých dat. Podle hodnot těchto charakteristik a zvoleného kvantifikátoru se usuzuje, jestli je daná sentence pravdivá v datech nebo ne. 11

12 GUHA pracuje s charakteristikami, kterým se říká frekvence. Omezme se na binární veličiny. Nechť M je tabulka vzniklá pozorováním n dvouhodnotových veličin X 1,..., X n. Pro každou n-tici možných hodnot veličin, tj. e = e 1,..., e n {0, 1} n definujeme frekvenci fr(e, M) jako počet objektů z M, pro které jsme napozorovali hodnoty veličin rovné e = e 1,..., e n. Konkrétně pro n = 2, tj. tabulku se dvěma sloupci X 1 a X 2, definujeme čtyři frekvence a, b, c, d jako: a počet objektů z tabulky, pro které je X 1 = X 2 = 1 b počet objektů z tabulky, pro které je X 1 = X 2 = 1 c počet objektů z tabulky, pro které je X 1 = X 2 = 1 d počet objektů z tabulky, pro které je X 1 = X 2 = 1 Schematicky se frekvence zapisují do formy frekvenční (čtyřpolní) tabulky (pro dané M!): X 2 X 2 X 1 a b r X 1 c d s k l m kde k = a + c, l = b + d, r = a + b, s = c + d a m = a + b + c + d, tedy celkový počet všech objektů (záznamů, řádků datové tabulky). Obecněji pro dvě konečněhodnotové veličiny používáme frekvenční tabulku následujícího tvaru: X 2 (hodn0) X 2 (hodn1)... X 2 (hodnk) X 1 (hodn0) a 00 a a 0k a 0. X 1 (hodn1) a 10 a a 1k a X 1 (hodnl) a l0 a l1... a lk a l. a.0 a.1... a.k m V následujícím textu se budu zabývat pouze dvouhodnotovými veličinami. 3.2 Kvantifikátory Nad charakteristikami a, b, c a d (viz minulý odstavec) je definována řada kvantifikátorů. Kvantifikátory mohou být podle typu prezentovaného asociačního pravidla implikační, asociační nebo korelační. Každý kvantifikátor se definuje jako funkce frekvencí a, b, c, d. Pokud je výsledkem zobrazení hodnota 1, zkoumané asociační pravidlo je přijato jako zajímavé. 12

13 3.2.1 Implikační kvantifikátory A (asi, většinou) je příčinou B (A B): 1. s,p fundovaná implikace (pro s (0; 1 a p > 0): s,p (a, b, c, d) = 1, je-li a p a a s(a + b) Tento kvantifikátor v podstatě představuje dříve (viz 2) zmíněný požadavek na splnění minimální podpory (p) a spolehlivosti (s). (Až na to, že zde číslo p nepředstavuje relativní, nýbrž absolutní počet výskytů.) 2.! s,p,α dolní kritická implikace (pro s (0; 1, p > 0 a α 0; 0, 5 ):! s,p,α (a, b, c, d) = 1, je-li r i=a ( ) r s i (1 s) r i α i Je založen na testu nulové hypotézy, že podmíněná pravděpodobnost sukcedentu za podmínky antecedentu je menší nebo rovna s, proti alternativní hypotéze, že je větší než s. Jde o test na hladině významnosti α. Hodnota 1 indikuje přijetí alternativní hypotézy. 3.? s,p,α horní kritická implikace (pro s (0; 1, p > 0 a α 0; 0, 5 ):? s,p,α (a, b, c, d) = 1, je-li a i=0 ( ) r s i (1 s) r i > α i Je založen na testu nulové hypotézy, že podmíněná pravděpodobnost sukcedentu za podmínky antecedentu je větší nebo rovna s, proti alternativní hypotéze, že je menší než s. Jde o test na hladině významnosti α. Hodnota 1 indikuje nezamítnutí nulové hypotézy. Dolní a horní kritickou implikaci vybíráme podle toho, kterou statistickou chybu chceme omezit hodnotou α: dolní kritická implikace nám zaručuje, že pravděpodobnost vygenerování vztahu A B při současné neplatnosti tohoto pravidla je rovna hodnotě α, zatímco horní kritická implikace zajišťuje, že pravděpodobnost nevygenerování vztahu A B při jeho skutečné platnosti je rovna dané hodnotě α. (Původně se v knize [2] ve vzorcích implikačních kvantifikátorů používají symboly p a s v prohozeném významu. Vzhledem ke značení v ostatních částech tohoto článku jsem si dovolil jejich význam takto pozměnit.) Zhodnocení implikačních kvantifikátorů: Všechny zde prezentované kvantifikátory se liší svou citlivostí nechť R M ( ) je množina všech pravdivých sentencí s implikačním kvantifikátorem v datech M; pak platí: R M (! s,p,α) R M ( s,p ) R M (? s,p,α) Jinými slovy, horní kritická implikace dává na výstup nejvíce sentencí, dolní kritická implikace nejméně... 13

14 3.2.2 Asociační kvantifikátory A (asi, většinou) souvisí s B (A B)... Volně řečeno, kvantifikátor je asociační, když nějakým způsobem říká, že shody převažují nad neshodami. Všechny dále zmíněné asociační kvantifikátory jsou symetrické v tom smyslu, že pro ně platí q(a, b, c, d) = q(a, c, b, d) tj. že predikát1 q predikát2 predikát2 q predikát1 1. δ prosté vychýlení (pro lib. δ 0) (speciálně pro δ = 0 dostáváme ad > bc). δ (a, b, c, d) = 1, je-li ad > e δ bc 2. 1 α Fisherův kvantifikátor (pro lib. α 0; 0, 5 ): 1 α (a, b, c, d) = 1, je-li ad > bc a min(r,k) i=a ( k m k ) i)( r i ( m ) α r Tento kvantifikátor je založen na statistickém testu hypotézy o nezávislosti veličin proti alternativě o jejich kladné závislosti na hladině významnosti α. Hodnota 1 indikuje přijetí alternativní hypotézy α χ 2 -kvantifikátor (pro α (0; 0, 5 ): 2 α (a, b, c, d) = 1, je-li ad > bc a (ad bc) 2 m χ 2 α rkls kde χ 2 α je (1 2α)-kvantil χ 2 -rozložení s jedním stupněm volnosti. Tento kvantifikátor má stejné statistické pozadí jako Fisherův. Doporučení k používání asociačních kvantifikátorů: Nechť lh je součet nejdelší délky antecedentu a sukcedentu a m počet záznamů (řádků) datové matice. Autoři metody formulovali několik (často heuristických) pravidel pro použití jednotlivých kvantifikátorů: Pro χ 2 -kvantifikátor platí následující hrubý dolní odhad vztahu m k lh: Pro Fisherův kvantifikátor by mělo platit: 5 2 lh m m 2 lh χ 2 -test má větší sílu než Fisherova statistika. Proto je-li min{5 2 lh, 250} m používáme raději kvantifikátor χ 2 místo Fisherova. 14

15 3.2.3 Korelační kvantifikátory Za podmínky F hodnoty A a B (asi, většinou) korelují (A corr B / F): Všechny korelační kvantifikátory původní metody GUHA jsou založeny na pojmu pořadí. Předpokládejme, že máme data vzniklá pozorováním dvou reálněhodnotových veličin, t 1 a t 2. Navíc předpokládejme, že v datech nemáme žádné dva objekty se stejnými hodnotami t 1 nebo t 2 (situace se dá ošetřit, pokud je tam máme). R(i) definujme jako počet objektů, pro něž hodnota veličiny t 1 je menší než hodnota t 1 pro i-tý objekt. Podobně definujme i Q(i) (vzhledem k veličině t 2 ). 1. s-corr α Spearmanův kvantifikátor (pro α (0; 0, 5 ): s-corr α ( t 1, t 2 ) = 1, je-li m R(i)Q(i) k α i=1 kde k α je vhodná konstanta. Za jistých dodatečných předpokladů jde o statistický test nulové hypotézy nezávislosti proti alternativní hypotéze o kladné závislosti. Hodnota 1 indikuje kladnou závislost na hladině α. 2. k-corr α Kendallův kvantifikátor (pro α (0; 0, 5 ): ( ( ) ( k-corr α ( t 1, t 2 ) = 1, je-li sign R(i) R(j) sign Q(i) Q(j)) ) k α i j kde k α je vhodná konstanta. Statistická interpretace je stejná jako výše. sign(x) znamená funkci signum (kladného čísla je 1, záporného 1). 3. e-corr pořadově ekvivalenční kvantifikátor: e-corr( t 1, t 2 ) = 1, je-li R(i) = Q(i) pro i = 1,..., m 3.3 Dedukční pravidla Při hledání asociací se dá využít různých dedukčních pravidel. Lze jimi např. urychlit algoritmy hledání, protože nemusíme testovat sentence, které jdou odvodit z ostatních hypotéz. 1. Pravidlo záměny ekvivalentních formulí. V každé sentenci S(F ) obsahující formuli F a pravdivé v datech M lze nahradit formuli F jinou formulí F, která je v datech M ekvivalentní formuli F. Vzniklá sentence je opět pravdivá v datech M. Speciálním případem jsou formule logicky ekvivalentní, tj. formule ekvivalentní v každých datech. (Např.: p 1 p 2 a p 2 p 1 jsou logicky ekvivalentní.) 2. Pravidlo úprav elementární implikace. V elementární implikaci K D pravdivé v datech M můžeme: (a) Převést některé členy z antecedentu do sukcedentu za současné změny znamení (prostý/negace). 15

16 (b) Přidat do sukcedentu nové členy. Vzniklá sentence je opět pravdivá v datech M. Elementární implikace je sentence tvaru K D, kde K je elementární konjunkce, nějaký implikační kvantifikátor, D elementární disjunkce a K, D nemají žádný společný predikát. Např. je-li sentence p 1 p 2 0,8 p 3 v datech pravdivá, jsou pravdivé i tyto sentence: p 1 0,8 p 2 p 3 (převod p 2 ) p 2 0,8 p 1 p 3 (převod p 1 ) p 2 0,8 p 1 p 3 p 4 p 5 (přidání členů) 3. Pravidlo symetrie. Je-li symetrický kvantifikátor a je-li sentence F 1 F 2 pravdivá v datech M, pak i sentence F 2 F 1 je pravdivá v datech M. 4. Pravidlo konzervativního zlepšování. V sentenci pravdivé v datech a obsahující elementární konjunkci K lze ke K přidat do konjunkce libovolný počet predikátů a negovaných predikátů, které K konzervativně zlepšují. Výsledná sentence je opět pravdivá v datech M. Řekneme, že predikát p i (resp. jeho negovaná varianta p i ) konzervativně zlepšuje elementární konjunkci K v datech M, jestliže predikát p i se nevyskytuje v K a formule K p i (resp. K p i ) je ekvivalentní formuli K v datech M. 5. Pravidlo ostrého zlepšování pro konjunktivní asociace. V konjunktivní asociaci K 1 K 2 pravdivé v datech M lze k antecedentu přidat do konjunkce libovolný počet predikátů či negovaných predikátů tento antecedent ostře zlepšujících a podobně pro sukcedent. Výsledná sentence je opět pravdivá v datech M. Predikát F ostře zlepšuje antecedent K 1 konjunktivní asociace K 1 K 2, jestliže se tento predikát nevyskytuje v K 1 a formule K 1 K 2 je v datech ekvivalentní formuli K 1 K 2 F. Podobně F ostře zlepšuje sukcedent K 2 této asociace, jestliže se tento predikát nevyskytuje v K 2 a formule K 1 K 2 je v datech ekvivalentní formuli K 1 K 2 F. Platí, že jestliže predikát (negovaný predikát) konzervativně zlepšuje antecedent (sukcedent) konjunktivní asociace, pak jej zlepšuje i ostře. 3.4 Neúplná informace Uvedenou teorii lze rozšířit o schopnost pracovat s neúplnou informací. V následujícím výkladu se omezím pouze na dvouhodnotová data s neúplnou informací (tedy na trojhodnotová data s hodnotami 0, X, 1). Mějme nyní takovou trojhodnotovou tabulku dat M. Dvouhodnotové doplnění tabulky M je každá tabulka M, která vznikne z M tak, že nějakým způsobem nahradíme všechny křížky (chybějící hodnoty) nulami a jedničkami. Jedno jediné dvouhodnotové doplnění je správné; 16

17 totiž to, kde jsou chybějící hodnoty správně doplněny. Protože však tyto hodnoty neznáme, musíme brát v úvahu všechna doplnění. Vyhodnocování formulí složených z predikátů s chybějícími hodnotami se odehrává podle následujících pravidel: 1 jestliže p = 0 p = 0 jestliže p = 1 X jestliže p = X 1 jestliže p 1 =... = p n = 1 (p 1... p n ) = 0 jestliže některé p = 0 X jindy 1 jestliže některé p = 1 (p 1... p n ) = 0 jestliže p 1 =... = p n = 0 X jindy Pro elementární konjunkce a elementární disjunkce tedy platí princip zabezpečení: Každá taková formule F má pro libovolný objekt dvouhodnotových dat M s neúplnou informací hodnotu X, právě když existuje dvouhodnotové doplnění M dat M, v němž F = 1 a jiné dvouhodnotové doplnění M dat M, v němž F = 0. Funkce kvantifikátorů pracující s neúplnou informací se definuje takto: 1 jestliže q(m ) = 1, doplnění M tabulky M q(m) = 0 jestliže q(m ) = 0, doplnění M tabulky M X jindy I pro kvantifikátory tedy platí výše zmiňovaný princip zabezpečení. Pro práci s neúplnou informací se místo čtyřpolní tabulky používá zcela analogicky devítipolní tabulka: 1 X 0 1 a i b r X o n p 0 c j d s k l m Přechod k některému dvouhodnotovému doplnění se projeví tak, že i bude dílem přičteno k a, dílem k b; o k a a c,... a n dílem k a, b, c a d: a i b o n p c j d Příklad. Máme následující frekvenční tabulku (sloupce se týkají, jako obvykle, antecedentu a řádky sukcedentu): 17

18 1 X X které odpovídají tři možná doplnění: Snadno se přesvědčíme, že ve všech doplněních je pravdivá sentence Naproti tomu sentence reprezentovaná frekvenční tabulkou jejíž všechny tři možná doplnění jsou: antecedent 0,9 sukcedent antecedent 0,9 sukcedent 1 X X je pravdivá v prvním doplnění, ale nepravdivá ve druhém i třetím. Bude tedy mít v našich datech hodnotu X (nelze rozhodnout, jestli je pravdivá nebo ne). 3.5 Procedury metody GUHA Samotná metoda GUHA se skládá z řady procedur. Mnohé z nich se zabývají i předzpracováním. K hlavním procedurám, které jsou v tomto textu popsány, patří: ASSOC vyhledávání sentencí s asociačními kvantifikátory IMPL vyhledávání implikací CORREL vyhledávání vysokých podmíněných korelací 18

19 3.5.1 ASSOC ASSOC je metoda, která hledá v datech sentence s asociačními kvantifikátory. Antecedent i sukcedent jsou formule ve tvaru elementární konjunkce. Jako vstup této metody vytěžování je třeba specifikovat, o jaký tvar výsledných sentencí máme zájem. Musí se určit kvantifikátor, jeho parametry a povolený tvar antecedentu a sukcedentu. Povolený tvar antecedentu a sukcedentu určuje řešitel tak, že zadá čtyři množiny predikátů: 1. BA důležité antecedentové predikáty, 2. CA ostatní vyšetřované antecedentové predikáty, 3. BS důležité sukcedentové predikáty, 4. CS ostatní vyšetřované sukcedentové predikáty. V každé z těchto čtyř množin určí ke každému predikátu povolený tvar (pozitivní, negativní nebo oba). Navíc ještě stanoví maximální povolenou délku antecedentu a maximální povolenou délku sukcedentu. Generovat se budou jen sentence, které mají v antecedentu i sukcedentu alespoň jeden důležitý predikát a volitelně několik dalších predikátů podle zadání (všechny v povolených tvarech). Výstupem jsou všechny sentence pravdivé v datech a vyhovující tvaru zadanému na vstupu. Samotný algoritmus probíhá zhruba takto: 1. Začíná se od sentencí tvořených jedním predikátem v antecedentu a jedním v sukcedentu. Postupně se testuje pravdivost všech přípustných kombinací počítáním čtyřpolních tabulek a vyhodnocováním funkce kvantifikátoru. 2. Následuje prodlužování antecedentu i sukcedentu. Obě formule jsou tvořeny jako elementární konjunkce. Opět se testuje pravdivost všech přípustných kombinací. 3. Délka sentence se zvětšuje až do maximální stanovené velikosti. Pro zmenšení objemu výstupních sentencí se dá využít dedukčních pravidel (viz sekce 3.3) a vypisovat pouze ty sentence, které nelze odvodit z ostatních IMPL Procedura IMPL slouží k vyhledávání vysokých podmíněných pravděpodobností v dvouhodnotových datech. Jinými slovy, generuje pravdivé sentence s implikačními kvantifikátory. Antecedent je ve tvaru elementární konjunkce a sukcedent ve tvaru elementární disjunkce. Vstupy jsou stejné jako u procedury ASSOC (viz sekce 3.5.1). Také algoritmus výpočtu je podobný proceduře ASSOC. 19

20 3.5.3 CORREL Procedura CORREL generuje a vydává elementární konjunkce, pro které je podmíněná korelace dvou vybraných reálných veličin v datech vysoká. Jinými slovy, vydává sentence tvaru (p 1 corr p 2 )/f kde p 1 a p 2 jsou zvolené reálněhodnotové veličiny a f je elementární konjunkce, kterou nazýváme podmínka. V jednotlivých bězích procedury CORREL jsou p 1, p 2 a korelační kvantifikátor corr pevné, mění se jen podmínka f. Procedura CORREL není uzpůsobená pro práci s neúplnou informací, proto se záznamy s neúplnou informací ze zpracování vylučují. Vstupy: 1. reálněhodnotové veličiny p 1 a p 2, které chceme zkoumat, 2. užitý korelační kvantifikátor 3. povolený tvar podmínky: (a) B důležité predikáty, (b) C ostatní vyšetřované predikáty U každé z těchto množin se ještě určí povolený tvar predikátu (pozitivní, negativní nebo obojí). 4. maximální povolená délka podmínky Procedura bude generovat pouze takové podmínky, které jsou elementární konjunkcí predikátů z B nebo C v povolených tvarech, přičemž obsahují alespoň jeden predikát z B. Výstupem jsou tedy všechny pravdivé sentence zadaného tvaru a následujícího formátu: (p 1 corr p 2 )/f Algoritmus hledání pravdivých sentencí spočívá v postupném generování podmínek povoleného tvaru, jejich postupným prodlužováním až do zadané maximální velikosti a testováním pravdivosti vzniklých sentencí. 4 Rozdělení asociací Získávání asociačních pravidel z dat je dnes rozsáhlé odvětví Data Miningu. Nebylo proto možné se v tomto textu zabývat všemi druhy získaných pravidel a všemi známými způsoby, jak je z dat vytěžit. Dovolím si ale alespoň na závěr stručné shrnutí různých druhů pravidel, která se dají z dat získávat. 1 Asociační pravidla můžeme rozdělovat mnoha způsoby (viz [3], [6]; každý druh se obvykle získává více či méně odlišnými metodami): 1 Obávám se, že ani tento souhrn není kompletní... 20

21 Podle typu asociačních pravidel: implikační (A B) asociační pravidla, jak byla prezentována v předchozím odstavci. (A (asi, většinou) je příčinou B.); asociační (A B) pravidla zachycující souvislost mezi daty. (A (asi, většinou) souvisí s B.); korelační (A corr B / F ) posuzují kladné závislosti dvou (spojitých) veličin. (Za podmínky F veličiny A, B (asi, většinou) korelují.) Podle typu hodnot použitých v pravidlech: booleovská (dvouhodnotová) pravidla charakterizující vztahy mezi přítomností a absencí znaků o datech; vícehodnotová pravidla kvantitativní asociační pravidla pracující se spojitými hodnotami. Podle dimenzí obsažených v pravidlu: jednodimenzionální pravidla (transakční asociace) zachycující vztahy uvnitř jedné dimenze dat (jinými slovy, v asociačním pravidlu se vyskytuje pouze jeden druh predikátu p i ). Např.: koupil(x, chipsy) koupil(x, křupky) koupil(x, pivo) multidimenzionální pravidla (klasické asociace) kombinují obecně více dimenzí. Např.: věk(x, 31-40) plat(x, tis.) koupil(x, BMW) (atributy jedné množiny se nazývají antecedenty (předpoklady) a druhé sukcedenty (závěry, závisle proměnné)) agregovaná mezi podmnožinou atributů a charakteristikami jiných atributů (testy významnosti rozdílů středních hodnot různých ukazatelů počítaných z agregovaných údajů daných skupin záznamů, rozptylů... ) Podle úrovně abstrakce použité v množině pravidel: Někdy je vhodné testovat asociační pravidla na různých úrovních abstrakce. Například můžeme testovat závislost věku na koupi konkrétní značky vozu nebo jen typu vozu (sedan, limuzína atd.). První případ je konkrétnější než druhý. Podle různých vylepšení: hledání asociací může být obohaceno např. o korelační analýzu, zajímavost asociací se určuje navíc dalšími statistickými testy atd., hledání asociačních pravidel v textových dokumentech. 5 Statistický pohled Jak jsme viděli, v procesu získávání asociačních pravidel z dat se pro rozhodnutí o zajímavosti pravidla často používají různé statistické testy. Statistika pracuje s pravděpodobností 21

22 a veškeré výsledky dává na základě skutečnosti, že existuje jistá (byť malá) pravděpodobnost nepravdivosti statistických závěrů. Existuje-li tedy určitá (malá) pravděpodobnost α i, že konkrétní získané pravidlo F i není pravdivé, celková pravděpodobnost skutečnosti, že do množiny M vytěžených pravidel F i se vloudí alespoň jedno, které neodpovídá realitě, je nutně menší rovno M α i. Jevu se říká simultánní statistická inference. Při větší mohutnosti množiny M tento práh rychle roste k 1 pravděpodobnost, že mezi získanými asociačními pravidly je alespoň jedno nepravdivé, se blíží k jistotě. Co z toho vyplývá a má tedy získávání asociačních pravidel vůbec smysl? Samozřejmě ano. Na vytěžené znalosti ovšem nemůžeme pohlížet jako na jisté pravdy. Nelze je prohlásit za zákony zkoumané oblasti. Asociační pravidla nám pouze dávají přehled o charakteru dat. Ukazují, které hypotézy jsou daty podporovány, jaké vztahy jsou možná pravdivé a které směry dalšího bádání v datech jsou nadějné. (Více viz např. [2], [4] (str ) nebo [1] (str. 106).) Reference [1] Anděl J.: Statistické metody. MATFYZPRESS Praha 1998, ISBN [2] Hájek P., Havránek T., Chytil M.K.: Metoda GUHA automatická tvorba hypotéz. Academia Praha 1983 [3] Han J., Kamber M.: Data Mining: Concepts and Techniques. Academic Press 2001, ISBN [4] Havránek T.: Statistika pro biologické a lékařské vědy. Academia Praha 1993 [5] Šarmanová J.: Metody dolování znalostí z dat. Datakon Brno 2002 [6] Šarmanová J.: Metody analýzy dat. [učební text stejnojmenného předmětu], VŠB-TU Ostrava

Asociační pravidla (metoda GUHA)

Asociační pravidla (metoda GUHA) Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Asociační pravidla (metoda GUHA) Ing. Michal Burda () Získávání znalostí z dat Brno, 27. ledna

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

Základní pojmy matematické logiky

Základní pojmy matematické logiky KAPITOLA 1 Základní pojmy matematické logiky Matematická logika se zabývá studiem výroků, jejich vytváření a jejich pravdivostí. Základním kamenem výrokové logiky jsou výroky. 1. Výroková logika Co je

Více

Místo pojmu výroková formule budeme používat zkráceně jen formule. Při jejich zápisu

Místo pojmu výroková formule budeme používat zkráceně jen formule. Při jejich zápisu VÝROKOVÁ LOGIKA Matematická logika se zabývá studiem výroků, jejich vytváření a jejich pravdivostí. Základním kamenem výrokové logiky jsou výroky. Co je výrok nedefinujejme, pouze si řekneme, co si pod

Více

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1 Negativní informace Petr Štěpánek S použitím materiálu M.Gelfonda a V. Lifschitze 2009 Logické programování 15 1 Negace jako neúspěch Motivace: Tvrzení p (atomická formule) neplatí, jestliže nelze odvodit

Více

Úvod do dobývání. znalostí z databází

Úvod do dobývání. znalostí z databází POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů

Více

Formální systém výrokové logiky

Formální systém výrokové logiky Formální systém výrokové logiky 1.Jazyk výrokové logiky Nechť P = {p,q,r, } je neprázdná množina symbolů, které nazýváme prvotní formule. Symboly jazyka L P výrokové logiky jsou : a) prvky množiny P, b)

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Predikátová logika. prvního řádu

Predikátová logika. prvního řádu Predikátová logika prvního řádu 2 Predikát Predikát je n-ární relace - vyjadřuje vlastnosti objektů a vztahy mezi objekty - z jednoduchého výroku vznikne vypuštěním alespoň jednoho jména objektu (individua)

Více

Unární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek

Unární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek Otázka 06 - Y01MLO Zadání Predikátová logika, formule predikátové logiky, sentence, interpretace jazyka predikátové logiky, splnitelné sentence, tautologie, kontradikce, tautologicky ekvivalentní formule.

Více

Výroková a predikátová logika - II

Výroková a predikátová logika - II Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2015/2016 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2015/2016 1 / 18 Základní syntax Jazyk Výroková logika je logikou

Více

Asociační i jiná. Pravidla. (Ch )

Asociační i jiná. Pravidla. (Ch ) Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo

Více

Matematická logika. Rostislav Horčík. horcik

Matematická logika. Rostislav Horčík.    horcik Matematická logika Rostislav Horčík horcik@math.feld.cvut.cz horcik@cs.cas.cz www.cs.cas.cz/ horcik Rostislav Horčík (ČVUT FEL) Y01MLO Letní semestr 2007/2008 1 / 20 Predikátová logika Motivace Výroková

Více

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: 3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...

Více

Výroková a predikátová logika - II

Výroková a predikátová logika - II Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2017/2018 1 / 17 Předběžnosti Základní pojmy n-ární relace a funkce

Více

Každé formuli výrokového počtu přiřadíme hodnotu 0, půjde-li o formuli nepravdivou, a hodnotu 1, půjde-li. α neplatí. β je nutná podmínka pro α

Každé formuli výrokového počtu přiřadíme hodnotu 0, půjde-li o formuli nepravdivou, a hodnotu 1, půjde-li. α neplatí. β je nutná podmínka pro α 1. JAZYK ATEATIKY 1.1 nožiny nožina je souhrn objektů určitých vlastností, které chápeme jako celek. ZNAČENÍ. x A x A θ A = { { a, b a A = B A B 0, 1 2 a, a,..., a n x patří do množiny A x nepatří do množiny

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Výroková a predikátová logika - II

Výroková a predikátová logika - II Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2013/2014 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2013/2014 1 / 20 Základní syntax Jazyk Výroková logika je logikou

Více

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě

Více

teorie logických spojek chápaných jako pravdivostní funkce

teorie logických spojek chápaných jako pravdivostní funkce Výroková logika teorie logických spojek chápaných jako pravdivostní funkce zabývá se způsoby tvoření výroků pomocí spojek a vztahy mezi pravdivostí různých výroků používá specifický jazyk složený z výrokových

Více

1 Pravdivost formulí v interpretaci a daném ohodnocení

1 Pravdivost formulí v interpretaci a daném ohodnocení 1 Pravdivost formulí v interpretaci a daném ohodnocení Než uvedeme konkrétní příklady, zopakujme si definici interpretace, ohodnocení a pravdivosti. Necht L je nějaký jazyk. Interpretaci U, jazyka L tvoří

Více

Výroková logika. p, q, r...

Výroková logika. p, q, r... Výroková logika Výroková logika je logika, která zkoumá pravdivostní podmínky tvrzení a vztah vyplývání v úsudcích na základě vztahů mezi celými větami. Můžeme též říci, že se jedná o logiku spojek, protože

Více

Predikátová logika Individua a termy Predikáty

Predikátová logika Individua a termy Predikáty Predikátová logika Predikátová logika je rozšířením logiky výrokové o kvantifikační výrazy jako každý, všichni, někteří či žádný. Nejmenší jazykovou jednotkou, kterou byla výroková logika schopna identifikovat,

Více

Sémantika predikátové logiky

Sémantika predikátové logiky Sémantika predikátové logiky pro analýzu sémantiky potřebujeme nejprve specifikaci jazyka (doména, konstanty, funkční a predikátové symboly) příklad: formální jazyk s jediným binárním predikátovým symbolem

Více

Matematická logika. Miroslav Kolařík

Matematická logika. Miroslav Kolařík Matematická logika přednáška šestá Miroslav Kolařík Zpracováno dle textu R. Bělohlávka: Matematická logika poznámky k přednáškám, 2004. a dle učebního textu R. Bělohlávka a V. Vychodila: Diskrétní matematika

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi

Více

Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i,

Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i, [161014-1204 ] 11 2.1.35 Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i, kde i = 0, 1,..., takto: p 0 q právě tehdy, když bud p, q F nebo p, q F. Dokud i+1 i konstruujeme p

Více

Matematika B101MA1, B101MA2

Matematika B101MA1, B101MA2 Matematika B101MA1, B101MA2 Zařazení předmětu: povinný předmět 1.ročníku bc studia 2 semestry Rozsah předmětu: prezenční studium 2 + 2 kombinované studium 16 + 0 / semestr Zakončení předmětu: ZS zápočet

Více

Výroková logika - opakování

Výroková logika - opakování - opakování ormální zavedení Výroková formule: Máme neprázdnou nejvýše spočetnou množinu A výrokových proměnných. 1. Každá proměnná je výroková formule 2. Když α, β jsou formule, potom ( α), (α β), (α

Více

platné nejsou Sokrates je smrtelný. (r) 1/??

platné nejsou Sokrates je smrtelný. (r) 1/?? Predikátová logika plně přejímá výsledky výrokové logiky zabývá se navíc strukturou jednotlivých jednoduchých výroků na základě této analýzy lze odvodit platnost některých výroků, které ve výrokové logice

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

Matematická analýza 1

Matematická analýza 1 Matematická analýza 1 ZS 2019-20 Miroslav Zelený 1. Logika, množiny a základní číselné obory 2. Limita posloupnosti 3. Limita a spojitost funkce 4. Elementární funkce 5. Derivace 6. Taylorův polynom Návod

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku Asociační pravidla Asociační pravidla hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku podpora rozhodování Analýza nákupního

Více

1 Výroková logika 1. 2 Predikátová logika 3. 3 Důkazy matematických vět 4. 4 Doporučená literatura 7

1 Výroková logika 1. 2 Predikátová logika 3. 3 Důkazy matematických vět 4. 4 Doporučená literatura 7 1 Výroková logika 1 Výroková logika 1 2 Predikátová logika 3 3 Důkazy matematických vět 4 4 Doporučená literatura 7 Definice 1.1 Výrokem rozumíme každé sdělení, o kterém má smysl uvažovat, zda je, či není

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.

Více

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

Logika. 2. Výroková logika. RNDr. Luděk Cienciala, Ph. D.

Logika. 2. Výroková logika. RNDr. Luděk Cienciala, Ph. D. Logika 2. Výroková logika RNDr. Luděk Cienciala, Ph. D. Tato inovace předmětu Úvod do logiky je spolufinancována Evropským sociálním fondem a Státním rozpočtem ČR, projekt č. CZ. 1.07/2.2.00/28.0216, Logika:

Více

Základy algoritmizace. Pattern matching

Základy algoritmizace. Pattern matching Základy algoritmizace Pattern matching 1 Pattern matching Úloha nalézt v nějakém textu výskyty zadaných textových vzorků patří v počítačové praxi k nejfrekventovanějším. Algoritmy, které ji řeší se používají

Více

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D. Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Booleovská algebra. Booleovské binární a unární funkce. Základní zákony.

Booleovská algebra. Booleovské binární a unární funkce. Základní zákony. Booleovská algebra. Booleovské binární a unární funkce. Základní zákony. Tomáš Bayer bayertom@natur.cuni.cz Katedra aplikované geoinformatiky a kartografie, Přírodovědecká fakulta UK. Tomáš Bayer bayertom@natur.cuni.cz

Více

Výroková a predikátová logika - IV

Výroková a predikátová logika - IV Výroková a predikátová logika - IV Petr Gregor KTIML MFF UK ZS 2018/2019 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - IV ZS 2018/2019 1 / 17 Tablo metoda Tablo Tablo - příklady F (((p q)

Více

1. Matematická logika

1. Matematická logika MATEMATICKÝ JAZYK Jazyk slouží člověku k vyjádření soudů a myšlenek. Jeho psaná forma má tvar vět. Každá vědní disciplína si vytváří svůj specifický jazyk v úzké návaznosti na jazyk živý. I matematika

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

Výroková a predikátová logika - III

Výroková a predikátová logika - III Výroková a predikátová logika - III Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - III ZS 2017/2018 1 / 16 2-SAT 2-SAT Výrok je v k-cnf, je-li v CNF a

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

0. ÚVOD - matematické symboly, značení,

0. ÚVOD - matematické symboly, značení, 0. ÚVOD - matematické symboly, značení, číselné množiny Výroky Výrok je každé sdělení, u kterého lze jednoznačně rozhodnout, zda je či není pravdivé. Každému výroku lze proto přiřadit jedinou pravdivostní

Více

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je

Více

Matematická logika. Miroslav Kolařík

Matematická logika. Miroslav Kolařík Matematická logika přednáška třetí Miroslav Kolařík Zpracováno dle textu R. Bělohlávka: Matematická logika poznámky k přednáškám, 2004. a dle učebního textu R. Bělohlávka a V. Vychodila: Diskrétní matematika

Více

Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce

Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce Marie Duží marie.duzi@vsb.cz 1 Úvod do teoretické informatiky (logika) Naivní teorie množin Co je to množina? Množina je soubor prvků

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Výroková logika. Teoretická informatika Tomáš Foltýnek

Výroková logika. Teoretická informatika Tomáš Foltýnek Výroková logika Teoretická informatika Tomáš Foltýnek foltynek@pef.mendelu.cz Teoretická informatika strana 2 Opakování z minulé přednášky Co je to formalismus a co je jeho cílem? Formulujte Russelův paradox

Více

1 Vektorové prostory.

1 Vektorové prostory. 1 Vektorové prostory DefiniceMnožinu V, jejíž prvky budeme označovat a, b, c, z, budeme nazývat vektorovým prostorem právě tehdy, když budou splněny následující podmínky: 1 Je dáno zobrazení V V V, které

Více

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13. Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy

Více

Přednáška 3: Limita a spojitost

Přednáška 3: Limita a spojitost 3 / 1 / 17, 1:38 Přednáška 3: Limita a spojitost Limita funkce Nejdříve je potřeba upřesnit pojmy, které přesněji popisují (topologickou) strukturu množiny reálných čísel, a to zejména pojem okolí 31 Definice

Více

Výroková a predikátová logika - V

Výroková a predikátová logika - V Výroková a predikátová logika - V Petr Gregor KTIML MFF UK ZS 2015/2016 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - V ZS 2015/2016 1 / 21 Dokazovací systémy VL Hilbertovský kalkul Hilbertovský

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

1 Řešení soustav lineárních rovnic

1 Řešení soustav lineárních rovnic 1 Řešení soustav lineárních rovnic 1.1 Lineární rovnice Lineární rovnicí o n neznámých x 1,x 2,..., x n s reálnými koeficienty rozumíme rovnici ve tvaru a 1 x 1 + a 2 x 2 +... + a n x n = b, (1) kde koeficienty

Více

Okruh č.3: Sémantický výklad predikátové logiky

Okruh č.3: Sémantický výklad predikátové logiky Okruh č.3: Sémantický výklad predikátové logiky Predikátová logika 1.řádu formalizuje úsudky o vlastnostech předmětů a vztazích mezi předměty pevně dané předmětné oblasti (univerza). Nebudeme se zabývat

Více

1 Soustavy lineárních rovnic

1 Soustavy lineárních rovnic 1 Soustavy lineárních rovnic 1.1 Základní pojmy Budeme uvažovat soustavu m lineárních rovnic o n neznámých s koeficienty z tělesa T (potom hovoříme o soustavě m lineárních rovnic o n neznámých nad tělesem

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D. Generování pseudonáhodných čísel při simulaci Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky V simulačních modelech se velice často vyskytují náhodné proměnné. Proto se budeme zabývat otázkou, jak při simulaci

Více

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují 1. u + v = v + u, u, v V 2. (u + v) + w = u + (v + w),

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

4.2 Syntaxe predikátové logiky

4.2 Syntaxe predikátové logiky 36 [070507-1501 ] 4.2 Syntaxe predikátové logiky V tomto oddíle zavedeme syntaxi predikátové logiky, tj. uvedeme pravidla, podle nichž se tvoří syntakticky správné formule predikátové logiky. Význam a

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika Pravděpodobnost a statistika 1 Náhodné pokusy a náhodné jevy Činnostem, jejichž výsledek není jednoznačně určen podmínkami, za kterých probíhají, a které jsou (alespoň teoreticky) neomezeně opakovatelné,

Více

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11 Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:

Více

5. Lokální, vázané a globální extrémy

5. Lokální, vázané a globální extrémy 5 Lokální, vázané a globální extrémy Studijní text Lokální extrémy 5 Lokální, vázané a globální extrémy Definice 51 Řekneme, že f : R n R má v bodě a Df: 1 lokální maximum, když Ka, δ Df tak, že x Ka,

Více

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner Vysoká škola ekonomická Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Systém LISp-Miner Stručný popis určený pro posluchače kurzů Metod zpracování informací verse 20.

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Úvod do informatiky. Miroslav Kolařík

Úvod do informatiky. Miroslav Kolařík Úvod do informatiky přednáška první Miroslav Kolařík Zpracováno dle učebního textu prof. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Obsah 1 Co a k čemu je logika? 2 Výroky a logické spojky

Více

12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ

12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ 56 12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ Těžiště I. impulsová věta - věta o pohybu těžiště II. impulsová věta Zákony zachování v izolované soustavě hmotných bodů Náhrada pohybu skutečných objektů pohybem

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

Poznámky k předmětu Aplikovaná statistika, 11. téma

Poznámky k předmětu Aplikovaná statistika, 11. téma Poznámky k předmětu Aplikovaná statistika, 11. téma Testy založené na χ 2 rozdělení V přehledu významných rozdělení jsme si uvedli, že Poissonovým rozdělením se modeluje počet událostí, které nastanou

Více

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice 9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky

Více

Základy logiky a teorie množin

Základy logiky a teorie množin Pracovní text k přednášce Logika a teorie množin (I/2007) 1 1 Struktura přednášky Matematická logika 2 Výroková logika Základy logiky a teorie množin Petr Pajas pajas@matfyz.cz Predikátová logika 1. řádu

Více

Úvod do lineární algebry

Úvod do lineární algebry Úvod do lineární algebry 1 Aritmetické vektory Definice 11 Mějme n N a utvořme kartézský součin R n R R R Každou uspořádanou n tici x 1 x 2 x, x n budeme nazývat n rozměrným aritmetickým vektorem Prvky

Více

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel: NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného

Více

1. Matematická logika

1. Matematická logika Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/07.0018 1. Matematická logika Základem každé vědy (tedy i matematiky i fyziky) je soubor jistých znalostí. To, co z těchto izolovaných poznatků

Více

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Úvod do informatiky přednáška čtvrtá Miroslav Kolařík Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Obsah 1 Pojem relace 2 Vztahy a operace s (binárními) relacemi

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Úvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot formule tabulkovou metodou

Úvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot formule tabulkovou metodou Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia (reg. č. CZ.1.07/2.2.00/28.0216, OPVK) Úvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot

Více

Získávání znalostí z databází. Alois Kužela

Získávání znalostí z databází. Alois Kužela Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního

Více

0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde

Více

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016 Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 206 Zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia

Více

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

NAIVNÍ TEORIE MNOŽIN, okruh č. 5

NAIVNÍ TEORIE MNOŽIN, okruh č. 5 NAIVNÍ TEORIE MNOŽIN, okruh č. 5 Definování množiny a jejích prvků Množina je souhrn nějakých věcí. Patří-li věc do množiny X, říkáme, že v ní leží, že je jejím prvkem nebo že množina X tuto věc obsahuje.

Více