Analytické procedury v systému LISp-Miner
|
|
- Jaromír Vávra
- před 5 lety
- Počet zobrazení:
Transkript
1 Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
2 Analytické procedury v systému LISp-Miner Část II. M. Šimůnek
3 Obsah GUHA SDxx Procedury SD4ft-Miner SDCF-Miner SDKL-Miner GUHA Procedura Ac4ft-Miner MI-KDD P08 M. Šimůnek: Analytické procedury II 3
4 LISp-Miner a fáze DZD ANALYZOVANÁ DATA Asociování analyzovaných dat pparams (ODBC DSN) META BÁZE LM Admin Administrace Read-Only Moduly Porozumění problematice Moduly Předzpracování dat Moduly Analýzy dat Moduly Interpretace výsledků KNOW LEDGE BÁZE Export (SEWEBAR,HTML ) MI-KDD P08 M. Šimůnek: Analytické procedury II 4
5 SDxx Procedury SD set-difference, set-differs-from-set porovnání dvou podmnožin z původní analyzované matice dat Př. Jsou nějaké rozdíly v množství tělesné aktivity mezi osobami s normálním a zvýšeným krevním tlakem? Př. Jsou nějaké rozdíly mezi Prahou a Čáslaví ve faktorech ovlivňující vysoký tlak? Přehled SDxx procedur SD4ft-Miner SDCF-Miner SDKL-Miner Odvozeny vždy od své základní procedury tvar hypotéz způsob verifikace MI-KDD P08 M. Šimůnek: Analytické procedury II 5
6 Tvar SDxx hypotézy Obecný tvar SDxx hypotézy {jednoduchá hypotéza} : FirstSet SecondSet / Podmínka Který lze rozložit na dvojici hypotéz {jednoduchá hypotéza} / FirstSet Podmínka {jednoduchá hypotéza} / SecondSet Podmínka Nebo speciální tvar (parametr VerificationMode) {jednoduchá hypotéza} / FirstSet Podmínka {jednoduchá hypotéza} / FirstSet SecondSet Podmínka Příklad pro SD4ft-Miner Antecedent Sukcedent: FirstSet SecondSet / Podmínka Age 20;30) FUIdiff 30 Quality( Bad) : Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě Age 20;30) FUI Quality( bad) / Sex( M) District( Prague) Age 20;30) FUI Quality( bad) / Sex( F) District( Prague) MI-KDD P08 M. Šimůnek: Analytické procedury II 6
7 SDxx Procedury FS SS Analyzovaná matice dat Podmožina FirstSet 1 Novák 3 Králová 1 Novák 500 M 167,5 2 Král 50 M 175,4 3 Králová 1500 Ž Nováková 500 Ž 172,1 Podmožina SecondSet 2 Král 4 Nováková 6129 Petrů 6128 Petrů 972 M 197, Petrů 3 Ž Petrů FirstSet (FS) a SecondSet (SS) každá podmnožina definována pomocí 4ft-cedentu! k dispozici bohatá syntaxe možnost automatického generování velkého množství kombinací Př. Město(Praha) Město( Čáslav) FirstSet může být i prázdná (SecondSet nikoliv) porovnání: vše podmnožina Vše Pohlaví(M) Vzdělání(VŠ) FirstSet a SecondSet se mohou překrývat lze zakázat pomocí parametru SDxx úlohy SetsOverlapping MI-KDD P08 M. Šimůnek: Analytické procedury II 7
8 SDxx Procedury verifikace Na obě vzniklé podmnožiny se aplikuje vygenerovaná hypotéza hypotéza svým tvarem odpovídá základní proceduře (4ft, CF, KL) na obě podmnožiny se aplikuje stejná hypotéza Vzniknou dvě tabulky četností tvarem opět odpovídající základní proceduře 2 čtyřpolní tabulky pro SD4ft-Miner 2 jednorozměrné tabulky četností pro SDCF-Miner 2 dvojrozměrně tabulky četností pro SDKL-Miner Kvantifikátory také odvozeny od základní procedury nelze však použít rovnou, protože jsou dvě tabulky četností Možné způsoby zadání kvantifikátorů (Operační mód) FirstSet... kvantifikátor se použije na tabulku četností pro FirstSet SecondSet... dtto, pro SecondSet Difference of frequencies... vypočte se výsledná tabulka jako rozdíl frekvencí (absolutních relativních) Difference of quantifiers values... rozdíl měr zajímavosti MI-KDD P08 M. Šimůnek: Analytické procedury II 8
9 Procedura SD4ft-Miner Porovnání platnosti asociačního pravidla na dvou podmnožinách Příklad Antecedent Sukcedent: FirstSet SecondSet / Podmínka Age 20;30) FUIdiff 30 Quality( Bad) : Sex(M) Sex(F) / District(Prague) Které lze rozdělit na dvě 4ft asociační pravidla Age 20;30) FUI Quality( bad) / Sex( M) District( Prague) Age 20;30) FUI Quality( bad) / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl v platnosti vztahu (ve smyslu FUI) mezi věkem a špatnou kvalitou půjčky FUIdiff > rozdíl hodnoty FUI muži mají o 0,3 vyšší míru platnosti vztahu mezi věkem 20 až 30 a špatnou kvalitou půjčky než ženy Kvantifikátory odvozeny ze 4ft-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 9
10 Procedura SDCF-Miner Porovnání rozdělení četností kategorií atributu na dvou podmnožinách Příklad Atribut: FirstSet SecondSet / Podmínka Age AvgDiff 20 : Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Age Avg / Sex( M) District( Prague) Age Avg / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl průměrným věkem Podobně lze definovat kvantifikátory pro rozdíl ve variačním koeficientu, šikmosti rozdělení... Kvantifikátory odvozeny z CF-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 10
11 Procedura SDKL-Miner Porovnání rozdělení četností v K L tabulce pro dva atributy na dvou podmnožinách Příklad Atribut K Atribut L : FirstSet SecondSet / Podmínka Salary KendallDiff0.5 Amount: Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Salary Kendall Amount / Sex( M) District( Prague) Salary Kendall Amount / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl v hodnotě Kendallova koeficientu (síle funkční závislosti) mezi platem a výší splátek Kvantifikátory odvozeny z KL-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 11
12 Procedura Ac4ft-Miner Nejnovější procedura systému LISp-Miner Hledá zajímavé dvojice asociačních pravidel představujících změnu nebo akci mají společnou neměnnou část a liší se pouze koeficienty vybraných literálů v proměnné části Příklad Antecedent Stable Antecedent Var Sukcedent Stable Sukcedent Var / Podmínka vše jsou 4ft-cedenty! [Payment 20;30) Payment 10;20)] FUIdiff 0.5;20 [Quality( bad) Quality( good)] / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Payment 20;30) FUI Quality( bad) / District( Prague) Payment 10;20) FUI Quality( good) / District( Prague) Ptáme se, jestli změnou výše splátek z <20;30) na <10;20) nedojde u klientů z Prahy ke zlepšení kvality půjčky Kvantifikátory odvozeny ze 4ft-Mineru Velmi rozsáhlý stavový prostor, který nutné prověřit dlouhé časy řešení MI-KDD P08 M. Šimůnek: Analytické procedury II 12
13 Ac4ft-Miner verifikace Dva stavy, někdy je lze nazývat i podmnožinami stav před (StateBefore) stav po (StateAfter) Na celých datech se porovnávají platnosti dvou hypotéz obě hypotézy jsou obyčejná 4ft-asociační pravidla obě hypotézy spolu svázány výskytem stejných atributů liší se hodnotou koeficientu v alespoň jednom variabilním cedentu Vzniknou dvě čtyřpolní tabulky četností Kvantifikátory opět odvozeny podle základní procedury nelze však použít rovnou, protože jsou dvě tabulky četností Možné způsoby zadání kvantifikátorů (Operační mód) StateBefore... kvantifikátor se použije na tabulku četností pro StateBefore StateAfter... dtto, pro StateAfter Difference of frequencies... vypočte se výsledná tabulka jako rozdíl frekvencí (absolutních relativních) Difference of quantifiers values... rozdíl měr zajímavosti MI-KDD P08 M. Šimůnek: Analytické procedury II 13
14 Procedura ETree-Miner Explorační stromy Klasifikační úloha založená nikoliv pouze na jednom stromu, ale celém lese soubor vstupních atributů (známé hodnoty) cílová třída (odhad) možné zadat 4ft-podmínky pro zúžení stromu Při vytváření stromů je testována signifikance (významnost) atributů na každé úrovni větvení a vybráno vždy n nejlepších Nejnovější úloha systému LISp-Miner nutný důkladný rozbor možností, vhodnosti použítí téma DP MI-KDD P08 M. Šimůnek: Analytické procedury II 14
15 ETree-Miner detail hypotézy Dialogové okno hypotézy textová reprezentace stromu confusion matrix Přehled záznamů spolu s kvalitou klasifikace testování na trénovacích datech MI-KDD P08 M. Šimůnek: Analytické procedury II 15
16 Procedura KEx Procedura strojového učení Identifikace podstatných/důležitých asociačních pravidel a jejich vložení do Báze znalostí Kdy je pravidlo důležité? přináší podstatně novou informaci (výjimku do dosud získaných znalostí) skládání váhy pravidel již dříve přidaných do BZ porovnání s vahou získanou z aktuálně zpracovávaného pravidla když významně odlišná, tak je pravidlo přidáno do BZ Testování vytvořené báze znalostí trénovací testovací data cross-validace Klasifikace nových případů i dávková MI-KDD P08 M. Šimůnek: Analytické procedury II 16
17 Závěr Čtyři pokročilé GUHA procedury Porovnání dvou podmnožin v datech Široké možnosti spolupráce výzkum, DP, DisP... zhodnocení možností procedur MI-KDD P08 M. Šimůnek: Analytické procedury II 17
18 Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/ Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME Nové nástroje a teorie pro dobývání znalostí z databází MI-KDD P08 M. Šimůnek: Analytické procedury II 18
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2 Projekt LISp-Miner http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond
VíceDobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner
Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner (c) prof. RNDr. Jan Rauch, CSc. KIZI, Fakulta informatiky a statistiky VŠE zimní semestr
VíceÚvod do dobývání. znalostí z databází
POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů
VíceProjekt LISp-Miner. M. Šimůnek
Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace
VíceVýpočet na gridu a LM TaskPooler
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 10 Výpočet na gridu a LM TaskPooler v systému LISp-Miner (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský
VíceDobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod
Dbývání znalstí z databází (MI-KDD) Přednáška čísl 1 - Úvd (c) prf. RNDr. Jan Rauch, CSc. KIZI, Fakulta infrmatiky a statistiky VŠE zimní semestr 2011/2012 Evrpský sciální fnd Praha & EU: Investujeme d
VíceDobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla
Dobývání znlostí z dtbází (MI-KDD) Přednášk číslo 4 Asociční prvidl (c) prof. RNDr. Jn Ruch, CSc. KIZI, Fkult informtiky sttistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Prh & EU: Investujeme
VíceLISp-Miner: systém pro získávání znalostí z dat 1
LISp-Miner: systém pro získávání znalostí z dat 1 Petr Berka, Jan Rauch, Milan Šimůnek VŠE Praha Nám. W. Churchilla 4, Praha 3 e-mail: {berka,rauch,simunek}@vse.cz Abstrakt. Systém LISp-Miner je otevřený
VíceNová GUHA-procedura ETree-Miner v systému LISp-Miner
Nová GUHA-procedura ETree-Miner v systému LISp-Miner Milan Šimůnek Laboratoř pro inteligentní systémy Praha Fakulta informatiky a statistiky, VŠE Praha nám. W. Churchilla 4, 130 67 Praha 3 simunek@vse.cz
VíceVysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner
Vysoká škola ekonomická Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Systém LISp-Miner Stručný popis určený pro posluchače kurzů Metod zpracování informací verse 20.
VíceUniverzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Miron Tegze Procedura SDKL-Miner pro dobývání znalostí z databází Katedra softwarového inženýrství Vedoucí diplomové práce: doc.
VíceZáklady vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceAsociační pravidla (metoda GUHA)
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Asociační pravidla (metoda GUHA) Ing. Michal Burda () Získávání znalostí z dat Brno, 27. ledna
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
Více4ft-Miner pro začátečníky Získávání znalostí z databází
4ft-Miner pro začátečníky Získávání znalostí z databází Dobývání znalostí z databází (DZD) Knowledge Discovery in (from) Databases (KDD) Data Mining (DM) Materiál pro posluchače kurzů IZI211 Metody zpracování
VícePříprava dat v softwaru Statistica
Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
VíceDolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
VíceDOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch Anotace: Příspěvek obsahuje základní informace o dobývání znalostí jakožto důležité disciplíně informatiky a ukazuje příklady
VíceMATEMATIKA III V PŘÍKLADECH
VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ MATEMATIKA III V PŘÍKLADECH Cvičení 8 Statistický soubor s jedním argumentem Mgr. Petr Otipka Ostrava 2013 Mgr. Petr Otipka Vysoká škola
VíceSTATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7
Inovace předmětu STATISTIKA Obsah 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 1 1. Inovace předmětu STATISTIKA Předmět Statistika se na bakalářském oboru
VíceEXPERIMENTÁLNÍ GUHA PROCEDURY
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Tomáš Kuchař EXPERIMENTÁLNÍ GUHA PROCEDURY Katedra softwarového inženýrství Vedoucí diplomové práce: Doc. RNDr. Jan Rauch, CSc.
VíceAlgoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
VíceDolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
VíceMETODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU
METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ
VíceSegmentace bankovních zákazníků algoritmem k- means
Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22 Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování...
VíceStatistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární
VíceTabulka 1. Výběr z datové tabulky
1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceSAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY
SAMOSTATÁ STUDETSKÁ PRÁCE ZE STATISTIKY Váha studentů Kučerová Eliška, Pazdeříková Jana septima červen 005 Zadání: My dvě studentky jsme si vylosovaly zjistit statistickým šetřením v celém ročníku septim
VíceGrafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
VíceSTATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a
VíceÚloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:
Úloha č. 1 - Kvantily a typická hodnota (bodově tříděná data): Určete typickou hodnotu, 40% a 80% kvantil. Tabulka hodnot: Varianta Četnost 0 4 1 14 2 17 3 37 4 20 5 14 6 7 7 11 8 20 Typická hodnota je
Více5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
VíceAsociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
VíceOSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA
OSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA Tomáš Kocyan OBSAH PREZENTACE Představení výzkumu Popis analyzovaných dat Analýza Asociace Fundovaná implikace Interpretace výsledků Rozhodovací stromy Výběr atributů
VícePRODUKTY. Tovek Tools
Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních
VíceHodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
VícePřipomeň: Shluková analýza
Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory
VíceZadání semestrální práce IKTZ 2 letní semestr 2009/2010
Zadání semestrální práce IKTZ 2 letní semestr 2009/2010 Obecné zadání Dle zadání zpracujte data ze studie STULONG (soubory Entry a Contr). Práce je rozdělena do tří částí, které se řeší odděleně. Výstupem
VíceIBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics
IBM Software IBM SPSS Exact Tests Přesné analýzy malých datových souborů Při rozhodování o existenci vztahu mezi proměnnými v kontingenčních tabulkách a při používání neparametrických ů analytici zpravidla
VícePŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc.
PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE Analýza dat ze studentských dotazníků 2013 Bc. Tomáš Matonoha Anotace Data mining je proces získávání netriviálních a dříve
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VíceZápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
VíceAsociační pravidla. Úloha hledání souvislostí mezi hodnotami atributů. {párky, hořčice} {rohlíky} Ant Suc,
Asociční prvidl Úloh hledání souvislostí mezi hodnotmi tributů. nlýz nákupního košíku (Agrwl, 1993) obecněji {párky, hořčice} {rohlíky} Ant Suc, kde Ant (ntecedent) i Suc (sukcedent) jsou konjunkce hodnot
VíceZískávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
VíceSimulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
VíceStefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Logika pro každodenní přežití Stefan Ratschan Katedra číslicového návrhu Fakulta informačních technologíı České vysoké učení technické v Praze Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát Obsah Úvod... 3 1 Charakterizujte
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
VíceStartovní úloha Samostatná práce
Dobývání znalostí z databází MI-KDD ZS 2011 Cvičení 5 Startovní úloha Samostatná práce http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský
VíceVzorová prezentace do předmětu Statistika
Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota
VíceDOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
VíceManuál k programu EMSoftware
Manuál k programu EMSoftware podpora systému řízení životního prostředí podle normy ISO 14001, případně EMAS Program EMSoftware EMSoftware je víceuživatelskou aplikací s možností nastavení uživatelských
VíceProblematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
VíceVŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL
VíceTEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT
EXPLORAČNÍ ANALÝZA DAT TEST Z TEORIE 1. Test ze Statistiky píše velké množství studentů. Představte si, že každý z nich odpoví správně přesně na polovinu otázek. V tomto případě bude směrodatná odchylka
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceTématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"
Tématické okruhy pro státní závěrečné zkoušky bakalářské studium studijní obor "Management jakosti" školní rok 2010/2011 Management jakosti A 1. Pojem jakosti a význam managementu jakosti v současném období.
VíceIBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
VíceInformační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází
1 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Požadavky kreditového systému. Relační datový model, relace, atributy,
VíceNeuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
VíceMnohorozměrná statistická data
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém
VíceVŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: SMAD Cvičení Ostrava, AR 2016/2017 Popis datového souboru Pro dlouhodobý
VícePředzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond
VíceDRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů
AGENDA Definice kvality DRG systému Statistické metody hodnocení kvality DRG klasifikace Identifikace nenáhodného rozložení případů Využití regresní analýzy nákladů při hledání důvodů v rozdílných nákladech
VíceSpokojenost se životem
SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO
VíceMATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
VícePOSTUP PRO VYTVOŘENÍ STRUKTUR PRO UKLÁDÁNÍ RDF DAT V ORACLE
POSTUP PRO VYTVOŘENÍ STRUKTUR PRO UKLÁDÁNÍ RDF DAT V ORACLE Upozornění: Pro práci s RDF Oracle daty je třeba mít nainstalován Oracle Spatial Resource Description Framework (RDF). 1. Vytvoření tabulkového
VíceProblémové domény a jejich charakteristiky
Milan Mišovič (ČVUT FIT) Pokročilé informační systémy MI-PIS, 2011, Přednáška 02 1/16 Problémové domény a jejich charakteristiky Prof. RNDr. Milan Mišovič, CSc. Katedra softwarového inženýrství Fakulta
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceNegativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1
Negativní informace Petr Štěpánek S použitím materiálu M.Gelfonda a V. Lifschitze 2009 Logické programování 15 1 Negace jako neúspěch Motivace: Tvrzení p (atomická formule) neplatí, jestliže nelze odvodit
VíceTématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"
Tématické okruhy pro státní závěrečné zkoušky bakalářské studium studijní obor "Management jakosti" školní rok 2009/2010 Management jakosti A 1. Pojem jakosti a význam managementu jakosti v současném období.
VíceLogika a logické programování
Logika a logické programování témata ke zkoušce Poslední aktualizace: 16. prosince 2009 Zkouška je písemná, skládá se obvykle ze sedmi otázek (může být více nebo méně, podle náročnosti otázek), z toho
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÉHO ŠETŘENÍ ANALÝZA VÝSLEDKŮ VYUŢITÍ PROJEKTOVÉHO ŘÍZENÍ V ESN Příjmení a jméno: Hrdá Sabina, Kovalčíková
VíceSTATISTICKÉ CHARAKTERISTIKY
STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
VíceCvičení 12: Binární logistická regrese
Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,
VíceMÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
Více4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
VíceModely přidané hodnoty škol
Modely přidané hodnoty škol Adéla Drabinová, Patrícia Martinková 25.1.2018, Robust Katedra pravděpodobnosti a matematické statistiky, Matematicko-fyzikální fakulta, Univerzita Karlova Oddělení statistického
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceTématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"
Tématické okruhy pro státní závěrečné zkoušky bakalářské studium studijní obor "Management jakosti" školní rok 2013/2014 Management jakosti A 1. Pojem jakosti a význam managementu jakosti v současném období.
Vícerůzné typy přehledových studií integrativní typ snaha o zobecnění výsledků z množství studií
Meta-analýza přehledové studie, definice postup meta-analýzy statistické techniky ověření homogenity studií, agregace velikosti účinku, moderující proměnné, analýza citlivosti, publikační zkreslení přínosy
VíceAplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
VícePřednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita
VíceZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY
zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické
VíceDatové modelování II
Datové modelování II Atributy Převod DM do schématu SŘBD Dotazovací jazyk SQL Multidimenzionální modelování Principy Doc. Miniberger, BIVŠ Atributy Atributem entity budeme rozumět název záznamu či informace,
VíceVysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky
Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
VíceTestování a spolehlivost. 1. Laboratoř Poruchy v číslicových obvodech
Testování a spolehlivost ZS 2011/2012 1. Laboratoř Poruchy v číslicových obvodech Martin Daňhel Katedra číslicového návrhu Fakulta informačních technologií ČVUT v PRaze Příprava studijního programu Informatika
Víceveličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
VíceAlgoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
VíceLISp-Miner. 11.5.2004 Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích
LISp-Miner 11.5.2004 Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích Zadání Popis systému LISp-Miner a experimenty s databází. Abstrakt Tento projekt popisuje systém LISp-Miner, jeho
VíceObsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
VíceKarta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.
Více1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017
Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta
VíceOntologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
Více