Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE

Transkript

1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Miron Tegze Procedura SDKL-Miner pro dobývání znalostí z databází Katedra softwarového inženýrství Vedoucí diplomové práce: doc. RNDr. Jan Rauch, CSc. Studijní program: Informatika - Mgr. Studijní obor: Datové inženýrství

2 Děkuji následujícím osobám, za pomoc a podporu při psaní diplomové práce: Doc.RNDr.JanuRauchovi,CSc.zavedenídiplomovépráceacennérady při vývoji procedury i při samotném psaní práce. Ing. Milanu Šimůnkovi za rady při implementaci procedury SDKL-Miner a seznámení s kódem systému LISp-Miner. RNDr. Martinu Holeňovi za konzultaci SDKL kvantifikátorů. KSI MFF za zapůjčení software nutného pro vývoj procedury SDKL. Prof. RNDr. Jaromírovi Antochovi, CSc. za konzultaci. RNDr. Janu Fialovi za pomoc s překladem některých anglických termínů do čestiny a algebraické konzultace. ZuzaněHorovézakonzultaceapomocstvorbougrafů. Své rodině za podporu nejen při psaní diplomové práce. Prohlašuji, že jsem svou diplomovou práci napsal samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce. VPrazedne9.srpna2007 MironTegze

3 Obsah Abstrakt vi Úvod 1 1 Systém LISp-Miner Úvod DefiniceaznačenívsystémuLISp-Miner ArchitekturasystémuLISp-Miner LMAdmin LMDataSource LMTimeTransf ft-Miner KEx CF-Miner KL-Miner SDS-Miner HierarchiesystémuLISp-Miner Metabáze ProceduraKL-Miner ProceduraSDS-Miner Procedura SDKL-Miner Úvod Analýza SDKL-kvantifikátory Množiny,antecedentasukcedent Podobnostdvoubuněk Výběrbuněkproporovnání Relativnívyjádřeníčetnosti VstupprocedurySDKL-Miner Antecedentasukcedent i

4 2.3.2 Podmínkaadefinicemnožin Podkladyproimplementaci Majorizace Úvod VyužitímajorizacevproceduřeSDKL-Miner Strukturakapitoly Základnídefiniceaznačení Vektorovámajorizace Definice Kdyjemožnévektorymajorizovat Funkcezachovávajícímajorizaci Majorizacejakouspořádaní Funkceprodvojicevektorů Reprezentacematicvektory Definicevlastníchasingulárníchčísel Vlastníčísla,singulárníčíslaaprvkynadiagonále Normy Maticovámajorizace Definice Silnámajorizace Slabámajorizace Směrovámajorizace Řádkovámajorizace Maticovámajorizacepomocívektorovémajorizace Vlastnostimajorizací Vztahmezimaticovýmimajorizacemi Minimálníprvekmaticovémajorizace Rozhodnutí o majorizaci pomocí lineárního programování Funkcezachovávajícímajorizaci Maticovénerovnosti Majorizacevestatistice Majorizacedvojicematic Maticovýprůměr Jointmajorization Logaritmickámajorizace Shrnutí Dvojicematic Matice ii

5 4 Kvantifikátory závislosti Úvod Definice Testyshody Nahrazenímodeludruhoukontingenčnítabulkou Využitítřírozměrnéstatistiky Nahrazenímodeludruhoukontingenčnítabulkou Hypotézynezávislosti Hypotézyúplnénezávislosti Hypotézysdruženénezávislosti Hypotézypodmínečnénezávislosti Hypotézypárovénezávislosti Hierarchiehypotéznezávislosti Hypotézysymetrie Tabulkysnulovýmipoli Návod k používání procedury SDKL-Miner Úvod Stažení Instalace Přípravametabáze Přípravadat Primárníklíč Vytvořeníatributů Jednoduchéprohlíženídat Generováníhypotéz Prohlíženíhypotéz Testy na demonstračních datech Přípravadat Identifikačníúdaje Sociálnícharakteristiky Tělesnéaktivity Alkohol DotazníkA Kouření Cukr,káva,čaj Osobníanamnéza Fyzikálnívyšetření Biochemickévyšetření iii

6 Rizikovéfaktory Testování Prvnítest Druhýtest Třetítest Čtvrtýtest Pátýtest Šestýtest Sedmýtest Osmýtest Devátýtest Desátýtest Jedenáctýtest Dvanáctýtest Třináctýtest Čtrnáctýtest Patnáctýtest Shrnutí Závěr 195 Přílohy 198 PřílohaA:Protokolprvníhotestu PřílohaB:Protokoldruhéhotestu PřílohaC:Protokoltřetíhotestu PřílohaD:Výpishypotézytřetíhotestu PřílohaE:Protokolčtvrtéhotestu PřílohaF:Protokolpátéhotestu PřílohaG:Protokolšestéhotestu PřílohaH:Výpishypotézyšestéhotestu PřílohaI:Protokolsedméhotestu PřílohaJ:Výpishypotézysedméhotestu PřílohaK:Protokolosméhotestu PřílohaL:Protokoldevátéhotestu PřílohaM:Výpishypotézydevátéhotestu PřílohaN:Protokoldesátéhotestu PřílohaO:Protokoljedenáctéhotestu PřílohaP:Protokoldvanáctéhotestu PřílohaQ:Výpishypotézydvanáctéhotestu PřílohaR:Protokoltřináctéhotestu iv

7 PřílohaS:Protokolčtrnáctéhotestu PřílohaT:Výpishypotézyčtrnáctéhotestu PřílohaU:Protokolpatnáctéhotestu PřílohaV:ZprávaLISP PřílohaW:ZprávaLISP Literatura 309 v

8 Název práce: Procedura SDKL-Miner pro dobývání znalostí z databází Autor: Miron Tegze Katedra: Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Univerzity Karlovy Vedoucí diplomové práce: doc. RNDr. Jan Rauch, CSc. vedoucího: rauch@vse.cz Abstrakt: SDKL-Miner je nová GUHA procedura pro dobývání znalostí z databází. Rozšiřuje systém LISp-Miner, který je vyvíjen na VŠE Praha. SDKL-Miner hledá nové potencionálně zajímavé hypotézy pomocí dvojice kontingenčních tabulek. Do procedury SDKL-Miner byl implementován jednoduchý kvantifikátor. Diplomová práce obsahuje testy a nalezené zajímavé hypotézy pro jednoduchý kvantifikátor společně s příklady užití kvantifikátoru. V práci jsou navrženy směry dalšího vývoje, jak pro proceduru SDKL-Miner, tak i pro celý systém LISp-Miner. Použití statistických testů závislosti a použití vektorové i maticové majorizace je podrobně rozebráno. Procedura je výsledkem kontinuálního vývoje akademického systému LISp-Miner pro dobývání znalostí z databází. Klíčová slova: GUHA; SDKL-Miner; data mining; kontingenční tabulky; majorizace Title: Procedure SDKL-Miner for data mining Author: Miron Tegze Department: Department of Software Engineering, Faculty of Mathematics and Physics, Charles University Supervisor: doc. RNDr. Jan Rauch, CSc. Supervisor s address: rauch@vse.cz Abstract: A new data mining GUHA procedure SDKL-Miner is presented which extends current data mining system LISp-Miner developed on the VŠE Praha. The procedure mines for various patterns based on evaluation of two two-dimensional contingency tables. A simple comparing quantifier is implemented. Tests and new results for this quantifier are presented together with set of examples of it s use. New directions of future development are proposed. The use of statistical dependency testsandtheuseofbothvectorandmatrixmajorizationareanalyzedinmore details. The procedure is a result of continued development of the academic LISp- Miner system for knowledge discovery and data mining. Keywords: the SDKL-Miner; data mining; contingency tables; the system LISp- Miner; majorization vi

9 Úvod Systém LISp-Miner vznikl jako výukový systém na Katedře informativního a znalostního inženýrství Fakulty informatiky a statistiky Vysoké školy ekonomické(viz [Ri05],[Šim03a],[Lín03c],[Ri04]). V roce 2003 vznikla pro platformu LISp-Miner procedura SDS-Miner(vyvinul ji T. Karban,[KRi04],[Kar03b],[Rau02c],[Kar03a] a[kar04]), která porovnává dvě množiny pomocí upravené čtyřpolní tabulky(takzvané šestipolní tabulky), která je znázorněna v tabulce 1. Uvedu ji již zde v úvodu, aby byla problematika zřejmější. Dvě(disjunktní) množiny A, B se porovnávají na základě rozdílové vlastnosti α. Písmeno a zobrazuje počet prvků z A, které splňují vlastnost α. Písmeno b počet prvků z A, které nesplňují vlastnost α. Obdobně c, dpromnožinu Bataké e, fprodoplněkmnožin AaB. Disjunktní Rozdílová vlastnost množiny α α A a b B c d (A B) e f Tabulka 1: Šestipolní tabulka používaná v SDS-Mineru Procedura SDKL-Miner, kterou jsem navrhnul na základě[rau04a] a kterou implementoval M. Šimůnek, vychází koncepčně z procedury KL-Miner systému LISp- Miner(tu implementoval V. Lín, viz[rau03],[lín03d],[lín03a],[ril05]). Procedura KL-Miner hledá vztah mezi dvěma atributy v rámci jedné množiny dat. Příkladem může být hledání vztahu mezi systolickým a diastolickým tlakem. Je možné, že se prokáže pozitivní závislost, tedy pokud stoupá systolický tlak, stoupá i diastolický. Tyto závislosti se jinými procedurami systému LISp-Miner prokazují obtížně. Procedura KL-Miner pracuje nad K L kontingenční tabulkou(tabulka 2), kde S reprezentuje l-hodnotový atribut a A značí k-hodnotový atribut. Četnosti výskytů prvků f ij označujípočetprvků,kdemáatribut Ahodnotu a i aatribut Shodnotu s j. V systému LISp-Miner se začaly zkoumat vztahy mezi dvěma množinami dat pomocí čtyřpolní tabulky. Vznikla procedura SDS-Miner, která porovnává dvě množiny 1

10 A S s 1 s 2 a 1 f 11 f 12 s L f 1L f 2L a 2 f 21 f a K f K1 f K2 f KL Tabulka 2: K L kontingenční tabulka používaná v proceduře KL-Miner dat pomocí upravené čtyřpolní tabulky(procedura SDS-Miner byla dále rozšířena do procedury SD4ft-Miner). Po dobrých zkušenostech s procedurou SDS-Miner byla analogicky navržena procedura SDKL-Miner(viz[Rau04a]), která porovnává dvě množiny dat na základě dvojice K L kontingenčních tabulek. Procedura SDKL-Miner spojuje mechanismy obou zmíněných procedur, KL-Miner a SDS-Miner. Motivace spojení procedury KL- Miner a procedury SDS-Miner je znázorněna na obrázku 1. Procedura SDKL-Miner hledá zajímavé vztahy pomocí dvojice K L kontingenčních tabulek. Pro dvě množiny a shodné sloupcové a řádkové atributy vytvoří dvě K L kontingenční tabulky(jednu pro každou množinu). Procedura SDKL-Miner tyto tabulky porovná a dle zadaného kvantifikátoru rozhodne, zda jsou dané množiny podobné nebo odlišné(případně nakolik). Podrobněji se budu zabývat možnostmi zadávání a porovnávání v analýze procedury SDKL-Miner(sekce 2.2). Podobným problémem se zabývá i subgroup discovery. Zde se naopak v celku hledají zajímavé podmnožiny. Procedura SDKL-Miner je stavěna pro porovnání dvou množin, případně pro verifikaci, zda určitá podmnožina reprezentuje množinu(zde se rýsuje možné propojení se subgroup discovery). Velký význam má toto srovnání například ve zdravotnictví, kde je cenné porovnání skupiny zdravých pacientů s nemocnými, případně porovnání zdravých pacientů s rizikovou skupinou. Pomocí dobývání znalostí z databází mohu zjistit vztahy, které jsou vlastní každé skupině. Použitím procedury KL-Miner je takové porovnání v systému LISp-Miner téměř neproveditelné. Nejdříve bych musel pro každou množinu vytvořit všechny možné kombinace řádkového a sloupcového atributu v proceduře KL-Miner. Tyto kombinace pomocí KL-kvantifikátoru vyhodnotit a vzniklé dva seznamy vztahů(ručně) porovnat. Procedura SDKL-Miner umožňuje(automaticky) získat vztahy atributů, u kterých se množiny nejvíce liší, setříděné podle míry odlišnosti. Pro názornost uvedu příklad. Mám dvě množiny, nemocné pacienty a zdravé jedince. Budu se snažit nalézt takovou kombinaci sloupcového a řádkové atributu, aby se K L kontingenční tabulky pro první množinu a pro druhou množinu co nejvíce 2

11 Obrázek 1: Motivace pro proceduru SDKL-Miner(převzato z[rau04a]) odlišovaly. Mohu nalézt například hypotézu, kde závislost mezi počtem vykouřených cigaret a tlakem je u zdravých pacientů pozitivní(pokud stoupá počet cigaret, stoupá i tlak), kdežto u nemocných je negativní(pokud stoupá počet cigaret, klesá krevní tlak). Ve své diplomové práci jsem věnoval hodně prostoru(automatizovanému) porovnání dvou K L kontingenčních tabulek, které je v systému LISp-Miner nepoužité ivroce2007. Zadáním mé diplomové práce bylo: a) Prostudovat dostupné publikace o procedurách SDS-Miner a KL-Miner. b) Prostudovat interní dokumentaci systému LISp-Miner. c) Vypracovat podrobný návrh procedury SDKL-Miner na základě interního dokumentu systému LISp-Miner Úvodní návrh procedury SDKL-Miner. d) Vypracovat podrobnou specifikaci pro implementaci procedury SDKL-Miner. e) Implementovat proceduru SDKL-Miner a vypracovat její dokumentaci. Z důvodu volných programátorských kapacit v týmu, navrhnul vedoucí mé diplomové práce pro implementaci M. Šimůnka. Věnoval jsem se proto(namísto im- 3

12 plementace) teoretickému zkoumání nových kvantifikátorů. V důsledku toho byly k diplomové práci přidány tyto body: f) Vytvoření návodu pro procedury SDKL-Miner. g) Testování procedury SDKL-Miner pro jednoduchý kvantifikátor. h) Konzultace a prozkoumání využití statistiky pro proceduru SDKL-Miner. i) Prozkoumání využití majorizace v proceduře SDKL-Miner. Struktura práce Na základě doporučení vedoucího diplomové práce jsem zvolil postup, kde nejdříve vytvořím přesnou specifikaci procedury SDKL-Miner společně se základním kvantifikátorem, a pak se zaměřím na zkoumání dalších možností porovnání dvou K L kontingenčních tabulek. V první kapitole popisuju systém LISp-Miner jako celek s důrazem na procedury SDS-Miner a KL-Miner, ze kterých jsem vycházel nejvíce(body zadání diplomové prácea,b). Druhá kapitola obsahuje detailní popis procedury SDKL-Miner(body zadání diplomové práce c, d bod e, implementace procedury SDKL-Miner, vytvořil M. Šimůnek). Třetí kapitola je věnována majorizaci(vektorů i matic), na kterou jsem narazil při sestrojování procedury SDKL-Miner a kterásemijevíjakovelmiperspektivnía která zapadá do celkové koncepce systému LISp-Miner. Na závěr této kapitoly je zmíněno využití majorizace pro porovnání v proceduře SDKL-Miner(majorizace je vhodná i pro ostatní procedury systému LISp-Miner, zejména proceduru KL-Miner). Této kapitole odpovídá bod i zadání práce. Čtvrtá kapitola navrhuje využití kvantifikátoru závislosti antecedentu a sukcedentu(bod h zadání diplomové práce). Je zde take zmíněna i třírozměrná statistika. V páté kapitole uvádím podrobný návod pro proceduru SDKL-Miner, včetně popisu ostatních komponent systému LISp-Miner nutných pro správný běh procedury SDKL-Miner. Tento návod je psán formou průvodce přípravou dat, generování hypotéz a zobrazení nalezených hypotéz. Kapitole odpovídá bod f zadání práce. V šesté kapitole jsem testoval proceduru SDKL-Miner a základní kvantifikátor v celkem patnácti testech. Důkladně jsem popsal i přípravu dat(připravená metabáze je součástí elektronické dokumentace diplomové práce). Kapitole odpovídá bod g zadání práce. 4

13 V závěru práce shrnu získané poznatky o proceduře SDKL-Miner, zejména další směry práce na kvantifikátorech a připojuji i návrhy na další rozšíření systému LISp- Miner. Výpisy výpočtů a průběžné zprávy jsem zařadil jako dodatky, aby bylo možné se na ně podívat, ale aby nečinily práci jako takovou neúměrně dlouhou. Poznámka. Ve své diplomové práci se budu snažit používat české termíny. V případě, kdy jsem nenašel český překlad, ale český ekvivalent mi připadl zřejmý, napsal jsem do poznámky původní anglický název. V ostatních případech používám původní anglický termín. 5

14 Kapitola 1 Systém LISp-Miner 1.1 Úvod SystémLISp-Miner 1 vznikljakovýukovýsystémnakatedřeinformativníhoaznalostního inženýrství Fakulty informatiky a statistiky Vysoké školy ekonomické pod vedením doc. J. Raucha(viz[Šim03a],[Lín03c],[Ri04]). Systém LISp-Miner byl vyvinut učiteli a studenty roku 1996 a je stále rozšiřován. Účelem systému LISp-Miner je pomáhat získávat znalosti z databází podle metodologie CRISP-DM. Systém podporuje fázi přípravy dat, analýzy dat a fázi interpretaci výsledků. Vstupem do systému jsou analyzovaná data ve formě relační databáze(rozhraní ODBC). Výstupem jsou zajímavé hypotézy, které je potřeba dále ověřit. Systém LISp-Miner byl navržen pro řešení různých typů úloh při dobývání znalostí z databází. Velký důraz je kladen na možnost přípravy dat a jejich předzpracování. První verze systému obsahovala pouze proceduru 4ft-Miner navrhnutou na základě zkušeností s metodou GUHA(viz[HH78]). Procedura byla implementována Milanem Šimůnkem, který je současně spoluautorem algoritmu pro proceduru 4ft- Miner. Po prvních zkušenostech s procedurou 4ft-Miner byla navržena nová architektura systému, která se využívá dodnes(viz obrázek 1.1). Procedura 4ft-Miner byla rozdělena do tří části: 4ft-Task, 4ft-Result, LM Data- Source. Tyto tři procedury vytvořily základ systému LISp-Miner. Základním kamenem systému se stala metabáze, jako centrální bod pro všechny definice, zadání a výsledky. Metabázi využívají všechny prvky systému LISp-Miner. Postupem času se do systému LISp-Miner přidávaly další procedury. Mezi prvními byla KEx. Další byla KL-Miner(viz[RiL05]) následovaná CF-Miner. Poslední plně implementovaná procedura je SDS-Miner(viz[KRi04]). Současně s procedurou 1 ShodasnázvemprogramovacíhojazykaLISPječistěnáhodná. 6

15 ANALYZOVANÁ DATA pparams ODBC DSN METABÁZE LM Admin Administrace Read only Read only Průzkum a příprava dat Data mining Interpretace Obrázek 1.1: Základní architektura systemu LISp-Miner SDKL-Miner je implementováno hned několik dalších procedur. Systém je vyvíjen pro systém Windows ve vývojovém prostředí Microsoft Visual C Definice a značení v systému LISp-Miner Uvedu základní definice a značení používané v systému LISp-Miner. Omezím se pouze na pojmy, které potřebuji pro další text(více např.[ril05]). Značení a terminologie odpovídá doporučení systému LISp-Miner(dle[Lín03c]). Atribut je jedna zkoumaná vlastnost množiny dat. Často se jedná o sloupec databáze převedený do metabáze nebo o nový sloupec metabáze vytvořený výpočtem z několika původních sloupců. Atribut je např. vzdelani v databázi STULONG(dále buduvždypoužívatsloupcezdatabázestulong 2 ). Koeficient je podmnožina možných hodnot Atributu. Např. pro atribut vzdelaní existuje koeficent odborné. Literál je booleovská podmínka buď ve tvaru Atribut(koeficient) nebo ve tvaru Atribut(koeficient). Jedná se například o Vzdelani(odborné). Sjednocení konečného počtu literálů se nazývá cedent. Např. Vzdelani(odborné) Caj(nepije). Definice podmínky je cedent. Definice první i druhé množiny je také cedent. 2 Přesnáspecifikaciprojektu,detailnípodmínkysběrudatapodrobnýpopisatributůjeumístěn na webových stránkách projektu(viz[spsnse20],[sopsnwlm20]). 7

16 Definice 1.1([Lín03d]). Kategoriální atribut je atribut s konečným počtem možných hodnot. Existují nominální atributy s nesetříděnými obory hodnot a ordinální atributy, které mají setříděné hodnoty. V dalším textu budu při práci s K L kontingenčními tabulkami psát pro stručnost pouze slovo atribut místo kategoriální atribut. Definice 1.2([Lín03d]). K L kontingenční tabulka na množině M je tabulka dvou kategoriálních atributů K s k hodnotami a L s l hodnotami taková, že první atribut definuje řádky matice a druhý sloupce matice. M L 1 L 2 L l l K 1 n 1,1 n 1,2 n 1,l n 1,+ K 2 n 2,1 n 2,2 n 2,l n 2, K k n k,1 n k,2 n k,l n k,+ k n +,1 n +,2 n +,l n +,+ Zápisem n i,j označujupočetprvkůzmnožiny M,kterémajíhodnotuatributu K rovnou iahodnotuatributu Lrovnou j.zápisem n i,+ rozumímsoučetvšechprvků, kterémajíhodnotuatributu Krovnou i(obdobněpro n +,j, n +,+ ).Počtemprvkůrozumím počet řádků původní tabulky analyzovaných dat, pro které hodnota sloupců (atributů), ať již původních, nebo z původních definovaných, má požadovanou hodnotu. Asociačnípravidlojeobecněchápanojakovyjádřeníveformě X Y,kde Xa Y jsou množiny položek(viz[ri02]). Intuitivní významem je tvrzení, že transakce obsahující položky X má tendenci obsahovat i položky Y(například nákupní košík). Pro určení intenzity asociačního pravidla se používají dvě vlastnosti; confidence a support. Ve své práci použiji asociační pravidla pouze okrajově více v článku[ri05]. Vevztahu K Loznačujekvantifikátor spojenídvouatributůvesmyslu uživatelem zadané definice kvantifikátoru. Antecedent je levý atributu a sukcedent je pravý atribut(více[ri02]). Antecedent i sukcedent je obecně cedent. Pro procedury založené na K L kontingenční tabulce je nutné omezení antecedentu i sukcedentu na kategoriální atributy. 1.3 Architektura systému LISp-Miner Systém LISp-Miner rozlišuje tři typy modulů: Prozkoumáváníapřípravadat 3 3 Anglicky:DataExplorationandPreparation 8

17 Dobýváníznalostí 4 Interpretace Obrázek 1.2 popisuje architekturu systému LISp-Miner. Data prozkoumání a příprava Data mining Interpretace LM DataSource Prozkoumání a kategorizace 4ftMiner- Asociační pravidla Definice, generování, 4ftGen, interpretace, UFFilter, LI LM TimeTransf Příprava časových dat KEx- Systém podpory rozhodování Definice, generování, klasifikace, dávková klasifikace KL-Miner- KxL kontingenční tabulky Definice, generování, KLGen, interpretace CF-Miner- Frekvence Definice, generování, interpretace SDS-Miner- Asociační pravidla Definice, generování, interpretace Ostatní SDKL- 2xKL kontingenční tabulka Definice, generování, interpretace LM Admin Administrace Obrázek 1.2: Architektura systému LISp-Miner([Šim03b]) LM Admin Stranou je administrační modul LM Admin, který nepatří do třívrstvé architektury systému LISp-Miner. V tomto modulu je možné vytvářet uživatele a určovat jim jejich práva(pro editaci úloh). Dále usnadňuje vytváření vazeb mezi metabází a analyzovanými daty. 4 Anglicky:DataMining 9

18 1.3.2 LM DataSource LM DataSource slouží k předzpracování dat a jejich analýze(frekvence, hodnoty...). V modulu se definují odvozené(např. vypočítané) sloupce a kategoriální atributy. LM DataSource tvoří první vrstvu systému LISp-Miner, přípravu dat. Pomocí tohoto modulu je možné vytvářet čtyři typy kategorií: Každá hodnota ve sloupci je jedna kategorie(barva, název). Kategoriejsoutvořenyintervalyhodnotostejnédélce(0 4;5 9; ). Kategorie jsou tvořeny ekvifrekvenčními intervaly(intervaly o stejném počtu prvků, ale(typicky) různých délkách). Kategorie jsou definovány jiným zdrojem dat. Vytvořené kategorie se mohou dále upravovat. Je také možné vytvořit odvozené sloupce analyzované databáze LM TimeTransf LM TimeTransf je modul pro přípravu časových řad([rau02b],[šle02a],[šle02b]). Zkoumá,jaksedanádataměnísčasem.Umíproložitdatyfunkciadodatabáze uložit parametry této funkce pro každou zkoumanou položku ft-Miner 4ft-Miner je první procedura implementovaná v systému LISp-Miner ([Šim02c], [RiL05]). 4ft-Miner hledá asociační pravidla nad čtyřpolní tabulkou. Pro zadaný antecedent, sukcedent(automaticky generované z množin antecedentů a sukcedentů) a zvolený kvantifikátor s parametry rozhodne, zda daná hypotéza platí. Pro příklad procedury 4ft-Miner zavedu pojem fundovaná implikace(definice tohoto i jiných kvantifikátorů je v[kri04]). Jednotlivé buňky čtyřpolní tabulky označím podle abecedy, jak je znázorněno v tabulce 1.1. M ψ ψ φ a b r φ c d s k l n Tabulka 1.1: Označení buněk čtyřpolní tabulky Ve čtyřpolní tabulce je písmenem φ označen antecedent a ψ sukcedent. M označuje analyzovaná data. Písmeno a označuje počet prvků množiny M, které splňují 10

19 podmnínku φ i ψ(obdobně b, c, d). Písmeno r vyjadřuje součet prvků množiny splňující podmínku φ(obdobně s, k, l, n). Fundovanáimplikace p;base platíprávětehdy,když a a+b p a Base, kde p a Base jsou uživatelem zadané konstanty. Slovně je možné fundovanou implikaci vyjádřit: 100 p procent objektů splňujících φ splňuje také ψ, těchto objektů je alespoň Base. Nízký plat Vysoký plat Nevlastní auto Vlastní auto Tabulka 1.2: Příklad pro proceduru 4ft-Miner V tabulce 1.2 ukážu jednoduchý příklad pro proceduru 4ft-Miner. Zkoumám, zda lidé s nízkým platem nevlastní auto. Použiju fundovanou implikaci s parametry Base=10, p=70%.fundovanáimplikaceplatí,jestliže a p (a+b).vnašem případěje a=100, b=20.implikacetedyplatí( ,7;100 >10). Na bázi 4ft-Miner vznikla procedura SDS-Miner, která porovnává dvě množiny na základě rozdílové vlastnosti. Procedura SDS-Miner je jedním ze dvou výchozích bodů pro SDKL-Miner KEx KEx je expertním systémem LISp-Miner. Generuje potencionálně užitečné implikace a zkoumá, jestli daná implikace vylepšuje množinu rozhodovacích pravidel CF-Miner CF-Miner zkoumá frekvence jednotlivých atributů v závislosti na podmínkách zadaných uživatelem. To je vhodné zejména, pokud pomocí asociačních pravidel není možné popsat chování daného atributu KL-Miner Procedura KL-Miner hledá vztahy mezi dvěma kategoriálními atributy(viz[rau03], [Lín03d],[Lín03a]). Popisem procedurou KL-Miner se důkladně zabývám v sekci 1.6, protože je prvním z výchozím bodem procedury SDKL-Miner. 11

20 1.3.8 SDS-Miner SDS-Miner zkoumá, zda jsou dvě množiny dat odlišné v rámci jednoho rozdílového atributu([rau02c]). Procedura SDS-Miner je druhým výchozím bodem procedury SDKL-Miner, popíšu ji podrobně v sekci Hierarchie systému LISp-Miner Hierarchie systému LISp-Miner je zobrazena na obrázku 1.3. Nad samotnými daty se zavádí metabáze, která je k systému připojena přes ODBC databázové rozhraní. Pro práci s metabází je připravena databázová vrstva DB DataLib, kde se provádí veškerá komunikace s databází analyzovaných dat i metabází(viz[šim02a]). Databázová vrstva zajišťuje načítání objektů z databází, jejich aktualizaci a mazání. Sdílená vrstva LM DataLib převádí data uložená v databázi do objektové podoby (viz[šim03c]). Sdílená vrstva definuje třídy, které mohou být využity v modulech systému LISp-Miner. Knihovna je rozdělena do skupin dle fází procesu dobývání znalostí z databází(stejné dělení je již použito v databázové vrstvě; dle[šim03c]): Main skupiny úloh úloha Data Source popis analyzovaných dat(matice, atributy, relace) kategorizace(veličina, kategorie, karta vlastností) pomocné třídy pro průzkum dat Task Description zadání úlohy(zadání cedentu, zadání kvantifikátoru, zadání literálu, třída ekvivalence) Generation tabulky(univerzální, čtyřpolní) kvantifikátory inicializace karet kategorií u veličiny Interpretation hypotéza, cedent, literál, skupina hypotéz 12

21 KEx: speciální literál pro zadání konzultace OutputASCII pomocná třída a dialogové okno pro výstup výsledků na obrazovku User uživatel a skupina uživatelů Vrstva CG generuje cedenty. Další vrstvy jsou již vlastní jednotlivým procedurám. Pro proceduru SDKL-Miner tedy vznikne SDKL DataLib, který bude vytvářet a počítat hypotézy. SDKLTask, SDKLResult jsou spíše uživatelské funkce, sloužící pro zadání úkolu a prohlížení výsledků. SDKLGen bude umožňovat přístup ke SDKL DataLib přes příkazovou řádku. 1.5 Metabáze Metabáze je centrální úložiště dat pro všechny moduly systému LISp-Miner(viz [Šim03b],[Šim03d],[Šim02b]). Mezi ukládaná data patří popis struktury analyzovaných dat, popis kategorizace atributů, zadání úloh, výsledky generování, popis uživatelů systému. Metabáze obsahuje popis primárních dat, jména analyzovaných tabulek, jejich sloupce, vztahy mezi tabulkami... Skladují se zde také informace o derivovaných sloupcích nebo informace o uživatelích systému. Detailní popis metabáze je v článku M. Šimůnka[Šim03d] Není zcela jednoduché připojit databázi, kde existují tabulky s více než 256 sloupci(limit Microsoft Access). Tento problém je v systému LISp-Miner vyřešen pomocí sloučení sloupců(viz[rau04b]). 13

22 1.6 Procedura KL-Miner Procedura KL-Miner (zadání je v článku J. Raucha [Rau03], další podrobnosti v článcích V. Lína[Lín03d],[Lín03a] a článku[ril05]) hledá závislosti mezi dvěma kategoriálními atributy pomocí jejich kontingenční tabulky. Procedura KL-Miner je podobná GUHA proceduře COLLAPS a CORREL(více[RiL05]). Na základě sloupců matice M je možné definovat trojici odvozených atributů A, S, C,kde Aje K-hodnotovýatributnabývajícíhodnot a 1,..., a K nazvanýantecedent, Sje L-hodnotovýatributshodnotami s 1,...,s L pojmenovanýsukcedenta C je booleovský atribut. Pro trojici A, S, C se vypočítá K L kontingenční tabulka T(A, S, C)(tabulka1.3). T(A, S, C) S s 1 s 2... s L A a 1 a 2. a K f 11 f f 1L f 21 f f 2L f K1 f K2... f KL Tabulka 1.3: trojice T(A,S,C) Uživatel zadá množinu, nad kterou se závislost hledá(případně zadá množinu omezení, na základě kterých se generují jednotlivé množiny). Vstupem je také množina atributů pro řádkový a sloupcový cedent. V jednotlivých buňkách vzniklé tabulky je počet prvků, které mají danou hodnotu sloupcového i řádkového atributu. Procedura doluje vztahy ve tvaru([ril05]) R C/γ, (1.1) kde R značí antecedent, C sukcedent(kategoriální atributy), tedy sloupce analyzované matice dat nebo sloupce z nich vytvořené(např. index BMI). Booleovský atribut γ značí podmínku platící pro všechna vstupní data. Symbol je nazván KL-kvantifikátor a odpovídá podmínce zadané uživatelem na vztah antecedentu a sukcedentu. Vztah(1.1) se nazývá KL-hypotéza nebo zkráceně pouze hypotéza. Tato hypotéza může nabývat dvou hodnot, pravda nebo lež. Její ohodnocení je závislé na antecedentu, sukcedentu, podmínce a použitém kvantifikátoru. Hypotéza R C/γ je na množině M pravdivá v případě, že podmínka odpovídající KL-kvantifikátoru je splněna na K L kontingenční tabulce odpovídající R a C na množině M omezené podmínkou γ. Procedura KL-Miner generuje všechny možné kombinace těchto prvků dle zadání uživatele a ukládá všechny hypotézy, které jsou ohodnoceny jako pravdivé. 14

23 VstupemproceduryKL-Minerjsou 5 analyzovaná data, množina řádkových atributů(antecedentů), množina sloupcových atributů(sukcedentů), popis KL-kvantifikátoru, podmínka γ omezující použitou množinu. Pro snadnější představu uvedu příklad. Vytvořím řádkový(kategoriální) atribut nazvaný příjem s hodnotami: 0;5000,(5000;10000,(10000;15000,(15000;20000,(20000;25000,(25000; ). Sloupcovým atributem bude počet dětí(neupravovaný). Množina je omezena podmínkou, která vyhledává pouze ženy. Plat Ženy Počet dětí ; (5000; (10000; (15000; (20000; (25000; ) Tabulka1.4: K Lkontingenčnítabulkaplatuapočtudětíužen V tabulce 1.4 jsou tučně vyznačené nejvyšší hodnoty v jednotlivých řádcích. Nyní můžu říci: pokud má žena plat , má nejspíše dvě děti. V optimálním případě je v každém řádku pouze jedna hodnota, potom nám dokonce vznikne funkce. To se však nestává často. Většinou je ve více buňkách značně vysoká hodnota. Potom můžeme zkoumat, kolikrát nejvyšší hodnota vyčnívá nad ostatní(nebo o kolik; možností je více). Tedy jak jsme vzdáleni od funkce. Pro KL-Miner vzniklo mnoho kvantifikátorů. Mezi nejzajímavější patří Kendalův kvantifikátor. Ten zkoumá závislost antecedentu a sukcedentu. Jeho výsledkem je číslozintervalu 1;1.Čímjevýsledekbližšík1,tímvíceplatítvrzení: Pokud roste antecedent, roste i sukcedent. Opačně, čím více se přibližujeme k 1, tím větší 5 VelmipodobnývstupbudemítiproceduraSDKL-Miner. 15

24 je negativní ordinální závislost sukcedentu a antecedentu. Kvantifikátory procedury KL-Miner jsou popsány v článku V. Lína[Lín03a] nebo v článku[ril05]. Zadáním pro KL-Miner jsou kategoriální atributy sukcedent a antecedent(opět se zadává množina, ze které se generují všechny rozumné varianty). Dále se zadává podmínka na množinu dat. Na závěr je nutné vybrat kvantifikátor. Procedura KL-Miner počítá kontingenční K L tabulku pomocí bitových řetízků. Tato metoda byla poprvé použita v implementaci GUHA(viz[HH78]). Více o této metodě zmiňuje[ril05],[ri02] a[ri05]. 1.7 Procedura SDS-Miner Proceduru SDS-Miner vyvinul T. Karban([KRi04],[Kar03b],[Rau02c],[Kar03a]). SDS-Miner slouží k porovnání dvou množin pomocí rozšířené čtyřpolní tabulky. Výsledkem je rozhodnutí, zda jsou dané dvě množiny shodné nebo odlišné, popřípadě i sdělí jak(v závislosti na použitém kvantifikátoru). V tabulce 1.5 ukážu jednoduchý příklad. Pacienti Kouří Nekouří Riziková skupina Normální skupina Tabulka 1.5: Příklad pro SDS-Miner V příkladě mám dvě skupiny pacientů a booleovský atribut kouří. Zajímá mě, zda je tento atribut pro odlišení množin důležitý. Může se stát, že více pacientů z rizikové skupiny kouří, kdežto pacienti z normální skupiny kouří méně. Potom můžeme tvrdit, že tento atribut odlišuje dané dvě množiny. Procedura používá speciální kvantifikátory, tzv. SDS-kvantifikátory, které pracují nad rozšířenou čtyřpolní tabulkou. Této tabulce se také říká šestipolní tabulka (tabulka 1.6). M F F A a b r B c d s (A B) k l n Tabulka 1.6: Šestipolní tabulka V tabulce je písmenem F označen atribut, který chceme pro rozlišení využít. Písmenem A a B jsou označeny jednotlivé množiny. M označuje analyzovaná data, tedy vstup procedury SDS-Miner. Písmeno a označuje počet prvků množiny A, které 16

25 splňují podmnínku F(obdobně b, c, d). Písmeno r vyjadřuje součet prvků množiny A(obdobně s, k, l, n). Pro správnou funkci SDS-Mineru je potřeba zajistit, aby množiny byly disjunktní (viz[kri04]). Libovolná definice množin A a B obecně nevede k disjunktním množinám. Disjunktnost se dá zaručit použitím syntaktického pravidla: V definici cedentů A a B je třeba vynutit jeden společný atribut. Je-li tento atribut v pozitivním literálu v obou cedentech, je zaručena disjunktnost množin. Pokud je jeden v negativním a druhý v pozitivním literálu, je nutné, aby koeficient v pozitivním literálu byl podmnožinou koeficientu negativního literálu. Pokud jsou oba literály negativní, musí být koeficienty zvoleny tak, aby jejich sjednocení pokrývalo celou množinu přípustných hodnot daného atributu(více v[kri04]). Tato podmínka bude důležitá i pro některé kvantifikátory procedury SDKL- Miner. Pokud by dvě zkoumané množiny nebyly disjunktní, některé prvky by byly zahrnuty v obou množinách. Pak by se pro některé kvantifikátory snižovala rozdílnostmnožin pokudjejedenprvekvždyvano( kouří)nemusíbýtnutné, aby byl v obou množinách(může být možné jej vynechat). Naopak existuje využití ipromnožinysneprázdnýmprůnikem.jednásezejménaootázky,kdeseptám, zda určitá podmnožina reprezentuje celek. V kapitole o systému LISp-Miner jsem stručně popsal stav systému na začátku vytváření procedury SDKL-Miner. 17

26 xxtask, xxresult Pracovní rozhraní Individuální rozhraní Vlastní rozhraní xxgen Dávkové generování xx DataLib Cyklus generování úloh, kvantifikátory úlohy TASK CG DataLib Cedenty, částečné cedenty, generování cedentů GEN LM DataLib Sdílená vrstva LISp-Miner Objektový model, atributy, kategorie, bitové řetízky DB DataLib Databázová vrstva Načítání a ukládání dat Databázové rozhraní ODBC Read-only ANALYZOVANÁ DATA pparams DSM METABÁZE Obrázek 1.3: Hierarchie systému LISp 18

27 Kapitola 2 Procedura SDKL-Miner 2.1 Úvod Procedura SDKL-Miner je určena k hledání podmínek, za kterých se liší dvě množiny objektů vzhledem k danému kritériu(dle zadání diplomové práce a z první verze zadání procedury SDKL-Miner dle J.Raucha[Rau04a]). Procedura je navržena tak, aby byly co nejvíce využity prostředky již vyvinuté pro procedury 4ft-Miner a KL- Miner([RiL05]). Motivace je podobná jako pro proceduru SDS-Miner(viz[KRi04], [Kar03a]), tedy zjistit, za jakých podmínek a jak se liší některé množiny vůči nějakému kritériu. Pro popis odlišností se však nepoužívají jednoduché kvantifikátory inspirované procedurou 4ft-Miner a KL-Miner, ale kvantifikátory vycházející z kontingenčních tabulek zachycujících vztah kategoriálních atributů. Hlavní využítí procedury SDKL-Miner je v hledání dvojic(kategoriálních) atributů, pro které se dvě množiny nejvíce(nejméně) odlišují. Je například možné zkoumat, nakolik se odlišují rizkoví pacienti od ostatních. Také je možné klást otázku, zda podmnožina celku reprezentuje v určitém, přesněji definovaném smyslu, celek nebo některé jeho rysy(např. zda Praha 5 reprezentuje ve volebním průzkumu dostatečně přesně chování celé Prahy). Vstupem je zadání dvou množin a zadání podmínek, obdobně jako v proceduře SDS-Miner. Dále je nutné zadat kritéria odlišnosti. Kritérium odlišnosti vychází ze vzájemného vztahu dvou dvojic kategoriálních atributů. Dvojice atributů se zadává a generuje stejně jako dvojice atributů v proceduře KL-Miner([Rau03]). To znamená, že vztah atributů bude popsán dvěma K L kontingenčními tabulkami, jednou pro každou množinu. První možností je na základě těchto kontingenčních tabulek spočítat různé charakteristiky vztahu dvou kategoriálních atributů(např. pomocí Kendallova koeficientu) pro každou ze dvou zkoumaných množin. Z rozdílu mezi těmito charakteristikami lze usuzovat na rozdílnost obou množin. 19

28 Druhý způsob stanovení kritérií odlišnosti spočívá ve vytvoření třetí matice, která vznikne odečtením první K L kontingenční tabulky od druhé. Výsledkem bude rozdílová K Lkontingenčnítabulka anazákladětétotabulkysebude usuzovat vztah obou množin vzhledem k vybraným atributům. Je samozřejmě možné zkoumat i podílové matice a kontingenční tabulky vzniklé jinými operacemi. Zde se nabízí velký prostor pro další rozšíření systému LISp-Miner. Ve své práci se zaměřím pouze na rozdílové K L kontingenční tabulky. ProceduraKL-Minerhledávztahyvetvaru R C/γ,kde RaCjsoukategoriální atributy a γ je booleovský atribut. K L kontingenční tabulka atributů R a C je spočítána pouze z řádků analyzované matice dat splňujících podmínku γ. Symbol je nazván KL-kvantifikátor a značí podmínku pro vztah kategoriálních atributů (např.vhodnouimplementací χ 2 ).ProceduraKL-Minerdáváodpověďnaotázku Za jaké podmínky a mezi kterými dvěma ze zadaných kategoriálních atributů existuje zajímavý vztah?. Přirozeným rozšířením této otázky je otázka Které dvě množiny a za jaké podmínky se liší vzhledem k chování některé dvojice ze zadaných kategoriálních atributů?. Situace je schematicky znázorněná na obrázku 2.1. Obrázek 2.1: Motivace pro proceduru SDKL-Miner(převzato z[rau04a]) Úkolem je nalezení množin α, β, podmínky γ a dvojice kategoriálních atributů R a Ctakových,žekontingenčnítabulka RaCnamnožině αzapředpokladusplnění 20

29 podmínky γ se zadaným způsobem liší od K L kontingenční tabulky atributů R a C na množině B(za splnění podmínky γ). Odlišení kontingenčních tabulek se zadává SDKL-kvantifikátorem. Zadání procedury SDKL-Miner bude tedy určité spojení zadávání procedury KL-Miner a procedury SDS-Miner. Je mnoho možností, jak definovat SDKL-kvantifikátor. To bude jednou z hlavních částí mé diplomové práce. Při implementaci procedury SDKL-Miner je možné využít i již vytvořené moduly pro KL-Miner jako podpůrné procedury. 2.2 Analýza ProceduraSDKL-Minermázaúkolzjistit,nakolikazdavůbecsedvěmnožiny odlišují. 1 Rozhodnutíoshoděčiodlišnostiseprovádínaddvěma K Ltabulkami (každá pro jednu množinu). Kritérium odlišnosti vychází ze vzájemného vztahu dvou kategoriálních atributů. Dvojice(kategoriálních) atributů se zadává a generuje stejně jako dvojice atributů v proceduře KL-Miner([Rau03]). Samotná procedura SDKL-Miner je rozdělena jako ostatní procedury systému LISp-Miner(dle[Šim04b]) do tří základních částí: SDKLTask, SDKLResult a SDKLGen. Všechny procedury vznikly modifikací a rozšířením již existujících procedur KL-Mineru. Volné zadání procedury SDKL-Miner vytváří velkou množinu možných kombinací pro zkoumání odlišností. Nejdříve bylo tedy nutné vytvořit přesnou specifikaci. Postupně se zmíním o všech zásadních rozhodnutích SDKL-kvantifikátory V proceduře SDKL-Miner není možné přímo použít kvantifikátor z jiné procedury systému LISp-Miner. Kvantifikátory z procedury 4ft-Miner by pracovaly pouze nad kontingenčnítabulkouzr 2 2.Pokudbychkvantifikátorspustilnakaždoumatici, je velice obtížné porovnat jejich výsledky. Pro kvantifikátory procedury KL-Miner sice neplatí omezení na rozměr matice, porovnání výsledků funkcí je však opět netriviální. Velkou část své diplomové práci jsem tedy zaměřil na hledání možných kvantifikátorů. Implementoval jsem součet rozdílu jednotlivých buněk kontingenční tabulky. Výsledkem kvantifikátoru je jedno číslo, které bude(velice jednoduše) udávat rozdílnost množin nad K L kontingenčními tabulkami, spočítané pomocí vzorce 1 Tatočástvyšlavezjednodušenévariantějakointernízpráva[Teg04a]prosystémLISp-Miner a je přílohou diplomové práce. 21

30 K i=1 L j=1 ( KL 1 ) ij KL2 ij, (2.1) n 1 n 2 kde KL 1 jeprvní K LkontingenčnítabulkaaKL 2 jedruhá.součetvšech buněk první kontingenční tabulky značím n 1 = K L i=1 j=1 KL 1 ij, obdobně n 2.Kvantifikátornazývámzákladní(jednoduchý)kvantifikátor(vesmyslu SDKL-kvantifikátor). Procedura je však připravena i pro složitější porovnávání. Je možné využít například 3D statistiku, případně na každou K L kontingenční tabulku použít funkci a porovnat výsledky funkcí(návrhy dalších porovnání jsou v kapitolách 3 a 4). Při porovnávání K L kontingenčních tabulek je potřeba počítat s variantami: 1. KL-kvantifikátor pro jednu z množin(součástí zadání je specifikace množiny). Např.(definice Kendall je v článku[ril05]): Kendall 1 0,9. 2. Rozdíl dvou kvantifikátorů, které charakterizují jednotlivé K L kontingenční tabulky: Kendall 1 Kendall 2 0,3. 3. Funkce porovnávající výsledky dvou KL kvantifikátorů: f(kendall 1, Kendall 2 ) 0,6. 4. Agregát spočítaný z obou K L tabulek, např. již zmíněný základní kvantifikátor(2.1): K i=1 L j=1 ( KL 1 ) ij KL2 ij. n 1 n 2 Pro účely testování procedury jsem použil jednoduchý kvantifikátor. Při běhu několika testů se empiricky potvrdil původní intuitivní odhad, že vhodný kvantifikátor je klíčová část generování. Základní kvantifikátor dokáže zhodnotit vztah dvou K L tabulek, je ovšem problém, že výsledek není možné snadno interpretovat (při konzultacích zazněly i názory, že nemá smysl jako takový). Zkoušel jsem odpovědět na obecnější otázku, zda se dvě množiny shodují či odlišují. Použil jsem k tomu pokusný kvantifikátor. Ukázalo se, že není snadné rozhodnout, jaké hranice označují odlišnost, případně shodnost množin. Z definice naší úlohy totiž shodnost či odlišnost určuje až použitý kvantifikátor. 22

31 Pro základní kvantifikátor jsem nenašel informace, jak tuto hranici určit. To souvisí s už zmíněnou nesnadnou interpretací výsledků. Výsledky je tedy třeba chápat spíše jako podpůrný systém pro rozhodování odborníků. V další části diplomové práce jsem tedy hledal vhodnější kvantifikátory. Při konzultacích zaznělo několik názorů: Použít3Dstatistiku,kde K i Lzůstane,atřetírozměrbudemítpouze2 hodnoty(první/druhá množina). Použít n-rozměrné porovnání(metoda GLIM generalized log-linear model, více[agr96]),kdebyseodpovědělonaotázku,zdasemnožinyshodujíči nikoliv. Použítopakovaně χ 2 testavýsledkysečístapodělit.zdejeovšemporušena podmínka nezávislosti dotazů. Využít majorizace matic. V dalších kapitolách jsem tyto návrhy dále rozvíjel kromě metody GLIM, tu jsem z důvodu značného rozsahu nutného výzkumu zcela vynechal, a kromě sčítání χ 2 testů,kdemipřípadalorozhodnutíonezávislostipřinejmenšímobtížnéneboaž nemožné. Velice nadějná mi nakonec připadá metoda majorizace, kterou popisuji dosti podrobně v následující kapitole Množiny, antecedent a sukcedent Nyní se zaměřím na zkoumání kombinací různých definic množin, antecedentu a sukcedentu. Hledám kombinace, které je možné vyhodnotit(nejsou neporovnatelné) a které není možné spočítat pomocí současných procedur systému LISp-Miner. Použijiznačení: M, M 1, M 2 prodefinicimnožin,indexemrozlišujipokudjsou různé index1jevždyproprvnímnožinu(naobrázkuvlevo), 2prodruhou (pravou). K, K 1, K 2 značípříslušnéantecedentyal, L 1, L 2 sukcendenty. Aoznačuje první(levou) K L kontingenční tabulku, B druhou(pravou). Existuje celkem šest možných kombinací. Zmíním všech šest a ukážu, které varianty jsou zajímavé pro zkoumaní v proceduře SDKL-Miner. Kombinace 1 První varianta(tabulka 2.1) nemá žádný význam. Obě K L kontingenční tabulky jsou shodné. Tuto variantu jsem uvedl pouze pro úplnost. 23

32 M L M L K... K... Tabulka 2.1: Varianta 1 M L 1 K... M L 2 K... Tabulka 2.2: Varianta 2 Kombinace 2 Druhá varianta(tabulka 2.2) je porovnání množiny M s antecedentem K a sukcedenty L 1 a L 2.Tytodvětabulkynejsoupřímoporovnatelné.Nenímožnévzítjednotlivébuňkytabulkyaporovnatje(např. A ij B ij )užjenproto,že K Ltabulky nemusí mít stejný rozměr. Je tedy nutné na každou z těchto tabulek použít nějakou funkci a porovnat až výsledky těchto funkcí. Druhou variantu je možné převést na úlohu pro proceduru KL-Miner. Vzhledem ktomu,žeantecedent Kjeuoboufunkcístejný,jemožnéhovynechataporovnat přímocedenty L 1 a L 2.Převésttedyúlohunaporovnánízávislosticedentů.Tímse však dostáváme ke K L kontingenční tabulce ukázané v tabulce 2.3. M L 2 L 1... Tabulka 2.3: K L tabulka reprezentující variantu 2 Pro zkoumání závislostí nad touto tabulkou použijeme proceduru KL-Miner a nepotřebujeme proceduru SDKL-Miner. Variantu číslo 2 nemá tedy cenu zkoumat. Kombinace 3 M L 1 K 1... M L 2 K 2... Tabulka 2.4: Varianta 3 Třetí varianta(tabulka 2.4) je podobná druhé variantě. Opět nemůžeme porovnávat cedenty přímo, ale pouze pomocí funkcí. V tomto případě porovnání však nemá význam, protože ani antecedenty ani sukcedenty nemají nic společného a výsledek by se těžko interpretoval. Tvrzení, že množina ženatých pacientů na K L kontingenční tabulceproatributykouřeníaplaváníje(téměř)shodnásmaticísatributyváhaa pití čaje, je nejspíše dost obtížně dále využitelné. 24

33 Kombinace 4 M 1 L M 2 L K... K... Tabulka 2.5: Varianta 4 Čtvrtá varianta, zobrazená tabulkou 2.5, je hodná zkoumání. Antecedent a sukcedent v K L kontingenčních tabulkách je shodný pro obě množiny. Je tedy možné porovnávat tabulky přímo i pomocí funkcí(porovnáním jejich výsledků). Kombinace 5 M 1 L 1 K... M 2 L 2 K... Tabulka 2.6: Varianta 5 Pátá varianta(tabulka 2.6) je až na rozdílnost množin shodná s druhou variantou. Už v druhé variantě jsem zmiňoval nutnost použití funkcí a porovnání jejich výsledků(což je netriviální). V patém případě se vše navíc komplikuje odlišností množin. Z těchto důvodů nebudu v této práci pátý případ zkoumat. Kombinace 6 M 1 L 1 K 1... M 2 L 2 K 2... Tabulka 2.7: Varianta 6 Šestá možnost(tabulka 2.7) je velmi blízká třetí variantě. Opět je obtížné cokoliv porovnávat vzhledem k tomu, že antecedent i sukcedent jsou odlišné. Tuto variantu tedy také nebudu zkoumat. Dle výčtu možností jsem se rozhodl soustředit pouze na čtvrtou variantu. Pro dalšínávrhprocedurysdkl-minermámtedydvěmnožiny M 1, M 2,antecedent Ka sukcedent L Podobnost dvou buněk Hlavní otázkou při zkoumání shodnosti dvou K L kontingenčních tabulek je, jak určit, zda jsou si dvě buňky tabulky podobné. Nemá velký význam očekávat shodnost, ta nastane zcela výjimečně. Zkoumám tedy podobnost, tedy jistou míru shod- 25

34 nosti nebo naopak odlišnosti. Pokusím se nastínit tento problém i s možnostmi řešení. Představme si jednoduchou tabulku o jediném řádku a čtyř sloupcích a její kombinace(mezi jednotlivými sloupci nebudu rozlišovat) Tabulka 2.8: T0 Tabulka 2.9: T1 Tabulka 2.10: T Tabulka 2.11: T3 Tabulka 2.12: T4 Pokudpoužiju selskýrozum,vyjdemisetřídění:2.8 <2.9 <2.10a2.11 < Mám problém rozhodnout o seřazení dvojice 2.10 a Podobnost mohu zkoumat zejména podle: počtu odlišných buněk, maximálního rozdílu. Z toho vychází například dvě porovnání: ij A ij B ij, ij (A ij B ij ) 2. Rozlišení dle počtu odlišných buněk se může pojmout dokonce: ij (A ij B ij 0). Poznámka.Prosrovnáníukážusetříděnídlemajorizace(kapitola3 2 ): Dletohotosetříděnísedáusuzovat,žeselskýrozumnemusíbýt vždy tou nejvhodnější cestou. Abych dostál i názvu sekce, shrnu možnosti porovnání buněk(předpokládám, že jsou porovnatelné; například, že jsou vyjádřeny v procentech relativně vůči celku, kterým se budu zabývat především): A ij B ij 0, 2 Kapitolaomajorizacijezdůvodulogickéhočleněníkapitoly2umístěnaažzakapitolouSDKL- Miner. Při opačném pořadí bych musel shrnutí majorizace uvést až v závěru diplomové práce, což by narušilo logickou strukturu práce jako takové. 26

35 A ij B ij, (A ij B ij ) 2. Metody se liší ve zdůraznění odlišností jednotlivých buněk. Nejméně preferuje odlišnosti počet shodných buněk. Více zdůrazňuje rozdíly absolutní hodnota a nejvíce druhá mocnina Výběr buněk pro porovnání Stejně důležitý jako výběr způsobu porovnání je i výběr buněk, které se budou porovnávat. Pokud má tabulka buňky, které mají výrazně nižší četnost než ostatní, může být vhodné tyto buňky neporovnávat. Vybírat buňky mohu podle dvou klíčů: dle relativní četnosti, dle hodnoty. Podobnou úpravu udělám i pro počítání rozdílů buněk(které již prošly sítem významnosti ). Obecný vzorec pro ohodnocení K L kontingenční tabulky(o K řádcích a L sloupcích) tedy mohu formulovat jako K L f(g(a ij B ij )), i=1 j=1 kde fjebuďidentita,druhámocninanebodiskrétnífunkceagjebuďidentitanebo funkce, která malé rozdíly zanedbává(její funkční hodnota je pro malé hodnoty nula). Při dalším rozšiřování procedury SDKL-Miner by bylo zajímavé vzít i méně triviálnífunkce fa g Relativní vyjádření četnosti Pokud porovnávám dvě buňky ze dvou K L tabulek, musí být navzájem porovnatelné, musím tedy obě tabulky normovat. Mohu použít relativní vyjádření četností, na výběr mám několik základů: vůči řádku, vůči sloupci, vůči celé tabulce. Nejčastěji budu používat relativní vyjádření četností vůči celé tabulce, význam však mají i ostatní(například u některých majorizací je požadavek na shodné řádkové součty). 27

36 2.3 Vstup procedury SDKL-Miner Vstup procedury SDKL-Miner je podobný vstupu procedury KL-Miner([RiL05]). Vstupem procedury jsou: Analyzovaná data. Definice prvních a druhých množin. Definice antecedentů a sukcedentů. SDKL-kvantifikátor. Podmínky na použitá data. Automatické generování procedury SDKL-Miner mohu zapsat R C pro M 1, M 2 / Γ, (2.2) kde R vyjadřuje množinu všech možných atributů pro antecedent, C značí množinu všechmožnýchatributůprosukcedent, M 1 jemnožinavšechmožnýchdefinicprvní množiny(obdobně M 2 )akdeγvyjadřujemnožinuvšechmožnýchpodmínek. Při běhu procedury SDKL-Miner se automaticky generují pětice(tabulka 2.13) T(A, S, C, M 1, M 2 ), které se ohodnotí pomocí kvantifikátoru. V zápisu jsem použil A pro antecedent, S prosukcedent, Cpropodmínku, M 1, M 2 prodefinicemnožin, f ij vtabulceznačí relativní četnost dané kombinace hodnoty antecedentu a sukcedentu(vůči celku). Pokud je pětice ohodnocena kladně, je uložena jako hypotéza. M 1 /C S s 1 s 2... s L M 2 /C S s 1 s 2... s L a 1 f 11 f f 1L a 1 f 11 f f 1L A a 2 f 21 f f 2L A a 2 f 21 f f 2L a K f K1 f K2... f KL a K f K1 f K2... f KL Tabulka2.13:Pětice T(A, S, C, M 1, M 2 ) V následujících sekcích popíšu využítí jednotlivých prvků pro generování hypotéz. 28

37 2.3.1 Antecedent a sukcedent Antecedentem a sukcedentem může být libovolný kategoriální atribut(podobně jako v proceduře KL-Miner sekce 1.6). Jedná se o sloupce původní matice analyzovaných dat nebo o sloupce z nich vytvořené. Pro proceduru SDKL-Miner nemá smysl zkoumat sloučení podmnožiny atributů to lze v případě potřeby zajistit při přípravě dat Podmínka a definice množin Není žádný rozdíl mezi definicí podmínek a definicí jednotlivých množin, proto je popíšu dohromady. Vycházím z definice podmínky v proceduře KL-Miner([RiL05]). Vdalšímtextusebuduodkazovatprozkrácenípouzenapodmínku,budutímvšak mítnamysliidefiniciprvníadruhémnožiny. Každá podmínka γ se skládá z průniku několika částečných podmínek. Každá částečná podmínka se skládá z průniku literálů. Literál je výraz ve formě B(ω) nebo B(ω)(pozitivní nebo negativní literál), kde B je atribut(vytvořený sloupec v matici analyzovaných dat) a ω je podmnožina všech hodnot B, ω se nazývá koeficient literálu B(ω). Booleovský atribut B(ω) má hodnotu pravda v řádku matice analyzovaných dat, pokud hodnota v řádku a ve sloupci odpovídajícímu atributu B patří do množiny ω(obdobně pro negativní literál). Množina Γ relevantních podmínek je automaticky generována dle definice částečných podmínek { t } Γ= γ i γ 1 Γ 1, γ 2 Γ 2,...,γ t Γ t, i=1 kdeγ 1,Γ 2,...,Γ t jsoučástečnépodmínky.každáčástečnápodmínkajeprůnikliterálů a má současně zadány následující parametry. Minimální a maximální počet(délka) literálů tvořících průnik. Minimální i maximální délka může být nastavena na hodnotu 0(odpovídá pravdivému tvrzení). Množina A={A 1, A 2,...,A w },zekteréseliterályautomatickygenerují.některé atributy mohou být označeny jako základní(v programu basic). Částečná podmínka musí obsahovat alespoň jeden základní atribut. Definice množiny všech literálů, které budou generovány z množiny A. Množina všech literálů, které budou generovány pro jeden atribut, je dána následujícími podmínkami: 29

38 Typ koeficientu. V systému LISp-Miner je uvažováno sedm možných typů. Podmnožina(v programu subset). Interval(v programy interval). Cyklický interval(v programu cyclical interval). Tento interval může cyklicky přesahovat z konce na začátek(viz[rau02a]). Levýořez(vprogramuleftcut). Pravýořez(vprogramurightcut). Ořez(vprogramuCut)znamenálevýipravýořez. Jedna hodnota(v programu One category). Délka koeficientu(v programu Coefficent length). Minimální a maximální počet hodnot(kategorií) v koeficientu(opět může být nastavena hodnota 0). Nastavení generování pouze pozitivních, pouze negativních nebo všech literálů (v programu SDKL-Miner nazvaný Gaze type). Informace, zda je literál základní(basic) nebo doplňkový(remaining). Příklad 2.1(Podmnožina). Podmnožiny s 2-4 kategoriemi: A(1, 3), A(2, 3, 7) nebo A(1,4,6,12). Příklad2.2(Interval).Intervals3-4kategoriemi: A(1,2,3), A(2,3,4,5). Příklad 2.3(Cyklický interval). Cyklický interval s 3-4 kategoriemi(předpokládám, žeatributmůženabývat5hodnot): A(1,2,3), A(2,3,4,5), A(4,5,1), A(5,1,2,3). Příklad 2.4(Levý ořez). Levý ořez s maximálně dvěma hodnotami: A(1), A(1, 2). Příklad 2.5(Pravý ořez). Pravý ořez s maximálně třemi hodnotami(předpokládám, žeatributmůženabývat7hodnot): A(7), A(6,7), A(5,6,7). Příklad 2.6(Ořez). Ořez s maximálně dvěma hodnotami(předpokladám, že atribut můženabývat7hodnot): A(7), A(6,7), A(1), A(1,2). 2.4 Podklady pro implementaci Shodnostmnožinsezkoumánaddvěma K Ltabulkami(každáprojednumnožinu). Kritérium odlišnosti bude vycházet ze vzájemného vztahu dvou kategoriálních atributů 3. 3 Podkladyproimplementacijsoudetailněsepsanévdokumentu[Teg04b],kterýjepřílohou práce. Zde otiskuji části důležité pro implementaci procedury SDKL-Miner. 30

39 Zadání se tvoří pomocí SDKLTask. Samotné generování je úkolem SDKLGen (který využíva SDKL DataLib), vstupem je odkaz do metabáze na tatask, která obsahuje zadání úlohy. Výstupem je tahypothesis, rovněž v metabázi. Výsledky se prohlížejí v SDKLResult. Do metabáze je nutné přidat několik tabulek. S tím souvisí i změna v databázových vrstvách(db, LM) a vytvoření SDKL DataLib. Zadáním jsou dva kategoriální atributy(antecedent, sukcedent), tři cedenty(definice množin a podmínky) a kvantifikátor. Výsledkem je hypotéza uložená v metabázi. Obsahuje dvě tabulky K L(pro obě množiny) a třetí výsledkovou(rozdílovou) tabulku. Proceduru SDKL-Miner implementoval po programátorské stránce M. Šimůnek ([Šim04a],[Ri05]). Implementace procedury SDKL-Miner byla založena na již existující proceduře KL-Miner rozšířené o prvky SDKL-Miner procedury. Zejména se jedná o možnost definice dvou množin a zapojení těchto množin do generování hypotéz. Při implementování se využívá zpracování pomocí bitových řetízků(více například [RiL05],[Ri02],[Ri05]). Procedura SDKL-Miner pracuje se dvěma K L kontingenčními tabulkami četností. Z hlediska výpočtu je výhodné pracovat s každou K L maticí samostatně (2 běh KL-Miner). Uživatel může tedy zadávat také KL-kvantifikátory musí ovšem určit, na jakou množinu se kvantifikátor aplikuje. V proceduře SDKL-Miner je možné také pracovat s oběma K L kontingenčními tabulkami, například rozdílem těchto matic. Výsledkem rozdílu je samozřejmě opět K L kontingenční tabulka. Rozdílovou matici je možné spočítat dvěma způsoby(vždy se jedná o rozdíl v absolutní hodnotě). Rozdíl absolutních frekvencí, označený DiffAbs, je spočten dle vzorce f ij = f ij (A) f ij (B). Druhou možností je rozdíl relativních frekvencí DiffRelf ij =100 f ij (A) f(a) f ij(b). f(b) ij Kvantifikátory mohou pracovat nad čtyřmi K L tabulkami(nad první množinou, druhou množinou, nad absolutním rozdílem frekvencí a nad relativním rozdílem frekvencí). Agregační podmínka se tvoří skládáním agregačních funkcí: SUMprosoučet. MIN pro minimální hodnotu. MAX pro maximální hodnotu. 31 ij

40 AVG pro průměrnou hodnotu. ANY pro libovolnou hodnotu z tabulky. Podmínku je možné zadat pouze na část K L kontingenční tabulky. Dále může být použit operátor porovnání, vlastní hodnoty a úpravy na relativní četnost. SDKLResult zobrazuje jak absolutní, tak i relativní frekvence(spočítané vzhledem k celkovémi součtu v celé tabulce, sloupci nebo řádku). V kapitole 5 napíšu kompletní návod pro proceduru SDKL-Miner a v kapitole 6 popíšu testy pro základní kvantifikátor. 32

41 Kapitola 3 Majorizace 3.1 Úvod Při práci na proceduře SDKL-Miner jsem našel zajímavé rozšíření kvantifikátorů. Jedná se o porovnání K L kontingenčních tabulek pomocí majorizace. Zatím budu pracovat pouze s ideou majorizace, majorizován, přesné definice uveduažvsekci3.3.1.mám-lidvavektory x, y R n,mohuintuitivněpožadovat, aby prvky vektoru x byly méně rozptýlené nebo více stejné než prvky vektoru y. Tento přístup se objevuje v mnoha souvislostech a bývá řešen více způsoby. Pro většinu případů stačí požadovat, aby x byl majorizován y (x y). Fyzikové tento vztahpíšíopačně y xaříkají,že yjevícechaotickénež x. V zavedení majorizace vycházím z práce Marshall, Olkin[MO79]. Nejprve zmíním tři motivace pro majorizaci. První původ majorizace pochází z rozšíření následujícítřídynerovností.promnohofunkcí φdefinovanýchna R n,kterésepoužívají k porovnávání, platí φ(ȳ,...,ȳ) φ(y 1,...,y n ), kde ȳ= 1 yi.mohutakézkoumat,zajakýchpodmínekbudeplatit n φ(x 1,..., x n ) φ(y 1,..., y n ), kde x i nemusíbýtvšechnastejná,alepouze méněodlišná než y i. Nerovnost n n g(ȳ) g(y i ) i=1 i=1 platíprovšechnykonvexnífunkce g:r R.Opětsemohuptátnapodmínky pro x a y, pro které bude platit rozšířená nerovnost n g(x i ) i=1 n g(y i ). i=1 33

42 Dle Hardy, Littlewood a Pólya[HLP34] nerovnost platí, pokud je x majorizován y. Druhý původ majorizace vychází z nerovnosti Hadamardova determinantu(více např.[mo79]).schurdokázal,žediagonálníelementy a 1,...,a n pozitivněsemidefinitníhermitovskématicejsoumajorizoványjejímivlastnímičísly λ 1,...,λ n,tedy (a 1,...,a n ) (λ 1,...,λ n ). Schur dále nalezl všechny funkce φ, pro které platí x y φ(x) φ(y), kde x, y R n +.Tentovýsledekvedlknalezenívhodnýchnerovnostíproporovnání dvou vektorů. Třetí motivace pro majorizaci pochází z řešení ekonomických otázek([mo79]). Představmesipopulaci nobčanů,kdekaždýmásvůjpříjem x i.máme-lidvěrozloženípříjmů xay,mohuseptát,kteréznichjerovnoměrnější.podlelorenze x 1,...,x n reprezentujevícerovnoměrnérozdělenípříjmůnež y 1,...,y n právětehdy, když k x i i=1 k y i, (3.1) kde x 1,...,x n jesetříděníobčanůdlepříjmuodnejnižšíhoknejvyššímu(vzestupné setřídění vektoru x). Samozřejmě musí platit(přerozděluju bohatství, nevyrábím další) i=1 n n x i = y i. (3.2) Pomocí podmínek(3.1) a(3.2) se definuje majorizace vektorů. i=1 Pokudbychvyneslnagraf(obrázek3.1)rostoucífunkce f(k)= Bvgrafu)ag(k)= i=1 k y i (vgrafufunkce C),pakplatí i=1 f(k) g(k), Voptimálnímpřípaděje f(k)=k 1 n k=1,...,n. k x i (funkce i=1 n x i,vgrafufunkce A.Nejrovnoměrnější rozloženíjetedy α ( 1 n,...,1 ), α R. n Na závěr přípojím pár(triviálních) příkladů majorizací: ( ) ( ) 1 1 n,...,1 n n 1,..., 1 n 1,0 (1,0,...,0), ( ) 1 n,...,1 (a i,...,a n ) (1,0,...,0). n i=1 34

43 1 A B C 1 Obrázek 3.1: Lorenzovy křivky V kapitole zavedu nejen definice a tvrzení potřebné pro svoji diplomovou práci, ale také pojmy a věty užitečné pro pochopení majorizace, případně užitečné pro další rozvíjení majorizace nejen v proceduře SDKL-Miner, ale i v jiných procedurách systému LISp-Mineru Využití majorizace v proceduře SDKL-Miner V proceduře SDKL-Miner hledám vhodné dvojice atributů pro dvě(zadané) množiny, pro které se dvě K L kontingenční tabulky nejvíce(nejméně) odlišují. Dvojici K L kontingenčních tabulek A a B bych mohl pomocí majorizace porovnat, pokud bude možné matice A, B maticově nebo vektorově majorizovat. Jestližeplatívztah A B,matice Amáméněrozestoupenéprvkynežmatice B. Zároveň ukážu, že na nějaké množině funkcí platí A B f(a) f(b). Nemusím nutně porovnávat dvě matice. Je možné obě kontingenční tabulky použitím vhodné funkce převést na vektory. Výsledné vektory lze porovnávat vektorovou majorizací. ã = f(a), b = f(b), ã R n b R n ã? b Funkce f může být funkce ohodnocující matici v nějaké jiné proceduře systému LISp-Miner(např. KL-Miner). Může to také být funkce, která je částí porovnání dvojic K L kontingenčních tabulek z předchozích kapitol. Zatím jsem zmínil majorizaci dvou K L kontingenčních tabulek navzájem (A B). Je však možné majorizovat dvojice K L kontingenčních tabulek pomocí funkce f,kteránemusínutněpřevádětnavektory,alenalibovolnýobjekt,kterýje možný majorizovat f(a, B) f(c, D). 35

44 Jak ukážu později, majorizace tvoří(částečné) uspořádání. Pokud by se nalezla minimální(maximální) dvojice matic ve smyslu uspořádání dle majorizace, pak má také nejmenší (největší) rozdíl funkčních hodnot pro nějakou vhodnou porovnávací funkci. Nalezením minimální(maximální) dvojice bych jednoznačně odpověděl na otázku, která dvojice matic se nejméně(nejvíce) odlišuje. Mějme čtyři dvojice K L kontingenčních tabulek, pro které platí f(a, B) f(c, D), f(e, F) f(g, H). Pokud by také platilo f(a, B) f(e, F), pakjsemnašeldvojicematic(a, BaE, F),kterésevzájemněnejméněodlišují. Vzhledem k tomu, že se jedná o částečné uspořádání můžu mít více vhodných dvojic, navzájem neporovnatelných. To však nijak nevadí, úkolem procedury SDKL-Miner je hledat hypotézy, jejich samotné ověření se již nedělá. Porovnávat lze i samotné K L kontingenční tabulky. Budu-li mít čtyři matice, pro které bude platit A B, C D, a pokud bude navíc platit A C, B D, můžuříct,žeprvnídvojice(a, B)jevíceodlišnáneždruhá(C, D). Ve své diplomové práci chci zjistit, za jakých podmínek je možné matice porovnat (ať již přímo nebo ve vektorové reprezentaci) a pro jaké porovnávací funkce f platí A B f(a) f(b). (3.3) Struktura kapitoly Nejdříve uvedu značení a základní definice, které budu v této kapitole využívat, ale které se přímo k majorizaci nevztahují. Následovat bude vektorová majorizace včetně popisu funkcí, pro něž majorizace zachovává vztah(3.3). V další sekci rozeberu možnosti vyjádření matice jako vektoru, zejména použití vlastních a singulárních čísel. Poté uvedu možnosti majorizace matic. Součástí této sekce je i náhled přechodu z vektorové majorizace na maticovou. Okrajově zmíním logaritmickou majorizaci a joint vector majorization. Na závěr shrnu majorizaci dvou K L kontingenčních tabulek a ukážu možnosti jejího využití v proceduře SDKL-Miner. 36

45 3.2 Základní definice a značení R množina reálných čísel R + reálnáčíslanaintervalu(0, ) R 0 + reálnáčíslanaintervalu 0, ) x, y,... vektory x, y,...,pouzepokudbudenutnéodlišenívektoru od čísla, budu psát x; pokud není uvedeno jinak, jsou vektory z R n x i x, x i x, x i e i-tásložkavektoru x vektor xsesložkamiuspořádanýmivzestupně;jeho i-tásložka vektor xsesložkamiuspořádanýmisestupně;jeho i-tásložka vektor(1,1,...,1) T příslušnéhorozměru A, B,... matice A, B,... a i, R i (A) i-týřádekmatice A a i, C i (A) i-týsloupecmatice A a ij R(X) I n A[I] M m n prvekzmatice Avesloupci jařádku i množina všech řádků matice X; matematicky zapsáno vztahem R(X)={x i 1 i n, njepočetřádkůmatice X} jednotkovámaticeřádu n maticevzniklázmatice A R m n vynechánímřádků,jejichž indexynejsouvmnožině I {1,...,m} algebravšech m nkomplexníchmatic M n odpovídá M n n Pro vektory a, b R n píšu a b právě tehdy, když a i b i pro všechna i = 1,...,n.Speciálně a 0,kdyžvšechnysložkyvektoru ajsounezáporné. Obdobnědefinuji a > b. Jakoskalárnísoučinvektorů a, b R n budupoužívat n a, b = a i b i. Proskalárnísoučinmatic A, B R m n vezmu m n A, B = a ij b ij. i=1 Definice 3.1. Mnohostěnný jehlan generovaný sloupcovými vektory matice A značímcone(a).jetomnožinavšechnezápornýchlineárníchkombinací a 1,...,a n (a i je i-týřádek A): i=1 j=1 α 1 a 1 + α 2 a α n a n, 37 n α i =1. i=1

46 Definice 3.2. Dimenze vektorového prostoru generovaného řádky matice A se nazýváhodnostmatice Aaznačíserank(A). Definice3.3.Čtvercovámatice Ajesymetrická,pokudplatí A=A T. Definice3.4.Provektor x R n definujimaticidiag(x 1,...,x n ),kterámánadiagonále složky vektoru x. Ostatní prvky matice jsou nulové. x x x n Promatice A,...,Zdefinujimaticidiag(A,...,Z),kterámánadiagonálematice A až Z. Ostatní prvky matice jsou nulové. a a 1n a n1... a nn A b b 1m 0 B = b m1... b mm Z z z 1p z p1... z pp Definice3.5.Matice C = C T senazývákonjugovanámaticekmatici C,tedy provšechna i, jplatí c ij = c ji. Pokudplatí C= C pak Cnazvuhermitovskou. Definice3.6.Stopavektoru x R n je tr(x)= x, e = n x i. i=1 Definice 3.7. Stopa matice A řádu n je tr(a) = n a ii. i=1 38

47 Definice 3.8. Čtvercová matice řádu n je dvojně stochastická, pokud všechny prvky jsou nezáporné a řádkové i sloupcové součty jsou rovny jedné, neboli a ij 0, i, j = 1,..., n, n a ij = 1, j = 1,..., n, i=1 n a ij = 1, i = 1,..., n. j=1 Množinu všech dvojně stochastických matic řádu n označme DS(n). Poznámka 3.1. Z první podmínky plyne Ax 0, kdykolivje x 0. Další dvě podmínky zachovávají stopu vektoru tr(ax)=tr(x), provšechna x a zachovávají jednotkový vektor e Ae=e. Definice3.9.Nechť A=(a ij )jedvojněstochastickámaticeřádu n. Nezápornáčtvercovámatice B=(b ij )řádu njedvojněsubstochastická,pokud platí 0 b ij a ij, i, j=1,...,n. Čtvercovámatice C=(c ij )řádu njedvojněsuperstochastická,pokudplatí c ij a ij, i, j=1,..., n. Definice3.10.Matice A R m n jeřádkověstochastická,pokudřádkovésoučty jsou jedna n a ij =1, a ij 0, i=1,...,m. j=1 Definice Úplný svaz je uspořádaná množina, jejíž každá neprázdná konečná podmnožina má supremum a infimum v této množině. Definice Čtvercová matice A řádu n je pozitivně semidefinitní, A 0(pozitivnědefinitní, A >0),kdyžprovšechnynenulovévektory x R n platí x T Ax 0 (x T Ax >0). 39

48 Setřídění na množině hermitovských matic, A B, je definováno právě tehdy, když A B je pozitivně semidefinitní. Vzhledem k uspořádání prostor hermitovských matic není svazem. Máme-li dvě hermitovské matice A, B, množina {X: X A X B} nemážádnéminimumkroměpřípadů,kdy A Bnebo A B.Ando(viz[And94]) popsal kompletní parametrizaci minim této množiny. Definice3.13.Lineárnízobrazení φ:r n n R m m senázývápozitivní,pokud zachovává pozitivní semidefinitnost φ(x) 0, kdykoliv X 0. Dálesenazýváunitární,pokud φ(i n )=I m,kde I n a I m jsoujednotkovématice. Lineární zobrazení zachovává stopu matice, jestliže tr(φ(x)) = tr(x), pro všechny X. Pozitivní unitární lineární zobrazení φ zachovávající stopu matice se nazývá dvojně stochastické zobrazení. Definice Reálná čtvercová matice U řádu n je unitární, pokud U T U= UU T = I n. Definice3.15.Zobrazení φ:r n R m jerostoucí,pokud φ(x) φ(y), kdykoliv x y, kde x, y R n.zobrazenízachováváuspořádání.zobrazení φjeklesající,pokud φ je rostoucí. Funkce φ je monotonní, pokud je buď rostoucí ve všech složkách nebo klesající ve všech složkách. Definice3.16.Funkce φ:r n R m jesymetrická,pokudnenízávislánapermutaci složek vstupního vektoru. Neboli φ(x 1, x 2,...,x n )=φ(x i1, x i2,...,x in ), kde(i 1,...,i n )jelibovolnápermutace(1,...,n). Definice3.17.Funkce φ:r n Rsenazývásymmetricgaugefunction,jestliže jsou splněny následující podmínky: 1. φ(u) >0,kdykoliv u >0. 40

49 2. φ(γu)=γφ(u),provšechnareálná γ. 3. φ(u+v) φ(u)+φ(v),provšechna u, v R n. 4. φ(u 1,...,u n )=φ(ǫ 1 u i1,...,ǫ n u in ),kde(i 1,...,i n )jepermutace(1,...,n)a prokaždé ije ǫ i = ±1. Definice3.18.Kladnáčástvektoru zjevektor z + =max(z,0).absolutníhodnota vektoru zje z =max(z, z),kdemaximumjebránoposložkách. 3.3 Vektorová majorizace V této sekci zavedu vektorovou majorizaci a některé její důsledky. Základy vektorové majorizace se poprvé objevily v Hardy, Littlewood a Pólya[HLP34]. Já jsem čerpal nejvíce z Marshall, Olkin[MO79]. Mnoho dalších tvrzení a nápadů jsem získal z Linear Algebra And Its Applications, zejména z jejich čísla věnovanému majorizaci vydaného k výročí 70. narozenin Ingrama Olkina Definice V úvodu této kapitoly byla již naznačena prvotní definice a motivace k zavedení majorizace.tasevšakčastějivyjadřujevjinémtvaru(3.1)a(3.2).lehceselze n n přesvědčit, že pokud platí x i = y i,paknásledujícínerovnostijsouekvivalentní: i=1 i=1 n k x i i=1 n k x i = i=k+1 i=1 x i k y i, i=1 n k n y i = y i, i=1 i=k+1 kde(x 1,...,x n )jesetříděníprvkůvektoru xsestupně.mohutedydefinicimajorizace zapsat pomocí sestupně setříděných prvků vektorů. Definice3.19.Nechť x, y R n,řeknu,ževektor xje(vektorově)majorizován y (ymajorizuje x), x y,jestliže k i=1 x i n x i = i=1 k i=1 y i, k=1,..., n, n y i. (3.4) i=1 41

50 Definice majorizace 3.19 je zavedena dle Hardy, Littlewood a Pólya[HLP34]. Směr majorizace budu standardně zapisovat jako (v literatuře se oba směry běžně kombinují). Dle podmínky(3.4) se relace majorizace týká pouze vektorů se shodným součtem prvků. Pro ostatní vektory zavádím pojem slabé majorizace. Definice3.20.Nechť x, y R n.vektor xjeslaběmajorizován y, x w y,jestliže k x i i=1 k y i, i=1 k=1,...,n. Poznámka 3.2. V některé literatuře se slabá majorizace z definice 3.20 nazývá slabá submajorizace a definuje se také slabá supermajorizace: x w y, když k x i k y i, k=1,...,n. i=1 i=1 Je možné použít i alternativní pojmenování, slabá majorizace zespodu a slabá majorizace shora Kdy je možné vektory majorizovat Pro vektory můžeme majorizaci ověřit přímo dle definice Pokud jsou složky vektorů setříděné, prosté porovnání kumulativních součtů je výpočetně nejsnazší způsob kontroly majorizace. Pro nesetříděné vektory není možné provést tak snadnou kontrolu. Je nutné použít tvrzení, která zkoumají podmínky majorizace. Ve vybraných textech se majorizace definuje pomocí některých z těchto tvrzení a definice 3.19 je potom tvrzení. Podobně se zavadí maticová majorizace, viz kapitola 3.5. Tvrzení3.1.Nechť x, y R n,pak x yprávětehdy,kdyžexistujedvojněstochastickámatice Ařádu ntaková,žeplatí x=ay. Důkaz. Ando[And89] Tvrzení 3.1 lze využít pro případy, kdy je prosté porovnání kumulativních součtů výpočetněnevýhodné.mám-livektory x, y R n,pak x y,když x=ay.vyjádřeno ve složkách n x i = a ij y j, i=1,..., n. j=1 Tuto rovnici je možné chápat jako nehomogenní soustavu lineárních rovnic proměnných a 11,...,a nn n a ij y j = x i, i=1,..., n. j=1 42

51 Společně s podmínkami, pro dvojně stochastickou matici A dostanu následující rovnici: y 1 y 2 y n y 1 y 2 y n y 1 y 2 y n a 11 a 12. a 1n a 12 a 22. a 2n. a n1 a n2. a nn = x 1 x 2. x n Pokud má tato soustava řešení(hodnost matice soustavy a hodnost rozšířené matice soustavy je stejná), zjistím, zda existuje dvojně stochastická matice A, pro kterou platí x=ay,atedyzdaplatí x y. Tvrzení 3.2. Dvojně stochastická matice A z tvrzení 3.1 může být zapsána ve tvaru A = ( u ij 2),kde U=(u ij )jereálnáunitárnímatice. Důkaz. Ando[And89] Tvrzení 3.3. Následující tvrzení jsou pro čtvercovou matici A řádu n vzájemně ekvivalentní: A je dvojně stochastická. Ae=eazároveňtr Ax tr x,provšechna x R n. Ax x,provšechna x R n. Ax x,provšechna0 x R n. Důkaz. Ando[And89] Tvrzení3.4.Pro x, y R n platí,že x yprávětehdy,když tr x te tr y te, provšechna t R. Důkaz. Ando[And89] 43

52 Tvrzení 3.4 je také možné využít výpočetně v proceduře SDKL-Miner. Vztah tr x te tr y te je možné postupně zapsat n n x i t y i t 0, i=1 i=1 n ( x i t y i t ) 0, i=1 x 1 t y 1 t x n t y n t 0. (3.5) Využiji poslední vztah. Je to nerovnice pouze s jednu neznámou, proměnnou t. Nerovnici mohu řešit tak, že rozepíšu všechny případy, kdy jsou jednotlivé obsahy absolutních hodnot kladné či záporné. Dostanu tedy až 2n + 1 možných případů, kteréřešínerovnicina2n+1intervalechreálnéosy,kdekaždýmásvůjvlastní zápis rovnice(3.5) již bez absolutních hodnot, což je triviální lineární nerovnice s proměnnou t. Pokud na všech intervalech je nerovnost splněna, platí i pro všechna tatedy x y. Tvrzení3.5.Prolibovolnévektory x, y R n jsounásledujícítvrzeníekvivalentní: x y. x je konvexní kombinace množiny, jejíž prvky tvoří všechny permutace vektoru y,tojest x {ỹ ỹ= Py, Plibovolnápermutačnímatice}. Existuje Advojněstochastickámaticetaková,žeplatí x=ay. Důkaz. Ando[And89] Tvrzení3.6.Nechť x, y R n.dvojněsubstochastickámatice Dřádu nsplňující x=dyexistujeprávětehdy,když x w y. Důkaz. Komiya[Kom83] Tvrzení 3.7. Pro čtvercovou matici C řádu n s nezápornými členy jsou následující tvrzení vzájemně ekvivalentní: C je dvojně substochastická. Cx w x,provšechna0 x R n. Ce eazároveňtr Cx tr x,provšechna0 x R n. 44

53 Ce easoučasně C e e,neboli: n c ij 1, j=1 provšechna i=1,...,n, n c ij 1, provšechna j=1,..., n. i=1 Důkaz. Ando[And89] Tvrzení3.8.Nechť x, y R n,pak x w yprávě,když tr(x te) + tr(y te) +, provšechna t R. Důkaz. Ando[And89] Tvrzení 3.8 je opět možné využít pro ověření majorizace v proceduře SDKL- Miner. Po jednoduchých úpravách získám (x 1 t) + (y 1 t) + +(x 2 t) + (y 2 t) (x n t) + (y n t) + 0. (3.6) Na nerovnici(3.6) použiji stejný postup jako na nerovnici(3.5). Výpočet opět rozdělím až do 2n+1 disjunktních intervalů pokrývajících reálnou osu. V každém intervalu řeším nerovnici(3.6) jako lineární nerovnici. Je-li nerovnost splněna na všech intervalech,platíprovšechna t,aplatíix w y. Tvrzení3.9.Pro u, y R n jsounásledujícítvrzenívzájemněekvivalentní: u w y. Existuje x R n takový,že x yazároveň u x. Pokudplatí y, u 0,pakexistujedvojněsubstochastickámatice B taková, že u=by. Důkaz. Ando[And89] Tvrzení 3.10.Pro a, b R n vztah a w bjecharakterizovánexistencídvojně stochastickématice Dřádu n,prokterouplatí a Db. Důkaz. Komiya[Kom83] Tvrzení Pro čtvercovou matici B řádu n jsou následující tvrzení vzájemně ekvivalentní: B je dvojně superstochastická. Bx w x,provšechna0 x R n. 45

54 Důkaz. Ando[And89] Tvrzení3.12.Nechť x, y R n anechť(a, b)značí(a 1,...,a n, b 1,...,b m ) T.Pak platí následující tvrzení. Jestliže x y,pakplatí(x, z) (y, z),provšechna z R m. Existuje-li z R m takový,že(x, z) (y, z),pakplatíix y. Důkaz. Ando[And89] Funkce zachovávající majorizaci Tvrzení 3.13.Nechť x R n, Djeřádkověstochastickámaticeřádu nanechť f: R Rjespojitákonvexnífunkcedefinovanánaintervalu,kterýobsahujevšechny prvkyzvektoru x.dálebude f(x)značit f(x) (f(x i )) i=1,...,n.pakplatí Df(x) f(dx). Důkaz. Ando[And94] Tvrzení3.14.Nechť a, b R n.pokud a b,pakplatí f(a) w f(b),kde f je spojitákonvexnífunkce.dále a w bimplikuje f(a) w f(b)prospojitoukonvexní neklesající funkci f. Důkaz. Hardy, Littlewood a Pólya[HLP34], Marshall a Olkin[MO79] Tvrzení3.15.Nechť xayjsounezápornévektoryzr n.pak x w yprávětehdy, když φ(x) φ(y)prokaždousymmetricgaugefunction φ:r n R. Důkaz. Komiya[Kom83] V následující části se zabývám rozšířením třídy funkcí, které zachovávají vlastnost popsanou v tvrzení 3.13(viz také Marshall a Olkin[MO79]). Obecněji se můžu dívat na majorizaci jako na částečné uspořádání `. Reálnáfunkce φdefinovanánamnožině A,prokterouplatí φ(x) φ(y),kdykoliv platí x ` y, kde ` je libovolné částečné uspořádání na A, se nazývá monotonní, isotonická nebo zachovávající uspořádání. Funkce zachovávající uspořádání pomocí majorizace byly poprvé systematicky studovány I. Schurem. Na jeho počest, se tyto funkce nazývají konvexní podle Schura, Schur-konvexní, S-konvexní(dále budu používat pojmenování Schur-konvexní). Teorie kolem Schur-konvexních funkcí je obsáhlá, zmíním pouze několik důležitých bodů, které mohou být užitečné pro zkoumání a vytváření Schur-konvexních funkcí pro procedury systému LISp-Miner. Pro bližší informace lze odkázat na četnou literaturu, např. Marshall, Olkin[MO79], kapitola 3. 46

55 Definice3.21.Reálnoufunkci φdefinovanounamnožině A R n nazvuschurkonvexní na A, pokud platí x y φ(x) φ(y), provšechna a A. Pokudnavícplatí φ(x) < φ(y),kdykolivplatí x y,přičemž xnenípermutace y (x / {ỹ ỹ= Py, Plibovolnápermutačnímatice}),pak φjestriktněschur-konvexní na A. Pokud A = R n, paksezjednodušeně říká Schur-konvexní astriktně Schurkonvexní. Funkci nazvu Schur-konkávní právě tehdy, když φ je Schur-konvexní. Při práci s majorizací mohu na místo symetrické množiny A, pracovat s množinou D = {x A:x 1... x n },A R n,protožeplatí x Πx x,kdeπznačí permutační matici. Funkci φ mohu blíže popsat například pomocí jejích prvních derivací. Parciální derivaci φ s ohledem na k-tou složku vektoru x značí agradientznačí(φ (1), φ (2),..., φ (n) ) T. φ (k) (x)= φ(x) x k Tvrzení3.16.Nechť φjespojitáreálnáfunkcena Danechťjespojitědiferencovatelnánavnitřku D.Dálenechť x, y D.Pak x y φ(x) φ(y) právětehdy,kdyžnavnitřku Dje φ (k) klesajícípro k=1,...,n.tedy, φ D,pro všechny uzvnitřku D. Důkaz. Marshall, Olkin[MO79]. Následuje tvrzení, pomocí kterého se hledají a testují Schur-konvexní funkce. Tvrzení3.17(Schur,Ostrowski).Nechť I Rjeotevřenýintervalaφ:I n Rje spojitědiferencovatelnézobrazení.pak φjeschur-konvexnína I n právětehdy,když φjesymetrickána I n a φ (i) (z)jeklesajícípro i=1,...,naprovšechna z D I n. Důkaz. Marshall, Olkin[MO79]. Tvrzení 3.17 není dostatečně obecné, protože definiční obor φ nemusí být celá množina R n.množinu I n mohunahraditzaurčitýchpodmínekpodmnožinou A R n. Tvrzení3.18.Nechť A R n jemnožinasnásledujícímivlastnostmi: 47

56 Ajesymetrická.Toznamená,že x A Πx AprovšechnypermutaceΠ. Ajekonvexníamáneprázdnývnitřek. Pokud φjespojitědiferencovatelnánavnitřku Aaspojitána A,pak I n vtvrzení 3.17 může být nahrazeno A. Důkaz. Marshall, Olkin[MO79]. Tvrzení3.19.Reálnáfunkce φdefinovanánamnožině A R n splňuje x w y φ(x) φ(y), provšechna x, y A, právě tehdy, když φ je rostoucí a Schur-konvexní na A. Obdobně, φsplňuje x w y φ(x) φ(y), provšechna x, y A, právě tehdy, když φ je klesající a Schur-konkávní na A. Důkaz. Marshall, Olkin[MO79]. Popis Schur-konvexních funkcí Tvrzení3.20.Pokud IjeintervalzRag: I Rjekonvexní,pak jeschur-konvexnína I n. φ(x)= n g(x i ) i=1 Důkaz. Marshall, Olkin[MO79], Hardy, Littlewood a Pólya[HLP34] Obdobné tvrzení platí i pro slabou majorizaci. Tvrzení 3.21 (Tomic,Weyl). Jestližeje g : R Rkonvexníarostoucí,pak n φ(x)= g(x i )jerostoucíaschur-konvexní.ztohovyplývá,že x w yimplikuje i=1 φ(x) φ(y). Důkaz. Marshall, Olkin[MO79]. Je to přímý důsledek tvrzení 3.19 a Tvrzení3.22.Nechťfunkce φ:a R n Rjesymetrickáakonvexní,pak φje Schur-konvexní. Důkaz. Marshall, Olkin[MO79]. Tvrzení3.23.Jestliže φ:a R n Rjesymetrická,konvexníarostoucí(klesající), pak φ je Schur-konvexní a rostoucí(klesající). 48

57 Důkaz. Marshall, Olkin[MO79]. Je to přímý důsledek tvrzení Zejména v optimalizačních teoriích, se konvexnost často nahrazuje kvazi-konvexnostínebopseudo-konvexností 1. Definice 3.22.Funkce φ:j R, J R n konvexní,senazývákvazi-konvexní, pokud platí φ(αu+(1 α)v) max(φ(u), φ(v)), provšechna α 0,1 au, v R n. Definice3.23.Funkce φ:r n Rsenazývápseudo-konvexní,pokudproniplatí: φ(u) < φ(v) implikuje φ(αu+(1 α)v) < φ(v), provšechna0 < α <1. Tvrzení3.24.Pokudje φ:j R n R n symetrickáakvazi-konvexní,pakje Schur-konvexní. Důkaz. Marshall, Olkin[MO79]. Podmínkou pro Schur-konvexní funkci není ani kvazi-konvexnost, ani pseudokonvexnost.funkce φ:r 2 Rdefinovaná φ(x 1, x 2 )= x 1 x 2 jeschur-konvexní. Není však ani pseudo-konvexní ani kvazi-konvexní. Třída Schur-konvexních funkcí S definovaných na množině A je třída funkcí zachovávajích uspořádání. Z toho plyne: Pokud φ 1, φ 2 Saa, b 0,pak aφ 1 + bφ 2 S. Pokud φ 1, φ 2,...jeposloupnostfunkcí z Staková,že φ(x) = lim n φ n (x), provšechna x A,pak φ S. Pokudje φkonstantnína A,pak φ S. Schur-konvexnífunkcedefinovanéna Djemožnérozšířitnacelé R n.jednou z možností je φ(x)=φ(x ), x R n. Dalšímožnostirozšíření Ddo R n jemožnénaléztv[mo79]. 1 Anglicky:quasi-convex,pseudo-convex 49

58 Příklady Schur-konvexních funkcí Příklad3.1.Nechť p i 0, i=1,..., na n p i =1.Funkce i=1 H(p 1,...,p n )= n p i log p i se nazývá entropie p. H(p) je striktně Schur-konkavní funkce, z toho plyne Příklad3.2.Nechť x= 1 n i=1 p q H(p) H(q). n x i.funkce i=1 φ(x)= [ 1 n ]1 2 n (x i x) 2 i=1 senazývásměrodatnáodchylkačísel x 1,...,x n.funkce φjestriktněschur-konvexní. n 1 Příklad 3.3. Funkce φ(x) = jestriktněschur-konvexníaklesajícína R +. x i i=1 Příklad 3.4.Provšechna a >0jefunkce φ(x)= ( x i + 1 x i ) a striktněschurkonvexnína(0;1 n. Příklad 3.5. Funkce φ(x) = n i=1 n log x i jestriktněschur-konkávní. i=1 Příklad 3.6.Nechť gjespojitánezápornáfunkcedefinovanánaintervalu I R. Pak φ(x)= n g(x i ), x I n, i=1 jeschur-konvexnína I n právětehdy,kdyžlog gjekonvexnína I.Navíc φjestriktně Schur-konvexnína I n právětehdy,kdyžlog gjestriktněkonvexnína I. Důkaz. Marshall, Olkin[MO79]. Pokudje φsymmetricgaugefunction,pak φjesymetrickáakonvexní.jetedy také Schur-konvexní. Z definice 3.17 plyne, že níže uvedené funkce jsou Schur-konvexní: φ(x) = max x i, ( n )1 r φ(x) = x i r, r 1, i=1 φ(x) = max i 1 <i 2 <...<i k ( x i1 + + x ik ). 50

59 3.3.4 Majorizace jako uspořádaní Relace i w tvoříčástečnéuspořádánína R n.mohuseptát,zajakýchpodmínek existuje minimum. AlbertiaUhlmann([And94])ukázali,žepokudexistuje atakový,že a b provšechna bzomezenépodmnožiny S R n,pakmezivšemi aexistujeminimální prvek ve smyslu, označím ho â. S dodatečnou podmínkou sestupného setřídění â 1 â 2... â n jetotominimumjednoznačněurčeno. Připomenu,žerelace a bjechápánaposložkách,t.j. a i b i pro i=1,..., n. Ztohovyplývá,že a bimplikuje a w b. AndoaNakamura(1991,[And94])dokázali,žeprodané a, b R n mámnožina {a c:c b}minimálníprvekvesmyslu.existujeˆbtakový,žeˆb baa ˆb a c provšechna c,prokteráplatí c b. Pro slabou majorizaci platí obdobné tvrzení(bapat[bap91]). Na omezené podmnožině S R n +,existujeunikátní â R n +s â 1... â n takový,že b w â, provšechna b S,aâ w a,kdykoliv a R n + a b w a,provšechna b S. Ve skutečnosti je â určeno podle následujícího vzorce: { } â 1 =min a 1: b w a(b S) a { k } â k =min a i : b k 1 w a(b S) â i, k=2,3,..., n. i=1 Toto âbudeznačeno w S. i= Funkce pro dvojice vektorů V proceduře SKDL-Miner funkce pro dvojice vektorů najdou uplatnění při porovnání dvou dvojic K L kontingenčních tabulek. Jednotlivé matice(např. A, B, C, D) budou nejdříve převedeny na vektory(a = f(a), obdobně b, c, d). Možnosti reprezentace matic vektory budu probírat v následující sekci. Každé dva vektory odpovídající jedné dvojici matic převedu pomocí funkce pro dvojice vektorů φ na jedenvektor(x = φ(a, b), y = φ(c, d)).dostanutedyvektorprokaždoudvojici K L kontingenčních tabulek. Tyto vektory je dále možné porovnávat pomocí vztahu majorizace(x? y). Definice3.24.Reálnáfunkce φ(s, t)definovanána R 2 nebo R 2 + jesvazověsuperaditivní, pokud ψ(s 1, t 1 )+ψ(s 2, t 2 ) ψ(s 1 s 2, t 1 t 2 )+ψ(s 1 s 2, t 1 t 2 ), kde s 1 s 2 =max(s 1, s 2 ), s 1 s 2 =min(s 1, s 2 )as i, t i R. 51

60 Definice3.25.Každáfunkce ψ(s, t)vytvářízobrazení ψ( x, y):s R n n R n spředpisem ψ( x, y)=(ψ(x 1, y 1 ),..., ψ(x n, y n )) T. Tvrzení Pokud ψ(s, t) je monotonní a svazově superaditivní, pak pro libovolné x, y R n,platí ψ(x, y ) w ψ(x, y) w ψ(x, y ), Důkaz. Ando[And89] Příklady monotonních a svazově superaditivních funkcí: φ(s, t)=s+tna R 2. φ(s, t)=s tna R 2,kde jeminimum. φ(s, t)=s tna R 2 +. Dále platí(z výše uvedených příkladů a dalších tvrzení, viz[and89]): x + y x+y x + y, pro x, y R n, x y x y x y, pro x, y R n, x y x y x y, pro x, y R n, x y x y x y, pro x, y R n. (3.7) Následující tvrzení je užitečné pro konstrukci nových monotonních a svazově superaditivní funkcí. Tvrzení Pokudje f(t)rostoucíakonvexníapokud φ(s, t)jerostoucíasvazověsuperaditivní, pak funkce ψ(s, t) = f(φ(s, t)) je monotonní a svazově superaditivní. Vpřípadě φ(s, t)=s+t, f(t)můžebýtklesající. Pokudje f(t)rostoucíneboklesajícíapokud φ(s, t)jemonotonníasvazově superaditivní,pakfunkce ψ(s, t)=φ(f(s), f(t))jemonotonníasvazověsuperaditivní. Důkaz. Ando[And89] 3.4 Reprezentace matic vektory Abych mohl využít vektorovou majorizaci pro K L kontingenční tabulky, musím převést matici na vektor, případně na(reálné) číslo. První možnost převodu je nějaká existující funkce pro KL-Miner nebo funkce pro SDKL-Miner, která se postupně 52

61 použije na obě kontingenční tabulky. Výsledky se poté mohou porovnat pomocí vektorové majorizace(případně se může využít joint majorization pro porovnání množin vektorů, zde dvou dvojic vektorů, reprezentující celkem čtyři K L kontingenční tabulky). ã = f(a), ã R n, b = f(b), b R n, ã? b. Tento způsob má jistou nevýhodu, většina funkcí má obor hodnot A R. Majorizace pro reálná čísla se skládá z pouhého porovnání: a b a=b, a, b R, a w b a b, a, b R. Druhou možností, kterou se budu obšírněji zabývat, je využití vlastních a singulárních čísel matice jako její reprezentace. Ztrácím určitou informaci o matici, získávám však možnost porovnat matice pomocí vektorové majorizace. U obdélníkové matice je nutné využít jejích singulárních čísel Definice vlastních a singulárních čísel Definice3.26.Nechť A R m n anechťpro λ Ranenulovývektor u R n platí Au=λu.Pak λjevlastníčíslomatice A.Libovolnývektor u R n,kterýsplňuje vztah Au=λujenazvánvlastnívektorpříslušnýkvlastnímučíslu λmatice A. Vektor vlastních čísel je vektor všech vlastních čísel matice setříděný libovolně (ve vektoru se mohou vyskytovat stejná čísla), λ(a)=(λ 1 (A),...,λ n (A)) T. Existujíortonormálnívektory x (1),...,x (n) takové,že Ax (j), x (i) =0, kdykoliv i > j, a Ax (j), x (j) = λ j (A), j=1,..., n. Jinakřečeno,existujeunitárnímatice W taková,že W AW =(b ij ),kde b ij =0 pro i > j.okamžitýmdůsledkemjevztah n n tr(a)= a jj = λ j (A), j=1 j=1 det(a)= n n ( 1) π a jπj = λ j (A), π S n kde S n jemnožinavšechpermutacístupně n. 53 j=1 j=1

62 Definice3.27.Promatici B R m n jsousingulárníčísla σ(b)druhéodmocniny zvlastníchčíselpozitivněsemidefinitnímatice BB ;ekvivalentněsingulárníčísla matice Bjsouvlastníčíslapozitivněsemidefinitnímatice(BB ) 1/2. ] σ i (B)=[λ i (BB )] 1 2 = λi [(BB ) 1 2, i=1,..., m. Singulární hodnoty jsou realné a nezáporné. Vektor singulárních čísel uspořádaný sestupně je označen: σ(b)=(σ 1 (B),...,σ m (B)) T. Definice3.28.Kečtvercovématici Ajezadefinovánjejímodulus A =(A A) 1 2. Vlastní čísla A jsou tedy singulární čísla matice A. Tvrzení Nechť A je čtvercová matice řádu n. Potom Důkaz. Ando[And89] Re(λ(A)) λ (Re(A)) λ ( A ). Promatici B R m n,platí σ(b) R m a σ(b ) R n.nenulovéprvky σ(b) a σ(b )jsouvšakshodné.můžemetedybezztrátynaobecnostipředpokládat, že m n. Prohermitovskoumatici Hřádu n,platí σ i (H)= λ i (H).Propozitivněsemidefinitníhermitovskoumatici Hdokonceplatí σ i (H)=λ i (H) Vlastní čísla, singulární čísla a prvky na diagonále V této sekci ukážu několik známých tvrzení o vztahu vlastních čísel, singulárních čísel a diagonálních prvků, které se mohou využít v proceduře SDKL-Miner při vyhodnocování, zda se dvě matice majorizují. Tvrzení 3.28(Schur). Nechť H je hermitovská matice řádu n s diagonálními prvky δ 1,..., δ n avlastnímičísly λ 1,...,λ n.pakplatí δ λ. NavícprovšechnySchur-konvexnífunkce φ:r n Rplatínerovnost Důkaz.[MO79] φ(δ) φ(λ(h)). Tvrzení3.29.Nechť A, Bjsouhermitovskématiceřádu n.pokud A B,pakplatí λ j (A) λ j (B), j=1,...,n. 54

63 Důkaz. Ando[And89] Tvrzení 3.30.Nechť Ajereálnámaticesesingulárnímičísly σ 1... σ n a diagonálníprvky δ 1,..., δ n,kterésplňují δ 1... δ n.potomplatívztahy δ δ i σ σ i, i=1,...,n, δ δn 1 δn σ σ n 1 σ n. Důkaz. Miranda, Thompson[MT94] Normy Norma je jedním ze způsobů, jak reprezentovat matici reálným číslem. Takto ohodnocené matice je poté možné porovnávat. Nejdříve připomenu pár základních definic. Definice Reálná funkce φ je konvexní pokud platí φ((1 λ)x+ λy) (1 λ)φ(x)+λφ(y), pro λ 0;1 ax, Y M m n. Definice3.30.Funkce φ:m m n Rsenazývánorma,pokudsplňujenásledující podmínky: φ(x)=0právětehdy,když X=0. φ(λx)= λ φ(x),kde λ RaX M m n. φ(x+ Y) φ(x)+φ(y),kde X, Y M m n. Definice3.31.Schattenova p-norma p jezadefinovánapromatice A M m n : A p ( n i=1 σ i (A) p )1 p =(tr( A p )) 1 p p=1,2..., A σ 1 (A) 2. Nejpoužívanější normy jsou: 1 (normastopy) 2 (Frobeniovanorma) (spektrálnínorma) 2 Singulárníčísla σjsousetříděnésestupně.platítedyvztah max 1 i b σ i= σ 1. 55

64 Další často využívaná norma je Ky-Fanova norma A (k) = k σ i (A), i=1 k=1,2,...,n. Vektor σ je setříděn sestupně. Ando[And94] uvádí tvar po úpravách A (k) =min { B 1 + k A B : B M n }. 3.5 Maticová majorizace Majorizace pro matice je méně prozkoumaná než majorizace pro vektory. Maticovou majorizaci nelze zavést tak intuitivně, jako to bylo provedeno u vektorů v definici Při zkoumání maticové majorizace musím tedy nejdříve zjistit, za jakých podmínek matice A majorizuje matici B. Už u vektorové majorizace jsem ukázal, že existuje třída funkcí, které zachovávají majorizaci. Pokusím se nalézt obdobnou třídu porovnávacích funkcí pro matice zachovávající podmínku A B f(a) f(b). Další důležitou otázkou je, jestli mi toto porovnání přináší nějaké výsledky ve smyslu definice procedury SDKL-Miner. Na závěr kapitoly ukážu využití postupů pro proceduru SDKL-Miner. Pro připodobnění majorizace matic majorizaci vektorů, mohu použít náhled, kde nekomutativní analogií komplexních čísel jsou matice(například řádu n). Analogií reálných čísel jsou hermitovské matice a nezáporných čísel pozitivně semidefinitní matice Definice Definice3.32.Zápis[X, e] M m (m+1) značírozšířenoumatici Xoposlednísloupecvektor e=(1,...,1) T. Definice3.33.Obecnálineárnígrupa 3 GL n značígrupu(reálných 4 )invertibilních čtvercových matic řádu n s maticovým součinem. Definice3.34.Jsou-li λ 1,...,λ n (reálnánebokomplexní)vlastníčíslamatice A, pak definujme spektrální poloměr 3 Anglicky:Generallineargroup 4 Možnézapsattaké GL n (R). ρ(a):=max 1 i n ( λ i ). 56

65 Definice Matice A je primitivní, pokud jsou její prvky nezáporné a existuje k Ntakové,že A k >0. Definice3.36.Jádromaticejezadefinovánoker(A)={x R n : Ax=0}. Definice3.37.Matice A R m n jeřádkověstochastická,kdyžplatí m a ij =1, j=1,..., n. i=1 MnožinuvšechřádkověstochastickýchmaticvM m n pojmenuji M m n.množinu všechřádkověstochastickýchmaticřádu nvm n označím M n. M m n = {A M m n : A 0, Ae=e} Definice3.38.Označme K n standardnísimplex 5 v R n { } n K n x R n +: x i =1. Definice3.39.Prolibovolnoumatici A R m n akladnéčíslo kdefinujmemarkotope matice A M(A, k) {AM: M M n k }. Z definice maticové majorizace zřejmě platí M(A, k)= { B R m k : B A }. Markotope jsou důležité v alternativním popisu maticové majorizace. Poznámka 3.3. Polytop značí omezený neprázdný průnik poloprostorů. Ax b, kdematice A R m n a b R m.vmatici Arozměr mjepočetpoloprostorůa rozměr n je počet dimenzí(pod)prostoru, ve kterém je polytop obsažen. Koeficienty každého řádku matice A a vektoru b odpovídají koeficientům lineární nerovnice reprezentující jeden poloprostor. Vrcholem polytopu je část polytopu, která je tvořena průnikem nadrovin, které tvoří polytop dimenze o jedna nižší. Tento průnik má dimenzi prostoru generovaného jeho prvky o velikosti 0(jedná se o jeden bod prostoru). Tvrzení3.31.Nechť M(A, k)jepolytopevr m k,pakkaždývrchol M(A, k)může i=1 býtzapsán [ a j,..., j J 1 j J k a j kde J 1,...,J k jerozdělení {1,..., n}(některémnožinymohoubýtprázdné,vtom případě by součet vektorů měl být chápán jako nulový vektor). 5 Anglicky:standardsimplex ], 57

66 Důkaz.[Dah99] Definice3.40.Majorizačnípolytopodpovídajícímaticím A R m p a B R m n je definován M n p (A w B) {X M n p : A=BX}. Tatomnožinajeneprázdná,pokudplatí A w B.Vtakovémpřípadějeto omezenýmnohostěn,tedypolytopvevektorovémprostoru R n p. Definice3.41.Pokudplatí f(a) f(b),kdykoliv A, B M n a A B,pakje funkce f: R Rnazvánamonotonnímaticováfunkceřádu n. Definice3.42.Funkce f: R n Rjematicověkonvexní,pokudsplňujeprovšechny A, B M m n αf(a)+(1 α)f(b) f(αa+(1 α)b), 0 < α <1. Funkce f se nazývá maticově konkávní, jestliže f je maticově konvexní řádu n. Definice Funkce, která je maticově monotonní ve všech řádech, se nazývá operátorově monotonní. Podobně se definuje operátorová konvexnost a operátorová konkávnost. Příklad3.7.Funkce t α jeoperátorověmonotonnína 0, )pro0<α 1,alene pro α >1.Pro1 α 2jefunkce t α operátorověkonvexní,aleneproostatní kladné exponenty. Příklad3.8.Funkcelog tjeoperátorověmonotonnína(0, ),ale e t neníoperátorově monotonní na žádném intervalu na R. Ando(viz[And94]) ukázal, že operátorově monotonní funkce na 0, ) je nutně operátorově konkávní. Definice Čtvercová matice se nazývá permutační matice, pokud má v každém řádkuavkaždémsloupciprávějednu1,ostatníprvkyjsou0.značíme P n množinu všech permutací čtvercových matic řádu n. Tvrzení 3.32(Birkhoff, von Neumann). Čtvercová matice řádu n je dvojně stochastická právě tehdy, když je konvexní kombinací permutačních matic. P n -invariantnífunkcena M m n seshodujesesymetriívesmyslumarshall,olkin ([MO79],strana435). DS n jekonvexníobal P n dlebirkhoffovatvrzení3.32.množina P n jezřejměkompaktnípodgrupa GL n. 58

67 Moore-Penrose zobecněný inverz matice Definice 3.45.Pro Y R m n je Y matice Y 6,tedymaticesplňující: R n m Moore-Penrosezobecněnýinverz Y Y Y= Y Y Y Y = Y (Y Y ) T = Y Y (Y Y) T = Y Y Poznámka3.4.Pokudje Y čtvercováainvertibilní,pakzřejměplatí Y = Y 1. Tvrzení3.33.Nechť Y R m n azároveňrank(y)=r. Pokud r=n,pak Y =(Y T Y) 1 Y T. Pokud r=m,pak Y = Y T (Y Y T ) 1. Pokud Y = BC,kde B R m r, C R r n arank(b)=rank(c)=r,pak Y = C B. Důkaz.[HP01] Zpředchozíhotvrzenívyplývá,žepro Y R m n arank(y)=n(resp. m),pak Y jelevá(pravá)inverze Y,tzn. Y Y = I n (Y Y = I m ).Povšimněmesitaké,že Y Y v= v,provšechny vzesloupcovéhoprostoru Y Silná majorizace Nyní budu zkoumat, za jakých podmínek je možné majorizovat dvě matice. Marshall, Olkin[MO79] ukazuje několik definic majorizace pro matice. Silná majorizace se anglicky také nazývá multivariate majorization. Definice 3.46.Nechť X, Y R m n.řeknu,že X jemajorizovaná Y, X Y, pokud X= Y P,kde Pjedvojněstochastickámaticeřádu n. Nechť x 1,...,x m a y 1,...,y m jsouřádkymatic Xa Y.Zdefinicevyplývá,že X Y právětehdy,když x i = y i P, i=1,..., m. 6 Anglicky:Moore-Penrosegeneralizedinverseof Y,Moore-Penrosepseudo-inverse 59

68 Tvrzení3.34.Nechť X, Y M n.pak X Yprávětehdy,kdyžprokaždoukonvexní funkci f: V Rplatí n n f(x j ) f(y j ), j=1 j=1 kde x i znamená i-týřádekmatice X a V R n značíkonvexnímnožinu,proniž platí {R(X) R(Y)} V. Důkaz.[PMS05] Slabá majorizace Dahl[Dah99] pracuje se slabou maticovou majorizací. Ta má opět mírnější požadavky pro splnění. Pro majorizaci naní potřeba dvojně stochastická matice, ale postačí pouze řádkově stochastická. Z toho vyplývá(viz poznámka 3.5), že obě matice musímítřádkovésoučtystejné.promatice A R m p, B R m n musíplatit p a j = i=1 n b j, i=1 pro j=1,2,..., m.totonenívážnéomezenípromaticevproceduřesdkl-miner, protože je mohu reprezentovat ve tvaru, kdy jsou jednotlivé buňky vyjádřeny poměrně k řádkovému součtu daného řádku. Definice3.47.Nechť AaBjsoudvěmaticesmřádky, A R m p, B R m n. Řeknu,že Bslaběmajorizuje A, A w B,pokudexistujematice X M n p taková, že A=BX. Povšimněme si, že počet sloupců matic může být odlišný(oproti silné majorizaci z definice 3.46, kde je potřeba dvojně stochastická matice). Poznámka3.5.Jelikož Xe p = e n,kdykoliv X M n p,vidíme,žepokud A w B, pak Ae=BXe=Be.Řádkovésoučty AaBjsoutedyshodné.Totosamozřejmě platí i pro dvojně stochastické matice(ds RS). Slabá maticová majorizace má jednoduchou geometrickou interpretaci. Nechť X, Y M n m,pakplatí X w Y právětehdy,kdyžcone(r(x)) cone(r(y)), kde R(X)značímnožinuřádků X M n m acone(s)jekonvexníobalmnožiny S R m.cožlzevyužítkesnadnémutestováníslabémajorizace. Tvrzení3.35.Nechť X, Y M n a Y GL(n).Pak X w Y právětehdy,když XY 1 RS(n). Důkaz.[PMS05] 60

69 Tvrzení3.36.Nechť X, Y M n.pokud X w Y,pak det(x) det(y).navíc pokud X w Y a det(x) = det(y) 0,pakexistujepermutačnímatice P M n taková,že X= PY. Důkaz.[PMS05] Tvrzení3.37.Nechť X, Y M n a X GL(n).Paknásledujícítvrzeníjsouekvivalentní. Existujepermutačnímatice P M n taková,že X= PY. Y w Xazároveň X w Y. Důkaz.[PMS05] Tvrzení 3.38.Provšechna A R m n, B R m p, C R m q platínásledující tvrzení: A w A. A w Ba B w C,potom A w C. A w B,pak A[I] B[I],provšechny I {1,...,m}. A w Ba H R m m libovolné,pakplatíiha w HB. A w B,pakcone(A) cone(b)arank(a) rank(b). Nechť m=naajeinvertibilní.majorizačnípolytopjepakdán M n p (A w B)={B 1 A}. Nechťmatice A jematice Arozšířenáoněkoliknulovýchsloupců.Pak A w A w A. Důkaz.[Dah99] Poznámka3.6.Pozor, A w B,nezaručuje A PB,prokaždoupermutačnímatici P. Přetřídění může ovlivnit majorizaci. Tvrzení3.39.Nechť X, Y M n,m arank(y)=n.paknásledujícítvrzeníjsou ekvivalentní. X w Y. XY RS(n)aker(Y) ker(x),kde RS(n)jemnožinavšechřádkověstochastických matic. Důkaz.[PMS05] 61

70 Tvrzení3.40.Nechť A R m n a B R m p.paknásledujícítvrzeníjsouekvivalentní: A w B. M(A; k) M(B; k),prokaždépozitivníceléčíslo k. Prokaždé k NaL R m k platí min{ A ; L ;A M(A; k)} min{ B ; L :B M(B; k)}. Důkaz.[Dah99] Pokudplatí A w B,mohutentovztahinterpretovattakto: Prostor sloupců matice B obsahuje prostor sloupců matice A(tvrzení 3.38). Sloupce matice A jsou méně rozhozené či více podobné než sloupce matice B(cone(A) cone(b)). Matice s jedním řádkem Definujme A=(a T ), a K n a B=(b T ), b K p,kde K m R m jevektorsesoučtem 1.Nechťplatí A w B,pakpřidefinici X= eb T vidíme,že X 0, Xe=eb T e=ea a T X= a T eb T = b T.Tedykaždářádkověstochastickámaticespouzejednímřádkem majorizuje každou podobnou matici Směrová majorizace Definice 3.48.Nechť X, Y M n m.pakmatice X jesměrověmajorizovaná 7 maticí Y, X v Y,právětehdy,kdyžprovšechna k=1,2,..., [ n 2] a k=n,je množina průměrů k různých řádků X obsažena v konvexním obalu množiny průměrů krůznýchřádků Y. Tvrzení3.41.Nechť x, y R n.pakjsounásledujícítvrzeníekvivalentní. x v y. n x i t i=1 n y i t,provšechna t R. i=1 Důkaz.[PMS05] 7 Anglicky:directionalmajorization 62

71 Tvrzení3.42(Redukceshodnýchřádek).Nechť X, Y M n m takové,že X v Y anechťřádek i 0 vmatici Xjeshodnýsřádkem j 0 vmatici Y, x i0 = y j0,kde x i je i-týřádekmatice X.Nechť X M(n 1),m (respektive Ỹ M (n 1),m)značímatici získanousmazánímřádku i 0 z X(respektive j 0 z Y).Pakplatí X v Ỹ. Důkaz.[PMS05] Tvrzení3.43.Nechť X, Y M n.předpokládejme,že X GL(n), XY = Y X a X v Y.Pakmusíplatitjednoznásledujícíchtvrzení: X= PY,kde P M n jepermutačnímatice. Existujevektorvlastníchčísel vpříslušnýkxa Y takový,že e, v =0.Navíc pro každý vektor vlastních čísel w odpovídající různým vlastním číslům X a Y platí e, w =0. Důkaz.[PMS05] Řádková majorizace Podmínku dvojně stochastické matice z definice silné majorizace 3.46 lze oslabit a získat definici řádkové majorizace. Definice 3.49.Nechť X, Y R m n.řeknu,že X jeřádkověmajorizovaná Y, X row Y,pokudplatí x i y i, i=1,..., m. Toznamená,žeexistujídvojněstochastickématice P 1,...,P n,prokteréplatí P P (x 1,..., x m )=(y 1,...,y m ) , 0 0 P m kde(a,...,z)jezapsanívektorů a,...,zzasebouax i je i-týsloupecmatice X. Ztohovyplývá,když X row Y,tak (x 1,...,x m ) (y 1,..., y m ), protožematicediag(p 1,...,P m )jedvojněstochastická. 63

72 3.5.6 Maticová majorizace pomocí vektorové majorizace Připomenu,žepokud X, Y R m n apokud Y X,pakplatí Y A XAprolibovolnou A R n r alibovolné r=1,2,...opačnáimplikace, Y A XA,pro A R n r, implikuje Y X, neplatí. Je snadné nalézt protipříklad, viz[hp01]. Tvrzení3.44.Nechť X, Y R m n.pak X Y právětehdy,když max { } { } tr(pxa T ) P Pmt m max tr(py A T ) P Pmt m, provšechna A R m n.množina Pmt m značímultiplikativnígroupupermutačních matic řádu m. Důkaz.[HP01] Tvrzení3.45.Nechť X, Y R m n takové,že[x, e][y, e] 0.Pak X Y právě tehdy,když Xv Y v,provšechny v R n. Důkaz.[HP01] Promatici Y vtvrzení3.45jevidět,že e CS([Y, e]),kde CS(A)jeprostor sloupců A.Platítedy[Y, e][y, e] e=e.vzhledemktomu,že[y, e][y, e] jesymetrické,platíie T [Y, e][y, e] = e T.Podmínka[Y, e][y, e] 0jetudížekvivalentní podmínce[y, e][y, e] DS(m),kde DS(m)jemnožinavšechdvojněstochastickýchmaticřádu m.pro X, Y R m n podmínka[x, e][y, e] 0obecněneimplikuje [Y, e][y, e] 0.Protipříkladjezmíněnv[HP01]. Tvrzení3.46.Nechť X, Y R n n.pokudje Y invertibilníapokud Xv Y v, provšechna v R n,pak X Y. Důkaz.[HP01] Vlastnosti majorizací Tvrzení3.47.Nechť X, Y, Z M m n.pakplatí: X w X. Pokud X w Y a Y w Z,pakplatíiX w Z. Pokud X w Y,pak X [I] w Y [I],prokaždé I {1,..., n},kde X [I] je podmatice X,jejížsloupcejsoupouzesloupcematice XsindexyzI. Pokud X w Y a R M n p,pak XR w Y R. Pokud X w Y a P, Q M m jsoupermutačnímatice,pak PX w QY. 64

73 Pokud X w Y,pakrank(X) rank(y). Tvrzení platí i pro směrovou a silnou majorizaci. Důkaz.[PMS05] Tvrzení3.48.Nechť X, Y M m n.pak X Y platíprávě,když X(k) w Ȳ(k), provšechnapřirozená k = 1,..., [ ] m ( ) 2 a k = m,kde X(k)(respektive Ȳ(k))je m m! matice o = k k!(m k)! řádcích,kteréjsouvšechnymožnéprůměrykrůzných řádekzx(resp. Y).(Hezkýpříkladv[PMS05].) Důkaz.[PMS05] Tvrzení3.49.Nechť X, Y M m n.pak X Y právětehdy,kdyžprovšechny Z M n m existujepermutačnímatice P M m taková,že tr(zx) tr(zpy). X v Y právětehdy,kdyžprovšechny Z M n m srank(z)=1,existuje permutačnímatice P M m taková,že tr(zx) tr(zpy). X w Y právětehdy,kdyžprovšechny w R n avšechny1 i m,existuje permutačnímatice P M m taková,že tr(we T i X) tr(wet i PY). Důkaz.[PMS05] Vztah mezi maticovými majorizacemi Zdefiniczřejměplatí v w.opačnéimplikacebezdodatečnýchpodmínek neplatí(protipříklady viz[pms05]). Tvrzení3.50.Nechť X, Y M n,m anechťmatice[x, e][y, e] mánezápornéprvky. Pak X w Y a e T X= e T Y právětehdy,když X Y. Důkaz.[PMS05] 65

74 3.5.9 Minimální prvek maticové majorizace Relace w, a row je(částečné)uspořádání.buduzkoumatminimálnímatice ve smyslu setřídění dle majorizace. Minimální prvek ve smyslu setřídění na množině Pjeprvek m Ptakový,žepokud n m,pak m n. Tvrzení3.51. X M n m jeminimálnísohledemnalibovolnésetřídění w, v, právětehdy,když x 1 =...=x n,tedy,ževšechnyřádky Xjsoushodné. Důkaz.[PMS05] Poznámka3.7([PMS05]).Mám-li X M n m,pakplatí: Pokud X w Y a Xjeminimální,pak R(X)={v}pronějaké v co{r(y)}. Navíc,prokaždé v co{r(y)},matice A = ew T RS(n)jetaková,že n X = AY, kde w R n je vektor, který splňuje w 0, w i = 1 a n w i y i = v,kde y i je i-týřádekmatice Y. i=1 Pokud X v Y (respektive X Y)aXjeminimální,pak R(X)={v 0 },kde v 0 = Y Y n.zvláště,pokudkaždýřádekmatice Yjeextrém co{r(y)}, n pak v 0 jetěžiště co{r(y)}. Tvrzení Nechť R RS(n) je primitivní matice, tzn. existuje h 1 takové,že R h >0,pakprokaždou X M n m,je {R k X} k 1 klesajícíposloupnost v M n m (vesmysluslabémajorizace),kterákonvergujekminimálnímatici Y takové,že R(Y)={X T y},kde y R n splňuje R T y= y, y >0ae T y=1. Důkaz.[PMS05] i= Rozhodnutí o majorizaci pomocí lineárního programování Zdefiniceparciálníchsoučtůjednotlivýchvektorů aab, a j a b j,jesnadné zjistit, zda a b. Pro majorizaci matic je tento problém složitější. Otázka, zda A w B,můžebýtzodpovězenapomocílineárníhoprogramování(viz[Dah99]). Nechť A R m n a B R m p.pakrovnice AX= Bmůžebýtzapsána A b 1 x 1. =. A x I n I p b p, (3.8) n e 66

75 tedy Ax j = b j,pro j pax 1 + +x p = e.svhodnoudefinicímatice Ā R (mp+n) np avektorů x R np, b R mp+n,pakrovnici(3.8)zapíšeme Ā x = b. Nyní mohu použít Farkasovo lemma na tuto novou soustavu rovnic a získat tím dalšícharakterizacimajorizace.pročtvercovoumatici Z =(z ij )řádu ndefinuji n n ρ(z)= max z ij.povšimněmesi,že ρ(z)= ψ(z j ),kde ψjesublinearnífunkce i j=1 na R n,taková,že ψ(z)=max i n z i. Tvrzení3.53.Nechť A R m n a B R m p.pak A w Bprávětehdy,když j=1 ρ(y T A) B, Y, prokaždou Y R m p. Důkaz.[Dah99] Podmínky tvrzení 3.53 se mohou vyjádřit také jako mnohostěnný jehlan C= {(y 1,...,y p, z):(y i ) T A+z T 0, i p}. Podle obecné teorie mnohostěnů je C také konečně generovaný jehlan, tzn. je to množinanenulovýchlineárníchkombinacíkonečnýchpodmnožin C 0 z C. C 0 obsahuje generátory C, tzn.(směrové) vektory pro každou hranu jehlanu C. Z toho vyplývá, n že A w Bprávětehdy,kdyžnerovnost (y i ) T b i + z T e 0platíprovšechna (y 1,...,y n, z) C 0.Vpřípaděobecnématice Amůžebýtobtížnénaléztexplicitně generátory C,alepropodtřídumatictomůžebýtmožné.Prodanématice AaB mohu(výpočetně)rozhodnout,zda A w Bzkontrolovanímkonzistencelineárního systému Ā x= b, x 0.Totojemožnéudělatstandardnímizpůsobylibovolným algoritmem lineárního programování. i= Funkce zachovávající majorizaci Tvrzení3.54.Pokud X Y,pakplatí n φ(x i ) i=1 n φ(y i ), i=1 provšechnyspojitékonvexní φ:r m R,kde x i je i-týsloupecmatice X. Důkaz. Marshall, Olkin[MO79] Tvrzení 3.55.Nechť X, Y R m n.pokud X Y,potom φ(x) φ(y),pro všechnyfunkce φ:r m n R,kteréjsousymetrickéakonvexní,neboli φ(x)=φ(y P), 67

76 pro všechny čtvercové permutační matice P řádu n, a kde0 α 1aU, V R m n. Důkaz. Marshall, Olkin[MO79] φ(αu+(1 α)v) αφ(u)+(1 α)φ(v), Tvrzení3.56.Nechť X, Y M n,m. X w Y právětehdy,když max f(x i) max f(y i), 1 i n 1 i n kde f: V RjelibovolnákonvexnífunkceaV R m jekonvexnímnožinaobsahující R(X) R(Y). Důkaz.[PMS05] Definice3.50.Podgroupa A GL n senazývá*-podgrupa,pokudje A=A. Definice3.51.Podmnožina B M n senazývásymetrická,pokud B Bimplikuje B B. Definice3.52.Reálnáfunkce φna M m n senazývá A-invariant,pokud φ(xa)= φ(x),pro A AaX M m n. Tvrzení3.57.Nechť X, Y M m n a Ajekompaktnípodgrupa GL n.paknásledující tvrzení jsou ekvivalentní: 1.Existujeprvek A 0 zkonvexníhoobalu Atakový,že X= Y A 0. 2.max { U, XA :A A} max { U, Y A :A A},provšechny Uz M m n. 3. φ(x) φ(y),provšechny A-invariantnísublinearnífunkce φna M m n. 4. ψ(x) ψ(y),provšechny A-invariantníkonvexnífunkce ψna M m n. Pokudnavícje m n, Ajesymetrická*-podgroupaakonvexníobal Aobsahuje0 jako vnitřní bod(bod, který není na okraji množiny), pak sublineární funkce v třetím bodu může být nahrazena slovem norma. Maxima v bodu dva je ve skutečnosti dosaženo, protože A je kompaktní. Důkaz.[Kom83] Následující tvrzení plyne z Tvrzení 3.58.Nechť X a Y jsouprvky M m n (K),paknásledujícítvrzeníjsou ekvivalentní. 68

77 1.Existujeprvek D DS n,takovýže X= Y D. 2.max { U, XP :P P n } max { U, Y P :P P n },provšechny Uz M m n. 3. φ(x) φ(y),provšechny P n sublineárnífunkce φna M m n. 4. ψ(x) ψ(y),provšechny P n konvexnífunkce ψna M m n. Důkaz.[Kom83] Tvrzení3.59.Nechť xayjsouprvky C n.paknásledujícítvrzeníjsouekvivalentní. 1.Existujeprvek D DS n takový,že x=yd. 2.max Re π n i=1 u i x πi max Re π n u i ȳ πi,provšechna uzc n,kde πprocházípřes x=1 všechnypermutace(1,2,..., n). 3. φ(x) φ(y),provšechny P n -invariantnísublineárnífunkce φna C n. 4. ψ(x) ψ(y),provšechny P n -invariantíkonvexnífunkce φna C n. Důkaz.[Kom83] Pro m=1platínásledujícítvrzení. Tvrzení3.60.Nechť xayjsouprvky R n.paknásledujícítvrzeníjsouekvivalentní: 1.Exitujeprvek D DS n takový,že x=yd. 2. x y. 3. φ(x) φ(y),provšechny P n -invariantnísublineárnífunkce φna R n. 4. ψ(x) ψ(y),provšechny P n -invariantníkonvexnífunkce ψna R n. Důkaz.[Kom83],[HLP34] Definice 3.53.MaticezM n senazývázobecněnápermutačnímaticepokudjejí modulusjepermutačnímatice.značím G n množinuvšechzobecněnýchpermutačních množinzm n. G n -invariantnífunkcena R n seshodujesesymetriívesmysluvonneumanna. Označím-li W n množinuabsolutnědvojněsubstochastickýchmaticzm n.thompson dokázal,že W n jekonvexníobal G n.jesnadnénahlédnout,že G n jekompaktní symetrická*-podgroupa GL n a W n obsahuje0jakosvůjvnitřníbod.prototedy následující tvrzení vychází z

78 Tvrzení3.61.Nechť Xa Y jsouprvky M m n a m n.paknásledujícítvrzení jsou ekvivalentní. 1.Existujeprvek Wz W n takový,že X= Y W. 2.max { U, XG :G G n } max { U, Y G :G G n },provšechny Uz M m n. 3. φ(x) φ(y),provšechny G n -invariantnínormy φna M m n. 4. ψ(x) ψ(y),provšechny G n -invariantníkonvexnífunkce ψna M m n. Důkaz.[Kom83] Pokud se nastaví m = 1, dostanu následující tvrzení. Tvrzení3.62.Nechť xayprvky R n.paknásledujícítvrzeníjsouekvivalentní. 1.Existujeprvek Wz W n takový,že x=yw. 2. x w y. 3. φ(x) φ(y),provšechny G n -invariantnínormy φna R n. 4. ψ(x) ψ(y)provšechny G n -invariantníkonvexnífunkce ψna R n. Důkaz.[Kom83] Maticové nerovnosti Definice 3.54(Schurova nerovnost). Nechť A je čtvercová matice řádu n(reálná nebokomplexní)svlastnímičísly λ 1,...,λ n C.Schurovounerovnostínazývám nerovnost n n n λ i 2 a ij 2 = r i 2 2 = A 2 F. i=1 i,j=1 i=1 Používámzápis: r i je i-týřádek A, r i = a i1,...,a in. Tvrzení 3.63(Zobecněná Schurova nerovnost). Nechť A je čtvercová matice řádu n(reálnánebokomplexní)svlastnímičísly λ 1,...,λ n C,pakplatí n n λ i p a ij p = i=1 i,j=1 n n r i p p = c j p p = A p p, 1 p <2. (3.9) i=1 j=1 Používám zápis: A p = ( n i,j=1 a ij p )1 p, 1 p <2. Důkaz.[Ikr94] 70

79 Pro p=1nabýváschurovanerovnost3.54tvaru n n λ i λ ij. i=1 i,j=1 Tvrzení 3.64(Weylova nerovnost). Nechť A je čtvercová matice řádu n se singulárnímičísly σ 1,...,σ n avlastnímičísly λ 1,...,λ n,pakplatínásledujícínerovnost k λ i p i=1 k i=1 σ p i, 1 k n, 0 < p <. (3.10) Důkaz.[Ikr94] Schurovanerovnostjespeciálnípřípad(3.10)pro k= nap=2. Tvrzení Pro libovolnou čtvercovou matici A řádu n se singulárními čísly σ 1,...,σ n platínásledujícínerovnost n σ p i i=1 (pro p=2nastanerovnost). Důkaz.[Ikr94] n i,j=1 a p ij, 1 p 2 Tvrzení Zobecněná Schurova nerovnost(3.9) se stane rovností, pokud matice A je normalní a může být reprezentována jako součin diagonální a permutační matice. Důkaz.[Ikr94] Tvrzení 3.67(Seiler-Simonova nerovnost, 1975). Pro libovolné matice A a B platí det(i+ A )det(i+ B ) det(i+ A+B ). Pokudplatítaké I A A, I B B >0,Huadokázalnerovnost (I B A)(I A A) 1 (I A B) I B B, což je ekvivalentní s ( (I A A) 1 (I B A) 1 (I A B) 1 (I B B) 1 ) 0. Důkaz.[And94] 71

80 Z tvrzení 3.67 plyne nerovnost determinantů det(i A B) 2 det(i A A)det(I B B). Ando zobecnil tvrzení 3.67 pro každou monotonní operátorovou funkci f(t) na intervalu(0, ): Re[ f(i A B)] 2 1 {f(i A A)+f(I B B)}, kde f(i A B)jedefinovánojakoanalyticképokračování 8 f(t) Majorizace ve statistice Majorizace matic se zkoumá i v matematické statistice. Existuje dokonce teorie proporovnánístatistickýchexperimentů([tor92]).nechť A M m n jenezáporná s řádkovými součty 1. A reprezentuje statistický experiment(nebo statistický model), kde řádky odpovídají možným hodnotám neznámého parametru θ( stav přírody ) a sloupce odpovídají možným hodnotám náhodné proměnné Z, která je pozorována.buňku a ij mohuinterpretovat jakopravděpodobnost, žeproměnná Z nabývá hodnoty j za podmínky θ = i. V teorii porovnání statistických experimentů se zkoumá, kdy je experiment více informující než jiný. Pokud totiž experiment A dává více informací o neznámém parametru θ než experiment B, pak by A měl být vybrán pro účely rozhodování Majorizace dvojice matic Tvrzení3.68.Pokudjsou AaBhermitovskématice,pakplatí λ (A+B) λ (B) λ (A). Důkaz. Ando[And89] Tvrzení 3.68 vede vhodnou substitucí k analogii(3.7) pro vlastní čísla: λ (A)+λ (B) λ(a+b) λ (A)+λ (B), prohermitovské A, B. Tvrzení3.69.Nechť f(t)jeneklesajícíkonkávnífunkcena 0, )sf(0)=0.pak pro libovolné čtvercové matice A, B platí λ (f( A+B )) λ (f( B )) λ (f( A )). 8 Anglicky:analyticcontinuation 72

81 Důkaz. Ando[And89] Tvrzení3.70.Nechť f(t)jereálnáfunkcedefinovanána 0, ).Pokud f(e t )je konvexní, pak f(λ ( A ) λ ( B )) w f(λ( AB )) w f(λ ( A ) λ ( B )). V případě pozitivně semidefinitních A, B, modulus AB může být nahrazen AB. Speciálněpro f(t)=t: λ (A)λ (B) w λ(ab) w λ (A)λ (B). Odtud vyplývá(jako pro vektorový případ) λ (A), λ (B) tr(ab) λ (A), λ (B), prohermitovské A, B. Tvrzení Nechť A, B jsou hermitovské. Potom platí následující majorizace: λ (A) λ (B) w λ(a B) w λ (A) λ (B), λ (A) λ (B) w λ(a B) w λ (A) λ (B), kde A Ba A Bznamenásupremumainfimumpáru A, Bsohledemnaspektrální setřídění. Prohermitovskoumatici Aplatídiag(A) A.Prohermitovskématice A, B platí[λ i (A+B)] [λ i (A)+λ i (B)](důsledekKyFanovatvrzení[And94],2.2).Dále V.B. Lidskii st. a Wielandt([MO79], 242 a Ando 1982) ukázali: [λ i (A+B)] [λ i (A)+λ n i+1 (B)]. Prolibovolnématice AaBajejichsetříděnásingulárníčísla σ 1 (A)... σ n (A) a σ1(b)... σn(b)platí [σ i (A+B)] w[σ i (A)+σ i (B)] a [ σ i (A) σ i (B) ] w[σ i (A B)]. Tvrzení3.72.Jestliže AaBjsouhermitovskématiceřádu naa Bjepozitivně semidefinitní, pak platí λ j (A) λ j (B), j=1,...,n. Pokudje A Bpozitivnědefinitní,pakjenerovnostostrá. Důkaz.[MO79] 73

82 3.6 Maticový průměr Jednouzfunkcí,kterépracujísdvojicí K Ltabulekjematicovýprůměr.Jako jedinýmáoborhodnotmnožinumatic(r n m ).Svýsledkem jemožnépracovat pomocí maticové majorizace. Je také možné jednu z matic od průměru odečíst, získám tím možnost zkoumat, nakolik se matice odlišují. Na základě integrální reprezentace([and94], 3.4), Kubo a Ando vyvinuli teorii maticového(nebooperátorového)průměru 9. Definice Zobrazení(A, B) AσB pro pozitivně semidefinitní matice se nazývá maticový průměr nebo operátorový průměr, pokud jsou splněny následující podmínky: 1. α A σ B=(αA) σ(αb),provšechna α A σ A=A. 3. A σ B A σ B,kdykoliv A A a B B. 4. A k A, B k Bimplikuje A k σ B k A σ B. 5.(T AT) σ(t BT) T (A σ B)T,prokaždoumatici T. Klíčem k této teorii je bijektivní zobrazení mezi maticovým průměrem σ a nezápornouoperátorověmonotonnífunkcí f(t) f σ (t)na 0, )sf(1)=1.bijekce je dána vzorcem A σ B= A 1 2 f (A 1 2 BA 1 2 ) A 1 2, pro A >0, B 0. Aritmetickýprůměrodpovídáfunkci f(t)= t+1 2,průměrkorespondujícíkf(t)= 2t t+1 budenazvánharmonickýprůměr.jednapolovinaharmonickéhoprůměruse nazýváparalelnísoučet 10 ajeznačena A:B([And94],Anderson,Duffin1969). Pokudje φ( )pozitivnílineárnízobrazenízm n na M n,pakpromaticovýprůměr σ platí φ(a) σ φ(b) φ(a σ B), A, B 0. Zejména,pro C 0aφ(X) tr(xc),platí tr(ca) σtr(cb) tr[c (A σ B)]. Z čehož vyplývá, že pro každou unitárně invariantní normu, platí 9 Anglicky:matrix/operatormeans 10 Anglicky:parallelsum A σ B A σ B. 74

83 Geometrický průměr by měl být chápán jako průměr odpovídající operatorově monotonnífunkci t 1 2.Geometrickýprůměrjeznačen A#B ( )1 A#B A A BA A 2, A >0, B 0, 2 A+B Joint majorization A#B 2(A:B). Jointmajorization 11 sloužíkporovnánídvouavícevektorů.vytvořísematice, které obsahují množiny zkoumaných vektorů, a ty se pomocí maticové majorizace porovnají. Definice3.56.Definujme(x i ) i=1,...,m,(y i ) i=1,...,m, R n dvěsetříděnémnožinyvektorů,jakomatice X, Y M n m definované C i (X)=x i, C i (Y)=y i, i=1,...,m, kde C i (X)značí i-týsloupecmatice X. Definice3.57.Nechť(x i ) i=1,...,m =(x i ),(y i ) i=1,...,m =(y i ) R n a X, Y M n m definovanéjakovýše. Řeknu,že(y i )jointlyweaklymajorizes (respektive jointly stronglymajorizes,jointlymajorizes)(x i )apíšu pokud platí (obdobněpro, v ). (x i ) i=1,...,m w (y i ) i=1,...,m, X w Y Poznámka 3.8. Předchozí definice může být přeformulována následujícím způsobem: (x i ) v (y i )právětehdy,kdyžprovšechna α 1,..., α m R,platí α 1 x 1 + α 2 x α m x m v α 1 y 1 + α 2 y α m y m. (x i ) (y i )právětehdy,kdyžexistuje D DS(n)taková,že x i = Dy i, i=1,..., m. (x i ) w (y i )právětehdy,kdyžexistuje R RS(n)taková,že x i = Ry i, i=1,...,m. Pokudbyplatilo AB= BA,bylobymožnézkoumatmajorizacimatic.Tovšak v proceduře SDKL-Miner téměř nemůže nastat. 11 Nenašeljsemžádnýčeskýekvivalent.Budupoužívatanglickýtermínradějinežzavádětvlastní překlad. 75

84 3.8 Logaritmická majorizace Dalším přístupem k majorizaci je neporovnávat přímo vektory, ale jejich logaritmy. Definice 3.58.Pro0<a, b R n,logaritmickámajorizace a (log) boznačuje log a log b.tojeekvivalentnípožadavku: a k k a i i=1 i=1 b i, k=1,2,..., n (3.11) n n a i = b i. i=1 Slabá logaritmická majorizace nebo logaritmická submajorizace pro pár a, b > 0, i=1 psáno a w(log) b,jedefinovánaanalogickyk(3.11). V podobném duchu budu psát ve významu log x log z w log y k x ij k j=1 j=1 y j k z ij, provšechna i 1 < < i k. j=1 Pokudnastanerovnostpro k= n,píšulog x log z log y.zápis log x w log y+log z je chápán obdobně. Z([And94],1.10)plyne,pokud f(t)jedefinovanéna(0, )af(e t )jekonvexní a rostoucí, pak a w(log) b f(a) w f(b), a w(log) b a w b. Pro f(t)= log t: a >0aa b a 1 w(log) b 1. (3.12) Weyl odhalil fundamentální vztah mezi vlastními a singulárními čísly. Tvrzení Nechť A je čtvercová matice, pak platí [σ i (A)] (log)[ λ i (A) ]. (3.13) Zdejsouvlastníčíslaseřazena λ 1(A) λ 2(A)... λ n(a). Důkaz.[And89] 76

85 Tvrzení3.73jedůsledkemtriviálnínerovnosti σ i (A) λ i (A),cožznamená,že spektrální poloměr není větší než spektrální norma. Pro pozitivně definitní matice A, B píšu A (log) B (A w(log) B) ve smyslu [λ i (A)] (log) [λ i (B)] ([λ i (A)] w(log) [λ i (B)]). C.J. Thompson prokázal, že A (log) B právě, když pro nějakou unitární matici U, matice A a U B mají stejnou množinu vlastních čísel. Nechť φ je dvojně stochastické zobrazení a A je pozitivně definitní, pak maticová verze vztahu(3.12) zní A w(log) φ(a 1 ) 1. (3.14) Při zobrazení φ(x) diag(x) vztah(3.14) přejde v Hadamardovu determinantní nerovnost: n a ii det A, A >0. i=1 Existuje také vztah vektorů singulárních čísel součinu dvou matic(horn, viz [MO79]a[And94]). Tvrzení Pro libovolné matice A, B platí [σ i (AB)] (log) [σ i (A)σ i (B)]. Důkaz.[And94], případně[mo79] Tvrzení3.75.Nechť f(t)jereálnáfunkcedefinovanána 0, )aaječtvercová matice.pokud f(e t )jekonvexní,pak f( λ(a) ) w f(λ( A )). Důkaz.[And89] Tvrzení Pro libovolné matice A, B platí následující majorizace: log λ ( AB ) log λ ( B ) log λ( A ). Důkaz.[And89] 77

86 Vhodnou substitucí dostanu: log λ ( A )+log λ ( B ) log λ( AB ) log λ ( A )+log λ ( B ). Tvrzení Všechna vlastní čísla součinu dvou kladných matic A, B jsou nezápornáataké log λ (A)+log λ (B) log λ(ab) log λ (A)+log λ (B). Důkaz.[And89] Tvrzení3.78.Nechť x, yjsoukladnévektoryvr n.pakplatínásledujícívztahy log(x + y ) w log(x+y) w log(x + y ), log(x y ) w log(x y) w log(x y ), log(x y ) w log(x y) w log(x y ), log(x y ) w log(x y) w log(x y ). Důkaz. Ando[And89] 3.9 Shrnutí Na majorizaci jsou možné dva pohledy. První říká, pokud je a majorizovaná b, je a méně rozestoupená či více stejná než b. Druhý přístup určuje množinu všech funkcí, prokterésezachovávávztah :Pokud a b,pakplatíif(a) f(b).obanáhledy mají své použití. Informace o rozestoupenosti se hodí při hledání pravidelných rozdělení. Zachování vztahu umožňuje definovat třídu nerovností použitelných v proceduře SDKL-Miner. Pro oba pohledy má smysl hledání nejmenšího prvku setřídění podle. Dvojice, která majorizuje všechny ostatní(je majorizována všemi ostatními), má také největší (nejmenší) funkční hodnotu pro všechny funkce, které zachovávají vztah. Je také nejméně(nejvíce) rovnoměrně rozdělená. V proceduře SDKL-Miner porovnáváme dvě dvojice matic. f(a, B)? f(a, B ) Mám však možnost využít dva přístupy k majorizaci. První pracuje s dvojicemi matic. To nejvíce odpovídá pojetí procedury SDKL-Miner. Je však problém najít funkci, do které vstupují dvě matice. Druhý přístup pracuje se samostatnými maticemi. Tento postup je velice užitečný v ostatních procedurách systému LISp-Miner. Zejména v proceduře KL-Miner ji lze použít pro porovnání jednotlivých matic(musí se ovšem vyřešit odlišné rozměry matic, například použitím slabé maticové majorizace). Také v proceduře SDKL-Miner se tento přístup dá použít, klade však větší 78

87 nároky buď na přípravu dat nebo na následné zpracování výsledků(jak již bylo zmíněno v sekci 3.4). Není nutné pracovat s původními maticemi. Matice je možné převést na vektory nebo dokonce čísla. Tento převod výrazně rozšiřuje možnosti porovnání pomocí majorizace. Jednak je snazší nalézt funkci, která pracuje nad vektory než nad maticemi. Za druhé, vektorová majorizace je výrazně prozkoumanější než maticová majorizace Dvojice matic V následující tabulce jsou možné případy a řešení pro dvojice matic. f(a, B) čísla porovnání vektory vektorová majorizace dvojicevektorů a jointvectormajorization matice maticová majorizace a Využitíjointvectormajorizationjevzácné,nenímnohopoužitelnýchfunkcí f(a, B), které mají obor hodnot dvojice vektorů. Funkce f můžebýtfunkce,kterájejižvsystémulisp-minerpoužitavjiné proceduře, nebo funkce, která je použita v proceduře SDKL-Miner(např. relativní rozdíl matic), nebo funkce zcela nová(ve smyslu použití v systému LISp-Miner). Často se využívá složená funkce f(a, B)=g(h(A), h(b)). To odpovídá předzpracování vstupních matic do tvaru, který je navzájem porovnatelný(ať již matice, vektor či číslo), a následnému porovnání jednotlivých dvojic matic. Funkce fmůžebýttakésloženázpřípravnéfunkceprodvojicimaticafunkce, jejíž výsledek se bude majorizovat: f(a, B)=g(h(A, B)) Pro toto spojení dvou K L kontingenčních matic je možné využít i maticový průměr (viz sekce 3.6). Obor hodnot: čísla Pokud oborem hodnot funkce f jsou čísla, pak rozhodnutí o majorizaci se zjednodušuje na pouhé porovnání(dle definice majorizace). Dokonce, pokud to má smysl, můžeme získat i vztah nakolik se hodnoty odlišují(odečtení, podělení...). Jelikož čísla lze vždy porovnat, snadno vytvořím setřídění a vyberu nejvhodnější dvojici matic. Je tedy možné nalézt nejméně(příp. nejvíce) odlišnou dvojici matic 79

88 (případně naprosto jinou vlastnost, vše závisí na funkci f). Funkce f může být například norma rozdílu matic. Je samozřejmě možné využít složenou funkci. Nejdříve obě matice převést na vektory(matice či čísla) a ty pak převést na číslo(například absolutní hodnota rozdílu singulárních čísel). Obor hodnot: vektory Pokudfunkce fmáoborhodnot R n,jemožnévyužítvektorovémajorizace. x = f(a, B) y = f(a, B ) x? y Vektorovou majorizaci je možné ověřit podle definice porovnáním kumulativních součtů setříděných vektorů. Dle definice 3.19, x y, pokud platí k i=1 x i n x i = i=1 k y i, i=1 n y i. i=1 k=1,...,n, Zde je důležité uvědomit si podmínku rovnosti součtu prvků vektorů. Vzhledemktomu,žeplatí a aπ a,můžoubýt,bezztrátynaobecnosti, vektory vždy setříděné sestupně. Druhou možností je využít tvrzení 3.1 x y x=dy, kde D je dvojně stochastická matice. Další možností je tvrzení 3.4 x y tr x te tr y te n x i t i=1 n y i t. i=1 Je-li funkce g Schur-konvexní(definice 3.21), pak platí x y g(x) g(y). Podmínka majorizace předpokládá rovnost součtů prvků vektoru. Tato podmínka se dá oslabit použitím slabé majorizace. Zde je pouze nutné, aby vektor, který majorizuje, měl stejný nebo větší součet než majorizovaný vektor. 80

89 Slabá majorizace se ověřuje podobně jako silná majorizace. Je možné vycházet z kumulativních součtů prvků vektoru dle definice 3.20 k x i i=1 k y i, i=1 k=1,...,n. Také je možné ověřovat majorizaci dle tvrzení 3.6 x w y x=ey, kde E je dvojně substochastická. Obdobně jako u silné majorizace existuje vztah založený na porovnání stopy vektorů x w y tr(x te) + tr(y te) + n n (x i t) + (y i t) +. i=1 i=1 Je-li funkce g Schur-konvexní a rostoucí, pak platí tvrzení 3.19 x w y g(x) g(y). Totéž platí i pro symmetric gauge function. Pro příklady Schur-konvexních funkcí, případně jejich vlastnosti, nahlédněte do sekce 3.3.3, nebo přímo Marshall, Olkin [MO79]. V případě vektorové majorizace je možné využít i logaritmickou majorizaci log a log b a (log) b (obdobně i pro slabou majorizaci). Obor hodnot: dvojice vektorů Funkce f(a, B) může také vracet dvojici vektorů, respektive matici o dvou vektorech ( ) x 1... x n, y 1... y n kdevektor xvzniknezmatice Aavektor yzmatice B.Tatomaticesedáleporovnává pomocí maticové majorizace. Vektory nemusí být dva, může jich být samozřejmě více. Vzory vektorů nemusí býtanidisjunktnímnožinymatic.jemožné,abyzmatic AaBvzniklytřivektory (nebojinýpočetvektorů),kdeseaspoňprojedenznichnedáříci,žepříslušípouze matici A, nebo matici B. Ovšem myšlence joint vector majorization odpovídá, když každé matici přísluší právě jeden vektor. 81

90 Obor hodnot: Matice Pokud výsledkem funkce je matice, využije se maticová majorizace. Nutnou pomínkou pro zkoumaní maticové majorizace je rovnost řádkových součtů(se stejným indexem v obou maticích, ne všech v jedné matici). Ověření majorizace pro matice je obtížnější než pro vektorový případ. Silná maticová majorizace se dá ověřit podle definice 3.46 X Y X= Y D x i = y i D, i=1,...,n, kde Djedvojněstochastickámaticeakde x i je i-týřádekmatice X.Ověřenípořádcích matice může být výpočetně výhodnější. Pro matice existuje také slabá maticová majorizace. Dle definice 3.47 X w Y X= RY, kde R je řádkově stochastická matice. Pokud je matice X majorizovaná maticí Y, pak konvexní obal řádků matice X je podmnožinou konvexního obalu řádků matice Y. Zjednodušeně můžeme také říct, že sloupce matice X jsou méně rozhozené než sloupce matice Y. Vlastnosti majorizace jsou zmíněné v tvrzeních 3.38 a Matice Je možné samozřejmě zkoumat i majorizaci K L kontingenčních tabulek samostatně. f(a) číslo porovnání vektor vektorová majorizace matice maticovámajorizace Pokud oborem hodnot funkce f jsou(reálná) čísla, majorizace splývá s prostým porovnáním hodnot. Pokud funkce f vrací vektor, je opět možné využít vektorovou majorizaci. Je také možné využít joint vector majorization pro vytvoření vazby dvojice matic (tento bod je podobný majorizaci dvojic matic). ( ) f(a)=x 1,...,x n f(b)=y 1,...,y n Jsou-li oborem hodnot matice, použije se maticová majorizace. Pro využití v proceduře SDKL-Miner musíme svázat výsledky jednolivých porovnání do dvojic(procedura SDKL-Miner pracuje nad dvojicemi matic). Vrátím se k příkladu z úvodu: 82

91 Budu-li mít čtyři matice, pro které bude platit A B, C D, a pokud bude navíc platit A C, B D, mohuříct,žeprvnídvojice(a, B)jevíceodlišnáneždruhá(C, D).Provyužití majorizace matic(oproti dvojicím matic) je tedy nutné prozkoumat i tyto další vztahy. Další možností je spojit matici do jedné větší(např. dvojnásobný počet sloupců). Nenašel jsem však v žádném zdroji, jak toto spojení ovlivňuje vypovídací hodnotu výsledku. 83

92 Kapitola 4 Kvantifikátory závislosti 4.1 Úvod V této kapitole budu zkoumat testy shody a hypotézy závislosti a symetrie upravené pro proceduru SDKL-Miner(dle[Prá85] a[agr96]). Navrhnu nahrazení statistického modelu druhou K L kontingenční tabulkou. V celé kapitole předpokládám nenulové četnosti i nenulové očekávané četnosti. Obě K L kontingenční tabulky mají tedy ve všech buňkách kladné hodnoty(záporné se nemohou vyskytovat z definice tabulek v proceduře SDKL-Miner). Nejdříve zadefinuji značení použité v této kapitole. Následují testy shody pomocí testů χ 2 a G 2.Dáleprozkoumámvyužitíhypotéznezávislostiasymetrie.Nazávěr této kapitoly zmíním, jak je možné pracovat s tabulkami, kde se vyskytují nulové hodnoty. Zajímavé nápady obsahuje také Holeňa[Hol06]. 4.2 Definice Zápisy částečných součtů v I J matici budu zjednodušeně zapisovat: x i+ = x +j = x ++ = J x ij, j=1 I x ij, i=1 I i=1 j=1 J x ij. 84

93 V případě I J K třírozměrné kontingenční tabulky budu částečné součty zapisovat: x ij+ = x i++ = x +++ = K x ijk, k=1 J j=1 k=1 I K x ijk, J i=1 j=1 k=1 K x ijk. Obdobnějsouzavedenéizápisy x i+k, x +jk, x +j+, x ++k. 4.3 Testy shody Připorovnánídvoumnožin M 1 a M 2 bychmohlvproceduřesdkl-minervyužítdvojrozměrnéstatistiky χ 2 a G 2 (testzaloženýnapoměruvěrohodností).testy shody χ 2 a G 2 jsouasymptotickyekvivalentní.velkéhodnoty χ 2 a G 2 ukazujínaneshodu s modelem. Vzorecpro χ 2 testje([prá85]) χ 2 = K i=1 L j=1 ( ) 2 x ij m ij (ˆθ) m ij (ˆθ), (4.1) kde m ij (ˆθ)označujeočekávanéčetnosti.Připředpokladupoissonovamodelujepočet stupňů volnosti IJ q, kde q je počet neznámých parametrů. Při předpokladu multinomického modelu je počet stupňů volnosti IJ q 1. Multinomické rozdělení má totiž dodatečnou podmínku I i=1 J m ij (θ)=x ++. Tato podmínka se dá snadno splnit normováním obou K L matic. j=1 Pro χ 2 testpro K Lkontingenčnítabulku Xjevhodné,abytatokontingenční tabulka splňovala určité podmínky(viz[lín03b]): K i=1 L x ij 30. j=1 Pro tabulku očekávaných četností platí, že všechna čísla z této tabulky jsou většínežjedna m ij (ˆθ) 1amaximálnětřetinahodnotjezintervalu 1;5. 85

94 Test G 2 (založenýnapoměruvěrohodností)jezadefinován([prá85]) ( K ) L ( ) K L G 2 = 2 x ij log m ij (ˆθ) x ij log(x ij ) = 2 K i=1 i=1 j=1 i=1 j=1 ( ) L x ij x ij log. (4.2) m ij (ˆθ) j= Nahrazení modelu druhou kontingenční tabulkou Pro účely své diplomové práce budu považovat jednu množinu za model a budu zkoumalshodusdruhoumnožinou.maximálnívěrohodnéodhady m ij (ˆθ)jsounahrazeny K Lkontingenčnítabulkoudruhémnožiny M 2.Množina M 1 jezkoumanou K L kontingenční tabulkou. χ 2 upravímproprocedurusdkl-miner χ 2 = K L (a ij b ij ) 2 i=1 j=1 b ij, (4.3) kdematice Aje K Lkontingenčnítabulkaodpovídajícímnožině M 1 amatice B je K Ltabulkaprodruhoumnožinu M 2. Předpokládal jsem, že modelem je druhá matice. Modelem však stejně dobře můžebýtprvníkontingenčnítabulka.hodnota χ 2 bude(většinou)protytodva případy odlišná. Pro vyšší vypovídací hodnotu je rozumné zkoumat obě varianty a sečíst je. χ 2 (A, B)=χ 2 A + χ2 B, (4.4) kde χ 2 A jevýpočet χ2 s K Lkontingenčnítabulkou Ajakomodelem.Použitím(4.3) a(4.4)dostanuvzorecpro χ 2 (A, B): χ 2 (A, B) = = = = = K i=1 K i=1 K i=1 K i=1 K i=1 L j=1 (a ij b ij ) 2 b ij + K i=1 L (b ij a ij ) 2 j=1 L (a ij b ij ) 2 + (b ij a ij ) 2 b ij a ij j=1 L j=1 L j=1 L j=1 a ij (a ij b ij ) 2 a ij +(b ij a ij ) 2 b ij a ij b IJ a 3 ij 2a2 ij b ij+ b 2 ij a ij+ b 3 ij 2b2 ij a ij+ a 2 ij b ij a ij b ij a 2 ij b ij + b2 ij a ij a ij b ij (4.5) 86

95 Početstupňůvolnostije2(IJ q 1). Utestu G 2 (4.2)provedupodobnouúpravujakoutestu χ 2 : G 2 =2 K i=1 L a ij log j=1 ( aij b ij ), (4.6) kdeopětmatice Aje K Lkontingenčnítabulkaodpovídajícímnožině M 1 amatice Bje K Ltabulkaprodruhoumnožinu M 2. U G 2 jeopětnejasné,kteráztabulekmábýtmodelem.hodnotybudou(často) odlišné.izdemátedysmyslotestovat G 2 dvakrátavýsledkysečíst. G 2 (A, B)=G 2 (A)+G 2 (B), (4.7) kde G 2 (A)je G 2 skontingenčnítabulkou Ajakomodelem.Využitím(4.6)a(4.7) dostanuvzorecpro G 2 (A, B): G 2 (A, B) = 2 G 2 (A, B) = 2 G 2 (A, B) = 2 G 2 (A, B) = 2 K i=1 K i=1 K i=1 K i=1 L a ij log j=1 L a ij log j=1 L log j=1 L j=1 ( log ( aij b ij ( aij ( a a ij ij b a ij ij b ij ) +2 K i=1 ) + b ij log b b ij ij a b ij ij a a ij b ij ij ) b b ij a ij ij ) L j=1 ( bij ( ) bij b ij log a ij ) Čímsibudoumnožinypodobnější,tímbudehodnota χ 2 i G 2 menší. a ij (4.8) Při použití dvojrozměrných testů shody je nutné prozkoumat, jak je možné výsledky jedné dvojice matic porovnávat. Porovnávám dvojice K L kontingenčních tabulek, nikoliv pouze dvě K L tabulky. Jedno z možných řešení nastíním v následující části. 4.4 Využití třírozměrné statistiky Testy χ 2 a G 2 jemožnépoužítiproobě K Lkontingenčnítabulky.Uvažujme tabulkuorozměrech K L 2.Opětpoužijutestyshody χ 2 a G 2,tentokrátvšak v modifikaci pro tři rozměry. Pro třírozměrný model platí([prá85]) χ 2 = K i=1 L M j=1 k=1 ( ) 2 x ijk m ijk (ˆθ) 87 m ijk (ˆθ) (4.9)

96 a G 2 = K i=1 L j=1 k=1 ( M x ijk log x ijk m ijk (ˆθ) ), (4.10) kdevkontingenčnítabulce M (resp. m ijk )jsouopětočekávanéhodnotyakontingenčnítabulka X(resp. x ijk )jsounaměřenéhodnoty. M má vždy hodnotu 2(porovnáváme dvě množiny). Obě statistiky mají opět asymptotickérozdělení χ Nahrazení modelu druhou kontingenční tabulkou Izdemohuporovnávatdvojici K Lmaticsvhodnýmmodelem,aletakésjinoudvojicíkontingenčníchtabulek 1.Nutnýmpožadavkemjestejnýpočetmožnýchhodnot u antecedentu první dvojice matic a antecedentu druhé dvojice matic(viz[prá85]). Stejná podmínka platí pro sukcedent první a druhé dvojice K L kontingenčních tabulek. Je také možné použít čtyřrozměrnou statistiku pro porovnávání dvou dvojic K L kontingenčních tabulek s nějakým statistickým modelem. Tento postup však nebudu zkoumat. První dvojice K L matic bude tvořit kontingenční tabulku X vztahem x ij1 = a ij, x ij2 = b ij, kdematice Ajekontingenčnítabulkaodpovídajícímnožině M 1,antecedentu αa sukcedentu β.matice Bjekontingenčnítabulkaodpovídajícímnožině M 2 astejnému antecedentu α a sukcedentu β. Druhá dvojice K L matic bude tvořit kontingenční tabulku Y vztahem y ij1 = c ij, y ij2 = d ij, kde Cjematiceodpovídajícímnožině M 1,antecedentu γasukcedentu δ.matice B odpovídámnožině M 2 astejnémuantecedentuasukcedentujakomatice C.Počet hodnot antecedentu α a γ musí být stejný. Stejně tak musí být stejný počet hodnot usukcendentu βa δ.pokudbysepočtyhodnotneshodovaly,nemohlbychtuto metodu použít. Jako u dvojrozměrného případu je nutné spočítat hodnotu testů pro případ, kdy je modelem první kontingenční tabulka a kdy je modelem druhá kontingenční tabulka. Protože porovnávám dvě dvojice matic, třetí rozměr M kontingenční tabulky 1 PokudbysetentopostuppoužilvproceduřeKL-Miner,jednalobysepouzeodvojrozměrnou statistiku. 88

97 mápouzehodnoty1a2.vzorecpro χ 2 (X, Y)testje 2 : χ 2 (X, Y) = = K i=1 K i=1 L 2 j=1 k=1 L 2 j=1 k=1 (x ijk y ijk ) 2 y ijk + K i=1 L j=1 k=1 2 (y ijk x ijk ) 2 x ijk x 2 ijk y ijk + y2 ijk x ijk x ijk y ijk (4.11) Protest G 2 platístejnáomezenínashodnýpočethodnotantecedentuasukcedentu.stejněseitvoříkontingenčnítabulky Xa Y.Vzorecprotest G 2 (X, Y) 3 : G 2 (X, Y) = = K i=1 K i=1 L j=1 k=1 L M x ijk log M j=1 k=1 ( log ( xijk y ijk x x ijk y ijk ijk ) + K i=1 y y ijk x ijk ijk L j=1 k=1 ) M y ijk log ( yijk x ijk ) (4.12) 4.5 Hypotézy nezávislosti Zaměřím na využití logaritmicko-lineárních modelů pro kvantifikátory procedury SDKL-Miner. V následující části se operuje s funkcemi u, jejichž význam není pro pochopení důležitý(nechávám je zde pro souvislost např. s[prá85]). Funkce u se používají k výpočtu vzorce, který již operuje s prvky tabulky. Tento vzorec(bez odvození) uvádím hned za u-vzorce. Odvození je v[prá85] na str Modelseporovnávápomocítestůshody χ 2 (4.9)aG 2 (4.10) Hypotézy úplné nezávislosti Uhypotézyúplnénezávislosti H 1 předpokládám,ževšechnytřiznakyjsouvzájemněnezávislé([prá85]).tutohypotézumohuinterpretovat:množina M 1 a M 2 jsou nezávislé, atributy(antecedent a sukcedent) jsou také nezávislé. log m ijk = u+u 1 (i)+u 2 (j)+u 3 (k), m ijk = x i++ x +j+ x ++k. x Početstupňůvolnostije KLM K L M+2,pronástedy2KL K L. 2 Úpravyjsoupodobnéjakoudvojrozměrnéhopřípadu. 3 Úpravyopětpodobnédvojrozměrnémupřípadu. 89

98 4.5.2 Hypotézy sdružené nezávislosti Uhypotézysdruženénezávislosti H 2 jsoudvaznakysoučasněnezávislénatřetím znaku([prá85]). Závislost mezi prvním a druhým znakem se nevylučuje. Pro proceduru SDKL-Miner je zajímavá pouze tato kombinace(nemá smysl zkoumat nezávislost K a L bez ohledu na definici množin, de facto bych simuloval KL-Miner). Tutovariantumohuinterpretovat:Množiny M 1 a M 2 jsounezávislé(onezávislosti antecedentu a sukcedentu nic nevíme). log m ijk = u+u 1 (i)+u 2 (j)+u 3 (k)+u 12 (ij), m ijk = x ij+ x ++k x +++. Početstupňůvolnostije(KL 1)(M 1),tedy KL Hypotézy podmínečné nezávislosti Uhypotézypodmínečnénezávislosti H 3 jsoudvaznakynezávisléprokaždoupevnou hodnotu znaku třetího([prá85]). Opět mě zajímá pouze tato kombinace a ne ostatní(zkoumám nezávislost mezi první a druhou množinou). Tuto variantu mohu interpretovat:množina M 1 imnožina M 2 jsounezávislé(zajímánásspíšeopačná informace, když jedna z nich nezávislá není). log m ijk = u+u 1 (i)+u 2 (j)+u 3 (k)+u 13 (ik)+u 23 (jk), m ijk = x i+k x +jk x ++k. Početstupňůvolnostije M(K 1)(L 1),pronás2(K 1)(L 1) Hypotézy párové nezávislosti Existujeještěhypotézapárovénezávislosti H 4,kterátvrdí,žekaždédvaznakyjsou nezávislé, třetí znak interakci neovlivňuje. Tuto možnost nevyužiji, protože zkoumám odlišnosti dvou množin a ne párovou nezávislost třírozměrné kontingenční tabulky (tu pouze používám k prozkoumání nezávislosti množin) Hierarchie hypotéz nezávislosti Hypotézy H 1 až H 4 tvoříhierarchickoustrukturu(více[prá85]).pokudmáplatit hypotéza s nižším indexem, musí platit všechny kombinace hypotéz s vyššími indexy. 90

99 4.6 Hypotézy symetrie Protabulky K K 2mohuzkoumathypotézupodmíněnésymetrie.Jednáse o rozšíření dvojrozměrné symetrie na trojrozměrnou tabulku. Pro očekávané hodnoty platí([prá85]) Zřejmě platí m ijk = x ijk+ x jik. 2 m iik = x iik. Početstupňůvolnostivkaždétabulceje 1 K(K 1).Vzhledemktomu,žeprojednotlivá kzmvýsledektestu χ 2 nebo G 2 2 sčítám,zvyšujeseipočetstupňůvolnosti atona 1MK(K 1).Mám Mrovné2,tedy 1 2K(K 1)=K(K 1) Tabulky s nulovými poli Existují dva typy nulových hodnot([prá85]). První náhodné nuly vznikly utvořením antecedentu nebo sukcedentu(příliš detailní kategorie). Pokud se vyskytne pouze jedna nula, budu ji ignorovat. Pokud jich bude více, ale všechny marginální četnosti(řádkové, sloupcové a prostorové součty) a všechny očekáváné hodnoty jsou kladné(což je implikativní ze vzorců), budu je opět ignorovat. V ostatních případech nemůžu metody trojrozměrné statistiky použít([prá85] mluví o nevhodném modelu). Druhým typem jsou tabulky, kdy je některá kombinace atributů dopředu vyloučena. Takové nulové hodnoty se nazývají pevné nebo podstatné. Tabulky s pevnými nulami se nazývají neúplné tabulky. Tyto zkoumat nebudu, protože se pevné nuly vyskytují spíše zřídka. Je to však směr pro další výzkum, speciálně se zaměřením na trojúhelníkové neúplné tabulky([prá85] str.82). 91

100 Kapitola 5 Návod k používání procedury SDKL-Miner 5.1 Úvod V této kapitole projdu postupem získání, instalace a používání procedury SDKL- Miner. Zobrazím také návod pro všechny části procedury i s návodem pro použití základních aplikací systému LISp-Miner. Budu postupovat stejně jako nový uživatel systému, který má připravená data pro analýzu. Dobývání znalostí pomocí SDKL-Mineru se skládá z následujících kroků: 1. Propojení dat a metabáze(aplikace LMAdmin). 2. Označení primárních klíčů a vytvoření atributů(aplikace LMDataSource). 3. SDKL analýza a generování hypotéz(aplikace SDKLTask). 4.Prohlíženíhypotéz(aplikaceSDKLResult 1 ). 5.2 Stažení Naadrese 2 LISp-Miner instalační balíčky. Pro proceduru SDKL-Miner je nutné stáhnout soubory z části SDKL-Miner: LM.PP.zip obsahující LMAdmin, LMDataSource, LMEmpty LM.SDKL.zip obsahující SDKLTask, SDKLResult, SDKLGen 1 AplikaceSDKLResultjepřístupnápřímozaplikaceSDKLTask. 2 Všechnyodkazyjsoutestoványnafunkčnostkdatu

101 5.3 Instalace Program SDKL-Miner není nutné nijak instalovat, stačí pouze rozzipovat stažené soubory. Doporučuje se extrahovat všechny soubory do jednoho adresáře. 5.4 Příprava metabáze Veškerá data o úlohách a jejích řešeních jsou uložená v metabázi. Před samotným generováním hypotéz je tedy nutné nastavit metabázi. Propojení dat a vytvoření metabáze zajišťuje aplikace LMAdmin. Data, ze kterých se budou hypotézy generovat, je nutné mít ve formátu přístupném ODBC. Pro seznámení s projektem LISp-Miner je možné stáhnout sadu demonstračních dat z webu projektu LISp-Miner. Jedná se o data hypotetické banky Barbora. Metabáze se vytváří pozměněním prázdné metabáze, která je součástí souboru LM.PP.zip, případně je také možné stáhnout tento soubor z webu projektu LISp- Miner. Před spuštěním programu LMAdmin je vhodné přejmenovat soubor s prázdnou metabází LMempty na LM<název databáze>(jinak bychom vytvořili metabázi s názvem LMempty). Obrázek 5.1: LMAdmin úvodní obrazovka Po spuštění aplikace LMAdmin se zobrazí úvodní obrazovka(obrázek 5.1), kde se spravují metabáze. Pro vytvoření nového datového zdroje stiskněte tlačítko Create new data source. Při vytváření nového datové zdroje(obrázek 5.2) je nutné vyplnit informace o analyzovaných datech a metabázi. Analyzovaná data Analysed data představují databázi s daty. Do části nazvané LISp-Miner Metabase vložíme název dříve přejmenované prázdné metabáze. Ostatní nastavení může zůstat na přednastavených 93

102 Obrázek 5.2: LMAdmin vytváření nového datového zdroje hodnotách. Po vyplnění stiskněte tlačítko OK a potvrďte správnost nastavení(obrázek5.3). Obrázek 5.3: LMAdmin upozornění programu V hlavním okně programu LMAdmin můžeme zadávat nové uživatele, případně mazat či upravovat stávající uživatele(obrázek 5.4). Je také možné spravovat skupiny uživatelů. Pro základní práci s procedurou SDKL-Miner není nutné měnit ani přidávat uživatele, můžeme tedy aplikaci LMAdmin ukončit. 5.5 Příprava dat Aplikace LMDataSource slouží k přípravě dat pro generování hypotéz. Hlavními úkoly DataSource jsou 94

103 Obrázek 5.4: LMAdmin hlavní okno Označení primárního klíče a kontrola duplicit. Vytvoření atributů. Jednoduché zobrazení dat(frekvence, K L tabulky hodnot). Obrázek 5.5: DataSource úvodní okno Při startu aplikace(obrázek 5.5) je nutné vybrat již exitující metabázi, se kterou budeme v programu pracovat(při změně metabáze je nutné vypnout a znovu zapnout aplikaci). Hlavní okno(obrázek 5.6) zobrazuje základní informace o metabázi, její tabulky v záložce Tables, sloupce Columns, řádky Rows a textové informace o frekvencích 95

104 Obrázek 5.6: DataSource hlavní okno v záložce Frequencies. V menu Analysis se nachází znázornění zkoumaných dat(frekvenční analýza a K L kontingenční tabulky) Primární klíč Pro zadání primárního klíče vyberte položku Data Matrices z menu Database. Obrázek 5.7: DataSource seznam tabulek databáze Zobrazí se seznam všech tabulek z datábaze(obrázek 5.7). Při stisku tlačítka Re-read structure se dopočítá i počet řádků tabulek. Vyberte tabulku z databáze, 96

105 pro kterou chcete zadat primární klíč a stiskněte tlačítko Details. Obrázek 5.8: DataSource seznam sloupců tabulky Ze zobrazeného seznamu sloupců(obrázek 5.8) vyberte sloupec reprezentující primární klíč a stiskněte tlačítko Primary key. Pro zkontrolování sloupce na duplicitní hodnoty stiskněte tlačítko Check. Sloupec, který je primárním klíčem, je označen symboly 1(obrázek 5.9). Obrázek 5.9: DataSource seznam sloupců s vyznačeným primárním klíčem 97

106 5.5.2 Vytvoření atributů Pro vytváření atributů zvolte položku Attributes list v menu Database. Obrázek 5.10: DataSource seznam sloupců Vyberte sloupec ze seznamu(obrázek 5.10), ze kterého chcete vytvořit atribut a stiskněte tlačítko Create attribute. Obrázek 5.11: DataSource definice atributu 98

107 V okně definice atributu(obrázek 5.11) zvolte název atributu Name a název pro SDKLResult xx-result. V obou případech můžete nechat zaškrtnutou možnost Derive from the name of column(attribute), která převezme pojmenování z názvu sloupce(atributu). Potvrďte poté nastavení tlačítkem OK. Následně se zobrazí okno s automatickým generováním hodnot atributu. Obrázek 5.12: DataSource první možnost automatického generování První možností automatické generování je mít pro každou možnou hodnotu vlastní kategorii (viz obrázek 5.12). To má smysl zejména pro otázky s malým počtem možných odpovědí. Například: Jak často pijete čas? Nikdy, občas, často, nevím. 99

108 Obrázek 5.13: DataSource ekvidistantní automatické generování Druhou možností(obrázek 5.13) je ekvidistantní rozdělení hodnot do kategorií. V každé kategorii je poté interval se stejnou délkou. Příkladem může být atribut krevního tlaku. Obrázek 5.14: DataSource ekvifrekvenční automatické generování Třetí možností je vytvoření kategorií se(zhruba) stejným počtem prvků(obrázek 5.14). I zde může být příkladem krevní tlak. Vzniknou nám kategorie, kde v každé z nich je téměř stejný počet pacientů. Čtvrtou možností je generování kategorií na základě hodnot jiné tabulky. 100

109 Po výběru způsobu automatického generování se zobrazí okno s úplným popisem atributu(obrázek 5.15). V tomto okně můžete měnit všechny vlastnosti atributu i jeho kategorie. Například je možné sloučit některé automaticky vygenerované sloupce s nízkou četností. Obrázek 5.15: DataSource vlastnosti atributu Obrázek 5.16: DataSource frekvence vytvořených kategorií 101

110 Stiskem tlačítka Fr. analysis je možné zobrazit frekvence vytvořených kategorií (viz obrázek 5.16). Připravené kategorie mohou vypadat například jako na obrázku Připravoval jsem atribut Alkohol. Odmazal jsem kategorii neodpověděl a přejmenoval jsem ostatní hodnoty dle původního dotazníku. Obrázek 5.17: DataSource příklad nastavení atributu Nastavení kategorií je pro každý zvolený typ jiný. Pokud jsme zvolili rozdělení dle hodnot, zobrazí se nám při stisku tlačítka Category seznam hodnot, které do této kategorie patří(viz obrázek 5.18). Obrázek 5.18: DataSource nastavení kategorie(hodnoty) 102

111 Tento seznam můžeme upravovat pomocí tlačítek doleva a doprava. Při stisku tlačítka Edit můžeme měnit název kategorie. Pokud rozdělení hodnot je interval, okno kategorie je odlišné(viz obrázek 5.19). Obrázek 5.19: DataSource nastavení kategorie(interval) Můžeme do zvolené kategorie přidávat další intervaly, případně intervaly mazat. Stiskem tlačítka Edit interval se upravuje nastavení intervalu(obrázek 5.20). Obrázek 5.20: DataSource nastavení intervalu Pokud v okně kategorie zvolíme Edit category můžeme změnit název kategorie (obrázek 5.21). Obrázek 5.21: DataSource změna názvu kategorie V okně atributu můžete stiskem tlačítka Calc. freg. spočítat počet prvků v jednotlivých kategoriích. Nastavení intervalového atributu může vypadat například jako na obrázcích 5.22 nebo

112 Obrázek 5.22: DataSource příklad nastavení atributu 1 Obrázek 5.23: DataSource příklad nastavení atributu 2 104

113 5.5.3 Jednoduché prohlížení dat V hlavním okně programu LMDataSource můžeme zvolit prozkoumání vytvořených atributů(obrázek 5.24). Obrázek 5.24: DataSource menu analýzy dat Frekvenční analýza graficky zobrazuje počty prvků v jednotlivých kategoriích (obrázek 5.25). Obrázek 5.25: DataSource frekvenční analýza 105

114 Je také možné zobrazit K L kontingenční tabulku dvou atributů(obrázek 5.26). Obrázek 5.26: DataSource K L analýza atributů 5.6 Generování hypotéz Procedura SDKL-Miner slouží k vyhledání hypotéz na základě dvou K L kontingenčních tabulek. Obrázek 5.27: SDKL-Miner výběr metabáze Při startu programu je nejdříve nutné vybrat metabázi, se kterou budeme pracovat(obrázek 5.27). 106

115 Obrázek 5.28: SDKL-Miner hlavní okno V hlavním okně programu SDKL-Miner(obrázek 5.28) vidíme všechny úlohy pro generování hypotéz, které jsou již vytvořené. Při prvním spuštění je seznam prázdný a je nutné vytvořit novou úlohu. Obrázek 5.29: SDKL-Miner výběr tabulky V okně vytvoření úlohy je nejdříve nutné vybrat tabulku, pro kterou úlohu vytváříme(obrázek 5.29). 107

116 Obrázek 5.30: SDKL-Miner název úlohy úlohy. Poté se vyplní název úlohy(obrázek 5.30), případně skupina úloh a popisek Obrázek 5.31: SDKL-Miner hlavní okno úlohy 108

117 V okně zadání úlohy(obrázek 5.31) je možné upravit název procedury tlačítkem Edit. Dále je možné zadat antecedent tlačítkem Row Attributes, sukcedent Column Attributes, kvantifikátory Quantifiers, podmínku Condition, obě množiny First Set, Second Set a vztah první a druhé množiny tlačítkem Task parameters. Obrázek 5.32: SDKL-Miner antecedent V okně Antecedent je možné změnit nastavení antecedentu(obrázek 5.32). Tlačítkem Add se přidávají atributy, ze kterých se může vybírat antecedent. Obrázek 5.33: SDKL-Miner cedent Na obrázku 5.33 je okno nastavení cedentu(toto okno je společné pro všechny cedenty). Je možné změnit název cedentu a minimální a maximální počet atributů, které je možné kombinovat. 109

118 Obrázek 5.34: SDKL-Miner dvě zobrazení přidání atributu Okno přidání atributů má dvě zobrazení(obrázek 5.34), stromovou strukturu nebo seznam atributů. Tlačítkem Show tree zobrazíte stromovou strukturu atributů. Stiskem tlačítka Show list se zobrazí seznam atributů. Obrázek 5.35: SDKL-Miner vlastnosti atributu V okně nastavení atributu(literálu) je možné změnit poznámku(obrázek 5.35). Obrázek 5.36: SDKL-Miner zadání první množiny Zadávání první i druhé množiny je podobné zadávání cedentů(obrázek 5.36). 110

119 Obrázek 5.37: SDKL-Miner nastavení vlastností první množiny V nastavení množiny(obrázek 5.37) je možné měnit název množiny, počet atributů, které mohou tvořit generování množiny a vztah mezi atributy(zda se bude při více atributech používat sjednocení nebo průnik generovaných množin). Obrázek 5.38: SDKL-Miner okno výběru atributů pro první množinu Okno výběru atributu(obrázek 5.38) je opět možné zobrazit jako stromovou strukturu atributů nebo seznam atributů. Obrázek 5.39: SDKL-Miner nastavení atributu pro první množinu V nastavení atributu(obrázek 5.39) přibyla možnost, která určuje, zda se jedná 111

120 o jednu hodnotu či podmnožinu hodnot. V nastavení je také možné vybrat, jestli se jedná o pozitivní nebo negativní výskyt, či jsou možné oba. Obrázek 5.40: SDKL-Miner vztah množin pro generování V okně nastavení vztahu první a druhé množiny(obrázek 5.40) můžete nastavit, zda porovnáváme první množinu s druhou množinou, nebo první množinu se sjednocením obou množin. Obrázek 5.41: SDKL-Miner nastavení kvantifikátoru Nejdůležitější částí je výběr kvantifikátoru(obrázek 5.41). V okně přidání kvantifikátoru(obrázek 5.42) v části Quantifier type si vyberte kvantifikátor, který chcete použít. Napravo od tohoto výběru v Source contingency table(obrázek 5.42) zadejte na jakou tabulku chcete kvantifikátor použít: Pouze první tabulka. Pouze druhá tabulka. Rozdílová tabulka absolutních nebo relativních četností. (Absolutní) rozdíl hodnot kvantifikátoru pro obě tabulky. 112

121 Ve spodním řádku zadáváte podmínku, podle které se určuje, zda je tato kombinace zajímavá(obrázek 5.43). Zadává se vzhledem k hodnotě kvantifikátorů. Nejdříve vybertevztah(=, <,, >, ),potéhraničníhodnotuajejíjednotky(zdasejedná o absolutní hodnotu či relativní). Obrázek 5.42: SDKL-Miner zadání kvantifikátoru(zdroj dat) Obrázek 5.43: SDKL-Miner nastavení kvantifikátoru Po stisknu tlačítka Generate v okně zadání úlohy se spustí generování hypotéz. Po jejím dokončení se zobrazí zpráva o generování(obrázek 5.44). PostiskutlačítkaClosesevrátítedooknazadáníúlohy,kdejemožnéprovést změny v případě příliš vysokého nebo nízkého počtu hypotéz. 5.7 Prohlížení hypotéz Pokud v hlavním okně SDKLTask vybereme položku Lanuch SDKL-Result z menu Generation nebo přímo z ikonové lišty SDKL-Result, spustí se aplikace SDKLResult, kde můžeme prohlížet vygenerované hypotézy. Aplikace se spustí pro úlohu, která byla vybrána v hlavním okně aplikace SDKLTask(viz obrázek 5.45). 113

122 Obrázek 5.44: SDKL-Miner zpráva o generování Obrázek 5.45: SDKL-Miner okno prohlížení nalezených hypotéz V hlavní okně SDKLResult můžeme prohlížet hypotézy(dvojklikem). Je také možné určit způsob třídění tlačítkem Sorting. 114

123 Obrázek 5.46: SDKL-Miner třídění hypotéz V okně na obrázku 5.46 zadáváte priority a způsob třídění. Při stisku tlačítka Cedents nastavujete kritéria pro cedenty(obrázek 5.47). Obrázek 5.47: SDKL-Miner nastavení třídění cedentů Při stisku tlačítka Values v okně nastavení třídění se zobrazí okno třídění hodnot (obrázek 5.48). Obrázek 5.48: SDKL-Miner okno třídění dle hodnot Při stisku tlačítka First Set nebo Second Set se objeví okno s nastavením hodnot první či druhé množiny(obrázek 5.49). 115

124 Obrázek 5.49: SDKL-Miner třídění dle množiny Při stisku tlačítka Hypothesis length se zobrazí okno s nastavením způsobu třídení hypotéz dle délky vzestupně nebo sestupně(obrázek 5.50). Obrázek 5.50: SDKL-Miner způsob třídění hypotéz dle délky Obrázek 5.51: SDKL-Miner filtrování hypotéz 116

125 Stiskem tlačítka Filter se zobrazí okno nastavení filtru(obrázek 5.51). V okně můžete nastavit filtrování pro všechny součásti úlohy. Stiskem tlačítka Antecedent nebo Succedent se dostanete do okna nastavení filtrování pro cedenty(obrázek 5.52). Obrázek 5.52: SDKL-Miner filtrování dle cedentů V okně nastavení filtrování cedentu můžete stiskem Edit upravit vlastnosti cedentu, maximální počet atributů v cedentu a způsob filtrování(obrázek 5.53). Obrázek 5.53: SDKL-Miner úprava cedentu pro filtrování V okně nastavení filtrování cedentu stiskem tlačítka Attribute můžete upravit vlastnosti daného atributu, zejména zda je vybraný(to souvisí s nastavením filtrování celého cedentu). Okno je zobrazeno na obrázku Obrázek 5.54: SDKL-Miner filtr hypotéz dle vybraných cedentů Stiskem tlačítka First set nebo Second set v okně filtrování můžete změnit filtrování pro první nebo druhou množinu(viz obrázek 5.55). 117

126 Obrázek 5.55: SDKL-Miner filtrování první nebo druhé množiny Stiskem Edit můžete měnit základní filtrování dané množiny(obrázek 5.56). Obrázek 5.56: SDKL-Miner úprava cedentu pro filtrování dle množiny Stiskem tlačítka Attribute v okně nastavení filtrování množiny měníte základní nastavení atributu, délku koeficientů, typ vztahu a zda je vybraný(obrázek 5.57). Obrázek 5.57: SDKL-Miner nastavení atributu pro filtrování dle množiny 118

127 Pokud v hlavním okně SDKLResult vyberete hypotézu, zobrazí se okno prohlížení hypotézy. V záložce TEXT je textový výstup generování(obrázek 5.58). Obrázek 5.58: SDKL-Miner prohlížení hypotézy, textový výpis V záložce DATA jsou barevně zvýrazněná data(obrázek 5.59). Obrázek 5.59: SDKL-Miner prohlížení hypotézy, datový výpis 119

128 Záložky First set a Second set zobrazují K L kontingenční tabulky odpovídající nastavení množiny(na obrázku 5.60 první množina). Obrázek 5.60: SDKL-Miner prohlížení hypotézy, zobrazení první množiny Záložky DIFF ABS a DIFF REL zobrazují rozdílovou tabulku vyjádřenou absolutně a relativně(obrázek 5.61). Obrázek 5.61: SDKL-Miner prohlížení hypotézy, zobrazení rozdílové množiny 120

129 Kapitola 6 Testy na demonstračních datech 6.1 Příprava dat Pro testování procedury SDKL-Miner jsem vybral databázi vstupních vyšetření projektu STULONG. Tento projekt studuje rizikové faktory arterosklerózy u mužů středního věku. Rizikové faktory arterosklerózy byly sledovány u 1419 mužů v letech Přesnou specifikaci projektu, detailní podmínky sběru dat a podrobný popis atributů lze nalézt na webových stránkách projektu(viz[spsnse20], [sopsnwlm20]). Databáze obsahuje jednu tabulku s názvem Entry, která obsahuje 74 sloupců (z toho jeden je primární klíč; číslo pacienta). Naměřené hodnoty vstupního vyšetření se dělí na tématické skupiny. Dle těchto skupin rozepíšu přípravu jednotlivých atributů. Možnost neudán či nevyplněn nikdy nebude součástí atributů pro testy procedury SDKL-Miner, protože bývají málo četné a špatně interpretovatelné procedura SDKL-Miner s nimi ovšem pracovat umí. Pro každý sloupec uvedu původní tabulku četností v databázi Entry a atribut (atributy) pro proceduru SDKL-Miner Identifikační údaje Skupina Rozdělení pacientů do skupin závisí na přítomnosti rizikových faktorů, dle zdravotního stavu a podle nálezu na EKG křivce. V databázi Entry má tento sloupec název KONSKUP(viz tabulka 6.1). Rozdělení skupin bylo využito v projektu hlavně při práci s pacienty. Já ho použiji pro porovnání normální, sledované a patologické skupiny(což byla jedna z motivací pro vznik procedury SDKL-Miner). Vytvořím atribut z názvem KonSkup, kde jsou všechny použité skupiny. Přidám 121

130 Entry: KONSKUP Kód Význam Počet 1 NS-normálnískupina NSS-normálnísled.sk riziková sk. interven riziková sk. kontrol patologická sk nepřiřazeno 168 Tabulka 6.1: Entry: KONSKUP zjednodušený atribut KonSkup 3, kde jsou pouze tři skupiny: normální, riziková a patologická. Hodnoty jsou zobrazeny v tabulce 6.2. SDKL: KonSkup Skupina Počet normální 236 normální sledovaná 40 riziková intervenovaná 427 riziková kontrolní 432 patologická 114 nepřiřazeno 168 SDKL: KonSkup 3 Skupina Počet normální 276 riziková 859 patologická 114 Tabulka 6.2: Atribut KonSkup Sociální charakteristiky Rok narození pacienta Spojím roky do jedné skupiny, protože z roku 1924 je pouze jeden pacient azroku1925jejen5pacientů.zestejnéhodůvoduspojímroky1937a1938. Analogický postup lze použít vždy, když daná kategorie obsahuje příliš málo dat(je tu určitá analogie limitům požadovaným ve statistice pro počet prvků v buňce). V databázi Entry je sloupec pojmenován ROKNAR. Možné hodnoty sloupce s četnostmi jsou vypsány v tabulce 6.3. Ze sloupce vytvořím atribut z názvem Rok- Narozeni. Hodnoty atributu jsou zobrazeny v tabulce 6.4 Rok vstupu do projektu Rok vstupu do projektu je v databázi Entry pojmenován ROKVSTUP. Tento atribut nemá pro popisované zkoumání význam, proto ho vynechám. 122

131 Entry: ROKNAR Rok Počet Rok Počet Rok Počet Rok Počet Tabulka 6.3: Entry: ROKNAR SDKL: RokNarozeni Rok Počet Rok Počet Rok Počet Rok Počet Tabulka 6.4: Atribut RokNarozeni Rodinný stav Rodinný stav pacienta je v tabulce Entry označen STAV. Vynechám hodnotu vdovec, protože má nízkou četnost. Podle empirických zkušeností se ukazuje, že je vhodné zabraňovat výrazným rozdílům(řádovým) v obsahu buněk, je-li to možné. V tomto případě to však možné zcela nebylo; ženatých pacientů bylo výrazně nejvíce. Považuji tento atribut za důležitý a proto, i přes nevhodné rozdělení, ho zachovám. Atributu nechám název Stav, jeho hodnoty jsou vypsány v tabulce 6.5. Entry: STAV Kód Význam Počet 1 ženatý rozvedený svobodný 95 4 vdovec 10 5 neudáno 1 SDKL: Stav Hodnota Počet ženatý 1207 rozvedený 104 svobodný 95 Tabulka 6.5: Atribut Stav Vzdělání Atribut vzdělání ukazuje nejvyšší dosažený stupeň vzdělání pacienta. Sloupec v databázi Entry má název VZDELANI. Pro tento atribut použiju stejný název Vzdelani. Hodnoty jsou vypsané v tabulce

132 Entry: VZDELANI Kód Význam Počet 1 základní škola odborné učiliště střední škola vysoká škola neudáno 20 SDKL: Vzdelani Hodnota Počet základní 151 odborné 405 střední 444 vysoká 397 Tabulka 6.6: Atribut Vzdelani Pracovní zodpovědnost Sloupec ZODPOV v databázi Entry vyjadřuje pracovní zodpovědnost pacienta. Přidám důchodce do hodnoty ostatní, protože mají nízkou četnost(analogicky jako u atributu rodinný stav). Atribut pro proceduru SDKL-Miner nazvu stejně Zodpov. Hodnoty atributu jsou v tabulce 6.7 Entry: ZODPOV Kód Význam Počet 1 řídící pracovník částečně samost. prac ostatní důchodce pro ICHS 6 5 důchodce ostatní 19 6 neudáno 35 SDKL: Zodpov Hodnota Počet řídící pracovník 286 částečně samostatný prac. 435 ostatní 661 Tabulka 6.7: Atribut Zodpov Měsíc vstupu do projektu Měsíc vstupu do projektu(v databázi Entry sloupec s názvem MESVSTUP) zcela vynechávám, protože je pro popisované účely ještě méně podstatný než rok vstupu Tělesné aktivity Tělesná aktivita v zaměstnání Sloupec TELAKTZAM v databázi Entry vyjadřuje typ tělesné aktivita v zaměstnání. Ze sloupce vytvořím atribut TelAktZam se stejnými hodnotami. Hodnoty jsou vypsány v tabulce

133 Entry: TELAKTZAM Kód Význam Počet 1 převážně sedí převážně stojí převážně chodí přenáší těžká břemena neudáno 38 SDKL: TelAktZam Hodnota Počet sedí 739 stojí 167 chodí 373 těžká břemena 100 Tabulka 6.8: Atribut TelAktZam Tělesná aktivita po zaměstnání Tělesná aktivita po zaměstnání je v databázi Entry zadána ve sloupci AKTPOZAM. Vytvořím atribut AktPoZam se stejnými hodnotami(viz tabulka 6.9). Entry: AKTPOZAM Kód Význam Počet 1 převážně sedí mírná aktivita velká aktivita neudáno 5 SDKL: AktPoZam Hodnota Počet převážně sedí 266 mírná aktivita 1028 velká aktivita 118 Tabulka 6.9: Atribut AktPoZam Způsob dopravy do práce Sloupec DOPRAVA v databázi Entry značí způsob dopravy do práce. Hodnotu na kole jsem připojil k hodnotě pěšky, jedná se o podobný způsob přepravy(vlastní námahou) a četnost na kole je velice nízká. Pro testy vytvořím atribut Doprava s hodnotami uvedenými v tabulce Entry: DOPRAVA Kód Význam Počet 1 pěšky na kole 4 3 veřejný dopravní prostředek autem neudáno 104 SDKL: Doprava Hodnota Počet pěšky 357 MHD 776 auto 180 Tabulka 6.10: Atribut Doprava 125

134 Trvání cesty do zaměstnání Doba cesty do zaměstnání je v databázi Entry zapsána ve sloupci DOPRATRV. Pro proceduru SDKL-Miner jsem vytvořil atribut DopraTrv. Vzhledem k tomu, že první hodnota(0.5 hod) má výrazně největší četnost, spojil jsem ostatní pro účely demonstrace procedury do jedné skupiny(1+ hod). Hodnoty atributu jsou vypsány v tabulce Entry: DOPRATRV Kód Význam Počet 5 cestatrvácca 1 hod cesta trvá cca 1 hod cestatrvácca2hod cestatrvávícenež2hod. 5 9 neudáno 121 SDKL: DopraTrv Hodnota Počet 0.5hod hod 334 Tabulka 6.11: Atribut DopraTrv Alkohol Frekvence pití alkoholu V databázi Entry vyjadřuje sloupec ALKOHOL frekvenci pití alkoholu. Na základě tohoto sloupce vytvořím atribut Alkohol s hodnotami v tabulce Entry: ALKOHOL Kód Význam Počet 1 ne příležitostně pravidelně neudáno 76 SDKL: Alkohol Hodnota Počet ne 131 příležitostně 748 pravidelně 462 Tabulka 6.12: Atribut Alkohol Pivo7,Pivo10,Pivo12 Informace o typu piva zcela vynechám. Pro informaci, zda pacient pije pivo, využiju atribut PivoMn(sloupec PIVOMN z databáze Entry). Víno Sloupec VINO v databázi Entry indikuje, zda pacient pije víno. U pacientů, kteří nevyplnili ano, předpokládám, že víno nepijí. Vytvořím atribut Vino s hodnotami 126

135 dle sloupce VINO(viz tabulka 6.13). Entry: VINO Kód Význam Počet 11 ano 742 prázdný údaj 675 SDKL: Vino Hodnota Počet ano 742 ne 675 Tabulka 6.13: Atribut Vino Lihoviny Informaci, zda pacient pije lihoviny, uchovává sloupec LIHOV v databázi Entry. U pacientů, kteří nevyplnili ano, (analogicky) předpokládám, že lihoviny nepijí. V proceduře SDKL-Miner použiji atribut Lihoviny s hodnotami dle tabulky Entry: LIHOV Kód Význam Počet 12 ano 660 prázdný údaj 757 SDKL: Lihoviny Hodnota Počet ano 660 ne 757 Tabulka 6.14: Atribut Lihoviny Denní spotřeba piva Sloupec PIVOMN databáze Entry určuje množství piva, které pacient denně vypije. Tento atribut označím PivoMn a použiji ho i pro indikaci, zda pacient pije pivo. Atribut nazvu Pivo. Hodnoty obou atributů jsou v tabulce Entry: PIVOMN Kód Význam Počet 1 nepiji do 1 litru vícenežjedenlitr neudáno 19 prázdný údaj 131 Tabulka 6.15: Entry: PIVOMN Denní spotřeba vína Denní spotřeba vína reprezentuje v databázi Entry sloupec VINOMN. Tento sloupec mátřimožnéhodnoty:nepije,dopůllitru,nadpůllitru.třetíhodnota,nadpůl 127

136 SDKL: PivoMn Hodnota Počet nepije 334 do 1l 778 nad1l 157 SDKL: Pivo Hodnota Počet ne 334 ano 934 Tabulka 6.16: Atributy PivoMn a Pivo litru,jemáločetná.přisloučeníazjednodušenínaotázkuvínoano/ne,bysejen duplikoval existující atribut Vino. Proto nebudu vytvářet atribut VinoMn. Denní spotřeba lihovin Sloupec LIHMN v databázi Entry vyjadřuje denní spotřebu lihovin. Tento sloupecmůženabítjednézetříhodnot:nepije,do100cc,nad100cc.třetíhodnota, nad100cc,jeopětmáločetná.pokudbychsloučildruhouatřetímožnost,zjednodušil bych otázku na lihoviny ano/ne. Takový atribut již existuje(lihoviny). Takže atribut rovněž vynechám Dotazník A2 Bolest hrudníku Sloupec BOLHR v databázi Entry značí bolest hrudníku. Hodnoty pozitivní dotazníkap,ostatníbolestiamožnýimjsem(zdůvodunízkéčetnosti)spojilkhodnotě neischemická. Takto vzniklou hodnotu atributu BolHr jsem nazval přítomna. Hodnoty atributu jsou vypsány v tabulce Entry: BOLHR Kód Význam Počet 1 nepřítomna neischemická pozitivní dotazník AP 52 4 ostatní bolesti 19 5 možný IM 3 6 neudáno 13 SDKL: BolHR Hodnota Počet nepřítomna 1019 přítomna 385 Tabulka 6.17: Atribut BolHR 128

137 Bolest dolních končetin Informaci o bolesti dolních končetin obsahuje v databázi Entry sloupec BOLDK. Hodnotu klaudikace jsem pro nízkou četnost připojil k hodnotě neischemická. Toto sloučení jsem pojmenoval přítomna. Atribut pro proceduru SDKL-Miner se jmenuje BolDK. Výčet jeho možných hodnot je v tabulce Entry: BOLDK Kód Význam Počet 1 nepřítomna neischemická klaudikace 17 4 neudáno 5 SDKL: BolDK Hodnota Počet nepřítomna 1282 přítomna 130 Tabulka 6.18: Atribut BolDK Dušnost Sloupec DUSNOST databáze Entry obsahuje informace o dušnosti pacienta. Nebudu rozlišovat stupně dušnosti, protože mimo první stupeň je četnost velice nízká a lze je sloučit do jediné hodnoty přítomna. Nově vytvořený atribut pojmenuji Dusnost ajehohodnotyjsouvtabulce6.19. Entry: DUSNOST Kód Význam Počet 1 nepřítomna stupeň I stupeň II. 9 4 stupeň III. 1 6 stupeňiv. 15 SDKL: Dusnost Hodnota Počet nepřítomna 1210 přítomna 207 Tabulka 6.19: Atribut Dusnost Kouření Kouření Informace, zda pacient kouří, případně kolik cigaret denně, je uložena v databázi Entry ve sloupci KOURENI. Vytvořím antribut Koureni, Koureni Cigarety pouze pro kuřáky cigaret a atribut Kurak, kde pouze sleduji, zda pacient kouří. Výčet atributů je v tabulce

138 Entry: KOURENI Kód Význam Počet 1 nekuřák cigaret cigaret cigaret cigaret doutníknebodýmka neudáno 17 Tabulka 6.20: Entry: Koureni SDKL: Koureni Hodnota Počet nekuřák cigaret cigaret cigaret cigaret 346 doutník/dýmka 29 SDKL: Koureni Cigarety Cigaret Počet SDKL: Kurak Hodnota Počet ne 383 ano 1017 Tabulka 6.21: Atributy Koureni, Koureni Cigarety a Kurak Doba kouření Informace o době kouření je uložena ve sloupci DOBAKOUR databáze Entry. Hodnotyjsemvzhledemkčetnostispojildodvouskupin,do20letanad20letkouření. Takto vytvořený atribut jsem pojmenoval DobaKour. Výčet jeho hodnot je v tabulce Entry: DOBAKOUR Hodnota Počet do5roků roků roků avíceroků 647 prázdný údaj 383 SDKL: DobaKour Hodnota Počet Tabulka 6.22: Atribut DobaKour 130

139 Bývalý kuřák Informaci o tom, jak dlouho nekouří bývalý kuřák vynechám, protože počet bývalých kuřáků je příliš nízký(232 bývalých kuřáků a 1187 jiných). Tato informace je uložena ve sloupci BYVKURAK databáze Entry Cukr, káva, čaj Denní spotřeba černé kávy Denní spotřeba černé kávy je v databázi Entry uschována ve sloupci KAVA. Pro tuto vlastnost vytvořím atribut Kava. Hodnoty atributu jsou v tabulce Entry: KAVA Kód Význam Počet 1 nepiji šálky avícešálků neudáno 28 SDKL: Kava Hodnota Počet nepiji šálky 643 3avícešálků 258 Tabulka 6.23: Kava Denní spotřeba čaje Ve sloupci CAJ databáze Entry je uložena informace o denní spotřebě čaje. V proceduře SDKL-Miner tuto informaci obsahuje atribut Caj. Hodnoty atributu jsou vypsány v tabulce Entry: CAJ Kód Význam Počet 4 nepiji šálky avícešálků neudáno 34 SDKL: Caj Hodnota Počet nepiji šálky 755 3avícešálků 102 Tabulka 6.24: Caj Denní spotřeba cukru Sloupec CUKR databáze Entry obsahuje denní spotřebu cukru vyjádřenou v kostkách cukru(viz tabulka 6.25). Dle frekvencí jednotlivých hodnot je vhodné tři rozdělení.vytvořímatributcukr10s10hodnotami,atributcukr5s5hodnotamia 131

140 atribut Cukr 3 se 3 hodnotami. Hodnoty jednotlivých atributů jsou vyčteny v tabulce Entry: CUKR Kostek Počet Kostek Počet Kostek Počet Kostek Počet chybí 96 Tabulka 6.25: Četnosti sloupce Cukr v tabulce Entry SDKL: Cukr 10 Kostek Počet SDKL:Cukr5 Kostek Počet Tabulka6.26:AtributyCukr10,Cukr5aCukr3 SDKL:Cukr3 Kostek Počet Osobní anamnéza Infarkt myokardu Informace o infarktu myokardu jsou uloženy ve sloupci IM databáze Entry. Ačkoliv má atribut infarkt myokardu málo kladných odpovědí, přidám jej mezi vybrané atributy pod názvem InfarktMyo. Mohly by se zde objevit zajímavé souvislosti. Hodnoty atributu jsou vypsány v tabulce Infarkt myokardu léčba, trvání Dodatečné informace o infarktu myokardu vynechám(týká se to velmi malé podskupiny pacientů). Jedná se o sloupce IML a IMTRV databáze Entry. 132

141 Entry: IM Hodnota Počet ano 34 ne 1378 neudáno 5 SDKL: InfarktMyo Hodnota Počet ano 34 ne 1378 Tabulka 6.27: Atribut InfarktMyo Hypertenze Sloupec HT databáze Entry nese informace, zda pacient má vysoký tlak(hypertenzi). Vytvořil jsem atribut Hypertenze s hodnotami uvedenými v tabulce Entry: HT Kód Význam Počet 1 ano ne neudáno 5 SDKL: Hypertenze Hodnota Počet ano 220 ne 1192 Tabulka 6.28: Atribut Hypertenze Hypertenze dieta, léčba Informace o tom, zda byla hypertenze léčena dietou, má velice nízkou četnost(19 kladných odpovědí), proto ji vynechám. Ze stejných důvodů vynechám i informaci, jestli byla hypertenze léčena léky. Tyto vlastnosti v databázi Entry reprezentují sloupcehtdprodietuahtlproléčbu. Trvání hypertenze Sloupec HTTRV v databázi Entry obsahuje informaci, před kolika lety byla zjištěna hypertenze(viz tabulka 6.29). Z frekvence odpovědí vyplývá, že pro vyšší čísla byla častá odpověď 10 nebo 20 let, uzpůsobím tedy nové kategorie, aby to respektovaly. Vytvořím atribut HypertenzeTrv s hodnatami dle tabulky Ictus Informace o ictu vynechávám, týká se pouze 2 pacientů. V databázi Entry se jedná o sloupce ICT pro informaci, zda se vyskytl ictus, sloupec ICTL pro informaci, zda byl ictus léčen a sloupec ICTTRV, který vyjadřuje dobu trvaní ictu. 133

142 Entry: HTTRV Let Počet Let Počet Let Počet Let Počet chybí 1215 Tabulka 6.29: Entry: HTTRV SDKL: HypertenzeTrv Let Počet Tabulka 6.30: Atribut HypertenzeTrv Diabetes Sloupec DIABET databáze Entry obsahuje informace, zda pacient má diabetes. Ačkolivjeutohotoatributuvelikýrozdílmeziodpověďmianoane,rozhodljsemse ho zachovat, protože(po konzultaci s lékaři) je informace o této nemoci zajímavá. Vytvořil jsem atribut Diabetes s hodnotami dle tabulky Entry: DIABET Hodnota Počet ano 30 ne 1378 neudáno 9 SDKL: Diabet Hodnota Počet ano 30 ne 1378 Tabulka 6.31: Atribut Diabet Diabetes- dieta, léčba Sloupec DIABD reprezentuje pacienty trpící diabetes, kteří měli dietu. Sloupec DI- ABL obsahuje pacienty s diabetes léčených léky. Informace, zda byl pacient s diabetesléčendietouazdabylléčenléky,jsouvšakvelicevzácné,celkem18výskytů pro DIABD a 8 výskytů pro DIABL. Proto tyto atributy zcela vynechám. 134

143 Trvání diabetes Sloupec DIABTRV v databázi Entry nese informaci, před kolika lety byl zjištěn diabetes. Rozdělení 23 pacientů byť i do dvou skupin by nemělo příliš velkou vypovídací hodnotu. Proto atribut pro sloupec DIABTRV nebudu vytvářet. Hyperlipidemie Pro velice nízkou četnost všechny informace o hyperlipidemii vynechávám. Jedná se o následující sloupce databáze Entry: sloupec HYPL, který říká, zda pacient má hyperlipidemii, sloupec HYPLD, který informuje o dietě, sloupec HYPLL, jež indukuje, zda pacient bral léky na hyperlipidemii, a sloupec HYPLTRV, který obsahuje trvání nemoci v letech Fyzikální vyšetření Výška Sloupec VYSKA databáze Entry obsahuje data o výšce pacienta. Data byla naměřena v rozpětí cm. Naměřená data jsou vypsána v tabulce Vytvořím atribut Vyska i5 se skupinami po 5 bodech a spojením krajních málo četných skupin. Dále přidám atribut Vyska 4 pro rozdělení hodnot do 4(zhruba) stejně četných skupin. Hodnoty těchto dvou atributů jsou v tabulce 6.32 SDKL: Vyska i5 Hodnoty Počet 140; 165) ; 170) ; 175) ; 180) ; 185) ; 200) 129 SDKL: Vyska 4 Hodnoty Počet 148; 172) ; 176) ; 180) ; Tabulka6.32:AtributyVyskai5aVyska4 Pro testováni procedury SDKL-Miner použiji atribut Vyska T. Tento atribut jezcelashodnýsdatysloupcevyskavtabulceentry.takovýatributnenípříliš vhodný pro dobývání znalostí z databází, pro testování procedury SDKL-Miner na řídkých datech může být však zajímavý. Tento atribut je popsán tabulkou

144 SDKL: Vyska T, Entry: Vyska cm # cm # cm # cm # cm # cm # cm # chybí Tabulka 6.33: Atribut Vyska T(shodný s daty ze sloupce VYSKA databáze Entry) Váha Váha pacienta(sloupec VAHA v databázi Entry, hodnoty jsou v tabulce 6.35) byla naměřena v rozmezí kg. Vytvořím atribut Vaha i10 s rozdělením po 10 bodech a spojením krajních skupin. Dále vytvořím ekvifrekvenční rozdělení Vaha 5 s 5 skupinami a atribut Vaha 3 pro 3 skupiny. Hodnoty těchto atributů jsou vypsány v tabulce SDKL: Vaha i10 Hodnoty Počet 50;70) ;80) ;90) ; 100) ; 140) 82 SDKL:Vaha5 Hodnoty Počet 52;72) ;77) ;83) ;90) ; SDKL:Vaha3 Hodnoty Počet 52;75) ;84) ; Tabulka6.34:AtributyVahai10,Vaha5aVaha3 Pro účely testování procedury SDKL-Miner přidám nevhodný atribut Vaha T (tento atribut je shodný s daty v databáze Entry), kde bude kompletní výčet všech hodnot(viz tabulka 6.35). Přidám ještě jeden testovací atribut Vaha Ti5, rozdělení do skupin po 5 bodech bez spojení extrémních hodnot. Atribut je vyčten v tabulce BMI IndexBMI(BodyMassIndex)nenívpůvodníchdatechtabulkyEntry,dásevšak snadno vypočítat dle vztahu BMI= váha[kg] výška 2 [m 2 ]. 136

145 SDKL: Vaha T, Entry: Vaha kg # kg # kg # kg # kg # kg # kg # chybí 5 Tabulka 6.35: Atribut Vaha T(data jsou shodná s sloupcem VAHA) SDKL: Vaha Ti5 kg # kg # kg # kg # 50;55) 3 75;80) ;105) ;130) 2 55;60) 16 80;85) ;110) ;135) 2 60;65) 66 85;90) ;115) 17 65;70) ;95) ;120) 3 70;75) ;100) ;125) 5 Tabulka 6.36: Atribut Vaha Ti5 Použiju-li data z tabulky Entry, musím výšku přepočíst z centimetrů na metry. Vzorec BMI tedy bude BMI= VAHA ) 2. ( VYSKA 100 Hodnoty BMI rozdělím do čtyř kategorií dle WHO. Rozmezí 0; 18, 5 značí podváhu. Interval 18, 5; 25) vyjadřuje normální váhu a interval 25; 30) označuje nadváhu. Poslední rozmezí 30; ) je pro obezitu. V atributu BMI vynechám kategorii podváha, protože se v ní vyskytli pouze 4 pacienti(nebudu však rozšiřovat kategorii normální). Hodnoty atributu jsou v tabulce Systolický tlak Dvě měření systolického tlaku ze sloupců SYST1 a SYST2 databáze Entry spojím do jednoho sloupce Syst. První měření může být spojeno s určitým stresem pacienta a proto jsem dal druhému měření dvojnásobnou váhu. Hodnoty sloupce Syst jsou 137

146 Entry: BMI Hodnota Počet 18,5;25) ;30) ;45) 148 Tabulka 6.37: BMI spočítány pro každého pacienta podle vztahu Syst= Syst1+2 Syst2. 3 Pro tento sloupec vytvořím rozdělení Syst i10 po 10 bodech, kde spojím položky s velmi nízkým výskytem. Dále vytvořím atributy Syst 3 a Syst 5 s ekvifrekvenčnímrozdělenímdo3a5skupin(jednáseoagregacivhodnouproukázánívyužití procedury SDKL-Miner, reálná aplikace vyžaduje přesnou konzultaci odborníka). Z důvodu velkého množství hodnot neuvedu vypočítaný sloupec Syst, ale pouze atributy, které budu používat(viz tabulka 6.38). Přehled hodnot sloupců SYST1 a SYST2 je na webových stránkách projektu STULONG([spSnsE20],[sopSnwLM20]). SDKL: Syst i10 Hodnota Počet 70;110) ; 120) ; 130) ; 140) ; 150) ; 160) ; 220) 97 SDKL:Syst5 Hodnota Počet 76; 116) ; 124) ; 133) ; 144) ; 218) 273 SDKL:Syst3 Hodnota Počet 76; 121) ; 136) ; 218) 482 Tabulka6.38:AtributySysti10,Syst5aSyst3 Diastolický tlak Dvě měření diastolického tlaku(sloupce DIAST1, DIAST2) opět spojím do jednoho sloupce Diast. První měření může být(dle lékařů) spojeno s určitým stresem pacienta, a proto můžu považovat druhé měření za důležitější. Dal jsem tedy druhému měření dvojnásobnou váhu. Sloupec Diast je tedy spočítán podle vzorce Diast= Diast1+2 Diast

147 Pro tento sloupec vytvořím atribut Diast i10, rozdělení po 10 bodech se spojením položeksvelminízkýmvýskytem.dálevytvořímatributydiast3adiast5sekvifrekvenčním rozdělením do 3 a 5 skupin. Z důvodu velkého množství hodnot neuvedu vypočítaný atribut Diast, ale pouze atributy, které budu používat. Ty jsou vypsány v tabulce SDKL: Diast i10 Diast Počet 50; 70) 86 70;80) ;90) ; 100) ; 150) 131 SDKL: Diast 3 Diast Počet 50;80) ;90) ; 150) 440 SDKL: Diast 5 Diast Počet 50;75) ;81) ;86) ;91) ; 150) 275 Tabulka6.39:AtributyDiasti10,Diast3aDiast5 Kožní řasa tricep Kožní řasa triceps byla naměřena v rozmězí 1 35 mm(sloupec TRIC databáze Entry). Detailní rozpis hodnot je na webových stránkách projektu STULONG(viz [spsnse20],[sopsnwlm20]). Vytvořím ekvidistantní rozdělení Triceps i5 v intervalu po 5 bodech se sloučením extrémních hodnot. Dále přidám ekvifrekvenční atributy s 3 a 5 skupinami, Triceps 3 a Triceps 5. Intervaly, včetně četností, těchto atributů jsou v tabulce SDKL: Triceps i5 Hodnota Počet 0; 5) 103 5; 10) ;15) ;20) ; SDKL: Triceps 5 Hodnota Počet 1; 7) 277 7; 9) 277 9; 11) ;14) ; SDKL: Triceps 3 Hodnota Počet 1; 8) 400 8; 11) ;35) 438 Tabulka 6.40: Atributy Triceps i5, Triceps 5 a Triceps 3 Kožní řasa subscapular Kožní řasa subscapular byla naměřena v rozmezí 4 70 mm(sloupec SUBSC databáze Entry). Detailní rozpis hodnot je na webových stránkách projektu STULONG(viz [spsnse20],[sopsnwlm20]). 139

148 Vytvořím ekvidistantní atribut Subscapular i5, interval po 5 bodech se spojením extrémních hodnot. Dále přidám ekvifrekvenční rozdělení Subscapular 3 a Subscapular5do3a5skupin.Tytoatributyjsouvypsányvtabulce6.41. SDKL: Subscapular i5 Hodnota Počet 0; 10) 80 10; 15) ; 20) ; 25) ; 30) ; 35) 71 35; 40) 42 40; 75) 37 SDKL: Subscapular 5 Hodnota Počet 4; 13) ; 17) ; 20) ; 25) ; SDKL: Subscapular 3 Hodnota Počet 4; 16) ; 21) ; Tabulka 6.41: Atributy Subscapular i5, Subscapular 5 a Subscapular Biochemické vyšetření Cholesterol Informace o cholesterolu byla naměřena v rozmezí mmg, celkem 224 hodnot (sloupec CHLST databáze Entry). Detailní rozpis hodnot je na webových stránkách projektu STULONG(viz[spSnsE20],[sopSnwLM20]). Vytvořím ekvidistantní rozdělení Cholesterol i10 s intervalem po 10 bodech a spojením intervalů s nízkou četností. Tento atribut je v tabulce SDKL: Cholesterol i10 Chol. # Chol. # Chol. # Chol. # 110; 160) ; 210) ; 260) ; 310) ; 170) ; 220) ; 270) ; 320) ; 180) ; 230) ; 280) ; 330) ; 190) ; 240) ; 290) ; 350) ; 200) ; 250) ; 300) ; 540) 20 Tabulka 6.42: Atribut Cholesterol i10 Vytvořím také ekvidistantní atribut Cholesterol i50 s intervalem po 50 mmg a spojením extrémních hodnot. Dále přidám ekvifrekvenční rozdělení Cholesterol 3 do 3 skupin. Tabulka 6.43 obsahuje hodnoty a četnosti těchto atributů. 140

149 SDKL: Cholesterol i50 Cholesterol Počet 100; 200) ; 250) ; 300) ; 550) 114 SDKL: Cholesterol 3 Cholesterol Počet 112; 214) ; 251) ; 530) 468 Tabulka 6.43: Atributy Cholesterol i50 a Cholesterol 3 Triglyceridy Sloupec TRIGL v databázi Entry obsahuje informace o triglyceridech. Data byla naměřena v rozpětí mmg. Detailní rozpis hodnot je na webových stránkách projektu STULONG(viz[spSnsE20],[sopSnwLM20]). Vytvořím ekvidistantní rozdělení po 50 bodech Trigl i50 se spojením krajních, málo četných, hodnot. Přidám také ekvifrekvenční atributy Trigl 3 a Trigl 5, které rozdělí pacienty do tří či pěti stejně četných skupin. Atributy jsou v tabulce SDKL: Trigl i50 Hodnoty Počet 0; 100) ; 150) ; 250) ; 1200) 137 SDKL: Trigl 5 Hodnoty Počet 28; 101) ; 129) ; 163) ; 210) ; SDKL: Trigl 3 Hodnoty Počet 28; 119) ; 176) ; Tabulka6.44:AtributyTrigli50,Trigl5aTrigl3 Moč Sloupec MOC databáze Entry sleduje, zda se v moči pacienta vyskytuje cukr nebo bílkoviny(obojí současně není možné). Jak výskyt cukru, tak i bílkovin v moči je velmi nízký(31 a 17 výskytů proti 1352 pacientům bez naměřené zvýšené hladiny cukru či bílkovin). Z tohoto sloupce proto atribut pro proceduru SDKL-Miner vytvářet nebudu Rizikové faktory Pozitivní rodinná anamnéza Informace, zda má pacient pozitivní rodinnou anamnézu, je uložena ve sloupci RA- RISK databáze Entry. Vytvořím atribut RARisk reprezentující tuto informaci. Jeho 141

150 hodnoty jsou v tabulce Entry: RARISK Kód Význam Počet 0 ne ano nezadáno 9 SDKL: RARisk Hodnota Počet ne 1158 ano 250 Tabulka 6.45: Atribut RARisk Riziko plynoucí z obezity Riziko plynoucí z obezity pacienta je indikováno sloupcem OBEZRISK databáze Entry. Pro tento sloupec vznikne atribut ObezRisk s hodnotami uvedenými v tabulce Entry: OBEZRISK Kód Význam Počet 0 ne ano nezadáno 8 SDKL: ObezRisk Hodnota Počet ne 1104 ano 305 Tabulka 6.46: Atribut ObezRisk Riziko plynoucí z kouření Rizikoví pacienti z důvodu kouření(sloupec KOURRISK databáze Entry). Pro tuto informaci vytvořím atribut KourRisk s hodnotami vypsanými v tabulce Entry: KOURRISK Kód Význam Počet 0 ne ano nezadáno 1 SDKL: KourRisk Hodnota Počet ne 796 ano 620 Tabulka 6.47: Atribut KourRisk Riziko plynoucí z vysokého krevního tlaku Riziko plynoucí z vysokého krevního tlaku pacientu(sloupec HTRISK databáze Entry). Pro tento sloupec vytvořím atribut HtRisk s hodnotami dle tabulky

151 Entry: HTRISK Kód Význam Počet 0 ne ano nezadáno 38 SDKL: HtRisk Hodnota Počet ne 1029 ano 350 Tabulka 6.48: HtRisk Riziko plynoucí z cholesterolu Informace o riziku plynoucím z vysoké úrovně cholesterolu v krvi pacienta je uložena ve sloupci s názvem CHOLRISK databáze Entry. Tato data bude v proceduře SDKL- Miner reprezentovat atribut CholRisk. Jeho hodnoty jsou vypsány v tabulce Entry: CHOLRISK Kód Význam Počet 0 ne ano nezadáno 15 SDKL: CholRisk Hodnota Počet ne 1021 ano 381 Tabulka 6.49: CholRisk 6.2 Testování V části testování popíšu jednotlivé testovací běhy procedury SDKL-Miner. Pracoval jsem s daty ENTRY projektu STULONG. Nejdříve jsem spustil proceduru SDKL-Miner bez jakéhokoliv omezení. Podle výsledků a objevených problémů jsem postupně upřesňoval zadání antecedentu, sukcedentu, první i druhé množiny(případně i podmínky). V druhém bloku testů jsem se zabýval porovnáním jednotlivých skupin pacientů, to bylo i motivací pro vznik procedury SDKL-Miner. Na závěr jsem provedl test, kde vstupem byly špatně vytvořené atributy(příliš mnoho kategorií) První test V prvním testu může být antecedentem i sukcedentem libovolný atribut(mimo testovacích atributů), celkem 56 atributů. První i druhá množina obsahuje shodné atributy, oproti antecedentu a sukcedentu jsem vynechal atributy s vysokým počtem kategorií. Prvním důvodem vynechání je snaha o udržení určité vypovídací hodnoty výsledku, tedy aby reprezentoval 143

152 velkou část pacientů. Druhým důvodem je výpočetní čas, omezením atributů na 35 z původních 56 se čas zmenšil zhruba na polovinu. Byly totiž vyčleněny atributy, u kterých se musely vytvářet množiny hodnot, aby atribut obsahoval dostatek pacientů pro výpočet(pracoval jsem s limitem 50% pacientů na kontingenční tabulku). Zůstaly pouze atributy s maximálně 4 hodnotami. U každé kategorie jsem chtěl zajistit, aby se porovnaly všechny možné podmnožiny(mimo celé množiny). Mám k dispozici nastavení délky podmnožiny(resp. nastavení počtu hodnot, které akceptuji) a určení, zda se použije tato množina, její doplněk či postupně oboje. Pro dvě hodnoty je nastavení zcela jednoduché, existuje pouze jedna kombinace A B (množiny jsou pro jednoduchý kvantifikátor záměnné). Nastavím délku 1 (maximální počet hodnot ve sjednocení), pro první i druhou množinu se použije pouze pozitivní výskyt. Pro tři hodnoty je nastavení množin složitější. Označím-li hodnoty postupně A, B, C, chci porovnat tyto kombinace: A B A C B C A BC B AC C AB Vypsaných kombinací docílím nastavením první množiny na pozitivní podmnožiny délky jedna a nastavením druhé množiny na pozitivní i negativní podmnožiny délkyjedna 1. Pročtyřihodnotysiopětoznačímmožnéhodnoty A, B, C, Dabuduchtítporovnávat následující kombinace: A B A C A D B C B D C D A BC A BD A CD B AC B AD B CD C AB C AD C BD D AB D AC D BC A BCD B ACD C ABD D ABC AB CD AC BD AD BC Všech kombinací je možné dosáhnout pomocí nastavení první množiny na pozitivní podmnožiny o maximální délce dva a druhé množiny na pozitivní i negativní podmnožiny maximální délky dva. Použil jsem kvantifikátor absolutního součtu relativních rozdílů jednotlivých K L kontingenční tabulek. Buňky K L kontingenční tabulky pro první množinu se 1 Vtestechjsemomylemzadalpozitivníinegativnídélkydvě,cožnijakneovlivňujevýsledky. 144

153 vyjádří relativně vůči celé první množině. Obdobně pro druhou množinu. Tyto relativně vyjádřené tabulky množin se navzájem odečtou(rozdílová tabulka obsahuje pouze kladná čísla, hodnotu odchylky) a výsledná tabulka se sečte. Matematicky zapsáno K L RM1ij RM 2ij, i=1 j=1 kde RM 1 jetabulkarelativníchčetnostíprvnímnožiny,tedy RM 1ij =100 K M 1ij i=1 j=1. L M 1ij Obdobněprodruhoumnožinu.Tabulky M 1, M 2 jsouvyjádřenímčetnostídvou atributů(antecedentu a sukcedentu) při omezení na vybrané množiny. Tyto množiny se generují automaticky. Zřejmě je minimální součet nula a maximální součet 200%. Pro první test jsem nastavil absolutní součet relativního rozdílu vyjádřených množin(dále budu často psát zkráceně limit ) na mininálně 160%. Každá množina musí mít alespoň 700 prvků(tedy 50% celku). Množiny nemusí být disjunktní (z uvedeného zadání by disjunkce byla spíše náhodou). Testování jsem prováděl na dvou strojích. Tento běh byl proveden na počítači osazeném procesorem Intel Core 2 Duo s frekvencí 2,13 GHz, frekvencí základní desky1033mhz,2gbramddr2,pevnémdiskus7200otáčkamiaoperačním systémmicrosoftvistaultimate 2. Generování trvalo 6:48:33[h:m:s](dále budu časové údaje v tomto tvaru uvádět bez jednotek), během kterých bylo zkontrolováno kombinací( verifikací za sekundu), z nichž vzešlo 142 hypotéz. Protokol testu je v příloze A. Při setřídění hypotéz podle hodnoty součtu(obrázek 6.1) jsem zjistil, že je nevhodné mít v definici množiny atributy, které vytvářejí vyznačné nuly(kombinace, které nemohou nastat). Dále jsem zjistil, že není vhodné, aby jeden z atributů byl současně definicí množiny(zde KourRisk). 2 ProceduraSDKL-Minernepodporujevíceprocesorovésystémy,bylvyužitjedenprocesor. 145

154 Obrázek 6.1: Výsledek prvního testu. Problém s atributem KourRisk. 146

155 6.2.2 Druhý test Provedl jsem druhý test, kde jsem z definice množin vynechal atribut KourRiskostatní nastavení atributů a množin je shodné s testem A(6.2.1). Kvantifikátor byl také nastaven obdobně jako při prvním testu, pouze jsem snížil hranici na 140% (při 160% nebyla nalezena žádná hypotéza). Vzhledem k tomu, že v prvním testu nebyla hypotéza s podmínkou, omezil jsem podmínky pouze na dvě, dle mého názoru nejnadějnější. Jedná se o Stav(ženatý) a Zodpov(částečně samostatný pracovník). Součástí je samozřejmě i generování bez podmínky. Protokol druhého testu je v příloze B. Doba generování hypotéz byla 2:33:29, přinalezení1126hypotézz verifikací.zkráceníčasubylodosaženovynecháním velkého množství podmínek. V druhém testu se objevil podobný problém jako v testu prvním. Kombinace informací o kouření v definici antecedentu či sukcedentu a v definici jednotlivých množin opět vytváří pevné nuly(obrázek 6.2). V první množině jsou pouze kuřáci. V druhé množině kuřáci cigaret(21 a více cigaret, resp. doplněk k 1 20). Antencedentem je informace o kouření a sukcedentem je informace o riziku kouření KourRisk. Koureni Kurak(ano) KoureniCigarety(21+) KourRisk ano ne ano ne nekuřák cigarety 0 45 X X 5-14 cigaret X X cigaret X X 21+ cigaret doutník nebo dýmka 0 29 X X Tabulka 6.50: Hypotéza z druhého testu Vtabulce6.50jsemoznačilpísmenem Xbuňky,kdemůžebýtpouzehodnota0. Tyto nuly silně ovlivňují výsledek(s jedinou výjimkou, kdy jsou pevné nuly na stejných místech i v první množině). Tento problém není možné řešit programem, je nutné zajistit správný vstup(aplikace nezná souvislosti dat). Je tedy možné říct, že tento test je špatně navržený. Stejnýproblémjemožnévidětinaobrázku6.3. Hledání největšího rozdílu je velice závislé na zadání generování, nelze spustit hledání pro všechny možnosti s tím, že se v datech objeví nadějná hypotéza. Hledání nejodlišnější dvojice nyní přeruším a vyzkouším vyhledat nejpodobnější pár. 147

156 Obrázek 6.2: Výsledek druhého testu. Problém s kouřením. 148

157 Obrázek 6.3: Výsledek druhého testu. Problém se vzděláním. 149

158 6.2.3 Třetí test Nyní vyhledám nejpodobnější dvojici K L kontingenčních tabulek. Nastavení antecedentu, sukcedentu a obou množin jsem ponechal jako v druhém testu. Nejdříve jsem nastavil limit na 10%. Velice brzy počet nalezených hypotéz překročil hranici 10000(limit, při kterém se vynuceně ukončí generování). Postupným snižovánímjsemnašelhodnotu0,2%,prokteroujsemnalezl4754hypotézz verifikací v čase 2:34:17. Nastavil jsem také, že množiny nesmí být naprosto shodné (součet roven 0), protože při automatickém generování by se použily stejné definice obou množin(tomu se nedá snadno zabránit). Protokol třetího testu je v příloze C. Opět se prokázalo, že pevné nuly znehodnocují hypotézy. Tentokrát ukážu rozpis jedné hypotézy. Výpis této hypotézy je v příloze D. V detailech první množiny(obrázek 6.5) nemůže být v prvním sloupci nic jiného než0(abyseupacientamohlohovořitodoběkouřenímusínejdřívekouřit). V detailech druhé množiny(obrázek 6.6) není v prvním sloupci žádné nenulové číslo. Domnívám se, že kouřící pacienti jsou automaticky ve skupině s rizikem vysokého krevního tlaku, tedy 0 jsou opět pevné. V rozdílové tabulce(tabulka 6.7) jsou v prvním sloupci 0(pevné). Vzhledem k tomu, že tato hypotéza je vyhodnocena jako nejnadějnější, bude zajímavé zkoumat porovnávání různě velkých kontingenčních tabulek- nyní jsem vlastně pracoval stabulkou

159 Obrázek 6.4: Výsledek třetího testu 151

160 Obrázek 6.5: Hypotéza třetího testu, grafické zobrazení první množiny Obrázek 6.6: Hypotéza třetího testu, grafické zobrazení druhé množiny 152

161 Obrázek 6.7: Hypotéza třetího testu, grafické zobrazení rozdílové tabulky 153

162 6.2.4 Čtvrtý test Pro čtvrtý test jsem použil nastavení třetího testu, ale snížil jsem hranici pro přijetí namaximálně0,05%.bylo nalezeno798hypotézz verifikací včase 2:37:56. Protokol tohotu testu je v příloze E. Při tomto testu se objevil podobný problém jako u předchozích testů. Závislost antecedentu nebo sukcedentu na definici první nebo druhé množiny byla nahrazena závislostí definice antecedentu nebo sukcedentu na podmínce. Na obrázku 6.8 se zaměřím na první hypotézu závislosti Kurak a Stav pro definice množin Vzdelani(odborné,střední) a Trigl( 28; 119)) s podmínkou Stav(ženatý). Matice pro první množinu (obrázek 6.9) obsahuje hodnoty pouze v prvním sloupci, což je způsobeno podmínkou shodnou se sukcedentem. Kontingenční tabulka pro druhou množinu(obrázek 6.10) má obdobnou vadu. Rozdílová tabulka je zobrazena na obrázku Opět se objevuje otázka, zda existuje závislost výsledku generování hypotéz na rozměrech K L kontingenční tabulky, zde se matice 3 2 redukovala na matice orozměrech1 2. Ve čtvrtém testu jsem našel zajímavou hypotézu. Antecedentem byl atribut Diabet a sukcedentem atribut DopraTrv. První množina byla vymezená vlastností Vzdelani(odborné,vysoké)(obrázek 6.12). Druhá množina obrázek 6.13 obsahuje doplněk k Koureni Cigarety(15 20), tedy Kouření Cigarety(1 14,21+). Rozdílová tabulka(obrázek 6.14) zobrazila(po zaokrouhlení) samé nuly. 154

163 Obrázek 6.8: Výsledek čtvrtého testu. Problém s podmínkami 155

164 Obrázek 6.9: Hypotéza čtvrtého testu, grafické zobrazení první množiny Obrázek 6.10: Hypotéza čtvrtého testu, grafické zobrazení druhé množiny 156

165 Obrázek 6.11: Hypotéza čtvrtého testu, grafické zobrazení rozdílové tabulky Obrázek 6.12: Zajímavá hypotéza čtvrtého testu, grafické zobrazení první množiny 157

166 Obrázek 6.13: Zajímavá hypotéza čtvrtého testu, grafické zobrazení druhé množiny Obrázek 6.14: Hypotéza čtvrtého testu, grafické zobrazení rozdílové tabulky 158

167 6.2.5 Pátý test V tomto testu snížím hranici na počet prvků(pacientů) v jednotlivých množinách ze700na140(z50%na10%),ostatnínastaveníponechám.limitje0,01%. Testnalezl1846hypotézz verifikacívčase2:33:12.Protokoltohoto testujevpřílozef. Obrázek 6.15: Výsledky pátého testu Opět se projevilo znehodnocení výsledku kombinováním stejného atributu v podmínce a antecedentu či sukcedentu(obrázek 6.15). 159

168 Program nalezl zajímavou hypotézu: závislost Hypertenze a InfarktMyo(infarkt myokardu), pro množiny pacientů, kteří nepijí čaj a nepijí kafe nebo pijí alespoň 3 šálky, respektive Kava(1 2 šálky), za podmínky výběru pouze z pacientů, kteří mají zodpovědnost částečně samostatný pracovník. Tato hypotéza je na obrázku 6.16 zvýrazněna modře. Obrázek 6.16: Zajímavá hypotéza pátého testu 160

169 6.2.6 Šestý test V následujících testech se budu zabývat závislostí rozměrů kontingenční tabulky na výsledku. Zejména chci prozkoumat domněnku, že menší tabulky snáze splňují kritéria jednoduchého kvantifikátoru. Antecedentem i sukcedentem jsou atributy s pěti hodnotami. Definici první a druhémnožinyjsempřevzalzminulýchtestů 3.Zdefinicemnožinyjsemodebral atributy použité v antecedentu a sukcedentu, včetně příbuzných atributů(i s počtem hodnot odlišným od pěti). Také jsem vynechal atribut vygenerovaný z atributů použitých v antecedentu a sukcedentu, zde se jednalo o atribut BMI(viz 6.1.9). Snažím se vyhnout problému pevných nul, kdy kombinace stejného atributu v antecedentu nebo sukcedentu a definice jedné z množin(případně podmínky) vytváří buňky, které vždy obsahují nulu. Limit přijetí hypotézy je 50%(pro limit 60% nebyly hypotézy nalezeny). Testnašel74hypotézz verifikacívčase14minuta19sekund.Tentotest jsem prováděl na druhém počítači Acer Aspire řady 1800, procesor Intel Pentium IV3,2GHz,kmitočetsběrnice800MHz,operačnípamětDDR1GBpřirychlosti 333MHz,disk7200otáček 4.ProtokoltestujevpřílozeG.Výsledkytestujsou na obrázku Zmínímjednuzajímavouhypotézu.JednáseovztahDiast5aVaha5promnožiny Vyska 4( 148; 176)) a doplněk k Vyska 4( 148; 172)). První množina je zobrazena na obrázku 6.18, druhá množina je na obrázku Rozdílová tabulka je na obrázku Opraviljsemchybuvzadánídruhémnožiny,prodélku3jenastavenamaximálnídélkapouze na hodnotu 1. 4 ProceduraSDKL-Minernepodporujevíceprocesorovésystémy,bylvyužitjedenprocesor. 161

170 Obrázek 6.17: Zajímavá hypotéza šestého testu 162

171 Obrázek 6.18: Zajímavá hypotéza šestého testu, první množina Obrázek 6.19: Zajímavá hypotéza šestého testu, druhá množina 163

172 Obrázek 6.20: Zajímavá hypotéza šestého testu, rozdílová tabulka 164

173 6.2.7 Sedmý test Nastavení je shodné s předchozím testem. Vyhledám nejpodobnější kontingenční tabulky, nastavení kvantifikátoru se změní na hledání nejpodobnějších tabulek, limit je 1%(pro nižší limity bylo nalezeno výrazně méně výsledků). Bylo nalezeno 86 výsledkůz verifikacívčase13minuta7sekund.protokoltestujevpříloze I. Nalezl jsem hezký výsledek, závislost diastolického tlaku (Diast i10) a váhy (Vaha i10) při množinách Vyska( a ) a Vyska( ). Tato hypotéza tvrdí, že vztah diastolického tlaku a váhy není závislý na výšce. Protokol tétohypotézyjevpřílozej. Na obrázku 6.21 je zobrazeno okno s nalezenými hypotézami(zmíněná hypotéza je označena modře). První množina hypotézy je zobrazena na obrázku 6.22, druhá množina je na obrázku Rozdílová tabulka je na obrázku

174 Obrázek 6.21: Hypotézy sedmého testu 166

175 Obrázek 6.22: Zajímavá hypotéza sedmého testu, první množina Obrázek 6.23: Zajímavá hypotéza sedmého testu, druhá množina 167

176 Obrázek 6.24: Zajímavá hypotéza sedmého testu, rozdílová množina 168

177 6.2.8 Osmý test V tomto testu jsou antecedentem i sukcedentem atributy s třemi hodnotami. První a druhá množina obsahuje atributy, které nemají tři hodnoty a nejsou s nimi spojeny (např. Výška přes BMI). Limit přijetí hypotézy je 60%(pro 70% nebyly nalezeny žádnéhypotézy).bylonalezeno192výsledkůz verifikacívčase4minuty a37sekund.protokoltestujevpřílozek.žádnýzvýsledkůměneoslovilnatolik, abych ho zde uváděl Devátý test Nastavení je podobné jako v minulém testu. Vyhledám nejpodobnější kontingenční tabulky, nastavení kvantifikátoru se změní na hledání nejpodobněších tabulek, limit je0,5%.bylonalezeno288hypotézz verifikacívčase5minuta37sekund. ProtokoltestujevpřílozeL.Oknoshypotézaminaobrázku6.25. Byla nalezena hypotéza vztahu KonSkup 3 a Subscapular 3 při množinách Vzdelani(odborné, střední) a doplněk Vzdelani(základní, vysoké). První množina je zobrazena na obrázku 6.26, druhá množina je na obrázku Rozdílová tabulka je na obrázku Tato hypotéza demonstruje druhý problém plně automatického generování problém při rozeznání stejných množin. První i druhá množina jsou(téměř) shodné až na pár pacientů, kteří nevyplnili vzdělání. Program však množiny již považuje za odlišné. Je nutné při vyhodnocování hypotéz sledovat i shodné množiny, případně je vyloučit z generování. 169

178 Obrázek 6.25: Hypotézy devátého testu 170

179 Obrázek 6.26: Hypotéza devátého testu, první množina Obrázek 6.27: Hypotéza devátého testu, druhá množina 171

180 Obrázek 6.28: Hypotéza devátého testu, rozdílová množina 172

181 Desátý test Nyní zkusím odpovědět na otázku, která byla motivací pro vznik procedury SDKL- Miner: Je možné nalézt K L kontingenční tabulky(závislost antecedentu a sukcedentu), které jsou pro různé skupiny pacientů nejvíce podobné(odlišné). Antecedentem i sukcedentem jsou všechny atributy kromě testovacích a kromě atributů KonSkup a KonSkup 3. Pokud bych v definici antecedentu nebo sukcedentuzanechalikonskup(konskup3),vzniklybymipevnénuly,kterébyznehodnocovaly výsledek(hypotéza, kde antecedent nebo sukcedent je stejný atribut jako definice první či druhé množiny). První i druhá množina obsahuje atribut KonSkup 3. První množina obsahuje pouze kladný výskyt, druhá kladný i záporný(toto nastavení je vysvětleno v prvním testu 6.2.1). Podmínku jsem nezadal. Použil jsem jednoduchý kvantifikátor, s limitem 150%(nyní hledám nejvíce odlišný pár kontingenčních tabulek). Bylonalezeno32hypotézz61596verifikacívčase11sekund.Protokolběhuje v příloze N. Výsledky testu jsou na obrázku Ve všech nalezených hypotézách se vyskytuje informace o rizicích(kourrisk, CholRisk, HtRisk), které souvisejí s definicí skupin pacientů(rizikoví pacienti budou mít častěji nastavenou nějakou rizikovou vlastnost). V dalším testu tyto informace vynechám. 173

182 Obrázek 6.29: Desátý test 174

183 Jedenáctý test Nastavení testu je shodné s desátým testem, z definice antecedentu a sukcedentu jsem vynechal všechny rizikové atributy. Snížil jsem také limit v kvantifikátoru na 130% (při 140% nebyly nalezny žádné hypotézy). Testproběhlza12sekund,našel12hypotézz51516verifikací.Protokoltestuje v příloze O. Nalezené hypotézy jsou na obrázku Hypotéza s největším součtem relativních rozdílu K L kontingenčních tabulek je hypotéza, kde antecedentem je Diast 5 a sukcedentem Koureni a kde první množina jsou normální pacienti a druhá množina jsou rizikoví pacienti. První množina je zobrazena na obrázku 6.31, druhá množina na obrázku 6.32 a rozdílovou tabulku zobrazuje obrázek

184 Obrázek 6.30: Jedenáctý test 176

185 Obrázek 6.31: Hypotéza jedenáctého testu, první množina Obrázek 6.32: Hypotéza jedenáctého testu, druhá množina 177

186 Obrázek 6.33: Hypotéza jednáctého testu, rozdílová množina 178

187 Dvanáctý test Ve výsledcích jedenáctého testu mi připadlo, že existuje vazba mezi definicí množin a antecedenty a sukcedenty (pokud má pacient vysoký tlak, bude nejspíše mezi rizkovými apod.). Vynechal jsem z definice antecedentu a sukcedentu všechny atributy, u kterých jsem se domníval, že by mohly ovlivňovat definici množin. Limit přijetí hypotézy jsem nastavil na 55%(součet relativních vyjádření K L kontingenčních tabulek). Byly nalezeny 4 hypotézy(ve skutečnosti jen jedna, ostatní jsou duplicitní) v čase 1 sekunda, celkem verifikací. Protokol testu je v příloze P. Výsledky jsou znázorněny na obrázku VýpishypotézyjevpřílozeQ.Prvnímnožinajenaobrázku6.35,druhána6.36 a rozdílová množina na obrázku Hypotéza tvrdí, že vztah vzdělání a počtu vypitých šálků kávy denně výrazně odlišuje normální skupinu pacientů od rizkové skupiny. 179

188 Obrázek 6.34: Dvanáctý test 180

189 Obrázek 6.35: Hypotéza dvanáctého testu, první množina Obrázek 6.36: Hypotéza dvanáctého testu, druhá množina 181

190 Obrázek 6.37: Hypotéza dvanáctého testu, rozdílová množina 182

191 Třináctý test Ve třináctém testu budu hledat atributy, pro které jsou K L kontingenční tabulky pacientů nejpodobnější. Nastavení je shodné s jedenáctým testem(6.2.11), kvantifikátor byl nastaven na vyhledání součtu nižšího než 0,5%. Bylonalezeno12hypotézz51516verifikacívčase8sekund.Protokoltestuje v příloze R. Výsledky testu jsou na obrázku Ve výsledcích je možné opět pozorovat preferenci pevných nul(například infarkt myokardu nemá žádný pacient v normální nebo rizkové skupině). 183

192 Obrázek 6.38: Třináctý test 184

193 Čtrnáctý test Abych se vyhnul pevným nulám z minulého testu, vyberu si pouze zajímavé atributy(stejné jako ve dvanáctém testu). Limit pro maximální odlišnost byl nastaven na2%. Bylonalezeno24hypotézz6156verifikacívčase2sekundy.Protokoltestuje v příloze S. Výsledky testu jsou na obrázku Program nalezl zajímavou hypotézu, která tvrdí, že vztah Stav a Lihoviny není odlišný mezi normálními pacienty a mezi všemi pacienty. Výpis hypotézy z programu jevpřílozet.prvnímnožinatétohypotézyjenaobrázku6.40,druhámnožina na obrázku 6.41 a rozdílová množina je znázorněna na obrázku

194 Obrázek 6.39: Čtrnáctý test 186

195 Obrázek 6.40: Hypotéza čtrnáctého testu, první množina Obrázek 6.41: Hypotéza čtrnáctého testu, druhá množina 187

196 Obrázek 6.42: Hypotéza čtrnáctého testu, rozdílová množina 188

197 Patnáctý test V patnáctém testu jsem zkoumal, jak pracuje procedura SDKL-Miner se špatně vytvořenými atributy(atributy, které mají příliš mnoho hodnot). Antecedentem i sukcedentem jsou atributy s alespoň deseti hodnotami(zejména testovacíatributyvahats69hodnotamiavyskats43hodnotami).prvnímnožinou jsou normální pacienti, druhou množinou jsou rizikoví pacienti. Podmínku jsem nezadal. Hledal jsem největší odlišnost; s minimálním součtem rozdílové tabulky 100%. Běhnašel18hypotézz60verifikacívčase1minutaa47sekund.Tentotest byl zdaleka nejpomalejší(pouze 34 verifikací za sekundu, oproti průměrným verifikacím za sekundu na stejném počítači). Protokol testu je v příloze U. Zobrazení výsledků je na obrázku Velký počet hodnot v jednotlivých atributech zcela znemožňuje použití zobrazení jednolivých hypotéz to ovšem není na závadu, jedná se o špatně zadaná vstupní data(obrázek 6.44). 189

198 Obrázek 6.43: Patnáctý test 190

199 Obrázek 6.44: Hypotéza patnáctého testu, rozdílová množina 191

Zobrazit více