Dtmining AA (Above Averge) kvntifikátor Jn Burin Lbortory of Intelligent Systems, Fculty of Informtics nd Sttistics, University of Economics, W. Churchill Sq. 4, 13067 Prgue, Czech Republic, burinj@vse.cz Abstrkt. N zákldě frekvencí ze čtyřpolní kontingenční tbulky je definován AA kvntifikátor implementovný v GUHA proceduře 4ftMiner, která je součástí nlytického systému LISp-Miner. Je uveden motivční příkld. Dále je diskutován prvděpodobnostní interpretce AA kvntifikátoru. Nkonec jsou shrnuty vlstnosti AA kvntifikátoru možnosti jejich využití. 1 Úvod. Cíle obsh příspěvku. Jedním ze způsobů dobývání znlostí z dtbází je vyhledávání důležitých vzthů, které se týkjí vzthů dvou Booleovských tributů (čsto to jsou konjunkce literálů) derivovných z nlyzovné dtbáze. Mezi dvěm konjunkcemi literálů vytvořených z ktegorií tributů tbulky relční dtbáze, mohou existovt zjímvé vzthy (sociční prvidl), které je možno zkoumt n zákldě tk zvné čtyřpolní kontingenční tbulky (dále jen čtyřpolní tbulky). První skupinu literálů nzvěme ntecedent(zkráceně budeme oznčovt jko ϕ),druhou sukcedent (zkráceně budeme oznčovt jko ψ). čtyřpolní tbulk má v tkovém přípdě podobu: ψ ψ ϕ b ϕ c d Tbulk 1. čtyřpolní tbulk ϕ ψ Ve čtyřpolní tbulce reprezentuje počet (frekvenci) všech přípdů (záznmů), kdy je splněn jk ntecedent tk sukcedent. b je počet všech přípdů kdy je splněn ntecedent není splněn sukcedent tk dále. Zobecněný kvntifikátor odráží nějkou chrkteristiku vzthu mezi ntecedentem sukcedentem vypočítnou n zákldě frekvencí ze čtyřpolní tbulky vnějších prmetrů. Jedním z velmi prktických sndno interpretovtelných zobecněných kvntifikátorů je tkzvný AA kvntifikátor (Above Averge kvntifikátor). Tento příspěvek pojednává o motivci pro jeho zvedení, jeho interpretci vlstnostech. AA kvntifikátor byl implementován v proceduře 4ft-Miner (součást dtminingového systému LISp-Miner [7]), který prcuje n zákldě metody GUHA [4].
2 Motivce pro zvedení AA kvntidikátoru Asociční prvidl používná k nlýze dt procedurou 4ftMiner odrážejí souvislosti v dtech, le mohou být šptně interpretovtelná vzhledem k reálně existujícím vzthům ve světě. Vypovídcí schopnost socičních prvidel může být deformovná strukturou dt. Jedním z probémů při interpretci socičních prvidel může být, že ktegorie tributů mohou mít zcel nerovnoměrné zstoupení. Jko příkld vezměme dt zkoumná npř. v [6]. Jednlo se o medicínská dt (konkrétně dtbáze hypertoniků v rámci projektu EuroMISE [8]), kde záznmy v tbulce dtbáze předstvovl vyšetření tributy hodnoty sledovných chrkteristik vyšetření, mimo jiné tké měsíc ve kterém bylo vyšetření provedeno. Dejme tomu, že ntecedent bude předstvovt npříkld tlk pcient sukcedent měsíc vyšetření. Počet kontrol v jednotlivých měsících (sukcedent) znčně kolísá. Pk le bude npříkld vysoký tlk (stejně jko jiné hodnoty tlku) velmi zřídk zstoupen v měsících, kdy je počet kontrol mizivý (typicky letní měsíce - pcienti i lékři jsou n dovolených pod.). Jk by dopdl výsledek nlýzy pokud bychom použili jeden z klsických vzthů implemetovných v proceduře 4ftMiner ( vůbec ve všech GUHA procedurách), tk zvnou fundovnou implikci [4]? Definice 1. Mezi ntecedentem sukcedentem je vzth fundovnimplikce p,s (formule ϕ p,s ψ pltí) tehdy jen tehdy pokud pro 0 < p 1 s > 0 pltí +b p s. Prmetr s umožňuje zohlednit strukturu dt jen velmi hrubě. Proto od něj nyní odhlédneme. Pokud použijeme fundovnou implikci k nlýze dt, získáme spíše hypotézy (sociční prvidl) týkjící se souvislosti vysokého tlku s měsíci ve kterých bylo zznmenáno větší procento celkového počtu vyšetření. Konkrétně pro hodnotu p=0.1 bychom při průměrném rozložení počtu vyšetření n měsíc očekávli že bude nlezen vzth mezi vysokým tlkem 11. měsícem, ve kterém bylo zznmenáno 12, 68% procent všech vyšetření, méně už bychom to čekli u 12.měsíce ve kterém bylo zznmenáno 7, 71% procent všech vyšetření. A to už nemluvíme o letních měsících, kdy je procento všech zznmenných vyšetření menší než jedno procento. Nejvíce vyšetření s extrémní hodnotou bude nejspíše v tom období, kdy je nejvíce vyšetření obecně. Tedy smotný počet vyšetření s vysokou hodnotou tlku v jistém měsíci, nic neříká o tom, zd pcienti v tomto období skutečně mjí vyšší sklon mít vysoký tlk. Důvod je v tom, že fundovná implikce nezohledňuje podíl frekvence přípdů, kdy je pltný sukcedent (+c) k celkovému počtu vyšetření (+b+c+d). Pokud bychom chtěli generovt všechny pltné hypotézy (sociční prvidl) pro jistým způsobem prmetrizovnou skupinu tributů v ntecedentu sukcedentu (tk jk to umí pomocí tzv koeficientů npř. procedur 4ftTsk), pk
bychom pro smysluplnou nlýzu závislosti vysokého tlku pcientů v jistém měsíci, museli nlýzu provádět zvlášť pro všechny různé ktegorie sukcedentu (měsíce), pokždé s příslušným prmetrem p, který by odpovídl podílu počtu vyšetření v příslušném měsíci (+c) n celkovém počtu vyšetření (+b+c+d). Poznmenejme ještě, že pokud bychom změnili ntecedent sukcedent, situce se nezmění. Obecně může být tribut (či tributy) s více nerovnoměrně rozloženými hodnotmi jk v sukcedentu tk v ntecedentu. Vlivu nerovnoměrného rozložení hodnot nás zbví vhodně ndefinovný zobecněný kvntifikátor. Jedním z tkových kvntifikátorů je AA kvntifikátor. N rozdíl od kvntifikátorů, které provádějí operce ekvivlentní sttistickým testům (jko je F test či χ 2 test) je AA kvntifikátor výpočetně mnohem jednodušší. 3 AA kvntifikátor AA kvntifikátor reprezentuje tento fkt: Procento objektů které splňují ϕ i ψ z objektů které splňují ψ, je spoň (1 + p) krát větší než průměrné procento (procento objektů které splňují ϕ ze všech objektů v nlyzovné mtici dt). Definice 2. Pro kždou čtyřpolní tbulku, b, c, d pltí mezi ntecedentem sukcedentem vzth dný kvntifikátorem Above Averge tehdy pouze tehdy když: zároveň + b > 0 + c > 0 ( + b + c + d) ( + b) ( + c) (1+p) Prmetr p je definován v intervlu ( 1; + ). Poznámk 1: Výrz n levé strně nerovnice zmenšený o 1 nzýváme Averge difference. Poznámk 2: AA kvntifikátor je symetrický - je možno vzájemně změnit symboly b c. Vyjdřuje tedy i fkt: Procento objektů které splňují (mjí tribut) ψ i ϕ z objektů které splňují ϕ, je spoň (1 + p) krát větší než průměrné procento (procento objektů které splňují ψ ze všech objektů v nlyzovné mtici dt). Poznámk 3: V součsné verzi procedury 4ftMiner je možno prmetr p zdt pouze v intervlu (0; + ). Pro záporné hodnoty prmetru p není již název Above verge relevntní, neboť jsou generován i prvidl, pro něž procento objektů které splňují (mjí tribut) ψ i ϕ z objektů které splňují ϕ, je nižší než průměrné procento, le stále vyšší než procento dné prmetrem p. Poznámk 4: Obdobně jko AA kvntifikátor je definován k němu opčný BA kvntifikátor (Below Averge), který se liší znménkem nerovnosti v definici. Poznámk 5: V [6] je definován AA kvntifikátor pomocí tzv. sociovné fukkce. Její použití všk vyžduje zvedení tzv. 4FT klkulu viz npř [2], ten zde všk vzhledem k rozshu příspěvku nepoužijeme.
4 Prvděpodobnostní interpretce AA kvntifikátoru Obdobu AA kvntifikátoru definovl jko tk zvnou zjímvost (interestingness) Kodrtoff [5]. Kodrtoff zkouml různé chrkteristiky socičních prvidel n zákldě vzthů mezi prvděpodobnostmi podmíněnými prvděpodobnostmi sukcedentu (S) ntecedentu (A). K těmto vzthům se poté pokoušel nlézt odpovídjící lgebrický výrz sestvený z frekvencí obsžených ve čtyřpolní tbulce. Pro názornější ilustrci uveďme různé prvděpodobnosti týkjící se ntecedentu sukcedentu vyjádřené pomocí lgebrických výrzů sestvených z frekvencí obsžených ve čtyřpolní tbulce. P (A S) = + b + c + d + b P (A) = + b + c + d + c P (S) = + b + c + d P (S A) = + b P (A S) = + c Zjímvost (interestingness) reprezentuje tento vzth: P (A S) ( + b + c + d) = P (A) P (S) ( + b) ( + c) Vzth n prvé strně rovnice je pouze jink formulovný vzth z definice AA kvntifikátoru. Kodrtoff neuvádí, i když to z výše uvedeného vyplývá, že jeho zjímvost můžeme vyjádřit z pomocí podmíněných prvděpodobností tké jko: P (A S) P (A) = P (S A) P (S) Kodrtoff tké nezkoumá žádné dlší vlstnosti tohoto vzthu relevntní pro metodu GUHA. Prvděpodobnostní vyjádření je všk velmi prktické pro pochopení reálného upltnění AA kvntifikátoru. Pokud by veličiny, které předstvuje ntecedent sukcedent byly nvzájem zcel nezávislé, pk by A tedy P (A S) = P (A) P (S) P (A S) ( + b + c + d) = = 1 P (A) P (S) ( + b) ( + c) Zjímvost popisuje míru vzájemné závislosti ntecedentu sukcedentu. Hodnot zjímvosti vyšší než 1 znmená vzájemnou závislost ntecedentu sukcedentu v tom smyslu, že tyto mjí sklon vyskytovt se v jednom záznmu čstěji,
než při vzájemné nezávislosti (tedy ntecedent sukcedent se nvzájem přithují ). Nopk zjímvost menší než 1 znmená vzájemnou závislost ntecedentu sukcedentu v tom smyslu, že tyto mjí sklon vyskytovt se v jednozm záznmu méně čsto než při vzájemné nezávislosti (tedy ntecedent sukcedent se nvzájem odpuzují ). Pokud vztáhneme tuto prvděpodobnostní interpretci k prmetru p AA kvntifikátoru, tk jk jsme ho definovli v předchozí kpitole, pk npříkld: Hypotézy nlezené pro p=0.5 dávjí do vzthu ty ntecedenty sukcedenty, které jsou splněny zároveň v nejméně o 50% více záznmench, než by tomu bylo při jejich vzájmené nezávislosti. 5 Vlstnosti AA kvntifikátoru V [4] jsou definovány vlstnosti symetričnosti socičnosti zobecněných kvntifikátorů (třídy kvntifikátorů). V [6] jsou tyto vlstnosti definovány pomocí tzv. TPC (Truth preservtion condition). Ve [2] je pk definován F-vlstnost. Definice 3. Zobecněný kvntifikátor ptří do třídy socičních kvntifikátorů, jestliže pro kždé dvě čtyřpolní tbulky, b, c, d, b, c, d pltí: Pltí-li vzth dný kvntifikátorem pro čtyřpolní tbulku, b, c, d zároveň = b = c c = b d = d pk pltí tento vzth i pro čtyřpolní tbulku, b, c, d Definice 4. Zobecněný kvntifikátor ptří do třídy socičních kvntifikátorů, jestliže pro kždé dvě čtyřpolní tbulky, b, c, d, b, c, d pltí: Pltí-li vzth dný kvntifikátorem pro čtyřpolní tbulku, b, c, d zároveň b b c c d d pk pltí tento vzth i pro čtyřpolní tbulku, b, c, d Definice 5. Zobecněný kvntifikátor ptří do třídy kvntifikátorů s vlstností F, jestliže pro kždou čtyřpolní tbulku, b, c, d pltí: - Pltí-li vzth dný kvntifikátorem pro čtyřpolní tbulku, b, c, d zároveň b c 1 0, pk pltí i pro čtyřpolní tbulku, b + 1, c 1, d. - Pltí-li vzth dný kvntifikátorem pro čtyřpolní tbulku, b, c, d zároveň c b 1 0, pk pltí i pro čtyřpolní tbulku, b 1, c + 1, d. V [6] jsou dokázány tyto vlstnosti AA kvntifikátoru (respektive AA kvntifikátor ptří do těchto tříd kvntifikátorů): Vět 1. Vlstnosti AA kvntifikátoru: 1. AA kvntifikátor je symetrický. 2. AA kvntifikátor není sociční. 3. AA kvntifikátor má vlstnost F, ž n výjimku, kdy: Averge difference = 0 = 0 (b = 1 c = 1)
Poznmenejme, že mnoho dříve používných prktických kvntifikátorů ptřil do třídy socičních kvntifikátorů. Npříkld kvntifikátory implikční, dvojitě implikční, ekvivlenční td. viz npř. [2]. Je zjímvé, že některé z ekvivlenčních kvntifikátorů (npř. kvntifikátor prostého vychýlení Fisherův) ptří stejně jko AA kvntifikátor do třídy kvntifikátorů s vlstností F. 6 Závěr AA kvntifikátor byl implementován v GUHA proceduře 4ftMiner, která je součástí systému LispMiner. V rámci tohto systému je v součsnosti využíván npříkld při nlýzách medicínských dt v rámci projektu EuroMISE či nlýzách doprvních nehod (projekt Trffic). Zjištěné vlstnosti AA kvntifikátoru bude možno využít při hledání nových (třeb i složitějších - sttistické testy) kvntifikátorů vhodných pro implementci do systému pro dtmining n bázi hledání socičních prvidel. Vlstnosti AA kvntifikátoru byly použity ke zkoumání možností optimlizce nlytického softwre (npříkld systému LISp-Miner), npř. pomocí předpočítání tzv. tbulek kritických frekvencí [6]. English nottion: The AA quntifier implemetnted in GUHA procedure 4ftTsk (prt of nlyticl system LISp-Miner is defined.) A motivtion exmple illustrte its use. Then the probbilistic interprettion of AA quntifier is discussed. Finlly the properies of AA quntifier re resumed. Reference 1. Brchmn T. - Annd Y.: The Process of Knowledge Discovery in Dtbses. In Fyd, U. M. er l.: Asvnces in Knowledge Discovery in nd dt mining. AAAI Press/ The MIT Press, 1996, s. 37-57 2. Ruch, J.: Příspěvek k logickým zákldům KDD, hbilitiční práce, VŠE, Prh 1998 3. Ruch, J.: Clsses of Four Fold Tble Quntifiers. In Principles of Dt Mining nd Knowledge Discovery. Red. Zytkow, J - Quffou, M. Berlin, Springer Verlg 1998, pp. 203-211 4. Hájek, P., Hvránek T.: Mechnising Hypothesis Formtion - Mthemticl Foundtions for Generl Theory. Berlin - Heidelberg - New York, Springer-Verlg, 1978 5. Kodrtoff, I. :Compring mchine lerning nd knowwledge discovery in dtbses. On: Lecture Notes from Mchine Lerning nd Applictions, ACAI99, Chni, Vol.1 1999. 6. Burin J.: Guh dtmining, od prxe k teorii zse zpět. Diplomová práce, VŠE, Prh 2002 7. Systém LISp-Miner, URL http://lispminer.vse.cz, 2002 8. Evropské centrum pro medicínskou informtiku, sttistiku epidemiologii - Krdio, URL http://euromise.vse.cz, 2002