..! POSSIBILISTIC Laboratoř pro analýzu INFORMATION: a modelování dat Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci) George J. Klir State University of New York (SUNY) Binghamton, New York 13902, USA gklir@binghamton.edu Palacky University, Olomouc, Czech Republic prepared for International Centre for Information and Uncertainty, Palacky University, Olomouc!!!! V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 1 / 14
Laboratoř pro analýzu a modelování dat Historie: SUNY Binghamton, T. J. Watson School (2007) Odborní zaměstnanci laboratoře: vedoucí výzkumný pracovník (R. Bělohlávek) výzkumní pracovníci (J. Konečný, M. Krupka, P. Osička, V. Vychodil) studenti doktorského studia Výzkumné a vzdělávací aktivity laboratoře: buduje vědeckou školu a podporuje výzkumu v oblasti analýzy dat pořádá vědecké semináře pro akademické pracovníky a studenty pořádá čtecí semináře pro akademické pracovníky a studenty pořádá vědecký studentský seminář V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 2 / 14
... http://damol.info/ V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 3 / 14
Co je analýza dat? Zabývá se: formální popisem a hledáním informace skryté v datech, různá podoba dat, různá podoba hledané informace : shluky, závislosti, bezpečnost (kryptografie, steganografie) získávání znalostí (náš případ). Zahrnuje: formální metody (statistika, lineární algebra, logika, ), algoritmické problémy (možnost nalézt řešení pomocí počítačů, ), další (vizualizace a interpretace závislostí, ). Široká disciplína, různé metody závisející na vstupu a cíli analýzy. V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 4 / 14
Co je relační analýza dat? Analýza vztahů v tabulkových datech věk stav zaměstnaný hodnocení Alois 27 svobodný 1 ** Bolek 32 vdovec 0 * Carda 28 ženatý 1 *** David. 17. svobodný. 0. *. Řádky = objekty (osoby, výrobky, zákazníci, ) Sloupce = atributy (vlastnosti, ) Hodnoty v tabulkách: binární data (logická 0 a 1) vztah má/nemá ordinální data (obecně víc hodnot mezi kterými je hierarchický vztah) další druhy: nominální, symbolická data, V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 5 / 14
Proč je relační analýza dat důležitá? Zajímavá, protože: základní typ dat (redukovatelnost na tabulková data) data jsou k dispozici a je jich hodně (relační databáze) vyřešený problém: jak skladovat (velká) data otevřený problém: jak z uložených dat získávat další informace, znalosti, (KDD: Knowledge Discovery from Data dolování znalostí z dat) Výstupy relační analýzy dat: konceptuální shlukování závislosti v datech redukce dimensionality dat podobnostní dotazování a další, V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 6 / 14
RAD: Konceptuální shlukování Motivace: Nalezení zajímavých shluků v datech sdílejících stejné atributy. Vede na hierarchický pohled na koncepty v datech uživatelsky zajímavý pohled na data (aplikace v lékařství, bezpečnosti, ). pacienti symptomy = Bělohlávek: Fuzzy Relational Systems: Foundations and Principles. Kluwer Academic/Plenum Press, New York (2002) V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 7 / 14
RAD: Závislosti v datech Motivace: Rozpoznání závislostí mezi přítomností atributů nebo jejich hodnotami. Cílem je hledat pravidla (formule) nebo jejich množiny charakterizující závislosti přítomné v datech (aplikace v marketingu ). zákazníci produkty = pokud zákazník koupí syrečky a chleba, pak si koupí i pivo Bělohlávek, Vychodil: Fuzzy attribute logic over complete residuated lattices. Journal of Experimental and Theoretical Artificial Intelligence 18(4): 471 480 (2006) V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 8 / 14
RAD: Redukce dimenzionality dat Motivace: Vyjádření (velkého počtu) atributů v datech pomocí (malého počtu) nových základních atributů (faktorů) tak, aby byla zachována plná informace o vlastnostech objektů (aplikace v předzpracování dat, bezpečnosti, ) pacienti symptomy = pacienti 1 2 3 symptomy 1 2 3 Bělohlávek, Vychodil: Discovery of optimal factors in binary data via a novel method of matrix decomposition. Journal of Computer and System Sciences 76(1):3 20 (2010) V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 9 / 14
RAD: Podobnostní dotazování Motivace: Získání odpovědí na dotazy ohledně dat vyjadřující podobnost hodnot. Vede na problémy rozšíření databázových systémů o podobnosti a ranky a jejich zpracování (aplikace v marketingu). agent plocha lokalita cena 0.93 Brown 1185 Vestal $228,500 0.89 Clark 1120 Endicott $235,800 0.86 Brown 950 Binghamton $189,000 0.85 Brown 1300 Binghamton $248,600 0.81 Clark 1200 Vestal $293,500 0.81 Davis 1250 Binghamton $287,300 0.75 Davis 1040 Vestal $286,200 0.37 Davis 1890 Endicott $345,000 Domy na prodej za $200,000 s plochou 1200. Bělohlávek, Vychodil: Query systems in similarity-based databases: logical foundations, expressive power, and completeness. ACM Symp. Applied Computing, 1648 1655 (2010) V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 10 / 14
DAMOL: Shrnutí výsledků za předchozí akademický rok Výzkumné aktivity: logika v informatice (zejména fuzzy logika, čistá i aplikovaná), analýza dat (znalostní inženýrství, dolování informací z dat). Výstupy výzkumných aktivit: odborné práce, prezentace na konferencích, výstup laboratoře: 80 článků v časopisech, 60 příspěvků na konferencích Další: účast na uznávaných zahraničních konferencích, krátkodobé stáže na zahraničních pracovištích, pořádání seminářů (22 vědeckých, 15 studentských, 21 čtecích), práce se zahraničními hosty (12 hostů). V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 11 / 14
DAMOL: Vzdělávací činnost Čtecí semináře: probíhá formou referátů z odborných monografií a článků, vzdělávání akademických pracovníků a studentů, důležitý aspekt: samostudium (nezkouší se). Studentské semináře: přednášení odborných témat přijatelnou formou, získání nového vhledu, možnost volby diplomové práce podle témat semináře, další rysy semináře: studentské přednášky, neformální diskuse, důležitý aspekt: motivační úkoly (mohou pomoci). Cíl: Zvedat odbornou kvalifikaci cílových skupin. V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 12 / 14
DAMOL: Nadcházející akce v zimním semestru 2012 Vědecký seminář (Čt, 11:30, učebna 5006) Sergei Obiedkov (NRU HSE, Russia) Neville Holmes (University of Tasmania, Australia) Pablo Cordero (University of Malaga, Spain) Willem Waegeman (Ghent University, Belgium) doktorandi: Lucie Urbanová, Tomáš Kühr, Markéta Krmelová (KI PřF UP) Čtecí seminář (Čt, 19:00, zasedací místnost katedry) matematická fuzzy logika (referáty z knih P. Hájka, R. Bělohlávka, ) Studentský vědecký seminář (více M. Krupka v druhé části tutoriálu) V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 13 / 14
DĚKUJI ZA POZORNOST V. Vychodil (DAMOL) Vědecký tutoriál I 18. září 2012 14 / 14