Dnešní téma Vývojové trendy 1 Vývojové trendy ve zpracování informací a znalostí Znalostní management Využití umělé inteligence Sémantický web Zpracování přirozeného jazyka 1 Hnacím motorem vývoje v současnosti není výzkumná sféra, ale sféra byznysu (obchod, bankovnictví, pojišťovnictví, telekomunikace), která má k dispozici velké objemy dat a zadává požadavky na vývoj práce s nimi (+ financuje nákladné projekty). digitalizace, elektronizace přechod k elektronickým dokumentům computer mediated communication e-business, e-learning, e-science, e-health 2 konvergence Vývojové trendy 2 médií (multimedialita, MashUp) technologií (mobilní telefon?) aktivit (informačních, kulturních, volnočasových ) decentralizace distribuované zdroje individualizace přístupu k informacím kolaborativní přístup k zpracování a k vytváření informací (Web 2.0) Osobnost roku 2006 Vy od dat k informacím, od informací k znalostem 3 Rekapitulace č. 1 znalosti témata 4 1
Vývojové trendy hrozby? Vývojové trendy ve zpracování informací a znalostí industrializace, specializace (informační průmysl), komercionalizace (informační kapitalismus), koncentrace, globalizace slábnutí veřejných služeb, nejasná informační politika nadvláda (americké) angličtiny, ohrožení "nepočítačových" jazyků Znalosti příspěvky digital divide, information rich information poor, technologický apartheid 5 Znalostní management Využití umělé inteligence Sémantický web Zpracování přirozeného jazyka 6 Rekapitulace č. 2 Znalost (poznatek) je, když víme: Rekapitulace č. 3 Informační management Co to je? Co to znamená? deklarativní Jak to probíhá? Jak to funguje? Jak se to dělá? procedurální 7 Správa informací v podniku řešené problémy: využití informací v rozhodovacích a řídících procesech integrace informačních zdrojů a aktivit do podnikových procesů návrh, implementace a provoz podnikových informačních systémů a služeb 8 2
Rekapitulace č. 4 Znalostní management knowledge management, KM Správa znalostí v podniku řešené problémy: to samé jako IM (informace znalosti) + převod implicitních znalostí na explicitní reprezentace znalostí (převod znalostí na informace) sdílení a transfer znalostí 9 Explicitní znalost Logicky zformulovaná a abstraktně vyjádřená znalost, zaznamenaná v určitém jazyce a dostupná přímo v nějakém formálním zdroji (dokument, záznam v databázi). sdělitelná deklarativní znalost vyjadřuje nějaké tvrzení (např. "Hlavní město ČR je Praha") u člověka: objektivní, vědomá způsob vyjádření: a) formální jazyk matematiky nebo logiky b) neformální přirozený jazyk, náčrtek, obrázek 10 Implicitní znalost Znalost, jež není vyjádřená a dostupná přímo a je zahrnuta v jednání, způsobu řešení úloh, souboru dat apod. procedurální znalost vyjadřuje nějaké chování (např. jde-li z vody v hrnci pára, nestrkáme do ní ruce) u člověka: subjektivní, podvědomá, tacitní (ta, již používáme, ale neumíme popsat a vysvětlit), know-how v počítači: znalosti rozptýlené v jednotlivých programových instrukcích, které se aplikují podle předem stanoveného algoritmu 11 Reprezentace znalostí knowledge representation předmět zkoumání: metody a techniky vyjádření znalostí a jejich vztahů především pro využití v bázích znalostí expertních systémů a) procedurální vyjádření znalostí ve formě pravidel b) neprocedurální či deklarativní vyjádření znalostí ve formě poznatků (ontologie) nejčastěji používané typy jazyků: predikátová logika 1. řádu, produkční systémy, sémantické (asociativní) sítě a rámce 12 3
Vývojové trendy ve zpracování informací a znalostí Umělá inteligence artificial intelligence, AI Znalostní management Využití umělé inteligence Sémantický web Zpracování přirozeného jazyka 13 Počítač není inteligentní. Jen si to o sobě myslí. Anonym 1) Vlastnost uměle vytvořených systémů, vykazující analogické rysy jako lidská inteligence. 2) Mezioborová vědní disciplína na pomezí kognitivních věd, kybernetiky a počítačové vědy, která zkoumá a modeluje inteligenci s cílem vyvinout software a hardware, který bude při řešení úloh používat postupy považované za projev lidské inteligence. 14 Co je to inteligence? Co zkoumá obor umělá inteligence? The reason that computers have found such widespread use is that they perform well in areas where humans perform poorly (and vice versa). Chisnall, David. Is Computer Science Dying? InformIT. 9. 11. 2007 Manželka posílá programátora nakoupit. Kup deset rohlíků a když budou mít vejce, kup jich 30. Programátor přijde do obchodu a povídá: Máte vejce? Ano, máme odpoví prodavačka. 30 rohlíků, prosím. obecné řešení problémů plánování reprezentace znalostí adaptace a strojové učeníč rozpoznávání 15 16 4
MAŘÍK, Vladimír, LAŽANSKÝ, Jiří a ŠTĚPÁNKOVÁ, Olga Umělá inteligence 1. Praha : Academia, 1993. 264 s. Umělá inteligence 2. Praha : Academia, 1997. 373 s. Umělá inteligence 3. Praha : Academia, 2001. 328 s. Umělá inteligence 4. Praha : Academia, 2003. 475 s. Umělá inteligence 5. Praha : Academia, 2007. 544 s. Kde se používá umělá inteligence? rozpoznávání, počítačové vidění robotika expertní systémy neuronové sítě analýza dat a znalostí (data mining, KDD, řízení, optimalizace, předpovědi počasí, marketing ) zpracování přirozeného jazyka VOŠIS - ZIZ 16 12 17 18 Rozpoznávání příklad Robot je ale i počítačový program též agent (inteligentní agent, intelligent agent) program, který shromažďuje informace nebo provádí jiné služby bez přímé účasti uživatele 19 20 5
Expertní systém Počítačová č aplikace simulující í poznávací a rozhodovací činnost experta při řešení složitých úloh s cílem dosáhnout ve zvolené problémové oblasti kvality rozhodování na úrovni experta. základní součásti báze znalostí báze dat (faktů) k řešeným případům řídící mechanismus (inferenční neboli odvozovací stroj, rozhodovací jádro) program pro práci s bázemi znalostí a dat využívající technik umělé inteligence modul pro komunikaci s uživatelem, vysvětlovací modul 21 UŽIVATEL KOMUNIKAČNÍ MODUL BÁZE FAKTŮ VYSVĚTLOVACÍĚ MODUL EXPERTNÍ SYSTÉM EXTERNÍ DATA A EXTERNÍ PROGRAMY INFERENČNÍ MODUL MODUL EXTERNÍCH ZDROJŮ GENERÁTOR VÝSLEDKŮ BÁZE ZNALOSTÍ P R O S T Ř E D Í VOŠIS - ZIZ 14 12 22 Báze znalostí knowledge base, knowledgebase Součást expertního systému, v níž jsou obsaženy explicitně vyjádřené speciální znalosti, představující obecný systém pravidel, využitelných pro řešení zvoleného problému Procesy tvorby báze znalostí: získávání znalostí volba vhodného umělého jazyka pro jejich ji zakódování proces reprezentace znalostí Znalosti se přebírají od experta automaticky odvozují z databází nepřímo odvozují z jiných znalostí 23 Typy expertních systémů a) podle charakteru řešených úloh diagnostické plánovací hybridní b) podle způsobu reprezentace znalostí v bázi znalostí, způsobu odvozování a práce s neurčitou informací systémy založené na pravidlech na rámcích na logickém programování 24 6
Expertní systém založený na pravidlech rule-based expert system, pravidlový, produkční systém aplikace predikátové logiky 1. řádu nebo tzv. produkčních pravidel pravidla jsou formalizována do tvaru "podmínka" (jestliže if), "závěr" (pak then) "s váhou" (with), přičemž váha je subjektivní mírou důvěry experta v platnost daného pravidla (tvrzení) 25 Expertní systém založený na rámcích frame-based expert systém, rámcový systém aplikace souboru rámců (objektů, scénářů, ontologií) rámce: datové struktury, v jejichž položkách jsou společně č ě uloženy všechny znalosti o daném konkrétním objektu nebo situaci (obsahují jejich model či prototyp) mohou být navzájem propojeny asociativními a hierarchickými vazbami 26 Ontologie 1. Filozofická disciplína zkoumající obecné principy bytí. 2. Jazykové, metodické a softwarové nástroje pro explicitní pojmovou reprezentaci skutečnosti, případně samotný výsledek této činnosti. Využití: znalostní management pojmové vyhledávání informací 27 Neuronová síť neural network Počítačová č aplikace využívající í k řešení š í úloh model funkcí biologického neuronu (tzv. procesor). Procesor má více vstupů, které dokáže klasifikovat a na jejich základě generovat výstup. Procesory jsou navzájem propojeny do sítí ohodnocenými vazbami, což umožňuje nealgoritmické a paralelní zpracování složitých úloh. Činnost sítě je založena na procesu učení, tj. adaptace na konkrétní úlohu za pomoci vnějšího činitele (síť s učitelem) nebo na základě stimulů (samoorganizující se síť). 28 7
Neuronová síť neural network Knowledge discovery in databases, KDD Neuron Technika automatizovaného získávání implicitních znalostí z rozsáhlých databází a datových skladů pro využití v rozhodovacích procesech nebo v expertním systému. Řešené úlohy deskripční neboli popisné (nalézání struktur a vztahů) klasifikační/predikční (umožňují automatizovanou klasifikaci nových případů) 29 technologické jádro: data mining 30 Data mining (dolování dat) Vývojové trendy ve zpracování informací a znalostí Technologie vyhledávání, modelování a prezentace předem neznámých informací, příp. znalostí a vztahů mezi daty v rozsáhlých databázích. Analýzy se odvozují přímo z obsahu dat, nikoliv na základě hypotéz či dotazů uživatele. používané techniky: umělá inteligence (neuronové sítě, rozpoznávání, samoučící se algoritmy) statistické a matematické modelování (klasifikační pravidla nebo stromy, regrese, shluková analýza) OLAP 31 Znalostní management Využití umělé inteligence Sémantický web Zpracování přirozeného jazyka 32 8
Sémantický web Cíl označený prostor 3 stadia standardizace (unifikace) WWW: protokol http HTML, URI sémantika 33 34 Současnost WWW Příklad nesémantická data web of documents narativní dokumenty sémanticky nestrukturovaná, kompaktní data, jimž rozumí jen lidé 35 <li>ontologie v znalostním managementu</li> <p><em>jana Dobrovská</em></p> <li>projekt Xanadu</li> <p><em>pavel Souček</em></p> <li>projekt MyLifeBits</li> <li><img src="../obrazky/zadano.gif" alt="zadano">projekt Wikipedia</li> <p><em>věra Janková<br> Karel Novák</em></p> 36 9
Příklad sémantická data srozumitelná jen lidem <volné téma> Ontologie v znalostním managementu <student/ka>jana Dobrovská</student/ka> </volné téma> <volné téma>projekt Xanadu <student/ka>pavel Souček</student/ka> </volné téma> <volné téma>projekt MyLifeBits</volné téma> <zadané téma>projekt Wikipedia <student/ka>věra Janková</student/ka> <student/ka>karel Novák</student/ka> </zadané téma> 37 Příklad sémantická data srozumitelná jen lidem SELECT * FROM Studie WHERE Volné_zadané = Volné 38 Problém: sémantická interoperabilita Jak daleko je? web of data Sémantický web transakční dokumenty sémanticky strukturovaná data, jejichž obsahu rozumí počítačové programy (software agent) 39 40 10
Standardy sémantického webu Vývojové trendy ve zpracování informací a znalostí RDF Resource Description Framework formát metadat OWL Web Ontology Language jazyk pro vyjádření obsahu metadat Znalostní management Využití umělé inteligence Sémantický web Zpracování přirozeného jazyka 41 42 NLP natural language processing Problémy přirozeného jazyka Cíl: Tvorba počítačových systémů, jež používají jako své vstupy a výstupy ýt přirozený jazyk 43 44 11
Problémy počítačů s přirozeným jazykem Vyhledávání v textových zdrojích a) formulací dotazu b) listováním v databázi (browsing, navigace) 45 Typy přístupových bodů k obsaženým informacím textové řetězce obsažené v textech dokumentů metadata (tzv. profily dokumentů s bibliografickými údaji) hypertextové odkazy 46 Vztah přirozený jazyk selekční jazyk informační zdroj Vyhledávání s metadaty a bez metadat Informační potřeba Informační zdroj Dotaz vyjádření KW1 KW2 KW3 Dotaz přirozený jazyk Obsah (abstrakt, vyjádření metadata) inf. zdroje přirozený jazyk W1 W2 W3 překlad Selekční jazyk překlad zdroj šumu 47 dokument dokument 48 12
Vyhledávání s metadaty pro a proti + vyřešená ř synonymie a homonymie + nezávislost na slovníku autora dokumentu (v metadatech je možné popsat obsah i slovy, jež nejsou v dokumentu) + k dispozici je model (abstrakce) obsahu, zbavený detailů vyžaduje intelektuálně předzpracovat dokumenty i dotazy v bodech zpracování může docházet k šumu 49 Vyhledávání bez metadat pro a proti + dokumenty ani dotazy není třeba předem intelektuálně zpracovat + ubývá bodů zpracování (tj. zdrojů šumu) závislost na slovníku autora dokumentu problémy s přirozeným jazykem (synonymie, homonymie, vágnost) 50 Jak dostat to nejlepší z obou světů? Vyhledávání s využitím přirozeného jazyka vyhledávání bez metadat: Místo porovnávání stručného textu dotazu s rozsáhlým textem dokumentu statistické porovnávání (celého) textu relevantního dokumentu s texty v prohledávaném souboru (např. při detekci spamu) vyhledávání s metadaty: Místo intelektuálního vytváření metadat automatické generování metadat, automatické indexování 51 1. hrubá síla (brute force) porovnávání textových řetězců 2. lingvistické nástroje lematizátor, derivátor, slovníky synonym (selekční jazyk je používán programem, nikoli uživatelem) 3. využití umělé inteligence NLP natural language processing 52 13
Přístupy umělé inteligence k zpracování přirozeného jazyka 1. lingvistický lingvistické modely gramatiky, morfologie, fonologie a lidského přístupu ke zpracování jazykových sdělení 2. statistický statistická analýza vzorků jazyka, odhalující jejich strukturu a vzorce (patterns), jež jsou základem porozumění (např. bayesovské sítě) 53 Tradeoff vždy něco za něco: za pohodlí při vyhledávání z fulltextových databází se platí pracnou přípravou slovníků a indexů za přirozenost a bohatou sémantiku pojmových modelů se platí nízkou mírou standardizace za netextová data se platí velkou spotřebou paměťových médií a značnými nároky na výkon hardware a problematickými možnostmi vyhledávání za možnost odvodit nové informace z databází (umělá inteligence) se platí obtížností návrhu takového systému 54 14