pomocí hodnoty TFIDF (term frequency inverse document frequency) 4

Rozměr: px
Začít zobrazení ze stránky:

Download "pomocí hodnoty TFIDF (term frequency inverse document frequency) 4"

Transkript

1 10. Nové směry V drtivé většině se databázemi ze kterých se dobývají znalosti myslí relační databáze (jedna nebo více). U těchto databází se předpokládá vzájemná nezávislost záznamů z hlediska pořadí v databázi. Existují samozřejmě složitější data: časová (např. časové řady), prostorová (např. data z geografických informačních systémů), nebo strukturální (např. data o chemických sloučeninách). Na druhé straně stojí data nestrukturovaná (např. texty). Spolu s tím se objevují nové oblasti aplikací dobývání znalostí, které řeší své specifické problémy. Někdy stačí mírně adaptovat existující postupy, někdy je třeba zásadně změnit kroky předzpracování a transformace dat, a někdy přicházejí na řadu zcela nové metody. V této kapitole se podíváme podrobněji na dvě dnes tak populární nové oblasti dobývání znalostí; dobývání znalostí z textu a dobývání znalostí z webu Dobývání znalostí z textů Dobývání znalostí z textů (knowledge discovery in texts - KDT, text mining) můžeme chápat jako speciální typ úlohy dobývání znalostí z databází. Zatímco u databází pracujeme s údaji uloženými v pevné struktuře, zde máme co do činění s nestrukturovaným textem. Hlavním problémem tedy je jak vhodně reprezentovat textový dokument, aby bylo možno použít některý z algoritmů Reprezentace dokumentu Nejpoužívanějším způsobem reprezentace textového dokumentu je použití vektoru který má tolik složek kolik je slov (termínů) 1 ve slovníku, nebo v souboru dokumentů (tzv. kolekci) který chceme zpracovávat každému termínu je totiž vyhrazena jedna fixní pozice. Jednotlivé dokumenty bývají tedy reprezentovány řídkými vektory o tisících hodnot 2. Každý termín 3 ze slovníku (atribut) pak může být pro daný dokument kódován např. : binárně tedy výskyt/nevýskyt v dokumentu, počtem výskytů v dokumentu, pomocí hodnoty TFIDF (term frequency inverse document frequency) 4 kde TFIDF = n * log M m n je počet výskytů termínu v dokumentu m je počet výskytů termínu v celé kolekci M je počet dokumentů v kolekci 1 Přesněji slovních kmenů, což jsou slova po odstranění koncovek vzniklých ohýbáním (skloňováním nebo časováním). 2 Není výjimkou, když má vektor složek s tím, že většina složek je prázdná proto název řídký vektor. 3 Opět upřesníme. Nemusí se nutně jednat o všechna slova. Ze slovníku se obvykle vylučují tzv. stopslova, což jsou např. spojky nebo jiná slova, která se vyskytují v každém textu a jsou tedy irelevantní vzhledem k obsahu dokumentu. 4 Tato dodnes nejpoužívanější metoda byla navržena Saltonem již na počátku 70. Let [Salton, 1971]. 1

2 Tato reprezentace má své výhody i nevýhody. Výhodami je, že je nevyžaduje složité předzpracování a že je invariantní vůči pořadí slov v dokumentu., nevýhodami je, že tato reprezentace neumožní zachytit víceslovné fráze a že nebere do úvahy strukturu dokumentu. Problém s víceslovnými frázemi lze odstranit tak, že složka vektoru bude místo jednoho slova odpovídat víceslovnému termínu (sekvenci slov tedy např. dobývání znalostí ) 5, jinou možností je použít tzv. n-gramy což jsou sekvence n typografických znaků (tedy např. tirgramy dob, obý, býv, ývá, ván, ání pro termín dobývání ). Hlavním problémem je ovšem veliká dimenze vektorů. Z hlediska metod dobývání znalostí je totiž značně problematické, odvozovat obecné závěry na základě desítek nebo stovek příkladů, které jsou reprezentovány tisíci nebo desetitisíci atributy. Proto se hledají způsoby, jak počet atributů snížit. Hezký přehled používaných metod lze nalézt v [Zighed, di Palma, 2000]. Jednou možností je použít jen určité termíny, druhou možností je transformovat termíny na složitější koncepty. V obou případech lze použít metody redukce dimenzionality známé např. z oblasti rozpoznávání obrazů (pattern recognition) 6. Jako příklad selekce zmiňme použití χ 2 testu, který umožní pro každý termín testovat jeho relevantnost pro zařazování dokumentů do tříd. Pro transformaci termínů lze použít shlukování termínů, faktorovou analýzu, nebo indexace latentní sémantiky. Zde vytváříme nové koncepty reprezentující dokumenty kombinací původních složek vektoru. V případě latentního sémantického indexování [Dumais a kol, 1988] získáme jakési obecnější (ale pořád ještě srozumitelné) koncepty. Latentní sémantická struktura se vytváří za použití dekompozice matice na singulární hodnoty (Singular Value Decomposition). Jedná se o metodu z lineární algebry, která umožňuje vyjádřit nějakou obdélníkovou matici A jako (Obr. 1) kde U T U = E A = U V T V T V = E je diagonální matice hodnot σ 1... σ n vyjadřujících důležitost konceptu i V našem případě matice A odpovídá původní reprezentaci kolekce dokumentů pomocí termínů. Matice V pak představuje reprezentaci kolekce dokumentů pomocí konceptů. Konceptů je přitom podstatně méně než původních termínů. Transformace matice A na matici V se provádí podle vztahu V = A T U -1 dokumenty koncepty dokumenty termíny termíny V T koncepty = * * A U t * d t * c c * c (diag) c * d Obr. 1 Princip indexace latentní sémantiky 5 Tak se ale zvětší počet složek vektoru, navíc sekvence lsov budou mít menší četnost než jednotlivá slova. 6 První možnost se zde nazývá selekce příznaků (feature selection), druhá možnost se nazývá konstrukce příznaků (feature construction). 2

3 Jako zajímavá alternativa k výše uvedenému způsobu reprezentace co termín to atribut se nabízí použití atributů, které nabývají více hodnot současně. Každý atribut, odpovídající určité části dokumentu, by pak uchovával množinu slov obsaženou v této části 7. Tento přístup byl, v souvislosti s filtrováním elektronické pošty použit v systému Ripper; každý dopis byl reprezentován pomocí atributů From, To, Subject a Message [Cohen, 1996] Podobnost dokumentů Reprezentace pomocí vektorů umožňuje chápat dokumenty jako body v prostoru atributů. Logicky se tedy naskýtá otázka podobnosti resp. vzdálenosti. V oblasti zpracování textů se používá řada měr vyjadřujících podobnost 8. Jsou-li x 1 a x 2 dva vektory x 1 ={x 11,x 12,, x 1m } x 2 ={x 21,x 22,, x 2m }, potom Kosínová míra podobnosti Míra symetrického překrytí sim C (x 1, x 2 ) = cos (x 1, x 2 ) = x 1 x 2 x 1 x 2 sim S (x 1, x 2 ) = j min(x 1j,x 2j ) min( j x 1j, j x 2j ) Diceho míra podobnosti sim D (x 1, x 2 ) = 2 x 1 x 2 x 1 + x 2 = 2 x 1 x 2 j x 1j + j x 2j Jacardova míra podobnosti sim J (x 1, x 2 ) = x 1 x 2 x 1 x 2 = x 1 x 2 j x 1j + j x 2j - x z kde m x 1 x 2 = x1j x 2j j=1 je skalární součin. V případě použití latentního sémantického indexování je podobnost dvou dokumentů dána přímo tímto součinem jejich reprezentací v prostoru konceptů. Výraz x (tzv. norma vektoru) se spočítá jako x = x x = m xj 2 j=1 7 Tento přístup jednak redukuje počet atributů popisujících dokument, jednak umožňuje brát do úvahy různou důležitost různých částí dokumentu. 8 Podobnost mezi vektory byla již zmíněna v kapitolách o statistice a analogii. Zde se objevují míry podobnosti přímo navržené pro práci s vektory reprezentujícími texty. 3

4 Typy úloh Podobně jako při dobývání znalostí z databází i při dobývání znalostí z textů narážíme na úlohy klasifikace nebo deskripce. Tyto úlohy mají ovšem trochu jiné pojetí; blíží se úlohám zpracování informací: vyhledávání informací (information retrieval) a extrakce informací (information extraction). Jak vyhledávání, tak extrakce informací, je předmětem trvalého zájmu odborníků zabývajících se zpracováním přirozeného jazyka. Svědčí o tom mimo jiné pravidelné mezinárodní konference TREC (Text REtrieval Conferences) a MUC (Message Understanding Conferences) Vyhledávání informací V obecné teorii zpracování informačních fondů se hovoří o tom, že vyhledávání relevantních dokumentů je řešeno porovnáváním jejich selekčních obrazů (reprezentací) se selekčním obrazem (reprezentací) dotazu [Strossa, 2000]. Úlohy vyhledávání informací (information retrieval) jsou tedy úlohy klasifikační. Cílem je nalézt dokumenty, které nejlépe odpovídají zadanému dotazu 9. Počátky tohoto přístupu můžeme nalézt v 50. letech, kdy se začaly vytvářet první bibliografické (dokumentografické) databáze, uchovávající informace o publikacích (knihách, článcích). Použitý způsob reprezentace dokumentů byl založen na tzv. indexování. Při indexování se vyberou (ručně nebo automaticky) termíny, podle kterých má být dokument vyhledatelný a uloží do tzv. indexového (invertovaného) souboru. Vyhledávání dokumentů pak spočívá v procházení indexového souboru a hledání odkazů na ty záznamy, které splňují nějakou podmínku vytvořenou kombinací termínů. Nejjednodušší způsob vyhledávání vychází z tzv. booleovského modelu. Tento model předpokládá vyhledávací podmínku vytvořenou pomocí logických spojek AND, OR a NOT 10. Pro každý dokument v databázi se pak zjišťuje, zda podmínce vyhovuje (logická 1) nebo nevyhovuje (logická 0). Booleovský model má několik nevýhod: neumožňuje vzít do úvahy, že různé termíny mohou mít různou důležitost při charakterizování daného dokumentu, neumožňuje uživateli přiřadit různou důležitost termínům v dotazu, neumožňuje vyjádřit relevantnost nalezeného dokumentu v jemnější škále. Proto se hledaly způsoby jak booleovský model rozšířit. Jedním z možných rozšíření je použití fuzzy logiky 11. Ta umožňuje přejít od dvouhodnotového vyjádření (pravda nepravda) k vyjádření vícehodnotovému, nabízí rovněž způsob jak pracovat s váhami termínů (ať už v reprezentaci dokumentů nebo v reprezentaci dotazu). Je-li např. dotaz Q zadán pomocí vážených termínů t j :v j a t k :v k a jsou-li v dokumentu D přítomny stejné termíny (s vahami w) t j :w j a t k :w k, bude míra relevance R(D,Q) dokumentu D vzhledem k dotazu Q pro dotaz D daný konjunkcí t j :v j AND t k :v k a pro dotaz D daný disjunkcí t j :v j OR t k :v k R(D,Q) = min (v j w j,v k w k ) R(D,Q) = max (v j w j,v k w k ). 9 Jde tedy o úlohu klasifikace do dvou tříd; dokument odpovídá nebo neodpovídá zadané specifikaci. 10 Kromě logických spojek se používá i rozšiřování slov (pravostranné - např. počít, levostranné např. ie) a proximitní operátory vyjadřující vzájemnou pozici (vzdálenost) vyhledávaných termínů v dokumentu. 11 Jinou možností jak rozšířit práci s operátory AND a OR je tzv. geometrické rozšíření, které již chápe dotaz i dokument jako body v prostoru. 4

5 V případě reprezentace dokumentů i dotazů vektorově (viz výše) se obvykle nepracuje s explicitním vyjádřením za použití logických operátorů. Při vyhledávání se použije některá z měr podobnosti (viz výše). Obr. 2 Přesnost a úplnost vyhledávání Výsledky dotazu bývají hodnoceny na základě přesnosti (precision) a úplnosti (recall) 12. Přesnost vyjadřuje, jak velkou část nalezených dokumentů představují dokumenty relevantní, úplnost vyjadřuje, jak velká část ze všech relevantních dokumentů byla nalezena (Obr. 2). Velice často (typicky pro booleovský model) můžeme pozorovat nepřímou úměru mezi oběma charakteristikami; úzké dotazy (typicky použití spojky AND) umožní nalézt relativně malý počet dokumentů, které jsou většinou relevantní, široké dotazy (typicky použití spojky OR) umožní nalézt relativně velký počet dokumentů, které ale nebývají většinou relevantní. Úzké dotazy tedy odpovídají levé časti grafu, široké dotazy pravé části grafu na Obr. 3. Obr. 3 Vztah přesnosti a úplnosti 12 Obě charakteristiky ze používají i pro hodnocení klasifikačních modelů při běžném dobývání znalostí z databází; viz příslušná kapitola. 5

6 Mezi nejznámější algoritmy pro vyhledávání informací patří Saltonův algoritmus SMART (System for Manipulating And Retrieving Text). SMART používá pro reprezentaci dokumentů vektor, jehož složky odpovídají hodnotám TFIDF pro jednotlivé termíny. Pro měření podobnosti pak používá kosínovou míru a míru symetrického překrytí [Salton, 1971]. Variantou hledání dokumentů, které odpovídají dotazu, je seskupování dokumentů do tříd (kategorizace dokumentů document categorization). Informace o zařazení dokumentu do třídy může být v datech vyjádřena explicitně, lze ji implicitně odvodit na základě dotazu, nebo jde o shlukování dokumentů na základě vzájemné podobnosti. V kontextu dobývání znalostí můžeme v obou případech použít některý z algoritmů pro řešení klasifikačních úloh. Poměrně často se objevuje použití naivního bayesovského klasifikátoru pro klasifikaci dokumentů do tříd [Lewis, 1991], [Grobelnik, Mladenic, 1998]. Jednoduchý příklad uvadí i Mitchell ([Mitchell, 1997]); dokumenty jsou reprezentovány pomocí vektorů tak, že pozice ve vektoru (atribut) odpovídá pořadí slova v dokumentu, přičemž hodnota atributu je přímo příslušné slovo. Délka dokumentu tedy určuje délku vektoru. Na základě trénovací množiny (příklad uvádí klasifikaci do dvou tříd) se určí podmíněné pravděpodobnosti P(i-té_slovo_ je_ X dokument_patří_do_třídy), které se pak (spolu s relativními četnostmi obou tříd) použijí pro klasifikaci. Jiným používaným algoritmem, umožňujícím provádět shlukování dokumentů je Kohonenova neuronová síť SOM. Geometrická interpretace Kohonenovy mapy se převádí na interpretaci pojmovou; čím více jsou dva shluky od sebe v Kohonenově mapě dále, tím rozdílnější obsah odpovídá příslušným dokumentům. Jednotlivé dokumenty jsou reprezentovány vektory, jejichž složky vyjadřují TFIDF termínů, jednotlivé shluky jsou reprezentovány klíčovými slovy (frázemi). Tento přístup je obzvláště populární v souvislosti s kategorizací dokumentů na Internetu; tomu odpovídá i jméno algoritmu WebSOM ([Honkela, 1996], [Kohonen, 1998]). Místo jedné Kohonenovy mapy můžeme použít i soustavu vzájemně propojených map; to umožní zachytit hierarchickou strukturu dokumentů (témat) [Merkl, Rauber, 2000]. Pro vyhledávání dokumentů lze použít i genetické algoritmy. Dokumenty budou reprezentovány bitovými řetězci (chromozomem) kódujícími výskyt (1) nebo nevýskyt (0) určitého termínu. Funkce fit pak bude odpovídat některé míře podobnosti (např. Jaccardově) mezi dokumentem a dotazem, rovněž reprezentovaným bitovým řetězcem [Gordon, 1988]. Jak je z uvedeného dílčího přehledu vidět, převládají pro vyhledávání informací metody, kterým nečiní problémy zpracovávat numerické vektory o velkém počtu složek Extrakce informací V kontextu zpracování přirozeného jazyka je extrakce informací (information extraction) chápána jako analýza nestrukturovaného textu za účelem nalezení specifického typu informace. Obvykle se přitom vychází z předefinovaných šablon (scénářů, rámců), vyjadřujících syntaktické (typy částí věty) i sémantické (např. typy činností vyjádřených slovesem) znalosti, které se naplňují konkrétním obsahem na základě analýzy plného textu. Je-li např. předdefinována šablona X vlastní(má) Y tak na základě věty Ema má mísu lze přiřadit X=Ema, Y=mísa. Hledá se tedy konkrétní obsah explicitně vyjádřených relací. Experimentální systémy pro extrakci informací se uplatňují v oblasti medicíny (pro vytváření souhrnů z lékařských zpráv), v oblasti monitorování technické literatury (pro sledování článků o technologii výroby počítačových čipů), nebo v oblasti monitorování přepisu rozhlasových a televizních zpráv (sledování aktivit teroristů). V kontextu dobývání znalostí z databází můžeme chápat extrakci informací jako hledání blíže nespecifikovaných vztahů mezi pojmy o kterých se v textu vypovídá. Přitom se provádí zobecňování 6

7 na základě příkladů-textů 13. Z hlediska typologie úloh dobývání znalostí se jedná většinou o úlohy deskripce. Často se přitom vychází z metod zpracování přirozeného jazyka, které představují krok předzpracování ve smyslu celého procesu dobývání znalostí. Kodratoff uvádí příklad použití systému zpracovávajícího přirozený jazyk pro převedení dokumentů do vektorové reprezentace, kde termíny (složky vektorů) odpovídají konceptům o kterých dokumenty vypovídají. Při této reprezentaci textů lze opět použít běžné algoritmy dobývání znalostí, v tomto konkrétním případě systém Clementine [Kodratoff, 2000]. Systém FACT (Finding Associations in Collections of Text), hledá, jak z názvu vyplývá, asociace mezi výskytem různých frází v souboru dokumentů. Publikovaný příklad se týkal politických událostí na Blízkém Východě přelomu 80. a 90. let [Feldman, Hirsh, 1997]. Podobně jako v algoritmu apriori, i zde se začíná s hledáním častého současného výskytu významných slov 14. Následně jsou vytvářena asociační pravidla A S, která jsou interpretována ve smyslu píše-li se o A, píše se současně i o B. Příkladem asociace tedy může být {Iran,USA} Reagan Dalším systém týchž autorů je Document Explorer. Tento systém opět vytváří asociační pravidla 15 získaná na základě dokumentů reprezentovaných na úrovni termínů extrahovaných z textu, přičemž se používají odpovídající TFIDF hodnoty. Popisovaná aplikace je tentokráte zaměřena na texty (zprávy Reuters) z oblasti ekonomie [Feldman a kol, 1998a]. Příkladem pravidla tedy je america online inc, bertelsmann ag joint venture (13, 0.72) Rozhodující pro provádění automatické extrakce informací je dostatečné množství doménových znalostí. V případě systému FACT to byly geopolitické znalosti (státy a jejich vzájemné hospodářské a politické vztahy) a znalosti linguistické (synonyma k vybraným termínům) v případě systému Document Explorer se jednalo o znalosti o firmách (typy obchodních společností, jména firem). Bez takovýchto znalostí nemohou metody extrakce informací aspirovat na úspěch Systémy Přestože je dobývání znalostí z textů záležitostí především výzkumnou, již dnes se objevují některé komerčně dostupné systémy pro aplikace tohoto druhu. Příkladem mohou být Intelligent Miner for Text firmy IBM (http://www.software.ibm.com/) nebo Text Analyst firmy Megaputer Intelligence (http://www.megaputer.com). Po vhodném předzpracování textů do podoby relační tabulky lze použít i systémy pro dobývání znalostí z databází. 13 Kodratoff demonstruje rozdíl mezi extrakcí informací a dobýváním znalostí z textů na přikladu analýzy novinových zpráv. Zatímco při extrakci informací můžeme zjistit, že jsou zprávy, ve kterých současně píše o Monice Lewinské a Billu Clintonovi, při dobývání znalostí odvodíme pravidlo píše_se_o_lewinské píše_se_o_clintonovi [Kodratoff, 2000]. 14 Co je významné musí být dodáno jako dodatečná doménová znalost. 15 Systém rovněž nabízí tzv. graf kontextů (context graph) a graf trendů (trend graph). V případě grafu kontextů se jedná o prostou vizualizaci vzájemně asociovaných termínů tak, jak jsme to viděli u systému Clementine. Graf trendů pak zobrazuje, jak se tyto asociace (témata o kterých se píše) mění v čase [Feldman a kol. 1998b]. 7

8 10.2 Dobývání znalostí z webu Dobývání znalostí z webu (web mining) soustřeďuje svoji pozornost na nejdynamičtěji se rozvíjející zdroj informací současnosti, na Internet a především na službu world wide web. V některých případech web slouží jako zdroj dat pro klasické dobývání znalostí z databází i pro dobývání znalostí z textů, v jiných případech se jedná nové typy úloh, vyplývající ze zvláštností Internetu. Zaiane and Han [Zaiane, Han, 1998] uvádějí hezkou taxonomii úloh dobývání znalostí na webu: dobývání znalostí na základě obsahu webu (web content mining) dobývání znalostí na základě struktury webu (web structure mining) dobývání znalostí na základě používání webu (web usage mining) Obsah webu Cíl dobývání znalostí na základě obsahu webu je analogický cíli dobývání znalostí z textů; získat znalosti na základě webovských stránek chápaných jako dokumenty. V kontextu Internetu jsou tedy řešenými úlohami vyhledávání a metavyhledávání (tj. hledání stránek relevantních k dotazu uživatele), kategorizace dokumentů (shlukování stránek podle obsahu) nebo filtrování (tj. rozpoznání stránek relevantních k uživatelově profilu), dobývání znalostí skrytých ve stránkách (extrakce informací nebo zodpovídání dotazů) Vyhledávání informací Vyhledávací stroje (search engines) patří mezi nejpoužívanější nástroje pro práci s webem. Na základě zadání několika vyhledávacích termínů se tyto systémy snaží nalézt relevantní dokumenty (stránky na webu). Výsledkem vyhledávání je obvykle seznam odkazů na stránky, uspořádaný podle skóre, které vyjadřuje shodu dokumentu s dotazem. Vyhledávače používají indexové soubory ve kterých hledají relevantní odkazy, mohou rovněž procházet plné texty dokumentů na webu. Vyhledávání podle zadaných termínů bývá často doplněno pojmovou hierarchii přímo přístupných odkazů. K notoricky známým zahraničním vyhledávačům patří Altavista (http://www.altavista.com) 16 nebo Yahoo! (http://www.yahoo.com), k tuzemským pak Seznam (http://www.seznam.cz), Kompas, (http://kompas.seznam.cz), Atlas (http://hledej.atlas.cz) nebo Alenka (http://www.alenka.cz). Kromě těchto univerzálních vyhledávačů existují i vyhledávače specializovanější. Zmiňme v této souvislost alespoň vyhledávač Google zaměřený na odborná témata (http://www.google.com) nebo vyhledávač Ahoy! (http://ahoy.cs.washington.edu:6060/) zaměřený na vyhledávání domovských stránek osob [Etzioni, 1997]. 16 Všechny uváděné URL odkazy odpovídají době psaní rukopisu, tedy zhruba polovině roku

9 dotaz nalezené dokume nty podobné dokumenty podobné dokumenty Obr. 4 Vyhledávání dokumentů na webu Cílem vyhledávání je opět nalézt soubor odkazů dosahující vysoké přesnosti a úplnosti. Zatímco přesnost můžeme objektivně stanovit, se stanovením úplnosti bude problém. Na rozdíl od neměnných kolekcí textu máme nyní pouze výsledek ad-hoc dotazu uživatele do celého prostoru webu. Různé vyhledávací systémy tento prostor pokrývají (indexují) různou mírou. Velice často se proto vyhledávání (na základě dotazu uživatele) doplňuje o nalezení podobných dokumentů (Obr. 4). Jinou možností jak zvýšit úplnost je metavyhledávání. Metavyhledávání umožňuje simultánní přístup k více (klasickým) vyhledávacím strojům (jako např. Yahoo, AltaVista nebo InfoSeek). Dalšími výhodami metavyhledávání bývá jednotné uživatelské rozhranní, následné zpracování nalezených odkazů i přístup k vyhledávacím strojům neznámým pro uživatele. V posledních několika letech se objevila řada metavyhledávacích systémů vybavených různou inteligence. V tom nejjednodušším smyslu se jedná o přístup k mnoha vyhledávacím strojům z jednoho místa; příkladem takového systému může být All-in-One (http://www.albany.net/allinone) kdy uživatel musí ručně zvolit, který vyhledávací stroj použije a pak pro něj musí zformulovat dotaz (Obr. 5). Jiné systémy již nabízejí jednotný interface k několika různým vyhledávacím strojům; uživatel formuluje dotaz jen jednou. MetaCrawler (http://www.metacrawler.com) (Obr. 6) tento dotaz distribuuje do vyhledávacích strojů, obdržené výsledků je pak schopen dále upravit (lokální prohledávání obdržených stránek). HuskySearch (http://huskysearch.cs.washington.edu) vytváří z nalezených odkazů shluky dokumentů na základě podobnosti témat (Obr. 7). SavvySearch (http://guaraldi.cs.colostate.edu:2000/) - Obr. 8 na základě uživatelova dotazu navíc rozhoduje, do kterého vyhledávacího stroje má dotaz zaslat; toto rozhodování je založeno na "profilech" jednotlivých vyhledávacích strojů - tedy na relevantnosti vyhledávacího stroje pro daný dotaz. Systém AskJeeves (http://www.askjeeves.com) (Obr. 9) kombinuje dotazování do vyhledávacích strojů (a následné zpracování výsledků do velice srozumitelné podoby) s databází přímých odpovědí na běžné otázky odpovědí (odpovědi zde znamenají URL odkazy, tato báze je aktualizována manuálně). AskJeeves je schopen akceptovat dotaz v přirozeném jazyku Tento modul pro vstup dotazu v přirozeném jazyce byl převzat vyhledávačem AltaVista. 9

10 Obr. 5 All-in-One Obr. 6 MetaCrawler 10

11 Obr. 7 HuskySearch Obr. 8 SavvySearch 11

12 Obr. 9 AskJeeves Při vyhledávání resp. metavyhledávání se naskýtá možnost použití zpětné vazby. Uživatel může systému poskytnout hodnocení výsledků dotazu. Tato informace pak je systémem použita pro modifikaci znalostí o uživatelově profilu. Profil se může vztahovat k jednomu uživateli nebo ke skupině uživatelů s podobnými zájmy. Ve druhém případě se mluví o kolaborativním filtrování (collaborative filtering); profil jednoho uživatele je porovnán s profily ostatních uživatelů, to umožní nalézt oblast společných zájmů. Zatímco u klasického vyhledávání je jeden dotaz konfrontován s velkým objemem uložených dokumentů, při filtrování je porovnávána sada definovaných profilů s jednotlivými dokumenty. Pokud je dokument relevantní, je zaslán uživateli, jemuž přísluší daný profil. Profil reprezentuje určitou trvalou informační potřebu a jeho formulace obvykle bývá mnohem komplexnější než u přímých, jednorázových dotazů. Příkladem systému, který používá profily při práci s diskuzními skupinami je systém NewsWeeder, který nabízí uživateli dokumenty v závislosti na profilu uživatele - tento profil je průběžně aktualizován. Jednotlivé dokumenty jsou v systému reprezentovány vektorově (s hodnotami TFIDF jako složkami vektorů), na základě zpětné vazby od uživatele (zajímavý resp. nezajímavý dokument) se aktualizují podmíněné pravděpodobnosti p(e H) = p(vektor_reprezentuje_dokument dokument_ odpovídá_profilu) 18 [Lang, 1995]. 18 Pro učení i klasifikaci se používá naivní bayesovský klasifikátor. Předpokládá se tedy že p(vektor_reprezentuje_dokument dokument_odpovídá_profilu)= Π p(slovo_reprezentuje_dokument dokument_odpovídá_ profilu). 12

13 Příklady použití automaticky vytvářených profilů pro podporu brouzdání po webu najdeme např. v systémech WebWatcher nebo Syskill & Webert. Systém WebWatcher sleduje uživatele při brouzdání webem a z jeho akcí odhaduje (bez využití explicitní zpětné vazby) 19 co uživatele zajímá. Úkolem naučeného systému je doporučit pro aktuální webovskou stránku odkaz, který by měl uživatel zvolit pro další postup webem. Toto doporučení se provádí na základě znalosti o kvalitě odkazu, která závisí na aktuální stránce a zájmech uživatele [Joachims a kol, 1997]. Cílem systému Syskill & Webert je nalézat a doporučovat uživateli dosud nenavštívené stránky tykající se určitého tématu. Za tímto účelem si systém vytváří pro každého uživatele různé profily odpovídající různým oblastem jeho zájmu 20. Systém používá binární reprezentaci dokumentů na základě 96 vybraných termínů a naivní bayesovský klasifikátor [Pazzani a kol, 1996]. Zajímavou variantou vytváření profilů nalezneme ve výše zmíněném metavyhledávacím systému SavvySearch. Místo aby se systém snažil nalézt profily jednotlivých uživatelů (nebo skupin) hledá profily jednotlivých vyhledávacích strojů. Snaží se tedy určit, který vyhledávací stroj nejlépe zodpoví položený dotaz. Bere přitom do úvahy jak kvalitu vyhledávacího stroje z hlediska dotazu (to je dáno počtem nalezených odkazů), tak dobu odezvy [Howe, Dreilinger, 1997] Extrakce informací S extrakcí informací se můžeme setkat u systémů, které nabízejí podporu při nakupování přes Internet. Tato podpora je zaměřena především na procházení on-line katalogů firem s cílem nalézt cenově nejvýhodnější nabídku daného produktu. Pro tuto činnost se vžilo označení comparison shopping. Systémy, které to umožňují bývají nazývány shopbots (podle toho, že se jedná o roboty pohybující se v obchodech). Příkladem takového systému je Netbot Jango (http://www.jango.com) - Obr. 10, který je schopen se naučit vyhledávat zboží v on-line katalozích, rozpoznat jednotlivé informace (název produktu, cenu apod.) a doporučit uživateli nejlevnějšího dodavatele 21. Jedná se tedy o příklad vyhledání informací (nalezení webovské stránky s on-line katalogem) i extrakce informací (dekódování způsobu popisu produktu včetně nalezení důležitých charakteristik typu cena). V průběhu učení se struktuře katalogu používá systém různé finty a fígle jako např. pokus o nákup neexistujícího produktu, což umožní analyzovat odpověď zboží není na skladě v podobě používané daným katalogem, nebo řadu úspěšných objednávek jejich potvrzení slouží k vytvoření trénovací množiny [Etzioni, 1997]. Používání tohoto typu systémů má přímý dopad na chování jak zákazníků (kteří jdou za nejnižší cenou) tak obchodníků (kteří se snaží jít s cenou co nejníže). Může v tom být ale jeden chyták. Uživatelova představa o prohledávání všeho zde opět naráží na realitu práce jen s určitou částí webu. Tentokrát to ale může být způsobeno i tím, že poskytovatel této služby zaměří prohledávání pouze na spřátelené obchodníky. 19 Jedná se zde o učení zaučováním (apprenticeship learning). 20 To je trochu atypický přístup. Obvykle se pro jednoho uživatele vytvoří jeden profil. 21 Tento původně akademický systém se stal součástí vyhledávače Excite. 13

14 Obr. 10 Netbot Jango Struktura webu Dokumenty na webu jsou navzájem propojeny strukturou odkazů. Při dobývání znalostí na základě struktury tedy pohlížíme na web jako na graf, kde uzly jsou dokumenty (stránky) a hrany jsou vazby (odkazy) mezi stránkami. Ukazuje se, že prostor webu není propojen homogenně. Existuje poměrně veliká část webu (tzv. jádro tvořené asi 56 miliony stránek), která je navzájem propojena velice hustě. Pak existuje část vstupní (asi 44 mil stránek), kde jsou stránky ve kterých převažují odkazy směrem do jádra (ale už ne naopak) a část výstupní (opět asi 44 mil stránek), kde jsou stránky na které vedou odkazy z jádra (ale už ne naopak) [Tomkins, 2000]. To co bylo řečeno o celém webu se vztahuje i na jeho dílčí, tématicky zaměřené části. Ke každé oblasti, o které se píše na webu lze nalézt dva typy stránek; rozcestníky (hubs) a referenční zdroje informací (authorities). První typ odkazuje na veliké množství jiných stránek (tato informace se dá získat velice snadno, přímo z dané stránky), druhý typ se jako odkaz objevuje na velkém množství stránek (tuto informaci lze získat analýzou odkazů z většího množství stránek) - Obr. 11. O každé stránce p lze říci do jaké míry patří mezi rozcestníky a do jaké míry mezi autority na základě dvou indexů; authority-weight a(p) a hub-weight h(p) [Chakrabarti a kol, 1999]: a(p) := h(q) q p h(p) := a(q) p q 14

15 H A Obr. 11 Rozcestník a autorita Uvedené členění stránek využívá experimentální vyhledávač Clever firmy IBM. Nalezením rozcestníků a autorit můžeme redukovat část webu pokrývající dané téma do jakési kostry. Zdá se, že tyto kostry vykazují značnou podobnost bez ohledu na téma. Můžeme tedy hledat jakési typické podgrafy ve struktuře www 22. Strukturu odkazů mezi jednotlivými dokumenty lze použít i pro hledání vazeb mezi lidmi. Systém Referral web [Kautz a kol, 1997] je založen na myšlence, že známý mého známého má známého, který zná přesně toho člověka, který mi poradí. Podkladem pro vývoj systému je studie z poloviny 60. let, která ukazuje, že dvě libovolné osoby v USA se dají propojit řetězem maximálně šesti osob. Kdo se s kým zná se odvozuje na základě extrakce informací z dokumentů na webu; lidé se znají, pokud pracovali na stejném projektu, pokud jsou spoluautoři nějaké publikace, pokud byli v programovém výboru stejné konference a podobně. Při vytváření řetězce osob schopných zprostředkovat nějaký kontakt se postupně vytváří 1-okolí dané osoby (tj. osoby, na které má dotyčný přímý kontakt), 2-okolí (tj. okolí odkazovaných osob) atd. Jedná se časově velice náročný proces prováděný off-line; vytvoření 3-okolí trvá údajně 24 hodin Používání webu Cílem dobývání znalostí na základě používání webu je analýza chování uživatelů při procházení jednotlivých stránek [Srivastava a kol., 2000]. Zdrojem dat jsou tzv. web server logy zachycující údaje o IP adrese uživatelova počítače, datu a čase přístupu, navštíveném URL a typu požadavku. Z hlediska dobývání znalostí se tedy jedná o časová data, která můžeme chápat jako sekvence stránek navštívených jedním uživatelem. V těchto sekvencích můžeme hledat např. často se opakující epizody (frequent epizodes) metodami vyvinutými v souvislosti s asociačními pravidly, můžeme rovněž hledat skupiny klientů vyznačujících se podobným chováním různými metodami shlukování. Takto získané znalosti o chování návštěvníků nějakého webovského sídla (web site) pak mohou například pomoci administrátorovi uzpůsobit (přestrukturovat) stránky podle způsobu, jakým jsou prohlíženy [Perkowitz, Etzioni, 1997]. Z experimentálních systémů pro tuto oblast uveďme systém WUM (Web Utilization Miner), který hledá asociační pravidla za využití vlastního rozšíření dotazovacího jazyka SQL [Spiliopoulou, Faulstich, 1999], systém WebSIFT, nabízející pro analýzu přístupu k webu asociační pravidla, shlukování i statistické metody [Cooley a kol, 1999], nebo systém WebLogMiner kombinující OLAP a dobývání znalostí [Zaine a kol, 1998]. 22 V této souvislosti se mluví o implicitních komunitách vytvářejících webovské stránky k určitému tématu. Výzkumy ukazují existenci cca takových komunit. 15

16 Obr. 12 Amazon Pro úplnost zmiňme (jako příklad použití klasických metod) analýzu nákupního košíku v internetových obchodech. Jestliže lze v kamenných obchodech získávat řadu informací o zákaznících 23, tím spíše to platí pro nakupování přes Internet. Informace získané při registraci zákazníka pak umožňují (spolu s informacemi o objednávkách zboží) zkoumat chování skupin klientů. To lze použít např. pro nabídku dalšího zboží stylem zákazníci, kteří si koupili toto (stejné) zboží, si rovněž koupili... (Obr. 12). Jak je vidět z obrázku, lze rovněž použít zpětnou vazbu od uživatele (hodnocení knih) Co bude dál? Zdá se, že jako další krok v řadě text mining web mining se objeví multimedia mining, tedy dobývání znalostí z multimediálních dat kombinujících texty, obrázky, zvuky, videosekvence a pod. O tom ale až někdy příště. 23 Připomeňme všelijaké zákaznické karty v řetězcích supermarketů. 16

17 Literatrura: [Berka, 1998] Berka,P.: Intelligent Systems on the Internet. LISp-98-01, Výzkumná zpráva, [Cohen, 1996] Cohen,W.: Learning rules to classify . AAAI Spring Symposium on Machine Learning in Information Access, Stanford, [Cooley a kol, 1999] Cooley,R. Tan,P-N, - Srivastava,J.: Discovery of interesting usage patterns from web data. Tech.Rep. TR , Univ. of Minnesota, [Dumais a kol, 1988] Dumais,S.T. - Furnas,G.W. - Landauer,T.K. - Deerwester,S. - Harshman,R.: Using latent semantic analysis to improve access to textual information. In: Proc. Conf. on Human Factors in Computing Systems, 1988 [Etzioni, 1997] Etzioni,O.: Moving Up the Information Food Chain. AI Magazine Vol. 18, No. 2, [Feldman, Hirsh, 1997] Feldman,R. - Hirsh,H.: Finding associations in collections of text. In: (Michalski, Bratko, Kubat, eds.) Methods and applications of machine learning, data mining and knowledge discovery, John Wiley and Sons, [Feldman a kol, 1998a] Feldman,R. Fresko,M. Kinar,Y. Lindell,Y. Liphstat,O. Rajman,M. Schler,Y. Zamir,O.: Text mining at the term level. In: (Zytkow, Quafafou, eds.) Proc. 2 nd European Conf. on Principles of Data Mining and Knowledge Discovery PKDD 98. Springer LNAI 1510, 1998, [Feldman a kol, 1998b] Feldman,R. Aumann,Y. Zilberstein,Y. Ben-Yehuda,Y.: Trend graphs: visualizing the evolution of concept relationships in large document collections. In: (Zytkow, Quafafou, eds.) Proc. 2 nd European Conf. on Principles of Data Mining and Knowledge Discovery PKDD 98. Springer LNAI 1510, 1998, [Gordon, 1988] Gordon,M.: Probabilistic and genetic algorithms for document retrieval. Communications of the ACM, 31(10): , October [Grobelnik, Mladenic, 1998] Grobelnik,M. - Mladenic,D.: Efficient text categorization. In (Kodratoff, ed.) Proc. ECML 98 Workshop on Text Mining, TU Chemnitz, CSR-98-05, [Honkela a kol, 1996] Honkela T.,Kaski S., Lagus K., Kohonen T.: Newsgroup exploration with WEBSOM Method and Browsing Interface, Report A32, Helsinky University of Technology, [Howe, Dreilinger, 1997] Howe,A. - Dreilinger,D.: SavvySearch - A metasearch engine that learns which search engines to query. AI Magazine Vol. 18, No. 2, [Chakrabarti a kol, 1999] Chakrabarti,S. - Dom,B. - Gibson,D. - Kleinberg,J. - Kumar,S.R. - Raghavan,P. - Rajagopalan,S. - Tomkins,A.: Hypersearching the web. Scientific American, June, [Chang a kol., 2001] Chang,G. Healey,M.J. McHugh,J.A.M. Wang,J.T.L.: Mining the World WIde Web. Kluwer, 2001, ISBN [Joachims a kol, 1997] Joachims,T. - Freitag,D. - Mitchell,T.: WebWatcher: A tour guide for the World Wide Web. In: Proc. Int. Join Conf. on Artificial Intelligence IJCAI 97, [Kautz a kol, 1997] Kautz,H. - Selman,B. - Shah,M.: The hidden web. AI Magazine Vol. 18, No. 2, [Kodratoff, 2000] Kodratoff,Y.: Knowledge extraction form texts. Tutorial, 4 th Knowledge Discovery and Data Mining PAKDD2000, Kyoto, Pacific-Asia Conf. on [Kohonen, 1998] Kohonen,T.: Self-organization of very large document collections: state of the art. In: (Niklasson, Boden, Ziemke, eds.) Proc. 8 th Int. Conf. on Artificial Neural Networks ICANN98, Springer, 1998, [Lang, 1995] Lang.K.: NewsWeeder: learning to filter netnews. In: Proc. ML 95. [Lewis, 1991] Lewis,D.: Representation and learning in information retrieval. COINS Tech.Rep , Univ. of Massachusetts. 17

18 [Merkl, Rauber, 2000] Merkl,D. Rauber,A.: Uncovering the hierarchical Structure of text archives by using an unsupervised neural network with adaptive architecture. In: (Terano, Liu, Chen eds.) Proc. 4 th Pacific-Asia Conf. on Knowledge Discovery and Data Mining PAKDD2000, Springer, LNAI 1805, 2000, [Mitchell, 1997] Mitchell,T.: Machine Learning. McGraw-Hill ISBN [Pazzani a kol, 1996] Pazzani,M. - Muramatsu,J. - Billsus,D.: Syskill & Webert: Identifying interesting web sites. AAAI Spring Symposium on Machine Learning in Information Access, Stanford, [Perkowitz, Etzioni, 1997] Perkowitz,M. - Etzioni,O.: Adaptive web sites: an AI challenge. In: Proc. Int. Join Conf. on AI IJCAI 97. [Pokorný, 2001] Pokorný,J.: Dokumentografické IS. Tutorial na konferenci Znalosti 01, Praha [Salton, 1971] Salton,G.: The SMART Retrieval System: Experiments in Automatic Document Processing, Prentice-Hall, [Salton, McGill, 1983] Salton,G. - McGill,M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, [Strossa, 2000] Strossa,P.: Zpracování informačních fondů. Algoritmizace a automatizované zpracování textových informací. Skripta VŠE, [Spiliopoulou, 1999] Spiliopoulou,M.: Data mining for the web. Tutorial 3 th European Conf. on Principles and Practice of Knowledge Discovery in Databases PKDD 99, Prague, [Spiliopoulou, Faulstich, 1999] Spiliopoulou,M. - Faulstich,L.: WUM: A tool for web utilization analysis. In Proc. EDBT Workshop WebDB 98, Springer LNCS 1590, [Srivastava a kol., 2000] Srivastava, J. - Cooley, R. - Deshpande, M. - Tan, P.: Web usage mining: discovery and applications of web usage patterns from web data. SIGKDD Explorations, Vol.1, Issue 1, [Tomkins, 2000] Tomkins,A.: Hyperlink-aware mining and analysis of the web. In: (Terano, Liu, Chen, eds.) Proc. 4 th Pacific-Asia Conf. on Knowledge Discovery and Data Mining PAKDD2000, LNAI 1805, Springer, 2000, 4. [Zaiane, Han, 1999] Zaiane,O. - Han,J.: WebML: Querzing the World-Wide Web for resources and knowledge. In: Proc. Int. Workshop on Web Information and Data Management WIDM 98, Bethesda, 1998, [Zaine a kol, 1998] [Zaine,O. Xin,M. Han,J.: Discovering web access patterns and trends by applying OLAP and data mining technology on web logs. In: Advances in Digital Libraries, [Zighed, di Palma, 2000] Zighed,D. di Palma,S.: Text reprezentation strategies for machine learning categorization. In: Kodratoff,I. - Zighed,D. di Palma,S.: Text Mining. Tutorial 4 th European Conf. on Principles and Practice of Knowledge Discovery in Databases PKDD2000, Lyon,

Dobývání znalostí z webu web mining

Dobývání znalostí z webu web mining Dobývání znalostí z webu web mining Web Mining is is the application of data mining techniques to discover patterns from the Web (Wikipedia) Tři oblasti: Web content mining (web jako kolekce dokumentů)

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních

Více

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU Jana Filipová, Karel Michálek, Pavel Petr Ústav systémového inženýrství a informatiky, Fakulta ekonomicko-správní,

Více

Vizualizace v Information Retrieval

Vizualizace v Information Retrieval Vizualizace v Information Retrieval Petr Kopka VŠB-TU Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Obsah Co je Information Retrieval, vizualizace, proces přístupu k informacím Způsoby

Více

InternetovéTechnologie

InternetovéTechnologie 7 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce

Více

Uživatelská podpora v prostředí WWW

Uživatelská podpora v prostředí WWW Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,

Více

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů. Modely datové Existují různé úrovně pohledu na data. Nejvyšší úroveň je úroveň, která zachycuje pouze vztahy a struktury dat samotných. Konceptuální model - E-R model. Další úrovní je logická úroveň Databázové

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně vyhledávat informace,

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

Kde hledat odborné články?

Kde hledat odborné články? Kde hledat odborné články? Martina Machátová E-mail: machat@mzk.cz Tel.: 541 646 170 Poslední aktualizace: 8. června 2015 The Free Library http://www.thefreelibrary.com/ Obsahuje skoro 25 milionů článků

Více

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů

Více

Vyhledávání na Internetu

Vyhledávání na Internetu Tento materiál byl napsán za využití učebních materiálů ke Kurzu práce s informacemi (KPI11) vyučovaném v roce 2007 na Masarykově univerzitě. Autory kurzu jsou: PhDr. Petr Škyřík, Mgr. Petra Šedinová,

Více

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ

Více

Ontologie. Otakar Trunda

Ontologie. Otakar Trunda Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba

Více

PRODUKTY Tovek Server 6

PRODUKTY Tovek Server 6 Tovek Server je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených strukturovaných i nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně

Více

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání 1 z 5 Nápověda 360 Search Co je 360 Search? 360 Search je metavyhledávač, který slouží k paralelnímu prohledávání všech dostupných informačních zdrojů prostřednictvím jednotného rozhraní. Nástroj 360 Search

Více

Big data ukážou mapu, TOVEK řekne kudy jít

Big data ukážou mapu, TOVEK řekne kudy jít Řešení pro Competitive Intelligence Big data ukážou mapu, TOVEK řekne kudy jít Tomáš Vejlupek President Tovek 6.11.2015, VŠE Praha TOVEK, spol. s r.o. Výsledek zpracování BIG DATA Jaké cesty k cíli mohu

Více

InternetovéTechnologie

InternetovéTechnologie 4 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

Problémové domény a jejich charakteristiky

Problémové domény a jejich charakteristiky Milan Mišovič (ČVUT FIT) Pokročilé informační systémy MI-PIS, 2011, Přednáška 02 1/16 Problémové domény a jejich charakteristiky Prof. RNDr. Milan Mišovič, CSc. Katedra softwarového inženýrství Fakulta

Více

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 10

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 10 UNIVERZITA TOMÁŠE BATI VE ZLÍNĚ FAKULTA APLIKOVANÉ INFORMATIKY GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 10 Lubomír Vašek Zlín 2013 Tento studijní materiál vznikl za finanční podpory Evropského sociálního fondu (ESF)

Více

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství ing. Tomáš Vejlupek Informace tvořící konkurenční výhodu K rozhodování nestačí jen informace. K rozhodování je nutná také znalost umožňující

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

SCOPUS a WEB OF SCIENCE

SCOPUS a WEB OF SCIENCE SCOPUS a WEB OF SCIENCE 7. února 2012 Osnova 1. Typy ve vyhledávání v databázi SCOPUS 2. Typy ve vyhledávání v databázi Web of Science 3. Nástroje pro vyhledávání v jednom vyhledávacím prostředí: Metavyhledávače

Více

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci) ..! POSSIBILISTIC Laboratoř pro analýzu INFORMATION: a modelování dat Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci) George J. Klir State University of New York (SUNY)

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

Dobývání znalostí z databází

Dobývání znalostí z databází Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable

Více

EBSCO. http://search.ebscohost.com. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

EBSCO. http://search.ebscohost.com. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat. EBSCO http://search.ebscohost.com Poklikneme na možnost EBSCOhost Web Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat. Vyhledávací techniky Rejstříky Pomůckou pro vyhledávání jsou rejstříky,

Více

3. přednáška z předmětu GIS1 atributové a prostorové dotazy

3. přednáška z předmětu GIS1 atributové a prostorové dotazy 3. přednáška z předmětu GIS1 atributové a prostorové dotazy Vyučující: Ing. Jan Pacina, Ph.D. e-mail: jan.pacina@ujep.cz Pro přednášku byly použity texty a obrázky z www.gis.zcu.cz Předmět KMA/UGI, autor

Více

Dolování v objektových datech. Ivana Rudolfová

Dolování v objektových datech. Ivana Rudolfová Dolování v objektových datech Ivana Rudolfová Relační databáze - nevýhody První normální forma neumožňuje vyjádřit vztahy A je podtypem B nebo vytvořit struktury typu pole nebo množiny SQL omezení omezený

Více

Informační zabezpečení studia na Zahradnické fakultě MENDELU. Elektronické informační zdroje

Informační zabezpečení studia na Zahradnické fakultě MENDELU. Elektronické informační zdroje Informační zabezpečení studia na Zahradnické fakultě MENDELU Elektronické informační zdroje 2. prosince 2015 Obsah Elektronické informační zdroje oborové Elektronické informační zdroje multioborové Základy

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel

Více

Automatická oprava textu v různých jazycích

Automatická oprava textu v různých jazycích Automatická oprava textu v různých jazycích Bc. Petr Semrád, doc. Ing. František Dařena Ph.D., Ústav informatiky, Provozně ekonomická fakulta, Mendelova univerzita v Brně, xsemrad@mendelu.cz, frantisek.darena@mendelu.cz

Více

Zpráva o zhotoveném plnění

Zpráva o zhotoveném plnění Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor:

Více

České internetové medicínské zdroje v Národní lékařské knihovně

České internetové medicínské zdroje v Národní lékařské knihovně České internetové medicínské zdroje v Národní lékařské knihovně Kateřina Štěchovská Národní lékařská knihovna, Praha stechovs@nlk.cz INFORUM 2005: 11. konference o profesionálních informačních zdrojích

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Produktový list. Firemní profily

Produktový list. Firemní profily Produktový list Firemní profily O službě Díky firemnímu profilu od Seznamu můžete umístit informace o vaší firmě na nejnavštěvovanější stránky českého internetu. Budete snadno k nalezení na hlavní stránce

Více

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT Dolování dat z multimediálních databází Ing. Igor Szöke Speech group ÚPGM, FIT, VUT Obsah prezentace Co jsou multimediální databáze Možnosti dolování dat v multimediálních databázích Vyhledávání fotografií

Více

Databázové a informační systémy

Databázové a informační systémy Databázové a informační systémy doc. Ing. Miroslav Beneš, Ph.D. katedra informatiky FEI VŠB-TUO A-1007 / 597 324 213 http://www.cs.vsb.cz/benes Miroslav.Benes@vsb.cz Obsah Jak ukládat a efektivně zpracovávat

Více

Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz

Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Databázové systémy Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Vývoj databázových systémů Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace 60.-70. léta Program Komunikace Výpočty

Více

Inovace bakalářského studijního oboru Aplikovaná chemie

Inovace bakalářského studijního oboru Aplikovaná chemie Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem Českérepubliky. Internet

Více

Informační a znalostní systémy jako podpora rozhodování

Informační a znalostní systémy jako podpora rozhodování Informační systémy a technologie Informační a znalostní systémy jako podpora rozhodování Petr Moos - ČVUT VŠL Přerov listopad 2015 Analýza a syntéza systému Definici systému můžeme zapsat ve tvaru: S =

Více

5.5 Evoluční algoritmy

5.5 Evoluční algoritmy 5.5 Evoluční algoritmy Jinou skupinou metod strojového učení, které vycházejí z biologických principů, jsou evoluční algoritmy. Zdrojem inspirace se tentokrát stal mechanismus evoluce, chápaný jako Darwinův

Více

Autor. Potřeba aplikací sdílet a udržovat informace o službách, uživatelích nebo jiných objektech

Autor. Potřeba aplikací sdílet a udržovat informace o službách, uživatelích nebo jiných objektech Adresářová služba X.500 a LDAP Autor Martin Lasoň Abstrakt Potřeba aplikací sdílet a udržovat informace o službách, uživatelích nebo jiných objektech vedla ke vzniku specializovaných databází adresářů.

Více

Vyhledávání nebo nalezení informací

Vyhledávání nebo nalezení informací Vyhledávání nebo nalezení informací Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2012, 23. 5. 2012 Vilém

Více

Začínáme s Tovek Tools

Začínáme s Tovek Tools NAJÍT POCHOPIT VYUŽÍT Úvodní seznámení s produktem Tovek Tools JAK SI TOVEK TOOLS NAINSTALUJI?... 2 JAK SI PŘIPOJÍM INFORMAČNÍ ZDROJE, VE KTERÝCH CHCI VYHLEDÁVAT?... 2 JAK MOHU VYHLEDÁVAT V INFORMAČNÍCH

Více

Web 2.0 vs. sémantický web

Web 2.0 vs. sémantický web Web 2.0 vs. sémantický web Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2007, 24. 5. 2007 Vilém Sklenák

Více

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval 2014-03-30. lekce 3: VYHLEDÁVAČ(E) je:

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval 2014-03-30. lekce 3: VYHLEDÁVAČ(E) je: Školení technologií a služeb na internetu. Určeno pro lidi, kteří s uvedenou technologií ještě nepřišli do styku a chtějí se do ní rychle dostat. Školení není sestaveno do hloubky problematiky ani pro

Více

Hodnocení kvality logistických procesů

Hodnocení kvality logistických procesů Téma 5. Hodnocení kvality logistických procesů Kvalitu logistických procesů nelze vyjádřit absolutně (nelze ji měřit přímo), nýbrž relativně porovnáním Hodnoty těchto znaků někdo buď předem stanovil (norma,

Více

Produktový list. Firemní profily

Produktový list. Firemní profily Produktový list Firemní profily O službě Díky firemnímu profilu od Seznamu můžete umístit informace o vaší firmě na nejnavštěvovanější stránky českého internetu. Budete snadno k nalezení na hlavní stránce

Více

Unstructured data pre-processing using Snowball language

Unstructured data pre-processing using Snowball language Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická

Více

Strojové učení se zaměřením na vliv vstupních dat

Strojové učení se zaměřením na vliv vstupních dat Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications

Více

Vyhledávání informací

Vyhledávání informací Vyhledávání informací Informace na internetu můžeme získat nejen z webových stránek, ale ze spousty dalších míst. Přestože ze statických webových stránek lze získat jen zlomek veškerých dostupných informací,

Více

Produktový list. Firemní profily

Produktový list. Firemní profily Produktový list Firemní profily O službě Díky firemnímu profilu od Seznamu můžete umístit informace o vaší firmě na nejnavštěvovanější stránky českého internetu. Snadno dohledatelní budete v rámci vyhledávání

Více

Michal Krátký, Miroslav Beneš

Michal Krátký, Miroslav Beneš Databázové a informační systémy Michal Krátký, Miroslav Beneš Katedra informatiky VŠB Technická univerzita Ostrava 5.12.2005 2005 Michal Krátký, Miroslav Beneš Databázové a informační systémy 1/24 Obsah

Více

The bridge to knowledge 28/05/09

The bridge to knowledge 28/05/09 The bridge to knowledge DigiTool umožňuje knihovnám vytvářet, administrovat, dlouhodobě uchovávat a sdílet digitální sbírky. DigiTool je možno využít pro institucionální repozitáře, sbírky výukových materiálu

Více

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009

Více

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem

Více

Elektronické informační zdroje. Dřevařství a příbuzné obory

Elektronické informační zdroje. Dřevařství a příbuzné obory Elektronické informační zdroje Dřevařství a příbuzné obory 2. 11. 2010 Osnova 1. Elektronické informační zdroje (EIZ) na MENDELU Abstraktové databáze Plnotextové databáze 2. Základy tvorby rešeršního dotazu

Více

Využití informačních technologií v cestovním ruchu P1

Využití informačních technologií v cestovním ruchu P1 Využití informačních technologií v cestovním ruchu P1 Pavel Petr Petr.USII@upce.cz 1 Obsah kurzu Princip vyhledávání Definování vyhledávacích požadavků Vyhledávací nástroje Zdroje informací Nástroje pro

Více

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7. Masarykova základní škola Klatovy, tř. Národních mučedníků 185, 339 01 Klatovy; 376312154, fax 376326089 E-mail: skola@maszskt.investtel.cz; Internet: www.maszskt.investtel.cz Kód přílohy vzdělávací VY_32_INOVACE_IN7DV_05_01_20

Více

Cestovní zpráva. Program akce: Průběh akce. O Anopress

Cestovní zpráva. Program akce: Průběh akce. O Anopress Cestovní zpráva Pracovník: Jiří Fišer Akce: Školení o obsluze databází z programu VISK8-A Datum konání: 4. 4. 2016 Místo konání: Praha, Národní knihovna Klíčová slova: Anopress -- vyhledávání -- tisk --

Více

Datové struktury. Zuzana Majdišová

Datové struktury. Zuzana Majdišová Datové struktury Zuzana Majdišová 19.5.2015 Datové struktury Numerické datové struktury Efektivní reprezentace velkých řídkých matic Lze využít při výpočtu na GPU Dělení prostoru a binární masky Voxelová

Více

Využití SVD pro indexování latentní sémantiky

Využití SVD pro indexování latentní sémantiky Využití SVD pro indexování latentní sémantiky Michal Krátký 1 Department of Computer Science, VŠB-Technical University of Ostrava, Czech Republic michal.kratky@vsb.cz Abstrakt Zpracováváním velkého množství

Více

MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ

MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ MANAŽERSKÉ ROZHODOVÁNÍ ZA VYUŽITÍ METOD PRO ZPRACOVÁNÍ DOKUMENTŮ Hana Kopáčková, Renáta Máchová Ústav systémového inženýrství a informatiky, Fakulta ekonomicko-správní, UPA Abstrakt: Tento příspěvek se

Více

Internet. Osnova. II. Vyhledávací nástroje. Proč je vyhledávání na Internetu tolik komplikované? Jak se stát úspěšným hledačem pokladů na Internetu

Internet. Osnova. II. Vyhledávací nástroje. Proč je vyhledávání na Internetu tolik komplikované? Jak se stát úspěšným hledačem pokladů na Internetu Internet II. Vyhledávací nástroje Osnova Jak se stát úspěšným hledačem pokladů na Internetu rešeršní strategie vyhledávací nástroje hodnocení vyhledávacích nástrojů, vyhledaných obsahů informací Neviditelný

Více

Bibliografické databáze umění vyhledávat v záplavě pramenů relevantní informace

Bibliografické databáze umění vyhledávat v záplavě pramenů relevantní informace Bibliografické databáze umění vyhledávat v záplavě pramenů relevantní informace Jitka Stejskalová Ústav vědeckých informací 1. LF UK Jak si obstarám informace? informační exploze mnoho informací a jak

Více

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha Identifikace tématických sociálních sítí Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha 2 Obsah prezentace Cíl Fáze řešení a navržené postupy Prototyp a výsledky

Více

Sémantický web a extrakce

Sémantický web a extrakce Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací

Více

KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d

KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d KMA/PDB Prostorové databáze Karel Janečka Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d Sylabus předmětu KMA/PDB Úvodní přednáška Základní terminologie Motivace rozdíl klasické

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Využití strojového učení k identifikaci protein-ligand aktivních míst

Využití strojového učení k identifikaci protein-ligand aktivních míst Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské

Více

MULTIMEDIÁLNÍ A HYPERMEDIÁLNÍ SYSTÉMY

MULTIMEDIÁLNÍ A HYPERMEDIÁLNÍ SYSTÉMY MULTIMEDIÁLNÍ A HYPERMEDIÁLNÍ SYSTÉMY 1) Úvod do problematiky Petr Lobaz, 18. 2. 2004 ORGANIZACE PŘ EDMĚ TU POŽADAVKY KE ZKOUŠCE vypracování semestrální práce (max. 70 bodů) napsání testu (max. 30 bodů)

Více

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci

Více

Integrované vyhledávání v informačních zdrojích Národní lékařské knihovny - výzva 21. století

Integrované vyhledávání v informačních zdrojích Národní lékařské knihovny - výzva 21. století Integrované vyhledávání v informačních zdrojích Národní lékařské knihovny - výzva 21. století Abstrakt Filip Kříž, Ondřej Horsák, Lenka Maixnerová, Jana Zindulková, Adéla Jarolímková, Eva Lesenková, Helena

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence

Více

Jak vyhledávat. Vyhledávače KAPITOLA 3

Jak vyhledávat. Vyhledávače KAPITOLA 3 KAPITOLA 3 Jak vyhledávat Už víme, jak zacházet s programem Microsoft Internet Explorer, a můžeme se pustit do surfování. Ostatně, stejně jsme to při seznamování s funkcemi programu chtíce nechtíce dělali.

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK. AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK. Václav Snášel, Jiří Dvorský, Petr Šaloun, Daniela Ďuráková VŠB Technická univerzita, 17. listopadu 15, 708 33 Ostrava Abstract Textová databáze AmphorA

Více

Produktový list. Firemní profily

Produktový list. Firemní profily Produktový list Firemní profily O službě Díky firemnímu profilu od Seznamu můžete umístit informace o vaší firmě na nejnavštěvovanější stránky českého internetu. Snadno dohledatelní budete v rámci vyhledávání

Více

Informační systémy 2008/2009. Radim Farana. Obsah. Nástroje business modelování. Business modelling, základní nástroje a metody business modelování.

Informační systémy 2008/2009. Radim Farana. Obsah. Nástroje business modelování. Business modelling, základní nástroje a metody business modelování. 3 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Business modelling, základní nástroje a metody business modelování.

Více

Experimentální systém pro WEB IR

Experimentální systém pro WEB IR Experimentální systém pro WEB IR Jiří Vraný Školitel: Doc. RNDr. Pavel Satrapa PhD. Problematika disertační práce velmi stručný úvod WEB IR information retrieval from WWW, vyhledávání na webu Vzhledem

Více

Základní informace o co se jedná a k čemu to slouží

Základní informace o co se jedná a k čemu to slouží Základní informace o co se jedná a k čemu to slouží založené na relačních databází transakční systémy, které jsou určeny pro pořizování a ukládání dat v reálném čase (ERP, účetní, ekonomické a další podnikové

Více

INFORMAČNÍ ZDROJE NEMEDICÍNSKÉHO PŮVODU RELEVANTNÍ PRO ŘEŠENÍ MEDICÍNSKÝCH INFORMAČNÍCH POTŘEB Richard Papík, Martin Souček

INFORMAČNÍ ZDROJE NEMEDICÍNSKÉHO PŮVODU RELEVANTNÍ PRO ŘEŠENÍ MEDICÍNSKÝCH INFORMAČNÍCH POTŘEB Richard Papík, Martin Souček 170 INFORMAČNÍ ZDROJE NEMEDICÍNSKÉHO PŮVODU RELEVANTNÍ Richard Papík, Martin Souček Anotace Charakteristika a možnosti přístupu k informačním zdrojům patřícím k jádru informačních zdrojů medicínských a

Více

Databázové systémy trocha teorie

Databázové systémy trocha teorie Databázové systémy trocha teorie Základní pojmy Historie vývoje zpracování dat: 50. Léta vše v programu nevýhody poměrně jasné Aplikace1 alg.1 Aplikace2 alg.2 typy1 data1 typy2 data2 vytvoření systémů

Více

7 Další. úlohy analýzy řeči i a metody

7 Další. úlohy analýzy řeči i a metody Pokročilé metody rozpoznávánířeči Přednáška 7 Další úlohy analýzy řeči i a metody jejich řešení Výsledky rozpoznávání (slovník k 413k) frantisek_vlas 91.92( 90.18) [H= 796, D= 10, S= 60, I= 15, N=866,

Více

Informační zdroje v síti ČVUT

Informační zdroje v síti ČVUT Informační zdroje v síti ČVUT Fakulta strojní ČVUT v Praze Mgr. Zdeňka Civínová Ústřední knihovna ČVUT v Praze Říjen 2016 rešeršní strategie jak hledat knihy jak hledat články jak hledat na webu služby

Více