Případová studie: extrakce strukturovaných dat z webu s využitím extrakčních ontologií

Rozměr: px
Začít zobrazení ze stránky:

Download "Případová studie: extrakce strukturovaných dat z webu s využitím extrakčních ontologií"

Transkript

1 Případová studie: extrakce strukturovaných dat z webu s využitím extrakčních ontologií Aleš Pouzar 1 a Martin Labský 2 1 Katedra informačního a znalostního inženýrství, Vysoká škola ekonomická v Praze, nám. W. Churchilla 4, Praha 3 ales.pouzar@gmail.com 2 IBM Prague Research Lab, V parku 2294/4, Praha 4 martin.labsky@cz.ibm.com Abstrakt Tato studie se zabývá úlohou automatizace zpracování webového obsahu a sémantického anotování textu pro dvě vybrané domény. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do objektů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl vybrán extrakční systém Ex, který kombinuje dva typy extrakčních znalostí: ručně zadaná pravidla a supervizované algoritmy strojového učení. Díky expertní znalosti v podobě pravidel, ve kterých je možné částečně zohlednit i formátovací strukturu dokumentů, lze účinně kompenzovat nedostatek trénovacích dat. Pravidla jsou přitom nezávislá na konkrétní webové struktuře a jeden extrakční model je tak možné využít pro heterogenní množinu dokumentů. I menší počet trénovacích dat vede k lepším výsledkům u hodnot těch atributů, které jsou jinak obtížně specifikovatelné jen s pomocí ručních pravidel. Klíčová slova: extrakce informací, automatická sémantická anotace, extrakční ontologie, strojové učení, rozpoznávání pojmenovaných entit 1 Úvod a motivace Cílem je navržení jednoho extrakčního modelu pro každou doménu, s jehož pomocí je možné získat strukturovaná data o vysoké granularitě z množiny heterogenních webových dokumentů (z hlediska formátovací struktury). Narozdíl od tzv. wrapper přístupu [3] není nutné vytvářet pro každý web různá extrakční pravidla, naopak stačí udržovat jediný model, který lze průběžně vylepšovat (např. zvyšováním počtu trénovacích dat). Obě vybrané extrakční úlohy pokrývají tři základní typy webových dokumentů: pevně strukturované dokumenty (generované převážně automaticky z databáze na základě šablon), strukturovaný volný text (každá informace je zpravidla na samostatném řádku) a nestrukturovaný volný text (informace jsou obsaženy ve větách, absence formátování apod.).

2 První typ představují produktové katalogy eshopů, druhý typ je nejblíže detailovým stránkám o produktech a některým pracovním nabídkám a poslední typ odpovídá zbývajícím pracovním nabídkám. Výchozí motivací je získání takových dat, která by byla využitelná v reálných aplikacích jako strukturované vyhledávání produktových a pracovních nabídek nebo komparativní nakupování. V současné době jsou podobné aplikace závislé na datech, které jim poskytují samotné firmy 3. Z toho důvodu nepokrývají zdaleka všechen relevantní obsah, který se na webu nachází. Manuální sběr dat, který by tuto mezeru zacelil, je při tak častých změnách pracovních i produktových nabídek a jejich velkém počtu (desetitisíce) vyloučený. Extrakce informací je prostřední a zároveň nejkritičtější článek celého procesu prvním krokem je získání dostatečně obsáhlé množiny webových dokumentů, úkolem finální fáze je spárovat nabídky týkající se identických produktů (resp. odstranit duplicitní záznamy pracovních nabídek). Ve výsledku tak musí být extrakční model dostatečně robustní i pro nerelevantní dokumenty a zároveň popsat co nejvíce důležitých informací, které by usnadnily finální proces párování nabídek. Další části textu jsou členěny následovně. Druhá sekce stručně popisuje nástroj Ex a uváděný pojem extrakční ontologie. Ve třetí části následují údaje o datasetech, se kterými byly provedeny experimenty. Čtvrtá sekce je věnována návrhu extrakčních ontologií, pátá sekce prezentuje výsledky a poslední část shrnuje výhody i nevýhody použitého přístupu. 2 Popis extrakčního systému Extrakční nástroj Ex 4, vyvíjený na VŠE Praha, slouží k extrakci pojmenovaných entit (hodnot atributů) a k jejich seskupování do relací (instancí tříd). Zpracovávat lze dokumenty s různým množstvím formátovací struktury jako jsou webové stránky, ale také čistě textové nebo tabulární dokumenty. Definice tříd a třídu tvořících atributů se zapisují do tzv. extrakční ontologie [1]. Snahou je zde využít doménové ontologie doplněné o znalosti umožňující automatickou extrakci z textu. Mezi doménové ontologie využitelné pro odvození sruktury extrakčních ontologií [4] v oblasti nabídek produktů patří např. CEO 5 nebo nově vznikající PTO 6. Odvozením z vhodné doménové ontologie se současně minimalizuje úsilí nutné pro zpětnou konverzi extrahovaných výsledků při populaci zdrojové ontologie. Nástroj Ex kombinuje celkem tři typy extrakční znalosti: pravidla ručně zadaná expertem, znalosti indukované z trénovacích dat pomocí algoritmů strojového učení a částečně jsou využita nesupervizovaně indukovaná pravidla o formátovací struktuře dokumentů. Extrakční ontologie definuje jednu nebo více 3 Eshopová data o produktových nabídkách jsou zpravidla poskytována konečným aplikacím (např. Heureka.cz) prostřednictvím tzv. XML feedů, které musí mít požadovanou strukturu. To je často překážkou pro menší eshopy

3 tříd (např. produktová nabídka) sestávajících z atributů, u kterých lze definovat kardinalitní a datotypová omezení a využít dědičnosti (např. cena a cena s DPH). Definice atributů i tříd obsahují extrakční indicie, které jsou reprezentovány zejména regulárními vzory a axiomy. Regulární vzory na úrovni třídy specifikují pravděpodobná pořadí atributů uvnitř instance nebo kontext jejího výskytu, zatímco na úrovni atributů modelují předpovídanou hodnotu atributu (obsahové vzory) nebo okolí jeho výskytu (kontextové vzory). Vzory lze definovat na úrovni slov (včetně rozsáhlých seznamů), vlastností slov, na úrovni znaků a na úrovni formátovacích značek (HTML elementů). Třídní axiomy představují tvrzení o obsahu třídy (typicky o vztazích mezi hodnotami jejích atributů, např. ová adresa je podobná jménu majitele ), zatímco axiomy definované na atributech se vyjadřují o hodnotě daného atributu. Axiomy je možné definovat jako funkce jazyka JavaScript vracející binární výsledek. U každé indicie je možno nastavit dva pravděpodobnostní odhady. Přesnost indicie stanovuje pravděpodobnost výskytu atributu v případě, že daná indicie platí: P (hodnota atributu indicie). Pokrytí indicie stanovuje, do jaké míry je přítomnost vzoru pro extrakci hodnoty daného atributu nutná: P (indicie hodnota atributu). Dále je každý typ atributu spojen s určitou nízkou apriori pravděpodobností výskytu v textu. Na základě vyhodnocení všech indicií a předpokladu jejich podmíněné nezávislosti systém odhadne pravděpodobnost každé potenciální hodnoty atributu ve zkoumaném dokumentu podle [5]. Pro extrakci atributů lze navíc přímo z extrakční ontologie trénovat a používat externí algoritmy strojového učení: značkovač sekvencí CRF++[6] a některé klasifikátory implementované v systému Weka [2]. Rozhodnutí těchto algoritmů je obvykle využito jako další obsahový vzor klasifikovaného atributu [5]. Obrázek 1. Ukázka části extrakční ontologie atribut driving_license pro extrahování skupin řidičského oprávnění.

4 Atribut na obr. 1 je definován pomocí dvou obsahových a dvou kontextových vzorů. První vzor říká, že výskyt jednoho z uvedených písmen v textu s 25 % pravděpodobností představuje skupinu řidičského oprávnění, zatímco 100 % pokrytí zamezí extrakci hodnot tento vzor nesplňujících. Poslední obsahový vzor přijímá rozhodnutí externího klasifikátoru CRF. První kontextový vzor svým vysokým pokrytím 75 % omezuje pravděpodobná levá okolí předpovídané hodnoty atributu (označené symbolem $). 3 Popis datasetů Dataset produktových nabídek je tvořen celkem 56 stránkami získanými ze 17 různých eshopů. Dataset byl pořízen manuálně, nachází se v něm tedy pouze relevantní dokumenty. Každý eshop je zastoupen dvěma detailovými stránkami notebooků a jedním či více produktovými katalogy, které lze v eshopu zobrazit 7. Poměr těchto typů dokumentů je 22 katalogových stránek ku 34 detailovým stránkám. V trénovací množině je zastoupeno 11 eshopů, v testovací zbývajících 6. Stránky stejného eshopu jsou vždy přiřazeny k právě jedné množině, bez ohledu na typ dokumentu. Dataset pracovních nabídek byl získán automaticky pomocí web crawleru a nacházejí se v něm tedy i nerelevantní dokumenty, které se netýkají nabídky pracovních pozic (jinak řečeno žádné neobsahují). Tabulka 1. Základní údaje o anotovaných dokumentech. Počet příkladů (hodnot atributů) a počet instancí. Hodnoty atributů (#) Instance (#) Trénovací data Testovací data Trénovací data Testovací data Nabídky notebooků (katalogové stránky) (detailové stránky) Pracovní nabídky Vytváření extrakčních modelů Pro každou doménu jsou vytvořeny 2 extrakční ontologie, které se od sebe liší použitými extrakčními znalostmi. První model (#1) využívá pouze ručně zadaná pravidla, zatímco druhý model (#2) kombinuje expertní znalost se znalostmi získanými pomocí algoritmu CRF. Ten je využit jen pro některé typy extrahovaných informací, jež je problematické získat z textu pomocí regulárních vzorů. 7 Tj. např. tabulková struktura a obrázkový katalog, které se liší nejen počtem údajů, ale i formátovací strukturou.

5 V důsledku toho jsou doladěny i ostatní pravděpodobnostní odhady stávajících vzorů (přesnost a pokrytí), aby došlo k optimálnímu vyvážení obou typů znalostí. Algoritmus CRF značkuje sekvence slov dokumentu značkami typu začátek atributu, pokračování atributu a nezajímavé, přičemž využívá ortografické příznaky značkovaného slova a okolních slov a příznaky korespondující vzorům z extrakční ontologie. Slova z frází odpovídající určitému vzoru jsou spojeny s příznakem typu začátek vzoru nebo pokračování vzoru. 4.1 Specifikace atributů Ontologická třída definující nabídky notebooků obsahuje celkem 24 atributů, z toho 5 je odvozených. Povinnými atributy jsou jen název výrobce, název modelu a cena. Třída obsahuje celkem 108 ručně vytvořených vzorů (z toho 2 vzory pro seskupování atributů) a 8 axiomů. Časová náročnost tvorby kombinovaného modelu (tj. včetně vytvoření vhodného CRF modelu a vyvážení parametrů) jsou přibližně dva člověkotýdny. Ontologická třída definující pracovní nabídky je tvořena 10 atributy (z toho jeden odvozený), které v součtu obsahují 82 ručních vzorů a 4 axiomy. Jediným povinným atributem je název pracovní pozice. Důvodem je velmi rozmanitá variabilita údajů v jednotlivých pracovních nabídkách od nabídek obsažených v jediné větě ( Hledáme nové pracovníky na pozici kuchař nebo číšník ) až po nabídky strukturované do několika částí. Časové náklady na vytvoření kombinovaného modelu jsou odhadem 1-2 člověkotýdny (model je v současnosti stále vyvíjen). Produktové nabídky Klíčovou otázkou při návrhu extrakční ontologie je, kolik atributů zvolit pro komplexní hodnoty (např. název produktu 8 ), které se skládají z více sémanticky dělitelných jednotek (sémantických komponent). Je možné zvolit jeden atribut pro každou komponentu (jak bylo provedeno v případě názvu notebooku, rozděleného do 3 atributů) nebo jeden vzor pro každou komponentu a ty posléze pomocí referencí poskládat do celku v rámci jediného atributu (využito u názvu procesoru a grafické karty). Volba záleží mj. na složitosti převedení různých značení výrobců na jednotné značení (tj. zjednoznačnění), ale i na délce (počtu slov) jednotlivých částí názvu nebo typu vybraného klasifikátoru. Dekompozice názvu produktu na jednotlivé komponenty výrobce, řada (série) a model byla provedena tak, aby vznikl jednotný systém značení, který by vyhovoval produktovým značením všech výrobců v trénovacích datech. Pro extrakci atributů výrobce a název série jsou dostačující krátké seznamy slov jde o malý počet hodnot, které jsou z krátkodobého časového hlediska relativně neměnné. Naopak modelové označení notebooku je specifikováno obecně, aby daný regulární vzor odpovídal i novým údajům a odpadla tím nutnost časté aktualizace extrakčního modelu, resp. obsažených slovníků. V regulárních vzorech je 8 V této úloze jsou extrahovány názvy celkem 3 typů produktů: název notebooku a jeho dvě části název grafické karty a název procesoru.

6 jednotlivým dělitelným částem (tokenům) přiřazen ortografický typ slova (slovo složené z písmen anglické abecedy, alfanumerické slovo, číslo), popř. i velikost slov (minuskule, majuskule, velké písmeno pouze na začátku slova). Konkrétní posloupnosti výše uvedených typů slov byly odvozeny z trénovacích dat. Některé názvy modelů se přitom skládají jen z písmen abecedy, které lze ve volném textu snadno zaměnit se slovy přirozeného jazyka vyskytující se bezprostředně za názvem notebooku. Dodatečná podmínka, která těmto případům zabraňuje, je popsána dále v sekci 4.3. Pracovní nabídky V této úloze je klíčovým atributem název pracovní pozice. Ten obvykle tvoří jedna či více profesí a případně další podpůrná slova, která rozvíjejí název profese. V ojedinělých případech je pozice popsána pouze pomocí konkrétní činnosti (např. úklidové práce). Množina přípustných názvů pracovních pozic je přitom v podstatě nekonečná, kromě názvů povolání mohou obsahovat libovolná slova. Extrakce názvů pozic využívá formátovací strukturu stránky a obsáhlého slovníku, který obsahuje přibližně 1000 jednoslovných profesí 9. V případě strukturovanosti textu na stránce jsou jednotlivé informace odděleny formátovacími prvky jazyka HTML. Se slovníkem profesí jsou porovnávána jednotlivá slova uvnitř HTML elementu a v případě shody některé dvojice slov lze extrahovat celý obsah elementu a označit jej za pracovní pozici. Pravidlo je omezeno pouze délkou povoleného okolí hodnoty (5 tokenů na levé a 10 tokenů na pravé straně). Nevýhodou uvedeného přístupu je nemožnost najít název pozice ve volném textu, resp. dokázat oddělit název pozice od okolního textu. Uvedená strategie může být dále vylepšena o slovníky obsahující typické začátky a konce pracovních pozic 10, příp. o seznamy slov, které se nacházejí bezprostředně před názvem pozice (resp. po názvu pozice). V současnosti byl testován pouze první způsob. 4.2 Koreferenční rozhodnutí Za koreferenci jsou automaticky považovány takové hodnoty (řetězce), které jsou identické jako jiné extrahované hodnoty v této instanci. Pomocí JavaScriptových funkcí lze pak účinně hledat koreference i mezi dvěma různými řetězci. Takovým příkladem jsou např. následující dvě hodnoty, které odkazují ke stejnému objektu (referentu): Windows 7 Professional 64-bit CZ a W7 Pro CZ (x64). V tomto případě je název Windows převeden na jediný znak (odpovídající počátečnímu písmenu v názvu), totéž je provedeno s označením verze (Professional, Home, Premium apod.), odstraněny jsou rovněž veškeré mezery, interpunkční znaménka a slova, která jsou z hlediska porovnávání nepodstatná (bit nebo jazyková označení jako CZ, EN apod.). Výsledkem sekvence těchto konverzí řetězců je u výše uvedeného příkladu v obou případech tvar W7PRO64, druhou z hodnot tak lze prohlásit za koreferenci k té první. 9 Tj. profese jako architekt, právník nebo lékař. Názvy pozic byly primárně získány z katalogu NSP ( 10 Takové údaje lze získat i nesupervizovaně, např. parsingem agenturních stránek jako Jobs.cz, které obsahují tisíce názvů pracovních pozic, byť s určitým šumem.

7 4.3 Seskupování atributů do instancí Přípustná pořadí hodnot atributů v instanci lze definovat pomocí vzorů na úrovni třídy. S rostoucím počtem vzorů se pochopitelně snižuje rozlišovací schopnost rozhodnout o pořadí, neboť se úměrně zvyšuje počet možností, jak dané atributy seskupit. Zatímco produktové nabídky na stránkách eshopů typicky začínají názvem produktu, začátek nestrukturovaných pracovních nabídek bývá proměnlivý a tudíž obtížně specifikovatelný pomocí jediného pravidla. V případě notebooků je seskupování atributů vynuceno pomocí jediného přípustného pořadí na začátku instance: Výrobce (Série) Model, přičemž přítomnost atributu Série není povinná. Zbývající atributy se mohou v instanci vyskytovat v libovolném pořadí. Pouhým zvolením pořadí atributů na začátku instance ještě není zajištěno jejich správné seskupení. V textu se většinou vyskytují několikanásobné výskyty názvu produktu vztahující se k jedinému produktu (referentu), mezi nimiž se mohou vyskytovat hodnoty ostatních atributů. Při extrakci názvu produktu se lze omezit pouze na ty HTML značky, jež název produktu obklopují a zároveň ho od zbytku textu vizuálně oddělují. Přestože není prováděna analýza CSS stylů, lze využít např. nadpisy (H1 H6) a hyperlink (A), které se v obou případech používají jen pro zobrazování kratších (řekněme důležitějších) informací. Jde zároveň o dostačující podmínku pro to, aby se v okolí názvu notebooku nevyskytovala běžná slova jazyka (viz 4.1). 5 Výsledky Pro vyhodnocení byly počítány všechny výskyty v dokumentu bez ohledu na jejich možnou duplicitu (koreferenci). Porovnávání extrahovaných hodnot a ručních anotací probíhá ve 2 režimech: v prvním jsou počítány pouze přesně extrahované hodnoty (strict mode), zatímco ve druhém fuzzy režimu (loose mode) jsou započítány i částečně správně extrahované hodnoty (tj. neúplné nebo přesahující do okolního textu) a to poměrně podle počtu správně extrahovaných slov. 5.1 Použité metriky Úspěšnost extrakce atributů je měřena pomocí tradičních metrik přesnost, úplnost a F-míra. K měření správnosti seskupování atributů do instancí je použita tzv. Vilainova míra [8], která vychází z výše uvedených metrik. Namísto hodnot porovnává hrany, které propojují sekvenci označkovaných hodnot atributů v rámci instance. Každá instance má tedy přesně N 1 hran, kde N je počet vrcholů (hodnot atributů) v dané instanci. Vilainova přesnost se počítá jako poměr počtu hran nutných k propojení extrahovaných hodnot patřících do instance k počtu všech extrahovaných hran v instanci. Vilainova úplnost je pak analogicky ke klasické úplnosti poměr počtu správně extrahovaných hran ku počtu všech ručně označkovaných hran.

8 5.2 Vyhodnocení extrakce atributů U atributů, které lze obtížně postihnout pomocí ručních pravidel nebo z jiného důvodu dosahují nižší úspěšnosti (nevhodně nastavené pravděpodobnostní odhady, nedostatek vzorů apod.), je vhodnější přenechat rozhodnutí o (ne)extrakci hodnoty klasifikátoru CRF a současně ponechat již vytvořené negativní indicie (tj. vzory s nulovým pokrytím), které ošetřují výjimečné případy, příp. omezují extrakci hodnot dle specifické formátovací struktury v okolí. Velký rozdíl mezi oběma modely je způsoben především stručností zápisu parametrů výrobku na katalogových stránkách, údaje jsou často uvedeny za sebou na jediném řádku bez jakéhokoliv kontextu. Tabulka 2. Vyhodnocení vybraných atributů pro nabídky notebooků (testovací sada). P = přesnost, R = úplnost, F = F-míra pro jednotlivé extrakční modely. Pouze ruční pravidla (model #1) a kombinovaný model (model #2). F = rozdíl mezi F-mírou druhého a prvního modelu. Pokud je uveden symbol *, jedná se o mód loose, jinak striktní mód. Nabídky notebooků (testovací sada) Model #1 Model #2 Atribut # P (%) R (%) F (%) P (%) R (%) F (%) F (%) Název modelu ,98 71,37 71,67 74,58 75,21 74,89 +3,22 Název modelu* ,01 82,88 83,44 84,72 83,31 84,01 +0,57 Produktový kód 52 81,25 25,00 38,24 85,37 67,31 75,27 +37,03 Cena ,73 62,44 64,04 82,58 81,21 81,89 +17,85 Název CPU ,57 41,62 54,42 97,62 88,65 92,92 +38,50 Název GPU ,55 59,09 71,82 92,52 90,00 91,24 +19,42 Operační paměť ,14 80,50 76,65 95,27 84,43 89,52 +12,87 Grafická paměť ,00 52,17 68,57 91,58 94,57 93,05 +24,48 Úhlopříčka displeje 72 37,50 12,88 19,17 93,46 85,84 89,49 +70,32 Průměr ,42 69,53 75,85 89,70 85,62 87,61 +11,76 Průměr* ,31 70,91 77,44 91,58 87,11 89,29 +11,85 V případě pracovních nabídek je význam kombinovaného extrakčního modelu zanedbatelný. Minimální či žádný nárůst úspěšnosti je patrně důsledkem malého množství ručně označkovaných dat a poměrně velkou variabilitou údajů způsobenou mj. ohýbáním slov. To se nejvíce projevilo u atributu lokalita, slovník měst (regionů a krajů) obsahuje pouze základní tvary. Právě absence morfologické a syntaktické analýzy textu zvýhodňuje ruční pravidla, která obsahují dostatečný počet často používaných slovních tvarů. Pro extrakci určitých atributů (lokalita, pracovní pozice) je navíc podstatné použití rozsáhlých seznamů slov. Pracovní pozice jsou pak často velmi specifické díky složeným názvům obsahujících více profesí (asistent/asistentka). Přesto lze pomocí jednoduchého modelu založeného na formátovací stuktuře a obsáhlém slovníku extrahovat názvy pozic s relativně vysokou úspěšností, byť extrahované hodnoty často obsahují i slova z okolí.

9 Tabulka 3. Vyhodnocení atributů pro pracovní nabídky (testovací sada). P = přesnost, R = úplnost, F = F-míra pro jednotlivé extrakční modely. Pracovní nabídky (testovací sada) Model #1 Model #2 Atribut # P (%) R (%) F (%) P (%) R (%) F (%) F (%) Pracovní pozice ,94 58,04 62,17 66,94 58,04 62,17 0,00 Pracovní pozice* ,25 73,76 75,94 78,25 73,76 75,94 0,00 Lokalita 76 57,41 40,79 47,69 64,58 40,79 50,00 +2,31 Lokalita* 76 65,74 43,54 52,39 73,96 43,54 54,81 +2,42 Vzdělání 44 93,48 97,73 95,56 93,48 97,73 95,56 0,00 Jazyky 35 97, ,59 97, ,59 0,00 Řidičský průkaz 16 93,33 87,50 90,32 93,33 87,50 90,32 0,00 Pracovní vztah 19 91,67 57,89 70, ,42 81,25 +10,28 Průměr ,96 62,70 68,70 78,84 65,08 71,30 +2,60 Průměr* ,22 69,39 75,26 85,11 71,81 77,90 +2, Vyhodnocení extrakce instancí V případě produktových nabídek jsou uvedeny rovněž výsledky pro trénovací množinu (uvážíme-li, že vzory pro seskupování atributů jsou výsledkem spíše uživatelské zkušenosti než pozorovaných dat). Jediná katalogová stránka, která neodpovídala stanovenému pořadí atributů, se nacházela v testovací sadě. Detailové stránky naopak obsahují velmi mnoho (často se opakujících) hodnot atributů roztažených po celé délce stránky a je proto velmi obtížné je seskupit všechny do jediné instance. Nízká úplnost je zde částečně způsobena koreferencemi (resp. duplicitami), které se počítají jako samostatné výskyty. Z hlediska využitelnosti dat v praxi by bylo zajímavé měřit spíše unikátnost informací. Vyhodnocení pracovních nabídek neodráží případy, kdy se určitá hodnota atributu váže k více než jedné instanci. Z hlediska ruční anotace jsou takové hodnoty přiřazeny k nejbližší skupině atributů. Tabulka 4. Vyhodnocení instancí pro obě úlohy. V P = Vilainova přesnost, V R = Vilainova úplnost, V S = Vilainovo skóre. Pouze kombinovaný model (model #2). Seskupování atributů do instancí (kombinovaný model) Trénovací sada Testovací sada Množina dokumentů VP (%) VR (%) VS (%) VP (%) VR (%) VS (%) Notebooky (produktové katalogy) 97,60 86,20 91,60 92,10 61,00 73,30 Notebooky (detailové stránky) 85,90 30,30 45,80 93,10 39,20 55,20 Pracovní nabídky - 87,09 63,55 73,48

10 6 Shrnutí Vytvořené extrakční modely je možné nadále vylepšovat prostřednictvím ručně zadaných pravidel, popřípadě vhodnějším nastavením pravděpodobnostních odhadů v kombinovaném modelu. V případě produktových nabídek je možné specializovat daný model na dva podtypy, jeden pro katalogové stránky a druhý pro detailové stránky. Limitem v dosažení vyšší úspěšnosti byly právě zjevné rozdíly v obou typech dokumentů: na katalogových stránkách jsou požadované informace více zhuštěné a často ve formě zkratek bez jakéhokoliv kontextu, naopak na detailových stránkách jsou údaje jsou většinou strukturované pod sebou na jednotlivých řádcích, popisy parametrů jsou velmi detailní a je nutné počítat s delším kontextem. S rostoucím počtem atributů v ontologické třídě se stává problematičtější jejich seskupování do objektů a tedy klesá celková úspěšnost. Pro dynamicky generované záznamy z databází podle určité šablony (např. produktové katalogy) se jeví vhodnější využití top-down algoritmu, který hledá jednotlivé datové záznamy v dokumentu analýzou DOM stromu (nebo-li hledá sekvenci opakujících se částí kódu). Takový přístup používá např. MDR [7]. Přesto lze systém Ex použít jak na částečně strukturované dokumenty (databází generované záznamy), tak na málo strukturované texty přirozeného jazyka (pracovní nabídky). Výzkum je částečně podporován grantem GAČR P202/10/0761, Sémantizace webu. Reference 1. Embley, D.W., Tao, C., Liddle, S.W.: Automatically extracting ontologically specified data from HTML tables with unknown structure. In: Proc. ER Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I. H.: The WEKA Data Mining Software: An Update. SIGKDD Explorations, Volume 11, Issue 1, Chia-Hui, Ch., Mohammed, K., Moheb, R. G., Khaled, F. S.: A Survey of Web Information Extraction Systems. In: IEEE Transactions on Knowledge and Data Engineering, Vol. 18, Issue 10, 2006, s Labský, M., Svátek, V.: On the design and Exploitation of Presentation Ontologies for Information Extraction. In: ESWC 06 -Workhshop 4: Mastering the Gap: From Information Extraction to Semantic Representation. Budva: KMI, The Open Univwersity, s. 5. Labský, M., Nekvasil, M., Svátek, V., Rak, D.: The Ex Project: Web Information Extraction using Extraction Ontologies. In: Knowledge Discovery Enhanced with Semantic and Social Information. Springer, Studies in Computational Intelligence, Vol. 220, Lafferty, J., McCallum, A., Pereira, F.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proc. The 18th International Conf. on Machine Learning, 2001, s Liu, B., Grossman, R., Zhai, Y.: Mining data records in Web pages. In: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD 03). ACM, New York, NY, USA, 2003, s

11 8. Moens, M.F.: Information Extraction: Algorithms and Prospects in a Retrieval Context. Springer, ISBN Annotation: Case study: Extracting structured data from Web using extraction ontologies This case study concerns the task of automatic semantic annotation of web documents in two selected domains product offers on e-shops and job offerings posted on company web pages. The extraction process outputs named entities (attribute values) of high granularity optionally grouped into structured records (relations). The extraction task was performed using the extraction system Ex, which combines two extraction approaches: manually written rules and supervised machine learning algorithms. The advantages of this method include independence of the extraction models on the formatting structures of specific documents and the possibility to create an initial functional prototype using just manual extraction knowledge with gradual shift towards machine learning methods as (more) training data becomes available. For both data sets, we compare extraction accuracies achieved using a purely manual extraction model to a model that combines manually authored indicie with a trained learner.

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR PŘEDMĚT PRÁCE Popis extrakce strukturovaných dat ve vybraných doménách ze semistrukturovaných

Více

Sémantický web a extrakce

Sémantický web a extrakce Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací

Více

Ontologie. Otakar Trunda

Ontologie. Otakar Trunda Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky DIPLOMOVÁ PRÁCE 2012 Bc. Aleš Pouzar Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky DIPLOMOVÁ PRÁCE Extrakce strukturovaných

Více

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Maturitní otázky z předmětu PROGRAMOVÁNÍ Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu PROGRAMOVÁNÍ 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu ověřování správnosti

Více

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce

Více

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ 1) PROGRAM, ZDROJOVÝ KÓD, PŘEKLAD PROGRAMU 3 2) HISTORIE TVORBY PROGRAMŮ 3 3) SYNTAXE A SÉMANTIKA 3 4) SPECIFIKACE

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Primární klíč (Primary Key - PK) Je právě jedna množina atributů patřící jednomu z kandidátů primárního klíče.

Primární klíč (Primary Key - PK) Je právě jedna množina atributů patřící jednomu z kandidátů primárního klíče. Primární a cizí klíč Kandidát primárního klíče (KPK) Je taková množina atributů, která splňuje podmínky: Unikátnosti Minimálnosti (neredukovatelnosti) Primární klíč (Primary Key - PK) Je právě jedna množina

Více

Extrakce informací z webových stránek pomocí extrakčních ontologií

Extrakce informací z webových stránek pomocí extrakčních ontologií Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Extrakce informací z webových stránek pomocí extrakčních ontologií Autoreferát k doktorské disertační práci Obor Doktorand Školitel Oponenti

Více

Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí

Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí Sítě SFN ver. 7 je výpočetní systém pro analýzu pokrytí a rušení vysílacích sítí pro služby FM, TV, DVB- T a T-DAB a analýzu a

Více

Sémantický web 10 let poté

Sémantický web 10 let poté Sémantický web 10 let poté Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2011, 26. 5. 2011 Vilém Sklenák

Více

CASE. Jaroslav Žáček

CASE. Jaroslav Žáček CASE Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Co znamená CASE? Definice dle SEI A CASE tool is a computer-based product aimed at supporting one or more software engineering activities

Více

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Znalostní systém nad ontologií ve formátu Topic Maps

Znalostní systém nad ontologií ve formátu Topic Maps Znalostní systém nad ontologií ve formátu Topic Maps Ladislav Buřita, Petr Do ladislav.burita@unob.cz; petr.do@unob.cz Univerzita obrany, Fakulta vojenských technologií Kounicova 65, 662 10 Brno Abstrakt:

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Uživatelská podpora v prostředí WWW

Uživatelská podpora v prostředí WWW Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr Pavel Hruška Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill Představení, princip, výsledky Analýza XML (možná úskalí) Optimalizace komprese XML Přeskládání kontejnerů

Více

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází 1 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Požadavky kreditového systému. Relační datový model, relace, atributy,

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být

Více

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT Dnešní téma Oblasti standardizace v ICT Případové studie standardizace v ICT: 1) Znakové sady 2) Jazyk 1. technická infrastruktura transfer a komunikace informací, přístup k informacím, sdílení zdrojů

Více

Informační systémy 2008/2009. Radim Farana. Obsah. Nástroje business modelování. Business modelling, základní nástroje a metody business modelování.

Informační systémy 2008/2009. Radim Farana. Obsah. Nástroje business modelování. Business modelling, základní nástroje a metody business modelování. 3 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Business modelling, základní nástroje a metody business modelování.

Více

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Modely a sémantika Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Úvod Existující problémy Prudký nárůst množství informací na webu Kognitivní přetížení Ztráta v informačním prostoru

Více

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR

SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR EVOLUČNÍ NÁVRH A OPTIMALIZACE APLIKAČNĚ SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR Miloš Minařík DVI4, 2. ročník, prezenční studium Školitel: Lukáš Sekanina Fakulta informačních technologií, Vysoké učení

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc. Metadata, sémantika a sémantický web Ing. Vilém Sklenák, CSc. Inforum 2004, Praha, 27. 5. 2004 2/21 There are things we know that we know. There are known unknowns that is to say, there are things that

Více

Výměnný formát XML DTM DMVS PK

Výměnný formát XML DTM DMVS PK Výměnný formát XML DTM DMVS PK Představení partnerským krajům Praha 8. 2. 2016 Krajský úřad Plzeňského kraje Odbor informatiky Koncept etapizace tvorby výměnného formátu XML aktualizačních zakázek Digitální

Více

Problémové domény a jejich charakteristiky

Problémové domény a jejich charakteristiky Milan Mišovič (ČVUT FIT) Pokročilé informační systémy MI-PIS, 2011, Přednáška 02 1/16 Problémové domény a jejich charakteristiky Prof. RNDr. Milan Mišovič, CSc. Katedra softwarového inženýrství Fakulta

Více

X36SIN: Softwarové inženýrství. Životní cyklus a plánování

X36SIN: Softwarové inženýrství. Životní cyklus a plánování X36SIN: Softwarové inženýrství Životní cyklus a plánování 1 Kontext Minule jsme si řekli, co to je deklarace záměru, odborný článek, katalog požadavků, seznam aktérů a seznam událostí. Seznam aktérů a

Více

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů. Modely datové Existují různé úrovně pohledu na data. Nejvyšší úroveň je úroveň, která zachycuje pouze vztahy a struktury dat samotných. Konceptuální model - E-R model. Další úrovní je logická úroveň Databázové

Více

Práce s velkými sestavami

Práce s velkými sestavami Práce s velkými sestavami Číslo publikace spse01650 Práce s velkými sestavami Číslo publikace spse01650 Poznámky a omezení vlastnických práv Tento software a související dokumentace je majetkem společnosti

Více

Databázové aplikace pro internetové prostředí. 01 - PHP úvod, základní princip, vkládání skriptu, komentáře, výpis na obrazovku

Databázové aplikace pro internetové prostředí. 01 - PHP úvod, základní princip, vkládání skriptu, komentáře, výpis na obrazovku Databázové aplikace pro internetové prostředí 01 - PHP úvod, základní princip, vkládání skriptu, komentáře, výpis na obrazovku Projekt: Inovace výuky prostřednictvím ICT Registrační číslo: CZ.1.07/1.5.00/34.250

Více

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/2016-56 R O Z H O D N U T Í č. 19/2016 ministryně pro místní rozvoj ze dne 18. 2. 2016 o Pravidlech správy otevřených dat Ministerstva pro místní rozvoj S účinností

Více

1 Nejkratší cesta grafem

1 Nejkratší cesta grafem Bakalářské zkoušky (příklady otázek) podzim 2014 1 Nejkratší cesta grafem 1. Uvažujte graf s kladným ohodnocením hran (délka). Definujte formálně problém hledání nejkratší cesty mezi dvěma uzly tohoto

Více

Základy XML struktura dokumentu (včetně testových otázek)

Základy XML struktura dokumentu (včetně testových otázek) Základy XML struktura dokumentu (včetně testových otázek) Otakar Čerba Oddělení geomatiky Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Přednáška z předmětu Počítačová kartografie

Více

8.2 Používání a tvorba databází

8.2 Používání a tvorba databází 8.2 Používání a tvorba databází Slide 1 8.2.1 Základní pojmy z oblasti relačních databází Slide 2 Databáze ~ Evidence lidí peněz věcí... výběry, výpisy, početní úkony Slide 3 Pojmy tabulka, pole, záznam

Více

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS Roman MALO - Arnošt MOTYČKA This paper is oriented to discussion about using markup language XML and its features in LCMS

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

POPIS STANDARDU CEN TC278/WG7. 1 z 5. draft prenv Geografická silniční databáze. Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD)

POPIS STANDARDU CEN TC278/WG7. 1 z 5. draft prenv Geografická silniční databáze. Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD) POPIS STANDARDU CEN TC278/WG7 Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD) Zkrácený název: GEOGRAFICKÁ DATABÁZE Norma číslo: 14825 Norma název (en): GDF GEOGRAPHIC DATA FILES VERSION 4.0 Norma název

Více

Stanovit nezbytná pravidla pro tvorbu dokumentace vytvářenou ve SITRONICS centru využitelnou firmou SITRONICS TS.

Stanovit nezbytná pravidla pro tvorbu dokumentace vytvářenou ve SITRONICS centru využitelnou firmou SITRONICS TS. Tvorba dokumentace SITRONICS centrum 1. Cíl Usnadnit tvorbu jednotné dokumentace SITRONICS centra. 2. Účel Stanovit nezbytná pravidla pro tvorbu dokumentace vytvářenou ve SITRONICS centru využitelnou firmou

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

Analýza a prezentace dat

Analýza a prezentace dat 2015 Analýza a prezentace dat rozsah: 2 dny (10 hodin) Mgr. Jiří Číhař www.dataspectrum.cz Analýza a prezentace dat Formátování buněk Nastavení vhodného formátu čísla Vytváření vlastních formátovacích

Více

EXTRAKT z mezinárodní normy

EXTRAKT z mezinárodní normy EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním ICS 03.220.01; 35.240.60 materiálem o normě. Inteligentní dopravní systémy Požadavky na ITS centrální datové

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Specifikace požadavků. POHODA Web Interface. Verze 1.0. Datum: Autor: Ondřej Šrámek

Specifikace požadavků. POHODA Web Interface. Verze 1.0. Datum: Autor: Ondřej Šrámek Specifikace požadavků POHODA Web Interface Verze 1.0 Datum: 29.12. 2008 Autor: Ondřej Šrámek Copyright 1999 by Karl E. Wiegers. Permission is granted to use, modify, and distribute this document. Strana

Více

Procesy a vlákna (Processes and Threads)

Procesy a vlákna (Processes and Threads) ÚVOD DO OPERAČNÍCH SYSTÉMŮ Ver.1.00 Procesy a vlákna (Processes and Threads) Správa procesů a vláken České vysoké učení technické Fakulta elektrotechnická 2012 Použitá literatura [1] Stallings, W.: Operating

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Zadání druhého zápočtového projektu Základy algoritmizace, 2005 Zadání druhého zápočtového projektu Základy algoritmizace, 2005 Jiří Dvorský 2 května 2006 Obecné pokyny Celkem je k dispozici 8 zadání příkladů Každý student obdrží jedno zadání Vzhledem k tomu, že odpadly

Více

ŠKODA Portal Platform

ŠKODA Portal Platform ŠKODA Portal Platform Struktura LESS stylů Jan Obrátil Účel dokumentu Účelem tohoto dokumentu je vysvětlit strukturu stylů v Portálové Platformě tak, aby bylo možné je správně použít a rozšířit je pro

Více

Ekonomické aspekty propojitelných dat. Jan Kučera Katedra informačních technologií

Ekonomické aspekty propojitelných dat. Jan Kučera Katedra informačních technologií Ekonomické aspekty propojitelných dat Jan Kučera Katedra informačních technologií Osnova Co je to business model? Hodnotové nabídky v oblasti propojitelných dat Zdroje příjmů v oblasti propojitelných dat

Více

2. Začlenění HCI do životního cyklu software

2. Začlenění HCI do životního cyklu software Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI

Více

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe

Více

TÉMATICKÝ OKRUH Softwarové inženýrství

TÉMATICKÝ OKRUH Softwarové inženýrství TÉMATICKÝ OKRUH Softwarové inženýrství Číslo otázky : 24. Otázka : Implementační fáze. Postupy při specifikaci organizace softwarových komponent pomocí UML. Mapování modelů na struktury programovacího

Více

Analýza staročeské morfologie v Excelu

Analýza staročeské morfologie v Excelu Analýza staročeské morfologie v Excelu B O R I S L E H E Č K A, B O R I S @ D A L I B O R I S. C Z O D D Ě L E N Í V Ý V O J E J A Z Y K A Ú S T A V P R O J A Z Y K Č E S K Ý A V Č R L I N G V I S T I

Více

CASE nástroje. Jaroslav Žáček

CASE nástroje. Jaroslav Žáček CASE nástroje Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Co znamená CASE? A CASE tool is a computer-based product aimed at supporting one or more software engineering activities within

Více

Novinky. Autodesk Vault helpdesk.graitec.cz,

Novinky. Autodesk Vault helpdesk.graitec.cz, Novinky Autodesk Vault 2017 www.graitec.cz www.cadnet.cz, helpdesk.graitec.cz, www.graitec.com Novinky Autodesk Vault 2017 PDF dokument obsahuje přehled novinek produktu Autodesk Vault 2017. Obsah: 1.

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Aplikace pro srovna ní cen povinne ho ruc ení

Aplikace pro srovna ní cen povinne ho ruc ení Aplikace pro srovna ní cen povinne ho ruc ení Ukázkový přiklad mikroaplikace systému Formcrates 2010 Naucrates s.r.o. Veškerá práva vyhrazena. Vyskočilova 741/3, 140 00 Praha 4 Czech Republic tel.: +420

Více

Procesní řízení. Hlavní zásady a praxe dodavatele Komix

Procesní řízení. Hlavní zásady a praxe dodavatele Komix Procesní řízení Hlavní zásady a praxe dodavatele Komix 1 Obsah prezentace Teoretická část (menšího objemu) orientace na zákazníka hodnocení procesu podmínky procesního řízení cyklus zlepšování procesu

Více

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access generování složitějších sestav Ing. Kotásek Jaroslav

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access generování složitějších sestav Ing. Kotásek Jaroslav Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1 Šablona: Název: Téma: Autor: Číslo: Anotace: Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access generování

Více

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9 Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................

Více

32 APZ Nabídky. Popis modulu

32 APZ Nabídky. Popis modulu 32 APZ Nabídky Uživatelský modul APZ Nabídky náleží k modulům řešícím agendu agentury podporovaného zaměstnávání se zaměřením na osoby se zdravotním postižením. Modul umožňuje evidenci pracovních nabídek

Více

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel

Více

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu ČVUT FEL X36PAA - Problémy a algoritmy 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu Jméno: Marek Handl Datum: 3. 2. 29 Cvičení: Pondělí 9: Zadání Prozkoumejte citlivost metod

Více

12. Virtuální sítě (VLAN) VLAN. Počítačové sítě I. 1 (7) KST/IPS1. Studijní cíl. Základní seznámení se sítěmi VLAN. Doba nutná k nastudování

12. Virtuální sítě (VLAN) VLAN. Počítačové sítě I. 1 (7) KST/IPS1. Studijní cíl. Základní seznámení se sítěmi VLAN. Doba nutná k nastudování 12. Virtuální sítě (VLAN) Studijní cíl Základní seznámení se sítěmi VLAN. Doba nutná k nastudování 1 hodina VLAN Virtuální síť bývá definována jako logický segment LAN, který spojuje koncové uzly, které

Více

Výroková a predikátová logika - III

Výroková a predikátová logika - III Výroková a predikátová logika - III Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - III ZS 2017/2018 1 / 16 2-SAT 2-SAT Výrok je v k-cnf, je-li v CNF a

Více

Úvod do MS Access. Modelování v řízení. Ing. Petr Kalčev

Úvod do MS Access. Modelování v řízení. Ing. Petr Kalčev Úvod do MS Access Modelování v řízení Ing. Petr Kalčev Postup při tvorbě aplikace Vytvoření tabulek Vytvoření relací Vytvoření dotazů Vytvoření formulářů Vytvoření sestav Tabulky Slouží k definování polí,

Více

Logický datový model VF XML DTM DMVS

Logický datový model VF XML DTM DMVS Logický datový model VF XML DTM DMVS Verze 1.1 VF XML DTM DMVS Objednatel Plzeňský kraj Institut plánování a rozvoje hlavního města Prahy Zlínský kraj Kraj Vysočina Liberecký kraj Karlovarský kraj Statutární

Více

ECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00)

ECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00) ECM Enterprise Content Management čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00) Co nás čeká... Definice ECM Problém podnikového obsahu Historie vzniku ECM Architektura

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních

Více

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13. Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy

Více

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017 Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta

Více

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně Identifikační karta modulu v. 4 Kód modulu Typ modulu profilující Jazyk výuky čeština v jazyce výuky Management informačních systémů česky Management informačních systémů anglicky Information systems management

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML ROZHRANÍ ESA XML Ing. Richard Vondráček SCIA CZ, s. r. o., Thákurova 3, 160 00 Praha 6 www.scia.cz 1 OTEVŘENÝ FORMÁT Jednou z mnoha užitečných vlastností programu ESA PT je podpora otevřeného rozhraní

Více

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství ing. Tomáš Vejlupek Informace tvořící konkurenční výhodu K rozhodování nestačí jen informace. K rozhodování je nutná také znalost umožňující

Více

Avíza ve formátu MT942

Avíza ve formátu MT942 Avíza ve formátu MT942 Člen skupiny KBC Účelem dokumentu je popsat strukturu a použití formátu MT942 pro avíza o pohybech na účtu dostupná ve službě ČSOB CEB. Formát je odvozen od SWIFT formátu pro tzv.

Více

Otázky ke tvorbě datové báze

Otázky ke tvorbě datové báze Otázky ke tvorbě datové báze Úvod Vytvoření kvalitní datové báze českých sbírek (dále jen datová báze) jako digitálního souboru všech právních aktů ve všech jejich konsolidovaných zněních zveřejněných

Více

BA_EM Electronic Marketing. Pavel

BA_EM Electronic Marketing. Pavel BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?

Více

Vytvoření portálu odboru strukturálních fondů Ministerstva vnitra a zajištění jeho hostingu na serveru dodavatele

Vytvoření portálu odboru strukturálních fondů Ministerstva vnitra a zajištění jeho hostingu na serveru dodavatele MINISTERSTVO VNITRA odbor strukturálních fondů č.j. MV- 82945-5 /OSF Praha dne 24. listopadu 2009 Počet listů: 5 Odpověď zadavatele na otázky ze dne 20. listopadu 2009 k Zadávací dokumentaci na veřejnou

Více

postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy

postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy Formální systémy (výrokové) logiky postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy cíl: získat formální teorii jako souhrn dokazatelných

Více

63. ročník Matematické olympiády 2013/2014

63. ročník Matematické olympiády 2013/2014 63. ročník Matematické olympiády 2013/2014 Úlohy ústředního kola kategorie P 2. soutěžní den Na řešení úloh máte 4,5 hodiny čistého času. Při soutěži je zakázáno používat jakékoliv pomůcky kromě psacích

Více

10 Metody a metodologie strukturované analýzy

10 Metody a metodologie strukturované analýzy 10 Metody a metodologie strukturované analýzy 10.1 Strukturovaná analýza DeMarco (1978) Nástroje: DFD, datový slovník, strukturovaná angličtina, rozhodovací tabulky a stromy Postup: 1. Analýza stávajícího

Více

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA 5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA 5. 15. 1 Charakteristika předmětu A. Obsahové vymezení: IVT se na naší škole vyučuje od tercie, kdy je cílem zvládnutí základů hardwaru, softwaru a operačního systému,

Více

Principy UML. Clear View Training 2005 v2.2 1

Principy UML. Clear View Training 2005 v2.2 1 Principy UML Clear View Training 2005 v2.2 1 1.2 Co je touml? Unified Modelling Language (UML) je univerzálníjazyk pro vizuální modelování systémů Podporuje všechny životní cykly Mohou jej implementovat

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

UML. Unified Modeling Language. Součásti UML

UML. Unified Modeling Language. Součásti UML UML Unified Modeling Language 1995 počátek 1997 verze 1.0 leden dnes verze 2.0 (vývoj stále nedokončen) Standardní notace OMG podpora velkých firem (Microsoft, IBM, Oracle, HP ) popisuje struktury popisuje

Více

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Přemysl Václav Duben, Stanislav Vojíř Katedra informačního a znalostního inženýrství, FIS, Vysoká škola ekonomická v Praze nám. W.

Více

HLEDEJCENY.mobi. Obsah. Mobilní verze e-shopu. Důvody instalace

HLEDEJCENY.mobi. Obsah. Mobilní verze e-shopu. Důvody instalace Obsah HLEDEJCENY.mobi Mezi Vodami 1952/9 e-mail: info@hledejceny.cz HLEDEJCENY.mobi... 1 Mobilní verze e-shopu... 1 Důvody instalace... 1 Výhody... 2 Co je k mobilní verzi potřeba... 2 Objednávka služby...

Více