Případová studie: extrakce strukturovaných dat z webu s využitím extrakčních ontologií
|
|
- Ladislav Musil
- před 7 lety
- Počet zobrazení:
Transkript
1 Případová studie: extrakce strukturovaných dat z webu s využitím extrakčních ontologií Aleš Pouzar 1 a Martin Labský 2 1 Katedra informačního a znalostního inženýrství, Vysoká škola ekonomická v Praze, nám. W. Churchilla 4, Praha 3 ales.pouzar@gmail.com 2 IBM Prague Research Lab, V parku 2294/4, Praha 4 martin.labsky@cz.ibm.com Abstrakt Tato studie se zabývá úlohou automatizace zpracování webového obsahu a sémantického anotování textu pro dvě vybrané domény. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do objektů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl vybrán extrakční systém Ex, který kombinuje dva typy extrakčních znalostí: ručně zadaná pravidla a supervizované algoritmy strojového učení. Díky expertní znalosti v podobě pravidel, ve kterých je možné částečně zohlednit i formátovací strukturu dokumentů, lze účinně kompenzovat nedostatek trénovacích dat. Pravidla jsou přitom nezávislá na konkrétní webové struktuře a jeden extrakční model je tak možné využít pro heterogenní množinu dokumentů. I menší počet trénovacích dat vede k lepším výsledkům u hodnot těch atributů, které jsou jinak obtížně specifikovatelné jen s pomocí ručních pravidel. Klíčová slova: extrakce informací, automatická sémantická anotace, extrakční ontologie, strojové učení, rozpoznávání pojmenovaných entit 1 Úvod a motivace Cílem je navržení jednoho extrakčního modelu pro každou doménu, s jehož pomocí je možné získat strukturovaná data o vysoké granularitě z množiny heterogenních webových dokumentů (z hlediska formátovací struktury). Narozdíl od tzv. wrapper přístupu [3] není nutné vytvářet pro každý web různá extrakční pravidla, naopak stačí udržovat jediný model, který lze průběžně vylepšovat (např. zvyšováním počtu trénovacích dat). Obě vybrané extrakční úlohy pokrývají tři základní typy webových dokumentů: pevně strukturované dokumenty (generované převážně automaticky z databáze na základě šablon), strukturovaný volný text (každá informace je zpravidla na samostatném řádku) a nestrukturovaný volný text (informace jsou obsaženy ve větách, absence formátování apod.).
2 První typ představují produktové katalogy eshopů, druhý typ je nejblíže detailovým stránkám o produktech a některým pracovním nabídkám a poslední typ odpovídá zbývajícím pracovním nabídkám. Výchozí motivací je získání takových dat, která by byla využitelná v reálných aplikacích jako strukturované vyhledávání produktových a pracovních nabídek nebo komparativní nakupování. V současné době jsou podobné aplikace závislé na datech, které jim poskytují samotné firmy 3. Z toho důvodu nepokrývají zdaleka všechen relevantní obsah, který se na webu nachází. Manuální sběr dat, který by tuto mezeru zacelil, je při tak častých změnách pracovních i produktových nabídek a jejich velkém počtu (desetitisíce) vyloučený. Extrakce informací je prostřední a zároveň nejkritičtější článek celého procesu prvním krokem je získání dostatečně obsáhlé množiny webových dokumentů, úkolem finální fáze je spárovat nabídky týkající se identických produktů (resp. odstranit duplicitní záznamy pracovních nabídek). Ve výsledku tak musí být extrakční model dostatečně robustní i pro nerelevantní dokumenty a zároveň popsat co nejvíce důležitých informací, které by usnadnily finální proces párování nabídek. Další části textu jsou členěny následovně. Druhá sekce stručně popisuje nástroj Ex a uváděný pojem extrakční ontologie. Ve třetí části následují údaje o datasetech, se kterými byly provedeny experimenty. Čtvrtá sekce je věnována návrhu extrakčních ontologií, pátá sekce prezentuje výsledky a poslední část shrnuje výhody i nevýhody použitého přístupu. 2 Popis extrakčního systému Extrakční nástroj Ex 4, vyvíjený na VŠE Praha, slouží k extrakci pojmenovaných entit (hodnot atributů) a k jejich seskupování do relací (instancí tříd). Zpracovávat lze dokumenty s různým množstvím formátovací struktury jako jsou webové stránky, ale také čistě textové nebo tabulární dokumenty. Definice tříd a třídu tvořících atributů se zapisují do tzv. extrakční ontologie [1]. Snahou je zde využít doménové ontologie doplněné o znalosti umožňující automatickou extrakci z textu. Mezi doménové ontologie využitelné pro odvození sruktury extrakčních ontologií [4] v oblasti nabídek produktů patří např. CEO 5 nebo nově vznikající PTO 6. Odvozením z vhodné doménové ontologie se současně minimalizuje úsilí nutné pro zpětnou konverzi extrahovaných výsledků při populaci zdrojové ontologie. Nástroj Ex kombinuje celkem tři typy extrakční znalosti: pravidla ručně zadaná expertem, znalosti indukované z trénovacích dat pomocí algoritmů strojového učení a částečně jsou využita nesupervizovaně indukovaná pravidla o formátovací struktuře dokumentů. Extrakční ontologie definuje jednu nebo více 3 Eshopová data o produktových nabídkách jsou zpravidla poskytována konečným aplikacím (např. Heureka.cz) prostřednictvím tzv. XML feedů, které musí mít požadovanou strukturu. To je často překážkou pro menší eshopy
3 tříd (např. produktová nabídka) sestávajících z atributů, u kterých lze definovat kardinalitní a datotypová omezení a využít dědičnosti (např. cena a cena s DPH). Definice atributů i tříd obsahují extrakční indicie, které jsou reprezentovány zejména regulárními vzory a axiomy. Regulární vzory na úrovni třídy specifikují pravděpodobná pořadí atributů uvnitř instance nebo kontext jejího výskytu, zatímco na úrovni atributů modelují předpovídanou hodnotu atributu (obsahové vzory) nebo okolí jeho výskytu (kontextové vzory). Vzory lze definovat na úrovni slov (včetně rozsáhlých seznamů), vlastností slov, na úrovni znaků a na úrovni formátovacích značek (HTML elementů). Třídní axiomy představují tvrzení o obsahu třídy (typicky o vztazích mezi hodnotami jejích atributů, např. ová adresa je podobná jménu majitele ), zatímco axiomy definované na atributech se vyjadřují o hodnotě daného atributu. Axiomy je možné definovat jako funkce jazyka JavaScript vracející binární výsledek. U každé indicie je možno nastavit dva pravděpodobnostní odhady. Přesnost indicie stanovuje pravděpodobnost výskytu atributu v případě, že daná indicie platí: P (hodnota atributu indicie). Pokrytí indicie stanovuje, do jaké míry je přítomnost vzoru pro extrakci hodnoty daného atributu nutná: P (indicie hodnota atributu). Dále je každý typ atributu spojen s určitou nízkou apriori pravděpodobností výskytu v textu. Na základě vyhodnocení všech indicií a předpokladu jejich podmíněné nezávislosti systém odhadne pravděpodobnost každé potenciální hodnoty atributu ve zkoumaném dokumentu podle [5]. Pro extrakci atributů lze navíc přímo z extrakční ontologie trénovat a používat externí algoritmy strojového učení: značkovač sekvencí CRF++[6] a některé klasifikátory implementované v systému Weka [2]. Rozhodnutí těchto algoritmů je obvykle využito jako další obsahový vzor klasifikovaného atributu [5]. Obrázek 1. Ukázka části extrakční ontologie atribut driving_license pro extrahování skupin řidičského oprávnění.
4 Atribut na obr. 1 je definován pomocí dvou obsahových a dvou kontextových vzorů. První vzor říká, že výskyt jednoho z uvedených písmen v textu s 25 % pravděpodobností představuje skupinu řidičského oprávnění, zatímco 100 % pokrytí zamezí extrakci hodnot tento vzor nesplňujících. Poslední obsahový vzor přijímá rozhodnutí externího klasifikátoru CRF. První kontextový vzor svým vysokým pokrytím 75 % omezuje pravděpodobná levá okolí předpovídané hodnoty atributu (označené symbolem $). 3 Popis datasetů Dataset produktových nabídek je tvořen celkem 56 stránkami získanými ze 17 různých eshopů. Dataset byl pořízen manuálně, nachází se v něm tedy pouze relevantní dokumenty. Každý eshop je zastoupen dvěma detailovými stránkami notebooků a jedním či více produktovými katalogy, které lze v eshopu zobrazit 7. Poměr těchto typů dokumentů je 22 katalogových stránek ku 34 detailovým stránkám. V trénovací množině je zastoupeno 11 eshopů, v testovací zbývajících 6. Stránky stejného eshopu jsou vždy přiřazeny k právě jedné množině, bez ohledu na typ dokumentu. Dataset pracovních nabídek byl získán automaticky pomocí web crawleru a nacházejí se v něm tedy i nerelevantní dokumenty, které se netýkají nabídky pracovních pozic (jinak řečeno žádné neobsahují). Tabulka 1. Základní údaje o anotovaných dokumentech. Počet příkladů (hodnot atributů) a počet instancí. Hodnoty atributů (#) Instance (#) Trénovací data Testovací data Trénovací data Testovací data Nabídky notebooků (katalogové stránky) (detailové stránky) Pracovní nabídky Vytváření extrakčních modelů Pro každou doménu jsou vytvořeny 2 extrakční ontologie, které se od sebe liší použitými extrakčními znalostmi. První model (#1) využívá pouze ručně zadaná pravidla, zatímco druhý model (#2) kombinuje expertní znalost se znalostmi získanými pomocí algoritmu CRF. Ten je využit jen pro některé typy extrahovaných informací, jež je problematické získat z textu pomocí regulárních vzorů. 7 Tj. např. tabulková struktura a obrázkový katalog, které se liší nejen počtem údajů, ale i formátovací strukturou.
5 V důsledku toho jsou doladěny i ostatní pravděpodobnostní odhady stávajících vzorů (přesnost a pokrytí), aby došlo k optimálnímu vyvážení obou typů znalostí. Algoritmus CRF značkuje sekvence slov dokumentu značkami typu začátek atributu, pokračování atributu a nezajímavé, přičemž využívá ortografické příznaky značkovaného slova a okolních slov a příznaky korespondující vzorům z extrakční ontologie. Slova z frází odpovídající určitému vzoru jsou spojeny s příznakem typu začátek vzoru nebo pokračování vzoru. 4.1 Specifikace atributů Ontologická třída definující nabídky notebooků obsahuje celkem 24 atributů, z toho 5 je odvozených. Povinnými atributy jsou jen název výrobce, název modelu a cena. Třída obsahuje celkem 108 ručně vytvořených vzorů (z toho 2 vzory pro seskupování atributů) a 8 axiomů. Časová náročnost tvorby kombinovaného modelu (tj. včetně vytvoření vhodného CRF modelu a vyvážení parametrů) jsou přibližně dva člověkotýdny. Ontologická třída definující pracovní nabídky je tvořena 10 atributy (z toho jeden odvozený), které v součtu obsahují 82 ručních vzorů a 4 axiomy. Jediným povinným atributem je název pracovní pozice. Důvodem je velmi rozmanitá variabilita údajů v jednotlivých pracovních nabídkách od nabídek obsažených v jediné větě ( Hledáme nové pracovníky na pozici kuchař nebo číšník ) až po nabídky strukturované do několika částí. Časové náklady na vytvoření kombinovaného modelu jsou odhadem 1-2 člověkotýdny (model je v současnosti stále vyvíjen). Produktové nabídky Klíčovou otázkou při návrhu extrakční ontologie je, kolik atributů zvolit pro komplexní hodnoty (např. název produktu 8 ), které se skládají z více sémanticky dělitelných jednotek (sémantických komponent). Je možné zvolit jeden atribut pro každou komponentu (jak bylo provedeno v případě názvu notebooku, rozděleného do 3 atributů) nebo jeden vzor pro každou komponentu a ty posléze pomocí referencí poskládat do celku v rámci jediného atributu (využito u názvu procesoru a grafické karty). Volba záleží mj. na složitosti převedení různých značení výrobců na jednotné značení (tj. zjednoznačnění), ale i na délce (počtu slov) jednotlivých částí názvu nebo typu vybraného klasifikátoru. Dekompozice názvu produktu na jednotlivé komponenty výrobce, řada (série) a model byla provedena tak, aby vznikl jednotný systém značení, který by vyhovoval produktovým značením všech výrobců v trénovacích datech. Pro extrakci atributů výrobce a název série jsou dostačující krátké seznamy slov jde o malý počet hodnot, které jsou z krátkodobého časového hlediska relativně neměnné. Naopak modelové označení notebooku je specifikováno obecně, aby daný regulární vzor odpovídal i novým údajům a odpadla tím nutnost časté aktualizace extrakčního modelu, resp. obsažených slovníků. V regulárních vzorech je 8 V této úloze jsou extrahovány názvy celkem 3 typů produktů: název notebooku a jeho dvě části název grafické karty a název procesoru.
6 jednotlivým dělitelným částem (tokenům) přiřazen ortografický typ slova (slovo složené z písmen anglické abecedy, alfanumerické slovo, číslo), popř. i velikost slov (minuskule, majuskule, velké písmeno pouze na začátku slova). Konkrétní posloupnosti výše uvedených typů slov byly odvozeny z trénovacích dat. Některé názvy modelů se přitom skládají jen z písmen abecedy, které lze ve volném textu snadno zaměnit se slovy přirozeného jazyka vyskytující se bezprostředně za názvem notebooku. Dodatečná podmínka, která těmto případům zabraňuje, je popsána dále v sekci 4.3. Pracovní nabídky V této úloze je klíčovým atributem název pracovní pozice. Ten obvykle tvoří jedna či více profesí a případně další podpůrná slova, která rozvíjejí název profese. V ojedinělých případech je pozice popsána pouze pomocí konkrétní činnosti (např. úklidové práce). Množina přípustných názvů pracovních pozic je přitom v podstatě nekonečná, kromě názvů povolání mohou obsahovat libovolná slova. Extrakce názvů pozic využívá formátovací strukturu stránky a obsáhlého slovníku, který obsahuje přibližně 1000 jednoslovných profesí 9. V případě strukturovanosti textu na stránce jsou jednotlivé informace odděleny formátovacími prvky jazyka HTML. Se slovníkem profesí jsou porovnávána jednotlivá slova uvnitř HTML elementu a v případě shody některé dvojice slov lze extrahovat celý obsah elementu a označit jej za pracovní pozici. Pravidlo je omezeno pouze délkou povoleného okolí hodnoty (5 tokenů na levé a 10 tokenů na pravé straně). Nevýhodou uvedeného přístupu je nemožnost najít název pozice ve volném textu, resp. dokázat oddělit název pozice od okolního textu. Uvedená strategie může být dále vylepšena o slovníky obsahující typické začátky a konce pracovních pozic 10, příp. o seznamy slov, které se nacházejí bezprostředně před názvem pozice (resp. po názvu pozice). V současnosti byl testován pouze první způsob. 4.2 Koreferenční rozhodnutí Za koreferenci jsou automaticky považovány takové hodnoty (řetězce), které jsou identické jako jiné extrahované hodnoty v této instanci. Pomocí JavaScriptových funkcí lze pak účinně hledat koreference i mezi dvěma různými řetězci. Takovým příkladem jsou např. následující dvě hodnoty, které odkazují ke stejnému objektu (referentu): Windows 7 Professional 64-bit CZ a W7 Pro CZ (x64). V tomto případě je název Windows převeden na jediný znak (odpovídající počátečnímu písmenu v názvu), totéž je provedeno s označením verze (Professional, Home, Premium apod.), odstraněny jsou rovněž veškeré mezery, interpunkční znaménka a slova, která jsou z hlediska porovnávání nepodstatná (bit nebo jazyková označení jako CZ, EN apod.). Výsledkem sekvence těchto konverzí řetězců je u výše uvedeného příkladu v obou případech tvar W7PRO64, druhou z hodnot tak lze prohlásit za koreferenci k té první. 9 Tj. profese jako architekt, právník nebo lékař. Názvy pozic byly primárně získány z katalogu NSP ( 10 Takové údaje lze získat i nesupervizovaně, např. parsingem agenturních stránek jako Jobs.cz, které obsahují tisíce názvů pracovních pozic, byť s určitým šumem.
7 4.3 Seskupování atributů do instancí Přípustná pořadí hodnot atributů v instanci lze definovat pomocí vzorů na úrovni třídy. S rostoucím počtem vzorů se pochopitelně snižuje rozlišovací schopnost rozhodnout o pořadí, neboť se úměrně zvyšuje počet možností, jak dané atributy seskupit. Zatímco produktové nabídky na stránkách eshopů typicky začínají názvem produktu, začátek nestrukturovaných pracovních nabídek bývá proměnlivý a tudíž obtížně specifikovatelný pomocí jediného pravidla. V případě notebooků je seskupování atributů vynuceno pomocí jediného přípustného pořadí na začátku instance: Výrobce (Série) Model, přičemž přítomnost atributu Série není povinná. Zbývající atributy se mohou v instanci vyskytovat v libovolném pořadí. Pouhým zvolením pořadí atributů na začátku instance ještě není zajištěno jejich správné seskupení. V textu se většinou vyskytují několikanásobné výskyty názvu produktu vztahující se k jedinému produktu (referentu), mezi nimiž se mohou vyskytovat hodnoty ostatních atributů. Při extrakci názvu produktu se lze omezit pouze na ty HTML značky, jež název produktu obklopují a zároveň ho od zbytku textu vizuálně oddělují. Přestože není prováděna analýza CSS stylů, lze využít např. nadpisy (H1 H6) a hyperlink (A), které se v obou případech používají jen pro zobrazování kratších (řekněme důležitějších) informací. Jde zároveň o dostačující podmínku pro to, aby se v okolí názvu notebooku nevyskytovala běžná slova jazyka (viz 4.1). 5 Výsledky Pro vyhodnocení byly počítány všechny výskyty v dokumentu bez ohledu na jejich možnou duplicitu (koreferenci). Porovnávání extrahovaných hodnot a ručních anotací probíhá ve 2 režimech: v prvním jsou počítány pouze přesně extrahované hodnoty (strict mode), zatímco ve druhém fuzzy režimu (loose mode) jsou započítány i částečně správně extrahované hodnoty (tj. neúplné nebo přesahující do okolního textu) a to poměrně podle počtu správně extrahovaných slov. 5.1 Použité metriky Úspěšnost extrakce atributů je měřena pomocí tradičních metrik přesnost, úplnost a F-míra. K měření správnosti seskupování atributů do instancí je použita tzv. Vilainova míra [8], která vychází z výše uvedených metrik. Namísto hodnot porovnává hrany, které propojují sekvenci označkovaných hodnot atributů v rámci instance. Každá instance má tedy přesně N 1 hran, kde N je počet vrcholů (hodnot atributů) v dané instanci. Vilainova přesnost se počítá jako poměr počtu hran nutných k propojení extrahovaných hodnot patřících do instance k počtu všech extrahovaných hran v instanci. Vilainova úplnost je pak analogicky ke klasické úplnosti poměr počtu správně extrahovaných hran ku počtu všech ručně označkovaných hran.
8 5.2 Vyhodnocení extrakce atributů U atributů, které lze obtížně postihnout pomocí ručních pravidel nebo z jiného důvodu dosahují nižší úspěšnosti (nevhodně nastavené pravděpodobnostní odhady, nedostatek vzorů apod.), je vhodnější přenechat rozhodnutí o (ne)extrakci hodnoty klasifikátoru CRF a současně ponechat již vytvořené negativní indicie (tj. vzory s nulovým pokrytím), které ošetřují výjimečné případy, příp. omezují extrakci hodnot dle specifické formátovací struktury v okolí. Velký rozdíl mezi oběma modely je způsoben především stručností zápisu parametrů výrobku na katalogových stránkách, údaje jsou často uvedeny za sebou na jediném řádku bez jakéhokoliv kontextu. Tabulka 2. Vyhodnocení vybraných atributů pro nabídky notebooků (testovací sada). P = přesnost, R = úplnost, F = F-míra pro jednotlivé extrakční modely. Pouze ruční pravidla (model #1) a kombinovaný model (model #2). F = rozdíl mezi F-mírou druhého a prvního modelu. Pokud je uveden symbol *, jedná se o mód loose, jinak striktní mód. Nabídky notebooků (testovací sada) Model #1 Model #2 Atribut # P (%) R (%) F (%) P (%) R (%) F (%) F (%) Název modelu ,98 71,37 71,67 74,58 75,21 74,89 +3,22 Název modelu* ,01 82,88 83,44 84,72 83,31 84,01 +0,57 Produktový kód 52 81,25 25,00 38,24 85,37 67,31 75,27 +37,03 Cena ,73 62,44 64,04 82,58 81,21 81,89 +17,85 Název CPU ,57 41,62 54,42 97,62 88,65 92,92 +38,50 Název GPU ,55 59,09 71,82 92,52 90,00 91,24 +19,42 Operační paměť ,14 80,50 76,65 95,27 84,43 89,52 +12,87 Grafická paměť ,00 52,17 68,57 91,58 94,57 93,05 +24,48 Úhlopříčka displeje 72 37,50 12,88 19,17 93,46 85,84 89,49 +70,32 Průměr ,42 69,53 75,85 89,70 85,62 87,61 +11,76 Průměr* ,31 70,91 77,44 91,58 87,11 89,29 +11,85 V případě pracovních nabídek je význam kombinovaného extrakčního modelu zanedbatelný. Minimální či žádný nárůst úspěšnosti je patrně důsledkem malého množství ručně označkovaných dat a poměrně velkou variabilitou údajů způsobenou mj. ohýbáním slov. To se nejvíce projevilo u atributu lokalita, slovník měst (regionů a krajů) obsahuje pouze základní tvary. Právě absence morfologické a syntaktické analýzy textu zvýhodňuje ruční pravidla, která obsahují dostatečný počet často používaných slovních tvarů. Pro extrakci určitých atributů (lokalita, pracovní pozice) je navíc podstatné použití rozsáhlých seznamů slov. Pracovní pozice jsou pak často velmi specifické díky složeným názvům obsahujících více profesí (asistent/asistentka). Přesto lze pomocí jednoduchého modelu založeného na formátovací stuktuře a obsáhlém slovníku extrahovat názvy pozic s relativně vysokou úspěšností, byť extrahované hodnoty často obsahují i slova z okolí.
9 Tabulka 3. Vyhodnocení atributů pro pracovní nabídky (testovací sada). P = přesnost, R = úplnost, F = F-míra pro jednotlivé extrakční modely. Pracovní nabídky (testovací sada) Model #1 Model #2 Atribut # P (%) R (%) F (%) P (%) R (%) F (%) F (%) Pracovní pozice ,94 58,04 62,17 66,94 58,04 62,17 0,00 Pracovní pozice* ,25 73,76 75,94 78,25 73,76 75,94 0,00 Lokalita 76 57,41 40,79 47,69 64,58 40,79 50,00 +2,31 Lokalita* 76 65,74 43,54 52,39 73,96 43,54 54,81 +2,42 Vzdělání 44 93,48 97,73 95,56 93,48 97,73 95,56 0,00 Jazyky 35 97, ,59 97, ,59 0,00 Řidičský průkaz 16 93,33 87,50 90,32 93,33 87,50 90,32 0,00 Pracovní vztah 19 91,67 57,89 70, ,42 81,25 +10,28 Průměr ,96 62,70 68,70 78,84 65,08 71,30 +2,60 Průměr* ,22 69,39 75,26 85,11 71,81 77,90 +2, Vyhodnocení extrakce instancí V případě produktových nabídek jsou uvedeny rovněž výsledky pro trénovací množinu (uvážíme-li, že vzory pro seskupování atributů jsou výsledkem spíše uživatelské zkušenosti než pozorovaných dat). Jediná katalogová stránka, která neodpovídala stanovenému pořadí atributů, se nacházela v testovací sadě. Detailové stránky naopak obsahují velmi mnoho (často se opakujících) hodnot atributů roztažených po celé délce stránky a je proto velmi obtížné je seskupit všechny do jediné instance. Nízká úplnost je zde částečně způsobena koreferencemi (resp. duplicitami), které se počítají jako samostatné výskyty. Z hlediska využitelnosti dat v praxi by bylo zajímavé měřit spíše unikátnost informací. Vyhodnocení pracovních nabídek neodráží případy, kdy se určitá hodnota atributu váže k více než jedné instanci. Z hlediska ruční anotace jsou takové hodnoty přiřazeny k nejbližší skupině atributů. Tabulka 4. Vyhodnocení instancí pro obě úlohy. V P = Vilainova přesnost, V R = Vilainova úplnost, V S = Vilainovo skóre. Pouze kombinovaný model (model #2). Seskupování atributů do instancí (kombinovaný model) Trénovací sada Testovací sada Množina dokumentů VP (%) VR (%) VS (%) VP (%) VR (%) VS (%) Notebooky (produktové katalogy) 97,60 86,20 91,60 92,10 61,00 73,30 Notebooky (detailové stránky) 85,90 30,30 45,80 93,10 39,20 55,20 Pracovní nabídky - 87,09 63,55 73,48
10 6 Shrnutí Vytvořené extrakční modely je možné nadále vylepšovat prostřednictvím ručně zadaných pravidel, popřípadě vhodnějším nastavením pravděpodobnostních odhadů v kombinovaném modelu. V případě produktových nabídek je možné specializovat daný model na dva podtypy, jeden pro katalogové stránky a druhý pro detailové stránky. Limitem v dosažení vyšší úspěšnosti byly právě zjevné rozdíly v obou typech dokumentů: na katalogových stránkách jsou požadované informace více zhuštěné a často ve formě zkratek bez jakéhokoliv kontextu, naopak na detailových stránkách jsou údaje jsou většinou strukturované pod sebou na jednotlivých řádcích, popisy parametrů jsou velmi detailní a je nutné počítat s delším kontextem. S rostoucím počtem atributů v ontologické třídě se stává problematičtější jejich seskupování do objektů a tedy klesá celková úspěšnost. Pro dynamicky generované záznamy z databází podle určité šablony (např. produktové katalogy) se jeví vhodnější využití top-down algoritmu, který hledá jednotlivé datové záznamy v dokumentu analýzou DOM stromu (nebo-li hledá sekvenci opakujících se částí kódu). Takový přístup používá např. MDR [7]. Přesto lze systém Ex použít jak na částečně strukturované dokumenty (databází generované záznamy), tak na málo strukturované texty přirozeného jazyka (pracovní nabídky). Výzkum je částečně podporován grantem GAČR P202/10/0761, Sémantizace webu. Reference 1. Embley, D.W., Tao, C., Liddle, S.W.: Automatically extracting ontologically specified data from HTML tables with unknown structure. In: Proc. ER Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I. H.: The WEKA Data Mining Software: An Update. SIGKDD Explorations, Volume 11, Issue 1, Chia-Hui, Ch., Mohammed, K., Moheb, R. G., Khaled, F. S.: A Survey of Web Information Extraction Systems. In: IEEE Transactions on Knowledge and Data Engineering, Vol. 18, Issue 10, 2006, s Labský, M., Svátek, V.: On the design and Exploitation of Presentation Ontologies for Information Extraction. In: ESWC 06 -Workhshop 4: Mastering the Gap: From Information Extraction to Semantic Representation. Budva: KMI, The Open Univwersity, s. 5. Labský, M., Nekvasil, M., Svátek, V., Rak, D.: The Ex Project: Web Information Extraction using Extraction Ontologies. In: Knowledge Discovery Enhanced with Semantic and Social Information. Springer, Studies in Computational Intelligence, Vol. 220, Lafferty, J., McCallum, A., Pereira, F.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proc. The 18th International Conf. on Machine Learning, 2001, s Liu, B., Grossman, R., Zhai, Y.: Mining data records in Web pages. In: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD 03). ACM, New York, NY, USA, 2003, s
11 8. Moens, M.F.: Information Extraction: Algorithms and Prospects in a Retrieval Context. Springer, ISBN Annotation: Case study: Extracting structured data from Web using extraction ontologies This case study concerns the task of automatic semantic annotation of web documents in two selected domains product offers on e-shops and job offerings posted on company web pages. The extraction process outputs named entities (attribute values) of high granularity optionally grouped into structured records (relations). The extraction task was performed using the extraction system Ex, which combines two extraction approaches: manually written rules and supervised machine learning algorithms. The advantages of this method include independence of the extraction models on the formatting structures of specific documents and the possibility to create an initial functional prototype using just manual extraction knowledge with gradual shift towards machine learning methods as (more) training data becomes available. For both data sets, we compare extraction accuracies achieved using a purely manual extraction model to a model that combines manually authored indicie with a trained learner.
EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR
EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR PŘEDMĚT PRÁCE Popis extrakce strukturovaných dat ve vybraných doménách ze semistrukturovaných
VíceSémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
VíceOntologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
VíceAlgoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
VíceVysoká škola ekonomická v Praze Fakulta informatiky a statistiky
Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky DIPLOMOVÁ PRÁCE 2012 Bc. Aleš Pouzar Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky DIPLOMOVÁ PRÁCE Extrakce strukturovaných
VíceMaturitní otázky z předmětu PROGRAMOVÁNÍ
Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu PROGRAMOVÁNÍ 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu ověřování správnosti
VíceMetody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka
Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce
VíceMATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ
MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ 1) PROGRAM, ZDROJOVÝ KÓD, PŘEKLAD PROGRAMU 3 2) HISTORIE TVORBY PROGRAMŮ 3 3) SYNTAXE A SÉMANTIKA 3 4) SPECIFIKACE
VíceDolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
VíceText Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
VíceAnalýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
VícePrimární klíč (Primary Key - PK) Je právě jedna množina atributů patřící jednomu z kandidátů primárního klíče.
Primární a cizí klíč Kandidát primárního klíče (KPK) Je taková množina atributů, která splňuje podmínky: Unikátnosti Minimálnosti (neredukovatelnosti) Primární klíč (Primary Key - PK) Je právě jedna množina
VíceExtrakce informací z webových stránek pomocí extrakčních ontologií
Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Extrakce informací z webových stránek pomocí extrakčních ontologií Autoreferát k doktorské disertační práci Obor Doktorand Školitel Oponenti
VíceSítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí
Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí Sítě SFN ver. 7 je výpočetní systém pro analýzu pokrytí a rušení vysílacích sítí pro služby FM, TV, DVB- T a T-DAB a analýzu a
VíceSémantický web 10 let poté
Sémantický web 10 let poté Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2011, 26. 5. 2011 Vilém Sklenák
VíceCASE. Jaroslav Žáček
CASE Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Co znamená CASE? Definice dle SEI A CASE tool is a computer-based product aimed at supporting one or more software engineering activities
VícePracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceZnalostní systém nad ontologií ve formátu Topic Maps
Znalostní systém nad ontologií ve formátu Topic Maps Ladislav Buřita, Petr Do ladislav.burita@unob.cz; petr.do@unob.cz Univerzita obrany, Fakulta vojenských technologií Kounicova 65, 662 10 Brno Abstrakt:
VíceModerní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
VíceUživatelská podpora v prostředí WWW
Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,
VíceMBI - technologická realizace modelu
MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,
VíceStručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr
Pavel Hruška Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill Představení, princip, výsledky Analýza XML (možná úskalí) Optimalizace komprese XML Přeskládání kontejnerů
VíceInformační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází
1 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Požadavky kreditového systému. Relační datový model, relace, atributy,
VíceVyužití metod strojového učení v bioinformatice David Hoksza
Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace
VíceAutomatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
VíceDnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT
Dnešní téma Oblasti standardizace v ICT Případové studie standardizace v ICT: 1) Znakové sady 2) Jazyk 1. technická infrastruktura transfer a komunikace informací, přístup k informacím, sdílení zdrojů
VíceInformační systémy 2008/2009. Radim Farana. Obsah. Nástroje business modelování. Business modelling, základní nástroje a metody business modelování.
3 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Business modelling, základní nástroje a metody business modelování.
VíceModely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky
Modely a sémantika Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Úvod Existující problémy Prudký nárůst množství informací na webu Kognitivní přetížení Ztráta v informačním prostoru
VíceDobývání znalostí z textů text mining
Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceSPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR
EVOLUČNÍ NÁVRH A OPTIMALIZACE APLIKAČNĚ SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR Miloš Minařík DVI4, 2. ročník, prezenční studium Školitel: Lukáš Sekanina Fakulta informačních technologií, Vysoké učení
VíceAlgoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceMetadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.
Metadata, sémantika a sémantický web Ing. Vilém Sklenák, CSc. Inforum 2004, Praha, 27. 5. 2004 2/21 There are things we know that we know. There are known unknowns that is to say, there are things that
VíceVýměnný formát XML DTM DMVS PK
Výměnný formát XML DTM DMVS PK Představení partnerským krajům Praha 8. 2. 2016 Krajský úřad Plzeňského kraje Odbor informatiky Koncept etapizace tvorby výměnného formátu XML aktualizačních zakázek Digitální
VíceProblémové domény a jejich charakteristiky
Milan Mišovič (ČVUT FIT) Pokročilé informační systémy MI-PIS, 2011, Přednáška 02 1/16 Problémové domény a jejich charakteristiky Prof. RNDr. Milan Mišovič, CSc. Katedra softwarového inženýrství Fakulta
VíceX36SIN: Softwarové inženýrství. Životní cyklus a plánování
X36SIN: Softwarové inženýrství Životní cyklus a plánování 1 Kontext Minule jsme si řekli, co to je deklarace záměru, odborný článek, katalog požadavků, seznam aktérů a seznam událostí. Seznam aktérů a
VíceModely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.
Modely datové Existují různé úrovně pohledu na data. Nejvyšší úroveň je úroveň, která zachycuje pouze vztahy a struktury dat samotných. Konceptuální model - E-R model. Další úrovní je logická úroveň Databázové
VícePráce s velkými sestavami
Práce s velkými sestavami Číslo publikace spse01650 Práce s velkými sestavami Číslo publikace spse01650 Poznámky a omezení vlastnických práv Tento software a související dokumentace je majetkem společnosti
VíceDatabázové aplikace pro internetové prostředí. 01 - PHP úvod, základní princip, vkládání skriptu, komentáře, výpis na obrazovku
Databázové aplikace pro internetové prostředí 01 - PHP úvod, základní princip, vkládání skriptu, komentáře, výpis na obrazovku Projekt: Inovace výuky prostřednictvím ICT Registrační číslo: CZ.1.07/1.5.00/34.250
VíceMINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne
MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/2016-56 R O Z H O D N U T Í č. 19/2016 ministryně pro místní rozvoj ze dne 18. 2. 2016 o Pravidlech správy otevřených dat Ministerstva pro místní rozvoj S účinností
Více1 Nejkratší cesta grafem
Bakalářské zkoušky (příklady otázek) podzim 2014 1 Nejkratší cesta grafem 1. Uvažujte graf s kladným ohodnocením hran (délka). Definujte formálně problém hledání nejkratší cesty mezi dvěma uzly tohoto
VíceZáklady XML struktura dokumentu (včetně testových otázek)
Základy XML struktura dokumentu (včetně testových otázek) Otakar Čerba Oddělení geomatiky Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Přednáška z předmětu Počítačová kartografie
Více8.2 Používání a tvorba databází
8.2 Používání a tvorba databází Slide 1 8.2.1 Základní pojmy z oblasti relačních databází Slide 2 Databáze ~ Evidence lidí peněz věcí... výběry, výpisy, početní úkony Slide 3 Pojmy tabulka, pole, záznam
VíceXML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS
XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS Roman MALO - Arnošt MOTYČKA This paper is oriented to discussion about using markup language XML and its features in LCMS
VíceUsuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
VícePOPIS STANDARDU CEN TC278/WG7. 1 z 5. draft prenv Geografická silniční databáze. Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD)
POPIS STANDARDU CEN TC278/WG7 Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD) Zkrácený název: GEOGRAFICKÁ DATABÁZE Norma číslo: 14825 Norma název (en): GDF GEOGRAPHIC DATA FILES VERSION 4.0 Norma název
VíceStanovit nezbytná pravidla pro tvorbu dokumentace vytvářenou ve SITRONICS centru využitelnou firmou SITRONICS TS.
Tvorba dokumentace SITRONICS centrum 1. Cíl Usnadnit tvorbu jednotné dokumentace SITRONICS centra. 2. Účel Stanovit nezbytná pravidla pro tvorbu dokumentace vytvářenou ve SITRONICS centru využitelnou firmou
VícePRODUKTY. Tovek Tools
jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.
VíceAnalýza a prezentace dat
2015 Analýza a prezentace dat rozsah: 2 dny (10 hodin) Mgr. Jiří Číhař www.dataspectrum.cz Analýza a prezentace dat Formátování buněk Nastavení vhodného formátu čísla Vytváření vlastních formátovacích
VíceEXTRAKT z mezinárodní normy
EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním ICS 03.220.01; 35.240.60 materiálem o normě. Inteligentní dopravní systémy Požadavky na ITS centrální datové
VíceStrojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
VíceSpecifikace požadavků. POHODA Web Interface. Verze 1.0. Datum: Autor: Ondřej Šrámek
Specifikace požadavků POHODA Web Interface Verze 1.0 Datum: 29.12. 2008 Autor: Ondřej Šrámek Copyright 1999 by Karl E. Wiegers. Permission is granted to use, modify, and distribute this document. Strana
VíceProcesy a vlákna (Processes and Threads)
ÚVOD DO OPERAČNÍCH SYSTÉMŮ Ver.1.00 Procesy a vlákna (Processes and Threads) Správa procesů a vláken České vysoké učení technické Fakulta elektrotechnická 2012 Použitá literatura [1] Stallings, W.: Operating
VíceÚloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
VíceZadání druhého zápočtového projektu Základy algoritmizace, 2005
Zadání druhého zápočtového projektu Základy algoritmizace, 2005 Jiří Dvorský 2 května 2006 Obecné pokyny Celkem je k dispozici 8 zadání příkladů Každý student obdrží jedno zadání Vzhledem k tomu, že odpadly
VíceŠKODA Portal Platform
ŠKODA Portal Platform Struktura LESS stylů Jan Obrátil Účel dokumentu Účelem tohoto dokumentu je vysvětlit strukturu stylů v Portálové Platformě tak, aby bylo možné je správně použít a rozšířit je pro
VíceEkonomické aspekty propojitelných dat. Jan Kučera Katedra informačních technologií
Ekonomické aspekty propojitelných dat Jan Kučera Katedra informačních technologií Osnova Co je to business model? Hodnotové nabídky v oblasti propojitelných dat Zdroje příjmů v oblasti propojitelných dat
Více2. Začlenění HCI do životního cyklu software
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
VíceAutomatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
VíceTÉMATICKÝ OKRUH Softwarové inženýrství
TÉMATICKÝ OKRUH Softwarové inženýrství Číslo otázky : 24. Otázka : Implementační fáze. Postupy při specifikaci organizace softwarových komponent pomocí UML. Mapování modelů na struktury programovacího
VíceAnalýza staročeské morfologie v Excelu
Analýza staročeské morfologie v Excelu B O R I S L E H E Č K A, B O R I S @ D A L I B O R I S. C Z O D D Ě L E N Í V Ý V O J E J A Z Y K A Ú S T A V P R O J A Z Y K Č E S K Ý A V Č R L I N G V I S T I
VíceCASE nástroje. Jaroslav Žáček
CASE nástroje Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Co znamená CASE? A CASE tool is a computer-based product aimed at supporting one or more software engineering activities within
VíceNovinky. Autodesk Vault helpdesk.graitec.cz,
Novinky Autodesk Vault 2017 www.graitec.cz www.cadnet.cz, helpdesk.graitec.cz, www.graitec.com Novinky Autodesk Vault 2017 PDF dokument obsahuje přehled novinek produktu Autodesk Vault 2017. Obsah: 1.
VíceKybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
VíceAplikace pro srovna ní cen povinne ho ruc ení
Aplikace pro srovna ní cen povinne ho ruc ení Ukázkový přiklad mikroaplikace systému Formcrates 2010 Naucrates s.r.o. Veškerá práva vyhrazena. Vyskočilova 741/3, 140 00 Praha 4 Czech Republic tel.: +420
VíceProcesní řízení. Hlavní zásady a praxe dodavatele Komix
Procesní řízení Hlavní zásady a praxe dodavatele Komix 1 Obsah prezentace Teoretická část (menšího objemu) orientace na zákazníka hodnocení procesu podmínky procesního řízení cyklus zlepšování procesu
VíceInovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access generování složitějších sestav Ing. Kotásek Jaroslav
Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1 Šablona: Název: Téma: Autor: Číslo: Anotace: Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access generování
VíceObsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
Více32 APZ Nabídky. Popis modulu
32 APZ Nabídky Uživatelský modul APZ Nabídky náleží k modulům řešícím agendu agentury podporovaného zaměstnávání se zaměřením na osoby se zdravotním postižením. Modul umožňuje evidenci pracovních nabídek
VíceVyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna
Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel
VíceČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu
ČVUT FEL X36PAA - Problémy a algoritmy 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu Jméno: Marek Handl Datum: 3. 2. 29 Cvičení: Pondělí 9: Zadání Prozkoumejte citlivost metod
Více12. Virtuální sítě (VLAN) VLAN. Počítačové sítě I. 1 (7) KST/IPS1. Studijní cíl. Základní seznámení se sítěmi VLAN. Doba nutná k nastudování
12. Virtuální sítě (VLAN) Studijní cíl Základní seznámení se sítěmi VLAN. Doba nutná k nastudování 1 hodina VLAN Virtuální síť bývá definována jako logický segment LAN, který spojuje koncové uzly, které
VíceVýroková a predikátová logika - III
Výroková a predikátová logika - III Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - III ZS 2017/2018 1 / 16 2-SAT 2-SAT Výrok je v k-cnf, je-li v CNF a
VíceÚvod do MS Access. Modelování v řízení. Ing. Petr Kalčev
Úvod do MS Access Modelování v řízení Ing. Petr Kalčev Postup při tvorbě aplikace Vytvoření tabulek Vytvoření relací Vytvoření dotazů Vytvoření formulářů Vytvoření sestav Tabulky Slouží k definování polí,
VíceLogický datový model VF XML DTM DMVS
Logický datový model VF XML DTM DMVS Verze 1.1 VF XML DTM DMVS Objednatel Plzeňský kraj Institut plánování a rozvoje hlavního města Prahy Zlínský kraj Kraj Vysočina Liberecký kraj Karlovarský kraj Statutární
VíceECM. Enterprise Content Management. čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00)
ECM Enterprise Content Management čt 9:15 Petr Bouška (xboup00) Zbyněk Hostaš Lukáš Maršíček Martin Nikl (xnikm00) Co nás čeká... Definice ECM Problém podnikového obsahu Historie vzniku ECM Architektura
VícePRODUKTY. Tovek Tools
Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních
VíceGrafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.
Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy
Více1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017
Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta
VíceManagement informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně
Identifikační karta modulu v. 4 Kód modulu Typ modulu profilující Jazyk výuky čeština v jazyce výuky Management informačních systémů česky Management informačních systémů anglicky Information systems management
VíceTovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje
jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových
Více2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML
ROZHRANÍ ESA XML Ing. Richard Vondráček SCIA CZ, s. r. o., Thákurova 3, 160 00 Praha 6 www.scia.cz 1 OTEVŘENÝ FORMÁT Jednou z mnoha užitečných vlastností programu ESA PT je podpora otevřeného rozhraní
VíceJak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek
Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství ing. Tomáš Vejlupek Informace tvořící konkurenční výhodu K rozhodování nestačí jen informace. K rozhodování je nutná také znalost umožňující
VíceAvíza ve formátu MT942
Avíza ve formátu MT942 Člen skupiny KBC Účelem dokumentu je popsat strukturu a použití formátu MT942 pro avíza o pohybech na účtu dostupná ve službě ČSOB CEB. Formát je odvozen od SWIFT formátu pro tzv.
VíceOtázky ke tvorbě datové báze
Otázky ke tvorbě datové báze Úvod Vytvoření kvalitní datové báze českých sbírek (dále jen datová báze) jako digitálního souboru všech právních aktů ve všech jejich konsolidovaných zněních zveřejněných
VíceBA_EM Electronic Marketing. Pavel
BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?
VíceVytvoření portálu odboru strukturálních fondů Ministerstva vnitra a zajištění jeho hostingu na serveru dodavatele
MINISTERSTVO VNITRA odbor strukturálních fondů č.j. MV- 82945-5 /OSF Praha dne 24. listopadu 2009 Počet listů: 5 Odpověď zadavatele na otázky ze dne 20. listopadu 2009 k Zadávací dokumentaci na veřejnou
Vícepostaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy
Formální systémy (výrokové) logiky postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy cíl: získat formální teorii jako souhrn dokazatelných
Více63. ročník Matematické olympiády 2013/2014
63. ročník Matematické olympiády 2013/2014 Úlohy ústředního kola kategorie P 2. soutěžní den Na řešení úloh máte 4,5 hodiny čistého času. Při soutěži je zakázáno používat jakékoliv pomůcky kromě psacích
Více10 Metody a metodologie strukturované analýzy
10 Metody a metodologie strukturované analýzy 10.1 Strukturovaná analýza DeMarco (1978) Nástroje: DFD, datový slovník, strukturovaná angličtina, rozhodovací tabulky a stromy Postup: 1. Analýza stávajícího
Více5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA
5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA 5. 15. 1 Charakteristika předmětu A. Obsahové vymezení: IVT se na naší škole vyučuje od tercie, kdy je cílem zvládnutí základů hardwaru, softwaru a operačního systému,
VícePrincipy UML. Clear View Training 2005 v2.2 1
Principy UML Clear View Training 2005 v2.2 1 1.2 Co je touml? Unified Modelling Language (UML) je univerzálníjazyk pro vizuální modelování systémů Podporuje všechny životní cykly Mohou jej implementovat
VíceStatistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VíceUML. Unified Modeling Language. Součásti UML
UML Unified Modeling Language 1995 počátek 1997 verze 1.0 leden dnes verze 2.0 (vývoj stále nedokončen) Standardní notace OMG podpora velkých firem (Microsoft, IBM, Oracle, HP ) popisuje struktury popisuje
VíceHodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí
Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Přemysl Václav Duben, Stanislav Vojíř Katedra informačního a znalostního inženýrství, FIS, Vysoká škola ekonomická v Praze nám. W.
VíceHLEDEJCENY.mobi. Obsah. Mobilní verze e-shopu. Důvody instalace
Obsah HLEDEJCENY.mobi Mezi Vodami 1952/9 e-mail: info@hledejceny.cz HLEDEJCENY.mobi... 1 Mobilní verze e-shopu... 1 Důvody instalace... 1 Výhody... 2 Co je k mobilní verzi potřeba... 2 Objednávka služby...
Více