Využití Fuzzy Match algoritmu pro čištění dat

Save this PDF as:
 WORD  PNG  TXT  JPG

Rozměr: px
Začít zobrazení ze stránky:

Download "Využití Fuzzy Match algoritmu pro čištění dat"

Transkript

1 Využtí Fuzzy Match algortmu pro čštění dat Ing. Davd Pejčoch, DS. Úsek pojštění motorových vozdel, Kooperatva, pojšťovna, a.s., Venna Insurance Group, Templová 747, Praha 1, Czech Republc Katedra nformačního a znalostního nţenýrství, FIS-VŠE Praha. Publkováno: Abstrakt S enormním nárůstem objemu zpracovávaných dat v podncích se stále častěj setkáváme s problematkou datové kvalty. Nečstota v datech s sebou přnáší jak ekonomcké, tak analytcké důsledky. V některých případech, jako je např. válečná logstka č kosmcký program, nečstota dat dokonce rozhoduje o ţvotě č smrt jednotlvců a jejch skupn. V rámc procesu čštění dat lze dentfkovat krok standardzace, v němţ jsou aktuální data porovnávána s daty referenčním a př dostatečné shodě jsou zaměněna za data referenční. Pro tento účel je ve většně případů nedostačující klascký přístup zaloţený pouze na absolutní shodě pomocí SQL JOIN. Je tedy třeba se nsprovat teorí fuzzy logky a pouţít přístup, který se nazývá Fuzzy Match. Tento přístup vyhodnocuje míru shody srovnávané a referenční sady pomocí tzv. smlarty functon. Automatcky sloučeny jsou poté záznamy se smlarty functon vyšší neţ stanovená prahová hodnota. Ostatní případy se skóre nţším neţ prahová hodnota lze z hledska sloučení posuzovat ndvduálně. Klíčová slova Data Qualty, Fuzzy Match, Čstota dat, fuzzy logka. Úvod do problematky datové kvalty a čstoty dat V úvodu pokládám za účelné krátce se zmínt o problematce datové kvalty, popsat proces datové kvalty a vymezt funkc Fuzzy Merge v konkrétním jeho kroku. Data Qualty Problematka kvalty dat (angl. Data Qualty) a na ní navazující problematka kvalty nformací (angl. Informaton Qualty) se zejména s ohledem na enormní nárůst objemu zpracovávaných dat ve frmách dostala v posledním desetletí do popředí zájmu. Frmy nejprve pochoply, ţe data pro ně v nformační době znamenají velce cenné aktvum 1, účnnou zbraň v boj o udrţení a získání nových zákazníků. S rostoucím uvědoměním s důleţtost vlastních dat se role kvalty dat posunula od přednost k nutnost. Ten, kdo díky duplctním záznamům v klentských datech frustruje své zákazníky opakovaným oslovováním v marketngových kampaních o tyto zákazníky dříve č pozděj přjde. Ten, kdo zasílá svým zákazníkům permanentně chybně vyplněné faktury, dopadne stejně. V další fáz frmy začaly chápat, ţe retroaktvní přístup k datové kvaltě pomocí ad-hoc prováděných akcí čstá data se stává neúčnným, pokud nemá odraz ve změně podnkových procesů, v rámc nchţ tyto nečstoty vznkají. Současně s frmy začaly uvědomovat nutnost ntegrace čstých dat v rámc různých datových zdrojů. Začalo se mluvt o jedném pohledu na zákazníka (resp. produkt) a skloňovat pojmy jako je Master Data Management (MDM) č Customer Data Integraton (CDI) 2. V souvslost s datovou kvaltou se zpravdla (např. [2]) hovoří o vlastnostech dat jako je přesnost, objektvnost, důvěryhodnost, reputace, dostupnost, bezpečnost přístupu, relevantnost, přínos dat, včasnost, úplnost, rozsah, nteroperablta, srozumtelnost, výstţná a stručná reprezentace, konzstentní reprezentace, apod. Jţ z prvního pohledu je zřejmé, ţe část těchto vlastností dat je numercky měřtelná (hovoříme o tzv. objektvních metrkách) a část z těchto vlastností představuje 1 Např. [10] tvrdí, ţe pokud jsou nformace měnou nové ekonomky, pak data jsou krtckou surovnou nezbytnou k úspěchu. 2 Podle [9] je CDI soubor procesů, pravdel, mechansmů a dovedností nezbytných pro standardzac a ntegrac zákaznckých dat pocházejících z různých zdrojů. MDM je v podstatě totéţ napříč všem předmětným oblastm ve frmě. 1

2 metrky subjektvní, které lze jen obtíţně numercky kvantfkovat (uvádí např. [3]). V souvslost s Fuzzy Merge se v této prác věnuj zajštění vlastností dat, jako je přesnost, úplnost a konzstentní reprezentace, tedy vlastností měřtelných objektvním metrkam. Proces Data Qualty (DQ) V této část práce bych rád jako příklad procesu DQ zmínl proces pouţívaný pro potřeby CDI (Customer Data Integraton) tak, jak jej uvádí [9] a v rámc něj vymezl funkc Fuzzy Match. Cílem CDI je vytvoření jednotné báze zákaznckých dat, tedy zdroje jedné pravdy o zákaznících. Z tohoto důvodu je v tomto pojetí procesu DQ obsaţen krok popsující defnc zamýšlené výsledné datové struktury této jednotné báze, tzv. Data Customer Hub. Tuto varantu procesu DQ uvádím z důvodu její lepší přehlednost, jíţ se odlšuje např. od poněkud komplkovaného procesu TQdM (Total Qualty data Management) DQ guru Larryho Englshe, prezentovaného v [12]. Tak, jako mnoho jných procesů (např. různé varanty procesu KDD 3 ), je pro proces DQ typcký jeho cyklcký charakter, naznačující, ţe se nejedná o jednorázový krok. Schéma procesu Data Qualty pro potřeby CDI Proflace dat (Data proflng) Tento krok v sobě zahrnuje zkoumání struktury dat. Data jsou nejprve zkoumána z hledska jejch shody s metadaty (z hledska datového typu, délky atrbutu, unkátnost dat a chybějících hodnot). Dále je ověřováno, zda jednotlvé atrbuty svou strukturou odpovídají svým předpokladům, tj. např. zda obsah atrbutu, který má obsahovat rodné číslo, odpovídá pravdlům pro rodné číslo (ověření modula, ověření platných varant zápsu). V dalším kroku jsou spočteny popsné statstky a na jejch základě dentfkovány odlehlé hodnoty, které představují potencální kanddáty na chybné hodnoty. Standardzace V rámc standardzace je provedeno parsování dat, tj. rozdělení řetězců obsaţených v jednotlvých atrbutech na jejch část. Např. obsah atrbutu adresa je rozdělen na název ulce, číslo orentační a číslo popsné, obsah atrbutu jméno je rozdělen na ttul, křestní jméno a příjmení. Dále je provedeno sémantcké sladění různých varant slov vznklých např. v rámc různých nářečí a dále srovnání a sladění formátů s exstujícím standardy 4. Deploy Defnce Porovnání a slučování Porovnávání a slučování MONITOROVÁNÍ Lokalzace Nyní se dostáváme k té fáz procesu DQ, v níţ nachází své uplatnění technka Fuzzy Match. Cílem této fáze totţ je elmnace duplct a eventuelní zkombnování duplct do výsledné nejlepší verze záznamu. V případě CDI sem patří rovněţ určování domácností. Standardzace Proflování dat Zdroj: Překresleno podle schématu DQ uvedeném v [9] Defnce V tomto kroku procesu DQ probíhá defnce výsledné datové báze, formulace poţadavků na datový obsah z pohledu byznysu, poţadavků na formáty reprezentující tento obsah a vztah zdrojových dat k ostatnímu datovému obsahu. Lokalzace V rámc kroku Lokalzace probíhá shromaţďování nformací o dsponblních datových zdrojích a jejch následná valdace. Podstatným krokem je zde nalezení referenčních datových sad. Deploy V popsu procesu DQ uvedeném v [9] je opět tato fáze procesu označena za specfckou pro CDI a představuje přesun výsledné datové sady do Customer Data Hubu. Př běţném DQ projektu by tento krok představoval vrácení vyčštěných dat do zdrojového systému, resp. oprava dat ve zdrojovém souboru pro data mnng. Montorování Kvaltu dat je samozřejmě nutné průběţně montorovat. A to ve všech fázích procesu DQ. Zejména je třeba sledovat zlepšující se datovou kvaltu za účelem stanovení ROI DQ projektů. 3 Knowledge Dscovery n Databases 4 Většna nástrojů pro data qualty umoţňuje v USA porovnávat se standardem zapsování adres defnovaným U.S. Postal Servce a s dalším poštovním standardy 2

3 Selhání klasckého SQL JOIN a LOOKUP Pouţtí klasckého SQL JOIN ve fáz porovnávání a slučování je obecně moţné pouze v případě předpokladu naprosté shody porovnávacího klíče. Takovým případem je např. jon přes rodné číslo nebo IČO v případě, ţe tento atrbut obsahuje pouze verfkované valdní hodnoty 5. Příklad stuace, kdy klascký SQL JOIN jako metoda pro porovnání a sloučení vzorku dat s referenčním daty nestačí, uvádí např. Charles Patrdge 6 v [13]. Popsuje stuac, kdy bylo programátorov zadáno zřetězení seznamu potencálních klentů na seznam stávajících klentů. Cílem byla dentfkace těch klentů ze seznamu potencálních, kteří jţ v daný okamţk jsou klenty frmy. Datový soubor potencálních klentů neměl ţádný jednečný klíč. Programátor se pokusl zřetězt jej přes kombnac ZIP kódu a jména klenta. Výsledky však byly ţalostné. Pomocí merge (obdoba jon př pouţtí SAS data step) se programátorov podařlo zřetězt pouhých 21% záznamů, zatímco asstentce ředtele, která se o to samé pokusla pomocí ručního srovnávání, se za tu samou dobu podařlo ověřt prvních 100 záznamů (celý seznam měl řádově stovky záznamů). Příčna neúspěchu aplkace SQL JOIN spočívala v různých varantách zápsu obsahu atrbutu jméno klenta a ZIP kódu v porovnávaném a referenčním souboru (vz. níţe). Obdobné problémy nastávají př pouţtí LOOKUP, ať jţ je realzován jakýmkolv způsobem (v SASu např. pomocí formátu nebo načtením referenční tabulky do pamět pomocí hash objektu). Problémy mohou nastat zejména pouţtím různých varant křestního jména. Např. Robert / Bob, Charles / Chuck, v prostředí České kotlny např. Mrek / Mroslav nebo Dana / Danela. Dále např. pouţtím různých varant zkratek (Road / Rd, Drve / Dr, náměstí / nám. / n.). Navíc, v dosavadním výkladu jsem doposud abstrahoval od moţnost, ţe obsah atrbutu, přes který zřetězení provádíme, není pouze jnak zapsán, ale je chybný. 5 Pro IČO RČ (od r. 1954) slouţí jako kontrola nulový zbytek po celočíselném dělení číslem Charles Patrdge je průkopníkem pouţtí technky Fuzzy Match v nástrojích SAS. Různý způsob zápsu adres v příkladu z [13] Seznam potencálních klentů Chuck Patrdge P D P C, Ltd. 172 Monce Road Burlngton, Ct Zdroj: [13] Fuzzy Match Referenční seznam Patrdge, Charles PDPC, Ltd. Monce Rd. Burlngton, Ct V případě nemoţnost pouţtí klasckého SQL JOIN na základě unkátního klíče (tzv. determnstcký přístup) a jeho selhání v případě pouţtí sloţeného klíče, je třeba pouţít sofstkovanějších metod, často souhrnně označovaných za pravděpodobnostní spojování. Do této skupny patří aplkace metod strojového učení, pouţtí Fuzzy Jon operátoru a metody pouţívající prncpů teore získávání nformací (IR). Do poslední uvedené skupny patří v této prác prezentovaná metoda Fuzzy Match. Pojďme se nyní na chvíl zastavt nad původem pojmu Fuzzy Match. [4] vysvětluje význam pojmu fuzzy jako nedostatek v přesnost defnce, např. ve smyslu rozmazaných fotografí př pohybu fotoaparátem během expozce. [6] uvádí, ţe pojem fuzzy znamená neurčtý, nejasný, ochmýřený, přčemţ upozorňuje, ţe není ţádoucí tento pojem překládat a je vhodné jej pouţívat v původním anglckém znění. Hstore tohoto pojmu sahá do 60. let mnulého století a je zejména spojována s postavou profesora kalfornské unverzty v Berkley, Lotf A. Zadeha a teorí fuzzy mnoţn., tj. matematckou dscplínou programově zaměřenou na modelování fenoménu vágnost. V devadesátých letech mnulého století došlo k takové oblíbenost pojmu fuzzy, ţe (jak uvádí [6]) bylo toto slovo v r vyhodnoceno jako nejpouţívanější czí slovo v Japonštně. [16] vysvětluje pojem Fuzzy Matchng jako protklad prot hledání přesné shody. Fuzzy Matchng je př současném zachování relevantnost méně strktní neţ tzv. Exact Matchng. Výklad pojmu Fuzzy Match jako vylepšení funkce klasckého SQL JOIN / LOOKUP se objevuje např. v [1] nebo jako Fuzzy Match/Merge v [13]. [17] popsuje shodné technky, které [1] označuje jako Fuzzy Match pod pojmem spojování záznamů 7 - databázový přístup. V této prác budu nadále za Fuzzy Match povaţovat aplkac technk pro spojování záznamů př řešení problému jejch deduplkace v databázích. 7 angl. Record Lnkage 3

4 [1] defnuje K-Fuzzy Match Problem takto: Mějme referenční relac R a práh mnmální shody c z ntervalu <0;1>, funkc podobnost f a vstupní záznam u. Nalezněme mnoţnu FM(u) fuzzy shod s nanejvýše K referenčním záznamy z R takových, ţe: () fmsu v c, pro všechna v z FM(u) () u, v fmsu, v' fms pro některá v z FM(u) a v z R-FM(u). Obecně lze místo fms, jejíţ přesný význam bude objasněn v dalším textu, uvaţovat jakoukolv funkc podobnost. Cílem Fuzzy Match algortmu je nalezení K referenčních záznamů, které jsou nejvíce podobné vstupnímu záznamu u. Pro pouţtí Fuzzy Match exstují různé přístupy. Některé (např. [13]) př aplkac Fuzzy Match pouţívají dodatečné nformace z konkrétní předmětné oblast. Příkladem můţe být aplkace doménově specfckého 8 slovníku synonym pro normalzac / standardzac dat. Zcela odlšným přístupem (publkovaným např. v [1]) je pokus o vývoj doménově nezávslého řešení. Tato práce se zaměřuje na prezentac doménově nezávslých technk, neboť oblast doménové závslých řešení je natolk obsáhlá, ţe by zde všechna specfcká pravdla nebylo moţno na tomto relatvně malém prostoru popsat. Začlenění Fuzzy Match do porovnávací a slučovací fáze procesu DQ v pojetí [1] zachycuje níţe uvedené schéma. Po neúspěšném SQL JOIN, resp. LOOKUP prot referenční tabulce je následně proveden Fuzzy Match a př dosaţení předem stanovené míry shody je porovnávaný záznam nahrán do databáze (nebo nahrazen referenčním). Nutno poznamenat, ţe toto schéma neřeší případ, kdy by stanovenou míru shody splňovalo více referenčních záznamů. Důvody, proč není přímo aplkován Fuzzy Match a nejprve je proveden pokus o SQL JOIN jsou dle mého názoru ryze výkonové. Přes veškeré optmalzační technky, popsané níţe v této prác, je provedení Fuzzy Match lookup méně rychlé, neţ klascký SQL JOIN / lookup. Schéma 1: Vzor pro aplkac Fuzzy Match Referenční tabulka Zdroj: [1] Exact Match Úspěšný lookup? NE Fuzzy Match Míra shody > 0,8? NE Následné čštění ANO Vstupní data ANO Load dat do databáze (např. DWH) V následujícím výkladu budu v doplňujících příkladech pouţívat totoţnou sadu referenčních záznamů a vstupních (porovnávaných ) dat jaká je pouţta v [1]. Referenční záznamy ID Název společnost Město Stát Zp R1 Boeng Company Seattle WA R2 Bon Corporaton Seattle WA R3 Companons Seattle WA Porovnávaný vzorek dat ID Název společnost Město Stát Zp I1 Beong Company Seattle WA I2 Beong Co. Seattle WA I3 Boeng Corporaton Seattle WA I4 Company Beong Seattle NULL Klasfkace měr podobnost použtelných pro Fuzzy Match 8 Např. zaměřený pouze na deduplkac adres [17] nabízí klasfkac různých měr podobnost, které lze pouţívat pro porovnávání řetězců. Rozděluje je do tří kategorí. Do první skupny řadí metrky zaloţené na úpravách (Soundex, Levenshtenova vzdálenost / edt dstance, Jarova vzdálenost a Jaro-Wnklerova vzdálenost). Jejch 4

5 společným rysem je kalkulace nákladů na operace vloţení, smazání a nahrazení částí řetězce př transformac na řetězec druhý. Druhou skupnu tvoří metrky zaloţené na tokenech (TF-IDF kosínová podobnost, Jaccardův koefcent a pravděpodobnostní modely). Třetí skupnu tvoří hybrdní metrky a [17] do ní řadí FMS (Fuzzy Smlarty Functon), jíţ bude v této prác věnován největší prostor. Dobu jejch vznku a jejch vazby znázorňuje obrázek níţe. Hstorcká osa vývoje používaných měr podobnost Zdroj: [17] Většna těchto metrk bude stručně popsána v následujícím textu. Jaccardův koefcent Jaccardův koefcent je metrka podobnost, která je aplkována na jednotlvé tokeny. Tokenzace v pojetí [1] představuje rozklad referenčního záznamu R td, A1,..., A n, kde A 1,...,An jsou jednotlvé sloupce referenčního záznamu a td představuje jeho jednečný dentfkátor, na mnoţny tokenů tok s jejchţ prvky jsou v referenčním záznamu oddělené nějakým oddělovačem (např. mezerou). Např. mnoţna tokenů tok (v[1 ]) pro referenční záznam v = R[R1, Boeng Company, Seattle, WA, 98004] je {boeng, company}. Pokud bychom tedy uvaţoval dvě mnoţny tokenů S = tok(v[1]) = {boeng, company} a T = tok(u[1]) = {beong, company}, pak Jaccardův koefcent pro tyto dvě mnoţny by byl defnován výrazem Jaccard S, T S T. S T Jaccardův koefcent tedy porovnává délku průnku mnoţn S a T s délkou jejch sjednocení. V případě výše defnovaných mnoţn S a T by tedy čnl 7 / ( ), tedy cca 0,37. Je tedy zřejmé, ţe se nejedná o přílš přesnou metrku, neboť přehození jednoho písmene praktcky vylučuje shodu. KL dvergence Kullback Leblerova dvergence (vz. např. [14]), často také nazývaná nformační zsk nebo relatvní entrope, je mírou rozdílu dvou pravděpodobnostních rozdělení náhodných velčn P a Q. Tyto náhodné velčny mohou být jak dskrétního typu, tak spojté. KL dvergence není v pravém slova smyslu metrkou vzdálenost (proto se nazývá dvergence a ne vzdálenost), neboť není symetrcká. DKL (P Q) není rovna DKL (Q P). Ba co více, KL dvergence nesplňuje an pravdlo trojúhelníkové nerovnost. Pro aplkac DKL v oblast IR lze pouţít např. tvar publkovaný v [26]: KL RDa RDe pt RDa tv t t p RDa log, p RDe kde RDa je aktuální dokument (v našem případě tabulka vstupních záznamů) a RDe je exstující dokument (v našem případě referenční tabulka). p t RDa nt, n trda RDa t, RDa n t, d drde pt RDe, nt, d t drde kde n(t,d) je četnost řetězce t v záznamu d. Konstanta α představuje tzv. Laplaceovské vyhlazení. Felleg Sunter Přístup Fellegho a Suntera řadí [17], stejně jako KL dvergenc do oblast pravděpodobnostních měr podobnost. Jak poznamenává [24], Felleg a Sunter v r představl formální matematcký základ pro spojování záznamů. Základní pohled na tuto teor a její pouţtí pro spárování záznamů ze sčítání ldu v USA a dodatečných průzkumů je popsáno např. v [25]. Metoda uvaţuje dvě populace A a B, jejchţ prvky jsou a a b. Zároveň se předpokládá, ţe některé elementy mají tyto populace společné. Mnoţna uspořádaných dvojc AXB a, b : a A, b B je sjednocením mnoţny M obsahující uspořádané dvojce (a, b), pro které platí a = b a mnoţny U obsahující uspořádané dvojce (a, b) pro které platí a b. Záznamy korespondující s prvky mnoţn A a B jsou označeny a a b. Dále je defnován porovnávací vektor 1 K a, b a, b,..., a b,, jehoţ kaţdý prvek pro = 1,..., K, představuje specfcké porovnání jednotlvých prvků mnoţn A a B (např. porovnání atrbutů pohlaví, příjmení,...). Dále m je defnována jako podmíněná pravděpodobnost a,b za podmínky a bm u jako podmíněná pravděpodobnost a,b, a za podmínky a, bu. Podíl těchto pravděpodobností je věrohodnostní poměr R. Pokud je R > UPPER, 5

6 potom (a,b) jsou navázány. Pokud platí LOWER <= R <= UPPER, pak vazba (a, b) moţná exstuje. Pokud je R < LOWER, pak vazba (a,b) neexstuje. Konstanty UPPER a LOWER jsou určeny poţadovanou mírou chyby. Pro získání maxmálně věrohodných odhadů podmíněných pravděpodobností potřebných k výpočtu R pouţívá [25] např. algortmus EM (Expectaton Maxmzaton). TF-IDF kosínová podobnost Tato metrka podobnost je zaloţená na výpočtu TF- IDF vah pro jednotlvé tokeny. Pro výpočet TF-IDF 9 tokenu t v daném záznamu uvádí [17] následující vzorec: N TF IDF log 1 1 TF.log Nt Kosínovou podobnost dvou záznamů u a v, pro které jsme vytvořl mnoţny jejch tokenů Su a Sv a spočetl váhy jednotlvých tokenů W(t, Su) a W(t, Sv), lze určt pomocí vzorce Cosne u v Wt, S. Wt, S,. u [17] uvádí příklad, kdy Kosínová podobnost je př aplkac na q-tce pevné délky q = 3, vytvořené z jednotlvých tokenů, munní vůč drobným překlepům a podobnost řetězců Jaccard a Jacard ohodnotí vysokým skóre. Token Jaccard v tomto příkladu rozkládá na mnoţnu q-tc {jac, acc, cca, car, ard} a token Jacard na mnoţnu q-tc {jac, aca, car, ard}. Jarova a Jaro-Wnklerova vzdálenost Podle [14] je Jarova vzdálenost dvou řetězců s1 a s2 dána vzorcem d 1 m m m t j s s, kde m m je počet znaků, které s v obou řetězcích odpovídají, t je počet transpozcí potřebných pro transformac s1 na s2 a s1, s2 jsou délky porovnávaných řetězců. Počet transformací je defnován jako počet neodpovídajících s znaků v řetězc dělený číslem 2. Dva řetězce jsou označeny jako shodné, pokud Jarova vzdálenost nepřesáhne práh defnovaný jako v max s1, s Praktcké pouţtí je moţno demonstrovat na řetězcích s1 = beong, s2 = boeng. Počet odpovídajících s znaků je m = 6, délka obou řetězců je shodně s1 = s2 = 6. Pro transformac s1 na s2 je třeba zaměnt E 9 Token frequency Inverse document frequency za O a O za E. Celkový počet transpozc t je tedy 2 / 2 = 1. B E O I N G B O E I N G d j , Hodnota prahu je 2. Jarova vzdálenost tedy ukazuje na shodu řetězců s1 a s2. Wllam Wnkler (spolutvůrce rozšíření Jarovy vzdálenost) však ve své stat [24] mapující v r stav bádání a problémy výzkumu v oblast spojování záznamů defnuje tuto vzdálenost poněkud odlšně. Uvádí vzorec ve tvaru Φj(s1, s2) = 1/3 (#common/str_len1 + #common/str_len2 + 0,5 #transpostons/#common). Jarova-Wnklerova vzdálenost se od původní Jarovy lší zakomponováním tzv. škálovacího faktoru p, který zvýhodňuje shodu prvních l znaků. Vzorec pro výpočet má tedy tvar d w j j d lp 1 d. Zpravdla je škálovací faktor nastaven na 0,1. Strng edt dstance a Levenshtenova vzdálenost Vzdálenost ed (s1, s2) dvou řetězců s1 a s2 je mnmální počet operací smazání, vloţení a záměna potřebný k transformac s1 na s2 normalzovaný maxmem z délek s1 a s2. Výpočet ed v podstatě vychází z Levenshtenovy vzdálenost tak, jak je popsán v [18]. Pouze j normuje maxmem délek porovnávaných řetězců. Samotné pouţtí ed jako krtéra pro záměnu porovnávaného záznamu za referenční není vhodné a vede často k chybám. Jako příklad je moţné uvést porovnání vstupního vzorku I3 s referenčním záznamy. Jak je patrné, krtérum ed vede k závěru, ţe vstupní vzorek I3 je nejblíţe k referenčnímu záznamu R3, neboť shledává méně nákladnou transformac tokenu bon na token boeng neţ transformac tokenu company na token corporaton. Ignoruje totţ fakt, ţe boeng a jsou tokeny s mnohem vyšší vypovídací hodnotou neţ je token corporaton. s1 = company 6

7 s2 = corporaton c o m p a n y c o r p o r a t o n ed 7 11 s s 0, 64 1, 2 s1 = bon s2 = boeng b o n b o e n g ed 3 6 s s 0, 5 1, 2 Aplkac ed na q-tce pro přblţný jon přes proměnné typu strng podrobně popsuje např. [7]. Př vytváření q-tc ale postupuje jným způsobem, neţ [17] u Kosínové podobnost a [1] u fms. Q-tce na počátku a konc řetězce mají kratší délku neţ q, a proto je doplňuje na délku q znaky # (na začátku) a $ (na konc). Současně doplňuje q-tce o nformac o pořadí a takto vznklou uspořádanou dvojc nazývá pozční q-tce. Rozklad řetězce Boeng by tedy byl mnoţnou pozčních q-tc {(1, ##b), (2, #bo), (3, boe), (4, oe), (5, en), (6, ng), (7, ng$), (8, g$$)} Následně [7] provádí dvoukrokové porovnávání, kdy v prvním kroku jednoduchým fltrem elmnují vazby ne chybně zamítnuté a v druhém kroku elmnují chybně označené vazby pomocí zakomponování ed do where podmínky. Tento postup lze aplkovat pouze v prostředí databázových systémů, které podporují uţvatelem defnované funkce (např. Oracle a DB2). Query pro druhý krok by tedy vypadalo např. takto: SELECT a.nazev, b.nazev FROM a, b WHERE edt_dstance(a.nazev, b.nazev, k) K je zde mnmální prahová hodnota pro ed. Nutno poznamenat, ţe vzhledem k tomu, ţe relační engny př spuštění tohoto query vykonají ed aţ jako fltr po jeho proběhnutí, je tento postup značně neefektvní. Fuzzy Smlarty Functon (fms) [1] zavádí funkc FMS (Fuzzy match smlarty), jejíţ pouţtí je jak unverzální v rámc všech domén, tak odstraňuje nedostatky ED tím, ţe pohlíţí na řetězec jako na sekvenc tokenů a uvaţuje rozdílnou důleţtost jednotlvých tokenů. Pro určení důleţtost jednotlvých tokenů pouţívá IDF (Inverse document frequency). Tato metrka vychází z předpokladu, ţe důleţtost tokenů závsí na jeho četnost výskytu v referenčních datech. FMS zároveň uvaţuje případy, kdy vstupní záznamy jsou chybné a umí se s takovou stuací vypořádat. Funkce vah IDF Ignoranc ed vůč důleţtost jednotlvých tokenů lze řešt zakomponováním jejch váhy. Pro tento účel [1] pouţívá modfkac IDF (Inverse Document Frequency), kterou lze spočíst jako logartmus poměru celkového počtu záznamů a četnost konkrétního tokenu v konkrétním sloupc 10, tedy podle následujícího vzorce. R wt, IDF t, log freq t, Náklady transformace Pokud uvaţujeme transformační operace nahrazení tokenu, vloţení tokenu a smazání tokenu, můţeme defnovat s ohledem na jednotlvé typy transformačních operací mnmální náklady transformace mnoţny tokenů u[] na v[]. Součet transformačních nákladů pro všechny mnoţny tokenů (tedy atrbuty) představuje celkové náklady transformace datového záznamu u na referenční záznam v. Celkové transformační náklady tedy lze vyjádřt pomocí následujícího vzorce: u, v tc u v tc, [1] stanovuje hodnoty pro jednotlvé typy transformačních nákladů různým způsoby. Náklady na nahrazení tokenu t1 v mnoţně tok(u[]) tokenem t2 z mnoţny tok(v[]) lze vyjádřt jako součn vzdálenost řetězců ed(t1,t2) a váhy tokenu t1 w(t1,). Náklady na vloţení nového tokenu t do mnoţny tokenů u[] jsou součnem konstanty cns a váhy tokenu t w(t,). Konstantu cns [1] nazývá faktorem vloţení tokenu a přřazuje jí hodnotu z ntervalu <0;1>. Náklady na smazání tokenu t z mnoţny tokenů u[] odpovídají jeho váze w(t,). Jako příklad je moţné uvést kalkulac transformačních nákladů pro převod vstupního záznamu u[beong Corporaton, Seattle, WA, 98004] na referenční záznam v[boeng Company, Seattle, WA, 98004]. Tato operace vyţaduje dvě dílčí transformace: nahrazení beong za boeng a 10 Obecně logartmus podílu celkového počtu dokumentů v databáz a počtu dokumentů obsahujících daný výraz. 7

8 nahrazení corporaton za company. Celkové transformační náklady jsou tedy součtem transformačních nákladů těchto dvou operací. ed( beong, boeng ) = 0,33 w( beong,1) = log (3 / 1) = 0,477 ed( corporaton, company ) = 0,64 w( corporaton,1) = log (3 / 1) = 0,477 tc(u,v) = tc(u[1],v[1]) = ed( beong, boeng ) * w( beong,1) + ed( corporaton, company ) * w( corporaton,1) = 0,33 * 0, ,64 * 0,477 = 0,463 Metrka fuzzy match podobnost ( fms) Funkc fuzzy match podobnost fms(u, v) vstupního záznamu u a referenčního záznamu v [1] defnuje následujícím vzorcem: fms u, v u, v tc 1 mn, 1, kde w u tc(u, v) jsou mnmální transformační náklady vstupního záznamu u na referenční záznam v a w(u) je součet vah všech tokenů v mnoţně tokenů tok(u) vstupního záznamu u. V případě vstupního záznamu u[beong Corporaton, Seattle, WA, 98004] a referenčního záznamu v[boeng Company, Seattle, WA, 98004] je tedy výpočet fms(u, v) následující: tc(u, v) = 0,463 w(u) = 0, , , ,125 = 1,015 fms(u, v) = 1 mn (0,463 / 1,015; 1) = 0,544 Vztah fms a ed Následující přeps vztahu pro určení vzdálenost řetězců ed(u, v) zvýrazňuje vlv mplctního přřazení vah jednotlvých tokenů a umoţňuje lepší srovnání pouţtí ed (u, v) a fms. Lu Lu, u Lu v ed u, max, v ed u, v max Lv L(u) představuje součet délek všech tokenů ve vstupním záznamu u (obdobně pro referenční záznam v). Z upraveného výrazu je patrné, ţe ed mplctně přřazuje váhy jednotlvým tokenům přímo úměrně jejch délce, tedy proporconálně k poměru max( u, v ) / L(u). Delší tokeny mají tedy př pouţtí ed automatcky vyšší váhu. Aproxmace fms [1] dále formuluje aproxmac fms pro případy, kdy můţe být různé pořadí tokenů ve vstupním a referenčním záznamu a je tedy umoţněno porovnat kaţdý token ve vstupním záznamu s kaţdým tokenem v kaţdém referenčním záznamu. Míra fms apx tvoří horní hranc fms. Záznamy, které se lší pouze pořadím tokenů v rámc atrbutů jsou fms apx vyhodnoceny jako dentcké. Algortmus fms apx spočívá v aplkac fms na mnoţny q-tc QG q (s) vznklé rozloţením původních tokenů na sub-řetězce dané délky. Např. pro q = 3 a token s = corporaton je QG3( corporaton ) mnoţna {cor, orp, rpo, por, ora, rat, at, to, on}. Do výpočtu fms apx ale vstupují pouze q-tce, které představují tzv. mnhash sgnaturu, která je pro mnoţnu řetězců S defnována jako vektor mhs mh1 S,..., mh H S, jehoţ -tý koordnát je defnován výrazem mh S a arg mn h. as [1] přrovnává výpočet mn-hash sgnatury k házení špkam na terč do zásahu elementu z S. Aproxmac fms pro záznamy u a v defnuje [1] pomocí následujícího výrazu: apx 1 fms u, v wt. wu ttoku 2. Max smmh QG t, QG r d q, kde rtok v q sm mh QG t, QG r je tzv. mn-hash podobnost dvou q-tc vytvořených ze záznamů u a v, dq = (1-1/q). Mn-hash podobnost dvou tokenů t1 a t2 lze defnovat výrazem: sm mh 1 H H t, t Imh QGt mh QGt Výpočet fms apx bude nejlépe demonstrovat na příkladu. Předpokládejme délku q-tc q = 3, maxmální počet q-tc H = 2. Dále předpokládejme vstupní záznam v [Company Beong, Seattle, NULL, 98004] a referenční záznam u[boeng Company, Seattle, WA, 98004], tedy dva záznamy lšící se pouze pořadím tokenů v prvním sloupc, přesmyčkou Boeng za Beong a chybějící zkratkou státu Washngton. Předpokládejme, ţe mn-has sgnatura pro vstupní záznam u je [eo, ng], [com, pan], [sea, ttl], [980, 004] a pro referenční záznam v je [oe, ng], [com, pan], [sea, ttl], [wa], [980, 004]. Dále předpokládejme váhy jednotlvých tokenů ve vstupním záznamu w(u) = 0,25 + 0, = 3,75. Fms apx gnoruje náklady na vloţení tokenu WA a rovněţ gnoruje změnu pořadí tokenů v prvním atrbutu. V tomto příkladu s tedy neodpovídají pouze tokeny Boeng a Beong. fms apx (u, v) je tedy rovna 1 / w(u) * w(beong) * (2/3 * 0,5 + (1 1/3)) = 3,75 / 3,75 * 1 = 1. Fms apx tedy označla oba řetězce za totoţné

9 Další možnost optmalzace použtí ED Ignorování samohlásek [13] doporučuje př procesu porovnávání a slučování vynechání samohlásek v porovnávaných řetězcích. Zdůvodňuje to častým chybam vznklým vlvem špatného hláskování. V anglckém jazyku zní např. Charle stejně jako Charley. Př vynechání samohlásek by takto posouzení vzdálenost řetězců pomocí ed ukazovalo jejch naprostou shodu. c h a r l e c h a r l e y 0 0 X 0 0 X X Kódování pomocí algortmu SOUNDEX Další, poněkud komplkovanější cestou optmalzace ed, kterou okrajově zmňuje [13], je pouţtí algortmu SOUNDEX. Jedná se o fonetcký algortmus (vz. např. [14], [15]), tj. algortmus, který ndexuje slova podle jejch výslovnost. Konkrétně algortmus SOUNDEX stejným způsobem kóduje slova, která mají velm podobnou výslovnost. Algortmus byl vyvnut specelně pro anglofonní prostředí a jeho pouţtí v jném prostředí by s vyţádalo jeho přzpůsobení. Přesný postup algortmu je následující: 1. Zachování 1. písmene řetězce 2. Smazání písmen A,E,H,I,O z řetězce 3. Nahrazení zbývajících souhlásek čísly podle následující tabulky: Původní písmeno B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D, T 3 L 4 M, N 5 R 6 Nahrazení číslem 4. Pokud je více písmen zakódováno stejně, smaţe všechna taková kromě prvního. Dále uvádím několk příkladů pouţtí algortmu SOUNDEX na konkrétních dvojcích řetězců. V prvním příkladu algortmus SOUNDEX 11 zafunguje v anglofonním prostředí př záměně řetězců SMITH a SMYTHIE a označí je za shodné (otázkou však je, zda správně). SMITH S53 = SMYTHIE S53 V druhém příkladu ale neoznačí za totoţné řetězce KAROL a CAROL (vz. 1. bod postupu algortmu uvedeného výše). Zde by pouţtí výsledku algortmu SOUNDEX jako vstupu pro ed vedlo k výsledku 1/3, zatímco aplkace ed na původní řetězce k lepšímu výsledku 1/5. KAROL K64!= CAROL C64 Ve třetím příkladu algortmus vede k totoţnému kódování v češtně často zaměňovaných slov švec a ševc 12. ŠEVC S12 = ŠVEC S12 Stejně tak jako ve čtvrtém a pátém příkladu shodně zakóduje podobně znějící dvojce slov kosa / koza a lup / lub. KOSA K2 = KOZA K2 LUP L1 = LUB L1 V šestém příkladu algortmus zafunguje na dvojc českých jmen IVANA a IVONA. IVANA I15 = IVONA I15 Přesto otázka reálné pouţtelnost algortmu SOUNDEX pro optmalzac fuzzy match zůstává otevřená. Bylo by totţ nutné předem určt, na která konkrétní slova se má pouţít. V této souvslost je nutné upozornt, ţe v [13] je tato moţnost uvedena pouze jako okrajová poznámka s tím, ţe samotného autora tohoto článku pokusy s algortmem SOUNDEX přílš nepřesvědčly ctuj: o záruce jeho uţtečnost. Přřazení vah jednotlvým sloupcům [1] jako jedno z doplňujících vylepšení aplkace fms apx uvádí moţnost doplnění stávajících vah zaloţených na IDF subjektvním vaham důleţtost jednotlvých atrbutů. Nové váhy pouţté ve výpočtu fms jsou tedy součnem původních IDF vah tokenů w(t) a sloupcových vah W. 11 Pro tento příklad byla pouţta mplementace algortmu SOUNDEX v nástroj SAS Můj kolega z práce se jmenuje Ševc a často je oslovovaán jako pan Švec. 9

10 Výkonnostní problémy př užtí Fuzzy Match Vzájemné porovnávání tokenů (nebo jejch q-tc) můţe v reálné stuac představovat značný výkonnostní problém. Navní algortmus prohledává př aplkac měr podobnost referenční relac R a srovnává kaţdý její záznam se vstupním záznamem u. V rámc optmalzace je však vhodné vytvořt na referenční relac ndex. Jak ovšem poznamenává [1], přímou aplkac klasckých B+-tree ndexů nelze uvaţovat, neboť je lze pouţít pouze, pokud předpokládáme přesnou shodu srovnávaných atrbutů. Použtí M-tree ndexu Pouţtí M-tree ndexu v případě "podobnostního dotazování" v multmedálních databázových systémech, zaměřujících se na jednotnou správu záznamu hlasu, vdea, obrazu, textu a numerckých dat uvádí [23]. M-tree vytváří partton objektů na základě jejch relatvní vzdálenost měřené pomocí lbovolné metrky 13. Pro vyhodnocení podobnost uvaţuje [23] pouţtí rozsahu (range) a algortmu k - nejblţších sousedů. Range query vrací všechny ndexované objekty, jejchţ vzdálenost od daného objektu je menší nebo rovna zadané maxmální vzdálenost. Query pouţívající algortmus k - nejblţších sousedů Negatvem pouţtí této metody (stejně jako např. R-tree ndexu) je její nepouţtelnost v prostředí klasckých datových skladů. V podstatě lze tímto způsobem vytvořt ndex nad lbovolným daty, pro něţ lze spočíst metrku podobnost. Použtí Error tolerant ndexu Efektvní řešení ndexace př pouţtí fms apx nabízí [1] v podobě tzv. Error tolerant ndexu (ETI). ETI je vlastně pomocná tabulka, která přřazuje kaţdé mnhash sgnatuře její pozc v rámc atrbutu, číslo atrbutu, absolutní četnost v rámc referenční relace R a mnoţnu dentfkátorů řádků v rámc referenční relace, které sgnaturu obsahují 14. Nad touto tabulkou je poté vytvořen cluster ndex přes atrbuty Q-tce, Koordnát a Sloupec. Rozklad vstupního řetězce u na mn-hash sgnatury o q=3, H=2 Beong [eo, ng] S 1, S 2 Company [com, pan] S 3, S 4 Seattle [sea, ttl] S 5, S 6 13 M-tree je po této stránce plně parametrzované a konkrétní funkce pouţtá jako metrka je pro něj černou skříňkou. 14 Realzace tabulky ETI pomocí standardních SQL dotazů s samozřjemě vyţaduje vytvoření mezkroku [Q-tce, Koordnát, Sloupec, Td]. WA [wa] S [980, 004] S 8, S 9 Příklad vytvoření ETI pro celou referenční relac R Q-tce Koordnát Sloupec Freq Td lst oe {R1} ng {R1} com {R1,R3} pan {R1,R3} bon {R2} orp {R2} at {R2} sea {R1,R2,R3} ttl {R1,R2,R3} wa {R1,R2,R3} {R1,R2,R3} {R1} {R2} {R3} Postup Fuzzy Match má tedy následující podobu: 1. Incalzace hash tabulky pro td skóre; Korgující člen je nastaven na nulu 2. Provedení tokenzace vstupního záznamu u a následně odvozeny mn-hash sgnatury ze všech vznklých tokenů 3. Přřazení vahám jednotlvým tokenům; RemWt = součet všech vah 4. Nastavení prahové hodnoty jako součnu původního prahu mnmální shody c a RemWt 5. Pro kaţdou mn-hash sgnaturu s pořadím 1 v daném tokenu a sloupc upravt korgující člen += váha příslušného tokenu * (1-1/q) 6. Pro kaţdou mn-hash sgnaturu proveden lookup do ETI tabulky 7. Pro kaţdou mn-hash sgnaturu proveden update td skóre. Skóre exstujících td je zvýšeno o váhu dané q-tce spočtené jako podíl váhy tokenu a délky q-tce, pokud pro ní v ETI tabulce exstuje td. Pokud je RemWt vyšší nebo rovno prahové hodnotě, 10

11 jsou vloţeny nové td se skóre odpovídající podílu váhy tokenu a délce dané q-tce. 8. Pro kaţdou mn-hash sgnaturu RemWt -= váha q-tce 9. Vybrat všechny záznamy z referenční relace R, pro td se skóre >= c korekční člen 10. Pomocí f porovnání kaţdého takového referenčního záznamu se vstupním záznamem u 11. Získání sady nejvýše K referenčních záznamů s podobností nad w(u)*c. Další optmalzac pouţtí ETI [1] shledává v pouţtí tzv. optmstckého zkratování (angl. optmstc short crcutng), které radkálně snţuje počet lookupů do tabulky ETI tím, ţe zohledňuje váhy jednotlvých tokenů. Váha jednotlvým mn-hash sgnaturám je určena jako podíl váhy tokenu a délky příslušné q- tce. Tato váha je pochoptelně shodná v rámc všech mn-hash sgnatur pocházejících z jednoho tokenu. Rozšíření tématu Jný příklad doménově nezávslého řešení uvádí např. [22]. Jedná se o řešení problému elmnace fuzzy duplct v rámc dmenzonálních tabulek datového skladu. Tedy o retrospektvní řešení problémů, které jţ měly být vyřešeny např. v rámc CDI na úrovn Customer Hubu. Hstorcky se pro tento účel pouţívaly buď shodné technky zaloţené na míře vzdálenost, jaké byly prezentovány v této prác výše (např. ed, Kosínový koefcent, apod.), a nebo doménově specfcká pravdla (např. pro deduplkac adres v nástroj frmy Trllum). Vzhledem k chybovost některých popsaných metrk a snaze o vývoj doménově nezávslého řešení, [22] nabízí vlastní algortmus DELPHI (Duplcate ELmnaton n the Presence of HIerarches). Toto řešení vyuţívá herarchcké struktury některých dmenzí a nabízí efektvní grupovací strateg, díky níţ jsou v kaţdé relac porovnávány záznamy pouze s malou skupnou referenčních záznamů. Např. pokud uvaţujeme herarch Název frmy Město Stát Země 15, porovnává např. pouze záznamy v dmenz Stát, pokud odkazují na stejnou Zem, resp. dva záznamy pro různé Země odkazující pouze na jeden Stát. Závěr V dnešní době jţ není zcela pravdvé tvrzení publkované v [7], ţe komerční databázové systémy samy nepodporují tzv. přblţné spojování řetězců (v podstatě další synonymum pro Fuzzy Match) a ţe je 15 Má smysl pro USA, Kanadu, UK. Pro valnou většnu zemí EU by se spíše hodla herarche Název Město Regon Stát. tedy nutné tuto problematku řešt pomocí uţvatelem vytvořených funkcí nebo koupí specalzovaného software (s problémy spojeným s nutnou ntegrací s DB). Pouţtí různých metod pro spojování záznamů v komerčních systémech znázorňuje následující tabulka. Commercal System SQL Server Integraton Servces 2005 OracleBI Warehouse Bulder 10gR2 Pars IBM s Entty Analytc Solutons, QualtyStage Zdroj: [17] Record Lnkage Methodology Fuzzy Lookup; Fuzzy Groupng; uses Error Tolerant Index match-merge rules; determnstc and probablstc matchng probablstc matchng (nformaton content); mult-pass blockng; rulesbased mergng Př aplkac Fuzzy Match je ale vţdy nutné pamatovat, ţe spolehlvost této metody dosud není přes všemoţné snahy výzkumníků vţdy 100%. V oblast aplkace Fuzzy Match exstují stále určté výzvy, kterým bych se rád dále věnoval ve své dsertační prác : 1. [17] upozorňuje na absenc srovnávacích studí jednotlvých algortmů z hledska jejch kvalty. Vyzývá k vývoj standardních benchmarků v této oblast. 2. Vývoj modfkace algortmu SOUNDEX pouţtelný pro shodné zakódování podobně znějících slov v českém prostředí s důsledným vymezením případů, kdy tento algortmus lze aplkovat. 3. Další výzvou je vyšší míra automatzace aplkace algortmů, bez nutnost občasného ldského rozhodnutí. Např. př moţné shodné hodnotě funkce podobnost pro více referenčních záznamů. Reference [1] Chaudhur S., Ganjam K., Gant V., Motwan R.: Robust and Effcent Fuzzy Match for Onlne Data Cleanng, SIGMOD 2003, June 9-12, 2003 San Dego, CA. [2] Wang, R,Y., Zad, M., Lee, Y.,W.: Data Qualty, The Kluwer Internatonal Seres on Advances n Database Systems Volume 23, Sprnger, Berln, [3] Král J., Ţemlčka M.: Kvalta dat a nformací základní omezení IT ve veřejné správě, Systems Integraton 2006, str [4] Merram-Webster Onlne Dctonary, výklad pojmu fuzzy: 11

12 [5] Rubens N. O.: The Applcatonn of Fuzzy Logc to The Constructon of The Rankng Functon of Informaton Retreval Systems, Computer Modellng and New Technologes, 2006, Vol. 10., No. 1, str [6] Novák V.: Základy fuzzy modelování, BEN techncká lteratura, Praha 2000, ISBN [7] Gravano L., Iperots P. G., Jagadsh H. V., Koudas N., Muthukrshnan S., Srvastava D.: Approxmate strng jons n a database (almost) for free. In Proceedngs of VLDB, Roma, Italy. September [8] Navarro G., Baeza-Yates R., Sutnen E., Tarho J.: Indexng methods for approxmate strng matchng. IEEE Data Engneerng Bulletn, 24(4):19 24,2001. [9] Dyché J., Levy E: Customer Data Integraton Reachng a Sngle Verson of Truth, John Wley & Sons, Inc., 2006, ISBN [10] Eckerson W. W.: Data Warehousng Specal Report: Data qualty and the bottom lne, 2002, [11] Dorr B., Herbert P.: Data Proflng: Desgnng the Blueprnt for Improved Data Qualty, SUGI 30, Data Warehousng, Management and Qualty, Paper , [12] Englsh L.: Improvng Data Warehouse and Busness Informaton Qualty Methods for Reducng Costs and Increasng Profts, John Wley & Sons, 1999, ISBN: [13] Patrdge Ch.: The Fuzzy Feelng SAS Provdes: Electronc Matchng of Records wthout Common Keys, Observatons the techncal journal for SAS Software Users, 1998, SAS Insttute Inc., Cary. [14] Wkpeda The free encyclopeda: [15] SAS Insttute Inc SAS OnlneDoc Cary, NC: SAS Insttute Inc. [16] Search Engne Dctonary A Complete Gude to Search Engne Termnology, výklad pojmu fuzzy matchng ( ): [17] Srvastava D.: Record Lnkage: A Database Approach, AT&T Labs-Research: [18] [19] Broder A.: On the resemblance and contanment of documents. In Compresson and Complexty of Sequences (SEQUENCES 97), [20] Cohen E.: Sze estmaton framework wth applcatons to transtve closure and reachablty. Journal of Computer and System Scences, [21] Cohen W.: Integraton of Heterogeneous Databases Wthout Common Domans Usng Queres Based on Textual Smlarty. In Proceedngs of ACM SIGMOD, Seattle, WA, June [22] Ananthakrshna R., Chaudhur S., Gant V.: Elmnatng fuzzy duplcates n data warehouses. In Proceedngs of VLDB, Hong Kong, [23] Cacca P., Patella M., Zezula P.: M-Tree: An effcent access method for smlarty search n metrc spaces. VLDB [24] Wnkler W.: The state of record lnkage and current research. Statstcs of Income Dvson, Internal Revenue Servce Publcaton R99/04 [25] Wnkler W. E., Thbaudeau Y.: An Applcaton of the Felleg-Sunter Model of Record Lnkage to the 1990 U. S. Decennal Census, U. S. Burreau fo Census, [26] Balle M., Azzopard L, Crestan F.: Towards Better Measures: Evaluaton of Estmated Resource Descrpton Qualty For Dstrbuted IR. 12

Posuzování výkonnosti projektů a projektového řízení

Posuzování výkonnosti projektů a projektového řízení Posuzování výkonnost projektů a projektového řízení Ing. Jarmla Ircngová Západočeská unverzta v Plzn, Fakulta ekonomcká, Katedra managementu, novací a projektů jrcngo@kp.zcu.cz Abstrakt V současnost je

Více

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu 6. Demonstrační smulační projekt generátory vstupních proudů smulačního modelu Studjní cíl Na příkladu smulačního projektu představeného v mnulém bloku je dále lustrována metodka pro stanovování typů a

Více

Optimalizační přístup při plánování rekonstrukcí vodovodních řadů

Optimalizační přístup při plánování rekonstrukcí vodovodních řadů Optmalzační přístup př plánování rekonstrukcí vodovodních řadů Ladslav Tuhovčák*, Pavel Dvořák**, Jaroslav Raclavský*, Pavel Vščor*, Pavel Valkovč* * Ústav vodního hospodářství obcí, Fakulta stavební VUT

Více

Hodnocení účinnosti údržby

Hodnocení účinnosti údržby Hodnocení účnnost ekonomka, pojmy, základní nástroje a hodnocení Náklady na údržbu jsou nutné k obnovení funkce výrobního zařízení Je potřeba se zabývat ekonomckou efektvností a hodnocením Je třeba řešt

Více

Metody volby financování investičních projektů

Metody volby financování investičních projektů 7. meznárodní konference Fnanční řízení podnků a fnančních nsttucí Ostrava VŠB-T Ostrava konomcká fakulta katedra Fnancí 8. 9. září 00 Metody volby fnancování nvestčních projektů Dana Dluhošová Dagmar

Více

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové. Příprava na cvčení č.1 Čísla a artmetka Číselné soustavy Obraz čísla A v soustavě o základu z: m A ( Z ) a z (1) n kde: a je symbol (číslce) z je základ m je počet řádových míst, na kterých má základ kladný

Více

Transformace dat a počítačově intenzivní metody

Transformace dat a počítačově intenzivní metody Transformace dat a počítačově ntenzvní metody Jří Mltký Katedra textlních materálů, Textlní fakulta, Techncká unversta v Lberc, Lberec, e- mal jr.mltky@vslb.cz Mlan Meloun, Katedra analytcké cheme, Unversta

Více

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc. Unverzta Pardubce Fakulta ekonomcko-správní Modelování predkce časových řad návštěvnost web domény pomocí SVM Bc. Vlastml Flegl Dplomová práce 2011 Prohlašuj: Tuto prác jsem vypracoval samostatně. Veškeré

Více

Energie elektrického pole

Energie elektrického pole Energe elektrckého pole Jž v úvodní kaptole jsme poznal, že nehybný (centrální elektrcký náboj vytváří v celém nekonečném prostoru slové elektrcké pole, které je konzervatvní, to znamená, že jakýkolv jný

Více

LOGICKÉ OBVODY J I Ř Í K A L O U S E K

LOGICKÉ OBVODY J I Ř Í K A L O U S E K LOGICKÉ OBVODY J I Ř Í K A L O U S E K Ostrava 2006 Obsah předmětu 1. ČÍSELNÉ SOUSTAVY... 2 1.1. Číselné soustavy - úvod... 2 1.2. Rozdělení číselných soustav... 2 1.3. Polyadcké číselné soustavy... 2

Více

Vykazování solventnosti pojišťoven

Vykazování solventnosti pojišťoven Vykazování solventnost pojšťoven Ing. Markéta Paulasová, Techncká unverzta v Lberc, Hospodářská fakulta marketa.paulasova@centrum.cz Abstrakt Pojšťovnctví je fnanční službou zabývající se přenosem rzk

Více

VYUŽÍVANÍ GEOINFORMAČNÍCH TECHNOLOGIÍ V OBDOBÍ REORGANIZACE ÚŘADŮ V RESORTU MPSV

VYUŽÍVANÍ GEOINFORMAČNÍCH TECHNOLOGIÍ V OBDOBÍ REORGANIZACE ÚŘADŮ V RESORTU MPSV VYUŽÍVANÍ GEOINFORMAČNÍCH TECHNOLOGIÍ V OBDOBÍ REORGANIZACE ÚŘADŮ V RESORTU MPSV Tomáš INSPEKTOR 1, Jří HORÁK 1, Igor IVAN 1, Davd VOJTEK 1, Davd FOJTÍK 2, Pavel ŠVEC 1, Luce ORLÍKOVÁ 1,Pavel BELAJ 1 1

Více

Teorie efektivních trhů (E.Fama (1965))

Teorie efektivních trhů (E.Fama (1965)) Teore efektvních trhů (E.Fama (965)) Efektvní efektvní zpracování nových nformací Efektvní trh trh, který rychle a přesně absorbuje nové nf. Ceny II (akcí) náhodná procházka Předpoklady: na trhu partcpuje

Více

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d Korelační energe Referenční stavy Energ molekul a atomů lze vyjádřt vzhledem k různým referenčním stavům. V kvantové mechance za referenční stav s nulovou energí bereme stav odpovídající nenteragujícím

Více

VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH

VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH THE CHOICE OF EVALUATION CRITERIA IN PUBLIC PROCUREMENT Martn Schmdt Masarykova unverzta, Ekonomcko-správní fakulta m.schmdt@emal.cz Abstrakt: Článek zkoumá

Více

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ. CHYBY MĚŘENÍ Úvod Představte s, že máte změřt délku válečku. Použjete posuvné měřítko a získáte určtou hodnotu. Pamětlv přísloví provedete ještě jedno měření. Ale ouha! Výsledek je jný. Co dělat? Měřt

Více

Znamená vyšší korupce dražší dálnice? Evidence z dat Eurostatu. Michal Dvořák *

Znamená vyšší korupce dražší dálnice? Evidence z dat Eurostatu. Michal Dvořák * Znamená vyšší korupce dražší dálnce? Evdence z dat Eurostatu Mchal Dvořák * Článek je pozměněnou verzí práce Analýza vztahu mez mírou korupce a cenovou úrovní nfrastrukturních staveb, kterou autor zakončl

Více

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi.

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi. Databáze Základní pojmy Pojem databáze označuje obecně souhrn informací, údajů, dat o nějakých objektech. Úkolem databáze je hlídat dodržení všech omezení a dále poskytovat data při operacích. Objekty

Více

Retailový a korporátní credit scoring

Retailový a korporátní credit scoring Masarykova unverzta Přírodovědecká fakulta DIPLOMOVÁ PRÁCE Bc. Eva Krečová Retalový a korporátní credt scorng Vedoucí práce: Mgr. Martn Řezáč, Ph.D. Studní program Aplkovaná matematka Studní obor Fnanční

Více

STATISTIKA (pro navazující magisterské studium)

STATISTIKA (pro navazující magisterské studium) Slezská unverzta v Opavě Obchodně podnkatelská fakulta v Karvné STATISTIKA (pro navazující magsterské studum) Jaroslav Ramík Karvná 007 Jaroslav Ramík, Statstka Jaroslav Ramík, Statstka 3 OBSAH MODULU

Více

Bezporuchovost a pohotovost

Bezporuchovost a pohotovost Bezporuchovost a pohotovost Materály z 59. semnáře odborné skupny pro spolehlvost Konaného dne 24. 2. 205 Česká společnost pro jakost, ovotného lávka 5, 6 68 raha, www.csq.cz ČJ 205 Obsah: Ing. Jan Kamencký,

Více

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev Úvod do databází Modelování v řízení Ing. Petr Kalčev Co je databáze? Množina záznamů a souborů, které jsou organizovány za určitým účelem. Jaké má mít přínosy? Rychlost Spolehlivost Přesnost Bezpečnost

Více

ČVUT FEL. X16FIM Finanční Management. Semestrální projekt. Téma: Optimalizace zásobování teplem. Vypracoval: Marek Handl

ČVUT FEL. X16FIM Finanční Management. Semestrální projekt. Téma: Optimalizace zásobování teplem. Vypracoval: Marek Handl ČVUT FEL X16FIM Fnanční Management Semestrální projekt Téma: Optmalzace zásobování teplem Vypracoval: Marek Handl Datum: květen 2008 Formulace úlohy Pro novou výstavbu 100 bytových jednotek je třeba zvolt

Více

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace Tetlní zkušebnctv ebnctví II Jří Mltky Škály měření epřímá měření Teore měření Kalbrace Základní pojmy I PRAVDĚPODOBOST Jev A, byl sledován v m pokusech. astal celkem m a krát. Relatvní četnost výskytu

Více

Vysoká škola ekonomická v Praze Fakulta financí a účetnictví BAKALÁŘSKÁ PRÁCE. 2010 Michal Dvořák

Vysoká škola ekonomická v Praze Fakulta financí a účetnictví BAKALÁŘSKÁ PRÁCE. 2010 Michal Dvořák Vysoká škola ekonomcká v Praze Fakulta fnancí a účetnctví BAKALÁŘSKÁ PRÁCE 2010 Mchal Dvořák Vysoká škola ekonomcká v Praze Fakulta fnancí a účetnctví Katedra veřejných fnancí Studjní obor: Fnance Analýza

Více

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou) Náhodná velčna na Výsledek náhodného pokusu, daný reálným číslem je hodnotou náhodné velčny. Náhodná velčna je lbovolná reálná funkce defnovaná na množně elementárních E pravděpodobnostního prostoru S.

Více

Softwarová podpora matematických metod v ekonomice a řízení

Softwarová podpora matematických metod v ekonomice a řízení Softwarová podpora matematckých metod v ekonomce a řízení Petr Sed a Opava 2013 Hrazeno z prostředků proektu OPVK CZ.1.07/2.2.00/15.0174 Inovace bakalářských studních oborů se zaměřením na spoluprác s

Více

MEZNÍ STAVY A SPOLEHLIVOST OCELOVÝCH KONSTRUKCÍ LIMIT STATES AND RELIABILITY OF STEEL STRUCTURES

MEZNÍ STAVY A SPOLEHLIVOST OCELOVÝCH KONSTRUKCÍ LIMIT STATES AND RELIABILITY OF STEEL STRUCTURES VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta stavební Ústav stavební mechanky Doc. Ing. Zdeněk Kala, Ph.D. MEZNÍ STAVY A SPOLEHLIVOST OCELOVÝCH KONSTRUKCÍ LIMIT STATES AND RELIABILITY OF STEEL STRUCTURES TEZE

Více

Assessment of the Sensitivity of the Regulatory Requirement for Credit Risk. Posouzení citlivosti regulatorního kapitálu na kreditní riziko

Assessment of the Sensitivity of the Regulatory Requirement for Credit Risk. Posouzení citlivosti regulatorního kapitálu na kreditní riziko Assessment of the Senstvty of the Regulatory Requrement for Credt Rsk Posouzení ctlvost regulatorního kaptálu na kredtní rzko Josef Novotný 1 Abstract The paper s devodet to concept of Captal adequacy

Více

SÍŤOVÁ ANALÝZA. Základní pojmy síťové analýzy. u,. Sjednocením množin { u, u,..., 2. nazýváme grafem G.

SÍŤOVÁ ANALÝZA. Základní pojmy síťové analýzy. u,. Sjednocením množin { u, u,..., 2. nazýváme grafem G. SÍŤOVÁ ANALÝZA Využívá grafcko-analytcké metody pro plánování, řízení a kontrolu složtých návazných procesů. yto procesy se daí rozložt na dílčí a organzačně spolu souvseící čnnost. yto procesy se nazývaí

Více

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně 9. Měření knetky dohasínání fluorescence ve frekvenční doméně Gavolův experment (194) zdroj vzorek synchronní otáčení fázový posun detektor Měření dob žvota lumnscence Frekvenční doména - exctace harmoncky

Více

ZNALECKÝ POSUDEK. č. 101-31/99. na dendrochronologický rozbor dřevěných stavebních konstrukcí domu Vračovice č.p.2, okr.

ZNALECKÝ POSUDEK. č. 101-31/99. na dendrochronologický rozbor dřevěných stavebních konstrukcí domu Vračovice č.p.2, okr. ZNALECKÝ POSUDEK č. 101-31/99 na dendrochronologcký rozbor dřevěných stavebních konstrukcí domu Vračovce č.p.2, okr. Ústí nad Orlcí Posudek s vyžádal: SOVAMM, společnost pro obnovu vesnce a malého města

Více

8.2 Používání a tvorba databází

8.2 Používání a tvorba databází 8.2 Používání a tvorba databází Slide 1 8.2.1 Základní pojmy z oblasti relačních databází Slide 2 Databáze ~ Evidence lidí peněz věcí... výběry, výpisy, početní úkony Slide 3 Pojmy tabulka, pole, záznam

Více

Konverze kmitočtu Štěpán Matějka

Konverze kmitočtu Štěpán Matějka 1.Úvod teoretcký pops Konverze kmtočtu Štěpán Matějka Směšovač měnč kmtočtu je obvod, který přeměňuje vstupní sgnál s kmtočtem na výstupní sgnál o kmtočtu IF. Někdy bývá tento proces označován také jako

Více

Měření solventnosti pojistitelů neživotního pojištění metodou míry solventnosti a metodou rizikově váženého kapitálu

Měření solventnosti pojistitelů neživotního pojištění metodou míry solventnosti a metodou rizikově váženého kapitálu Měření solventnost pojsttelů nežvotního pojštění metodou míry solventnost a metodou rzkově váženého kaptálu Martna Borovcová 1 Abstrakt Příspěvek je zaměřen na metodku vykazování solventnost. Solventnost

Více

Základy finanční matematiky

Základy finanční matematiky Hodna 38 Strana 1/10 Gymnázum Budějovcká Voltelný předmět Ekonome - jednoletý BLOK ČÍSLO 6 Základy fnanční matematky ředpokládaný počet : 5 hodn oužtá lteratura : Frantšek Freberg Fnanční teore a fnancování

Více

6. blok část B Vnořené dotazy

6. blok část B Vnořené dotazy 6. blok část B Vnořené dotazy Studijní cíl Tento blok je věnován práci s vnořenými dotazy. Popisuje rozdíl mezi korelovanými a nekorelovanými vnořenými dotazy a zobrazuje jejich použití. Doba nutná k nastudování

Více

Časová hodnota peněz ve finančním rozhodování podniku. 1.1. Význam faktoru času a základní metody jeho vyjádření

Časová hodnota peněz ve finančním rozhodování podniku. 1.1. Význam faktoru času a základní metody jeho vyjádření Časová hodnota peněz ve fnančním rozhodování podnku 1.1. Význam faktoru času a základní metody jeho vyjádření Fnanční rozhodování podnku je ovlvněno časem. Peněžní prostředky získané dnes mají větší hodnotu

Více

BEZRIZIKOVÁ VÝNOSOVÁ MÍRA OTEVŘENÝ PROBLÉM VÝNOSOVÉHO OCEŇOVÁNÍ

BEZRIZIKOVÁ VÝNOSOVÁ MÍRA OTEVŘENÝ PROBLÉM VÝNOSOVÉHO OCEŇOVÁNÍ Prof. Ing. Mloš Mařík, CSc. BEZRIZIKOVÁ VÝNOSOVÁ MÍRA OEVŘENÝ PROBLÉM VÝNOSOVÉHO OCEŇOVÁNÍ RESUMÉ: Jedním z důležtých a přtom nepřílš uspokojvě řešených problémů výnosového oceňování podnku je kalkulace

Více

PROBLEMATIKA INTELIGENTNÍHO AUTOMATICKÉHO

PROBLEMATIKA INTELIGENTNÍHO AUTOMATICKÉHO PROBLEMATIKA INTELIGENTNÍHO AUTOMATICKÉHO MAPOVÁNÍ WEBOVÝCH STRÁNEK ŘIMNÁČ MARTIN 1, ŠUSTA RICHARD 2, ŽIVNŮSTKA JIŘÍ 3 Katedra řídcí technky, ČVUT-FEL, Techncká 2, Praha 6, tel. +42 224 357 359, fax. +

Více

Užití swapových sazeb pro stanovení diskontní míry se zřetelem na Českou republiku

Užití swapových sazeb pro stanovení diskontní míry se zřetelem na Českou republiku M. Dvořák: Užtí swapových sazeb pro stanovení dskontní míry Užtí swapových sazeb pro stanovení dskontní míry se zřetelem na Českou republku Mchal Dvořák * 1 Úvod Korektní určení bezrzkových výnosových

Více

Analýza a modelování dat 3. přednáška. Helena Palovská

Analýza a modelování dat 3. přednáška. Helena Palovská Analýza a modelování dat 3. přednáška Helena Palovská Historie databázových modelů Relační model dat Codd, E.F. (1970). "A Relational Model of Data for Large Shared Data Banks". Communications of the ACM

Více

ŘÍZENÍ OTÁČEK ASYNCHRONNÍHO MOTORU

ŘÍZENÍ OTÁČEK ASYNCHRONNÍHO MOTORU ŘÍZENÍ OTÁČEK AYNCHONNÍHO MOTOU BEZ POUŽITÍ MECHANICKÉHO ČIDLA YCHLOTI Petr Kadaník ČVUT FEL Praha, Techncká 2, Praha 6 Katedra elektrckých pohonů a trakce e-mal: kadank@feld.cvut.cz ANOTACE V tomto příspěvku

Více

Pomocník na cesty. www.dtest.cz. Export z www.dtest.cz pro obecbezdekov@seznam.cz. Výběr cestovní kanceláře nebo agentury.

Pomocník na cesty. www.dtest.cz. Export z www.dtest.cz pro obecbezdekov@seznam.cz. Výběr cestovní kanceláře nebo agentury. www.dtest.cz Výběr cestovní kanceláře nebo agentury Storno zájezdu Cestovní pojštění Reklamace zájezdu Práva v letecké dopravě Roamng Pomocník na cesty Haló, to je časops dtest? Právě řeším složtý problém

Více

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů. Modely datové Existují různé úrovně pohledu na data. Nejvyšší úroveň je úroveň, která zachycuje pouze vztahy a struktury dat samotných. Konceptuální model - E-R model. Další úrovní je logická úroveň Databázové

Více

1. Úvod do základních pojmů teorie pravděpodobnosti

1. Úvod do základních pojmů teorie pravděpodobnosti 1. Úvod do záladních pojmů teore pravděpodobnost 1.1 Úvodní pojmy Většna exatních věd zobrazuje své výsledy rgorózně tj. výsledy jsou zísávány na záladě přesných formulí a jsou jejch nterpretací. em je

Více

Terminologie v relačním modelu

Terminologie v relačním modelu 3. RELAČNÍ MODEL Relační model reprezentuje databázi jako soubor relací. Každá relace představuje tabulku nebo soubor ( ve smyslu soubor na nosiči dat ). Terminologie v relačním modelu řádek n-tice ( n-tuple,

Více

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA VYŠŠÍ GEODÉZIE název předmětu úloha/zadání název úlohy Vyšší geodézie 1 3/3 GPS - výpočet polohy stanice pomocí

Více

Databáze. Velmi stručný a zjednodušený úvod do problematiky databází pro programátory v Pythonu. Bedřich Košata

Databáze. Velmi stručný a zjednodušený úvod do problematiky databází pro programátory v Pythonu. Bedřich Košata Databáze Velmi stručný a zjednodušený úvod do problematiky databází pro programátory v Pythonu Bedřich Košata K čemu jsou databáze Ukládání dat ve strukturované podobě Možnost ukládat velké množství dat

Více

Microsoft Access. Typy objektů databáze: Vytvoření a návrh nové tabulky. Vytvoření tabulky v návrhovém zobrazení

Microsoft Access. Typy objektů databáze: Vytvoření a návrh nové tabulky. Vytvoření tabulky v návrhovém zobrazení Microsoft Access Databáze je seskupení většího množství údajů, které mají určitou logiku a lze je určitým způsobem vyhodnocovat, zpracovávat a analyzovat Access je jedním z programů určených pro zpracování

Více

FUNKCE 3. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen 2013. Ročník: sedmý. Vzdělávací oblast: Informatika a výpočetní technika

FUNKCE 3. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen 2013. Ročník: sedmý. Vzdělávací oblast: Informatika a výpočetní technika FUNKCE 3 Autor: Mgr. Dana Kaprálová Datum (období) tvorby: září, říjen 2013 Ročník: sedmý Vzdělávací oblast: Informatika a výpočetní technika 1 Anotace: Žáci se seznámí se základní obsluhou tabulkového

Více

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM CÍLE KAPITOLY Využívat pokročilé možnosti formátování, jako je podmíněné formátování, používat vlastní formát čísel a umět pracovat s listy. Používat

Více

2 Rozhodovací problém

2 Rozhodovací problém Rozhodovaí problém Rozhodovaí problém je problém s víe možným řešením. Jde tedy o problémy se kterým se setkáváme v běžném žvotě. Základním krokem každého rozhodování je proes volby, tedy poszování jednotlvýh

Více

Analýza chování servopohonů u systému CNC firmy Siemens

Analýza chování servopohonů u systému CNC firmy Siemens Analýza chování servopohonů u systému CNC frmy Semens Analyss and behavour of servo-drve system n CNC Semens Bc. Tomáš áčalík Dplomová práce 00 UTB ve Zlíně, Fakulta aplkované nformatky, 00 4 ABSTRAKT

Více

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské

Více

Dotazy tvorba nových polí (vypočítané pole)

Dotazy tvorba nových polí (vypočítané pole) Téma 2.4 Dotazy tvorba nových polí (vypočítané pole) Pomocí dotazu lze také vytvářet nová pole, která mají vazbu na již existující pole v databázi. Vznikne tedy nový sloupec, který se počítá podle vzorce.

Více

Řešení Navierových-Stokesových rovnic metodou

Řešení Navierových-Stokesových rovnic metodou Řšní Navrovýc-Stoksovýc rovnc mtodou končnýc prvků Lbor Črmák prosnc 2009 Označní: Abstrakt Txt obsauj klasckou a varační formulac 2D-úloy nstlačtlnéo nstaconárnío proudění, pops prostorové dskrtzac mtodou

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Výpočet finančního zdraví. Uživatelský manuál. ecba s.r.o., 2009, verze 1.0.7.09101600 www.ecba.cz

Výpočet finančního zdraví. Uživatelský manuál. ecba s.r.o., 2009, verze 1.0.7.09101600 www.ecba.cz Výpočet finančního zdraví Uživatelský manuál ecba s.r.o., 2009, verze 1.0.7.09101600 www.ecba.cz ÚVOD A SYSTÉMOVÉ POŽADAVKY Aplikace slouţí pro výpočet finančního zdraví ţadatelů ucházejících se o podporu

Více

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 Číslo projektu: Číslo šablony: Název materiálu: Ročník: Identifikace materiálu: Jméno autora: Předmět: Tématický celek: Anotace: CZ.1.07/1.5.00/34.0410

Více

VZORCE A VÝPOČTY. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen 2013. Ročník: sedmý

VZORCE A VÝPOČTY. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen 2013. Ročník: sedmý Autor: Mgr. Dana Kaprálová VZORCE A VÝPOČTY Datum (období) tvorby: září, říjen 2013 Ročník: sedmý Vzdělávací oblast: Informatika a výpočetní technika 1 Anotace: Žáci se seznámí se základní obsluhou tabulkového

Více

Spojování, dělení a porovnávání tabulek - místo 2 pracovních dnů práce za 5 minut? Bohemius k.s. BIUS 2 - BIUS 3. www.bohemius.cz

Spojování, dělení a porovnávání tabulek - místo 2 pracovních dnů práce za 5 minut? Bohemius k.s. BIUS 2 - BIUS 3. www.bohemius.cz Spojování, dělení a porovnávání tabulek - místo 2 pracovních dnů práce za 5 minut? Bohemius k.s. BIUS 2 - BIUS 3 www.bohemius.cz Modul je součástí administrativní i manažerské kalkulačky DALŠÍ OBSAH :

Více

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem

Více

PRACOVIŠTĚ PRO PŘÍJEM TÍSŇOVÉHO VOLÁNÍ NA JEDNOTNÉ EVROPSKÉ ČÍSLO

PRACOVIŠTĚ PRO PŘÍJEM TÍSŇOVÉHO VOLÁNÍ NA JEDNOTNÉ EVROPSKÉ ČÍSLO 112 PRACOVIŠTĚ PRO PŘÍJEM TÍSŇOVÉHO VOLÁNÍ NA JEDNOTNÉ EVROPSKÉ ČÍSLO Systém tísňových volání je v České republce propracovaný. Máme čtyř národní telefonní čísla tísňového volání na: 150 - Hasčský záchranný

Více

INŽ ENÝ RSKÁ MECHANIKA 2002

INŽ ENÝ RSKÁ MECHANIKA 2002 Ná dní konference s mezná dní účastí INŽ ENÝ RSÁ MECHANIA 00 1. 16. 5. 00, Svratka, Č eská republka PODRITICÝ RŮ ST TRHLINY VE SVAROVÉ M SPOJI OMORY PŘ EHŘÍVÁ U Jan ouš, Ondřej Belak 1 Abstrakt: V důsledku

Více

MODELOVÁNÍ POPTÁVKY, NABÍDKY A TRŽNÍ ROVNOVÁHY

MODELOVÁNÍ POPTÁVKY, NABÍDKY A TRŽNÍ ROVNOVÁHY MODELOVÁÍ POPTÁVKY, ABÍDKY A TRŽÍ ROVOVÁHY Schéma tržní rovnováhy Modely otávky na trhu výrobků a služeb Formulace otávkové funkce Komlexní model Konstrukce modelu otávky Tržní otávka Dynamcké modely otávky

Více

MOŽNOSTI PREDIKCE DYNAMICKÉHO CHOVÁNÍ LOPAT OBĚŽNÝCH KOL KAPLANOVÝCH A DÉRIAZOVÝCH TURBÍN.

MOŽNOSTI PREDIKCE DYNAMICKÉHO CHOVÁNÍ LOPAT OBĚŽNÝCH KOL KAPLANOVÝCH A DÉRIAZOVÝCH TURBÍN. MOŽNOSTI PREDIKCE DYNAMICKÉHO CHOVÁNÍ LOPAT OBĚŽNÝCH KOL KAPLANOVÝCH A DÉRIAZOVÝCH TURBÍN. Mroslav VARNER, Vktor KANICKÝ, Vlastslav SALAJKA ČKD Blansko Strojírny, a. s. Anotace Uvádí se výsledky teoretckých

Více

Inovace a zkvalitnění výuky prostřednictvím ICT. Základní seznámení s MySQL Ing. Kotásek Jaroslav

Inovace a zkvalitnění výuky prostřednictvím ICT. Základní seznámení s MySQL Ing. Kotásek Jaroslav Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1 Šablona: Název: Téma: Autor: Číslo: Anotace: Inovace a zkvalitnění výuky prostřednictvím ICT Databáze Základní seznámení s MySQL

Více

InnoDB transakce, cizí klíče, neumí fulltext (a nebo už ano?) CSV v textovém souboru ve formátu hodnot oddělených čárkou

InnoDB transakce, cizí klíče, neumí fulltext (a nebo už ano?) CSV v textovém souboru ve formátu hodnot oddělených čárkou MySQL Typy tabulek Storage Engines MyISAM defaultní, neumí transakce, umí fulltext InnoDB transakce, cizí klíče, neumí fulltext (a nebo už ano?) MEMORY (HEAP) v paměti; neumí transakce ARCHIVE velké množství

Více

NOVÝ POSTUP GEOREFERENCOVÁNÍ MAP III. VOJENSKÉHO MAPOVÁNÍ

NOVÝ POSTUP GEOREFERENCOVÁNÍ MAP III. VOJENSKÉHO MAPOVÁNÍ Kartografcké lsty / Cartographc Letters, 2013, 21 (2), 35-49 NOVÝ POSTUP GEOREFERENCOVÁNÍ MAP III. VOJENSKÉHO MAPOVÁNÍ Mlan TALICH, Lubomír SOUKUP, Jan HAVRLANT, Klára AMBROŽOVÁ, Ondřej BÖHM, Flp ANTOŠ

Více

Modul kontrola duplicit

Modul kontrola duplicit Modul kontrola duplicit Tento modul slouží ke kontrole duplicitních údajů v databázi a jejich následnému sjednocení. Pracuje s těmito typy informací - firmy, osoby, poznámky, spojení a dokumenty, resp.

Více

Databázové a informační systémy Jana Šarmanová

Databázové a informační systémy Jana Šarmanová Databázové a informační systémy Jana Šarmanová Obsah Úloha evidence údajů, způsoby evidování Databázové technologie datové modely, dotazovací jazyky. Informační systémy Datové sklady Metody analýzy dat

Více

MATEMATIKA základní úroveň obtížnosti

MATEMATIKA základní úroveň obtížnosti MATEMATIKA základní úroveň obtížnosti DIDAKTICKÝ TEST Maximální bodové hodnocení: 50 bodů Hranice úspěšnosti: 33 % 1 Základní informace k zadání zkoušky Didaktický test obsahuje 26 úloh. Časový limit pro

Více

Dotazovací jazyky I. Datová krychle. Soběslav Benda

Dotazovací jazyky I. Datová krychle. Soběslav Benda Dotazovací jazyky I Datová krychle Soběslav Benda Obsah Úvod do problematiky Varianty přístupu uživatelů ke zdrojům dat OLTP vs. OLAP Datová analýza Motivace Vytvoření křížové tabulky Datová krychle Teorie

Více

RELAČNÍ DATABÁZE ACCESS

RELAČNÍ DATABÁZE ACCESS RELAČNÍ DATABÁZE ACCESS 1. Úvod... 2 2. Základní pojmy... 3 3. Vytvoření databáze... 5 4. Základní objekty databáze... 6 5. Návrhové zobrazení tabulky... 7 6. Vytváření tabulek... 7 6.1. Vytvoření tabulky

Více

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE FAKULTA ŽIVOTNÍHO PROSTŘEDÍ KATEDRA APLIKOVANÉ GEOINFORMATIKY A ÚZEMNÍHO PLÁNOVÁNÍ PROSTOROVÁ NEURČITOST GEODAT V ANALÝZÁCH DISTRIBUCE VYBRANÝCH DRUHŮ PTÁKŮ DIPLOMOVÁ

Více

Datové modelování II

Datové modelování II Datové modelování II Atributy Převod DM do schématu SŘBD Dotazovací jazyk SQL Multidimenzionální modelování Principy Doc. Miniberger, BIVŠ Atributy Atributem entity budeme rozumět název záznamu či informace,

Více

Relační databáze. V dnešní době existuje řada komerčních DBMS, nejznámější jsou:

Relační databáze. V dnešní době existuje řada komerčních DBMS, nejznámější jsou: Relační databáze Pojem databáze, druhy databází Databází se myslí uložiště dat. V době začátků využívání databází byly tyto členěny hlavně hierarchicky, případně síťově (rozšíření hierarchického modelu).

Více

Univerzita Karlova v Praze Pedagogická fakulta

Univerzita Karlova v Praze Pedagogická fakulta Uverzta Karlova v Praze Pedagogcká fakulta SEMINÁRNÍ PRÁCE Z OBECNÉ ALGEBRY DĚLITELNOST CELÝCH ČÍSEL V SOUSTAVÁCH O RŮZNÝCH ZÁKLADECH / Cfrk C. Zadáí: Najděte pět krtérí pro děltelost v jých soustavách

Více

Úvod do magnetizmu pevných látek

Úvod do magnetizmu pevných látek Úvod do magnetzmu pevných látek. Úvod. Izolované magnetcké momenty 3. Prostředí 4. Interakce 5. agnetcké struktury 6. Doménová struktura a magnetzace .agnetzmus pevných látek -úvod. Zdroje magnetsmu -

Více

MQL4 COURSE. By Coders guru www.forex-tsd.com. -4 Operace & Výrazy

MQL4 COURSE. By Coders guru www.forex-tsd.com. -4 Operace & Výrazy MQL4 COURSE By Coders guru www.forex-tsd.com -4 Operace & Výrazy Vítejte ve čtvrté lekci mého kurzu MQL4. Předchozí lekce Datové Typy prezentovaly mnoho nových konceptů ; Doufám, že jste všemu porozuměli,

Více

OSTRAVSKÁ UNIVERZITA P ř írodově decká fakulta. Biostatistika I. Pavel Drozd

OSTRAVSKÁ UNIVERZITA P ř írodově decká fakulta. Biostatistika I. Pavel Drozd OSTRAVSKÁ UIVERZITA P ř írodově decká fakulta Bostatstka I. Pavel Drozd OSTRAVA 003 OBSAH Úvod...5 Orentace v tetu...6 Bostatstka a její význam...7 Co to je bostatstka?...7 Stručná hstore statstky...9

Více

Informační systémy 2008/2009. Radim Farana. Obsah. Základní principy XML

Informační systémy 2008/2009. Radim Farana. Obsah. Základní principy XML 10 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Export a import dat Formát XML a SQL server Zálohování a obnova

Více

Dokumentace ke sluţbě SMS Connect. www.smsbrana.cz

Dokumentace ke sluţbě SMS Connect. www.smsbrana.cz Dokumentace ke sluţbě SMS Connect www.smsbrana.cz Obsah 1 ZÁKLADNÍ INFORMACE... 3 1.1 Aktivace sluţby SMS Connect... 3 1.2 Přístupové údaje... 3 1.3 Přístupový bod sluţby URL adresa pro SMS Connect...

Více

IES, Charles University Prague

IES, Charles University Prague Insttute of Economc Studes, aculty of Socal Scences Charles Unversty n Prague Trh práce žen: Gender pay gap a jeho determnanty artna ysíková IES Workng Paper: 13/2007 Insttute of Economc Studes, aculty

Více

9. Systém DNS. Počítačové sítě I. 1 (6) KST/IPS1. Studijní cíl. Představíme si problematiku struktury a tvorby doménových jmen.

9. Systém DNS. Počítačové sítě I. 1 (6) KST/IPS1. Studijní cíl. Představíme si problematiku struktury a tvorby doménových jmen. 9. Systém DNS Studijní cíl Představíme si problematiku struktury a tvorby doménových jmen. Doba nutná k nastudování 1,5 hodiny Uvedená kapitola vychází ze zdroje [1]. Celý Internet je z hlediska pojmenovávání

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

Stručný obsah. K2118.indd 3 19.6.2013 9:15:27

Stručný obsah. K2118.indd 3 19.6.2013 9:15:27 Stručný obsah 1. Stručný obsah 3 2. Úvod 11 3. Seznamy a databáze v Excelu 13 4. Excel a externí data 45 5. Vytvoření kontingenční tabulky 65 6. Využití kontingenčních tabulek 81 7. Kontingenční grafy

Více

katalog nabídky vzdělávacích programů

katalog nabídky vzdělávacích programů katalog nabídky vzdělávacích programů Vážení přátelé, dostává se Vám do rukou publkace, jejímž vydáním jsme završl více než čtyřletou prác na řešení projektu UNIV 2 KRAJE. Cílem tohoto projektu bylo a

Více

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM Č. 9

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM Č. 9 Zadavatel: Česká republika Ministerstvo zemědělství Název veřejné zakázky: Služby ICT provozu Sídlem: Těšnov 65/17, 110 00 Praha 1 Nové Město Evidenční číslo veřejné zakázky: 363685 Zastoupený: Ing. Marianem

Více

Základní informace o co se jedná a k čemu to slouží

Základní informace o co se jedná a k čemu to slouží Základní informace o co se jedná a k čemu to slouží založené na relačních databází transakční systémy, které jsou určeny pro pořizování a ukládání dat v reálném čase (ERP, účetní, ekonomické a další podnikové

Více

Add-on modul Microsoft Dynamics NAV. Výrobní kalkulace. manuál

Add-on modul Microsoft Dynamics NAV. Výrobní kalkulace. manuál Add-on modul Microsoft Dynamics NAV Výrobní kalkulace manuál 2008 AutoCont CZ a.s. Veškerá práva vyhrazena. Tento dokument obsahuje informace důvěrného charakteru a informace v něm obsaţené jsou vlastnictvím

Více

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR PŘEDMĚT PRÁCE Popis extrakce strukturovaných dat ve vybraných doménách ze semistrukturovaných

Více

VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ

VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ Úvod do problematiky VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ Databáze je uspořádaná množina velkého množství informací (dat). Příkladem databáze je překladový slovník, seznam PSČ nebo telefonní seznam. Databáze

Více

- 1 - Zdeněk Havel, Jan Hnízdil. Cvičení z Antropomotoriky. Obsah:

- 1 - Zdeněk Havel, Jan Hnízdil. Cvičení z Antropomotoriky. Obsah: - - Zdeněk Havel, Jan Hnízdl Cvčení z Antropomotorky Obsah: Úvod... S Základní charakterstky statstckých souborů...3 S Charakterstka základních výběrových technk a teoretcká rozložení četností...9 S 3

Více

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19 3 Obsah Novinky v tomto vydání 10 Význam základních principů 11 Výuka principů nezávisle na databázových produktech 12 Klíčové pojmy, kontrolní otázky, cvičení, případové studie a projekty 12 Software,

Více

POKROČILÉ POUŽITÍ DATABÁZÍ

POKROČILÉ POUŽITÍ DATABÁZÍ POKROČILÉ POUŽITÍ DATABÁZÍ Barbora Tesařová Cíle kurzu Po ukončení tohoto kurzu budete schopni pochopit podstatu koncepce databází, navrhnout relační databázi s využitím pokročilých metod, navrhovat a

Více

Příprava dat v softwaru Statistica

Příprava dat v softwaru Statistica Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,

Více

NADSTAVBOVÝ MODUL MOHSA V1

NADSTAVBOVÝ MODUL MOHSA V1 NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je

Více