Využití Fuzzy Match algoritmu pro čištění dat

Rozměr: px
Začít zobrazení ze stránky:

Download "Využití Fuzzy Match algoritmu pro čištění dat"

Transkript

1 Využtí Fuzzy Match algortmu pro čštění dat Ing. Davd Pejčoch, DS. Úsek pojštění motorových vozdel, Kooperatva, pojšťovna, a.s., Venna Insurance Group, Templová 747, Praha 1, Czech Republc Katedra nformačního a znalostního nţenýrství, FIS-VŠE Praha. Publkováno: Abstrakt S enormním nárůstem objemu zpracovávaných dat v podncích se stále častěj setkáváme s problematkou datové kvalty. Nečstota v datech s sebou přnáší jak ekonomcké, tak analytcké důsledky. V některých případech, jako je např. válečná logstka č kosmcký program, nečstota dat dokonce rozhoduje o ţvotě č smrt jednotlvců a jejch skupn. V rámc procesu čštění dat lze dentfkovat krok standardzace, v němţ jsou aktuální data porovnávána s daty referenčním a př dostatečné shodě jsou zaměněna za data referenční. Pro tento účel je ve většně případů nedostačující klascký přístup zaloţený pouze na absolutní shodě pomocí SQL JOIN. Je tedy třeba se nsprovat teorí fuzzy logky a pouţít přístup, který se nazývá Fuzzy Match. Tento přístup vyhodnocuje míru shody srovnávané a referenční sady pomocí tzv. smlarty functon. Automatcky sloučeny jsou poté záznamy se smlarty functon vyšší neţ stanovená prahová hodnota. Ostatní případy se skóre nţším neţ prahová hodnota lze z hledska sloučení posuzovat ndvduálně. Klíčová slova Data Qualty, Fuzzy Match, Čstota dat, fuzzy logka. Úvod do problematky datové kvalty a čstoty dat V úvodu pokládám za účelné krátce se zmínt o problematce datové kvalty, popsat proces datové kvalty a vymezt funkc Fuzzy Merge v konkrétním jeho kroku. Data Qualty Problematka kvalty dat (angl. Data Qualty) a na ní navazující problematka kvalty nformací (angl. Informaton Qualty) se zejména s ohledem na enormní nárůst objemu zpracovávaných dat ve frmách dostala v posledním desetletí do popředí zájmu. Frmy nejprve pochoply, ţe data pro ně v nformační době znamenají velce cenné aktvum 1, účnnou zbraň v boj o udrţení a získání nových zákazníků. S rostoucím uvědoměním s důleţtost vlastních dat se role kvalty dat posunula od přednost k nutnost. Ten, kdo díky duplctním záznamům v klentských datech frustruje své zákazníky opakovaným oslovováním v marketngových kampaních o tyto zákazníky dříve č pozděj přjde. Ten, kdo zasílá svým zákazníkům permanentně chybně vyplněné faktury, dopadne stejně. V další fáz frmy začaly chápat, ţe retroaktvní přístup k datové kvaltě pomocí ad-hoc prováděných akcí čstá data se stává neúčnným, pokud nemá odraz ve změně podnkových procesů, v rámc nchţ tyto nečstoty vznkají. Současně s frmy začaly uvědomovat nutnost ntegrace čstých dat v rámc různých datových zdrojů. Začalo se mluvt o jedném pohledu na zákazníka (resp. produkt) a skloňovat pojmy jako je Master Data Management (MDM) č Customer Data Integraton (CDI) 2. V souvslost s datovou kvaltou se zpravdla (např. [2]) hovoří o vlastnostech dat jako je přesnost, objektvnost, důvěryhodnost, reputace, dostupnost, bezpečnost přístupu, relevantnost, přínos dat, včasnost, úplnost, rozsah, nteroperablta, srozumtelnost, výstţná a stručná reprezentace, konzstentní reprezentace, apod. Jţ z prvního pohledu je zřejmé, ţe část těchto vlastností dat je numercky měřtelná (hovoříme o tzv. objektvních metrkách) a část z těchto vlastností představuje 1 Např. [10] tvrdí, ţe pokud jsou nformace měnou nové ekonomky, pak data jsou krtckou surovnou nezbytnou k úspěchu. 2 Podle [9] je CDI soubor procesů, pravdel, mechansmů a dovedností nezbytných pro standardzac a ntegrac zákaznckých dat pocházejících z různých zdrojů. MDM je v podstatě totéţ napříč všem předmětným oblastm ve frmě. 1

2 metrky subjektvní, které lze jen obtíţně numercky kvantfkovat (uvádí např. [3]). V souvslost s Fuzzy Merge se v této prác věnuj zajštění vlastností dat, jako je přesnost, úplnost a konzstentní reprezentace, tedy vlastností měřtelných objektvním metrkam. Proces Data Qualty (DQ) V této část práce bych rád jako příklad procesu DQ zmínl proces pouţívaný pro potřeby CDI (Customer Data Integraton) tak, jak jej uvádí [9] a v rámc něj vymezl funkc Fuzzy Match. Cílem CDI je vytvoření jednotné báze zákaznckých dat, tedy zdroje jedné pravdy o zákaznících. Z tohoto důvodu je v tomto pojetí procesu DQ obsaţen krok popsující defnc zamýšlené výsledné datové struktury této jednotné báze, tzv. Data Customer Hub. Tuto varantu procesu DQ uvádím z důvodu její lepší přehlednost, jíţ se odlšuje např. od poněkud komplkovaného procesu TQdM (Total Qualty data Management) DQ guru Larryho Englshe, prezentovaného v [12]. Tak, jako mnoho jných procesů (např. různé varanty procesu KDD 3 ), je pro proces DQ typcký jeho cyklcký charakter, naznačující, ţe se nejedná o jednorázový krok. Schéma procesu Data Qualty pro potřeby CDI Proflace dat (Data proflng) Tento krok v sobě zahrnuje zkoumání struktury dat. Data jsou nejprve zkoumána z hledska jejch shody s metadaty (z hledska datového typu, délky atrbutu, unkátnost dat a chybějících hodnot). Dále je ověřováno, zda jednotlvé atrbuty svou strukturou odpovídají svým předpokladům, tj. např. zda obsah atrbutu, který má obsahovat rodné číslo, odpovídá pravdlům pro rodné číslo (ověření modula, ověření platných varant zápsu). V dalším kroku jsou spočteny popsné statstky a na jejch základě dentfkovány odlehlé hodnoty, které představují potencální kanddáty na chybné hodnoty. Standardzace V rámc standardzace je provedeno parsování dat, tj. rozdělení řetězců obsaţených v jednotlvých atrbutech na jejch část. Např. obsah atrbutu adresa je rozdělen na název ulce, číslo orentační a číslo popsné, obsah atrbutu jméno je rozdělen na ttul, křestní jméno a příjmení. Dále je provedeno sémantcké sladění různých varant slov vznklých např. v rámc různých nářečí a dále srovnání a sladění formátů s exstujícím standardy 4. Deploy Defnce Porovnání a slučování Porovnávání a slučování MONITOROVÁNÍ Lokalzace Nyní se dostáváme k té fáz procesu DQ, v níţ nachází své uplatnění technka Fuzzy Match. Cílem této fáze totţ je elmnace duplct a eventuelní zkombnování duplct do výsledné nejlepší verze záznamu. V případě CDI sem patří rovněţ určování domácností. Standardzace Proflování dat Zdroj: Překresleno podle schématu DQ uvedeném v [9] Defnce V tomto kroku procesu DQ probíhá defnce výsledné datové báze, formulace poţadavků na datový obsah z pohledu byznysu, poţadavků na formáty reprezentující tento obsah a vztah zdrojových dat k ostatnímu datovému obsahu. Lokalzace V rámc kroku Lokalzace probíhá shromaţďování nformací o dsponblních datových zdrojích a jejch následná valdace. Podstatným krokem je zde nalezení referenčních datových sad. Deploy V popsu procesu DQ uvedeném v [9] je opět tato fáze procesu označena za specfckou pro CDI a představuje přesun výsledné datové sady do Customer Data Hubu. Př běţném DQ projektu by tento krok představoval vrácení vyčštěných dat do zdrojového systému, resp. oprava dat ve zdrojovém souboru pro data mnng. Montorování Kvaltu dat je samozřejmě nutné průběţně montorovat. A to ve všech fázích procesu DQ. Zejména je třeba sledovat zlepšující se datovou kvaltu za účelem stanovení ROI DQ projektů. 3 Knowledge Dscovery n Databases 4 Většna nástrojů pro data qualty umoţňuje v USA porovnávat se standardem zapsování adres defnovaným U.S. Postal Servce a s dalším poštovním standardy 2

3 Selhání klasckého SQL JOIN a LOOKUP Pouţtí klasckého SQL JOIN ve fáz porovnávání a slučování je obecně moţné pouze v případě předpokladu naprosté shody porovnávacího klíče. Takovým případem je např. jon přes rodné číslo nebo IČO v případě, ţe tento atrbut obsahuje pouze verfkované valdní hodnoty 5. Příklad stuace, kdy klascký SQL JOIN jako metoda pro porovnání a sloučení vzorku dat s referenčním daty nestačí, uvádí např. Charles Patrdge 6 v [13]. Popsuje stuac, kdy bylo programátorov zadáno zřetězení seznamu potencálních klentů na seznam stávajících klentů. Cílem byla dentfkace těch klentů ze seznamu potencálních, kteří jţ v daný okamţk jsou klenty frmy. Datový soubor potencálních klentů neměl ţádný jednečný klíč. Programátor se pokusl zřetězt jej přes kombnac ZIP kódu a jména klenta. Výsledky však byly ţalostné. Pomocí merge (obdoba jon př pouţtí SAS data step) se programátorov podařlo zřetězt pouhých 21% záznamů, zatímco asstentce ředtele, která se o to samé pokusla pomocí ručního srovnávání, se za tu samou dobu podařlo ověřt prvních 100 záznamů (celý seznam měl řádově stovky záznamů). Příčna neúspěchu aplkace SQL JOIN spočívala v různých varantách zápsu obsahu atrbutu jméno klenta a ZIP kódu v porovnávaném a referenčním souboru (vz. níţe). Obdobné problémy nastávají př pouţtí LOOKUP, ať jţ je realzován jakýmkolv způsobem (v SASu např. pomocí formátu nebo načtením referenční tabulky do pamět pomocí hash objektu). Problémy mohou nastat zejména pouţtím různých varant křestního jména. Např. Robert / Bob, Charles / Chuck, v prostředí České kotlny např. Mrek / Mroslav nebo Dana / Danela. Dále např. pouţtím různých varant zkratek (Road / Rd, Drve / Dr, náměstí / nám. / n.). Navíc, v dosavadním výkladu jsem doposud abstrahoval od moţnost, ţe obsah atrbutu, přes který zřetězení provádíme, není pouze jnak zapsán, ale je chybný. 5 Pro IČO RČ (od r. 1954) slouţí jako kontrola nulový zbytek po celočíselném dělení číslem Charles Patrdge je průkopníkem pouţtí technky Fuzzy Match v nástrojích SAS. Různý způsob zápsu adres v příkladu z [13] Seznam potencálních klentů Chuck Patrdge P D P C, Ltd. 172 Monce Road Burlngton, Ct Zdroj: [13] Fuzzy Match Referenční seznam Patrdge, Charles PDPC, Ltd. Monce Rd. Burlngton, Ct V případě nemoţnost pouţtí klasckého SQL JOIN na základě unkátního klíče (tzv. determnstcký přístup) a jeho selhání v případě pouţtí sloţeného klíče, je třeba pouţít sofstkovanějších metod, často souhrnně označovaných za pravděpodobnostní spojování. Do této skupny patří aplkace metod strojového učení, pouţtí Fuzzy Jon operátoru a metody pouţívající prncpů teore získávání nformací (IR). Do poslední uvedené skupny patří v této prác prezentovaná metoda Fuzzy Match. Pojďme se nyní na chvíl zastavt nad původem pojmu Fuzzy Match. [4] vysvětluje význam pojmu fuzzy jako nedostatek v přesnost defnce, např. ve smyslu rozmazaných fotografí př pohybu fotoaparátem během expozce. [6] uvádí, ţe pojem fuzzy znamená neurčtý, nejasný, ochmýřený, přčemţ upozorňuje, ţe není ţádoucí tento pojem překládat a je vhodné jej pouţívat v původním anglckém znění. Hstore tohoto pojmu sahá do 60. let mnulého století a je zejména spojována s postavou profesora kalfornské unverzty v Berkley, Lotf A. Zadeha a teorí fuzzy mnoţn., tj. matematckou dscplínou programově zaměřenou na modelování fenoménu vágnost. V devadesátých letech mnulého století došlo k takové oblíbenost pojmu fuzzy, ţe (jak uvádí [6]) bylo toto slovo v r vyhodnoceno jako nejpouţívanější czí slovo v Japonštně. [16] vysvětluje pojem Fuzzy Matchng jako protklad prot hledání přesné shody. Fuzzy Matchng je př současném zachování relevantnost méně strktní neţ tzv. Exact Matchng. Výklad pojmu Fuzzy Match jako vylepšení funkce klasckého SQL JOIN / LOOKUP se objevuje např. v [1] nebo jako Fuzzy Match/Merge v [13]. [17] popsuje shodné technky, které [1] označuje jako Fuzzy Match pod pojmem spojování záznamů 7 - databázový přístup. V této prác budu nadále za Fuzzy Match povaţovat aplkac technk pro spojování záznamů př řešení problému jejch deduplkace v databázích. 7 angl. Record Lnkage 3

4 [1] defnuje K-Fuzzy Match Problem takto: Mějme referenční relac R a práh mnmální shody c z ntervalu <0;1>, funkc podobnost f a vstupní záznam u. Nalezněme mnoţnu FM(u) fuzzy shod s nanejvýše K referenčním záznamy z R takových, ţe: () fmsu v c, pro všechna v z FM(u) () u, v fmsu, v' fms pro některá v z FM(u) a v z R-FM(u). Obecně lze místo fms, jejíţ přesný význam bude objasněn v dalším textu, uvaţovat jakoukolv funkc podobnost. Cílem Fuzzy Match algortmu je nalezení K referenčních záznamů, které jsou nejvíce podobné vstupnímu záznamu u. Pro pouţtí Fuzzy Match exstují různé přístupy. Některé (např. [13]) př aplkac Fuzzy Match pouţívají dodatečné nformace z konkrétní předmětné oblast. Příkladem můţe být aplkace doménově specfckého 8 slovníku synonym pro normalzac / standardzac dat. Zcela odlšným přístupem (publkovaným např. v [1]) je pokus o vývoj doménově nezávslého řešení. Tato práce se zaměřuje na prezentac doménově nezávslých technk, neboť oblast doménové závslých řešení je natolk obsáhlá, ţe by zde všechna specfcká pravdla nebylo moţno na tomto relatvně malém prostoru popsat. Začlenění Fuzzy Match do porovnávací a slučovací fáze procesu DQ v pojetí [1] zachycuje níţe uvedené schéma. Po neúspěšném SQL JOIN, resp. LOOKUP prot referenční tabulce je následně proveden Fuzzy Match a př dosaţení předem stanovené míry shody je porovnávaný záznam nahrán do databáze (nebo nahrazen referenčním). Nutno poznamenat, ţe toto schéma neřeší případ, kdy by stanovenou míru shody splňovalo více referenčních záznamů. Důvody, proč není přímo aplkován Fuzzy Match a nejprve je proveden pokus o SQL JOIN jsou dle mého názoru ryze výkonové. Přes veškeré optmalzační technky, popsané níţe v této prác, je provedení Fuzzy Match lookup méně rychlé, neţ klascký SQL JOIN / lookup. Schéma 1: Vzor pro aplkac Fuzzy Match Referenční tabulka Zdroj: [1] Exact Match Úspěšný lookup? NE Fuzzy Match Míra shody > 0,8? NE Následné čštění ANO Vstupní data ANO Load dat do databáze (např. DWH) V následujícím výkladu budu v doplňujících příkladech pouţívat totoţnou sadu referenčních záznamů a vstupních (porovnávaných ) dat jaká je pouţta v [1]. Referenční záznamy ID Název společnost Město Stát Zp R1 Boeng Company Seattle WA R2 Bon Corporaton Seattle WA R3 Companons Seattle WA Porovnávaný vzorek dat ID Název společnost Město Stát Zp I1 Beong Company Seattle WA I2 Beong Co. Seattle WA I3 Boeng Corporaton Seattle WA I4 Company Beong Seattle NULL Klasfkace měr podobnost použtelných pro Fuzzy Match 8 Např. zaměřený pouze na deduplkac adres [17] nabízí klasfkac různých měr podobnost, které lze pouţívat pro porovnávání řetězců. Rozděluje je do tří kategorí. Do první skupny řadí metrky zaloţené na úpravách (Soundex, Levenshtenova vzdálenost / edt dstance, Jarova vzdálenost a Jaro-Wnklerova vzdálenost). Jejch 4

5 společným rysem je kalkulace nákladů na operace vloţení, smazání a nahrazení částí řetězce př transformac na řetězec druhý. Druhou skupnu tvoří metrky zaloţené na tokenech (TF-IDF kosínová podobnost, Jaccardův koefcent a pravděpodobnostní modely). Třetí skupnu tvoří hybrdní metrky a [17] do ní řadí FMS (Fuzzy Smlarty Functon), jíţ bude v této prác věnován největší prostor. Dobu jejch vznku a jejch vazby znázorňuje obrázek níţe. Hstorcká osa vývoje používaných měr podobnost Zdroj: [17] Většna těchto metrk bude stručně popsána v následujícím textu. Jaccardův koefcent Jaccardův koefcent je metrka podobnost, která je aplkována na jednotlvé tokeny. Tokenzace v pojetí [1] představuje rozklad referenčního záznamu R td, A1,..., A n, kde A 1,...,An jsou jednotlvé sloupce referenčního záznamu a td představuje jeho jednečný dentfkátor, na mnoţny tokenů tok s jejchţ prvky jsou v referenčním záznamu oddělené nějakým oddělovačem (např. mezerou). Např. mnoţna tokenů tok (v[1 ]) pro referenční záznam v = R[R1, Boeng Company, Seattle, WA, 98004] je {boeng, company}. Pokud bychom tedy uvaţoval dvě mnoţny tokenů S = tok(v[1]) = {boeng, company} a T = tok(u[1]) = {beong, company}, pak Jaccardův koefcent pro tyto dvě mnoţny by byl defnován výrazem Jaccard S, T S T. S T Jaccardův koefcent tedy porovnává délku průnku mnoţn S a T s délkou jejch sjednocení. V případě výše defnovaných mnoţn S a T by tedy čnl 7 / ( ), tedy cca 0,37. Je tedy zřejmé, ţe se nejedná o přílš přesnou metrku, neboť přehození jednoho písmene praktcky vylučuje shodu. KL dvergence Kullback Leblerova dvergence (vz. např. [14]), často také nazývaná nformační zsk nebo relatvní entrope, je mírou rozdílu dvou pravděpodobnostních rozdělení náhodných velčn P a Q. Tyto náhodné velčny mohou být jak dskrétního typu, tak spojté. KL dvergence není v pravém slova smyslu metrkou vzdálenost (proto se nazývá dvergence a ne vzdálenost), neboť není symetrcká. DKL (P Q) není rovna DKL (Q P). Ba co více, KL dvergence nesplňuje an pravdlo trojúhelníkové nerovnost. Pro aplkac DKL v oblast IR lze pouţít např. tvar publkovaný v [26]: KL RDa RDe pt RDa tv t t p RDa log, p RDe kde RDa je aktuální dokument (v našem případě tabulka vstupních záznamů) a RDe je exstující dokument (v našem případě referenční tabulka). p t RDa nt, n trda RDa t, RDa n t, d drde pt RDe, nt, d t drde kde n(t,d) je četnost řetězce t v záznamu d. Konstanta α představuje tzv. Laplaceovské vyhlazení. Felleg Sunter Přístup Fellegho a Suntera řadí [17], stejně jako KL dvergenc do oblast pravděpodobnostních měr podobnost. Jak poznamenává [24], Felleg a Sunter v r představl formální matematcký základ pro spojování záznamů. Základní pohled na tuto teor a její pouţtí pro spárování záznamů ze sčítání ldu v USA a dodatečných průzkumů je popsáno např. v [25]. Metoda uvaţuje dvě populace A a B, jejchţ prvky jsou a a b. Zároveň se předpokládá, ţe některé elementy mají tyto populace společné. Mnoţna uspořádaných dvojc AXB a, b : a A, b B je sjednocením mnoţny M obsahující uspořádané dvojce (a, b), pro které platí a = b a mnoţny U obsahující uspořádané dvojce (a, b) pro které platí a b. Záznamy korespondující s prvky mnoţn A a B jsou označeny a a b. Dále je defnován porovnávací vektor 1 K a, b a, b,..., a b,, jehoţ kaţdý prvek pro = 1,..., K, představuje specfcké porovnání jednotlvých prvků mnoţn A a B (např. porovnání atrbutů pohlaví, příjmení,...). Dále m je defnována jako podmíněná pravděpodobnost a,b za podmínky a bm u jako podmíněná pravděpodobnost a,b, a za podmínky a, bu. Podíl těchto pravděpodobností je věrohodnostní poměr R. Pokud je R > UPPER, 5

6 potom (a,b) jsou navázány. Pokud platí LOWER <= R <= UPPER, pak vazba (a, b) moţná exstuje. Pokud je R < LOWER, pak vazba (a,b) neexstuje. Konstanty UPPER a LOWER jsou určeny poţadovanou mírou chyby. Pro získání maxmálně věrohodných odhadů podmíněných pravděpodobností potřebných k výpočtu R pouţívá [25] např. algortmus EM (Expectaton Maxmzaton). TF-IDF kosínová podobnost Tato metrka podobnost je zaloţená na výpočtu TF- IDF vah pro jednotlvé tokeny. Pro výpočet TF-IDF 9 tokenu t v daném záznamu uvádí [17] následující vzorec: N TF IDF log 1 1 TF.log Nt Kosínovou podobnost dvou záznamů u a v, pro které jsme vytvořl mnoţny jejch tokenů Su a Sv a spočetl váhy jednotlvých tokenů W(t, Su) a W(t, Sv), lze určt pomocí vzorce Cosne u v Wt, S. Wt, S,. u [17] uvádí příklad, kdy Kosínová podobnost je př aplkac na q-tce pevné délky q = 3, vytvořené z jednotlvých tokenů, munní vůč drobným překlepům a podobnost řetězců Jaccard a Jacard ohodnotí vysokým skóre. Token Jaccard v tomto příkladu rozkládá na mnoţnu q-tc {jac, acc, cca, car, ard} a token Jacard na mnoţnu q-tc {jac, aca, car, ard}. Jarova a Jaro-Wnklerova vzdálenost Podle [14] je Jarova vzdálenost dvou řetězců s1 a s2 dána vzorcem d 1 m m m t j s s, kde m m je počet znaků, které s v obou řetězcích odpovídají, t je počet transpozcí potřebných pro transformac s1 na s2 a s1, s2 jsou délky porovnávaných řetězců. Počet transformací je defnován jako počet neodpovídajících s znaků v řetězc dělený číslem 2. Dva řetězce jsou označeny jako shodné, pokud Jarova vzdálenost nepřesáhne práh defnovaný jako v max s1, s Praktcké pouţtí je moţno demonstrovat na řetězcích s1 = beong, s2 = boeng. Počet odpovídajících s znaků je m = 6, délka obou řetězců je shodně s1 = s2 = 6. Pro transformac s1 na s2 je třeba zaměnt E 9 Token frequency Inverse document frequency za O a O za E. Celkový počet transpozc t je tedy 2 / 2 = 1. B E O I N G B O E I N G d j , Hodnota prahu je 2. Jarova vzdálenost tedy ukazuje na shodu řetězců s1 a s2. Wllam Wnkler (spolutvůrce rozšíření Jarovy vzdálenost) však ve své stat [24] mapující v r stav bádání a problémy výzkumu v oblast spojování záznamů defnuje tuto vzdálenost poněkud odlšně. Uvádí vzorec ve tvaru Φj(s1, s2) = 1/3 (#common/str_len1 + #common/str_len2 + 0,5 #transpostons/#common). Jarova-Wnklerova vzdálenost se od původní Jarovy lší zakomponováním tzv. škálovacího faktoru p, který zvýhodňuje shodu prvních l znaků. Vzorec pro výpočet má tedy tvar d w j j d lp 1 d. Zpravdla je škálovací faktor nastaven na 0,1. Strng edt dstance a Levenshtenova vzdálenost Vzdálenost ed (s1, s2) dvou řetězců s1 a s2 je mnmální počet operací smazání, vloţení a záměna potřebný k transformac s1 na s2 normalzovaný maxmem z délek s1 a s2. Výpočet ed v podstatě vychází z Levenshtenovy vzdálenost tak, jak je popsán v [18]. Pouze j normuje maxmem délek porovnávaných řetězců. Samotné pouţtí ed jako krtéra pro záměnu porovnávaného záznamu za referenční není vhodné a vede často k chybám. Jako příklad je moţné uvést porovnání vstupního vzorku I3 s referenčním záznamy. Jak je patrné, krtérum ed vede k závěru, ţe vstupní vzorek I3 je nejblíţe k referenčnímu záznamu R3, neboť shledává méně nákladnou transformac tokenu bon na token boeng neţ transformac tokenu company na token corporaton. Ignoruje totţ fakt, ţe boeng a jsou tokeny s mnohem vyšší vypovídací hodnotou neţ je token corporaton. s1 = company 6

7 s2 = corporaton c o m p a n y c o r p o r a t o n ed 7 11 s s 0, 64 1, 2 s1 = bon s2 = boeng b o n b o e n g ed 3 6 s s 0, 5 1, 2 Aplkac ed na q-tce pro přblţný jon přes proměnné typu strng podrobně popsuje např. [7]. Př vytváření q-tc ale postupuje jným způsobem, neţ [17] u Kosínové podobnost a [1] u fms. Q-tce na počátku a konc řetězce mají kratší délku neţ q, a proto je doplňuje na délku q znaky # (na začátku) a $ (na konc). Současně doplňuje q-tce o nformac o pořadí a takto vznklou uspořádanou dvojc nazývá pozční q-tce. Rozklad řetězce Boeng by tedy byl mnoţnou pozčních q-tc {(1, ##b), (2, #bo), (3, boe), (4, oe), (5, en), (6, ng), (7, ng$), (8, g$$)} Následně [7] provádí dvoukrokové porovnávání, kdy v prvním kroku jednoduchým fltrem elmnují vazby ne chybně zamítnuté a v druhém kroku elmnují chybně označené vazby pomocí zakomponování ed do where podmínky. Tento postup lze aplkovat pouze v prostředí databázových systémů, které podporují uţvatelem defnované funkce (např. Oracle a DB2). Query pro druhý krok by tedy vypadalo např. takto: SELECT a.nazev, b.nazev FROM a, b WHERE edt_dstance(a.nazev, b.nazev, k) K je zde mnmální prahová hodnota pro ed. Nutno poznamenat, ţe vzhledem k tomu, ţe relační engny př spuštění tohoto query vykonají ed aţ jako fltr po jeho proběhnutí, je tento postup značně neefektvní. Fuzzy Smlarty Functon (fms) [1] zavádí funkc FMS (Fuzzy match smlarty), jejíţ pouţtí je jak unverzální v rámc všech domén, tak odstraňuje nedostatky ED tím, ţe pohlíţí na řetězec jako na sekvenc tokenů a uvaţuje rozdílnou důleţtost jednotlvých tokenů. Pro určení důleţtost jednotlvých tokenů pouţívá IDF (Inverse document frequency). Tato metrka vychází z předpokladu, ţe důleţtost tokenů závsí na jeho četnost výskytu v referenčních datech. FMS zároveň uvaţuje případy, kdy vstupní záznamy jsou chybné a umí se s takovou stuací vypořádat. Funkce vah IDF Ignoranc ed vůč důleţtost jednotlvých tokenů lze řešt zakomponováním jejch váhy. Pro tento účel [1] pouţívá modfkac IDF (Inverse Document Frequency), kterou lze spočíst jako logartmus poměru celkového počtu záznamů a četnost konkrétního tokenu v konkrétním sloupc 10, tedy podle následujícího vzorce. R wt, IDF t, log freq t, Náklady transformace Pokud uvaţujeme transformační operace nahrazení tokenu, vloţení tokenu a smazání tokenu, můţeme defnovat s ohledem na jednotlvé typy transformačních operací mnmální náklady transformace mnoţny tokenů u[] na v[]. Součet transformačních nákladů pro všechny mnoţny tokenů (tedy atrbuty) představuje celkové náklady transformace datového záznamu u na referenční záznam v. Celkové transformační náklady tedy lze vyjádřt pomocí následujícího vzorce: u, v tc u v tc, [1] stanovuje hodnoty pro jednotlvé typy transformačních nákladů různým způsoby. Náklady na nahrazení tokenu t1 v mnoţně tok(u[]) tokenem t2 z mnoţny tok(v[]) lze vyjádřt jako součn vzdálenost řetězců ed(t1,t2) a váhy tokenu t1 w(t1,). Náklady na vloţení nového tokenu t do mnoţny tokenů u[] jsou součnem konstanty cns a váhy tokenu t w(t,). Konstantu cns [1] nazývá faktorem vloţení tokenu a přřazuje jí hodnotu z ntervalu <0;1>. Náklady na smazání tokenu t z mnoţny tokenů u[] odpovídají jeho váze w(t,). Jako příklad je moţné uvést kalkulac transformačních nákladů pro převod vstupního záznamu u[beong Corporaton, Seattle, WA, 98004] na referenční záznam v[boeng Company, Seattle, WA, 98004]. Tato operace vyţaduje dvě dílčí transformace: nahrazení beong za boeng a 10 Obecně logartmus podílu celkového počtu dokumentů v databáz a počtu dokumentů obsahujících daný výraz. 7

8 nahrazení corporaton za company. Celkové transformační náklady jsou tedy součtem transformačních nákladů těchto dvou operací. ed( beong, boeng ) = 0,33 w( beong,1) = log (3 / 1) = 0,477 ed( corporaton, company ) = 0,64 w( corporaton,1) = log (3 / 1) = 0,477 tc(u,v) = tc(u[1],v[1]) = ed( beong, boeng ) * w( beong,1) + ed( corporaton, company ) * w( corporaton,1) = 0,33 * 0, ,64 * 0,477 = 0,463 Metrka fuzzy match podobnost ( fms) Funkc fuzzy match podobnost fms(u, v) vstupního záznamu u a referenčního záznamu v [1] defnuje následujícím vzorcem: fms u, v u, v tc 1 mn, 1, kde w u tc(u, v) jsou mnmální transformační náklady vstupního záznamu u na referenční záznam v a w(u) je součet vah všech tokenů v mnoţně tokenů tok(u) vstupního záznamu u. V případě vstupního záznamu u[beong Corporaton, Seattle, WA, 98004] a referenčního záznamu v[boeng Company, Seattle, WA, 98004] je tedy výpočet fms(u, v) následující: tc(u, v) = 0,463 w(u) = 0, , , ,125 = 1,015 fms(u, v) = 1 mn (0,463 / 1,015; 1) = 0,544 Vztah fms a ed Následující přeps vztahu pro určení vzdálenost řetězců ed(u, v) zvýrazňuje vlv mplctního přřazení vah jednotlvých tokenů a umoţňuje lepší srovnání pouţtí ed (u, v) a fms. Lu Lu, u Lu v ed u, max, v ed u, v max Lv L(u) představuje součet délek všech tokenů ve vstupním záznamu u (obdobně pro referenční záznam v). Z upraveného výrazu je patrné, ţe ed mplctně přřazuje váhy jednotlvým tokenům přímo úměrně jejch délce, tedy proporconálně k poměru max( u, v ) / L(u). Delší tokeny mají tedy př pouţtí ed automatcky vyšší váhu. Aproxmace fms [1] dále formuluje aproxmac fms pro případy, kdy můţe být různé pořadí tokenů ve vstupním a referenčním záznamu a je tedy umoţněno porovnat kaţdý token ve vstupním záznamu s kaţdým tokenem v kaţdém referenčním záznamu. Míra fms apx tvoří horní hranc fms. Záznamy, které se lší pouze pořadím tokenů v rámc atrbutů jsou fms apx vyhodnoceny jako dentcké. Algortmus fms apx spočívá v aplkac fms na mnoţny q-tc QG q (s) vznklé rozloţením původních tokenů na sub-řetězce dané délky. Např. pro q = 3 a token s = corporaton je QG3( corporaton ) mnoţna {cor, orp, rpo, por, ora, rat, at, to, on}. Do výpočtu fms apx ale vstupují pouze q-tce, které představují tzv. mnhash sgnaturu, která je pro mnoţnu řetězců S defnována jako vektor mhs mh1 S,..., mh H S, jehoţ -tý koordnát je defnován výrazem mh S a arg mn h. as [1] přrovnává výpočet mn-hash sgnatury k házení špkam na terč do zásahu elementu z S. Aproxmac fms pro záznamy u a v defnuje [1] pomocí následujícího výrazu: apx 1 fms u, v wt. wu ttoku 2. Max smmh QG t, QG r d q, kde rtok v q sm mh QG t, QG r je tzv. mn-hash podobnost dvou q-tc vytvořených ze záznamů u a v, dq = (1-1/q). Mn-hash podobnost dvou tokenů t1 a t2 lze defnovat výrazem: sm mh 1 H H t, t Imh QGt mh QGt Výpočet fms apx bude nejlépe demonstrovat na příkladu. Předpokládejme délku q-tc q = 3, maxmální počet q-tc H = 2. Dále předpokládejme vstupní záznam v [Company Beong, Seattle, NULL, 98004] a referenční záznam u[boeng Company, Seattle, WA, 98004], tedy dva záznamy lšící se pouze pořadím tokenů v prvním sloupc, přesmyčkou Boeng za Beong a chybějící zkratkou státu Washngton. Předpokládejme, ţe mn-has sgnatura pro vstupní záznam u je [eo, ng], [com, pan], [sea, ttl], [980, 004] a pro referenční záznam v je [oe, ng], [com, pan], [sea, ttl], [wa], [980, 004]. Dále předpokládejme váhy jednotlvých tokenů ve vstupním záznamu w(u) = 0,25 + 0, = 3,75. Fms apx gnoruje náklady na vloţení tokenu WA a rovněţ gnoruje změnu pořadí tokenů v prvním atrbutu. V tomto příkladu s tedy neodpovídají pouze tokeny Boeng a Beong. fms apx (u, v) je tedy rovna 1 / w(u) * w(beong) * (2/3 * 0,5 + (1 1/3)) = 3,75 / 3,75 * 1 = 1. Fms apx tedy označla oba řetězce za totoţné

9 Další možnost optmalzace použtí ED Ignorování samohlásek [13] doporučuje př procesu porovnávání a slučování vynechání samohlásek v porovnávaných řetězcích. Zdůvodňuje to častým chybam vznklým vlvem špatného hláskování. V anglckém jazyku zní např. Charle stejně jako Charley. Př vynechání samohlásek by takto posouzení vzdálenost řetězců pomocí ed ukazovalo jejch naprostou shodu. c h a r l e c h a r l e y 0 0 X 0 0 X X Kódování pomocí algortmu SOUNDEX Další, poněkud komplkovanější cestou optmalzace ed, kterou okrajově zmňuje [13], je pouţtí algortmu SOUNDEX. Jedná se o fonetcký algortmus (vz. např. [14], [15]), tj. algortmus, který ndexuje slova podle jejch výslovnost. Konkrétně algortmus SOUNDEX stejným způsobem kóduje slova, která mají velm podobnou výslovnost. Algortmus byl vyvnut specelně pro anglofonní prostředí a jeho pouţtí v jném prostředí by s vyţádalo jeho přzpůsobení. Přesný postup algortmu je následující: 1. Zachování 1. písmene řetězce 2. Smazání písmen A,E,H,I,O z řetězce 3. Nahrazení zbývajících souhlásek čísly podle následující tabulky: Původní písmeno B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D, T 3 L 4 M, N 5 R 6 Nahrazení číslem 4. Pokud je více písmen zakódováno stejně, smaţe všechna taková kromě prvního. Dále uvádím několk příkladů pouţtí algortmu SOUNDEX na konkrétních dvojcích řetězců. V prvním příkladu algortmus SOUNDEX 11 zafunguje v anglofonním prostředí př záměně řetězců SMITH a SMYTHIE a označí je za shodné (otázkou však je, zda správně). SMITH S53 = SMYTHIE S53 V druhém příkladu ale neoznačí za totoţné řetězce KAROL a CAROL (vz. 1. bod postupu algortmu uvedeného výše). Zde by pouţtí výsledku algortmu SOUNDEX jako vstupu pro ed vedlo k výsledku 1/3, zatímco aplkace ed na původní řetězce k lepšímu výsledku 1/5. KAROL K64!= CAROL C64 Ve třetím příkladu algortmus vede k totoţnému kódování v češtně často zaměňovaných slov švec a ševc 12. ŠEVC S12 = ŠVEC S12 Stejně tak jako ve čtvrtém a pátém příkladu shodně zakóduje podobně znějící dvojce slov kosa / koza a lup / lub. KOSA K2 = KOZA K2 LUP L1 = LUB L1 V šestém příkladu algortmus zafunguje na dvojc českých jmen IVANA a IVONA. IVANA I15 = IVONA I15 Přesto otázka reálné pouţtelnost algortmu SOUNDEX pro optmalzac fuzzy match zůstává otevřená. Bylo by totţ nutné předem určt, na která konkrétní slova se má pouţít. V této souvslost je nutné upozornt, ţe v [13] je tato moţnost uvedena pouze jako okrajová poznámka s tím, ţe samotného autora tohoto článku pokusy s algortmem SOUNDEX přílš nepřesvědčly ctuj: o záruce jeho uţtečnost. Přřazení vah jednotlvým sloupcům [1] jako jedno z doplňujících vylepšení aplkace fms apx uvádí moţnost doplnění stávajících vah zaloţených na IDF subjektvním vaham důleţtost jednotlvých atrbutů. Nové váhy pouţté ve výpočtu fms jsou tedy součnem původních IDF vah tokenů w(t) a sloupcových vah W. 11 Pro tento příklad byla pouţta mplementace algortmu SOUNDEX v nástroj SAS Můj kolega z práce se jmenuje Ševc a často je oslovovaán jako pan Švec. 9

10 Výkonnostní problémy př užtí Fuzzy Match Vzájemné porovnávání tokenů (nebo jejch q-tc) můţe v reálné stuac představovat značný výkonnostní problém. Navní algortmus prohledává př aplkac měr podobnost referenční relac R a srovnává kaţdý její záznam se vstupním záznamem u. V rámc optmalzace je však vhodné vytvořt na referenční relac ndex. Jak ovšem poznamenává [1], přímou aplkac klasckých B+-tree ndexů nelze uvaţovat, neboť je lze pouţít pouze, pokud předpokládáme přesnou shodu srovnávaných atrbutů. Použtí M-tree ndexu Pouţtí M-tree ndexu v případě "podobnostního dotazování" v multmedálních databázových systémech, zaměřujících se na jednotnou správu záznamu hlasu, vdea, obrazu, textu a numerckých dat uvádí [23]. M-tree vytváří partton objektů na základě jejch relatvní vzdálenost měřené pomocí lbovolné metrky 13. Pro vyhodnocení podobnost uvaţuje [23] pouţtí rozsahu (range) a algortmu k - nejblţších sousedů. Range query vrací všechny ndexované objekty, jejchţ vzdálenost od daného objektu je menší nebo rovna zadané maxmální vzdálenost. Query pouţívající algortmus k - nejblţších sousedů Negatvem pouţtí této metody (stejně jako např. R-tree ndexu) je její nepouţtelnost v prostředí klasckých datových skladů. V podstatě lze tímto způsobem vytvořt ndex nad lbovolným daty, pro něţ lze spočíst metrku podobnost. Použtí Error tolerant ndexu Efektvní řešení ndexace př pouţtí fms apx nabízí [1] v podobě tzv. Error tolerant ndexu (ETI). ETI je vlastně pomocná tabulka, která přřazuje kaţdé mnhash sgnatuře její pozc v rámc atrbutu, číslo atrbutu, absolutní četnost v rámc referenční relace R a mnoţnu dentfkátorů řádků v rámc referenční relace, které sgnaturu obsahují 14. Nad touto tabulkou je poté vytvořen cluster ndex přes atrbuty Q-tce, Koordnát a Sloupec. Rozklad vstupního řetězce u na mn-hash sgnatury o q=3, H=2 Beong [eo, ng] S 1, S 2 Company [com, pan] S 3, S 4 Seattle [sea, ttl] S 5, S 6 13 M-tree je po této stránce plně parametrzované a konkrétní funkce pouţtá jako metrka je pro něj černou skříňkou. 14 Realzace tabulky ETI pomocí standardních SQL dotazů s samozřjemě vyţaduje vytvoření mezkroku [Q-tce, Koordnát, Sloupec, Td]. WA [wa] S [980, 004] S 8, S 9 Příklad vytvoření ETI pro celou referenční relac R Q-tce Koordnát Sloupec Freq Td lst oe {R1} ng {R1} com {R1,R3} pan {R1,R3} bon {R2} orp {R2} at {R2} sea {R1,R2,R3} ttl {R1,R2,R3} wa {R1,R2,R3} {R1,R2,R3} {R1} {R2} {R3} Postup Fuzzy Match má tedy následující podobu: 1. Incalzace hash tabulky pro td skóre; Korgující člen je nastaven na nulu 2. Provedení tokenzace vstupního záznamu u a následně odvozeny mn-hash sgnatury ze všech vznklých tokenů 3. Přřazení vahám jednotlvým tokenům; RemWt = součet všech vah 4. Nastavení prahové hodnoty jako součnu původního prahu mnmální shody c a RemWt 5. Pro kaţdou mn-hash sgnaturu s pořadím 1 v daném tokenu a sloupc upravt korgující člen += váha příslušného tokenu * (1-1/q) 6. Pro kaţdou mn-hash sgnaturu proveden lookup do ETI tabulky 7. Pro kaţdou mn-hash sgnaturu proveden update td skóre. Skóre exstujících td je zvýšeno o váhu dané q-tce spočtené jako podíl váhy tokenu a délky q-tce, pokud pro ní v ETI tabulce exstuje td. Pokud je RemWt vyšší nebo rovno prahové hodnotě, 10

11 jsou vloţeny nové td se skóre odpovídající podílu váhy tokenu a délce dané q-tce. 8. Pro kaţdou mn-hash sgnaturu RemWt -= váha q-tce 9. Vybrat všechny záznamy z referenční relace R, pro td se skóre >= c korekční člen 10. Pomocí f porovnání kaţdého takového referenčního záznamu se vstupním záznamem u 11. Získání sady nejvýše K referenčních záznamů s podobností nad w(u)*c. Další optmalzac pouţtí ETI [1] shledává v pouţtí tzv. optmstckého zkratování (angl. optmstc short crcutng), které radkálně snţuje počet lookupů do tabulky ETI tím, ţe zohledňuje váhy jednotlvých tokenů. Váha jednotlvým mn-hash sgnaturám je určena jako podíl váhy tokenu a délky příslušné q- tce. Tato váha je pochoptelně shodná v rámc všech mn-hash sgnatur pocházejících z jednoho tokenu. Rozšíření tématu Jný příklad doménově nezávslého řešení uvádí např. [22]. Jedná se o řešení problému elmnace fuzzy duplct v rámc dmenzonálních tabulek datového skladu. Tedy o retrospektvní řešení problémů, které jţ měly být vyřešeny např. v rámc CDI na úrovn Customer Hubu. Hstorcky se pro tento účel pouţívaly buď shodné technky zaloţené na míře vzdálenost, jaké byly prezentovány v této prác výše (např. ed, Kosínový koefcent, apod.), a nebo doménově specfcká pravdla (např. pro deduplkac adres v nástroj frmy Trllum). Vzhledem k chybovost některých popsaných metrk a snaze o vývoj doménově nezávslého řešení, [22] nabízí vlastní algortmus DELPHI (Duplcate ELmnaton n the Presence of HIerarches). Toto řešení vyuţívá herarchcké struktury některých dmenzí a nabízí efektvní grupovací strateg, díky níţ jsou v kaţdé relac porovnávány záznamy pouze s malou skupnou referenčních záznamů. Např. pokud uvaţujeme herarch Název frmy Město Stát Země 15, porovnává např. pouze záznamy v dmenz Stát, pokud odkazují na stejnou Zem, resp. dva záznamy pro různé Země odkazující pouze na jeden Stát. Závěr V dnešní době jţ není zcela pravdvé tvrzení publkované v [7], ţe komerční databázové systémy samy nepodporují tzv. přblţné spojování řetězců (v podstatě další synonymum pro Fuzzy Match) a ţe je 15 Má smysl pro USA, Kanadu, UK. Pro valnou většnu zemí EU by se spíše hodla herarche Název Město Regon Stát. tedy nutné tuto problematku řešt pomocí uţvatelem vytvořených funkcí nebo koupí specalzovaného software (s problémy spojeným s nutnou ntegrací s DB). Pouţtí různých metod pro spojování záznamů v komerčních systémech znázorňuje následující tabulka. Commercal System SQL Server Integraton Servces 2005 OracleBI Warehouse Bulder 10gR2 Pars IBM s Entty Analytc Solutons, QualtyStage Zdroj: [17] Record Lnkage Methodology Fuzzy Lookup; Fuzzy Groupng; uses Error Tolerant Index match-merge rules; determnstc and probablstc matchng probablstc matchng (nformaton content); mult-pass blockng; rulesbased mergng Př aplkac Fuzzy Match je ale vţdy nutné pamatovat, ţe spolehlvost této metody dosud není přes všemoţné snahy výzkumníků vţdy 100%. V oblast aplkace Fuzzy Match exstují stále určté výzvy, kterým bych se rád dále věnoval ve své dsertační prác : 1. [17] upozorňuje na absenc srovnávacích studí jednotlvých algortmů z hledska jejch kvalty. Vyzývá k vývoj standardních benchmarků v této oblast. 2. Vývoj modfkace algortmu SOUNDEX pouţtelný pro shodné zakódování podobně znějících slov v českém prostředí s důsledným vymezením případů, kdy tento algortmus lze aplkovat. 3. Další výzvou je vyšší míra automatzace aplkace algortmů, bez nutnost občasného ldského rozhodnutí. Např. př moţné shodné hodnotě funkce podobnost pro více referenčních záznamů. Reference [1] Chaudhur S., Ganjam K., Gant V., Motwan R.: Robust and Effcent Fuzzy Match for Onlne Data Cleanng, SIGMOD 2003, June 9-12, 2003 San Dego, CA. [2] Wang, R,Y., Zad, M., Lee, Y.,W.: Data Qualty, The Kluwer Internatonal Seres on Advances n Database Systems Volume 23, Sprnger, Berln, [3] Král J., Ţemlčka M.: Kvalta dat a nformací základní omezení IT ve veřejné správě, Systems Integraton 2006, str [4] Merram-Webster Onlne Dctonary, výklad pojmu fuzzy: 11

12 [5] Rubens N. O.: The Applcatonn of Fuzzy Logc to The Constructon of The Rankng Functon of Informaton Retreval Systems, Computer Modellng and New Technologes, 2006, Vol. 10., No. 1, str [6] Novák V.: Základy fuzzy modelování, BEN techncká lteratura, Praha 2000, ISBN [7] Gravano L., Iperots P. G., Jagadsh H. V., Koudas N., Muthukrshnan S., Srvastava D.: Approxmate strng jons n a database (almost) for free. In Proceedngs of VLDB, Roma, Italy. September [8] Navarro G., Baeza-Yates R., Sutnen E., Tarho J.: Indexng methods for approxmate strng matchng. IEEE Data Engneerng Bulletn, 24(4):19 24,2001. [9] Dyché J., Levy E: Customer Data Integraton Reachng a Sngle Verson of Truth, John Wley & Sons, Inc., 2006, ISBN [10] Eckerson W. W.: Data Warehousng Specal Report: Data qualty and the bottom lne, 2002, [11] Dorr B., Herbert P.: Data Proflng: Desgnng the Blueprnt for Improved Data Qualty, SUGI 30, Data Warehousng, Management and Qualty, Paper , [12] Englsh L.: Improvng Data Warehouse and Busness Informaton Qualty Methods for Reducng Costs and Increasng Profts, John Wley & Sons, 1999, ISBN: [13] Patrdge Ch.: The Fuzzy Feelng SAS Provdes: Electronc Matchng of Records wthout Common Keys, Observatons the techncal journal for SAS Software Users, 1998, SAS Insttute Inc., Cary. [14] Wkpeda The free encyclopeda: [15] SAS Insttute Inc SAS OnlneDoc Cary, NC: SAS Insttute Inc. [16] Search Engne Dctonary A Complete Gude to Search Engne Termnology, výklad pojmu fuzzy matchng ( ): [17] Srvastava D.: Record Lnkage: A Database Approach, AT&T Labs-Research: [18] [19] Broder A.: On the resemblance and contanment of documents. In Compresson and Complexty of Sequences (SEQUENCES 97), [20] Cohen E.: Sze estmaton framework wth applcatons to transtve closure and reachablty. Journal of Computer and System Scences, [21] Cohen W.: Integraton of Heterogeneous Databases Wthout Common Domans Usng Queres Based on Textual Smlarty. In Proceedngs of ACM SIGMOD, Seattle, WA, June [22] Ananthakrshna R., Chaudhur S., Gant V.: Elmnatng fuzzy duplcates n data warehouses. In Proceedngs of VLDB, Hong Kong, [23] Cacca P., Patella M., Zezula P.: M-Tree: An effcent access method for smlarty search n metrc spaces. VLDB [24] Wnkler W.: The state of record lnkage and current research. Statstcs of Income Dvson, Internal Revenue Servce Publcaton R99/04 [25] Wnkler W. E., Thbaudeau Y.: An Applcaton of the Felleg-Sunter Model of Record Lnkage to the 1990 U. S. Decennal Census, U. S. Burreau fo Census, [26] Balle M., Azzopard L, Crestan F.: Towards Better Measures: Evaluaton of Estmated Resource Descrpton Qualty For Dstrbuted IR. 12

POROVNÁNÍ MEZI SKUPINAMI

POROVNÁNÍ MEZI SKUPINAMI POROVNÁNÍ MEZI SKUPINAMI Potřeba porovnání počtů mez určtým skupnam jednců např. porovnání počtů onemocnění mez kraj nebo okresy v prax se obvykle pracuje s porovnáním na 100.000 osob. Stuace ale nebývá

Více

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz Markéta Brázdová 1 Lokace odbavovacího centra nákladní pokladny pro víkendový provoz Klíčová slova: odbavování záslek, centrum grafu, vážená excentrcta vrcholů sítě, časová náročnost odbavení záslky, vážená

Více

Posuzování výkonnosti projektů a projektového řízení

Posuzování výkonnosti projektů a projektového řízení Posuzování výkonnost projektů a projektového řízení Ing. Jarmla Ircngová Západočeská unverzta v Plzn, Fakulta ekonomcká, Katedra managementu, novací a projektů jrcngo@kp.zcu.cz Abstrakt V současnost je

Více

Optimalizační přístup při plánování rekonstrukcí vodovodních řadů

Optimalizační přístup při plánování rekonstrukcí vodovodních řadů Optmalzační přístup př plánování rekonstrukcí vodovodních řadů Ladslav Tuhovčák*, Pavel Dvořák**, Jaroslav Raclavský*, Pavel Vščor*, Pavel Valkovč* * Ústav vodního hospodářství obcí, Fakulta stavební VUT

Více

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu 6. Demonstrační smulační projekt generátory vstupních proudů smulačního modelu Studjní cíl Na příkladu smulačního projektu představeného v mnulém bloku je dále lustrována metodka pro stanovování typů a

Více

Solventnost II. Standardní vzorec pro výpočet solventnostního kapitálového požadavku. Iva Justová

Solventnost II. Standardní vzorec pro výpočet solventnostního kapitálového požadavku. Iva Justová 2. část Solventnost II Standardní vzorec pro výpočet solventnostního kaptálového požadavku Iva Justová Osnova Úvod Standardní vzorec Rzko selhání protstrany Závěr Vstupní údaje Vašíčkovo portfolo Alternatvní

Více

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10 SIMULACE numercké řešení dferencálních rovnc smulační program dentfkace modelu Numercké řešení obyčejných dferencálních rovnc krokové metody pro řešení lneárních dferencálních rovnc 1.řádu s počátečním

Více

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2 Dokumentace k projektu pro předměty IZP a IUS Iterační výpočty projekt č.. lstopadu 1 Autor: Mlan Setler, setl1@stud.ft.vutbr.cz Fakulta Informačních Technologí Vysoké Učení Techncké v Brně Obsah 1 Úvod...

Více

Hodnocení účinnosti údržby

Hodnocení účinnosti údržby Hodnocení účnnost ekonomka, pojmy, základní nástroje a hodnocení Náklady na údržbu jsou nutné k obnovení funkce výrobního zařízení Je potřeba se zabývat ekonomckou efektvností a hodnocením Je třeba řešt

Více

Vícekriteriální rozhodování. Typy kritérií

Vícekriteriální rozhodování. Typy kritérií Vícekrterální rozhodování Zabývá se hodnocením varant podle několka krtérí, přčemž varanta hodnocená podle ednoho krtéra zpravdla nebývá nelépe hodnocená podle krtéra ného. Metody vícekrterálního rozhodování

Více

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST Abstrakt ANALÝZA ZKA A CTLOST JAKO SOUČÁST STUDE POVEDTELNOST 1. ČÁST Jří Marek Úspěšnost nvestce závsí na tom, jaké nejstoty ovlvní její předpokládaný žvotní cyklus. Pomocí managementu rzka a analýzy

Více

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové. Příprava na cvčení č.1 Čísla a artmetka Číselné soustavy Obraz čísla A v soustavě o základu z: m A ( Z ) a z (1) n kde: a je symbol (číslce) z je základ m je počet řádových míst, na kterých má základ kladný

Více

Přemysl Žiška, Pravoslav Martinek. Katedra teorie obvodů, ČVUT Praha, Česká republika. Abstrakt

Přemysl Žiška, Pravoslav Martinek. Katedra teorie obvodů, ČVUT Praha, Česká republika. Abstrakt ALGORITMUS DIFERENCIÁLNÍ EVOLUCE A JEHO UŽITÍ PRO IDENTIFIKACI NUL A PÓLŮ PŘE- NOSOVÉ FUNKCE FILTRU Přemysl Žška, Pravoslav Martnek Katedra teore obvodů, ČVUT Praha, Česká republka Abstrakt V příspěvku

Více

ROZHODOVÁNÍ VE FUZZY PROSTŘEDÍ

ROZHODOVÁNÍ VE FUZZY PROSTŘEDÍ ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ Ročník LV 24 Číslo 6, 2007 ROZHODOVÁNÍ VE FUZZY PROSTŘEDÍ V. Konečný Došlo:

Více

MODELOVÁNÍ A SIMULACE

MODELOVÁNÍ A SIMULACE MODELOVÁNÍ A SIMULACE základní pojmy a postupy vytváření matematckých modelů na základě blancí prncp numerckého řešení dferencálních rovnc základy práce se smulačním jazykem PSI Základní pojmy matematcký

Více

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek 25. KONFERENCE O GEOMETRII A POČÍTAČOVÉ GRAFICE Ivana Lnkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE Abstrakt Příspěvek prezentuje B-splne křvku a Coonsovu, Bézerovu a Fergusonovu kubku jako specální případy

Více

ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU

ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU AALÝZA RIZIKA A JEHO CITLIVOSTI V IVESTIČÍM PROCESU Jří Marek ) ABSTRAKT Príspevek nformuje o uplatnene manažmentu rzka v nvestčnom procese. Uvádza príklad kalkulace rzka a analýzu jeho ctlvost. Kľúčové

Více

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE Jana Valečková 1 1 Vysoká škola báňská-techncká unverzta Ostrava, Ekonomcká fakulta, Sokolská

Více

Statistická šetření a zpracování dat.

Statistická šetření a zpracování dat. Statstcká šetření a zpracování dat. Vyjadřovací prostředky ve statstce STATISTICKÉ TABULKY Typckým vyjadřovacím prostředkem statstky je číslo formalzovaným nástrojem číselného vyjádření je statstcká tabulka.

Více

Využití nástrojů GIS při analýze vztahů socio-ekonomických faktorů a úrovně sociální péče

Využití nástrojů GIS při analýze vztahů socio-ekonomických faktorů a úrovně sociální péče Využtí nástrojů GIS př analýze vztahů soco-ekonomckých faktorů a úrovně socální péče Renata Klufová Katedra aplkované matematky a nformatky, Ekonomcká fakulta JU, Studentská 13 370 05 České Budějovce,

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Závslost příčnná (kauzální). Závslostí pevnou se označuje případ, kdy výskytu jednoho jevu nutně odpovídá výskyt druhé jevu (a často naopak). Z pravděpodobnostního hledska

Více

REGRESNÍ ANALÝZA. 13. cvičení

REGRESNÍ ANALÝZA. 13. cvičení REGRESNÍ ANALÝZA 13. cvčení Závslost náhodných velčn Závslost mez kvanttatvním proměnným X a Y: Funkční závslost hodnotam nezávsle proměnných je jednoznačně dána hodnota závslé proměnné. Y=f(X) Stochastcká

Více

ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB. Vladimír Hanta 1, Ivan Gros 2

ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB. Vladimír Hanta 1, Ivan Gros 2 ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB Vladmír Hanta 1 Ivan Gros 2 Vysoká škola chemcko-technologcká Praha 1 Ústav počítačové a řídcí technky 2 Ústav

Více

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

Monte Carlo metody Josef Pelikán CGG MFF UK Praha. Monte Carlo metody 996-7 Josef Pelkán CGG MFF UK Praha pepca@cgg.mff.cun.cz http://cgg.mff.cun.cz/~pepca/ Monte Carlo 7 Josef Pelkán, http://cgg.ms.mff.cun.cz/~pepca / 44 Monte Carlo ntegrace Odhadovaný

Více

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky Obsah přednášky. Úvod. Termnologe 3. Základní dělení 4. Prncp tvorby, prořezávání a použtí RS 5. Algortmus ID3 6. C4.5 7. CART 8. Shrnutí A L G O RI T M Y T E O R I E Stromové struktury a RS Obsah knhy

Více

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacn_a_regresn_analyza jsme řešl rozdíl mez korelační a regresní analýzou. Budeme se teď věnovat pouze lneárnímu vztahu dvou velčn, protože je nejjednodušší

Více

Attitudes and criterias of the financial decisionmaking under uncertainty

Attitudes and criterias of the financial decisionmaking under uncertainty 8 th Internatonal scentfc conference Fnancal management of frms and fnancal nsttutons Ostrava VŠB-TU Ostrava, faculty of economcs,fnance department 6 th 7 th September 2011 Atttudes and crteras of the

Více

Metody volby financování investičních projektů

Metody volby financování investičních projektů 7. meznárodní konference Fnanční řízení podnků a fnančních nsttucí Ostrava VŠB-T Ostrava konomcká fakulta katedra Fnancí 8. 9. září 00 Metody volby fnancování nvestčních projektů Dana Dluhošová Dagmar

Více

APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY

APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY APPLICATION OF METHODS MULTI-CRITERIA DECISION FOR EVALUATION THE QUALITY OF PUBLIC TRANSPORT Ivana Olvková 1 Anotace:

Více

Dopravní plánování a modelování (11 DOPM )

Dopravní plánování a modelování (11 DOPM ) Department of Appled Mathematcs Faculty of ransportaton Scences Czech echncal Unversty n Prague Dopravní plánování a modelování (11 DOPM ) Lekce 5: FSM: rp dstrbuton Prof. Ing. Ondře Přbyl, Ph.D. Ing.

Více

Energie elektrického pole

Energie elektrického pole Energe elektrckého pole Jž v úvodní kaptole jsme poznal, že nehybný (centrální elektrcký náboj vytváří v celém nekonečném prostoru slové elektrcké pole, které je konzervatvní, to znamená, že jakýkolv jný

Více

NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT

NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT J. Tuma Summary: The paper deals wth dfferentaton and ntegraton of sampled tme sgnals n the frequency doman usng the FFT and

Více

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d Korelační energe Referenční stavy Energ molekul a atomů lze vyjádřt vzhledem k různým referenčním stavům. V kvantové mechance za referenční stav s nulovou energí bereme stav odpovídající nenteragujícím

Více

Validation of the selected factors impact on the insured accident

Validation of the selected factors impact on the insured accident 6 th Internatonal Scentfc Conference Managng and Modellng of Fnancal Rsks Ostrava VŠB-TU Ostrava, Faculty of Economcs,Fnance Department 0 th th September 202 Valdaton of the selected factors mpact on the

Více

Klasifikace a predikce. Roman LUKÁŠ

Klasifikace a predikce. Roman LUKÁŠ 1/28 Klasfkace a predkce Roman LUKÁŠ 2/28 Základní pomy Klasfkace = zařazení daného obektu do sté skupny na základě eho vlastností Dvě fáze klasfkace: I. Na základě trénovacích vzorů (u nchž víme, do aké

Více

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ Abstrakt Martn Cupal 1 Prncp tvorby tržní ceny nemovtost je sce založen na tržní nabídce a poptávce, avšak tento trh je značně nedokonalý. Nejvíce ovlvňuje

Více

Simulační metody hromadné obsluhy

Simulační metody hromadné obsluhy Smulační metody hromadné osluhy Systém m a model vstupy S výstupy Systém Část prostředí, kterou lze od jeho okolí oddělt fyzckou neo myšlenkovou hrancí Model Zjednodušený, astraktní nástroj používaný pro

Více

LOGICKÉ OBVODY J I Ř Í K A L O U S E K

LOGICKÉ OBVODY J I Ř Í K A L O U S E K LOGICKÉ OBVODY J I Ř Í K A L O U S E K Ostrava 2006 Obsah předmětu 1. ČÍSELNÉ SOUSTAVY... 2 1.1. Číselné soustavy - úvod... 2 1.2. Rozdělení číselných soustav... 2 1.3. Polyadcké číselné soustavy... 2

Více

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC 25 MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC V této kaptole se dozvíte: jak lze obecnou soustavu lneárních rovnc zapsat pomocí matcového počtu; přesnou formulac podmínek řeštelnost soustavy lneárních rovnc

Více

Transformace dat a počítačově intenzivní metody

Transformace dat a počítačově intenzivní metody Transformace dat a počítačově ntenzvní metody Jří Mltký Katedra textlních materálů, Textlní fakulta, Techncká unversta v Lberc, Lberec, e- mal jr.mltky@vslb.cz Mlan Meloun, Katedra analytcké cheme, Unversta

Více

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel

Více

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina 3 VBRANÉ MODEL NÁHODNÝCH VELIČIN 3. Náhodná velčna Tato kaptola uvádí stručný pops vybraných pravděpodobnostních modelů spojtých náhodných velčn s důrazem na jejch uplatnění př rozboru spolehlvost stavebních

Více

Databázové systémy. Datová integrita + základy relační algebry. 4.přednáška

Databázové systémy. Datová integrita + základy relační algebry. 4.přednáška Databázové systémy Datová integrita + základy relační algebry 4.přednáška Datová integrita Datová integrita = popisuje pravidla, pomocí nichž hotový db. systém zajistí, že skutečná fyzická data v něm uložená

Více

9.12.2009. Metody analýzy rizika. Předběžné hodnocení rizika. Kontrolní seznam procesních rizik. Bezpečnostní posudek

9.12.2009. Metody analýzy rizika. Předběžné hodnocení rizika. Kontrolní seznam procesních rizik. Bezpečnostní posudek 9.2.29 Bezpečnost chemckých výrob N Petr Zámostný místnost: A-72a tel.: 4222 e-mal: petr.zamostny@vscht.cz Analýza rzka Vymezení pojmu rzko Metody analýzy rzka Prncp analýzy rzka Struktura rzka spojeného

Více

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi.

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi. Databáze Základní pojmy Pojem databáze označuje obecně souhrn informací, údajů, dat o nějakých objektech. Úkolem databáze je hlídat dodržení všech omezení a dále poskytovat data při operacích. Objekty

Více

6. blok část C Množinové operátory

6. blok část C Množinové operátory 6. blok část C Množinové operátory Studijní cíl Tento blok je věnován problematice množinových operátorů a práce s množinovými operátory v jazyce SQL. Čtenáři se seznámí s operátory, UNION, a INTERSECT.

Více

Teorie efektivních trhů (E.Fama (1965))

Teorie efektivních trhů (E.Fama (1965)) Teore efektvních trhů (E.Fama (965)) Efektvní efektvní zpracování nových nformací Efektvní trh trh, který rychle a přesně absorbuje nové nf. Ceny II (akcí) náhodná procházka Předpoklady: na trhu partcpuje

Více

Spolehlivost letadlové techniky

Spolehlivost letadlové techniky VYSOKÉ UČ ENÍ TECHNICKÉ V BRNĚ Fakulta strojního nženýrství Prof Ing Rudolf Holub, CSc Doc Ing Zdeněk Vntr, CSc Spolehlvost letadlové technky (elektroncká učebnce) Brno 00 OBSAH PŘEDMLUVA 4 ÚVOD5 STANDARDIZACE

Více

Optimalizace metod pro multimediální aplikace v geodézii v prostředí IP sítí

Optimalizace metod pro multimediální aplikace v geodézii v prostředí IP sítí Acta Montanstca Slovaca Ročník 12 (2007), mmoradne číslo 3, 311-317 Optmalzace metod pro multmedální aplkace v geodéz v prostředí IP sítí Mlan Berka 1 Optmzaton of Methods for Geodetc Data for Multcast

Více

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce . meznárodní konference Řízení a modelování fnančních rzk Ostrava VŠB-TU Ostrava, Ekonomcká fakulta, katedra Fnancí 8. - 9. září 200 Metody vícekrterálního hodnocení varant a ech využtí př výběru produktu

Více

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc. Unverzta Pardubce Fakulta ekonomcko-správní Modelování predkce časových řad návštěvnost web domény pomocí SVM Bc. Vlastml Flegl Dplomová práce 2011 Prohlašuj: Tuto prác jsem vypracoval samostatně. Veškeré

Více

HODNOTA A CENA INFORMACÍ V CESTOVNÍM RUCHU

HODNOTA A CENA INFORMACÍ V CESTOVNÍM RUCHU ABSTRAKT HODNOTA A CENA INFORMACÍ V CESTOVNÍM RUCHU Value and prce of nformaton n toursm Prof. Ing. Ctrad SCHEJBAL, CSc., Dr.h.c. Vysoká škola logstky Přerov, katedra humantních a přírodovědních dscpln

Více

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y 4 Lneární regrese 4 LINEÁRNÍ REGRESE RYCHLÝ NÁHLED DO KAPITOLY Častokrát potřebujete zjstt nejen, jestl jsou dvě nebo více proměnných na sobě závslé, ale také jakým vztahem se tato závslost dá popsat.

Více

APLIKACE MATEMATICKÉHO PROGRAMOVÁNÍ PŘI NÁVRHU STRUKTURY DISTRIBUČNÍHO SYSTÉMU

APLIKACE MATEMATICKÉHO PROGRAMOVÁNÍ PŘI NÁVRHU STRUKTURY DISTRIBUČNÍHO SYSTÉMU APLIKACE MATEMATICKÉHO PROGRAMOVÁNÍ PŘI NÁVRHU STRUKTURY DISTRIBUČNÍHO SYSTÉMU APPLICATION OF MATHEMATICAL PROGRAMMING IN DESIGNING THE STRUCTURE OF THE DISTRIBUTION SYSTEM Martn Ivan 1 Anotace: Prezentovaný

Více

Specifikace, alokace a optimalizace požadavků na spolehlivost

Specifikace, alokace a optimalizace požadavků na spolehlivost ČESKÁ SPOLEČNOST PRO JAKOST Novotného lávka 5, 116 68 Praha 1 47. SEMINÁŘ ODBORNÉ SKUPINY PRO SPOLEHLIVOST pořádané výborem Odborné skupny pro spolehlvost k problematce Specfkace, alokace a optmalzace

Více

Numerické metody optimalizace

Numerické metody optimalizace Numercké metody optmalzace Numercal optmzaton methods Bc. Mloš Jurek Dplomová práce 2007 Abstrakt Abstrakt česky Optmalzační metody představují vyhledávání etrémů reálných funkcí jedné nebo více reálných

Více

Vykazování solventnosti pojišťoven

Vykazování solventnosti pojišťoven Vykazování solventnost pojšťoven Ing. Markéta Paulasová, Techncká unverzta v Lberc, Hospodářská fakulta marketa.paulasova@centrum.cz Abstrakt Pojšťovnctví je fnanční službou zabývající se přenosem rzk

Více

Implementace bioplynové stanice do tepelné sítě

Implementace bioplynové stanice do tepelné sítě Energe z bomasy XVII, 13. 15. 9. 2015 Lednce, Česká republka Implementace boplynové stance do tepelné sítě Pavel MILČÁK 1, Jaroslav KONVIČKA 1, Markéta JASENSKÁ 1 1 VÍTKOVICE ÚAM a.s., Ruská 2887/101,

Více

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese cvčící 9. cvčení 4ST01 Obsah: Jednoduchá lneární regrese Vícenásobná lneární regrese Korelační analýza Vysoká škola ekonomcká 1 Jednoduchá lneární regrese Regresní analýza je statstcká metoda pro modelování

Více

VYUŽÍVANÍ GEOINFORMAČNÍCH TECHNOLOGIÍ V OBDOBÍ REORGANIZACE ÚŘADŮ V RESORTU MPSV

VYUŽÍVANÍ GEOINFORMAČNÍCH TECHNOLOGIÍ V OBDOBÍ REORGANIZACE ÚŘADŮ V RESORTU MPSV VYUŽÍVANÍ GEOINFORMAČNÍCH TECHNOLOGIÍ V OBDOBÍ REORGANIZACE ÚŘADŮ V RESORTU MPSV Tomáš INSPEKTOR 1, Jří HORÁK 1, Igor IVAN 1, Davd VOJTEK 1, Davd FOJTÍK 2, Pavel ŠVEC 1, Luce ORLÍKOVÁ 1,Pavel BELAJ 1 1

Více

EKONOMICKO-MATEMATICKÉ METODY

EKONOMICKO-MATEMATICKÉ METODY . přednáška EKONOMICKO-MATEMATICKÉ METODY Ekonomcko matematcké metody (též se užívá název operační analýza) sou metody s matematckým základem, využívané především v ekonomcké oblast, v oblast řízení a

Více

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21. Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky

Více

radiační ochrana Státní úřad pro jadernou bezpečnost

radiační ochrana Státní úřad pro jadernou bezpečnost Státní úřad pro jadernou bezpečnost radační ochrana DOPORUČENÍ Měření a hodnocení obsahu přírodních radonukldů ve vodě dodávané k veřejnému zásobování ptnou vodou Rev. 1 SÚJB únor 2012 Předmluva Zákon

Více

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky LOGICKÉ OBVODY pro kombinované a distanční studium

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky LOGICKÉ OBVODY pro kombinované a distanční studium Vysoká škola báňská - Techncká unverzta Ostrava Fakulta elektrotechnky a nformatky LOGICKÉ OBVODY pro kombnované a dstanční studum Zdeněk Dvš Zdeňka Chmelíková Iva Petříková Ostrava ZDENĚK DIVIŠ, ZDEŇKA

Více

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev

Úvod do databází. Modelování v řízení. Ing. Petr Kalčev Úvod do databází Modelování v řízení Ing. Petr Kalčev Co je databáze? Množina záznamů a souborů, které jsou organizovány za určitým účelem. Jaké má mít přínosy? Rychlost Spolehlivost Přesnost Bezpečnost

Více

Hodnocení kvality sumarizátorů textů

Hodnocení kvality sumarizátorů textů Hodnocení kvalty sumarzátorů textů Josef Stenberger 1, Karel Ježek 1 1 Katedra nformatky a výpočetní technky, FAV, ZČU Západočeská Unverzta v Plzn, Unverztní, 306 14 Plzeň {jsten, jezek_ka}@kv.zcu.cz Abstrakt.

Více

POUŽITÍ METODY PERT PŘI ŘÍZENÍ PROJEKTŮ

POUŽITÍ METODY PERT PŘI ŘÍZENÍ PROJEKTŮ 5. Odborná konference doktorského studa s meznárodní účastí Brno 003 POUŽITÍ METODY PERT PŘI ŘÍZEÍ PROJEKTŮ A USAGE OF PERT METHOD I PROJECT MAAGEMET Vladslav Grycz 1 Abstract PERT Method and Graph theory

Více

VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH

VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH VYBOČUJÍCÍ HODOTY VE VÍCEROZMĚRÝCH DATECH JIŘÍ MILITKÝ, Katedra tetlních materálů, Techncká unversta v Lberc, Hálkova 6 461 17 Lberec, e- mal: jr.mlky@vslb.cz MILA MELOU, Katedra analytcké cheme, Unversta

Více

Příspěvky do Fondu pojištění vkladů Garančního systému finančního trhu

Příspěvky do Fondu pojištění vkladů Garančního systému finančního trhu Česká národní banka odbor regulace fnančního trhu V Praze dne 7. května 2018 Příspěvky do Fondu pojštění vkladů Garančního systému fnančního trhu Pojštění pohledávek z vkladů v Evropské un a stanovení

Více

Automatická klasifikace dokumentů do tříd za použití metody Itemsets

Automatická klasifikace dokumentů do tříd za použití metody Itemsets Automatcká klasfkace dokumentů do tříd za použtí metody Itemsets Jří HYNEK 1, Karel JEŽEK 2 1 nsite, s.r.o., Knowledge Management Integrator Rubešova 29, 326 00 Plzeň r.hynek@nste.cz 2 Katedra nformatky

Více

2. Definice pravděpodobnosti

2. Definice pravděpodobnosti 2. Defnce pravděpodobnost 2.1. Úvod: V přírodě se setkáváme a v přírodních vědách studujeme pomocí matematckých struktur a algortmů procesy dvojího druhu. Jednodušší jsou determnstcké procesy, které se

Více

Proces řízení rizik projektu

Proces řízení rizik projektu Proces řízení rzk projektu Rzka jevy a podmínky, které nejsou pod naší přímou kontrolou a ovlvňují cíl projektu odcylky, předvídatelná rzka, nepředvídatelná rzka, caotcké vlvy Proces řízení rzk sled aktvt,

Více

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

MATEMATICKÁ TEORIE ROZHODOVÁNÍ MTMTICKÁ TORI ROZODOVÁNÍ odklady k soustředění č. 3 ráce s neurčtostí Většna našch znalostí o reálném světě je zatížena ve větší č menší míře neurčtostí. Na druhou stranu, schopnost rozhodovat se v stuacích,

Více

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009

Více

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY BAKALÁŘSKÁ PRÁCE. 2013 Radka Luštincová

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY BAKALÁŘSKÁ PRÁCE. 2013 Radka Luštincová VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY BAKALÁŘSKÁ PRÁCE 2013 Radka Luštncová VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY Název bakalářské práce: Aplkace řezných

Více

Plánování a rozvrhování. Podmínky pro zdroje. Typy zdrojů. Zdroje. časové vztahy. omezení kapacity zdrojů. Roman Barták, KTIML

Plánování a rozvrhování. Podmínky pro zdroje. Typy zdrojů. Zdroje. časové vztahy. omezení kapacity zdrojů. Roman Barták, KTIML 12 Plánování a rozvrhování Roman Barták, KTIML roman.bartak@mff.cun.cz http://ktml.mff.cun.cz/~bartak Rozvrhování jako CSP Rozvrhovací problém je statcký, takže může být přímo zakódován jako CSP. Splňování

Více

Modelování rizikových stavů v rodinných domech

Modelování rizikových stavů v rodinných domech 26. 28. června 2012, Mkulov Modelování rzkových stavů v rodnných domech Mlada Kozubková 1, Marán Bojko 2, Jaroslav Krutl 3 1 2 3 Vysoká škola báňská techncká unverzta Ostrava, Fakulta strojní, Katedra

Více

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny 0.05 0.0 0.05 0.0 0.005 Nomnální napětí v pásnc Std Mean 40 60 80 00 0 40 60 Std Téma 5: Parametrcká rozdělení pravděpodobnost spojté náhodné velčn Přednáška z předmětu: Pravděpodobnostní posuzování konstrukcí

Více

PODKLADY PRO PRAKTICKÝ SEMINÁŘ PRO UČITELE VOŠ. Logaritmické veličiny používané pro popis přenosových řetězců. Ing. Bc. Ivan Pravda, Ph.D.

PODKLADY PRO PRAKTICKÝ SEMINÁŘ PRO UČITELE VOŠ. Logaritmické veličiny používané pro popis přenosových řetězců. Ing. Bc. Ivan Pravda, Ph.D. PODKLADY PRO PRAKTICKÝ SEMIÁŘ PRO ČITELE VOŠ Logartmcké velčny používané pro pops přenosových řetězců Ing. Bc. Ivan Pravda, Ph.D. ATOR Ivan Pravda ÁZEV DÍLA Logartmcké velčny používané pro pops přenosových

Více

Společné zátěžové testy ČNB a vybraných pojišťoven

Společné zátěžové testy ČNB a vybraných pojišťoven Společné zátěžové testy ČNB a vybraných pojšťoven Zátěžových testů se účastní tuzemské pojšťovny které dohromady představují přblžně 90 % pojstného trhu. Výpočty provádějí samotné pojšťovny dle metodky

Více

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně 9. Měření knetky dohasínání fluorescence ve frekvenční doméně Gavolův experment (194) zdroj vzorek synchronní otáčení fázový posun detektor Měření dob žvota lumnscence Frekvenční doména - exctace harmoncky

Více

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: 3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...

Více

MODEL LÉČBY CHRONICKÉHO SELHÁNÍ LEDVIN. The End Stage Renal Disease Treatment Model

MODEL LÉČBY CHRONICKÉHO SELHÁNÍ LEDVIN. The End Stage Renal Disease Treatment Model ROČNÍK LXXII, 2003, č. 1 VOJENSKÉ ZDRAVOTNICKÉ LISTY 5 MODEL LÉČBY CHRONICKÉHO SELHÁNÍ LEDVIN 1 Karel ANTOŠ, 2 Hana SKALSKÁ, 1 Bruno JEŽEK, 1 Mroslav PROCHÁZKA, 1 Roman PRYMULA 1 Vojenská lékařská akademe

Více

Umělé neuronové sítě a Support Vector Machines. Petr Schwraz

Umělé neuronové sítě a Support Vector Machines. Petr Schwraz Umělé neuronové sítě a Support Vector Machnes Petr Schraz scharzp@ft.vutbr.cz Perceptron ( neuron) x x x N f() y y N f ( x + b) x vstupy neuronu váhy jednotlvých vstupů b aktvační práh f() nelneární funkce

Více

ČASOVÁ KOORDINACE SPOJŮ VEŘEJNÉ HROMADNÉ DOPRAVY NA ÚSECÍCH DOPRAVNÍ SÍTĚ

ČASOVÁ KOORDINACE SPOJŮ VEŘEJNÉ HROMADNÉ DOPRAVY NA ÚSECÍCH DOPRAVNÍ SÍTĚ ČASOVÁ KOORDINACE SPOJŮ VEŘEJNÉ HROMADNÉ DOPRAVY NA ÚSECÍCH DOPRAVNÍ SÍTĚ THE TIME COORDINATION OF PUBLIC MASS TRANSPORT ON SECTIONS OF THE TRANSPORT NETWORK Petr Kozel 1 Anotace: Předložený příspěvek

Více

Mechatronické systémy s elektronicky komutovanými motory

Mechatronické systémy s elektronicky komutovanými motory Mechatroncké systémy s elektroncky komutovaným motory 1. EC motor Uvedený motor je zvláštním typem synchronního motoru nazývaný též bezkartáčovým stejnosměrným motorem (anglcky Brushless Drect Current

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jří Holčík, CSc. INVESTICE Insttut DO bostatstky ROZVOJE VZDĚLÁVÁNÍ a analýz IV - pokračování KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI METRIKY PRO URČENÍ VZDÁLENOSTI

Více

Dynamika psaní na klávesnici v kombinaci s klasickými hesly

Dynamika psaní na klávesnici v kombinaci s klasickými hesly Dynamka psaní na klávesnc v kombnac s klasckým hesly Mloslav Hub Ústav systémového nženýrství a nformatky, FES, Unverzta Pardubce Abstract Authentfcaton as a data securty nstrument n our nformatonal socety

Více

ANALÝZA PRODUKCE OLEJNIN ANALYSIS OF OIL SEED PRODUCTION. Lenka Šobrová

ANALÝZA PRODUKCE OLEJNIN ANALYSIS OF OIL SEED PRODUCTION. Lenka Šobrová ANALÝZA PRODUKCE OLEJNIN ANALYSIS OF OIL SEED PRODUCTION Lenka Šobrová Anotace: Olejnny patří mez významné zemědělské plodny. Nejvýznamnější zástupc této skupny se však v jednotlvých částech světa lší,

Více

Posuzování dynamiky pohybu drážních vozidel ze záznamu jejich jízdy

Posuzování dynamiky pohybu drážních vozidel ze záznamu jejich jízdy Posuzování dynamky pohybu drážních vozdel ze záznamu jejch jízdy Ing. Jaromír Šroký, Ph.D. ŠB-Techncká unverzta Ostrava, Fakulta strojní, Insttut dopravy, tel: +40 597 34 375, jaromr.sroky@vsb.cz Úvod

Více

VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH

VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH THE CHOICE OF EVALUATION CRITERIA IN PUBLIC PROCUREMENT Martn Schmdt Masarykova unverzta, Ekonomcko-správní fakulta m.schmdt@emal.cz Abstrakt: Článek zkoumá

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky Západočeská unverzta v Plzn Fakulta aplkovaných věd Katedra matematky Bakalářská práce Zpracování výsledků vstupních testů z matematky Plzeň, 13 Tereza Pazderníková Prohlášení Prohlašuj, že jsem bakalářskou

Více

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ. CHYBY MĚŘENÍ Úvod Představte s, že máte změřt délku válečku. Použjete posuvné měřítko a získáte určtou hodnotu. Pamětlv přísloví provedete ještě jedno měření. Ale ouha! Výsledek je jný. Co dělat? Měřt

Více

Databázové systémy. Cvičení 6: SQL

Databázové systémy. Cvičení 6: SQL Databázové systémy Cvičení 6: SQL Co je SQL? SQL = Structured Query Language SQL je standardním (ANSI, ISO) textovým počítačovým jazykem SQL umožňuje jednoduchým způsobem přistupovat k datům v databázi

Více

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou) Náhodná velčna na Výsledek náhodného pokusu, daný reálným číslem je hodnotou náhodné velčny. Náhodná velčna je lbovolná reálná funkce defnovaná na množně elementárních E pravděpodobnostního prostoru S.

Více

MĚŘENÍ ELEKTRICKÝCH PARAMETRŮ V OBVODECH S PWM ŘÍZENÝMI ZDROJI NAPĚTÍ Electric Parameter Measurement in PWM Powered Circuits

MĚŘENÍ ELEKTRICKÝCH PARAMETRŮ V OBVODECH S PWM ŘÍZENÝMI ZDROJI NAPĚTÍ Electric Parameter Measurement in PWM Powered Circuits Techncká 4, 66 07 Praha 6 MĚŘENÍ ELEKTRICKÝCH PARAMETRŮ V OBVODECH S PWM ŘÍZENÝMI ZDROJI NAPĚTÍ Electrc Parameter Measurement n PWM Powered Crcuts Martn Novák, Marek Čambál, Jaroslav Novák Abstrakt: V

Více

Teoretické modely diskrétních náhodných veličin

Teoretické modely diskrétních náhodných veličin Teoretcké modely dskrétních náhodných velčn Velčny, kterým se zabýváme, bývají nejrůznější povahy. Přesto však estují skupny náhodných velčn, které mají podobně rozloženou pravděpodobnostní funkc a lze

Více

HODNOCENÍ DOJÍŽĎKY DO ZAMĚSTNÁNÍ V MORAVSKOSLEZSKÉM KRAJ

HODNOCENÍ DOJÍŽĎKY DO ZAMĚSTNÁNÍ V MORAVSKOSLEZSKÉM KRAJ HODNOCENÍ DOJÍŽĎKY DO ZAMĚSTNÁNÍ V MORAVSKOSLEZSKÉM KRAJ Jří HORÁK, Jan TESLA, Igor IVAN,, Insttut Geonformatky, HGF, VŠB-TU Ostrava, 7. lstopadu 5, 708 Ostrava, Česká republka jr.horak@vsb.cz, jan.tesla@vsb.cz,

Více

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod

Více

XXX. ASR '2005 Seminar, Instruments and Control, Ostrava, April 29,

XXX. ASR '2005 Seminar, Instruments and Control, Ostrava, April 29, XXX. ASR '2005 Semnar, Instruments and Control, Ostrava, Aprl 29, 2005 449 Usng flockng Algorthm and Vorono Dagram for Moton Plannng of a Swarm of Robots Plánování pohybu skupny robotů pomocí flockng algortmu

Více