Využití Fuzzy Match algoritmu pro čištění dat

Transkript

1 Využtí Fuzzy Match algortmu pro čštění dat Ing. Davd Pejčoch, DS. Úsek pojštění motorových vozdel, Kooperatva, pojšťovna, a.s., Venna Insurance Group, Templová 747, Praha 1, Czech Republc Katedra nformačního a znalostního nţenýrství, FIS-VŠE Praha. Publkováno: Abstrakt S enormním nárůstem objemu zpracovávaných dat v podncích se stále častěj setkáváme s problematkou datové kvalty. Nečstota v datech s sebou přnáší jak ekonomcké, tak analytcké důsledky. V některých případech, jako je např. válečná logstka č kosmcký program, nečstota dat dokonce rozhoduje o ţvotě č smrt jednotlvců a jejch skupn. V rámc procesu čštění dat lze dentfkovat krok standardzace, v němţ jsou aktuální data porovnávána s daty referenčním a př dostatečné shodě jsou zaměněna za data referenční. Pro tento účel je ve většně případů nedostačující klascký přístup zaloţený pouze na absolutní shodě pomocí SQL JOIN. Je tedy třeba se nsprovat teorí fuzzy logky a pouţít přístup, který se nazývá Fuzzy Match. Tento přístup vyhodnocuje míru shody srovnávané a referenční sady pomocí tzv. smlarty functon. Automatcky sloučeny jsou poté záznamy se smlarty functon vyšší neţ stanovená prahová hodnota. Ostatní případy se skóre nţším neţ prahová hodnota lze z hledska sloučení posuzovat ndvduálně. Klíčová slova Data Qualty, Fuzzy Match, Čstota dat, fuzzy logka. Úvod do problematky datové kvalty a čstoty dat V úvodu pokládám za účelné krátce se zmínt o problematce datové kvalty, popsat proces datové kvalty a vymezt funkc Fuzzy Merge v konkrétním jeho kroku. Data Qualty Problematka kvalty dat (angl. Data Qualty) a na ní navazující problematka kvalty nformací (angl. Informaton Qualty) se zejména s ohledem na enormní nárůst objemu zpracovávaných dat ve frmách dostala v posledním desetletí do popředí zájmu. Frmy nejprve pochoply, ţe data pro ně v nformační době znamenají velce cenné aktvum 1, účnnou zbraň v boj o udrţení a získání nových zákazníků. S rostoucím uvědoměním s důleţtost vlastních dat se role kvalty dat posunula od přednost k nutnost. Ten, kdo díky duplctním záznamům v klentských datech frustruje své zákazníky opakovaným oslovováním v marketngových kampaních o tyto zákazníky dříve č pozděj přjde. Ten, kdo zasílá svým zákazníkům permanentně chybně vyplněné faktury, dopadne stejně. V další fáz frmy začaly chápat, ţe retroaktvní přístup k datové kvaltě pomocí ad-hoc prováděných akcí čstá data se stává neúčnným, pokud nemá odraz ve změně podnkových procesů, v rámc nchţ tyto nečstoty vznkají. Současně s frmy začaly uvědomovat nutnost ntegrace čstých dat v rámc různých datových zdrojů. Začalo se mluvt o jedném pohledu na zákazníka (resp. produkt) a skloňovat pojmy jako je Master Data Management (MDM) č Customer Data Integraton (CDI) 2. V souvslost s datovou kvaltou se zpravdla (např. [2]) hovoří o vlastnostech dat jako je přesnost, objektvnost, důvěryhodnost, reputace, dostupnost, bezpečnost přístupu, relevantnost, přínos dat, včasnost, úplnost, rozsah, nteroperablta, srozumtelnost, výstţná a stručná reprezentace, konzstentní reprezentace, apod. Jţ z prvního pohledu je zřejmé, ţe část těchto vlastností dat je numercky měřtelná (hovoříme o tzv. objektvních metrkách) a část z těchto vlastností představuje 1 Např. [10] tvrdí, ţe pokud jsou nformace měnou nové ekonomky, pak data jsou krtckou surovnou nezbytnou k úspěchu. 2 Podle [9] je CDI soubor procesů, pravdel, mechansmů a dovedností nezbytných pro standardzac a ntegrac zákaznckých dat pocházejících z různých zdrojů. MDM je v podstatě totéţ napříč všem předmětným oblastm ve frmě. 1

2 metrky subjektvní, které lze jen obtíţně numercky kvantfkovat (uvádí např. [3]). V souvslost s Fuzzy Merge se v této prác věnuj zajštění vlastností dat, jako je přesnost, úplnost a konzstentní reprezentace, tedy vlastností měřtelných objektvním metrkam. Proces Data Qualty (DQ) V této část práce bych rád jako příklad procesu DQ zmínl proces pouţívaný pro potřeby CDI (Customer Data Integraton) tak, jak jej uvádí [9] a v rámc něj vymezl funkc Fuzzy Match. Cílem CDI je vytvoření jednotné báze zákaznckých dat, tedy zdroje jedné pravdy o zákaznících. Z tohoto důvodu je v tomto pojetí procesu DQ obsaţen krok popsující defnc zamýšlené výsledné datové struktury této jednotné báze, tzv. Data Customer Hub. Tuto varantu procesu DQ uvádím z důvodu její lepší přehlednost, jíţ se odlšuje např. od poněkud komplkovaného procesu TQdM (Total Qualty data Management) DQ guru Larryho Englshe, prezentovaného v [12]. Tak, jako mnoho jných procesů (např. různé varanty procesu KDD 3 ), je pro proces DQ typcký jeho cyklcký charakter, naznačující, ţe se nejedná o jednorázový krok. Schéma procesu Data Qualty pro potřeby CDI Proflace dat (Data proflng) Tento krok v sobě zahrnuje zkoumání struktury dat. Data jsou nejprve zkoumána z hledska jejch shody s metadaty (z hledska datového typu, délky atrbutu, unkátnost dat a chybějících hodnot). Dále je ověřováno, zda jednotlvé atrbuty svou strukturou odpovídají svým předpokladům, tj. např. zda obsah atrbutu, který má obsahovat rodné číslo, odpovídá pravdlům pro rodné číslo (ověření modula, ověření platných varant zápsu). V dalším kroku jsou spočteny popsné statstky a na jejch základě dentfkovány odlehlé hodnoty, které představují potencální kanddáty na chybné hodnoty. Standardzace V rámc standardzace je provedeno parsování dat, tj. rozdělení řetězců obsaţených v jednotlvých atrbutech na jejch část. Např. obsah atrbutu adresa je rozdělen na název ulce, číslo orentační a číslo popsné, obsah atrbutu jméno je rozdělen na ttul, křestní jméno a příjmení. Dále je provedeno sémantcké sladění různých varant slov vznklých např. v rámc různých nářečí a dále srovnání a sladění formátů s exstujícím standardy 4. Deploy Defnce Porovnání a slučování Porovnávání a slučování MONITOROVÁNÍ Lokalzace Nyní se dostáváme k té fáz procesu DQ, v níţ nachází své uplatnění technka Fuzzy Match. Cílem této fáze totţ je elmnace duplct a eventuelní zkombnování duplct do výsledné nejlepší verze záznamu. V případě CDI sem patří rovněţ určování domácností. Standardzace Proflování dat Zdroj: Překresleno podle schématu DQ uvedeném v [9] Defnce V tomto kroku procesu DQ probíhá defnce výsledné datové báze, formulace poţadavků na datový obsah z pohledu byznysu, poţadavků na formáty reprezentující tento obsah a vztah zdrojových dat k ostatnímu datovému obsahu. Lokalzace V rámc kroku Lokalzace probíhá shromaţďování nformací o dsponblních datových zdrojích a jejch následná valdace. Podstatným krokem je zde nalezení referenčních datových sad. Deploy V popsu procesu DQ uvedeném v [9] je opět tato fáze procesu označena za specfckou pro CDI a představuje přesun výsledné datové sady do Customer Data Hubu. Př běţném DQ projektu by tento krok představoval vrácení vyčštěných dat do zdrojového systému, resp. oprava dat ve zdrojovém souboru pro data mnng. Montorování Kvaltu dat je samozřejmě nutné průběţně montorovat. A to ve všech fázích procesu DQ. Zejména je třeba sledovat zlepšující se datovou kvaltu za účelem stanovení ROI DQ projektů. 3 Knowledge Dscovery n Databases 4 Většna nástrojů pro data qualty umoţňuje v USA porovnávat se standardem zapsování adres defnovaným U.S. Postal Servce a s dalším poštovním standardy 2

3 Selhání klasckého SQL JOIN a LOOKUP Pouţtí klasckého SQL JOIN ve fáz porovnávání a slučování je obecně moţné pouze v případě předpokladu naprosté shody porovnávacího klíče. Takovým případem je např. jon přes rodné číslo nebo IČO v případě, ţe tento atrbut obsahuje pouze verfkované valdní hodnoty 5. Příklad stuace, kdy klascký SQL JOIN jako metoda pro porovnání a sloučení vzorku dat s referenčním daty nestačí, uvádí např. Charles Patrdge 6 v [13]. Popsuje stuac, kdy bylo programátorov zadáno zřetězení seznamu potencálních klentů na seznam stávajících klentů. Cílem byla dentfkace těch klentů ze seznamu potencálních, kteří jţ v daný okamţk jsou klenty frmy. Datový soubor potencálních klentů neměl ţádný jednečný klíč. Programátor se pokusl zřetězt jej přes kombnac ZIP kódu a jména klenta. Výsledky však byly ţalostné. Pomocí merge (obdoba jon př pouţtí SAS data step) se programátorov podařlo zřetězt pouhých 21% záznamů, zatímco asstentce ředtele, která se o to samé pokusla pomocí ručního srovnávání, se za tu samou dobu podařlo ověřt prvních 100 záznamů (celý seznam měl řádově stovky záznamů). Příčna neúspěchu aplkace SQL JOIN spočívala v různých varantách zápsu obsahu atrbutu jméno klenta a ZIP kódu v porovnávaném a referenčním souboru (vz. níţe). Obdobné problémy nastávají př pouţtí LOOKUP, ať jţ je realzován jakýmkolv způsobem (v SASu např. pomocí formátu nebo načtením referenční tabulky do pamět pomocí hash objektu). Problémy mohou nastat zejména pouţtím různých varant křestního jména. Např. Robert / Bob, Charles / Chuck, v prostředí České kotlny např. Mrek / Mroslav nebo Dana / Danela. Dále např. pouţtím různých varant zkratek (Road / Rd, Drve / Dr, náměstí / nám. / n.). Navíc, v dosavadním výkladu jsem doposud abstrahoval od moţnost, ţe obsah atrbutu, přes který zřetězení provádíme, není pouze jnak zapsán, ale je chybný. 5 Pro IČO RČ (od r. 1954) slouţí jako kontrola nulový zbytek po celočíselném dělení číslem Charles Patrdge je průkopníkem pouţtí technky Fuzzy Match v nástrojích SAS. Různý způsob zápsu adres v příkladu z [13] Seznam potencálních klentů Chuck Patrdge P D P C, Ltd. 172 Monce Road Burlngton, Ct Zdroj: [13] Fuzzy Match Referenční seznam Patrdge, Charles PDPC, Ltd. Monce Rd. Burlngton, Ct V případě nemoţnost pouţtí klasckého SQL JOIN na základě unkátního klíče (tzv. determnstcký přístup) a jeho selhání v případě pouţtí sloţeného klíče, je třeba pouţít sofstkovanějších metod, často souhrnně označovaných za pravděpodobnostní spojování. Do této skupny patří aplkace metod strojového učení, pouţtí Fuzzy Jon operátoru a metody pouţívající prncpů teore získávání nformací (IR). Do poslední uvedené skupny patří v této prác prezentovaná metoda Fuzzy Match. Pojďme se nyní na chvíl zastavt nad původem pojmu Fuzzy Match. [4] vysvětluje význam pojmu fuzzy jako nedostatek v přesnost defnce, např. ve smyslu rozmazaných fotografí př pohybu fotoaparátem během expozce. [6] uvádí, ţe pojem fuzzy znamená neurčtý, nejasný, ochmýřený, přčemţ upozorňuje, ţe není ţádoucí tento pojem překládat a je vhodné jej pouţívat v původním anglckém znění. Hstore tohoto pojmu sahá do 60. let mnulého století a je zejména spojována s postavou profesora kalfornské unverzty v Berkley, Lotf A. Zadeha a teorí fuzzy mnoţn., tj. matematckou dscplínou programově zaměřenou na modelování fenoménu vágnost. V devadesátých letech mnulého století došlo k takové oblíbenost pojmu fuzzy, ţe (jak uvádí [6]) bylo toto slovo v r vyhodnoceno jako nejpouţívanější czí slovo v Japonštně. [16] vysvětluje pojem Fuzzy Matchng jako protklad prot hledání přesné shody. Fuzzy Matchng je př současném zachování relevantnost méně strktní neţ tzv. Exact Matchng. Výklad pojmu Fuzzy Match jako vylepšení funkce klasckého SQL JOIN / LOOKUP se objevuje např. v [1] nebo jako Fuzzy Match/Merge v [13]. [17] popsuje shodné technky, které [1] označuje jako Fuzzy Match pod pojmem spojování záznamů 7 - databázový přístup. V této prác budu nadále za Fuzzy Match povaţovat aplkac technk pro spojování záznamů př řešení problému jejch deduplkace v databázích. 7 angl. Record Lnkage 3

4 [1] defnuje K-Fuzzy Match Problem takto: Mějme referenční relac R a práh mnmální shody c z ntervalu <0;1>, funkc podobnost f a vstupní záznam u. Nalezněme mnoţnu FM(u) fuzzy shod s nanejvýše K referenčním záznamy z R takových, ţe: () fmsu v c, pro všechna v z FM(u) () u, v fmsu, v' fms pro některá v z FM(u) a v z R-FM(u). Obecně lze místo fms, jejíţ přesný význam bude objasněn v dalším textu, uvaţovat jakoukolv funkc podobnost. Cílem Fuzzy Match algortmu je nalezení K referenčních záznamů, které jsou nejvíce podobné vstupnímu záznamu u. Pro pouţtí Fuzzy Match exstují různé přístupy. Některé (např. [13]) př aplkac Fuzzy Match pouţívají dodatečné nformace z konkrétní předmětné oblast. Příkladem můţe být aplkace doménově specfckého 8 slovníku synonym pro normalzac / standardzac dat. Zcela odlšným přístupem (publkovaným např. v [1]) je pokus o vývoj doménově nezávslého řešení. Tato práce se zaměřuje na prezentac doménově nezávslých technk, neboť oblast doménové závslých řešení je natolk obsáhlá, ţe by zde všechna specfcká pravdla nebylo moţno na tomto relatvně malém prostoru popsat. Začlenění Fuzzy Match do porovnávací a slučovací fáze procesu DQ v pojetí [1] zachycuje níţe uvedené schéma. Po neúspěšném SQL JOIN, resp. LOOKUP prot referenční tabulce je následně proveden Fuzzy Match a př dosaţení předem stanovené míry shody je porovnávaný záznam nahrán do databáze (nebo nahrazen referenčním). Nutno poznamenat, ţe toto schéma neřeší případ, kdy by stanovenou míru shody splňovalo více referenčních záznamů. Důvody, proč není přímo aplkován Fuzzy Match a nejprve je proveden pokus o SQL JOIN jsou dle mého názoru ryze výkonové. Přes veškeré optmalzační technky, popsané níţe v této prác, je provedení Fuzzy Match lookup méně rychlé, neţ klascký SQL JOIN / lookup. Schéma 1: Vzor pro aplkac Fuzzy Match Referenční tabulka Zdroj: [1] Exact Match Úspěšný lookup? NE Fuzzy Match Míra shody > 0,8? NE Následné čštění ANO Vstupní data ANO Load dat do databáze (např. DWH) V následujícím výkladu budu v doplňujících příkladech pouţívat totoţnou sadu referenčních záznamů a vstupních (porovnávaných ) dat jaká je pouţta v [1]. Referenční záznamy ID Název společnost Město Stát Zp R1 Boeng Company Seattle WA R2 Bon Corporaton Seattle WA R3 Companons Seattle WA Porovnávaný vzorek dat ID Název společnost Město Stát Zp I1 Beong Company Seattle WA I2 Beong Co. Seattle WA I3 Boeng Corporaton Seattle WA I4 Company Beong Seattle NULL Klasfkace měr podobnost použtelných pro Fuzzy Match 8 Např. zaměřený pouze na deduplkac adres [17] nabízí klasfkac různých měr podobnost, které lze pouţívat pro porovnávání řetězců. Rozděluje je do tří kategorí. Do první skupny řadí metrky zaloţené na úpravách (Soundex, Levenshtenova vzdálenost / edt dstance, Jarova vzdálenost a Jaro-Wnklerova vzdálenost). Jejch 4

5 společným rysem je kalkulace nákladů na operace vloţení, smazání a nahrazení částí řetězce př transformac na řetězec druhý. Druhou skupnu tvoří metrky zaloţené na tokenech (TF-IDF kosínová podobnost, Jaccardův koefcent a pravděpodobnostní modely). Třetí skupnu tvoří hybrdní metrky a [17] do ní řadí FMS (Fuzzy Smlarty Functon), jíţ bude v této prác věnován největší prostor. Dobu jejch vznku a jejch vazby znázorňuje obrázek níţe. Hstorcká osa vývoje používaných měr podobnost Zdroj: [17] Většna těchto metrk bude stručně popsána v následujícím textu. Jaccardův koefcent Jaccardův koefcent je metrka podobnost, která je aplkována na jednotlvé tokeny. Tokenzace v pojetí [1] představuje rozklad referenčního záznamu R td, A1,..., A n, kde A 1,...,An jsou jednotlvé sloupce referenčního záznamu a td představuje jeho jednečný dentfkátor, na mnoţny tokenů tok s jejchţ prvky jsou v referenčním záznamu oddělené nějakým oddělovačem (např. mezerou). Např. mnoţna tokenů tok (v[1 ]) pro referenční záznam v = R[R1, Boeng Company, Seattle, WA, 98004] je {boeng, company}. Pokud bychom tedy uvaţoval dvě mnoţny tokenů S = tok(v[1]) = {boeng, company} a T = tok(u[1]) = {beong, company}, pak Jaccardův koefcent pro tyto dvě mnoţny by byl defnován výrazem Jaccard S, T S T. S T Jaccardův koefcent tedy porovnává délku průnku mnoţn S a T s délkou jejch sjednocení. V případě výše defnovaných mnoţn S a T by tedy čnl 7 / ( ), tedy cca 0,37. Je tedy zřejmé, ţe se nejedná o přílš přesnou metrku, neboť přehození jednoho písmene praktcky vylučuje shodu. KL dvergence Kullback Leblerova dvergence (vz. např. [14]), často také nazývaná nformační zsk nebo relatvní entrope, je mírou rozdílu dvou pravděpodobnostních rozdělení náhodných velčn P a Q. Tyto náhodné velčny mohou být jak dskrétního typu, tak spojté. KL dvergence není v pravém slova smyslu metrkou vzdálenost (proto se nazývá dvergence a ne vzdálenost), neboť není symetrcká. DKL (P Q) není rovna DKL (Q P). Ba co více, KL dvergence nesplňuje an pravdlo trojúhelníkové nerovnost. Pro aplkac DKL v oblast IR lze pouţít např. tvar publkovaný v [26]: KL RDa RDe pt RDa tv t t p RDa log, p RDe kde RDa je aktuální dokument (v našem případě tabulka vstupních záznamů) a RDe je exstující dokument (v našem případě referenční tabulka). p t RDa nt, n trda RDa t, RDa n t, d drde pt RDe, nt, d t drde kde n(t,d) je četnost řetězce t v záznamu d. Konstanta α představuje tzv. Laplaceovské vyhlazení. Felleg Sunter Přístup Fellegho a Suntera řadí [17], stejně jako KL dvergenc do oblast pravděpodobnostních měr podobnost. Jak poznamenává [24], Felleg a Sunter v r představl formální matematcký základ pro spojování záznamů. Základní pohled na tuto teor a její pouţtí pro spárování záznamů ze sčítání ldu v USA a dodatečných průzkumů je popsáno např. v [25]. Metoda uvaţuje dvě populace A a B, jejchţ prvky jsou a a b. Zároveň se předpokládá, ţe některé elementy mají tyto populace společné. Mnoţna uspořádaných dvojc AXB a, b : a A, b B je sjednocením mnoţny M obsahující uspořádané dvojce (a, b), pro které platí a = b a mnoţny U obsahující uspořádané dvojce (a, b) pro které platí a b. Záznamy korespondující s prvky mnoţn A a B jsou označeny a a b. Dále je defnován porovnávací vektor 1 K a, b a, b,..., a b,, jehoţ kaţdý prvek pro = 1,..., K, představuje specfcké porovnání jednotlvých prvků mnoţn A a B (např. porovnání atrbutů pohlaví, příjmení,...). Dále m je defnována jako podmíněná pravděpodobnost a,b za podmínky a bm u jako podmíněná pravděpodobnost a,b, a za podmínky a, bu. Podíl těchto pravděpodobností je věrohodnostní poměr R. Pokud je R > UPPER, 5

6 potom (a,b) jsou navázány. Pokud platí LOWER <= R <= UPPER, pak vazba (a, b) moţná exstuje. Pokud je R < LOWER, pak vazba (a,b) neexstuje. Konstanty UPPER a LOWER jsou určeny poţadovanou mírou chyby. Pro získání maxmálně věrohodných odhadů podmíněných pravděpodobností potřebných k výpočtu R pouţívá [25] např. algortmus EM (Expectaton Maxmzaton). TF-IDF kosínová podobnost Tato metrka podobnost je zaloţená na výpočtu TF- IDF vah pro jednotlvé tokeny. Pro výpočet TF-IDF 9 tokenu t v daném záznamu uvádí [17] následující vzorec: N TF IDF log 1 1 TF.log Nt Kosínovou podobnost dvou záznamů u a v, pro které jsme vytvořl mnoţny jejch tokenů Su a Sv a spočetl váhy jednotlvých tokenů W(t, Su) a W(t, Sv), lze určt pomocí vzorce Cosne u v Wt, S. Wt, S,. u [17] uvádí příklad, kdy Kosínová podobnost je př aplkac na q-tce pevné délky q = 3, vytvořené z jednotlvých tokenů, munní vůč drobným překlepům a podobnost řetězců Jaccard a Jacard ohodnotí vysokým skóre. Token Jaccard v tomto příkladu rozkládá na mnoţnu q-tc {jac, acc, cca, car, ard} a token Jacard na mnoţnu q-tc {jac, aca, car, ard}. Jarova a Jaro-Wnklerova vzdálenost Podle [14] je Jarova vzdálenost dvou řetězců s1 a s2 dána vzorcem d 1 m m m t j s s, kde m m je počet znaků, které s v obou řetězcích odpovídají, t je počet transpozcí potřebných pro transformac s1 na s2 a s1, s2 jsou délky porovnávaných řetězců. Počet transformací je defnován jako počet neodpovídajících s znaků v řetězc dělený číslem 2. Dva řetězce jsou označeny jako shodné, pokud Jarova vzdálenost nepřesáhne práh defnovaný jako v max s1, s Praktcké pouţtí je moţno demonstrovat na řetězcích s1 = beong, s2 = boeng. Počet odpovídajících s znaků je m = 6, délka obou řetězců je shodně s1 = s2 = 6. Pro transformac s1 na s2 je třeba zaměnt E 9 Token frequency Inverse document frequency za O a O za E. Celkový počet transpozc t je tedy 2 / 2 = 1. B E O I N G B O E I N G d j , Hodnota prahu je 2. Jarova vzdálenost tedy ukazuje na shodu řetězců s1 a s2. Wllam Wnkler (spolutvůrce rozšíření Jarovy vzdálenost) však ve své stat [24] mapující v r stav bádání a problémy výzkumu v oblast spojování záznamů defnuje tuto vzdálenost poněkud odlšně. Uvádí vzorec ve tvaru Φj(s1, s2) = 1/3 (#common/str_len1 + #common/str_len2 + 0,5 #transpostons/#common). Jarova-Wnklerova vzdálenost se od původní Jarovy lší zakomponováním tzv. škálovacího faktoru p, který zvýhodňuje shodu prvních l znaků. Vzorec pro výpočet má tedy tvar d w j j d lp 1 d. Zpravdla je škálovací faktor nastaven na 0,1. Strng edt dstance a Levenshtenova vzdálenost Vzdálenost ed (s1, s2) dvou řetězců s1 a s2 je mnmální počet operací smazání, vloţení a záměna potřebný k transformac s1 na s2 normalzovaný maxmem z délek s1 a s2. Výpočet ed v podstatě vychází z Levenshtenovy vzdálenost tak, jak je popsán v [18]. Pouze j normuje maxmem délek porovnávaných řetězců. Samotné pouţtí ed jako krtéra pro záměnu porovnávaného záznamu za referenční není vhodné a vede často k chybám. Jako příklad je moţné uvést porovnání vstupního vzorku I3 s referenčním záznamy. Jak je patrné, krtérum ed vede k závěru, ţe vstupní vzorek I3 je nejblíţe k referenčnímu záznamu R3, neboť shledává méně nákladnou transformac tokenu bon na token boeng neţ transformac tokenu company na token corporaton. Ignoruje totţ fakt, ţe boeng a jsou tokeny s mnohem vyšší vypovídací hodnotou neţ je token corporaton. s1 = company 6

7 s2 = corporaton c o m p a n y c o r p o r a t o n ed 7 11 s s 0, 64 1, 2 s1 = bon s2 = boeng b o n b o e n g ed 3 6 s s 0, 5 1, 2 Aplkac ed na q-tce pro přblţný jon přes proměnné typu strng podrobně popsuje např. [7]. Př vytváření q-tc ale postupuje jným způsobem, neţ [17] u Kosínové podobnost a [1] u fms. Q-tce na počátku a konc řetězce mají kratší délku neţ q, a proto je doplňuje na délku q znaky # (na začátku) a $ (na konc). Současně doplňuje q-tce o nformac o pořadí a takto vznklou uspořádanou dvojc nazývá pozční q-tce. Rozklad řetězce Boeng by tedy byl mnoţnou pozčních q-tc {(1, ##b), (2, #bo), (3, boe), (4, oe), (5, en), (6, ng), (7, ng$), (8, g$$)} Následně [7] provádí dvoukrokové porovnávání, kdy v prvním kroku jednoduchým fltrem elmnují vazby ne chybně zamítnuté a v druhém kroku elmnují chybně označené vazby pomocí zakomponování ed do where podmínky. Tento postup lze aplkovat pouze v prostředí databázových systémů, které podporují uţvatelem defnované funkce (např. Oracle a DB2). Query pro druhý krok by tedy vypadalo např. takto: SELECT a.nazev, b.nazev FROM a, b WHERE edt_dstance(a.nazev, b.nazev, k) K je zde mnmální prahová hodnota pro ed. Nutno poznamenat, ţe vzhledem k tomu, ţe relační engny př spuštění tohoto query vykonají ed aţ jako fltr po jeho proběhnutí, je tento postup značně neefektvní. Fuzzy Smlarty Functon (fms) [1] zavádí funkc FMS (Fuzzy match smlarty), jejíţ pouţtí je jak unverzální v rámc všech domén, tak odstraňuje nedostatky ED tím, ţe pohlíţí na řetězec jako na sekvenc tokenů a uvaţuje rozdílnou důleţtost jednotlvých tokenů. Pro určení důleţtost jednotlvých tokenů pouţívá IDF (Inverse document frequency). Tato metrka vychází z předpokladu, ţe důleţtost tokenů závsí na jeho četnost výskytu v referenčních datech. FMS zároveň uvaţuje případy, kdy vstupní záznamy jsou chybné a umí se s takovou stuací vypořádat. Funkce vah IDF Ignoranc ed vůč důleţtost jednotlvých tokenů lze řešt zakomponováním jejch váhy. Pro tento účel [1] pouţívá modfkac IDF (Inverse Document Frequency), kterou lze spočíst jako logartmus poměru celkového počtu záznamů a četnost konkrétního tokenu v konkrétním sloupc 10, tedy podle následujícího vzorce. R wt, IDF t, log freq t, Náklady transformace Pokud uvaţujeme transformační operace nahrazení tokenu, vloţení tokenu a smazání tokenu, můţeme defnovat s ohledem na jednotlvé typy transformačních operací mnmální náklady transformace mnoţny tokenů u[] na v[]. Součet transformačních nákladů pro všechny mnoţny tokenů (tedy atrbuty) představuje celkové náklady transformace datového záznamu u na referenční záznam v. Celkové transformační náklady tedy lze vyjádřt pomocí následujícího vzorce: u, v tc u v tc, [1] stanovuje hodnoty pro jednotlvé typy transformačních nákladů různým způsoby. Náklady na nahrazení tokenu t1 v mnoţně tok(u[]) tokenem t2 z mnoţny tok(v[]) lze vyjádřt jako součn vzdálenost řetězců ed(t1,t2) a váhy tokenu t1 w(t1,). Náklady na vloţení nového tokenu t do mnoţny tokenů u[] jsou součnem konstanty cns a váhy tokenu t w(t,). Konstantu cns [1] nazývá faktorem vloţení tokenu a přřazuje jí hodnotu z ntervalu <0;1>. Náklady na smazání tokenu t z mnoţny tokenů u[] odpovídají jeho váze w(t,). Jako příklad je moţné uvést kalkulac transformačních nákladů pro převod vstupního záznamu u[beong Corporaton, Seattle, WA, 98004] na referenční záznam v[boeng Company, Seattle, WA, 98004]. Tato operace vyţaduje dvě dílčí transformace: nahrazení beong za boeng a 10 Obecně logartmus podílu celkového počtu dokumentů v databáz a počtu dokumentů obsahujících daný výraz. 7

8 nahrazení corporaton za company. Celkové transformační náklady jsou tedy součtem transformačních nákladů těchto dvou operací. ed( beong, boeng ) = 0,33 w( beong,1) = log (3 / 1) = 0,477 ed( corporaton, company ) = 0,64 w( corporaton,1) = log (3 / 1) = 0,477 tc(u,v) = tc(u[1],v[1]) = ed( beong, boeng ) * w( beong,1) + ed( corporaton, company ) * w( corporaton,1) = 0,33 * 0, ,64 * 0,477 = 0,463 Metrka fuzzy match podobnost ( fms) Funkc fuzzy match podobnost fms(u, v) vstupního záznamu u a referenčního záznamu v [1] defnuje následujícím vzorcem: fms u, v u, v tc 1 mn, 1, kde w u tc(u, v) jsou mnmální transformační náklady vstupního záznamu u na referenční záznam v a w(u) je součet vah všech tokenů v mnoţně tokenů tok(u) vstupního záznamu u. V případě vstupního záznamu u[beong Corporaton, Seattle, WA, 98004] a referenčního záznamu v[boeng Company, Seattle, WA, 98004] je tedy výpočet fms(u, v) následující: tc(u, v) = 0,463 w(u) = 0, , , ,125 = 1,015 fms(u, v) = 1 mn (0,463 / 1,015; 1) = 0,544 Vztah fms a ed Následující přeps vztahu pro určení vzdálenost řetězců ed(u, v) zvýrazňuje vlv mplctního přřazení vah jednotlvých tokenů a umoţňuje lepší srovnání pouţtí ed (u, v) a fms. Lu Lu, u Lu v ed u, max, v ed u, v max Lv L(u) představuje součet délek všech tokenů ve vstupním záznamu u (obdobně pro referenční záznam v). Z upraveného výrazu je patrné, ţe ed mplctně přřazuje váhy jednotlvým tokenům přímo úměrně jejch délce, tedy proporconálně k poměru max( u, v ) / L(u). Delší tokeny mají tedy př pouţtí ed automatcky vyšší váhu. Aproxmace fms [1] dále formuluje aproxmac fms pro případy, kdy můţe být různé pořadí tokenů ve vstupním a referenčním záznamu a je tedy umoţněno porovnat kaţdý token ve vstupním záznamu s kaţdým tokenem v kaţdém referenčním záznamu. Míra fms apx tvoří horní hranc fms. Záznamy, které se lší pouze pořadím tokenů v rámc atrbutů jsou fms apx vyhodnoceny jako dentcké. Algortmus fms apx spočívá v aplkac fms na mnoţny q-tc QG q (s) vznklé rozloţením původních tokenů na sub-řetězce dané délky. Např. pro q = 3 a token s = corporaton je QG3( corporaton ) mnoţna {cor, orp, rpo, por, ora, rat, at, to, on}. Do výpočtu fms apx ale vstupují pouze q-tce, které představují tzv. mnhash sgnaturu, která je pro mnoţnu řetězců S defnována jako vektor mhs mh1 S,..., mh H S, jehoţ -tý koordnát je defnován výrazem mh S a arg mn h. as [1] přrovnává výpočet mn-hash sgnatury k házení špkam na terč do zásahu elementu z S. Aproxmac fms pro záznamy u a v defnuje [1] pomocí následujícího výrazu: apx 1 fms u, v wt. wu ttoku 2. Max smmh QG t, QG r d q, kde rtok v q sm mh QG t, QG r je tzv. mn-hash podobnost dvou q-tc vytvořených ze záznamů u a v, dq = (1-1/q). Mn-hash podobnost dvou tokenů t1 a t2 lze defnovat výrazem: sm mh 1 H H t, t Imh QGt mh QGt Výpočet fms apx bude nejlépe demonstrovat na příkladu. Předpokládejme délku q-tc q = 3, maxmální počet q-tc H = 2. Dále předpokládejme vstupní záznam v [Company Beong, Seattle, NULL, 98004] a referenční záznam u[boeng Company, Seattle, WA, 98004], tedy dva záznamy lšící se pouze pořadím tokenů v prvním sloupc, přesmyčkou Boeng za Beong a chybějící zkratkou státu Washngton. Předpokládejme, ţe mn-has sgnatura pro vstupní záznam u je [eo, ng], [com, pan], [sea, ttl], [980, 004] a pro referenční záznam v je [oe, ng], [com, pan], [sea, ttl], [wa], [980, 004]. Dále předpokládejme váhy jednotlvých tokenů ve vstupním záznamu w(u) = 0,25 + 0, = 3,75. Fms apx gnoruje náklady na vloţení tokenu WA a rovněţ gnoruje změnu pořadí tokenů v prvním atrbutu. V tomto příkladu s tedy neodpovídají pouze tokeny Boeng a Beong. fms apx (u, v) je tedy rovna 1 / w(u) * w(beong) * (2/3 * 0,5 + (1 1/3)) = 3,75 / 3,75 * 1 = 1. Fms apx tedy označla oba řetězce za totoţné

9 Další možnost optmalzace použtí ED Ignorování samohlásek [13] doporučuje př procesu porovnávání a slučování vynechání samohlásek v porovnávaných řetězcích. Zdůvodňuje to častým chybam vznklým vlvem špatného hláskování. V anglckém jazyku zní např. Charle stejně jako Charley. Př vynechání samohlásek by takto posouzení vzdálenost řetězců pomocí ed ukazovalo jejch naprostou shodu. c h a r l e c h a r l e y 0 0 X 0 0 X X Kódování pomocí algortmu SOUNDEX Další, poněkud komplkovanější cestou optmalzace ed, kterou okrajově zmňuje [13], je pouţtí algortmu SOUNDEX. Jedná se o fonetcký algortmus (vz. např. [14], [15]), tj. algortmus, který ndexuje slova podle jejch výslovnost. Konkrétně algortmus SOUNDEX stejným způsobem kóduje slova, která mají velm podobnou výslovnost. Algortmus byl vyvnut specelně pro anglofonní prostředí a jeho pouţtí v jném prostředí by s vyţádalo jeho přzpůsobení. Přesný postup algortmu je následující: 1. Zachování 1. písmene řetězce 2. Smazání písmen A,E,H,I,O z řetězce 3. Nahrazení zbývajících souhlásek čísly podle následující tabulky: Původní písmeno B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D, T 3 L 4 M, N 5 R 6 Nahrazení číslem 4. Pokud je více písmen zakódováno stejně, smaţe všechna taková kromě prvního. Dále uvádím několk příkladů pouţtí algortmu SOUNDEX na konkrétních dvojcích řetězců. V prvním příkladu algortmus SOUNDEX 11 zafunguje v anglofonním prostředí př záměně řetězců SMITH a SMYTHIE a označí je za shodné (otázkou však je, zda správně). SMITH S53 = SMYTHIE S53 V druhém příkladu ale neoznačí za totoţné řetězce KAROL a CAROL (vz. 1. bod postupu algortmu uvedeného výše). Zde by pouţtí výsledku algortmu SOUNDEX jako vstupu pro ed vedlo k výsledku 1/3, zatímco aplkace ed na původní řetězce k lepšímu výsledku 1/5. KAROL K64!= CAROL C64 Ve třetím příkladu algortmus vede k totoţnému kódování v češtně často zaměňovaných slov švec a ševc 12. ŠEVC S12 = ŠVEC S12 Stejně tak jako ve čtvrtém a pátém příkladu shodně zakóduje podobně znějící dvojce slov kosa / koza a lup / lub. KOSA K2 = KOZA K2 LUP L1 = LUB L1 V šestém příkladu algortmus zafunguje na dvojc českých jmen IVANA a IVONA. IVANA I15 = IVONA I15 Přesto otázka reálné pouţtelnost algortmu SOUNDEX pro optmalzac fuzzy match zůstává otevřená. Bylo by totţ nutné předem určt, na která konkrétní slova se má pouţít. V této souvslost je nutné upozornt, ţe v [13] je tato moţnost uvedena pouze jako okrajová poznámka s tím, ţe samotného autora tohoto článku pokusy s algortmem SOUNDEX přílš nepřesvědčly ctuj: o záruce jeho uţtečnost. Přřazení vah jednotlvým sloupcům [1] jako jedno z doplňujících vylepšení aplkace fms apx uvádí moţnost doplnění stávajících vah zaloţených na IDF subjektvním vaham důleţtost jednotlvých atrbutů. Nové váhy pouţté ve výpočtu fms jsou tedy součnem původních IDF vah tokenů w(t) a sloupcových vah W. 11 Pro tento příklad byla pouţta mplementace algortmu SOUNDEX v nástroj SAS Můj kolega z práce se jmenuje Ševc a často je oslovovaán jako pan Švec. 9

10 Výkonnostní problémy př užtí Fuzzy Match Vzájemné porovnávání tokenů (nebo jejch q-tc) můţe v reálné stuac představovat značný výkonnostní problém. Navní algortmus prohledává př aplkac měr podobnost referenční relac R a srovnává kaţdý její záznam se vstupním záznamem u. V rámc optmalzace je však vhodné vytvořt na referenční relac ndex. Jak ovšem poznamenává [1], přímou aplkac klasckých B+-tree ndexů nelze uvaţovat, neboť je lze pouţít pouze, pokud předpokládáme přesnou shodu srovnávaných atrbutů. Použtí M-tree ndexu Pouţtí M-tree ndexu v případě "podobnostního dotazování" v multmedálních databázových systémech, zaměřujících se na jednotnou správu záznamu hlasu, vdea, obrazu, textu a numerckých dat uvádí [23]. M-tree vytváří partton objektů na základě jejch relatvní vzdálenost měřené pomocí lbovolné metrky 13. Pro vyhodnocení podobnost uvaţuje [23] pouţtí rozsahu (range) a algortmu k - nejblţších sousedů. Range query vrací všechny ndexované objekty, jejchţ vzdálenost od daného objektu je menší nebo rovna zadané maxmální vzdálenost. Query pouţívající algortmus k - nejblţších sousedů Negatvem pouţtí této metody (stejně jako např. R-tree ndexu) je její nepouţtelnost v prostředí klasckých datových skladů. V podstatě lze tímto způsobem vytvořt ndex nad lbovolným daty, pro něţ lze spočíst metrku podobnost. Použtí Error tolerant ndexu Efektvní řešení ndexace př pouţtí fms apx nabízí [1] v podobě tzv. Error tolerant ndexu (ETI). ETI je vlastně pomocná tabulka, která přřazuje kaţdé mnhash sgnatuře její pozc v rámc atrbutu, číslo atrbutu, absolutní četnost v rámc referenční relace R a mnoţnu dentfkátorů řádků v rámc referenční relace, které sgnaturu obsahují 14. Nad touto tabulkou je poté vytvořen cluster ndex přes atrbuty Q-tce, Koordnát a Sloupec. Rozklad vstupního řetězce u na mn-hash sgnatury o q=3, H=2 Beong [eo, ng] S 1, S 2 Company [com, pan] S 3, S 4 Seattle [sea, ttl] S 5, S 6 13 M-tree je po této stránce plně parametrzované a konkrétní funkce pouţtá jako metrka je pro něj černou skříňkou. 14 Realzace tabulky ETI pomocí standardních SQL dotazů s samozřjemě vyţaduje vytvoření mezkroku [Q-tce, Koordnát, Sloupec, Td]. WA [wa] S [980, 004] S 8, S 9 Příklad vytvoření ETI pro celou referenční relac R Q-tce Koordnát Sloupec Freq Td lst oe {R1} ng {R1} com {R1,R3} pan {R1,R3} bon {R2} orp {R2} at {R2} sea {R1,R2,R3} ttl {R1,R2,R3} wa {R1,R2,R3} {R1,R2,R3} {R1} {R2} {R3} Postup Fuzzy Match má tedy následující podobu: 1. Incalzace hash tabulky pro td skóre; Korgující člen je nastaven na nulu 2. Provedení tokenzace vstupního záznamu u a následně odvozeny mn-hash sgnatury ze všech vznklých tokenů 3. Přřazení vahám jednotlvým tokenům; RemWt = součet všech vah 4. Nastavení prahové hodnoty jako součnu původního prahu mnmální shody c a RemWt 5. Pro kaţdou mn-hash sgnaturu s pořadím 1 v daném tokenu a sloupc upravt korgující člen += váha příslušného tokenu * (1-1/q) 6. Pro kaţdou mn-hash sgnaturu proveden lookup do ETI tabulky 7. Pro kaţdou mn-hash sgnaturu proveden update td skóre. Skóre exstujících td je zvýšeno o váhu dané q-tce spočtené jako podíl váhy tokenu a délky q-tce, pokud pro ní v ETI tabulce exstuje td. Pokud je RemWt vyšší nebo rovno prahové hodnotě, 10

11 jsou vloţeny nové td se skóre odpovídající podílu váhy tokenu a délce dané q-tce. 8. Pro kaţdou mn-hash sgnaturu RemWt -= váha q-tce 9. Vybrat všechny záznamy z referenční relace R, pro td se skóre >= c korekční člen 10. Pomocí f porovnání kaţdého takového referenčního záznamu se vstupním záznamem u 11. Získání sady nejvýše K referenčních záznamů s podobností nad w(u)*c. Další optmalzac pouţtí ETI [1] shledává v pouţtí tzv. optmstckého zkratování (angl. optmstc short crcutng), které radkálně snţuje počet lookupů do tabulky ETI tím, ţe zohledňuje váhy jednotlvých tokenů. Váha jednotlvým mn-hash sgnaturám je určena jako podíl váhy tokenu a délky příslušné q- tce. Tato váha je pochoptelně shodná v rámc všech mn-hash sgnatur pocházejících z jednoho tokenu. Rozšíření tématu Jný příklad doménově nezávslého řešení uvádí např. [22]. Jedná se o řešení problému elmnace fuzzy duplct v rámc dmenzonálních tabulek datového skladu. Tedy o retrospektvní řešení problémů, které jţ měly být vyřešeny např. v rámc CDI na úrovn Customer Hubu. Hstorcky se pro tento účel pouţívaly buď shodné technky zaloţené na míře vzdálenost, jaké byly prezentovány v této prác výše (např. ed, Kosínový koefcent, apod.), a nebo doménově specfcká pravdla (např. pro deduplkac adres v nástroj frmy Trllum). Vzhledem k chybovost některých popsaných metrk a snaze o vývoj doménově nezávslého řešení, [22] nabízí vlastní algortmus DELPHI (Duplcate ELmnaton n the Presence of HIerarches). Toto řešení vyuţívá herarchcké struktury některých dmenzí a nabízí efektvní grupovací strateg, díky níţ jsou v kaţdé relac porovnávány záznamy pouze s malou skupnou referenčních záznamů. Např. pokud uvaţujeme herarch Název frmy Město Stát Země 15, porovnává např. pouze záznamy v dmenz Stát, pokud odkazují na stejnou Zem, resp. dva záznamy pro různé Země odkazující pouze na jeden Stát. Závěr V dnešní době jţ není zcela pravdvé tvrzení publkované v [7], ţe komerční databázové systémy samy nepodporují tzv. přblţné spojování řetězců (v podstatě další synonymum pro Fuzzy Match) a ţe je 15 Má smysl pro USA, Kanadu, UK. Pro valnou většnu zemí EU by se spíše hodla herarche Název Město Regon Stát. tedy nutné tuto problematku řešt pomocí uţvatelem vytvořených funkcí nebo koupí specalzovaného software (s problémy spojeným s nutnou ntegrací s DB). Pouţtí různých metod pro spojování záznamů v komerčních systémech znázorňuje následující tabulka. Commercal System SQL Server Integraton Servces 2005 OracleBI Warehouse Bulder 10gR2 Pars IBM s Entty Analytc Solutons, QualtyStage Zdroj: [17] Record Lnkage Methodology Fuzzy Lookup; Fuzzy Groupng; uses Error Tolerant Index match-merge rules; determnstc and probablstc matchng probablstc matchng (nformaton content); mult-pass blockng; rulesbased mergng Př aplkac Fuzzy Match je ale vţdy nutné pamatovat, ţe spolehlvost této metody dosud není přes všemoţné snahy výzkumníků vţdy 100%. V oblast aplkace Fuzzy Match exstují stále určté výzvy, kterým bych se rád dále věnoval ve své dsertační prác : 1. [17] upozorňuje na absenc srovnávacích studí jednotlvých algortmů z hledska jejch kvalty. Vyzývá k vývoj standardních benchmarků v této oblast. 2. Vývoj modfkace algortmu SOUNDEX pouţtelný pro shodné zakódování podobně znějících slov v českém prostředí s důsledným vymezením případů, kdy tento algortmus lze aplkovat. 3. Další výzvou je vyšší míra automatzace aplkace algortmů, bez nutnost občasného ldského rozhodnutí. Např. př moţné shodné hodnotě funkce podobnost pro více referenčních záznamů. Reference [1] Chaudhur S., Ganjam K., Gant V., Motwan R.: Robust and Effcent Fuzzy Match for Onlne Data Cleanng, SIGMOD 2003, June 9-12, 2003 San Dego, CA. [2] Wang, R,Y., Zad, M., Lee, Y.,W.: Data Qualty, The Kluwer Internatonal Seres on Advances n Database Systems Volume 23, Sprnger, Berln, [3] Král J., Ţemlčka M.: Kvalta dat a nformací základní omezení IT ve veřejné správě, Systems Integraton 2006, str [4] Merram-Webster Onlne Dctonary, výklad pojmu fuzzy: 11

12 [5] Rubens N. O.: The Applcatonn of Fuzzy Logc to The Constructon of The Rankng Functon of Informaton Retreval Systems, Computer Modellng and New Technologes, 2006, Vol. 10., No. 1, str [6] Novák V.: Základy fuzzy modelování, BEN techncká lteratura, Praha 2000, ISBN [7] Gravano L., Iperots P. G., Jagadsh H. V., Koudas N., Muthukrshnan S., Srvastava D.: Approxmate strng jons n a database (almost) for free. In Proceedngs of VLDB, Roma, Italy. September [8] Navarro G., Baeza-Yates R., Sutnen E., Tarho J.: Indexng methods for approxmate strng matchng. IEEE Data Engneerng Bulletn, 24(4):19 24,2001. [9] Dyché J., Levy E: Customer Data Integraton Reachng a Sngle Verson of Truth, John Wley & Sons, Inc., 2006, ISBN [10] Eckerson W. W.: Data Warehousng Specal Report: Data qualty and the bottom lne, 2002, [11] Dorr B., Herbert P.: Data Proflng: Desgnng the Blueprnt for Improved Data Qualty, SUGI 30, Data Warehousng, Management and Qualty, Paper , [12] Englsh L.: Improvng Data Warehouse and Busness Informaton Qualty Methods for Reducng Costs and Increasng Profts, John Wley & Sons, 1999, ISBN: [13] Patrdge Ch.: The Fuzzy Feelng SAS Provdes: Electronc Matchng of Records wthout Common Keys, Observatons the techncal journal for SAS Software Users, 1998, SAS Insttute Inc., Cary. [14] Wkpeda The free encyclopeda: [15] SAS Insttute Inc SAS OnlneDoc Cary, NC: SAS Insttute Inc. [16] Search Engne Dctonary A Complete Gude to Search Engne Termnology, výklad pojmu fuzzy matchng ( ): [17] Srvastava D.: Record Lnkage: A Database Approach, AT&T Labs-Research: [18] [19] Broder A.: On the resemblance and contanment of documents. In Compresson and Complexty of Sequences (SEQUENCES 97), [20] Cohen E.: Sze estmaton framework wth applcatons to transtve closure and reachablty. Journal of Computer and System Scences, [21] Cohen W.: Integraton of Heterogeneous Databases Wthout Common Domans Usng Queres Based on Textual Smlarty. In Proceedngs of ACM SIGMOD, Seattle, WA, June [22] Ananthakrshna R., Chaudhur S., Gant V.: Elmnatng fuzzy duplcates n data warehouses. In Proceedngs of VLDB, Hong Kong, [23] Cacca P., Patella M., Zezula P.: M-Tree: An effcent access method for smlarty search n metrc spaces. VLDB [24] Wnkler W.: The state of record lnkage and current research. Statstcs of Income Dvson, Internal Revenue Servce Publcaton R99/04 [25] Wnkler W. E., Thbaudeau Y.: An Applcaton of the Felleg-Sunter Model of Record Lnkage to the 1990 U. S. Decennal Census, U. S. Burreau fo Census, [26] Balle M., Azzopard L, Crestan F.: Towards Better Measures: Evaluaton of Estmated Resource Descrpton Qualty For Dstrbuted IR. 12