cs44 Původní práce Stochastické modely v procesu identifikace Dalibor Slovák, Jana Zvárová,2 2 Centrum biomedicínské informatiky, Ústav informatiky AV ČR, Praha, Česká republika Ústav hygieny a epidemiologie, lékařská fakulta, Karlova univerzita, Praha, Česká republika Souhrn Cíl: Analýza DNA je dnes širokou veřejností přijímána jako zcela standardní a bezchybná metoda, ale za některých okolností může její spolehlivost výrazně klesat Tento příspěvek se zabývá procesem identifikace a stanovením váhy evidence proti podezřelému a uvedeme v něm hlavní stochastické přístupy k identifikaci osob Metody: Z Bayesovy věty jsme odvodili vzorec pro stanovení váhy evidence a ukázali jeho použití v modelu ostrovního problému K výpočtům složitějších situací jsme použili z Dirichletova rozdělení odvozenou beta-binomickou formuli Výsledky: Z mnoha různých komplikací v modelu ostrovního problému jsme ukázali, jak se vypořádat s nejistotou ve velikosti populace Beta-binomickou formuli jsme využili k zahrnutí subpopulační struktury a v problematice DNA směsí Závěry: Zejména vliv populační struktury je dnes nedostatečně prozkoumán S využitím výsledků H Kubátové jsme v této oblasti odvodili nové vzorce Mgr Dalibor Slovák Klíčová slova proces identifikace, vzorec pro stanovení váhy evidence, coancestry koeficient, beta-binomická výběrová formule, DNA směsi Kontakt: EJBI 20; 7():44 50 Mgr Dalibor Slovák Centrum biomedicínské informatiky, Ústav informatiky AV ČR, vvi Adresa: Pod Vodárenskou věží 2, 82 07 Praha zasláno: 20 září 20 přijato: 24 října 20 publikováno: 20 listopadu 20 E mail: slovak@euromisecz Úvod Když Alec Jeffreys v polovině 80 let objevil způsob, jak spolehlivě odlišit DNA dvou osob, způsobil tím v kriminalistice doslova revoluci Využití DNA profilů pomohlo usvědčit pachatele zločinů, které se již zdály být nevyřešitelné, a naopak poukázalo na nevinu lidí již odsouzených Analýza DNA je dnes širokou veřejností přijímána jako zcela běžný postup, který spolehlivě usvědčí pachatele Právě tady se ovšem skrývá jeden z hlavních problémů použití DNA - ani tento důkaz není stoprocentní Může dojít k umístění falešné stopy (pachatelem odhozený nedopalek cigarety, který předtím kouřil někdo jiný), ke špatnému odběru biologických vzorků či jejich poškození, k druhotnému přenosu biologického materiálu Zabývat se těmito skutečnostmi však není věcí matematiků Ti jsou postaveni před následující úkol: jestliže vyloučíme EJBI Ročník 7 (20), číslo všechny výše uvedené možnosti, jaká je pravděpodobnost, že pachatelem je konkrétní zadržená osoba, máme-li k dispozici DNA profily pachatele a podezřelého? Jak uvidíme dále, odpověď závisí zejména na počtu lokusů, z nichž sestavujeme DNA profil, a variabilitě v každém z nich Ve forenzní praxi se v současné době využívají genetické profily sestavené z tzv STR polymorfismů, kde STR značí short tandem repeat (opakované krátké sekvence nukleotidů) STR polymorfismy v sobě jednak ukrývají značnou variabilitu, jednak se vyskytují v oblastech DNA, které nekódují žádný vnější znak, takže z nich nelze získat žádnou informaci např o zdravotním stavu či predispozici k nějaké chorobě Díky tomu jsou STR polymorfismy velmi vhodné k identifikaci pro forenzní účely Numerickou reprezentaci DNA profilu tvoří v každém lokusu dvojice čísel označujících příslušné alely (jednu zděděnou od matky, jednu od otce) Na závěr následují písmena XX nebo XY informující o pohlaví zkoumané osoby c 20 EuroMISE sro
Slovák, Zvárová Stochastické modely v procesu identifikace cs45 Počet lokusů se liší stát od státu, od 7 užívaných v Německu až po 6 v České republice Příkladem systému sloužícího k vytvoření profilu DNA je SGM Plus užívaný ve Velké Británii, který využívá k identifikaci deset lokusů a informaci o pohlaví Výsledný DNA profil může mít například následující tvar: 5,8; 6,9;,3; 22,22; 3,322; 4,7; 7,20;,2; 3,63; 5,6; XY Čísla udávají informaci, kolikrát se na daném místě opakuje příslušná repetitivní sekvence Pokud není v posledním úseku přítomen celý opakující se motiv, ale pouze jeho část, uvede se počet úplných úseků a počet bází tvořících neúplný úsek Například alela 322 obsahuje 32 po sobě jdoucích stejných úseků a poté ještě dvě báze úseku dalšího ([0]) Ačkoli DNA každé osoby je unikátní (s výjimkou jednovaječných dvojčat), DNA profil je pouze restrikcí celé DNA, takže existuje sice malá, ale přesto konečná šance (u systému SGM Plus se udává ku miliardě), že dvě nepříbuzné osoby budou mít stejný DNA profil Z tohoto důvodu není možné obvinit nějakou osobu pouze na základě DNA - vždy zde musí být ještě další usvědčující evidence DNA z místa činu může také velmi rychle podléhat degradaci, ať už působením bakterií, UV záření či nepříznivých přírodních podmínek Kvůli kvalitě biologického materiálu a/nebo jeho množství není vždy možné zkoumat všechny polymorfismy Neúplný DNA profil může vypadat např takto: 5, ; 6,9;,3;, ; 3,322; 4,7;,20;,2; 3,63; 5,6; XY Pravděpodobnost jednoznačné identifikace v takovémto případě odpovídajícím způsobem klesá, nicméně i velmi neúplné profily mohou být použity alespoň k vyloučení některých osob V dalším textu budeme předpokládat, že vyšetřujeme jen jeden lokus Zobecnění na větší množství lokusů lze za předpokladu nezávislosti jednotlivých lokusů provést pomocí součinového pravidla, tedy vynásobením jednotlivých marginálních pravděpodobností 2 Metody Označme E (evidence) - informace o zločinu (okolnosti, výpovědi svědků, důkazní materiál nalezený na místě činu, ), G - jev, že podezřelý je vinen, I - jev, že podezřelý je nevinen, C i - jev, že pachatelem je osoba i, I - populace alternativních podezřelých, tj další možní pachatelé vyjma podezřelého Naším cílem je určit podmíněnou pravděpodobnost P(G E), že za daných okolností je podezřelý skutečně pachatelem vyšetřovaného zločinu Podle Bayesovy věty platí P(E G)P(G) P(G E) P(E G)P(G) + P(E I)P(I) () Avšak výraz P(E I) nelze spočítat přímo Podezřelý je nevinen právě tehdy, když existuje index i I, že nastává jev C i Jev I je tedy ekvivalentní s jevem i I C i a díky disjunktnosti jevů C i platí Odtud P(I) P ( i I C i ) i I P(C i ) P(E I)P(I) P (E i I C i ) P ( i I C i ) P (E ( i I C i )) P ( i I C i ) P ( i I C i ) P ( i I (E C i )) i I P (E C i ) i I P(E C i )P(C i ) Definujme věrohodnostní poměr R i P(E C i) P(E G), (2) jenž vyjadřuje, kolikrát je pravděpodobnost vzniku evidence E větší za podmínky, že pachatelem je osoba i, než za podmínky, že pachatelem je podezřelý Dále definujme věrohodnostní váhy w i P(C i) P(G), jež vyjadřují, kolikrát je apriorní pravděpodobnost spáchání zločinu osobou i větší než apriorní pravděpodobnost spáchání zločinu podezřelým Potom platí P(G E) + i I w ir i (3) Vzorec (3) se obvykle nazývá vzorec pro stanovení váhy evidence 3 Ostrovní problém Nejjednodušší aplikací předchozí části je tzv ostrovní problém Jedná se o modelovou situaci, kdy je na nepřístupném ostrově s N vzájemně nepříbuznými obyvateli spáchán zločin Na počátku nemáme žádné informace o pachateli, a tak každému z ostrovanů přidělíme stejnou (apriorní) pravděpodobnost spáchání zločinu Je zjištěno, že pachatel je nositelem jistého znaku Υ (tímto znakem může být např alela, resp dvojice alel, na vybraném loc 20 EuroMISE sro EJBI Ročník 7 (20), číslo
cs46 Slovák, Zvárová Stochastické modely v procesu identifikace kusu), a u podezřelého byl tento znak rovněž nalezen Jak moc si můžeme být jisti, že námi nalezený podezřelý je skutečně pachatel? Nejprve pomocí vzorce (2) vypočítáme věrohodnostní poměr Buď p frekvence znaku Υ v populaci a předpokládejme, že evidence E sestává pouze z informace, že DNA profil podezřelého se shoduje s DNA profilem nalezeným na místě činu Za platnosti hypotézy G pochází oba tyto profily od stejné osoby, tudíž je jmenovatel R i roven Je-li pachatelem osoba i I, pravděpodobnost vzniku evidence E lze odhadnout jako p Protože w i i I, je podle vzorce (3) P(G E) + N p (4) Je-li například p 00 a N 00, potom P(G E) /2 Předchozí výsledek může být modifikován pro mnoho složitějších (a reálnějších) situací Podívejme se, pro které situace je tento jednoduchý model nedostačující: Bezchybnost testu na znak Υ Kromě toho, že test může v malém procentu dávat chybné výsledky, je možné uvažovat i chyby způsobené takzvaně lidským faktorem : kontaminace či záměna vzorku, z nějž je stav Υ zjišťován, chybné vyhodnocení výsledku či dokonce záměrná dezinterpretace Počet obyvatel N Velikost populace N je často pouze odhadnuta a pokud dochází u vyšetřované populace k migraci, je třeba při stanovení počtu obyvatel počítat s o to větší nejistotou Pravděpodobnost p výskytu znaku Υ v populaci Rovněž hodnota p je obvykle neznámá, a proto se odhaduje na základě relativní četnosti výskytu Υ v podobné populaci, o níž máme více informací Ovšem tato pomocná data mohou být již zastaralá nebo vystihují naši populaci jen zčásti Výběr podezřelého Podezřelý obvykle není vybírán z populace náhodně, ale na základě dalších indicií, které zvyšují pravděpodobnost viny Jinou možností je vybírání podezřelého na základě testování osob z populace na přítomnost znaku Υ Tímto způsobem může dojít k vyloučení osob, u nichž znak Υ nebyl nalezen, a tím ke zmenšení velikosti populace podezřelých osob Příbuznost a příslušnost ke stejné subpopulaci Pokud je podezřelý (nebo jiná testovaná osoba) nositelem Υ a zároveň jsou v populaci zahrnuti nějací jeho příbuzní, v případě profilu DNA se díky dědičnosti zvyšuje pravděpodobnost výskytu Υ Nezvykle vysoká relativní četnost obvykle vzácného znaku se často vyskytuje i v rámci stejné subpopulace EJBI Ročník 7 (20), číslo Stejná apriorní pravděpodobnost spáchání zločinu Ačkoli tento požadavek intuitivně odpovídá všeobecné presumpci neviny, můžeme různým osobám přiřadit rozdílnou apriorní pravděpodobnost, kupříkladu na základě vzdálenosti od místa činu, časové dostupnosti nebo možnému alibi V následujících kapitolách si některé tyto případy rozebereme podrobněji 4 Nejistota ohledně N Nejistota ohledně velikosti populace možných alternativních podezřelých působí na apriorní pravděpodobnost P(G) Nechť velikost populace Ñ je náhodná veličina se střední hodnotou N Apriorní pravděpodobnost viny podmíněně při hodnotě Ñ je P(G Ñ) /(Ñ + ), ale protože Ñ neznáme, použijeme střední hodnotu: [ ] [ ] P(G) E G Ñ E Ñ + Funkce /(Ñ +) není symetrická, ale je alespoň na intervalu (0, ) konvexní Z Jensenovy nerovnosti pro konvexní funkci (E[f(x)] f(e[x])) plyne [ ] P(G) E Ñ + N +, neboť E[Ñ] N Opomenutí nejistoty ohledně hodnoty N tedy působí ve prospěch obžalovaného Navíc je tento efekt obvykle velice malý; pojďme si to ukázat na konkrétních případech Položme pro ε (0; 0, 5) N Ñ N N + s pravděpodobností ε s pravděpodobností 2ε s pravděpodobností ε Potom P(G) [ ] E ε Ñ + N + 2ε N + + ε N + 2 N + + 2ε N(N + )(N + 2) N + a položíme-li ε 0, 25 a N 00, potom P(G) je větší než /(N + ) o pouhých 0, 000000485 Podívejme se, co způsobí nejistota ve velikosti populace ve vzorci (4): P(G E) + i R i P(Ci) P(G) + p P(G) P(C i ) i } {{ } P(G) + p N(N+)(N+2) N 2 +2N+2ε ( N 2 +2N+2ε N(N+)(N+2) ) c 20 EuroMISE sro
Slovák, Zvárová Stochastické modely v procesu identifikace cs47 + Np N 3 +2N 2 2ε N 3 +2N 2 +2Nε ( ) N+ + Np 2ε N 3 +2N 2 +2Nε Dosadíme-li opět ε 0, 25 a N 00, vychází P(G E) 0, 500024, což se i přes vysokou hodnotu ε liší od původního výsledku 50 %, při jehož výpočtu jsme hodnotu N brali jako pevnou, v řádu pouhé jedné tisíciny procenta Pokud budeme chtít přesto počítat s nejistotou ohledně N, lze jako velice dobrou aproximaci brát P(G E) + Np ( 2ε/N 2 ) ; v našem příkladě dává tato aproximace výsledek P(G E) 0, 500025, tedy 50, 0025 % Balding v [] používá řádově horší aproximaci P(G E) + Np ( 4ε/N 3 ), která dává v našem příkladě hodnotu P(G E) 0, 5000003, to znamená 50, 00003 % 5 DNA databáze DNA profily jakožto alfanumerický sled dat umožňují poměrně snadné uchovávání v databázích, od poloviny 90 let proto vznikají národní databáze V současnosti existují tři hlavní forenzní DNA databáze: CODIS (Combined DNA Indexing System), který spravuje americká FBI, evropská databáze ENFSI (European Network of Forensic Science Institutes) a databáze ISSOL (Interpol Standard Set of Loci) spravovaná Interpolem Všechny tyto databázové systémy rozdělují získané genetické profily do dvou dílčích databází Ve forenzní databázi se ukládají biologické vzorky získané na místě činu, v databázi odsouzených potom figurují genetické profily osob v minulosti odsouzených Tyto dvě databáze jsou pak vzájemně porovnávány a případné shody profilů jsou prověřeny kvalifikovanými odborníky Každá země má vlastní pravidla, kteří lidé mohou být zařazeni do databáze Zpočátku byly uchovávány vzorky pouze od pachatelů násilných trestných činů (znásilnění, násilné přepadení či vražda) Postupem času se ovšem zjistilo, že je prospěšné uchovávat vzorky i od pachatelů méně závažných činů I pachatelé násilných činů totiž obvykle začínají svou trestnou činnost méně závažnými zločiny Rozsáhlá databáze proto může sloužit rovněž jako odstrašující prostředek Pokud dojde ke shodě DNA z místa činu se záznamem z databáze odsouzených, obvykle to výrazně napomáhá vyřešení zločinu, navíc za úspory času, úsilí i peněz ([3]) V absolutních číslech je největší národní databází DNA americký National DNA Index System (NDIS) V červenci 20 obsahovala databáze odsouzených téměř deset miliónů profilů a forenzní databáze přes 380 000 profilů ([7]) V poměru k počtu obyvatel je však největší databází ta nejstarší - britská NDNAD eviduje v databázi odsouzených přibližně šest a půl miliónu profilů Ve Velké Británii zvedlo vytvoření DNA databáze počet vyřešených zločinů z 24 % na 43 % O prospěšnosti rozsáhlé databáze svědčí také skutečnost, že šance, že se bude nově získaný DNA profil shodovat s nějakým záznamem z databáze odsouzených, vzrostla ze 45 % v sezóně 2002/03 na 60 % v sezóně 2008/09 ([8]) I z tohoto důvodu má DNA databáze podporu široké veřejnosti Na druhou stranu se z DNA dají zjistit velmi citlivé osobní údaje, proto je nutné zajistit důkladnou ochranu databáze proti zneužití Rovněž v České republice došlo po vytvoření DNA databáze v roce 2002 k jejímu rychlému rozvoji a v současnosti národní databáze obsahuje přibližně 90 000 genetických profilů 6 Příbuznost a příslušnost k subpopulaci Alely, které jsou shodné a pocházejí od společného předka, nazýváme ibd alely Společná nedávná evoluční historie dvou osob, ať už se jedná o příbuzné jedince nebo o příslušníky stejné subpopulace, zvyšuje pravděpodobnost výskytu ibd alel Jako míra příbuznosti uvnitř subpopulace se proto používá coancestry coefficient θ, udávající pravděpodobnost, že dvě náhodně vybrané alely na pevně zvoleném lokusu jsou ibd Zanedbání vlivu příbuznosti a populační struktury vede k nadhodnocení aposteriorní pravděpodobnosti viny podezřelého Ignorování takovéto informace mluví v neprospěch podezřelého, proto je tomuto tématu věnována značná pozornost Balding a Nichols v [2] navrhli metodu, která skrze coancestry koeficient umožňuje vypočítat pravděpodobnost pozorování daného genotypu ve strukturované populaci Podrobnější matematické odvození metody včetně několika oprav provedla Helena Kubátová v [6] Buď p A, p B frekvence alel A a B v celé populaci, k podíl velikosti subpopulace na velikosti celé populace a θ coancestry koeficient pro danou subpopulaci Potom se pravděpodobnost pozorování genotypu v daném lokusu homozygotním vypočte jako ( P(AA) p A θ + ( θ) p ) A θk (5) θk a podobně pravděpodobnost pozorování genotypu heterozygotního jako P(AB) 2p A p B θ θk (6) Balding a Nichols ve svém odvození nepoužívali proměnnou k Jejich vzorce dostaneme, pokud položíme k, pravděpodobnosti homozygotních genotypů tedy klesly a pravděpodobnosti heterozygotních genotypů naopak vzrostly c 20 EuroMISE sro EJBI Ročník 7 (20), číslo
cs48 7 Beta-binomická formule Vzorce (5) a (6) dostaneme také tehdy, pokud zvolíme obecnější postup navržený Wrightem ([]) Mějme na daném lokusu J alel A,, A J, majících pravděpodobnost výskytu v populaci p,, p J, J i p i Zastoupení jednotlivých alel v subpopulaci můžeme modelovat Dirichletovým rozdělením s parametry λp i, kde λ θ θ( k) Pravděpodobnost pozorování m i alel A i ( i m i n) je potom dána P(m,, m J ) Γ (λ) Γ (λ + n) J i Γ (λp i + m i ) (7) Γ (λp i ) Položme m (m,, m J ) Vzorec (7) lze upravit na P(m) J j m j i0 n i0 [( θ) p j + θi ( k)] [ θ + θi ( k)] (8) Vzorec (8) se obvykle nazývá betabinomická výběrová formule a platí pro uspořádané výběry Budeme-li chtít pracovat s neuspořádaným výběrem, je třeba výsledek vynásobit n! m! m J! Ze vzorce (8) můžeme odvodit i pravděpodobnost pozorování dané kombinace alel: pro J 2, m A 2 a m B 0 dostáváme P(AA) ( θ) p A [( θ) p A + θ ( k)] ( θ) [ θ + θ ( k)] [ ( θ) pa + θ θk p A + θ θ θ2 k θk θk [ p A θ + ( θ) p A + θ θk θ + θ 2 ] k θk [ p A θ + ( θ) p A θk ( θ) θk p A [ θ + ( θ) p A θk θk což je v souladu se vzorcem (5) ], ] Podobně pro J 2, m A a m B dostaneme ] ( θ) p A ( θ) p B P(AB) 2 ( θ) ( θ + θ ( k)) 2p θ Ap B θk, což souhlasí s (6) 8 Aplikace beta-binomické formule Pomocí vzorce (8) můžeme při znalosti dosud pozorovaných alel spočítat podmíněnou pravděpodobnost, že EJBI Ročník 7 (20), číslo Slovák, Zvárová Stochastické modely v procesu identifikace příští pozorovaná alela bude A j : P(m j + m,, m j,, m J ) ( θ) p j + m j θ ( k) θ + nθ ( k) (9) Označme G C a G S genotyp podezřelého a pachatele a G i obecně genotyp osoby i Věrohodnostní poměr (2) můžeme přepsat do tvaru R i P (G C G S D C i ) P (G C G S D G) P (G i G S D) P (G S D) P (G i D G S D) Předpokládejme nejprve, že pachatel má homozygotní profil A j A j, a vypočtěme, jaká je na základě znalosti této informace pravděpodobnost, že podezřelý má stejný homozygotní profil: R i P(G i A j A j G S A j A j ) P(A 2 j A 2 j) P(A j A 3 j) P(A j A 2 j) Tyto podmíněné pravděpodobnosti dokážeme vypočítat pomocí vzorce (9); nejprve do něj dosadíme m j n 2, poté m j n 3 Celkem tedy platí R i [( θ) p j + 2θ ( k)] [( θ) p j + 3θ ( k)] [ θ + 2θ ( k)] [ θ + 3θ ( k)] Podobně postupujeme pro heterozygotní profil A j A k : R i P(G i A j A k G S A j A k ) P(A j A k A j A k ) P(A k A 2 ja k)p(a j A ja k) + +P(A j A ja 2 k)p(a k A ja k) Pro vyčíslení obou výrazů na spodním řádku dosadíme m j, n 2 a m k, n 3, resp m k, n 2 a m j, n 3 Celkem vychází R i 2 [( θ) p j + θ ( k)] [( θ) p k + θ ( k)] [ θ + 2θ ( k)] [ θ + 3θ ( k)] 9 Směsi DNA Jestliže ve vzorku DNA nalezneme na jednom lokusu více jak dvě alely, je zřejmé, že se jedná o směs Počet přispěvatelů do směsi může být známý, nebo se odhadne, obvykle jako n 2, kde n je maximální počet zjištěných alel Z velkého množství situací, které mohou nastat, ukážeme pro ilustraci případ, kdy do směsi přispívá oběť (V ) a jedna další osoba Věrohodnostní poměr R i definovaný vzorcem (2) můžeme nyní napsat jako R i P (E C, G S, G V C i ) P (E C, G S, G V G) P (E C G S, G V, C i ) P (E C G S, G V, G) P (G S, G V C i ) P (G S, G V G) c 20 EuroMISE sro
Slovák, Zvárová Stochastické modely v procesu identifikace cs49 P (E C G S, G V, C i ) P (E C G S, G V, G) P (E C G V, C i ) P (E C G S, G V, G) (0) 9 Směs čtyř alel Nejprve se podíváme na případ, kdy je směs tvořena čtyřmi alelami Předpokládejme, že platí následující podmínky: Žádné dvě uvažované osoby nejsou v příbuzenském vztahu 2 Populace je homogenní (tj θ 0) 3 V populaci platí Hardyova-Weinbergova rovnováha Nechť je směs tvořena alelami A, B, C, D se známými celkovými pravděpodobnostmi výskytu v populaci p A, p B, p C, p D ; nechť podezřelý má alely A, B a oběť C, D Jmenovatel ve vzorci (0) je roven jedné, čitatel je roven pravděpodobnosti pozorování osoby s alelami A, B, což za výše uvedených předpokladů je 2p A p B Věrohodnostní poměr je tedy roven R i 2p A p B Předpokládejme nyní, že všechny tři uvažované osoby mají navzájem stejný stupeň příbuznosti vyjádřený coancestry koeficientem θ Potom podle (9) R i P (AB ABCD) 2 [( θ) p A + θ ( k)] [( θ) p B + θ ( k)] [ θ + 4θ ( k)] [ θ + 5θ ( k)] 92 Směs tří alel V případě výskytu tří alel ve vzorku je rovněž potřeba předpokládat minimálně dva přispěvatele do směsi Uvažujme tedy alely A, B, C s pravděpodobnostmi výskytu v populaci p A, p B, p C Je-li oběť homozygot pro alelu C, pak dostaneme stejné výsledky jako v případě směsi čtyř alel Předpokládejme tedy, že oběť je heterozygot s alelami A, B Nechť podezřelý je homozygot pro alelu C a jsou splněny podmínky až 3 Jmenovatel vzorce (0) je opět roven jedné, čitatel je tentokrát roven pravděpodobnosti pozorování osoby, která má alelu C a zároveň nemá jinou alelu než A, B nebo C Proto R i P(AC) + P(BC) + P(CC) 2p A p C + 2p B p C + p 2 C () K zahrnutí populační struktury využijeme vzorce (9): R i P (AC ABCC) + P (BC ABCC) + + P (CC ABCC) 2 [( θ) p A + θ ( k)] [( θ) p C + 2θ ( k)] [ θ + 4θ ( k)] [ θ + 5θ ( k)] + 2 [( θ) p B + θ ( k)] [( θ) p C + 2θ ( k)] [ θ + 4θ ( k)] [ θ + 5θ ( k)] + [( θ) p C + 3θ ( k)] [( θ) p C + 2θ ( k)] [ θ + 4θ ( k)] [ θ + 5θ ( k)] [( θ) p C + 2θ ( k)] [ θ + 4θ ( k)] [( θ) (2p A + 2p B + p C ) + 7θ ( k)] [ θ + 5θ ( k)] V předcházejícím výpočtu jsme předpokládali, že podezřelý je homozygot pro alelu C Je-li heterozygotem s alelami A a C, respektive B a C, za platnosti podmínek až 3 vzorec () zůstává nezměněn; v případě zahrnutí populační struktury dostaneme stejným postupem v obou případech věrohodnostní poměr R i [( θ) p C + θ ( k)] [ θ + 4θ ( k)] 0 Závěr [( θ) (2p A + 2p B + p C ) + 8θ ( k)] [ θ + 5θ ( k)] Odvodili jsme vzorec pro stanovení váhy evidence a jeho nejjednodušší aplikace Pro zahrnutí nejistoty ve velikosti populace jsme navrhli lepší aproximaci než Balding v ([]) Ukázali jsme, jak do výpočtu zahrnout subpopulační strukturu, za pomoci nových výsledků z ([6]), které si v budoucnu jistě zaslouží podrobnější zpracování Poděkování Tato práce byla podpořena projektem M0604 MŠMT ČR a SVV-20-26254 Univerzity Karlovy v Praze Literatura [] Balding DJ: Weight-of-evidence for forensic DNA profiles, John Wiley & Sons, Ltd, 2005, pp 5-63 [2] Balding DJ, Nichols RA: DNA profile match probability calculation: how to allow for population stratification, relatedness, database selection and single bands, Forensic Science International 64, 994, pp 25-40 [3] enotes World of Forensic Science DNA Evidence, Social Issues [online] 20 [cit 20-9-5] Available at wwwenotescom/forensic-science/dna-evidence-social-issues [4] Slovák Dalibor: Stochastic Approaches to Identification Process in Forensic Medicine and Criminalistics, in Doktorandské dny, Matfyzpress, Praha, 20 [5] The office for personal data protection Otevřete ústa, prosím & Databáze DNA [online, in czech] February 2007 [cit 20-9-5] Available at wwwuooucz/uoouaspx?menu287 &submenu288 [6] Kubátová H, Zvárová J (supervisor): Statistical methods for interpreting forensic DNA mixtures, MFF UK, Praha 200, pp 20-26 [7] The Federal Bureau of Investigation CODIS NDIS Statistics [online] July 20 [cit 20-9-5] Available at wwwfbigov /about-us/lab/codis/ndis-statistics c 20 EuroMISE sro EJBI Ročník 7 (20), číslo
cs50 Slovák, Zvárová Stochastické modely v procesu identifikace [8] The National Policing Improvement Agency The National DNA atabase [online] 200 [cit 20-9-5] Available at wwwnpiapoliceuk/en/8934htm [9] Slovák D, Zvárová J (supervisor): Statistické metody stanovení váhy evidence v procesu identifikace jedince, MFF UK, Praha, 2009 [0] The Applied Biosystems AmpFlSTR SGM Plus PCR Amplification Kit User s Manual [online] 20 [cit 20-9- 5] Available at www3appliedbiosystemscom/cms/groups /applied_ markets_support/documents/generaldocuments /cms_04049pdf, pp 78 [] Wright S: The genetical structure of populations, Ann Eugen 5, 95, pp 323-354 EJBI Ročník 7 (20), číslo c 20 EuroMISE sro