Desatero pro porovnávání výsledků dvou metod 21 Kapitola IV. DESATERO PRO POROVNÁVÁNÍ VÝSLEDKŮ DVOU METOD. Luděk Dohnal Následující text nemá být "návodem" k počítání nebo hodnocení. Pokouší se pouze zachytit podstatnější myšlenky, které nacházejí uplatnění při porovnávání výsledků dvou metod, tak často prováděného v laboratořích a to nejen klinické biochemie. Pokud to bylo rozumně možné, jsou uvedeny stručné ilustrativní příklady. Účelem porovnání dvou metod je zjistit jestli výsledky testu získané jednou metodou na souboru klinických vzorek jsou, v průměru, totožné s výsledky získanými druhou metodou (7). Výsledným produktem porovnání je zpráva - report o porovnání metod. Zpráva může být určena jenom pro potřeby příslušné laboratoře, anebo pro prezentaci navenek - ústní sdělení, posterové sdělení, článek do odborného časopisu. Od účelu zprávy se odvíjí rozsah a forma. V principu ale každá zpráva má obsahovat základních okruhů tém, popsaných v tabulce IV.1. Dále se budeme zabývat jenom bodem 4 a částečně z této tabulky. Tabulka IV.1 Obsah reportu o porovnání výsledků dvou metod. 1. Jaká byla motivace ke srovnání dvou metod 2. Popis analytických metod 3. Popis populační vzorky 4. Hodnocení shody metod. Odhad klinické ekvivalence Porovnáváme výsledky dvou metod (např. metodu A a metodu B pro stanovení téhož analytu v týchž materiálech). Máme k disposici materiály, v nichž jsou různé koncentrace sledovaného analytu. Tyto koncentrace pokrývají alespoň přibližně rovnoměrně celý rozsah, v němž chceme znát porovnatelnost obou metod. Máme tedy na paměti, že i závěry plynoucí z našich výsledků platí pouze pro rozsah hodnot, ve kterém bylo porovnání provedeno. Jakákoliv extrapolace je přinejmenším ošidná. Obrázek IV.1 korelačního grafu (correlation plot) ukazuje, že stupnice je sice od do 3, ale rozsah měření je od 1 do 2. 1. Visuální posouzení dat Na data se vždy nejprve "podíváme". Zkonstruujeme korelační graf, to jest závislost výsledků metodou A na výsledcích metodou B. Každá dvojice výsledků je tedy v tomto grafu representována jedním bodem. Skutečnosti odpovídá lépe než bod malý čtvereček resp. obdélníček když si uvědomíme, že metody A i B mají svoji neurčitost, chceme-li nejistotu, a tak dvojice výsledků není "bod" ale "obdélníček". Z korelačního grafu usuzujeme, zda nejsou přítomny tzv. vlivné resp. vychýlené body. Bod, který je silně vychýlený ve směru pouze jedné ze souřadnic, často nazýváme odlehlý (outlier). Bod, který je vychýlený ve směru obou souřadnic, označujeme často jako extrém. Terminologie není ustálená. Vlivné body, jak praví už jejich název, mohou mít silný vliv na výsledek srovnávání. V korelačním grafu s vlivnými body (correlation plot with influence points) na obrázku IV.2 je stejných bodů jako na obrázku IV.1, navíc jsou přítomny dva vlivné body, č. 1 - extrém a č. 2 - odlehlý (outlier). 3 2 Obrázek IV.1 4 3 3 2 Korelační bodový graf 2 3 2 Obrázek IV.2 Korelační graf s vychýlenými body 2 3 3 4 1
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 22 2. Odlehlé body Problém odlehlých bodů bývá často řešen tím, že jsou ze souboru pozorování (měření) vyloučeny a to na základě odhadu (jsou patrné už na výše zmíněném korelačním grafu). Jiný vhodný způsob je zkonstruování a posouzení tzv. diagnostických grafů (6) (např. Pregibon, Williams, Mc Culloch) nebo provedení numerických testů (Dixon, Grubbs) (2). Při sestrojení krabicového grafu jsou odlehlé hodnoty (outside values) a extrémy (far out values) počítačovými programy zvlášť zakresleny. Odlehlé hodnoty jsou definovány jako hodnoty nižší než dolní kvartil mínus 1, násobek interkvartilového rozepětí, anebo větší než horní kvartil plus 1, násobek interkvartilového rozepětí. Extrémy jsou definovány obdobně s 3 násobkem interkvartilového rozepětí. Pokud je dostatečné množství dat, je někdy účelné odlehlý bod (body) vyloučit z dalšího hodnocení. Nikdy bychom však neměli vlivný bod vyloučit, aniž bychom vysvětlili příčinu jeho vzniku nebo se alespoň přesvědčili, že se jedná o artefakt (např. hrubá chyba). 3. Korelační koeficient Pokud používáme korelační koeficient, je třeba mít na paměti, že tento koeficient je pouze mírou lineární závislosti výsledků. "Pěkný" korelační koeficient (hodnota blízká jedné nebo minus jedné) ještě vůbec neznamená, že srovnávané metody dávají "pěkně" shodné výsledky. Znamená to pouze silnou lineární závislost mezi výsledky oběma metodami. "Špatný" (malý v absolutní hodnotě) korelační koeficient vůbec neznamená, že závislost je málo silná. Může (ale nemusí!) jít např. o silnou nelineární závislost, např. kvadratickou. V tab. IV.1 je toto tvrzení ilustrováno. Zatímco proměnná se svým kvadrátem koreluje ještě s hodnotou koeficientu.9746, se svou dvacátou mocninou koreluje už pouze s hodnotou koeficientu.79, přestože jde stále o stoprocentně těsnou kausální závislost vyjádřenou matematickým vzorcem. Korelační koeficienty (coefficients of correlation) pro několik mocninných funkcí jsou uvedeny v tab. IV.2. Tabulka IV.2 Korelace výběrů vzorka 1 vzorka 2 Korelační koeficient x x 1. x x 2.9746 x x.698 x x.79 Lineární regrese provedená běžným způsobem je dnes součástí nejen statistických programů, ale bývá zabudována i v tabulkových kalkulátorech (spreadsheets) - např. Excel. Použití této regrese je vhodné pouze v některých případech. Řekněme, že chceme provést lineární regresi výsledků metodou A (= tzv. vysvětlované proměnné) na výsledcích metodou B (tzv. vysvětlující proměnné). Tato regrese má svoje oprávnění pouze tehdy, jestliže rozptyl (neurčitost) při získávání (měření) hodnot vysvětlující proměnné je alespoň o řád menší než rozptyl (neurčitost) při měření hodnot vysvětlované proměnné. Důvod je docela prozaický. Uvědomme si, že při výpočtu koeficientů optimální regresní čáry běžně používaným způsobem (metodou nejmenších čtverců) se vlastně hledá taková regresní čára, aby součet čtverců (druhých mocnin) odchylek jednotlivých (naměřených) bodů od této čáry byl nejmenší možný. Matematicky řečeno hledáme globální minimum. Drtivá většina algoritmů (počítačových programů) provádí měření vzdálenosti bodů od regresní čáry ve směru vysvětlované proměnné. Jinak řečeno, postup výpočtu předpokládá, že ve směru vysvětlující proměnné jsou neurčitosti jednotlivých bodů zanedbatelné oproti směru vysvětlované proměnné. Dále je třeba, aby každá proměnná měla v ideálním případě normální (Gaussovo) anebo v praxi alespoň symetrické rozdělení dat. Při troše zkušenosti to poznáme už z korelačního grafu eventuelně z histogramu příslušné proměnné. Pokud je přítomen např. extrémní bod, může jeho vliv zcela zkreslit výsledky regrese. Na obrázku IV.3 je ukázka lineární regrese (linear regression) a na obrázku IV.4 je táž regrese po přidání jediného vlivného bodu - č. 1. Z tabulky IV.3 je patrné, jak se přidáním tohoto vlivného bodu změnily parametry regresní přímky - úsek (intercept) a směrnice (slope). Pro úplnost jsou uvedeny velikosti výběrů (sample size) a korelační koeficienty (coefficient of correlation). 3 2 Korelační graf s lineární regresní čárou, n = Obrázek IV.3 2 3 4. Podmínky použití lineární regrese
Desatero pro porovnávání výsledků dvou metod 23 3 2 Korelační graf s lineární regresní čárou, n = 1 2 3 Obrázek IV.4 Tabulka IV.3 Regresní koeficienty, n = velikost vzorky, r = korelační koeficient Obr. IV.3 Obr. IV.4 n 1 intercept,422,846 slope 1,64,927 r.998.9791. Čím je lineární regrese "lineární" Při provádění lineární regrese se většinou používá přímkový model. Často může být vhodnější jiný než lineární model (kvadratický, reciproční). Lineární regrese se nenazývá lineární proto, že regresní čárou je přímka. "Lineárnost" je míněna vzhledem ke koeficientům regrese. Jinak řečeno, regresní koeficienty se v regresní rovnici vyskytuji pouze v lineární kombinaci, nemohou se vyskytnout např. jako exponent. Ještě jinak, funkce, jejímž grafickým znázorněním je regresní čára, je lineární vzhledem k regresním koeficientům. Jestliže máme vysvětlující proměnnou x, vysvětlovanou proměnnou y a koeficienty (parametry) např. a,b,c, potom např. funkční závislost, kterou všichni důvěrně známe y = a + b. x a,b je funkčním vyjádřením přímky (přímkový model) a současně je tato závislost lineární vzhledem k parametrům a,b, je tedy možným modelem lineární regrese. Jiná funkční závislost y = a + b. x + c. x 2 a,b,c je funkčním vyjádřením kvadratické paraboly (kvadratický model) a současně je tato závislost lineární vzhledem k parametrům a,b,c a tedy je možným modelem lineární regrese. Ale např. funkční závislost y = a + b. x c a,b c 1 není lineární vzhledem k parametru c a není tedy možným modelem lineární regrese, ale je možným modelem regrese nelineární. 1 6. Statisticky významný rozdíl Statisticky nevýznamný rozdíl mezi výsledky dvou metod znamená nejčastěji následující skutečnost. Střední hodnota rozdílů (nejčastěji počítaná jako aritmetický průměr) mezi jednotlivými páry výsledků je poměrně malá a její interval spolehlivosti (řekněme její neurčitost) s vysokou pravděpodobností zahrnuje nulu. Naopak o statistiky významném rozdílu mluvíme, pokud tento interval spolehlivosti nulu nezahrnuje. Jestliže jsou rozdíly při statistickém testování (vysoce) významné, nemusí to znamenat, že jsou tyto rozdíly významné i interpretačně. A naopak, jestliže rozdíly nejsou statisticky významné, neznamená to automaticky, že nejsou významné interpretačně. Na obrázku IV. jsou krabicové grafy (box and whisker plots) výsledků stanovení draslíku v séru dvěma metodami (vždy paralelních měření). Pro připomenutí, střední čáry v krabicích symbolisují mediány, horní a dolní okraje krabic symbolisují dolní a horní kvartily). mmol/l 4,42 4,4 4,38 4,36 4,34 4,32 4,3 4,28 4,26 4,24 Obrázek IV.. Box-and-whisker graphs - krabicové grafy Z obrázku a rovněž z tab. IV.3 je zřejmé, že se jedná o statisticky vysoce významný rozdíl mezi výsledky obou metod. Střední rozdíl je.1 mmol/l při hodnotách kolem 4.4 mmol/l. Avšak tento rozdíl je klinicky zcela nevýznamný. Proto z klinického hlediska jsou obě metody rovnocenné. Obsah tabulky IV.4 je výstupem ze statistického programu MedCalc. Tabulka IV.4 Two-Sample Analysis Results Variable : Sample size = 9 9 Lowest value = 4,3338 4,24 Highest value = 4,466 4,3 Arithmetic mean = 4,374 4,2792 9% CI for the mean = 4,336 to 4,394 4,2626 to 4,298 Median = 4,3797 4,2764 9% CI for the median =
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 24 4,339 to 4,439 4,26 to 4,36 Variance =,7, Standard deviation =,272,216 Relative standard deviation =,62 (,62%), (,%) Standard error of the mean =,91,72 --------------------------------------- Paired t-test Mean difference :,93 Standard deviation :,369 9 % CI :,669 to,1237 t=7,736 DF=8 P =,1 7. Základní statistiky Pro každou proměnnou vždy spočítáme základní statistiky (statistické veličiny) a zamyslíme se nad tím, co nám říkají. Jejich minimální sadu tvoří velikost proměnné (počet hodnot v sadě, number of observations), aritmetický průměr (mean, average), medián, směrodatná odchylka (standard deviation), směrodatná odchylka průměru (standard error, standard error of mean), minimum, maximum, rozpětí (range), dolní (lower) kvartil, horní (upper) kvartil, šikmost rozdělení (skewness of distribution), špičatost rozdělení (kurtosis of distribution). Velikost proměnné je jakousi mírou solidnosti či věrohodnosti. Dá se říct, že nejen příliš málo výsledků, ale i příliš mnoho výsledků přináší problémy s interpretací. Aritmetický průměr je nejčastěji používanou statistikou pro výpočet střední hodnoty. Zde podotkněme jenom tolik, že je dobrým odhadem střední hodnoty m.j. jen tehdy, pokud sada hodnot, z níž je počítán, má normální (gaussovské) nebo alespoň symetrické rozdělení. Ošidnost aritmetického průměru lze parafrázovat např. takto: "Jsme dva, máme jedno upečené kuře. Sním ho celé, tobě nic nedám. Já jsem přejedený, ty jsi hladový, ale v průměru měl každý z nás půlku kuřete." Medián je výrazně lepší statistikou pro výpočet střední hodnoty právě v řadě případů, kdy z důvodů nesymetrie rozdělení aritmetický průměr selhává. Směrodatná odchylka sady výsledků je mírou neurčitosti (rozptýlení) těchto výsledků. Často se rovněž používá pojem rozptyl (variance), který je druhou mocninou směrodatné odchylky. Směrodatná odchylka průměru je mírou neurčitosti střední hodnoty (spočítané jako aritmetický průměr) téže sady hodnot. Minimum, maximum a rozpětí asi nepotřebují zvláštní komentář. Hodnoty těchto statistik nás mohou upozornit na odlehlou či extrémní hodnotu. Dolní kvartil má tu vlastnost, že seřadíme-li výsledky v sadě vzestupně podle velikosti, potom první čtvrtina výsledků je menší (nebo rovna) dolnímu kvartilu. Analogicky horní kvartil je menší (nebo roven) poslední čtvrtině takto seřazených výsledků. Šikmost je mírou sešikmení rozdělení, špičatost je mírou jeho zašpičatění. Většinou slouží k porovnání s šikmostí a špičatostí normálního (gaussovského) rozdělení pro posouzení, zda daná sada má alespoň přibližně gaussovské rozdělení. V tabulce IV. Souhrnné statistiky (Summary Statistics) je ukázka základních statistik pro metodu A z dat použitých pro konstrukci obrázku IV.1. Velikost výběru (sample size), aritmetický průměr (average, mean), medián (median), rozptyl (variance), směrodatná odchylka (standard deviation),směrodatná odchylka průměru (standard error), minimum a maximum (minimum, maximum), rozpětí (range), dolní a horní kvartil (lower quartile, upper quartile), šikmost (skewness), špičatost (kurtosis). Některé z nich jsou zakresleny v grafu setříděných dat (line plot of sorted data) na obrázku IV.6. Tabulka IV. Souhrnná statistika Variable : Sample size = Lowest value =, Highest value = 2, Arithmetic mean = 11,486 9% CI for the mean = 9,44 to 13,66 Median = 11, 9% CI for the median = 6,764 to 16,469 Variance = 3,849 Standard deviation= 7,289 Relative standard deviation =,6343 (63,43%) Standard error of the mean = 1,34 Skewness,2483 Kurtosis -,7268 ---------------------------------- Chi-square test for Normal distribution : accept Normality (P=,93) Chi-square=12,238 DF=7) Percentiles: 2.th =,6 97.th = 24, th = 1, 9th = 23, th = 2, 9th = 21, 2th =, 7th = 17,7
Desatero pro porovnávání výsledků dvou metod 2 2 Bodový graf setříděných dat, hodnoty Horní kvartil Aritmetický průměr Medián Dolní kvartil 1 3 7 911 14 17 23 26 29 32 3 38 41 44 47 Pořadí Rozdíl -,6,4,2 +1.96 SD,3, -,2 -,4 -,6 Mean -, -,8-1, -1,2-1,4-1.96 SD -1,3-1,6 2 3 Pruměr páru měření a Obrázek IV.6 8. Transformace dat Reálná data často neodpovídají ani přibližně požadavku na normalitu. Protože řada statistických postupů funguje "dobře" jenom pro gaussovsky (normálně) rozdělená data, je jednou z možných i když ne nejjednodušších cest transformace dat. Transformace dat znamená, že skutečná data přepočítáme podle nějakého "vhodného" funkčního vztahu tak, aby výsledná (transformovaná) data lépe vyhovovala podmínce normality. Po provedení statistických analýz s transformovanými "normálními" daty je třeba provést zpětnou transformaci "výsledků", abychom dostali původní proměnnou. 9. Rozdílový graf Jedná se o jednoduchý graf, na jehož vodorovnou osu vyneseme průměry párů měření metodou A a B a na svislou osu rozdíly těchto párů. Je vhodné doplnit jej zakreslením vodorovné přímky, která symbolisuje nulové rozdíly (hypotetický ideální stav). Dále zakreslíme vodorovné přímky symbolisující průměrný rozdíl a hranice jeho intervalu spolehlivosti dané typicky dvojnásobkem směrodatné odchylky průměru (standard error). A konečně zakreslíme vodorovné přímky symbolisující tzv. limity shody, t.j. průměrný rozdíl zvětšený resp. zmenšený typicky o dvojnásobek směrodatné odchylky rozdílů. Z rozdílového grafu je po získání jistých zkušeností na první pohled patrná řada prakticky významných skutečností, např. zda v rozdílech je nebo není trend, zda jsou jsou rozdíly alespoň přibližně symetricky rozdělené, zda existuje mezi metodami statisticky významný rozdíl aj. Tento tzv. rozdílový graf dle Blanda a Altmana byl podrobně popsán (1, 4, ). Obrázek IV.7 Bland-Altmanův graf z předešlých údajů.. Lež obyčejná, diplomatická a statistická Ani sebelepším rozborem nekvalitních výsledků nelze dosáhnout kvalitních závěrů. Nemá být účelem oslňovat nejmodernějším statistickým aparátem. Účelem má být získat z dat co nejvíce věrohodných informací. Abychom nedopadli tak, že "v průměru" na tom budeme všichni velmi dobře a současně mnoho z nás už skoro nebude vůbec. LITERATURA 1. Dohnal, L.: Porovnání výsledků dvou metod. Fons, 1998, č. 2, s. 27-31. 2. Dohnal, L.: Chybějící a odlehlé hodnoty, robustní statistiky, neparametrické postupy. Fons, 1999, č. 3, s. 42-49. 3. Dohnal, L.: Porovnání. Desatero pro porovnání výsledků. Fons,, č. 3, s. 27-32. 4. Hollis, S.: Analysis of method comparison studies. JIFCC, 9, 1997, č. 1, s. 8-12.. Hyltoft Petersen, P., Stockl, D., Blaabjerg, O. et al.: Graphical interpretation of analytical data from comparison of a field method with Reference Method by use of difference plots. Clin Chem, 43, 1997, č. 11, s. 39-46. www.clinchem.org 6. Meloun, M., Militký, J.: Statistické zpracování experimentálních dat. East Publishing, Praha, 1996, 8 s. 7. Noe, D.A.: Laboratory methods, s. 1-3, in: Noe, D.A.: The logic of laboratory medicine. 2 nd edition, 1. www. users.rcn.com/dennisanoe
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 26 Obrázek IV.8 Rozdielový graf pre S-kreatinín meraný referenčnou metódou (REF) a porovnávanou metódou (FIELD) s rôznymi vypočítanými a zakreslenými limitmi (prevzaté z lit. ). A. Očakávaná distribúcia 9% meraných bodov, +- 2σ(δ) = +- 6,3 µmol/l (9% prediction interval); zároveň sú vyznačené čiary pre očakávanú distribúciu 68% meraných bodov, +- 1σ(δ). B. To isté ako A, ale s pridaním simulovaných meraných bodov (simulované z gaussovskej distribúcie s priemerom, a σ = 3, µmol/l). C. To isté ako B, ale s vyznačením štatistických 9% tolerančných limitov 9% konfidenčných limitov, = 2,69σ(δ). D. To isté ako B, s pridaním kalkulovaných čiar podľa Blanda a Altmana, označujúcich priemer (d) +- 2s(d), priemer (d) = -,84, s(d) = 3,27 µmol/l. σ(δ) = teoretická hodnota σ odvodená v práci (). s(d) = standard error of differences = smerodajná odchýlka rozdielov.