Martin Jelínek, Petr Květon, Dalibor Vobořil Seznamte se spolu s námi se základními principy stále více populární teorie odpovědi na položku (Item Response Theory IRT). Kniha, kterou právě držíte v ruce, popisuje výhody, které tato teorie poskytuje ve srovnání s klasickou testovou teorií, a probírá základní stavební kameny IRT nejpoužívanější modely, metody odhadu, informační přínos položek a jeho využití pro konstrukci testů. V knize najdete také další užitečná témata vycházející z této teorie, jako je například rozpoznání odlišného fungování položek nebo počítačové adaptivní testování. Text jistě ocení profesionálové v oblasti testování, uživatelé testů se zájmem o psychometrické pozadí metod, které používají, a studenti psychologie, pedagogiky i dalších oborů, kterým přinese ucelený pohled na danou problematiku. Jedná se o první knižní publikaci tohoto druhu v českém jazyce. TESTOVANÍ V PSYCHOLOGII Martin Jelínek, Petr Květon, Dalibor Vobořil TESTOVÁNÍ V PSYCHOLOGII Teorie odpovědi na položku a počítačové adaptivní testování
Martin Jelínek, Petr Květon, Dalibor Vobořil TESTOVÁNÍ V PSYCHOLOGII Teorie odpovědi na položku a počítačové adaptivní testování Grada Publishing
Upozornění pro čtenáře a uživatele této knihy Všechna práva vyhrazena. Žádná část této tištěné či elektronické knihy nesmí být reprodukována ani šířena v papírové, elektronické či jiné podobě bez předchozího písemného souhlasu nakladatele. Neoprávněné užití této knihy bude trestně stíháno. Vznik publikace byl podpořen Grantovou agenturou České republiky v rámci grantového projektu GA ČR č. 406/09/P284 a výzkumným záměrem PSÚ AV ČR, v.v.i. reg. č. AV0Z70250504. PhDr. Martin Jelínek, Ph.D. PhDr. Petr Květon, Ph.D. PhDr. Dalibor Vobořil, Ph.D. TESTOVÁNÍ V PSYCHOLOGII Teorie odpovědi na položku a počítačové adaptivní testování Vydala Grada Publishing, a.s. U Průhonu 22, 170 00 Praha 7 tel.: +420 234 264 401, fax: +420 234 264 400 www.grada.cz jako svou 4580. publikaci Recenzoval: doc. PhDr. Tomáš Urbánek, Ph.D. Odpovědná redaktorka Jana J. Kubínová Sazba a zlom Antonín Plicka Počet stran 160 Vydání 1., 2011 Vytiskla Tiskárna PROTISK, s. r. o., České Budějovice Grada Publishing, a.s., 2011 Cover Photo fotobanka Allphoto ISBN 978-80-247-3515-3 (tištěná verze) ISBN 978-80-247-7198-4 (elektronická verze ve formátu PDF)
obsah / 5 Obsah Předmluva... 7 I. TEORIE ODPOVĚDI NA POLOŽKU 1. Historické souvislosti teorie odpovědi na položku... 11 2. Základní IRT modely... 15 Dichotomní IRT modely... 16 Polytomní IRT modely... 35 Předpoklady IRT modelů... 50 3. Odhad IRT parametrů... 53 Odhad parametrů osob... 53 Odhad parametrů položek... 59 Spojený odhad parametrů položek a osob... 61 4. Škála latentního rysu a možnosti její transformace... 65 5. Převod parametrů na společnou škálu... 69 6. Postupy zkoumání vhodnosti IRT modelů... 75 Posuzování vhodnosti IRT modelů vzhledem k položkám... 75 Posuzování vhodnosti IRT modelů vzhledem k osobám... 83 7. Rozpoznání odlišného fungování položek... 89 8. Informační přínos položek... 95 9. Teorie odpovědi na položku versus klasická testová teorie... 99 II. ADAPTIVNÍ TESTOVÁNÍ 10. Historie, základní pojmy a principy... 103 11. Počítačové adaptivní testování... 109
6 / testování v psychologii 12. CAT v praxi... 117 Příprava testu... 117 Administrace testu... 122 Specifika CAT u testů s polytomními položkami... 124 PŘÍLOHY PŘÍLOHA 1: Diagnostické nástroje a datové soubory... 137 PŘÍLOHA 2: Seznam výpočetních šablon... 139 PŘÍLOHA 3: Skripty pro kalibraci parametrů a osob... 140 Summary... 147 Literatura... 149 Jmenný rejstřík... 155 Věcný rejstřík... 157
předmluva / 7 Předmluva Pojmy teorie odpovědi na položku a počítačové adaptivní testování jsou v posledních letech velmi často zmiňovány v souvislosti s moderními trendy v psychologické (i jiné) diagnostice. Ambicí této knihy je poskytnout českému čtenáři v ucelené formě popis základních principů teorie odpovědi na položku (Item Response Theory IRT) a počítačového adaptivního testování (Computerized Adaptive Testing CAT), které je na ní založené. Teorie odpovědi na položku představuje komplexní matematický aparát, který se snaží postihnout situaci, kdy jedinec odpovídá na testovou položku. Díky tomuto aparátu dokážeme předvídat, jak jedinec s určitou úrovní schopností odpoví na konkrétní položku. Základem IRT je matematický model, který udává pravděpodobnost určité odpovědi v závislosti na úrovni latentního rysu jedince a charakteristikách konkrétní položky. Pojmem latentního rysu zde rozumíme uvažované, přímo nepozorovatelné charakteristiky respondentů, k jejichž odhadu chceme v procesu testování dospět. Každá položka je tedy popsána pomocí tzv. charakteristické funkce položky Item Characteristic Function (ICF), která vyjadřuje vztah mezi latentním rysem a pravděpodobností dané odpovědi. Na základě definovaného vztahu mezi latentním rysem a pravděpodobností odpovědí jsou odvozeny koncepty podmíněné chyby měření a informačního přínosu, které se uplatňují v celé řadě psychometrických aplikací. Teorie odpovědi na položku je alternativou ke klasické teorii testů (Clasical Test Theory CTT). Modelově zakotvená teorie odpovědi na položku přináší do procesu měření řadu výhod. IRT považuje test za množinu samostatných položek a základní jednotkou, pro kterou jsou různé modely vytvořeny, je jednotlivá položka. Naproti tomu v CTT není položka konceptuálně oddělitelná od celku konkrétního testu. Zejména díky osamostatnění testové položky IRT nabízí vhodný aparát pro uplatnění obecných principů tzv. adaptivního testování. Základní idea adaptivního testování je přitom jednoduchá: zadávejte testované osobě k řešení pouze takové položky, které umožňují ideálně posoudit úroveň měřeného rysu. V praxi její uplatnění vyžaduje buď zkušeného administrátora, který je schopen odhadnout úroveň rysu testované osoby, vybrat přiměřeně
8 / testování v psychologii obtížnou položku a po jejím zodpovězení opět celý proces opakovat, anebo využití matematického aparátu, který by v reálném čase provedl totéž obvykle IRT v kombinaci s počítačovou technikou. Adaptivní testování je tak v dnešní době převážně chápáno jako počítačové adaptivní testování založené na principech IRT. Čtenář bude postupně seznámen se základními IRT modely pro položky dichotomního a polytomního formátu, předpoklady těchto modelů, dále se způsoby, jakými lze dospět k odhadům parametrů položek a osob na škále latentního rysu, s možnostmi jejich transformace a s posuzováním vhodnosti IRT modelů vzhledem k datům. Pozornost je dále věnována praktickým aplikacím IRT, jako je rozpoznání odlišného fungování položek u různých skupin respondentů a využití konceptu informačního přínosu pro konstrukci testových metod. Teoretický popis aspektů IRT je průběžně doplňován o praktické příklady na reálných datech, a to včetně konkrétních tipů pro práci s renomovanými IRT software Bilog-MG, Parscale a Multilog. Tuto část knihy navíc doprovází on-line materiál, který obsahuje výpočetní šablony implementované v tabulkovém procesoru, které pomohou lepšímu pochopení výpočetních problémů a představují pro čtenáře užitečnou pomůcku k provádění vlastních analýz. V textu jsou tyto šablony označeny pořadovým číslem a QR kódem, v příloze uvádíme příslušný seznam internetových adres. Druhá část knihy je zaměřena na důkladné seznámení s principy adaptivního testování v historické perspektivě a na současné pojetí adaptivního testování, kdy je synonymem adaptivního testování počítačové adaptivní testování založené na IRT. Kapitoly o počítačovém adaptivním testování jsou založeny na zkušenostech autorů s vytvářením vlastního CAT software. Tento software je také využit pro demonstraci výhod i problémů, které adaptivní testování přináší do diagnostické praxe.
I. TEORIE ODPOVĚDI NA POLOŽKU
historické souvislosti teorie odpovědi na položku / 11 1. Historické souvislosti teorie odpovědi na položku Podobně jako pro celý obor psychologie také v oblasti diagnostiky individuálních charakteristik platí výrok o dlouhé historii a krátké minulosti. Například Allenová a Yenová (2002) zmiňují první úřednické zkoušky způsobem formalizovaného testování již před třemi tisíci lety ve starověké Číně. Formální testovací postupy byly využívány u kandidátů na různé úřady, přičemž byla uplatňována pravidla, která ve své podstatě přetrvala až do dnešní doby, například anonymita testování nebo hodnocení dvěma nezávislými examinátory zajišťující objektivitu testování. Další impulsy do vývoje testování přicházely zejména od vzdělávacích a vojenských institucí (potřeba vstupního, výstupního i průběžného testování znalostí a schopností, hodnocení rekrutů apod.). Období první světové války, konkrétně rok 1917, představovalo důležitý mezník ve vývoji psychologického testování. Skupina psychologů v čele s tehdejším prezidentem Americké psychologické asociace Robertem M. Yerkesem, která se inspirovala u velkých autorit jako Galton, Binet, Pearson a dalších (blíže viz např. Hunt, 2000) se rozhodla pro vytvoření skupinově administrovaného testu inteligence sloužícího k objektivnímu testování rekrutů v americké armádě (DuBois, 1970). Jejich snaha nakonec vyústila v tzv. Army Alpha Test, který se stal vzorem pro pozdější výkonové testy charakteristické požadavkem na objektivitu skórování, zajištěnou většinou použitím uzavřených položek s volbou z více možností. Takto byly vlastně položeny pevné základy pro klasickou teorii testů, která přetrvává a rozvíjí se až do dnešní doby. První předzvěsti principů IRT lze zpětně vysledovat již u Luise Thurstonea v jeho analýze Binetova a Simonova testu dětského mentálního vývoje (Bock, 1997). V této studii Thurstone pro každou položku spočítal procento úspěšných dětí a graficky znázornil vztah věku a úspěšnosti, přičemž výsledný graf svým esovitým tvarem nápadně připomíná tzv. charakteristické křivky položek, jak jsou definovány v rámci IRT. Další zajímavé historické propojení teorie odpovědi na položku nalezl Bock v oboru toxikologie, ve kterém na začátku 19. století existovaly snahy modelovat reakce mikroorganismů na zvyšující se
12 / testování v psychologii dávky toxinu. Výsledný model měl v zásadě podobu kumulativního normálního rozložení vyjadřujícího úmrtnost organismů. Hlavním cílem bylo nalézt takové množství toxinu, při němž umírá 50 % organismů. S notnou dávkou nadsázky lze pravděpodobnost úmrtí organismů chápat jako paralelu k pravděpodobnosti správné odpovědi na položku a tzv. mediánovou efektivní dávku jako obdobu její obtížnosti. Propojení toxikologických výzkumů a pozdějšího IRT je ještě zřejmější na řešení problému s přirozenou úmrtností organismů, která tehdejším výzkumníkům systematicky nadsazovala účinnost testovaného toxinu. Výše popsaný model úmrtnosti tedy obohatili o parametr přirozené úmrtnosti, vysledovaný na kontrolní skupině. Výsledný matematický vzorec je v současné době prakticky ve stejné podobě využíván pro vyjádření pravděpodobnosti správné odpovědi v rámci tříparametrového logistického modelu s tím rozdílem, že přirozená úmrtnost je zde nahrazena uhádnutelností správné odpovědi (Bock, 1997). Přibližně od šedesátých let minulého století se paralelně s klasickou testovou teorií začala rozvíjet teorie odpovědi na položku jako formálně odlišený přístup k testování individuálních charakteristik. V rámci vývoje IRT lze vysledovat dvě relativně samostatné linie uvažování (Embretson, Reise, 2000), které lze zjednodušeně označit jako americkou a evropskou. V USA je za formální počátek IRT přístupu považováno vydání knihy Lorda a Novicka (1968) s názvem Statistické teorie mentálních testových skórů (Statistical Theories of Mental Test Scores). Ačkoli kniha byla primárně zaměřena na klasickou teorii testů, obsahovala také několik kapitol Allana Birnbauma, které shrnují předchozí technické zprávy pro americké vzdušné síly a představují základy moderní IRT (Wainer, 2000). Další vývoj teorie odpovědi na položku je v USA spojen zejména se jmény Fumiko Samejima, David Thissen, Darrell Bock nebo Robert J. Mislevy. Poslední dva jmenovaní autoři stojí také v pozadí vzniku pravděpodobně nejužívanějšího softwaru pro praktickou aplikaci IRT s názvem Bilog, která je momentálně k dispozici ve verzi Bilog-MG 3 (Zimowski, Muraki, Mislevy, Bock, 2003). Evropská linie IRT je neodmyslitelně spjata se jménem dánského matematika Georga Rasche a jeho knihou Pravděpodobnostní modely pro některé inteligenční a výkonové testy. Další vývoj evropského uvažování v oblasti IRT posouvali zejména Erling B. Andersen, Wim J. van der Linden, Cees A. W. Glas a mnozí další. Přes veškeré výhody přístupu IRT oproti CTT je poměrně zarážející relativně malé povědomí o IRT mezi širší odbornou psychologickou veřejností. Důvodů pro tento fakt lze najít hned několik. Jak poznamenává Embretson a Reise
historické souvislosti teorie odpovědi na položku / 13 (2000), typická kariéra Ph.D. studenta se specializací v oblasti IRT vrcholí neodmítnutelnou nabídkou zaměstnání ve společnostech zabývajících se vývojem testů, respektive v armádní testovací laboratoři, kde se posléze zabývá implementací IRT do vlastních testových baterií. Ačkoli taková kariéra je výhodná jak pro studenta, tak pro jeho zaměstnavatele, psychologická odborná veřejnost zůstává v tak progresivní oblasti, jakou IRT bezesporu je, v podstatě mimo hlavní dění. Dalším důvodem malého povědomí o IRT je určitě i slabá uživatelská přívětivost dostupných IRT software. Třebaže jsou matematicky na špičkové úrovni, jejich dokumentaci a ovládací rozhraní zvládne pouze uživatel s neobvykle silnou motivací a nadprůměrnou orientací v problematice. V neposlední řadě hraje velkou roli obecně vysoká složitost matematického pozadí celé teorie.
2. Základní IRT modely základní irt modely / 15 Modely, se kterými se v rámci teorie odpovědi na položku pracuje, lze na obecné úrovni rozdělit podle počtu uvažovaných dimenzí měřené charakteristiky na jedno- a vícedimenzionální. Příkladem jednodimenzionálního uvažování je soubor položek měřících obecný faktor inteligence, u kterého se předpokládá, že odpověď na každou položku je téměř výhradně ovlivněna tímto obecným faktorem. Vícedimenzionální uvažování je v psychologické diagnostice také poměrně časté (např. Eysenckovy osobnostní dotazníky, dotazníky založené na teorii Big Five apod.). V praxi však jednotlivé dimenze bývají měřeny pomocí navzájem se nepřekrývajících souborů položek, mluvíme zde o tzv. mezipoložkové multidimenzionalitě (de Ayala, 2009). V rámci IRT je pak v rámci jednoho testu jednoduše aplikován jednodimenzionální model na každý samostatný soubor položek. Méně častá je tzv. vnitropoložková multidimenzionalita, kdy se při odpovědi na konkrétní položku výrazně uplatňuje více než jeden latentní rys. Příkladem může být metoda složená z několika položek zaměřených na koncept rodičovského zájmu. Lze předpokládat, že v pozadí odpovědí rodičů můžeme nalézt hned několik rysů více či méně ovlivňujících tyto odpovědi (např. zodpovědnost, láska, dominance a další). Zde je již nutné uplatnit speciálně navržené multidimenzionální IRT modely 1. V této knize se budeme zabývat výhradně jednodimenzionálními modely, neboť většina psychologických testů je konstruována pro měření jedné dimenze či souboru několika navzájem konceptuálně nezávislých dimenzí. Podle jiného kritéria lze IRT modely dělit na dichotomní a polytomní. Dichotomní modely jsou určeny pro binárně skórované položky používané zejména ve výkonových testech. Ačkoli u nich může být počet kategorií odpovědí různý, ve výsledku se pracuje pouze se dvěma hodnotami (0 a 1). Vzhledem k tomu, že se IRT dobře osvědčila v oblasti výkonových testů, byly posléze intenzivně vyvíjeny i polytomní modely určené pro položky s více než dvěma skórovacími 1 Popis IRT modelů pracujících s multidimenzionálními konstrukty viz např. van der Linden, Hambleton (1997).
16 / testování v psychologii kategoriemi (např. posuzovací škály Likertova typu typicky užívané v diagnostice osobnosti, postojů apod.). Při obecném představení jednotlivých modelů a výkladu jejich parametrů vycházíme z několika základních pramenů. Pro dichotomní IRT modely jsou to Wainer, Mislevy (2000), Hambleton, Swaminathan, Rogers (1991), Embretson, Reise (2000), Barton, Lord (1981) a de Ayala (2009). U polytomních modelů jsou to pak Nering, Ostini (2010), van der Linden, Hambleton (1997) a Embretson, Reise (2000). V textu jsou teoretické popisy problematiky doplněny o ukázky na reálných datech. Popis použitých datových souborů uvádíme v příloze 1. Dichotomní IRT modely Základní typy IRT modelů pro dichotomní položky jsou tzv. jednoparametrový logistický (1PL) model (zvaný též Raschův model), ve kterém jsou položky charakterizovány pouze jedním parametrem obtížností, dvouparametrový logistický (2PL) model s parametry obtížnosti a rozlišovací účinnosti a tříparametrový logistický (3PL) model s parametry obtížnosti, rozlišovací účinnosti a pseudouhádnutelnosti. Pro úplnost zmiňujeme také čtyřparametrový logistický (4PL) model, který 3PL model doplňuje o parametr ledabylosti. U jednotlivých modelů vždy nejprve popíšeme jejich logiku (charakteristickou funkci položky), odvození informační funkce a způsob odhadu latentního rysu. V příloze knihy uvádíme způsob nastavení software Bilog-MG 3 s popisem základních proměnných ovlivňujících jednotlivé výpočty. Jednoparametrový logistický model (1PL) Model 1PL představuje nejjednodušší variantu ze skupiny IRT modelů. Vztah mezi úrovní latentního rysu probanda a pravděpodobností klíčové 2 odpovědi na určitou položku je dán pouze obtížností položky (difficulty). Charakteristickou funkci položky lze formálně vyjádřit jako 2 V dalším textu budeme na místech, kde máme na mysli správnou odpověď nebo odpověď v diagnostickém směru, používat termín klíčová odpověď jako termín nadřazený.
základní irt modely / 17 Pravděpodobnost klíčové odpovědi (U si = 1) je tedy predikována z interakce mezi individuální úrovní latentního rysu θ probanda s a obtížností b položky i. Tyto dva parametry jsou ve výrazu použity v exponentu Eulerova čísla e, které tvoří základ přirozených logaritmů a má hodnotu přibližně 2,718. Charakteristická křivka položky definovaná ve výše uvedeném vzorci má monotónně rostoucí průběh, a platí tedy intuitivní předpoklad, že s vyšší úrovní latentního rysu probanda vzrůstá pravděpodobnost klíčové odpovědi na položku. V grafu 1 je znázorněna ICF ukázkové položky p2 ze škály neuroticismu testu EOD (znění položky Dělá Vám značné těžkosti říci někomu ne?). Graf 1 ICF položky p2 dle 1PL modelu
* 18 / testování v psychologii Obtížnost položky je definována jako úroveň latentního rysu, při které má proband 50% pravděpodobnost odpovědět diagnosticky. Parametr obtížnosti b je tedy vyjádřen na stejné škále jako latentní rys (škála odpovídá normálnímu z-rozdělení s průměrem 0 a standardní odchylkou 1). Je výhodou IRT, že na základě charakteristické funkce jsme schopni při znalosti úrovně rysu probanda odhadnout jeho pravděpodobnou odpověď na položku. Pokud bychom vedle sebe zobrazili ICF položek stejného testu odhadnuté na základě 1PL modelu, jednotlivé křivky by se od sebe lišily pouhým posunutím doleva nebo doprava dle různých obtížností, neboť parametr rozlišovací účinnosti udávající sklon křivky je fixován na stejnou hodnotu. Tento parametr bude podrobněji představen v následující kapitole o 2PL modelu. V tabulce 1 jsou uvedeny odhady parametrů všech položek škály neuroticismu. Součástí tabulky je pro srovnání také obtížnost položek odhadnutá na základě klasické testové teorie, tedy jako procento správných odpovědí. Tab. 1 Obtížnosti položek škály neuroticismu dle CTT a IRT Položka p b se b 1 0,71-1,05 0,12 2 0,48 0,08 0,11 3 0,62-0,59 0,11 4 0,70-1,00 0,11 5 0,75-1,30 0,12 6 0,75-1,32 0,13 7 0,20 1,64 0,13 8 0,77-1,45 0,13 9 0,80-1,66 0,13 10 0,45 0,24 0,11 11 0,39 0,52 0,12 12 0,76-1,36 0,12 13 0,65-0,72 0,11 14 0,61-0,54 0,11 15 0,24 1,36 0,13 16 0,38 0,57 0,11 17 0,50-0,02 0,11 18 0,14 2,10 0,15 19 0,28 1,11 0,12
základní irt modely / 19 Položka p b se b 20 0,43 0,32 0,11 21 0,44 0,29 0,10 22 0,31 0,96 0,12 23 0,48 0,09 0,10 24 0,14 2,12 0,15 p obtížnost položky dle CTT; b obtížnost položky dle IRT; se b standardní chyba odhadu obtížnosti dle IRT Obtížnosti položek odhadnuté na základě 1PL modelu se pohybují mezi -1,660 a 2,118. Čím je hodnota parametru vyšší, tím je položka obtížnější. V CTT se místo obtížnosti jedná spíše o tzv. jednoduchost, a platí tedy, že vyšší hodnota indikuje snadnější položku. Kromě samotných odhadů parametrů obtížnosti dle IRT je vypočtena také jejich standardní chyba, což CTT neumožňuje. Je možné si povšimnout, že se standardní chyba odhadu zvyšuje směrem k extrémním položkám. Toto zjištění lze jednoduše vysvětlit. Parametr položky je nejpřesněji odhadnut v případě, kdy máme k dispozici velké množství odpovědí od osob, pro které je daná položka adekvátně obtížná. Rozložení latentního rysu neuroticismu v našem vzorku bylo přibližně normální, a proto byly parametry extrémně obtížných položek odhadnuty s menší jistotou než položky průměrně obtížné. Při popisu 1PL modelu jsme zmínili, že výhodou IRT je možnost odhadnutí pravděpodobnosti klíčové odpovědi na základě úrovně latentního rysu. Pokud uvažujeme dále, lze na základě tohoto údaje určit míru informačního potenciálu dané položky pro konkrétního jedince, která je formálně vyjádřena tzv. informační funkcí položky (Item Information Function IIF). V případě 1PL modelu ji lze algebraicky vyjádřit jako kde P i (θ) je pravděpodobnost klíčové odpovědi na položku i podmíněná úrovní latentního rysu a Q i (θ) = 1 P i (θ) je pravděpodobnost odpovědi opačné. Z rovnice vyplývá, že maximální hodnota informačního přínosu je rovna 0,25. Maximum se nachází v bodě obtížnosti dané položky, neboť při této úrovni latentního rysu je pravděpodobnost diagnostické odpovědi rovna pravděpodobnosti odpovědi opačné, tedy 0,5. Logika výpočtu odpovídá intuitivnímu předpokladu, že nemá smysl probandovi předkládat položky, u kterých prak-
20 / testování v psychologii ticky předem známe odpověď. Průběh informační funkce položky je patrný z grafu 2, který ilustruje IIF (přerušovaná křivka) pro ukázkovou položku p2 ze škály neuroticismu. Graf 2 IIF položky p2 dle 1PL modelu Pokud již známe parametry položek, lze na základě odpovědí jedince odhadnout úroveň měřeného rysu například pomocí metody maximální věrohodnosti. V rámci CTT je většinou odhad proveden pomocí hrubých skórů, které představují součet odpovědí na jednotlivé položky. Vztah mezi hrubým skórem škály neuroticismu a odhadem úrovně latentního rysu je patrný z grafu 3.
základní irt modely / 21 Graf 3 Odhad neuroticismu dle CTT a 1PL modelu Škála latentního rysu je standardizována tak, aby odpovídala normálnímu rozložení a skóry bylo možno interpretovat jako z-skóry (s průměrem 0 a standardní odchylkou 1). Vztah mezi hrubým skórem a odhadem latentního rysu v rámci IRT je zjevně nelineární, nicméně pro 1PL model platí, že hrubý skór je kompletní informací potřebnou pro odhad úrovně latentního rysu. Vzhledem k tomu, že latentní rys je přímo nepozorovatelný, na základě vektoru odpovědí jedince dospíváme pouze k více či méně přesnému odhadu jeho úrovně. Je proto žádoucí doplnit tento odhad také informací o jeho chybě. V rámci IRT se na rozdíl od CTT jedná o tzv. podmíněnou standardní chybu odhadu, neboť velikost chyby je závislá na úrovni latentního rysu. Tuto chybu lze vypočítat (v případě skórování metodou maximální věrohodnosti) jako
22 / testování v psychologii kde θ je odhad úrovně latentního rysu a I t (θ) je celkový informační přínos testu pro danou úroveň. Celkový informační přínos testu se počítá jednoduše jako suma informací, které poskytují jednotlivé položky pro danou úroveň rysu. Rozložení standardních chyb v závislosti na úrovni měřeného rysu lze ilustrovat na příkladu škály neuroticismu z Eysenckova osobnostního dotazníku (graf 4). Graf 4 Informační přínos testu a chyba měření v rámci IRT Z grafu 4 je patrné, že úroveň chyby měření je minimální pro střední úroveň rysu a zvyšuje se vzhledem k extrémům, opačně je tomu u informačního přínosu celého testu. Znalost chyby měření lze využít ke stanovení intervalů spolehlivosti pro konkrétní úrovně latentního rysu, a tedy k určení pravděpodobné polohy skutečné charakteristiky měřené daným testem. Pro účely porovnání dvou testů z hlediska jejich celkové spolehlivosti lze individuální chyby měření zprůměrovat, přičemž takto vzniklý index lze použít pro výpočet reliability na základě vzorců odvozených z CTT (Embretson, Reise, 2000)
základní irt modely / 23 kde σ je standardní odchylka latentního rysu a σ θ je průměrná standardní chyba odhadu jeho hodnot. IRT tedy umožňuje odhady reliability a celkové chyby testu podobně jako CTT. Navíc je však chyba odhadu latentního rysu podmíněna jeho úrovní, což lépe odpovídá realitě testování. Dvouparametrový logistický model (2PL) Při provádění položkové analýzy některých testů odborníci v oblasti testování často dochází ke zjištění, že různé položky různou mírou souvisejí s celkovým skórem a disponují tedy odlišnou rozlišovací účinností (discrimination power). Testy složené z velmi podobně rozlišujících položek jsou v praxi výjimkou (mohou však být s tímto záměrem přímo konstruovány). Z toho vyplývá, že předpoklad 1PL modelu o shodnosti rozlišovacích účinností všech položek je pro praxi většinou příliš restriktivní. Takzvaný 2PL model proto popisuje položku na základě dvou parametrů, a to obtížnosti a rozlišovací účinnosti. Rovnice popisující ICF položky na základě 1PL modelu se obohacuje o parametr rozlišovací účinnosti a pravděpodobnost diagnostické odpovědi lze vyjádřit jako kde θ s je úroveň probandova rysu, b i obtížnost dané položky, a i její rozlišovací účinnost a D je konstanta rovná 1,7, která logistickou křivku přibližuje normálnímu kumulativnímu rozložení 3. Význam parametru obtížnosti je stejný jako u 1PL modelu. Opět tedy jde o takovou úroveň latentního rysu, při které má proband 50% pravděpodobnost uspět, respektive odpovědět na položku 3 Pravděpodobnost správné odpovědi lze modelovat také na základě kumulativní normální (ogivní) funkce, která je založena na určení obsahu plochy pod křivkou v rozmezí latentního rysu - až a i (θ-b i ). Logistické modely na místo tzv. normálních ogivních modelů jsou upřednostňovány vzhledem ke snadnější matematické manipulaci.
24 / testování v psychologii diagnosticky. Charakteristické funkce položek se však oproti 1PL modelu neliší pouze lokalizací na škále latentního rysu, ale také sklonem odpovídajících křivek. S vyšší rozlišovací účinností roste strmost křivky. Jinak řečeno, při větší strmosti se stejná změna v úrovni latentního rysu projeví větší změnou pravděpodobnosti diagnostické odpovědi. Teoreticky se parametr rozlišovací účinnosti může pohybovat v rozmezí - až +, přičemž položky s negativní rozlišovací účinností je třeba z testu vyřadit, neboť pravděpodobnost správné odpovědi klesá se zvyšující se úrovní latentního rysu. Graf 5 ICF a IIF položek p16 (vlevo) a p22 (vpravo) dle 2PL modelu Graf 5 ilustruje ICF a IIF pro položky p16 (Rozčílíte se snadno?) a p22 (Trpíte pocity méněcennosti?) ze škály neuroticismu, které mají velmi podobný parametr obtížnosti a liší se svou rozlišovací účinností. Změna parametru rozlišovací účinnosti výrazně ovlivňuje informační přínos jednotlivých položek, jak je patrné také z formálního výpočtu informačního přínosu položky pro 2PL model kde P i je pravděpodobnost klíčové odpovědi na položku i a Q i = 1 P i. Základ vzorce je stejný jako u 1PL modelu, součin hodnot pravděpodobností diagnostické a nediagnostické odpovědi je však navíc vynásoben druhou mocninou rozlišovací účinnosti položky a konstanty D.
základní irt modely / 25 Odhady obtížností a rozlišovacích účinností všech položek škály neuroticismu dotazníku EOD jsou uvedeny v tabulce 2. Součástí tabulky je pro porovnání také obtížnost a rozlišovací účinnost položek zjištěná na základě CTT. Tab. 2 Parametry položek škály neuroticismu dle CTT a 2PL modelu Položka p r r bis a se a b se b 1 0,71 0,38 0,50 0,65 0,09-0,99 0,14 2 0,48 0,30 0,38 0,48 0,07 0,10 0,13 3 0,62 0,37 0,47 0,59 0,09-0,59 0,13 4 0,70 0,31 0,41 0,52 0,08-1,10 0,19 5 0,75 0,25 0,34 0,43 0,08-1,65 0,29 6 0,75 0,42 0,57 0,80 0,12-1,08 0,14 7 0,20 0,33 0,47 0,62 0,11 1,60 0,23 8 0,77 0,38 0,53 0,71 0,10-1,29 0,17 9 0,80 0,30 0,43 0,55 0,09-1,76 0,26 10 0,45 0,47 0,59 0,86 0,12 0,20 0,08 11 0,39 0,49 0,62 0,93 0,13 0,40 0,08 12 0,76 0,24 0,33 0,43 0,08-1,74 0,31 13 0,65 0,32 0,41 0,50 0,08-0,81 0,16 14 0,61 0,41 0,52 0,70 0,10-0,49 0,11 15 0,24 0,37 0,51 0,72 0,11 1,20 0,16 16 0,38 0,28 0,35 0,42 0,07 0,73 0,17 17 0,50 0,46 0,58 0,80 0,11-0,01 0,09 18 0,14 0,29 0,46 0,63 0,11 2,01 0,28 19 0,28 0,36 0,48 0,63 0,10 1,06 0,16 20 0,43 0,46 0,58 0,79 0,10 0,27 0,09 21 0,44 0,26 0,33 0,40 0,07 0,39 0,16 22 0,31 0,47 0,61 0,92 0,12 0,74 0,10 23 0,48 0,15 0,19 0,27 0,06 0,16 0,22 24 0,14 0,26 0,41 0,61 0,11 2,08 0,30 p obtížnost dle CTT; r Pearsonův koeficient korelace, r bis (biseriální koeficient korelace) rozlišovací účinnost dle CTT; a rozlišovací účinnost dle IRT; b obtížnost dle IRT; se odpovídající standardní chyby odhadu parametrů Odhady obtížností položek se poněkud liší od předchozího 1PL modelu, což je dáno zavedením rozdílných rozlišovacích účinností položek. Rozlišovací účinnosti se pohybují v rozmezí od 0,268 do 0,934. Zdá se tedy, že 1PL model
26 / testování v psychologii byl skutečně příliš restriktivní (formální testy vhodnosti jednotlivých modelů budou diskutovány v kapitole Posuzování vhodnosti IRT modelů vzhledem k položkám). Poté, co jsou odhadnuty parametry položek na základě 2PL modelu, lze podobně jako v případě 1PL modelu odhadnout úroveň rysu jednotlivých probandů. V grafu 6 je znázorněn vztah mezi hrubým skórem a odhadem latent ního rysu neuroticismu probandů metodou maximální věrohodnosti. Graf 6 Odhad neuroticismu dle CTT a 2PL modelu Různé odpověďové vzorce se stejným počtem diagnosticky zodpovězených položek mohou v rámci 2PL modelu vést k různým odhadům úrovně latentního rysu v závislosti na rozdílných rozlišovacích úrovních. Pro jednu konkrétní hodnotu hrubého skóru mohou být odhadnuty odlišné úrovně latentního rysu. Přitom platí, že odhad úrovně rysu probanda zvyšuje diagnostické zodpovězení vysoce diskriminujících položek, nikoli položek s vysokou obtížností. Tento fakt lze ilustrovat na hojně používaném Ravenově inteligenčním testu barevných
základní irt modely / 27 progresivních matric. Osoby 1 a 2 (viz tab. 3) odpovídají na všechny položky stejně, s výjimkou položek 28 a 31. Osoba 1 správně vyřešila položku 31 a neuspěla v položce 28, zatímco osoba 2 odpovídá na tyto položky opačně. Obě osoby mají stejný celkový hrubý skór. Položky 28 a 31 se liší jak v obtížnosti, tak i v rozlišovací účinnosti. Rozhodující vliv na odhad latentního rysu má však nikoli obtížnost, ale rozlišovací účinnost položky. Proto má v závěru vyšší odhad rysu (inteligence) osoba 2, která správně zodpověděla snadnější, ale více rozlišující položku 28. Váha správné odpovědi na určitou položku je tedy přímo odvozena z její rozlišovací účinnosti. Tab. 3 Vliv rozlišovací účinnosti na odhad latentního rysu ilustrativní příklad Položka... 26 27 28 29 30 31 32 33 34 35 36 HS θ s osoba 1... 1 1 0 1 1 1 0 0 0 0 0 21 1,06 osoba 2... 1 1 1 1 1 0 0 0 0 0 0 21 1,16 a... 0,74 0,71 0,73 0,99 0,34 0,49 0,74 0,39 0,25 0,50 0,82 b... -2,21-1,38-1,09 0,09 0,03 1,22 3,45 3,46 4,41 3,92 3,24 a rozlišovací účinnost položky; b obtížnost položky Pro každou úroveň latentního rysu lze podobně jako v případě 1PL modelu určit standardní chybu měření, intervaly spolehlivosti a reliabilitu celého testu. Průběh informačního přínosu a chyby měření v závislosti na úrovni latentního rysu je pak podobný jako v případě 1PL modelu (viz graf 4). Tříparametrový logistický model (3PL) Představme si situaci, kdy se jedinec účastní přijímacího řízení, například na vysokou školu. Součástí řízení je výkonový test, který je obvykle složen z položek nucené volby. Právě jedna odpověď je správná, přičemž chybné odpovědi nejsou bodově penalizovány. Motivací tohoto jedince je samozřejmě uspět, a pokud odpověď na některou položku nezná, strategicky správně se rozhodne alespoň tipovat. Předchozí popsané modely (1PL a 2PL) nemohou být v tomto případě vzhledem k datům adekvátní, neboť předpokládají, že při velmi nízké úrovni schopnosti se pravděpodobnost správné odpovědi blíží nule. Pokud jedinec odpovědi tipuje, pak se pravděpodobnost správné odpovědi k nule nikdy blížit nemůže.
28 / testování v psychologii Takzvaný 3PL model bere možnost tipování v úvahu a kromě položkových parametrů obtížnosti b a rozlišovací účinnosti a zavádí také tzv. pseudouhádnutelnost (pseudo-guessing). Tento parametr, označovaný jako c, nastavuje spodní asymptotu 4 ICF a odpovídá pravděpodobnosti správné odpovědi v případě, že se úroveň latentního rysu blíží hodnotě -. Pravděpodobnost správné odpovědi lze pak vyjádřit jako Pro ilustraci 3PL modelu již nevyužijeme škálu neuroticismu dotazníku EOD, neboť u ne-výkonových testů parametr pseudouhádnutelnosti v zásadě nemá opodstatnění (osobnostní testy jsou typické instrukcí o neexistenci správných či nesprávných odpovědí). Ideálním příkladem je naopak oborový přijímací test na psychologii, který je složen z položek se čtyřmi možnostmi odpovědí, kdy právě jedna je správná. Graf 7 ilustruje ukázkovou ICF a IIF položky p27 se zněním Piagetova teorie předpokládá čtyři stadia vývoje. Jaký druh vývoje Piaget popisuje? a možnostmi: a) emocionální, b) kognitivní, c) motorický, d) sociální, přičemž správná odpověď je b). 4 Asymptota je v podstatě přímka, ke které se funkce neustále přibližuje, ale nikdy ji neprotne.
základní irt modely / 29 Graf 7 ICF a IIF položky p27 pro 3PL model Z grafu 7 je patrné, že v případě této položky je pseudouhádnutelnost rovna 0,25. Pokud proband nemá žádné znalosti dané problematiky, má přesto přibližně 25% šanci v položce uspět. Postup výpočtu informačního přínosu položky je pak následující kde P i je pravděpodobnost správné odpovědi na položku i a Q i = 1 P i. Oproti 2PL a 1PL modelu se již maximum informační funkce nenachází v bodě obtížnosti položky, ale je posunuto o něco výše. Umístění maxima je možné vypočítat výrazem (Lord, 1980)
30 / testování v psychologii Informační funkce ukázkové položky p27 vrcholí při úrovni latentního rysu 0,57. Odhady tří parametrů pro každou z položek oborového přijímacího testu jsou uvedeny v tabulce 4. Součástí tabulky jsou také parametry položek, které je možno spočítat na základě CTT. Tab. 4 Parametry položek oborového přijímacího testu dle CTT a 3PL modelu Položka p r r bis a b c se a se b se c 1 1,00 0,05 0,28 0,85-4,46 0,26 0,43 2,01 0,10 2 0,21 0,27 0,39 1,81 1,51 0,13 0,47 1,20 0,02 3 0,40 0,28 0,35 0,63 1,17 0,19 0,13 1,25 0,05 4 0,84 0,29 0,43 0,75-1,35 0,24 0,09 0,71 0,09 5 0,27 0,36 0,48 1,44 1,23 0,13 0,25 0,76 0,02 6 0,55 0,32 0,40 0,87 0,57 0,30 0,17 0,98 0,05 7 0,85 0,13 0,21 0,34-2,49 0,27 0,06 1,66 0,10 8 0,69 0,36 0,48 1,39 0,15 0,42 0,30 0,65 0,05 9 0,84 0,21 0,32 0,46-1,80 0,27 0,07 1,23 0,10 10 0,81 0,32 0,46 0,68-1,18 0,25 0,09 0,81 0,09 11 0,68 0,20 0,26 0,41-0,35 0,28 0,07 1,75 0,10 12 0,41 0,38 0,48 0,88 0,80 0,16 0,14 0,78 0,04 13 0,42 0,10 0,13 0,68 2,28 0,36 0,25 2,25 0,04 14 0,60 0,37 0,46 0,90 0,17 0,25 0,14 0,77 0,06 15 0,55 0,29 0,36 1,14 0,84 0,38 0,26 0,99 0,04 16 0,69 0,32 0,42 0,84-0,07 0,35 0,15 0,95 0,08 17 0,10 0,12 0,21 1,44 2,21 0,07 0,45 1,59 0,01 18 0,60 0,26 0,33 0,53 0,21 0,26 0,10 1,43 0,08 19 0,36 0,30 0,39 0,69 1,20 0,16 0,13 1,05 0,04 20 0,71 0,19 0,25 0,38-0,60 0,30 0,07 1,91 0,10 21 0,60 0,24 0,30 1,02 0,93 0,46 0,27 1,26 0,04 22 0,73 0,28 0,37 0,58-0,69 0,25 0,09 1,07 0,09 23 0,54 0,27 0,34 0,49 0,27 0,17 0,07 1,11 0,06 24 0,69 0,43 0,56 1,07-0,39 0,20 0,14 0,50 0,06 25 0,70 0,38 0,50 0,98-0,25 0,31 0,16 0,71 0,07 26 0,45 0,31 0,38 1,30 0,98 0,29 0,26 0,88 0,03 27 0,53 0,43 0,54 1,31 0,43 0,25 0,26 0,62 0,04 28 0,38 0,36 0,46 1,19 1,04 0,21 0,26 0,88 0,03 29 0,40 0,12 0,15 1,55 1,69 0,34 0,56 1,88 0,02 30 0,36 0,24 0,31 0,78 1,44 0,21 0,17 1,21 0,04 31 0,36 0,27 0,35 0,82 1,37 0,21 0,18 1,15 0,04
základní irt modely / 31 Položka p r r bis a b c se a se b se c 32 0,58-0,06-0,07 0,17 5,86 0,50 0,05 12,91 0,07 33 0,71 0,34 0,46 0,81-0,45 0,25 0,11 0,75 0,08 34 0,52 0,30 0,38 0,81 0,69 0,28 0,16 1,02 0,05 35 0,51 0,43 0,54 0,94 0,25 0,14 0,13 0,57 0,05 36 0,87 0,26 0,41 0,73-1,45 0,32 0,12 0,90 0,11 37 0,48 0,18 0,22 0,41 1,32 0,26 0,10 2,17 0,07 38 0,75 0,41 0,55 0,98-0,71 0,18 0,11 0,49 0,07 39 0,72 0,39 0,52 0,94-0,50 0,23 0,14 0,62 0,08 40 0,93 0,20 0,39 0,68-2,43 0,26 0,11 0,83 0,10 p obtížnost dle CTT; r (Pearsonův koeficient korelace), r bis (biseriální koeficient korelace) rozlišovací účinnost dle CTT; a rozlišovací účinnost dle IRT; b obtížnost dle IRT, c pseudo uhádnutelnost dle IRT; se odpovídající standardní chyby odhadu parametrů Pseudohádnutelnost položek se pohybuje v rozmezí od 0,07 do 0,50. Všimněme si, že pro položku 5 17 je hodnota pseudouhádnutelnosti 0,07 dokonce pod hranicí teoretické uhádnutelnosti na základě čistě náhodného tipu ze čtyř možností, která je rovna ¼ = 0,25. Tento fakt lze vysvětlit podle Lorda (1980) schopností tvůrců testu vytvořit takové položky, jejichž distraktory jsou velmi atraktivní. Pokud tedy proband nemá potřebné znalosti, jeho odhad správné odpovědi je veden právě atraktivitou distraktoru, přičemž volba skutečně správné odpovědi je většinou vedena odpovídající schopností (proto je také používán termín pseudo-uhádnutelnost místo uhádnutelnost). Naopak vysoké hodnoty pseudouhádnutelnosti znamenají, že některé distraktory jsou i bez potřebných schopností vyloučeny a uhádnutí správné odpovědi je pak pravděpodobnější než v případě zcela slepého tipu. Položka 6 32 s nejvyšším para- 5 Většina lidí si nedokáže vybavit, co dělali např. 28. března 2001 odpoledne, ale mnoho lidí si pamatuje, kde se nacházeli a co dělali 11. září 2001 ve chvíli, kdy se dozvěděli o teroristickém útoku v New Yorku. Jak psychologové označují tento typ vzpomínek? : a) kontextové vzpomínky, b) implicitní vzpomínky, c) zábleskové vzpomínky, d) anterográdní vzpomínky. Správná odpověď je c). 6 Psycholog předloží skupině osob tři seznamy k zapamatování. Všechny obsahují stejný počet prvků, ale jeden je tvořen slovy s abstraktním významem, druhý slovy s konkrétním významem a třetí obrázky předmětů. Který seznam si většina osob zapamatuje nejlépe?, s možnostmi: a) slova s abstraktním významem; b) slova s konkrétním významem; c) obrázky předmětů; d) druh materiálu k zapamatování není rozhodující. Správná odpověď je c).
32 / testování v psychologii metrem pseudouhádnutelnosti jako jediná negativně koreluje s celou škálou a volba správné odpovědi je pravděpodobně vedena nikoli předpokládanou schopností, ale z velké části pouhým tipováním. Druhým zajímavým poznatkem vyplývajícím z tabulky 4 je rozložení obtížností dle CTT a IRT. Zatímco v případě p-hodnot lze většinu položek označit spíše za snadnější (28 položek má p-hodnotu větší než 0,50), na základě b hodnot jsou položky popsány spíše jako obtížnější (24 položek má b-hodnotu vyšší než 0). Tento fakt je dán právě použitím 3PL modelu, ve kterém je explicitně zahrnut parametr pseudouhádnutelnosti a v důsledku toho je tipování vyděleno z odhadu obtížnosti. V případě výpočtu obtížnosti v CTT jako podílu správných odpovědí nelze možnost uhádnutí správné odpovědi z obtížnosti odstranit a tento parametr je pak podhodnocen. Fakt, že většina položek oborového přijímacího testu je v rámci 3PL modelu popsána spíše jako obtížnější, se projeví také na celkovém informačním přínosu testu a odpovídající chybě měření latentního rysu (viz graf 8). Graf 8 Informační přínos testu a chyba měření v rámci IRT (3PL model) Chyba měření je nejnižší pro nadprůměrně schopné respondenty, což je dáno tím, že většina položek je pro takové respondenty vzhledem ke své obtížnosti adekvátní.
Toto je pouze náhled elektronické knihy. Zakoupení její plné verze je možné v elektronickém obchodě společnosti ereading.