FILOZOFICKÁ FAKULTA MASARYKOVA UNIVERZITA PSYCHOLOGICKÝ ÚSTAV Mgr. Martin Jelínek TEORIE ODPOVĚDI NA POLOŽKU A POČÍTAČOVÉ ADAPTIVNÍ TESTOVÁNÍ AUTOREFERÁT DISERTAČNÍ PRÁCE Brno, 2007
FILOZOFICKÁ FAKULTA MASARYKOVA UNIVERZITA Autoreferát disertační práce Autor: Mgr. Martin Jelínek Název: Teorie odpovědi na položku a počítačové adaptivní testování Obor: obecná psychologie Školitel: doc. PhDr. Tomáš Urbánek, CSc. Oponenti: prof. PhDr. Marek Blatný, CSc. RNDr. Eva Reiterová, Ph.D. Předseda komise pro obhajobu: prof. PhDr. Mojmír Svoboda, CSc. Datum obhajoby: 25.6.2007
Předložená práce mapuje základní principy, které stojí v pozadí moderního psychometrického přístupu k testování psychických charakteristik, tzv. teorie odpovědi na položku (Item Response Theory - IRT), a na něm založeného počítačového adaptivního testování (Computerized Adaptive Testing - CAT). IRT představuje soubor matematických modelů, které popisují, co se stane, když se testovaný jedinec setká s položkou. Základem IRT je model, který udává pravděpodobnost správné (resp. diagnostické) odpovědi v závislosti na úrovni charakteristiky respondenta a charakteristikách konkrétní položky. Teorie odpovědi na položku poskytuje propracovanější techniky pro testování individuálních charakteristik oproti klasické testové teorii (Classical Test Theory - CTT). Právě díky tomu IRT nabízí vhodný aparát pro uplatnění obecných principů tzv. adaptivního testování. Základní idea adaptivního testování je jednoduchá a jasná: zadávejte testované osobě k řešení pouze takové položky, které umožňují ideálně posoudit úroveň jejího latentního rysu. Ačkoli tato idea je zcela logická a oprávněná, v praxi její uplatnění vyžaduje 1. zkušeného administrátora, který je schopen odhadnout úroveň rysu testované osoby, vybrat adekvátní položku a po jejím zodpovězení opět celý proces opakovat; nebo 2. matematický aparát, který v reálném čase umožňuje totéž. Zmíněný matematický aparát poskytlo právě IRT, médiem schopným provést celou řadu náročných výpočtů bez výraznější časové prodlevy jsou počítače. Adaptivní testování je tak v dnešní době převážně chápáno jako počítačové adaptivní testování založené na principech IRT. TEORIE ODPOVĚDI NA POLOŽKU V prvních kapitolách je popsána historie IRT a srovnání této teorie s klasickou teorií testů. Vzhledem k tomu, že IRT představuje modelově zakotvený způsob měření, v samostatné kapitole jsou probrány předpoklady IRT modelů, jako jsou lokální nezávislost a přiměřená dimenzionalita. Dále jsou teoreticky popsány a
na vhodných metodách (škále neuroticismu Eysenckova osobnostního dotazníku, Ravenově Testu barevných progresivních matric a přijímacím testu pro psychologii) představeny základní IRT modely pro dichotomní položky, konkrétně jednoparametrový logistický model (1PL), dvouparametrový logistický model (2PL) a tříparametrový logistický model (3PL). Jednotlivé modely se liší počtem parametrů charakterizujících vztah mezi úrovní latentního rysu probanda a pravděpodobností klíčové (správné nebo diagnostické) odpovědi. 1PL model popisuje položky pouze na základě jejich obtížnosti, 2PL model přidává parametr rozlišovací účinnosti a 3PL model pracuje také s tzv. pseudouhádnutelností a je tedy vhodný pouze pro položky výkonových testů. Polytomní IRT modely jsou určeny pro položky s více než dvěma skórovacími kategoriemi. V disertační práci jsou představeny různé typy takových modelů, konkrétně model odstupňovaných odpovědí a jeho modifikovaná verze (Graded Response Model), model pro stupňovaný kredit (Partial Credit Model), generalizovaný model pro stupňovaný kredit (Generalized Partial Credit Model), model pro posuzovací škály (Rating Scale Model) a model pro nominální odpovědi (Nominal Response model). Pro psychologické škály pravděpodobně nejpřínosnější modely model odstupňovaných odpovědí a generalizovaný model pro stupňovaný kredit jsou aplikovány na Rosenbergovu škálu self-esteemu. V následujících kapitolách jsou popsány matematické metody odhadu parametrů položek a osob (metody maximální věrohodnosti a Bayesovské metody). Vzhledem k tomu, že základem IRT modelu je škála latentního rysu, na kterou jsou umístěny nejenom parametry osob, ale i položek, jsou v práci naznačeny možnosti její transformace, ať již klasické lineární či transformace na tzv. skutečný skór. Na tuto kapitolu obsahově navazuje kapitola zabývající se převodem parametrů na společnou škálu pomocí metody průměru a standardních odchylek, která se využívá např. v situaci, kdy je potřeba porovnat položky dvou odlišných testů měřících stejný konstrukt.
Při posuzování vhodnosti IRT modelů je možno vhodnost posuzovat vzhledem k položkám či osobám. Zatímco první postup je používaný zejména jako test adekvátnosti zvoleného modelu, druhý postup přináší užitečné techniky pro identifikaci nekonzistentních vzorců odpovědí. Detekce tzv. odlišného fungování položek u různých skupin respondentů bývá využívána např. při rozpoznání kulturně ovlivněných položek při výkonovém testování. V předložené práci jsou pomocí příslušných postupů identifikovány ty položky škály neuroticismu, které vykazují odlišné psychometrické charakteristiky pro muže a ženy. Kapitola Informační přínos položek a jeho využití pro konstrukci cílených testů již směřuje k závěrečným kapitolám zabývajícím se počítačovým adaptivním testováním, neboť jeho základem je výběr pokud možno co nejlepších (nejvíce informativních) položek v rámci individuální interaktivní administrace. POČÍTAČOVÉ ADAPTIVNÍ TESTOVÁNÍ V úvodních kapitolách jsou popsány základní pojmy a principy týkající se adaptivního testování. Dále jsou v historické perspektivě představeny různé přístupy k zajištění adaptivity testu, konkrétně dvouúrovňové strategie, pyramidové, skokové a stratifikované adaptivní modely, které lze aplikovat bez nutnosti využití počítačové technologie. Plného rozvoje se však myšlenka adaptivního testování dočkala teprve v souvislosti s nástupem této technologie, která umožnila provádět komplexní výpočty bez časové prodlevy. Současný postup počítačového adaptivního testování založeného na IRT je v práci prezentován na základě popisu námi vytvořeného software CATO (Computerized Adaptive Testing optimized), který se momentálně nachází ve vývojové verzi 0.9 a je tak již schopen plnit základní vytýčené cíle administraci a vyhodnocení adaptivních testů tvořených dichotomně
skórovanými položkami. Funkčnost software je představena na základě simulace reálných dat získaných administrací škály neuroticismu. Data získána pomocí klasické administrace byla podrobena procesu kalibrace (2PL model) v programu Bilog 3.11, čímž byly získány příslušné parametry položek. Tyto parametry byly vloženy do SW CATO, pomocí kterého byla provedena simulace jednotlivých adaptivních administrací testu. Získané odhady neuroticismu pro jednotlivé osoby byly shledány ekvivalentními s příslušnými výsledky pocházejícími z klasické administrace, přičemž však adaptivní testování bylo daleko efektivnější a bylo tak potřeba administrace menšího množství položek pro dosažení předem stanovené úrovně přesnosti měření. Software CATO je navíc schopen ukončení testování zařazením osoby do předem definovaných intervalů. Hranice intervalů jsou v procesu administrace neustále srovnávány s intervaly spolehlivosti vytýčenými okolo odhadů charakteristiky probanda měnících se v závislosti na odpověďovém vzorci. Pokud je diagnostickým cílem testování pouhý screening, jeví se takový postup jako ideální, neboť není v drtivé většině případů zapotřebí zatěžovat osobu plným počtem položek příslušné škály.
VYBRANÁ RELEVANTNÍ LITERATURA Cohen, A.S., Kim, S. (1993). A Comparison of Lord's 2 and Raju's area measures in detection of DIF. Applied Psychological Measurement, 17, 39-52. Cohen, J., Cohen P. (1983). Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, N.J.: L. Erlbaum Associates. Embretson, S.E., Reise, S.P. (2000). Item response theory for psychologists. London: Lawrence Erlbaum Associates. Hambleton, R.K., Swaminathan, H., Rogers, J. H. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage publications. Linden van der W.J., Hambleton, R.K. (1997). Handbook of modern item response theory. New York: Springer. Lord F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, N.J.: L. Erlbaum Associates. Lord, F.M., Novick, M.R. (Eds.) (1968). Statistical theories of mental test scores. Reading, MA: MIT Press. McDonald, R.P. (1999). Test theory. A unified treatment. Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Mislevy, R.J., Bock, R.D. (1997). BILOG 3.11: Item Analysis and Test Scoring with Binary Logistic Models. Scientific Software, Inc. Muraki, E., Bock, D. (2003). Parscale. In M. du Toit (Ed.), IRT from SSI: Bilog- MG, Multilog, Parscale, Testfact (p. 257-344). Lincolnwood, IL: Scientific Software International, Inc. Raju, N.S. (1988). The area between two item characteristic curves. Psychometrika, 53, 495-502. Raju, N.S. (1990). Determining the significance of estimated signed and unsigned areas between two item response functions. Applied Psychological Measurement, 14, 197-207.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research. Reckase, M.D. (1989). Adaptive testing: The evolution of a good idea. Educational Measurement: Issues & Practice, 8, 11-15. Reise, S.P. (1990). A comparison of item- and person-fit methods of assessing model-data fit in. IRT. Applied Psychological Measurement, 4, 127-137. Tatsuoka, K.K., Tatsuoka, M. M. (1983). Spotting erroneous rules of operation by the individual consistency index. Journal of Educational Measurement, 20, 221-230. Urbánek, T. (2002). Základy psychometriky. Brno: Psychologický ústav AV ČR, Psychologický ústav FF MU. Urbánek, T. Šimeček, M. (2001). Teorie odpovědi na položku. Československá psychologie, 5, 428-440. Wainer, H., Dorans, N.J., Eignor, D., Flaugher, R., Green, B.F., Mislevy, R.J., Steinberg, L., Thissen, D. (2000). Computerized adaptive testing: A primer (2nd edition). Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Wise, S.L., Kingsbury, G.G. (2000). Practical issues in developing and maintaining a computerized adaptive testing program. Psicológica, 21, 135-155.
VYBRANÉ PUBLIKACE AUTORA Květon, P., Jelínek, M., Vobořil, D., Klimusová, H. (2007). Computer-based tests: the impact of test design and problem of equivalency. Computers in Human Behavior, 23, 32-51. Jelínek, M., Květon, P., Vobořil, D., Klimusová H. (2007). Data collection on the Internet: evaluation of web-based questionnaires. Studia psychologica, 49, 1, 81-88. Jelínek, M., Květon, P. Denglerová, D. (2006). Adaptivní testování - základní pojmy a principy. Československá psychologie, 50, 2, 163-173. Jelínek, M., Květon, P. Vobořil, D. Blatný, M. Hrdlička, M. (2006). Vrstevnická konformita jako faktor rizikového chování mladistvých: struktura, zdroje, dopady. Československá psychologie, 50, 5, 393-404. Blatný, M., Hrdlička, M., Sobotková, V., Jelínek, M., Květon, P., Vobořil, D. (2006). Prevalence antisociálního chování českých adolescentů z městských oblastí. Československá psychologie, 50, 4, 297-310. Blatný, M., Jelínek, M., Blížkovská, J., Klimusová, H. (2004). Personality correlates of self-esteem and life satisfaction. Studia Psychologica, 46, 2, 97-104. Květon, P., Jelínek, M., Vobořil, D., Klimusová, H. (2003). Ekvivalence tradiční a počítačové formy testu IST-70. Československá psychologie, 47, 6, 562-572. Jelínek, M., Klimusová, H., Blatný, M. (2003). Stabilita a trendy vývoje inteligence u dětí ve věku 3-15 let. Československá psychologie, 47, 5, 392-404.
ABSTRACT Item Response Theory and Computerized Adaptive Testing The presented paper deals with the Item Response Theory (IRT) and Computerized Adaptive Testing (CAT). The beginning of the thesis describes the history of IRT and provides its comparison with Classical Test Theory (CTT). Further basic IRT models for dichotomous and polytomous items together with methods of parameters' estimation are presented. Due to the fact that IRT is a model-based method of measurement, the selected models can be evaluated according to their data fit. Appropriate methods for this evaluation are described in details. Several chapters are devoted to possibilities of latent trait scale transformation, construction of targeted tests based on the item information gain, and methods for detecting of differential item functioning. The second part of the thesis describes the history and basic principles of adaptive testing. The chapter Principles of creation and functioning of a computerized adaptive test acts as a general introduction to the presentation of our original software CATO v0.9 (Computerized Adaptive Testing optimized). This SW is capable of interactive administration and scoring of adaptive tests based on dichotomous items. KEY WORDS Item Response Theory (IRT), Computerized Adaptive Testing (CAT), CATO software