FILOZOFICKÁ FAKULTA MASARYKOVA UNIVERZITA PSYCHOLOGICKÝ ÚSTAV. Mgr. Martin Jelínek TEORIE ODPOVĚDI NA POLOŽKU AUTOREFERÁT DISERTAČNÍ PRÁCE

Podobné dokumenty
Martin Jelínek, Petr Květon, Dalibor Vobořil. TESTOVÁNÍ V PSYCHOLOGII Teorie odpovědi na položku a počítačové adaptivní testování

TESTOVÁNÍ V PSYCHOLOGII

TESTOVÁNÍ V PSYCHOLOGII

Univerzita Karlova v Praze. Filozofická fakulta. Katedra psychologie. Diplomová práce. Jana Dlouhá

Psychometrické vlastnosti Rosenbergovy škály sebehodnocení. Jaroslava Suchá, Martin Dolejš, Ondřej Skopal, Lucie Vavrysová

Základní principy psychologické diagnostiky

UNIVERZITA KARLOVA V PRAZE FILOZOFICKÁ FAKULTA DIPLOMOVÁ PRÁCE Eliška Rudá

ADAPTIVITA INFORMAČNÍCH SYSTÉMŮ INFORMATION SYSTEM ADAPTIVITY

Ztraceno v překladu: Adaptace diagnostických metod v kontextu pracovní psychologie

SMÍŠENÉ MODY SBĚRU DAT - DRUHY CHYB A MOŽNOSTI SROVNATELNOSTI

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Metodologie řízení projektů

Implicitní testování postojů a asociací. Martina Rašticová

Masarykova univerzita

Aktuální otázky psychologického testování v ČR

Interakce mezi uživatelem a počítačem. Human-Computer Interaction

Studie proveditelnosti počítačem adaptovaného testování v prostředí českých škol

FE TUL. Master. Business Administration MARKETING AND INTERNATIONAL TRADE

SCATE (Scio Computer Adaptive Test) Nová role testu

Karta předmětu prezenční studium

MANAŽERSKÁ psychologie

Metody tvorby politik (MTP) Zimní semestr 2018/2019 Katedra veřejné a sociální politiky FSV UK

Martin Vrbka 0/14. Institute of Machine and Industrial Design Faculty of Mechanical Engineering Brno University of Technology

Svalová dystrofie. Prezentace technologických řešení registru Petr Brabec

Sociální integrace osob se získaným zrakovým postižením. Martina Zdráhalová

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R.O.

Zelený produkt automobilek a jeho vnímání různými generacemi českých spotřebitelů EVA JADERNÁ, MARTIN MLÁZOVSKÝ

Uživatelem řízená navigace v univerzitním informačním systému

Vzdělávání v Biomedicínské a Zdravotnické Informatice

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Výuka odborného předmětu z elektrotechniky na SPŠ Strojní a Elektrotechnické

Pražská vysoká škola psychosociálních studií

Tvorba dynamických interaktivních webových dotazníků pro psychologický výzkum

PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ

Autonomnost solárních systémů

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ DISERTAČNÍ PRÁCE

Pedagogicko psychologická diagnostika. PhDr. Denisa Denglerová, Ph. D.

KVALITA ŽIVOTA Inštitút psychológie, FF Prešovskej univerzity. Vás zvou na česko-slovenskou vědeckou konferenci

Publikační činnost. PhDr. Olga Pechová, Ph.D. Ke dni: 26. března Přehled publikační činnosti člena Katedry psychologie FF UP v Olomouci

Summary. Mr. Andreas Molin

Počítačové kognitivní technologie ve výuce geometrie

Dotazník Prožívaní blízkých vztahů zkrácená verze Experiences in Close Relationships - Revised (ECR-R16)

POČÍTAČEM PODPOROVANÉ VZDĚLÁVÁNÍ VÝSLEDKY VÝZKUMNÉ SONDY

Projektová dokumentace pro tvorbu internetových aplikací

Kvantifikace operačního rizika v rámci Přistupu distribuce ztrát

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

Genetické programování 3. část

FE TUL. Master. Business Administration MANAGEMENT OF BUSINESS PROCESSES

Použití modelu Value at Risk u akcií z

Paleodemografie PDEM

Základní škola Marjánka

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Jiří DOSTÁL Univerzita Palackého v Olomouci, Pedagogická fakulta, KTEIV. Interaktivní tabule ve vzdělávání

strana 1 Vyučují Jan Širůček: místnost 2.47 Hynek Cígler: místnost 2.47

VYUŽITÍ SOFTWARU MATHEMATICA VE VÝUCE PŘEDMĚTU MATEMATIKA V EKONOMII 1

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

INTERAKTIVNÍ TABULE A MATEMATICKÝ SOFTWARE GEOGEBRA PŘI VÝUCE MATEMATIKY V ANGLICKÉM JAZYCE

Role zprostředkovatelky na Úřadu práce ČR

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R.O.

Využití software ITEMAN k položkové analýze a analýze výsledků testů

PROBLEMATIKA BROWNFIELDS Z POHLEDU JEJICH BEZPEČNOSTNÍCH RIZIK PRO ÚZEMNÍ ROZVOJ

TAKTILNÍ PLOŠNÉ SNÍMAČE A JEJICH KALIBRACE Tactile Surface Sensors and Their Calibration

VLIV POČTU NESHODNÝCH VZORKŮ PŘI VYHODNOCOVÁNÍ PŘIJATELNOSTI SYSTÉMU MĚŘENÍ METODOU KŘÍŽOVÝCH TABULEK

Karta předmětu prezenční studium

Smart Temperature Contact and Noncontact Transducers and their Application Inteligentní teplotní kontaktní a bezkontaktní senzory a jejich aplikace

ASK. Test deduktivního a kreativního myšlení. HTS Report. Jan Ukázka ID Datum administrace Standard 1. vydání

Karta předmětu prezenční studium

Animace ve WPF. Filip Gažák. Ing. Václav Novák, CSc. Školní rok:

Karta předmětu prezenční studium

Využití marketingové komunikace pro zvýšení konkurenceschopnosti sdružení MIVES. Bc. Markéta Matulová

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

CompACT-Vi. CompACT-Vi. HTS Report. Gabriela Milská ID Datum administrace Dlouhodobá pozornost - Screening 1.

SHINYITEMANALYSIS: ANALÝZA PŘIJÍMACÍCH A JINÝCH

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Prevalence a disabilita spojená s duševními onemocněními v ČR. CZEch Mental health Study (CZEMS)

Karta předmětu prezenční studium

Vámi vybranou odpověď vždy zakroužkujte. U otázek 4, 7 a 10 můžete zakroužkovat více odpovědí.

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Zprávy - Psychologický ústav AV ČR

K výsledkům průzkumu zaměřeného na kvalitu podnikové informatiky

CFD simulace teplotně-hydraulické charakteristiky na modelu palivové tyči v oblasti distanční mřížky

(CELO) ŽIVOTNÍ HODNOTA ZÁKAZNÍKA

Monitorování vývoje meteo situace nad ČR pomocí GPS meteorologie

UNIVERZITA KARLOVA FAKULTA SOCIÁLNÍCH VĚD

Dotazník Prožívaní blízkých vztahů ECR-R

místo, kde se rodí nápady

Karta předmětu prezenční studium

APLIKACE INTERNETOVÉHO MARKETINGU V KULTUŘE

E-EDUCATION NEBOLI VYUŽITÍ ICT VE ŠKOLÁCH

VYHODNOCENÍ LOMOVÉHO EXPERIMENTU S KATASTROFICKOU ZTRÁTOU STABILITY

Analýza současného stavu vozového parku a návrh zlepšení. Petr David

Citation Statistics. zpráva společné komise. Int. Mathematical Union. Int. Council of Industrial and Applied Mathematics. Institute of Statistics

Mediální reflexe hospodářského života v krajských městech

Metody inventarizace a hodnocení biodiverzity stromové složky

Karta předmětu prezenční studium

Úvod do problematiky měření

KVALITA ŽIVOTA prof. RNDr. Vladimír Ira, CSc. (Geografický ústav SAV, Bratislava)

FUNKČNÍ VZOREK FUNKČNÍ VZOREK ZAŘÍZENÍ HTPL-A PRO MĚŘENÍ RELATIVNÍ TOTÁLNÍ EMISIVITY POVLAKŮ

Adaptivní test COMPACT

STATISTICAL DESIGN OF EXPERIMENT FOR SOLDER JOINTS QUALITY EVALUATION STATISTICKÉ PLÁNOVÁNÍ EXPERIMENTŮ PRO ÚČELY VYHODNOCOVÁNÍ KVALITY PÁJENÝCH SPOJŮ

Transkript:

FILOZOFICKÁ FAKULTA MASARYKOVA UNIVERZITA PSYCHOLOGICKÝ ÚSTAV Mgr. Martin Jelínek TEORIE ODPOVĚDI NA POLOŽKU A POČÍTAČOVÉ ADAPTIVNÍ TESTOVÁNÍ AUTOREFERÁT DISERTAČNÍ PRÁCE Brno, 2007

FILOZOFICKÁ FAKULTA MASARYKOVA UNIVERZITA Autoreferát disertační práce Autor: Mgr. Martin Jelínek Název: Teorie odpovědi na položku a počítačové adaptivní testování Obor: obecná psychologie Školitel: doc. PhDr. Tomáš Urbánek, CSc. Oponenti: prof. PhDr. Marek Blatný, CSc. RNDr. Eva Reiterová, Ph.D. Předseda komise pro obhajobu: prof. PhDr. Mojmír Svoboda, CSc. Datum obhajoby: 25.6.2007

Předložená práce mapuje základní principy, které stojí v pozadí moderního psychometrického přístupu k testování psychických charakteristik, tzv. teorie odpovědi na položku (Item Response Theory - IRT), a na něm založeného počítačového adaptivního testování (Computerized Adaptive Testing - CAT). IRT představuje soubor matematických modelů, které popisují, co se stane, když se testovaný jedinec setká s položkou. Základem IRT je model, který udává pravděpodobnost správné (resp. diagnostické) odpovědi v závislosti na úrovni charakteristiky respondenta a charakteristikách konkrétní položky. Teorie odpovědi na položku poskytuje propracovanější techniky pro testování individuálních charakteristik oproti klasické testové teorii (Classical Test Theory - CTT). Právě díky tomu IRT nabízí vhodný aparát pro uplatnění obecných principů tzv. adaptivního testování. Základní idea adaptivního testování je jednoduchá a jasná: zadávejte testované osobě k řešení pouze takové položky, které umožňují ideálně posoudit úroveň jejího latentního rysu. Ačkoli tato idea je zcela logická a oprávněná, v praxi její uplatnění vyžaduje 1. zkušeného administrátora, který je schopen odhadnout úroveň rysu testované osoby, vybrat adekvátní položku a po jejím zodpovězení opět celý proces opakovat; nebo 2. matematický aparát, který v reálném čase umožňuje totéž. Zmíněný matematický aparát poskytlo právě IRT, médiem schopným provést celou řadu náročných výpočtů bez výraznější časové prodlevy jsou počítače. Adaptivní testování je tak v dnešní době převážně chápáno jako počítačové adaptivní testování založené na principech IRT. TEORIE ODPOVĚDI NA POLOŽKU V prvních kapitolách je popsána historie IRT a srovnání této teorie s klasickou teorií testů. Vzhledem k tomu, že IRT představuje modelově zakotvený způsob měření, v samostatné kapitole jsou probrány předpoklady IRT modelů, jako jsou lokální nezávislost a přiměřená dimenzionalita. Dále jsou teoreticky popsány a

na vhodných metodách (škále neuroticismu Eysenckova osobnostního dotazníku, Ravenově Testu barevných progresivních matric a přijímacím testu pro psychologii) představeny základní IRT modely pro dichotomní položky, konkrétně jednoparametrový logistický model (1PL), dvouparametrový logistický model (2PL) a tříparametrový logistický model (3PL). Jednotlivé modely se liší počtem parametrů charakterizujících vztah mezi úrovní latentního rysu probanda a pravděpodobností klíčové (správné nebo diagnostické) odpovědi. 1PL model popisuje položky pouze na základě jejich obtížnosti, 2PL model přidává parametr rozlišovací účinnosti a 3PL model pracuje také s tzv. pseudouhádnutelností a je tedy vhodný pouze pro položky výkonových testů. Polytomní IRT modely jsou určeny pro položky s více než dvěma skórovacími kategoriemi. V disertační práci jsou představeny různé typy takových modelů, konkrétně model odstupňovaných odpovědí a jeho modifikovaná verze (Graded Response Model), model pro stupňovaný kredit (Partial Credit Model), generalizovaný model pro stupňovaný kredit (Generalized Partial Credit Model), model pro posuzovací škály (Rating Scale Model) a model pro nominální odpovědi (Nominal Response model). Pro psychologické škály pravděpodobně nejpřínosnější modely model odstupňovaných odpovědí a generalizovaný model pro stupňovaný kredit jsou aplikovány na Rosenbergovu škálu self-esteemu. V následujících kapitolách jsou popsány matematické metody odhadu parametrů položek a osob (metody maximální věrohodnosti a Bayesovské metody). Vzhledem k tomu, že základem IRT modelu je škála latentního rysu, na kterou jsou umístěny nejenom parametry osob, ale i položek, jsou v práci naznačeny možnosti její transformace, ať již klasické lineární či transformace na tzv. skutečný skór. Na tuto kapitolu obsahově navazuje kapitola zabývající se převodem parametrů na společnou škálu pomocí metody průměru a standardních odchylek, která se využívá např. v situaci, kdy je potřeba porovnat položky dvou odlišných testů měřících stejný konstrukt.

Při posuzování vhodnosti IRT modelů je možno vhodnost posuzovat vzhledem k položkám či osobám. Zatímco první postup je používaný zejména jako test adekvátnosti zvoleného modelu, druhý postup přináší užitečné techniky pro identifikaci nekonzistentních vzorců odpovědí. Detekce tzv. odlišného fungování položek u různých skupin respondentů bývá využívána např. při rozpoznání kulturně ovlivněných položek při výkonovém testování. V předložené práci jsou pomocí příslušných postupů identifikovány ty položky škály neuroticismu, které vykazují odlišné psychometrické charakteristiky pro muže a ženy. Kapitola Informační přínos položek a jeho využití pro konstrukci cílených testů již směřuje k závěrečným kapitolám zabývajícím se počítačovým adaptivním testováním, neboť jeho základem je výběr pokud možno co nejlepších (nejvíce informativních) položek v rámci individuální interaktivní administrace. POČÍTAČOVÉ ADAPTIVNÍ TESTOVÁNÍ V úvodních kapitolách jsou popsány základní pojmy a principy týkající se adaptivního testování. Dále jsou v historické perspektivě představeny různé přístupy k zajištění adaptivity testu, konkrétně dvouúrovňové strategie, pyramidové, skokové a stratifikované adaptivní modely, které lze aplikovat bez nutnosti využití počítačové technologie. Plného rozvoje se však myšlenka adaptivního testování dočkala teprve v souvislosti s nástupem této technologie, která umožnila provádět komplexní výpočty bez časové prodlevy. Současný postup počítačového adaptivního testování založeného na IRT je v práci prezentován na základě popisu námi vytvořeného software CATO (Computerized Adaptive Testing optimized), který se momentálně nachází ve vývojové verzi 0.9 a je tak již schopen plnit základní vytýčené cíle administraci a vyhodnocení adaptivních testů tvořených dichotomně

skórovanými položkami. Funkčnost software je představena na základě simulace reálných dat získaných administrací škály neuroticismu. Data získána pomocí klasické administrace byla podrobena procesu kalibrace (2PL model) v programu Bilog 3.11, čímž byly získány příslušné parametry položek. Tyto parametry byly vloženy do SW CATO, pomocí kterého byla provedena simulace jednotlivých adaptivních administrací testu. Získané odhady neuroticismu pro jednotlivé osoby byly shledány ekvivalentními s příslušnými výsledky pocházejícími z klasické administrace, přičemž však adaptivní testování bylo daleko efektivnější a bylo tak potřeba administrace menšího množství položek pro dosažení předem stanovené úrovně přesnosti měření. Software CATO je navíc schopen ukončení testování zařazením osoby do předem definovaných intervalů. Hranice intervalů jsou v procesu administrace neustále srovnávány s intervaly spolehlivosti vytýčenými okolo odhadů charakteristiky probanda měnících se v závislosti na odpověďovém vzorci. Pokud je diagnostickým cílem testování pouhý screening, jeví se takový postup jako ideální, neboť není v drtivé většině případů zapotřebí zatěžovat osobu plným počtem položek příslušné škály.

VYBRANÁ RELEVANTNÍ LITERATURA Cohen, A.S., Kim, S. (1993). A Comparison of Lord's 2 and Raju's area measures in detection of DIF. Applied Psychological Measurement, 17, 39-52. Cohen, J., Cohen P. (1983). Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, N.J.: L. Erlbaum Associates. Embretson, S.E., Reise, S.P. (2000). Item response theory for psychologists. London: Lawrence Erlbaum Associates. Hambleton, R.K., Swaminathan, H., Rogers, J. H. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage publications. Linden van der W.J., Hambleton, R.K. (1997). Handbook of modern item response theory. New York: Springer. Lord F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, N.J.: L. Erlbaum Associates. Lord, F.M., Novick, M.R. (Eds.) (1968). Statistical theories of mental test scores. Reading, MA: MIT Press. McDonald, R.P. (1999). Test theory. A unified treatment. Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Mislevy, R.J., Bock, R.D. (1997). BILOG 3.11: Item Analysis and Test Scoring with Binary Logistic Models. Scientific Software, Inc. Muraki, E., Bock, D. (2003). Parscale. In M. du Toit (Ed.), IRT from SSI: Bilog- MG, Multilog, Parscale, Testfact (p. 257-344). Lincolnwood, IL: Scientific Software International, Inc. Raju, N.S. (1988). The area between two item characteristic curves. Psychometrika, 53, 495-502. Raju, N.S. (1990). Determining the significance of estimated signed and unsigned areas between two item response functions. Applied Psychological Measurement, 14, 197-207.

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research. Reckase, M.D. (1989). Adaptive testing: The evolution of a good idea. Educational Measurement: Issues & Practice, 8, 11-15. Reise, S.P. (1990). A comparison of item- and person-fit methods of assessing model-data fit in. IRT. Applied Psychological Measurement, 4, 127-137. Tatsuoka, K.K., Tatsuoka, M. M. (1983). Spotting erroneous rules of operation by the individual consistency index. Journal of Educational Measurement, 20, 221-230. Urbánek, T. (2002). Základy psychometriky. Brno: Psychologický ústav AV ČR, Psychologický ústav FF MU. Urbánek, T. Šimeček, M. (2001). Teorie odpovědi na položku. Československá psychologie, 5, 428-440. Wainer, H., Dorans, N.J., Eignor, D., Flaugher, R., Green, B.F., Mislevy, R.J., Steinberg, L., Thissen, D. (2000). Computerized adaptive testing: A primer (2nd edition). Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Wise, S.L., Kingsbury, G.G. (2000). Practical issues in developing and maintaining a computerized adaptive testing program. Psicológica, 21, 135-155.

VYBRANÉ PUBLIKACE AUTORA Květon, P., Jelínek, M., Vobořil, D., Klimusová, H. (2007). Computer-based tests: the impact of test design and problem of equivalency. Computers in Human Behavior, 23, 32-51. Jelínek, M., Květon, P., Vobořil, D., Klimusová H. (2007). Data collection on the Internet: evaluation of web-based questionnaires. Studia psychologica, 49, 1, 81-88. Jelínek, M., Květon, P. Denglerová, D. (2006). Adaptivní testování - základní pojmy a principy. Československá psychologie, 50, 2, 163-173. Jelínek, M., Květon, P. Vobořil, D. Blatný, M. Hrdlička, M. (2006). Vrstevnická konformita jako faktor rizikového chování mladistvých: struktura, zdroje, dopady. Československá psychologie, 50, 5, 393-404. Blatný, M., Hrdlička, M., Sobotková, V., Jelínek, M., Květon, P., Vobořil, D. (2006). Prevalence antisociálního chování českých adolescentů z městských oblastí. Československá psychologie, 50, 4, 297-310. Blatný, M., Jelínek, M., Blížkovská, J., Klimusová, H. (2004). Personality correlates of self-esteem and life satisfaction. Studia Psychologica, 46, 2, 97-104. Květon, P., Jelínek, M., Vobořil, D., Klimusová, H. (2003). Ekvivalence tradiční a počítačové formy testu IST-70. Československá psychologie, 47, 6, 562-572. Jelínek, M., Klimusová, H., Blatný, M. (2003). Stabilita a trendy vývoje inteligence u dětí ve věku 3-15 let. Československá psychologie, 47, 5, 392-404.

ABSTRACT Item Response Theory and Computerized Adaptive Testing The presented paper deals with the Item Response Theory (IRT) and Computerized Adaptive Testing (CAT). The beginning of the thesis describes the history of IRT and provides its comparison with Classical Test Theory (CTT). Further basic IRT models for dichotomous and polytomous items together with methods of parameters' estimation are presented. Due to the fact that IRT is a model-based method of measurement, the selected models can be evaluated according to their data fit. Appropriate methods for this evaluation are described in details. Several chapters are devoted to possibilities of latent trait scale transformation, construction of targeted tests based on the item information gain, and methods for detecting of differential item functioning. The second part of the thesis describes the history and basic principles of adaptive testing. The chapter Principles of creation and functioning of a computerized adaptive test acts as a general introduction to the presentation of our original software CATO v0.9 (Computerized Adaptive Testing optimized). This SW is capable of interactive administration and scoring of adaptive tests based on dichotomous items. KEY WORDS Item Response Theory (IRT), Computerized Adaptive Testing (CAT), CATO software