11. konference ČAPV Sociální a kulturní souvislosti výchovy a vzdělávání Využití software ITEMAN k položkové analýze a analýze výsledků testů Petr Byčkovský, Marie Marková Postup při návrhu a ověření testu se běžně rozděluje do tří na sebe navazujících etap: plánování testu, konstrukce testu a analýza testových výsledků. Položková analýza je důležitou součástí posledních dvou etap. V etapě konstrukce při pilotáži úloh, které navrhovatel testu zamýšlí zařadit do finální verze testu, pomáhá při posuzování vhodnosti jednotlivých úloh, tím že, její výsledky mohou upozornit na úlohy, které jsou nejasně formulované, nebo mají více správných řešení než navrhovatel úlohy předpokládal. V závěrečné etapě pak umožňuje zjistit statistické charakteristiky úloh, především empiricky zjištěnou úspěšnost při řešení úlohy, jejich citlivost (označovanou též jako index diskriminace) a funkci nabízených odpovědí (správných a distraktorů). Součástí analýzy testu je také zjištění statistických charakteristik souboru testových skórů, které je zvlášť závažné tehdy, chceme-li zjistit vyrovnanost dvou nebo více variant testu. Položková analýza a analýza testových výsledků vyžaduje mnoho času zejména tehdy pokud ji provádíme u testů zadaných většímu počtu testovaných. Proto se při ní využívá různé software, které je součástí rozsáhlejšího statistického software (např. SPSS, Statistica) nebo software samostatného. Mezi samostatné software patří i ITEMAN, produkt firmy Assessment Systems Corporation (viz http://www.assess.com), který je více než 15 let využíván především v USA. Toto software jsme použili při analýze výsledků některých testů zadaných při přijímacím řízení v roce 2002 na Pedagogické fakultě Univerzity Karlovy v Praze. ITEMAN je jednoduché software, určené pro položkovou analýzu a analýzu výsledků testů sestavených z úloh s výběrem odpovědi. Data z testů mohou být snímána opticky nebo vkládána ručně pomocí počítače. Ruční vkládání dat je časově náročné, umožňuje však analyzovat i úlohy s krátkou tvořenou odpovědí, jednotlivé položky však musí vždy být skórovány binárně, tj. správná odpověď je hodnocena 1 bodem a nesprávná žádným bodem. Účelem příspěvku je charakterizovat zmíněný software a ilustrovat jeho využití na příkladech položkové analýzy a analýzy výsledků testu z biologie. Příspěvek bezprostředně navazuje na sdělení M. Markové Využití webového rozhraní při sběru dat z přijímacího řízení. 1. Vstupní formát dat Program ITEMAN vyžaduje, aby vstupní data určená k analýze byla v textovém souboru, který bude ve formátu ASCII (pouze text). Příklad vstupního souboru dat je na obr.1. Obr. 1 Příklad vstupního souboru obsahujícího binárně skórované položky 30 O N 5 143534243521132435241342351423 KEY 555555555555555555555555555555 NO. ALTERNATIVES YYYYYYYYYYYYYYYYYYYYYYYYYYYYYY ITEMS TO INCLUDE EX001543542143554321542345134332413 EXAMINEE #1 EX002143534244522133OO2542531342513 EXAMINEE #2 EX003143534223521132435244342351233 EXAMINEE #3 EX004143534243521132435241342352NNN EXAMINEE #4 EX005143534243412132435452132341323 EXAMINEE #5
První čtyři řádky textového souboru charakterizují analyzovaný test. V prvním řádku udáváme počet úloh v testu, definujeme znak pro vynechané odpovědi (O), nedosažené úlohy (N) a počet znaků identifikující test. Z obr. 1 je zřejmé, že analyzovaný test obsahuje 30 úloh a každý test je identifikovaný pěti znaky. Do druhého řádku se zaznamenává klíč správných odpovědí, do třetího řádku počet nabízených odpovědí a do čtvrtého řádku uvádíme, které úlohy zahrneme do analýzy (Y zahrnuto). ITEMAN dovoluje analyzovat testy sestavené až ze 750 úloh a neomezuje počet testovaných. V každém z následujících řádků se uvádí identifikace testovaného a jeho odpovědi na jednotlivé testové úlohy. 2. Položková analýza Prvním ze dvou výstupů programu ITEMAN jsou výsledky položkové analýzy.výstup ze software ITEMAN je v angličtině, uvádíme proto i překlad názvů statistických ukazatelů: Pořadové číslo úlohy Seq. No. Pořadové číslo úlohy u subtestu (pokud je test na subtesty dělen) Scale Item Podíl nebo procento (uživatel si volí) správných odpovědí Prop. Correct Citlivost úlohy (rozdíl mezi úspěšností lepší a horší skupiny) Disc. Index Korelace úspěšnosti v úloze s testovými skóry pomocí buď bodově biseriálního korelačního koeficientu Point. Biser. nebo biseriálního korelačního koeficientu (uživatel si volí) Biser. Podíl voleb jednotlivých nabízených odpovědí v úloze celkem Prop. Total u horší skupiny (27% s nejnižšími skóry v testu) Endorsing Low u lepší skupin (27% s nejvyššími skóry v testu) Endorsing High Podíl jiných odpovědí (např. vynechaných) Other Korelace mezi nabízenými odpověďmi a testovými skóry Point. Biser. Správná odpověď (označení) Key (*) Ukázka výstupu s výsledky položkové analýzy prvních tří úloh testu z biologie, který byl použit u přijímacího řízení na Pedagogické fakultě UK v roce 2002 je na obr. 2. Obr. 2 Výsledky položkové analýzy tří úloh testu z biologie Item Statistics Alternative Statistics ----------------------- ---------------------------------- Seq. Scale Pcnt Disc. Point Pcnt Endorsing Point No. -Item Correct Index Biser. Alt. Total Low High Biser. key ---- ----- ------- ------ ------ ----- ----- ---- ---- ------ --- 1 0-1 77.29.28 A 7 14 3 -.16 B 13 18 10 -.10 C 77 57 86.28 * D 3 11 0 -.27 Other 0 0 0 2 0-2 30.30.40 A 13 14 14.02 B 33 39 10 -.32 C 24 29 28 -.09 D 30 18 48.40 * Other 0 0 0 3 0-3 35.41.44 A 14 25 3 -.21 B 25 39 21 -.20 C 23 14 14 -.07 D 35 18 59.44 * Other 2 0 0 -.15
3. Analýza testových výsledků Účelem analýzy testových výsledků je zjistit statistické charakteristiky testů a v případě, kdy používáme několika variant testu tyto charakteristiky porovnat a tím zjistit, zda jsou varianty srovnatelné. ITEMAN zjišťuje následující statistické charakteristiky: Počet testovaných N of Examinees Průměrný hrubý skór Mean Rozptyl skórů Variance Směrodatná odchylka skórů Std. Dev. Šikmost rozložení skórů Skew Špičatost rozložení Kurtosis Nejnižší dosažený skór Minimum Nejvyšší dosažený skór Maximum Medián (prostřední skór) Median Reliabilita (Cronbachovo alfa) Alpha Směrodatná chyba měření SEM Relativní průměrný skór Mean P Průměrný bodově biseriální koeficient Mean Item-Tot. Průměrný biseriální koeficient Mean Biserial Nejvyšší skór dosažený skupinou 27% testovaných s nejnižšími skóry Max Score (Low) (horší skupina) Počet testovaných v horší skupině N (Low Group) Minimální skór dosažený skupinou 27% testovaných s nejvyššími skóry Min Score (High) (lepší skupina) Počet testovaných v lepší skupině N (High Group) Hrubý skór (počet správných odpovědí) Number Correct Četnost testovaných podle počtu správných odpovědí Freqvency Kumulativní četnost Cum Freqvency Percentil odpovídající hrubému skóru PR Relativní četnost PCT Histogram skórů založený na relativních četnostech Ukázka výstupu obsahujícího základní statistické charakteristiky testu z biologie obsahujícího 25 úloh, který byl použit při přijímacím řízení v roce 2002, je na obr. 3. Obr. 3 Statistické charakteristiky varianty B testu z biologie N of Items 25 N of Examinees 91 Mean 14.396 Variance 12.305 Std. Dev. 3.508 Skew 0.400 Kurtosis 0.273 Minimum 5.000 Maximum 24.000 Median 14.000 Alpha 0.619 SEM 2.165 Mean Pcnt Corr 58 Mean Item-Tot. 0.322 Mean Biserial 0.437 Max Score (Low) 12 N (Low Group) 28 Min Score (High) 16 N (High Group) 29
Na obr. 4 je histogram a četnosti skórů varianty B testu z biologie, jehož statistické charakteristiky byly uvedeny na obr. 3. Obr. 4 Histogram skórů varianty B testu z biologie Number Freq- Cum Correct uency Freq PR PCT ------- ------- ------ ---- ----... No examinees below this score... 4 0 0 1 0 5 1 1 1 1 +# 6 0 1 1 0 7 0 1 1 0 8 1 2 2 1 # 9 3 5 5 3 ### 10 5 10 11 5 +##### 11 9 19 21 10 ########## 12 9 28 31 10 ########## 13 11 39 43 12 ############ 14 9 48 53 10 ########## 15 14 62 68 15 +############### 16 6 68 75 7 ####### 17 9 77 85 10 ########## 18 3 80 88 3 ### 19 3 83 91 3 ### 20 1 84 92 1 +# 21 3 87 96 3 ### 22 2 89 98 2 ## 23 1 90 99 1 # 24 1 91 99 1 # 25 0 91 99 0 + ----+----+----+----+----+ 5 10 15 20 25 4. Využití výsledků analýzy při posuzování vyrovnanosti testových variant K závažným úkolům analýzy testových výsledků je posoudit zda, testové varianty jsou vyrovnané. Na obr. 5 uvádíme porovnání statistických charakteristik varianty A a varianty B testu z biologie. Obr. 5 Statistické charakteristiky variant A a B testu z biologie Varianty A B Počet úloh 25 25 Počet testovaných 101 91 Průměrný hrubý skór 13,92 14,40 Rozptyl skórů 10,68 12,31 Směrodatná odchylka skórů 3,27 3,51 Šikmost rozložení 0,04 0,40 Špičatost rozložení -0,67 0,27 Nejnižší dosažený skór 7,00 5,00 Nejvyšší dosažený skór 21,00 24,00 Medián (prostřední skór) 14,00 14,00 Reliabilita (Cronbachovo alfa) 0,55 0,62 Směrodatná chyba měření 2,19 2,17 Relativní průměrný skór 56 58 Průměrný bodově biseriální koeficient 0,29 0,32 Průměrný biseriální koeficient 0,40 0,44 Nejvyšší skór dosažený skupinou 27% testovaný (horší skupina) 12 12 Počet testovaných v horší skupině 37 28 Minimální skór dosažený skupinou 27% testovaných s nejvyššími skóry (lepší 16 16 skupina) Počet testovaných v lepší skupině 34 29
Při srovnání jednotlivých statistických charakteristik si můžeme všimnout, že většina charakteristik je vyrovnaná. Varianta B je však poněkud snadnější a citlivější než varianta A, a její reliabilita, i když není příliš vysoká (Cronbachovo alfa 0,62), je vyšší než reliabilita varianty B. Nedostatečná reliabilita obou variant však je zřejmým nedostatkem obou variant analyzovaného testu, především pak proto, že výsledky testu jsou podkladem pro závažné rozhodnutí. Výsledky položkových analýz a analýz výsledků testů, použitých při přijímacích zkouškách na Pedagogickou fakultu Univerzity Karlovy v roce 2002 jsme poskytli autorům testů, kteří je využili ke zdokonalení testů určených pro přijímací zkoušky v následujícím roku.