MĚŘENÍ MATEMATICKÝCH SCHOPNOSTÍ

Podobné dokumenty
Seznámení s testem kognitivních schopností Woodcock-Johnson International Edition. PhDr. Jarmila Burešová

TIM - Test pro Identifikaci nadaných žáků v Matematice Kreativita při řešení matematických úloh

I-S-T 2000 R. Test struktury inteligence IST R. HTS Report. Jan Ukázka ID Datum administrace Standard A 1.

Verbální inteligence Numerická inteligence Figurální inteligence Inteligence (celková úroveň poznávacích schopností) Paměť

Přesnost a rychlost ve vnímání množství a jejich využití při diagnostice dyskalkulie. Kateřina Pražáková Klára Špačková

NĚKTERÉ VZÁJEMNÉ VAZBY A VZTAHY

Přehled výzkumných metod

Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky

Souběžná validita testů SAT a OSP

Základní principy psychologické diagnostiky

Cíle korelační studie

Úvodem Dříve les než stromy 3 Operace s maticemi

Pedagogicko psychologická diagnostika. PhDr. Denisa Denglerová, Ph. D.

Inteligence, myšlení, kreativita

Kognitivní deficit: Od screeningu k podrobnějšímu neuropsychologickému vyšetření. Sabina Goldemundová

Sociální původ, pohlaví, vzdělání a kompetence ve světle dat z národního šetření PIAAC

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

PROGRAM GEOGEBRA VE VÝUCE LINEÁRNÍ ALGEBRY

UŽIVATELSKÝ MANUÁL. Obecné informace pro uživatele a administrátory dotazníku. Abstraktní myšlení BASIC

TECHNICKÉ ŠKOLKY. ( pohledem psychologa )

CZ.1.07/1.2.08/ Vyhledávání talentů pro konkurenceschopnost a práce s nimi. Závislost úspěšnosti v testu TP2 na známce z matematiky

Statistická analýza jednorozměrných dat

V jedné ohradě budou tři a půl ovečky

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Lenka Procházková (UČO ) Návrhy kvantitativního a kvalitativního výzkumu

Faktorová analýza. PSY252 Statistická analýza dat v psychologii II

Národní ústav pro vzdělávání Valtice, (4) Posuzovací archy

určité kognitivní (poznávací) schopnosti, které umožňují řešit problémy, učit se, přizpůsobovat se, zobecňovat apod.

ASK. Test deduktivního a kreativního myšlení. HTS Report. Jan Ukázka ID Datum administrace Standard 1. vydání

RECENZE TESTU SVF78 PSYCHODIAGNOSTIKA DOSPĚLÝCH, PSY402. Petra Dvořáková , Psychologie

Self-reportové studie: cesta do hlubin latentní kriminality?

ADAPTIVITA INFORMAČNÍCH SYSTÉMŮ INFORMATION SYSTEM ADAPTIVITY

Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat.

Analýza vzdělávacích potřeb a kompetencí učitelů 1. stupně ZŠ v Olomouckém kraji k implementaci a využívání ICT ve výuce matematiky

Modely přidané hodnoty škol

Specifické poruchy učení ÚVOD. PhDr. Jarmila BUREŠOVÁ

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Upřesňující a doplňující informace k Žádosti o podstatnou změnu

Fyzikální veličiny. - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny. Obecně

Výsledky mezinárodního výzkumu TIMSS 2007

Zpráva pro školu z testování v projektu CLoSE - přidaná hodnota školy

Závislost na počítačových hrách u žáků druhého stupně vybraných základních škol

Konzumace piva v České republice v roce 2007

Faktory podmiňující vzdělanostní aspirace a vzdělanostní segregaci u dívek a chlapců v v českém vzdělávacím systému

STANFORD-BINETŮV INTELIGENČNÍ TEST V PÁTÉ TŘÍDĚ

Název Autor Jitka Debnárová Vedoucí práce Mgr. Petra Vondráčková, Ph.D. Oponent práce Mgr. Lenka Reichelová

KLUBY FIE A KK: VLIV NA KOGNITIVNÍ,

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)

SROVNATELNOST ŠKÁLY SOCIÁLNÍHO

Psychometrické vlastnosti Rosenbergovy škály sebehodnocení. Jaroslava Suchá, Martin Dolejš, Ondřej Skopal, Lucie Vavrysová

PSY401 Metodologie v psychologii Designy kvantitativního výzkumu*

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Výsledky žáků v anglickém jazyce na konci základního vzdělávání v JMK

Metodologie pedagogického výzkumu Téma číslo 4 Validita a reliabilita

Pearsonův korelační koeficient

VÝZKUM CLOSE UKÁZAL, ŽE PŘIDANÁ HODNOTA MŮŽE BÝT VYSOKÁ NA GYMNÁZIÍCH, I NA ZÁKLADNÍCH ŠKOLÁCH

KORELACE. Komentované řešení pomocí programu Statistica

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Časové a organizační vymezení

komunikační schopnosti Shrnutí

MAPA VÝZKUMU 13/03/2015 1

Jak vyvažovat autonomii a odpovědnost škol a učitelů: hodnocení výsledků vzdělávání

Identifikace nadání z pohledu poradenské praxe. PhDr. Pavla Picková PPP pro Prahu 1,2 a 4

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

GEN104 Koncipování empirického výzkumu

Varianty výzkumu Kroky výzkumu Výběrový soubor

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

různé typy přehledových studií integrativní typ snaha o zobecnění výsledků z množství studií

Sociologický výzkum (stručný úvod) Michal Peliš

VZ2017 matematika 5R MATEMATIKA. Jan Strnad. Třída: 5.třída

STATISTICKÉ PROGRAMY

Zpráva pro školu z testování na konci roku 2016 v projektu CLoSE

TISKOVÁ ZPRÁVA K VÝSLEDKŮM VÝZKUMU PŘECHODU DĚTÍ Z MATEŘSKÉ ŠKOLY DO 1. TŘÍDY ZÁKLADNÍ ŠKOLY

Analýza výsledků testu čtenářské gramotnosti v PRO /11

Možnosti predikce psychického vývoje z raných věkových období

SOCIÁLNÍ PEDAGOGIKA A PORADENSTVÍ: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

Sekundární analýza PIRLS 2016

OPONENTSKÝ POSUDEK HABILITAČNÍ PRÁCE

SMÍŠENÉ MODY SBĚRU DAT - DRUHY CHYB A MOŽNOSTI SROVNATELNOSTI

PEDAGOGIKA: OKRUHY OTÁZEK Státní závěrečná zkouška bakalářská

PROPOJENÍ VĚDY, VÝZKUMU, VZDĚLÁVÁNÍ A PODNIKOVÉ PRAXE. PhDr. Dana Pokorná, Ph.D. Mgr. Jiřina Sojková, Státní zámek Sychrov,

Metody analýzy modelů. Radek Pelánek

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky STATISTIKA I.

PRAVDĚPODOBNOST A STATISTIKA

Digitální technologie v životě žáků pohledem empirického výzkumu

odpovědí: rizikové již při prvním užití, rizikové při občasném užívání, rizikové pouze při pravidelném užívání, není vůbec rizikové.

er Jilská 1, Praha 1 Tel.:

Jak na vzdělávání nadaných dětí v předmětu matematika?

Korelace. Komentované řešení pomocí MS Excel

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Validita jako integrace výzkumného poznání PSY401 Metodologie psychologie

Počítačové kognitivní technologie ve výuce geometrie

Korelační a regresní analýza

Metodologie Helena Vaďurová,

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvod do problematiky měření

Spokojenost se životem

Psychologická diagnostika

Transkript:

MASARYKOVA UNIVERZITA Fakulta sociálních studií Katedra psychologie MĚŘENÍ MATEMATICKÝCH SCHOPNOSTÍ dizertační práce Mgr. Hynek Cígler školitel: prof. PhDr. Tomáš Urbánek, Ph.D. Brno, 2016

Abstrakt Psychometricky zaměřená dizertační práce se zabývá matematickými schopnostmi a možnostmi diagnostiky jejich úrovně. V úvodu definuje matematické schopnosti z hlediska psychometricky- -faktorového přístupu a rovněž z hlediska kognitivní psychologie, a to se zaměřením zejména na zpracování informace, kulturní souvislosti a vývoj těchto schopností během dětství. Práce diferencuje jednotlivé složky schopností označovaných jako matematické a zasazuje je jak do kontextu jiných intelektových faktorů, tak je studuje i samostatně jako specifické kognitivní fenomény. Zároveň se zabývá matematickým nadáním i deficitem, reprezentovaným specifickými poruchami učení v matematice či dyskalkulií. Z tohoto teoretického přehledu těží tři dílčí studie. První z nich je upravenou verzí psychometrického manuálu Testu pro identifikaci nadaných žáků v matematice (TIM) a popisuje jeho vývoj a psychometrické ověření. Z toho důvodu obsahuje dizertační práce rovněž rozsáhlejší kapitolu popisující některé aspekty tzv. Raschova modelu, který byl použit jako hlavní model měření. Druhá studie je reanalýzou Diagnostiky struktury matematických schopností (DISMAS), určené pro děti s dyskalkulií. Tři dílčí analýzy se zaměřují na odhad reliability kompozitních skórů, faktorovou strukturu testu (její vývoj v čase a hierarchickou strukturu) a konečně i invarianci jednotlivých škál, konceptualizovanou prostřednictvím DIF (differential item functioning). Třetí studie pak ověřuje hypotézu o rozdílné faktorové struktuře matematických testů mezi šikovnějšími dětmi a méně šikovnými. Všechny výsledky jsou podrobně diskutovány. Klíčová slova: matematické schopnosti; matematické dovednosti; dyskalkulie; matematické nadání; psychometrika; diagnostika; DIF; faktorová analýza; strukturní modelování; invariance; teorie odpovědi na položku; Raschův model

Abstract This psychometrically oriented Ph.D. thesis focuses on mathematical abilities and the possibility of their assessment. The introduction defines mathematical abilities from the factor models perspective and from the perspective of cognitive psychology, with a particular attention on information processing, cultural context and childhood development. The thesis differentiates individual components of abilities which could be labeled as mathematical. It puts them both in the context of other intellectual factors, and also studies them separately as specific cognitive phenomena. It also deals with mathematical giftedness and deficit (such as developmental dyscalculia). This theoretical framework is the foundation for three subsequent studies. The first of these is a modified version of the psychometrical manual of the Test for Identifying Gifted Students in Mathematics (TIM) and it describes TIM s development and validation. Therefore, the thesis also contains an extensive chapter which discusses some aspects of the Rasch model used as the main model of measurement during the development of TIM. The second study consists of a re-analysis of data from the DISMAS test, designed for children with dyscalculia. Three sub-analyses focus on estimating the reliability of composite scores, the factor structure of the test (specifically its changes over time and hierarchical structure) and finally on the scaleinvariance using the differential item functioning framework (DIF). The third study examines the hypothesis of a different factor structure of mathematical tests between more and less skilled children. All the results are discussed in detail. Keywords: math ability; math achievement; developmental dyscalculia; mathematical giftedness; psychometrics; psychological assessment; differentional item functioning; factor analysis; structural equation modelling; test invariance; item response theory; Rasch model

Prohlašuji, že jsem práci vypracoval samostatně a že jsem všechny použité informační zdroje uvedl v seznamu literatury. Některé části dizertace vycházejí z textů, které jsem publikoval v průběhu svého doktorského studia. Tato skutečnost je na příslušném místě vždy uvedena. V Brně dne Mgr. Hynek Cígler

V první řadě chci poděkovat své milované JANIČCE za její neskonalou trpělivost a vstřícnost ač to někdy bylo skutečně těžké, a nejlepšímu ANTONÍNOVI za to, že byl milejší a hodnější, než jen bylo vůbec možné. Vážím si též podpory celé své rodiny, zejména YVETTY, MARTINA, OLGY i VOJTY, kteří mě usadili vždy, když jsem ztrácel hlavu. Děkuji rovněž TOMÁŠI URBÁNKOVI, že mě celým mým doktorským studiem provázel řadou jeho podnětů, nápadů a svým ohromným množstvím neustálé inspirace. Zároveň si nesmírně cením faktu, že jsem mohl po pět let sdílet kancelář se STANDOU JEŽKEM, HONZOU ŠIRŮČKEM a po kratší dobu i s HONZOU MAREŠEM a NASŤOU EJOVOU. Nebýt jich, byly by mé dnešní psychometrické, statistické, metodologické a vůbec veškeré další akademické dovednosti zcela nesrovnatelné a tato práce by nikdy ve své stávající podobě nevznikla. Konečně chci vyjádřit svůj dík i pracovní skupině z Centra rozvoje nadaných dětí v čele s MICHALEM JABŮRKEM, ONDROU STRAKOU a ŠÁRKOU PORTEŠOVOU, bez nichž by nikdy nevznikla podstatná část textu týkající se testu TIM a hlavně test samotný.

Obsah 1 Úvodem... 1 2 Matematické schopnosti... 3 2.1 Srovnání matematických schopností a dovedností... 4 2.1.1 Rozdíly v matematickém výkonu a schopnostech na základě motivace a pohlaví... 6 2.2 Přístupy ke studiu matematických schopností... 7 2.2.1 Psychometricky-faktorový přístup... 8 2.2.2 Kognitivně-informační přístup... 14 2.2.3 Kognitivně-kulturní přístup... 20 2.2.4 Kognitivně-vzdělávací přístup... 37 2.3 Vysoce nadprůměrné vs. vysoce podprůměrné matematické schopnosti... 39 2.3.1 Specifické poruchy učení v matematice... 40 2.3.2 Mimořádné matematické nadání... 45 2.4 Testy používané k měření matematických schopností a dovedností... 48 2.4.1 Test pro identifikaci nadaných žáků v matematice (TIM)... 48 2.4.2 Diagnostika struktury matematických schopností (DISMAS)... 48 2.4.3 Posuzovací škály a didaktické testy k vyhledávání nadaných žáků [...]... 48 2.4.4 Neuropsychologická batéria testov na spracovávanie čísiel [...]... 49 2.4.5 Percepčně numerický test, barevná kalkulie a kalkulie IV... 49 2.4.6 Matematické předpoklady dětí v mladším školním věku, [...]... 50 2.4.7 Diagnostika matematických schopností a dovedností... 50 2.4.8 Další testy... 50 2.5 Shrnutí úvodu a výzkumné cíle práce... 51 2.5.1 Vývoj a ověření testů matematického nadání... 52 2.5.2 Validita, reliabilita a férovost testu matematického deficitu... 52 2.5.3 Dimenzionalita škál testů matematických schopností... 53 2.5.4 Využití systému ANS jako příčiny dyskalkulie při její diagnostice... 53 2.5.5 Experimentální ověření nezávislosti matematických dovedností [...]... 54 3 Raschův model... 56 3.1 Informační funkce položky a testu... 58 3.2 Odhad reliability v rámci IRT... 59 3.3 Shoda dat s modelem... 62 3.3.1 Na úrovni modelu... 62 3.3.2 Na úrovni položek a respondentů... 63 3.4 DIF analýza... 64 3.5 Skóry založené na Raschově modelu... 66 4 Studie 1: Vývoj testu TIM psychometrická kazuistika... 68 4.1 Teoretická východiska a tvorba položkové banky... 69 4.2 Metoda... 71 4.2.1 Výzkumný vzorek a postup sběru dat... 71 4.2.2 Postup zpracování dat... 74 4.3 Výsledky... 74 4.3.1 Vyvážení verzí a forem testu TIM... 75 4.3.2 Položková analýza výsledné verze testu TIM... 87

4.3.3 Reliabilita...93 4.3.4 Validita...97 4.3.5 Normy a standardizace... 116 4.4 Diskuze ke studii 1... 121 5 Studie 2: Relabilita a obsahová validita testu DISMAS... 123 5.1 Abstrakt... 123 5.2 Úvod... 124 5.2.1 Reliabilita součtových skóre... 125 5.2.2 Faktorová struktura testu... 126 5.2.3 Přenositelnost a možnost aplikace norem na poradenskou populaci... 126 5.2.4 Cíle výzkumu... 127 5.3 Metoda... 127 5.4 Studie 2A: Reliabilita součtových skórů... 128 5.4.1 Statistická analýza... 128 5.4.2 Výsledky... 128 5.5 Studie 2B: Faktorová struktura testu... 129 5.5.1 Statistická analýza... 129 5.5.2 Výsledky... 130 5.6 Studie 2C: Invariance vývojových škál... 134 5.6.1 Statistická analýza... 134 5.6.2 Výsledky... 135 5.7 Diskuze... 137 5.7.1 Limity výzkumu... 140 5.7.2 Závěr... 141 6 Studie 3: Dimenzionalita matematických testů... 142 6.1 Metoda... 143 6.1.1 Výzkumný vzorek a použité metody... 143 6.1.2 Statistická analýza dat... 143 6.2 Výsledky... 146 6.2.1 TIM... 146 6.2.2 DISMAS... 151 6.3 Diskuze ke studii 3... 157 6.3.1 Limity... 159 6.3.2 Závěr... 159 7 Souhrnná diskuze... 160 8 Literatura... 163

Měření matematických schopností 1 1 Úvodem Při nástupu do mého doktorského studia byly pracovní výzkumné otázky, které jsem si tehdy kladl a na které jsem chtěl během čtyř let studia hledat odpověď, značně odlišné od dnešních cílů této práce (stejně tak je ale odlišné i její současné vyznění od doby, kdy jsem napsal tyto řádky). V první řadě se mi naskytla možnost spolupracovat se skvělým týmem Šárky Portešové na Testu pro identifikaci matematického nadání (dále jen TIM; Cígler, Jabůrek, Straka a Portešová, in press), jehož vývoj trval po větší část mého studia. Dále jsem se podílel přípravou teoretického úvodu na testu Diagnostika struktury matematických schopností (dále jen DISMAS; Traspe a Skalková, 2013), přičemž reanalýzu jeho pilotních i standardizačních dat jsem prezentoval na konferenci Mezinárodní komise pro testování (Cígler, Jabůrek a Širůček, 2014) a jiná reanalýza je právě v recenzním řízení (Cígler a kol., in review); je ostatně i součástí této práce. Kromě toho jsem se podílel na standardizaci posuzovacích škál Lenky Hříbkové, Petra Nejedlého a Jaroslava Zhoufa pro vyhledávání nadaných dětí v rámci baterie IDENA (Cígler, 2013b) a společně s Michalem Jabůrkem a Jiřinou Bednářovou v době přípravy této dizertace spolupracuji i na vývoji achievementového testu matematických schopností. Zpracovával jsem též data k dalším psychologickým metodám, ať už pomocí klasické testové teorie (CTT) nebo teorie odpovědi na položku (IRT), a sbíral tak praktické i teoretické zkušenosti o konstrukci testů. Vedle těchto veskrze pozitivních událostí jsem však s postupujícím studiem naznal, že mé původní výzkumné otázky jsou v lepším případě dávno dobře prozkoumané a zcela banální, nebo v případě horším zcela nesmyslné. Příkladem může být srovnání IRT odhadů chyb měření latentních skórů a chyb měření pravých skórů, odhadnutých prostřednictvím CTT, což jsem chtěl provést jak s využitím konkrétního testu, tak i simulovaných dat. Nehledě na to, že celá problematika vztahu CTT a IRT je velmi dobře prozkoumaná (např. Culpepper, 2013) včetně toho, že existují postupy pro vyjádření CTT statistik pomocí IRT (např. Bechger a kol., 2003), samotný záměr byl ve své původní podobě nesmyslný a plně vyjadřoval mé tehdejší nepochopení základních psychometrických poznatků. Ostatně obě psychometrické teorie jsou ve svém jádru velmi podobné, liší se prakticky jen svou parametrizací a způsoby odhadu (srov. Takane a de Leeuw, 1987) a obě dosahují prakticky shodných odhadů (např. Knol a Berger, 1991). Po zvážení vlastních matematických schopností jsem tedy opustil oblast základního výzkumu v teoretické psychometrice a zaměřil se na přízemnější témata. Cílem této práce je představit best practices při konstrukci (alespoň) menších jednodimenzionálních škál a jejich psychometrického ověřování, které může posloužit za vzor dalším výzkumníkům při tvorbě jejich vlastních testů. Kromě ilustrace konkrétních postupů se pokusím argumentovat, proč jsou ty které kroky vhodné či nezbytné na příkladu reálných testových dat. V následujících úvodních kapitolách shrnu základní teoretické poznatky o matematických schopnostech a zasadím je do širšího rámce exekutivních schopností a teorií inteligence. Zvlášť se zaměřím na deficit, reprezentovaný například dyskalkulií, stejně jako na výrazný nadprůměr, operacionalizovaný do podoby matematického nadání. Následovat bude teoretické shrnutí použitých psychometrických a statistických postupů ve vlastním výzkumu, zaměřené zejména na Raschův model. Součástí těchto kapitol budou i vlastní myšlenky a vztahy odvozené z použité literatury.

2 Hynek Cígler Po tomto teoretickém úvodu budou následovat tři empirické studie. První a nejrozsáhlejší z nich v podobě psychometrické kazuistiky bude ilustrovat tvorbu a konstrukci testu TIM včetně souvisejících ověřovacích studií. Zde představím způsob, jakým lze vyvinout (nepříliš rozsáhlou) psychodiagnostickou metodu při pečlivém dodržování veškerých nutných standardů, předpokladů a statistických náležitostí kladených na psychologické testy. Druhou studií bude reanalýza dat testu DISMAS s využitím odhadů kompozitní reliability, Raschova modelu a konfirmační faktorové analýzy. Výsledky mají důsledky pro uvažování o spolehlivosti testu i o jeho konstruktové validitě. V závěrečné analýze pak ověřím hypotézu o rozdílné faktorové struktuře testů mezi nadprůměrnými a podprůměrnými dětmi, jejíž příčinou by měla být rozdílná míra interindividuálních rozdílů v kognitivních schopnostech podléhajících matematickému úsudku. Po těchto třech analýzách pak bude následovat společná diskuze a shrnutí.

Měření matematických schopností 3 2 Matematické schopnosti Psychologové se o matematické schopnosti zajímali po většinu celého 20. století a ani dnes tomu není jinak 1. První výzkumy v této oblasti tyto schopnosti chápaly zejména jako součást inteligence jejich souvislosti s tehdejším pojetím obecné inteligence (g-faktoru) byly zřejmé a zdálo se, že s ní souvisejí dokonce těsněji, než schopnosti zjišťované jinými výkonovými testy (např. Buckhingam, 1921). Hned po první světové válce navíc Agnes L. Rogersová (1919) shrnula tehdejší způsoby měření matematických schopností, přičemž pojmenovala dva dosud používané hlavní přístupy, které bychom z dnešního hlediska označili jako rychlost zpracování (mnoho snadných položek, omezený čas) a dosaženou vývojovou úroveň (položky se vzrůstající obtížností od velmi snadných po velmi obtížné, které umístí dítě na škále ); ty samozřejmě nebyly zcela nové (viz např. O Shea, 1901). Její nadšení testováním bylo vysoké: první standardizovaný americký test středoškolské matematiky byl publikovaný v roce 1914, přičemž během následujících čtyř let se produkce těchto testů rapidně zvýšila, a ty tak nabyly na významnosti. Podle Rogersové (1919) učitelé dokonce měli nahradit subjektivní a nespolehlivé známkování objektivním, nezkresleným a přesným měřením (s. 162); uvádí i výsledky ověření prediktivní validity, ve kterých výsledek v hodinu a půl dlouhém matematickém testu koreloval 0,82 s budoucím, blíže nespecifikovaným matematickým výkonem studentů. Rogersová též pojmenovala důležitý jev týkající se testů školních znalostí, a to, že jednotlivé testy lze rozdělit do tří oblastí: algebra, geometrie a jazykové dovednosti (tyto kompozity pak spolu navzájem korelují v rozmezí 0,38 0,42 2 ), přičemž se nezdá, že by algebra a geometrie spolu byly v těsnějším vztahu než s jazyky. To do jisté míry odpovídá moderním přístupům např. v rámci CHC teorie, kde by šlo o vizuálně-prostorové (Gv), kvantitativní 3 (Gq) a jazykové (Grw) schopnosti tvořící samostatné faktory ze strata II (faktory druhého řádu; např. Flanagan a Dixon, 2014). Celkově však byly první testy založeny spíše na různých matematických úlohách odvozených ze školního kurikula než z teorie kognitivního zpracování a nějakých modelů matematického usuzování, jak tomu zpravidla bývá dnes. Škály se zabývaly algebraickými operacemi, slovními úlohami, číselnými řadami, analýzou numerických dat, induktivním usuzováním na obecná pravidla či naopak deduktivním hledáním vztahů mezi objekty. I přes tuto značnou obsahovou roztříštěnost spolu jednotlivé škály silně korelovaly; Rogersová (1919) pro ně používala termín matematická inteligence a považovala ji za relativně nezávislou na učení. Dnešní poznání je samozřejmě o značný kus dál, je však zjevné, že matematické schopnosti jsou velmi významné pro život člověka. Předchozí výzkum ukázal, že souvisejí například s velikostí příjmu, zaměstnatelností, kariérním postupem či životní spokojeností (Rivera-Batiz, 1992; Paglin a Rufolo, 1990; Rose a Betts, 2004; Parsons a Bynner, 2005). Na druhou stranu toho víme velmi málo o kognitivních procesech, které za matematickými schopnostmi stojí tedy alespoň podle 1 Tento odstavec částečně vychází z teoretického úvodu k testu DISMAS, jehož jsem autorem (Cígler, 2013a). 2 Je zajímavé, že po použití tehdy jen pár let staré Spearmanovy (1904) korekce proti nereliabilitě (tedy pravděpodobně, tehdejší terminologie byla odlišná) pak korelují 0,49 0,56. Z toho totiž můžeme usuzovat na reliabilitu tehdejších testů, která se mohla pohybovat zhruba okolo 0,75. V tomto ohledu je tedy pozoruhodná hodnota uvedené prediktivní validity, která je paradoxně zřejmě vyšší (anebo přinejmenším shodná) než reliabilita prezentovaných testů. 3 Quantitative knowledge (Gq) byly ve starších verzích CHC teorie a třívrstvého Carrollova modelu řazeny, na rozdíl od dřívější Cattelovy-Hornovy teorie, spíše pod faktor fluidní inteligence (Gf), viz např. Flanagan a Dixon (2014) nebo Carroll (1993).

4 Hynek Cígler některých autorů, osobně bych se s touto myšlenkou neztotožnil (viz např. Geary, 1993; Floyd, Evans a McGrew, 2003). Samotné matematické schopnosti jsou však definovány velmi vágně, ad hoc pro každý jednotlivý případ: např. jako prostá účast v příslušných univerzitních kurzech, školní prospěch v matematických předmětech, skóry v různě operacionalizovaných testech. Ne ve všech výzkumech také byl kontrolován parciální vliv ostatních intelektových složek, které pochopitelně s matematickými schopnostmi i s uvedenými životními charakteristikami úzce souvisejí také. V následujících kapitolách se proto důkladně zaměříme na deskripci schopností a dovedností, které mají vztah k matematickému výkonu, a následně popíšeme jejich krajní póly: specifické poruchy učení v matematice a naopak mimořádné matematické nadání. 2.1 Srovnání matematických schopností a dovedností Ve výzkumu bývají často diferencovány matematické schopnosti a dovednosti. Jako schopnosti (v anglické literatuře zpravidla mathematical ability ) jsou zpravidla označovány kognitivní a exekutivní složky zodpovědné za provádění matematických operací od jednoduchých výpočtů až po komplexní matematické úsudky. Tyto dovednosti bychom nemuseli označit vždy za ryze matematické patří sem do jisté míry například i součásti pracovní paměti, které jsou zodpovědné za nakládání s numerickými či vizuálně-prostorovými objekty a mají přímý vliv na podávaný matematický výkon (Hitch a McAuley, 1991; Wilson a Swanson, 2015). Naopak dovednosti (v angličtině skills nebo mathematical achievement ) bývají zpravidla definovány jako konkrétní úroveň vývoje matematických znalostí více závislá na učení. Jako takové jsou dovednosti těsněji spjaté jednak se školním kurikulem a celkově s naučenými znalostmi, ale zároveň i s nevýkonovými charakteristikami, jako například motivací, self-efficacy apod. zvýšení úrovně těchto charakteristik vede i k vyššímu výkonu (např. Brown a Burton, 1978; Bandura a Schunk, 1981). Ačkoliv nízký školní výkon v matematických předmětech vede k celkově negativním postojům vůči matematice, samotné matematické dovednosti nejsou (ve srovnání například se čtením) zpětně těmito postoji tolik ovlivněny (Onatsu-Arvilommi a Nurmi, 2000), což by svědčilo ve prospěch spíše dispozičního zakotvení matematických dovedností oproti např. schopnostem jazykovým. Jiní autoři nicméně udávají zpětnovazebný posilující vztah matematického výkonu a motivace (Aunola, Leskinen a Nurmi, 2006), kde vyšší motivace vede k vyššímu výkonu, a ten zase zvyšuje motivaci. Rozdíl mezi těmito výzkumy mohl být způsoben právě v rozdílném pojetí matematických schopností spíše jako výkonu či spíše jako schopnosti. Rozdíl mezi matematickými schopnostmi a dovednostmi však samozřejmě není jednoznačný, složitý matematický úsudek není možný bez odpovídajících teoretických znalostí. Na tento problém jsme ostatně narazili s Michalem Jabůrkem při tvorbě položek testu zaměřeného na matematický úsudek, kdy zejména ve vyšších výkonových pásmech bylo velmi obtížné vytvořit položky s malým podílem znalostního faktoru. Zároveň však platí, že nižší úroveň matematických schopností vede zpětně též k horšímu pamatování aritmetických faktů (Shalev & Gross-Tsur, 2001; Landerl, Bevan a Butterworth, 2004; Geary, 1993) osvojení si hlubokých matematických znalostí není možné bez odpovídající míry jejich chápání.

Měření matematických schopností 5 Dále se ukazuje, že i při kontrole řady intervenujících demografických proměnných jsou rané matematické dovednosti v dětství (např. v deseti letech), a to zejména dělení a zlomky, nejsilnějšími prediktory zvládnutí středoškolské algebry a matematiky celkově (Siegler a kol., 2012). Efekt byl zhruba stejně silný, jako v případě testů inteligence rané matematické dovednosti však naopak prakticky neměly vliv na budoucí výkon jazykových schopností, na rozdíl od intelektových prediktorů. Zajímavé také je, že i na střední škole znalost zlomků souvisí s celkovým matematickým výkonem těsněji než s algebraickými znalostmi, ke kterým má obsahově blíže základní matematické znalosti se tak přímo promítají do aktuálního výkonu, neovlivňují jen způsob učení (Siegler a kol., 2014). Je samozřejmě otázkou, nakolik je tento vztah přímý a nakolik je moderován či mediován motivací či self-efficacy. Celou situaci problematizuje i fakt, že intelekt (reprezentovaný například testy inteligence) bývá implicitně považován za schopnost, kdežto matematický výkon za dovednost (např. Fuchs, Fuchs a Compton, 2006). Příkladem může být studie Schiefele a Csikszentmihalyi (1995), kde jsou schopnosti vymezené skórem v testu schopností (v tomto případě Preliminary Scholastic Aptitude Test, PSAT-M) a dovednosti či výkon školním hodnocením, typicky GPA (Grade Point Average, používané v anglosaských zemích). Tento předpoklad ovšem na základě empirických zjištění může být chybný, jak si ukážeme níže ještě podrobněji. Součástí CHC teorie inteligence jsou totiž jako jeden z faktorů druhého řádu Kvantitativní znalosti (Gq), které McGrew a Evans (2004, s. 11) definují jako hluboké [ ] deklarativní i procedurální kvantitativní vědomosti. Gq je z velké části nabyto používáním jiných schopností převážně během formálního vzdělávání. [ ] Gq reprezentuje spíše kapacitu dosažených matematických znalostí než usuzování v této oblasti. Přitom však dodávají, že samotné matematické usuzování (RQ) jako schopnost deduktivního a induktivního uvažování při řešení kvantitativních problémů (přesněji matematických vztahů a vlastností, s. 6), spadá spíše do faktoru fluidní inteligence (Gf). 4 Navíc je technicky možné z úrovně Gq usuzovat jakožto z faktoru druhého řádu i na úroveň celkové inteligence (G). Je tedy patrné, že apriorní dělení schopností a dovedností podle znalostních a inteligenčních testů je přinejmenším zpochybněné. Rozdělení matematických schopností jako spíše rysové a dovedností jako spíše osvojené složky není proto vůbec jednoznačné. Na vztah matematických schopností a dovedností lze dále nahlížet i z vývojové perspektivy, kterou se nicméně budeme podrobněji zabývat později. Příkladem mohou být piagetovské přístupy ke studiu osvojování matematických dovedností (např. Piaget a Szeminska, 1952; Beth a Piaget, 1974; Piaget a Inhelderová, 2014). V posledních letech se empirickým studiem vývoje matematických dovedností a možnostmi jejich rozvoje nad vrozenou úroveň zabýval např. Geary (1994; 1995; 2006). Pochopení procesů, které vedou k osvojení matematických dovedností na základě vrozených schopností, nám pochopitelně umožňuje obě oblasti podrobněji odlišit. Na základě výše uvedené literatury však spatřuji jeden společný rys, který do jisté míry přesně odděluje matematické schopnosti od dovedností a který budu používat pro dělení i v následujícím textu. Matematickými schopnostmi jsou častěji označované ty kognitivní schopnosti, které vedou 4 A person s wealth (breadth and depth) of acquired store of declarative and procedural quantitative knowledge. Gq is largely acquired through the investment of other abilities primarily during formal educational experiences. It is important to recognize that RQ, which is the ability to reason inductively and deductively when solving quantitative problems, is not included under Gq, but rather, is included in the Gf domain. Gq represents an individual s store of acquired mathematical knowledge, not reasoning with this knowledge. (McGrew a Evans, 2004, s. 11)

6 Hynek Cígler k vyřešení matematických problémů s využitím znalostí, jež jsou dostupné naprosté většině populačního ročníku; případně s využitím pravidel, které lze v rozumném čase logicky odvodit bez nutnosti jejich předchozí znalosti. Naopak matematické dovednosti se projevují jako konkrétní výkon v úkolech přiměřených kurikulu, přičemž kombinují znalosti dostupné jen některým dětem s postupy vyžadujícími zapojení matematických schopností. Je však samozřejmé, že pokročilé matematické znalosti umožňují rozsáhlejší rozvoj a zejména uplatnění matematických schopností; naopak matematické schopnosti umožňují osvojení si a naučení pokročilejších matematických znalostí, a tedy i projevení dovedností. I nadále je navíc nutné držet v paměti, že oba pojmy jsou stále značně promiskuitní a jejich význam se silně prolíná. Cílem této práce ovšem není výzkum dosahování úrovně znalostí vyžadovaných ve škole veškeré studium kurikula bylo pouhým prostředkem k identifikaci běžných úkolů s obtížností přiměřenou věku. Primárně se proto zaměřuji právě na matematické schopnosti, jakožto komplexní, v čase relativně stabilní psychický jev (Libertus, Feigenson a Halberda, 2011; Jordan a kol., 2006; Jordan a kol., 2009; Siegler a kol., 2014; Mazzocco a Thompson, 2005), a určitou pozornost věnuji též i základům této schopnosti, tedy představám čísla a dalším kvalitativně odlišným vývojovým stádiím v raném věku (Piaget a Szeminska, 1952 aj.). 2.1.1 Rozdíly v matematickém výkonu a schopnostech na základě motivace a pohlaví Zvážení vlivu motivace, pohlaví a dalších neintelektových faktorů na matematické schopnosti a dovednosti je klíčové pro jejich diagnostiku v případě značných rozdílů by informace o odlišném fungování různých skupin osob bylo nutné využívat při konstrukci testů. Představa, že chlapci dosahují lepších matematických výkonů než dívky, je široce a mezikulturně rozšířeným stereotypem; na druhou stranu, síla tohoto stereotypu skutečně souvisí s pozorovaným rozdílem ve výkonu chlapců a dívek v dané zemi stereotypy jsou však větší než skutečný rozdíl (Nosek a kol., 2009). Rozdíl ve výkonu chlapců a dívek, pokud bereme v úvahu metaanalýzy napříč různými kulturami, se různí; v některých zemích jsou lepší chlapci, v jiných dívky, a zřejmě jde o kulturní specifikum; což se týká jak matematických schopností, tak i dovedností. Celkově je však tento rozdíl zcela zanedbatelný a zřejmě se navíc v čase snižuje (Friedman, 1989; Hyde, Fennema a Lamon, 1990), ačkoliv někteří autoři popisují systematicky vyšší skóry chlapců (Halpern, 2014). Zdá se však, že chlapci dosahují lepších výsledků v prostorových schopnostech (Halpern, 2014; Voyer, Voyer a Bryden, 1995), zatímco dívky ve verbálních schopnostech (Halpern, 2014). Samotná struktura rozdílů v matematických schopnostech se liší podle typů úloh: zatímco dívky jsou o něco šikovnější v jednoduchých aritmetických operacích, chlapci jsou naopak úspěšnější v řešení složitějších problémů, i zde však síla efektů klesá v čase a je minimální (Hyde a kol., 1990). To může odpovídat výsledkům experimentů Spencera, Steela a Quinna (1999), z jejichž výsledků lze soudit, že pozorovaný výkon dívek u obtížných příkladů (ale nikoliv u snadných) leží pod úrovní jejich skutečných latentních schopností v důsledku jevu zvaného stereotypní ohrožení, tedy obavy ze selhání. Benbow a Stanley (1980) soudí, že za pozorovanými mezipohlavními rozdíly stojí enviromentální, nikoliv genetické faktory.

Měření matematických schopností 7 Zdá se proto, že motivace, postojové faktory a matematický self-esteem se skutečným výkonem souvisí; tato souvislost byla ostatně v korelačních studiích pozorovaná (např. Singh, Granville a Dika, 2002). Nicméně v longitudinální studii Skaalvika a Valåse (2010) se efekt jeví jako spíše opačný tedy matematický výkon ovlivňuje následnou motivaci, nikoliv naopak. Vliv motivace se zdá tedy spíše uplatňovat v případě řešení konkrétních úloh než v případě celkového osvojování nových matematických dovedností. Ostatně při využití našeho vlastního testu TIM, vyvíjeného v týmu Šárky Portešové, jsme nepozorovali souvislost mezi motivací dětí a úrovní matematických schopností (Cíglerová, 2016). Můžeme proto uzavřít, že rozdíly v úrovni matematických schopností i dovedností mezi muži a ženami jsou zcela zanedbatelné a případné diagnostické metody lze pro obě pohlaví vyvíjet společně. Možným ohrožením objektivity testování jsou jen potenciálně odlišné metakognitivní strategie mezi muži a ženami při řešení konkrétních úloh. 2.2 Přístupy ke studiu matematických schopností Sternberg a Ben-Zév (1996) v úvodu (a závěru) své vynikající knihy The Nature of Mathematical Thinking popisují pět možných úhlů pohledu na matematické schopnosti: Psychometrický přístup, reprezentovaný faktorovými teoriemi (nejen) inteligence. Kognitivně-informační přístup ( výpočetní ), zaměřený na zpracovávání matematických informací. Kognitivně-kulturní ( antropologický ), který chápe matematické uvažování jako součást kulturně závislého porozumění světu, navíc s určitými biologickými predispozicemi; zahrnuje i piagetovské přístupy. Kognitivně-vzdělávací přístup ( pedagogický ), který jde odzadu a sleduje děti učící se matematice. Matematický přístup, který se zaměřuje na strukturu matematických faktů a principů a propojuje tak psychologii a matematiku jako vědu. První tři přístupy jsou z hlediska diagnostiky matematických dovedností klíčové definují, co to matematické schopnosti jsou, a zasazují je do kontextu ostatních kognitivních schopností. Budu tedy sledovat logickou nit uvedené knihy a podrobně se na každý z těchto tří přístupů zaměřím. Pedagogický přístup je užitečný do té míry, že nám umožňuje zkoumat, jakým způsobem klást otázky a konstruovat položky při zjišťování míry matematických schopností. Popíšu proto též tyto dílčí aspekty zjištění, které nám přináší kognitivně-vzdělávací přístup. Poslední, matematický přístup nepřináší žádné zásadní informace, které by mohly rozšířit diskuzi o měření matematických schopností snad jen v případě, že by se tato práce věnovala ověřování didaktických znalostí a schopností studentů matematických oborů. Pohled matematiků na to, jaké klíčové aspekty musí vykazovat lidé věnující se jejich oboru, proto zcela vynechám. Závěrem by bylo vhodné zmínit ještě filozofický přístup k matematickým schopnostem a k reprezentaci matematických konceptů, čímž se zabývali např. Wittgenstein, Peano, Russell, Frege a další (cit. dle Miller, 1992). Ten se však týká spíše toho, co to je číslo jako takové v kontextu lidského myšlení, a svou teoretickou diskuzí se podobá přístupu matematickému (ostatně Russell, Peano i Frege byli mimo jiné i matematiky). Pro praktické účely této práce je nicméně možné jej pominout.

8 Hynek Cígler 2.2.1 Psychometricky-faktorový přístup 2.2.1.1 Princip Chceme-li studovat matematické schopnosti z ryze psychometrické perspektivy za pomoci faktorové analýzy, je nutné splnit dvě hlavní podmínky. V první řadě je nutné mít k dispozici komplexní faktorový model schopností a za druhé v jeho rámci identifikovat ty dimenze, které lze označit jako matematické. Pokud by byl postup opačný, tedy kdybychom zaprvé identifikovali různé schopnosti běžně označované jako matematické, následně vytvořili a administrovali příslušné testy a až na závěr zkonstruovali faktorový model s využitím výhradně těchto dat, došli bychom s vysokou mírou jistoty (a to nejen při použití explorační faktorové analýzy) ke značně zkresleným vztahům mezi proměnnými. Model by totiž nemohl zahrnout intervenující vliv ostatních intelektových schopností v podobě jejich parciálních vztahů 5. Jeden z možných problémů, které by vynechání některých manifestních proměnných (subtestů) způsobilo, popisuje obr. 1. V tomto případě vidíme šest subtestů sycených dvěma korelovanými latentními proměnnými (faktory). Pokud část subtestů vynecháme, struktura bude zdánlivě jednodimenzionální. V případě matematiky, při nezahrnutí jiných intelektových schopností, by matematické subtesty společně s největší pravděpodobností vytvořily faktor druhého řádu, který bychom označili jako celková matematická schopnost nebo bychom jej ztotožnili s g-faktorem. Ve skutečnosti, jak uvidíme dále, schopnosti označované jako matematické spadají do dvou zcela odlišných faktorů druhého řádu (a teprve nad nimi je g-faktor) bez administrace dalších subtestů by však tyto vyšší faktory nebylo možné identifikovat. OBR. 1 Dvě myšlené korelované latentní proměnné sytí šest subtestů (vlevo). V případě, že některé subtesty vynecháme (vpravo), bude výsledkem odhad jediné latentní proměnné, přičemž testy sycené chybějící latentní proměnnou (v tomto případě test 3) budou mít chybně identifikovaný dominantní náboj na zbylých latentních proměnných. Zároveň odhad latentní proměnné 2 bude ve druhém případě nutně zkreslený z důvodu záměny subtestů (vygenerováno s využitím R knihovny DiagrammeR, Sveidqvist a kol., 2015). Tento problém se označuje jako specifikační chyba nebo zejména v případě regresních modelů též OVE či LOVE ( /left/ out variable error ) a netýká se samozřejmě jen faktorových analýz, ale též veškerých regresních analýz a vůbec zkoumání vztahů proměnných navzájem. Jakkoliv existují 5 Touto problematikou se v rámci explorační faktorové analýzy podrobně zabývá například Gorsuch (1974, s. 246 258), a to včetně konkrétních typů zkreslení včetně grafických příkladů (s. 297 309), v případě strukturních modelů obsáhle též např. Kline (2010). Otázka invariance je nastíněna i v Carrollově (1993) přehledu.

Měření matematických schopností 9 postupy pro identifikaci vynechaných proměnných (např. Mauro, 1990) či různé indexy robustnosti proti chybějícím proměnným (např. Frank, 2000), nesetkáváme se s nimi v literatuře často. Vliv těchto nezahrnutých proměnných je navíc tím více zkreslující, čím silnější korelace mezi jednotlivými prediktory (manifestními proměnnými) jsou. A protože schopnosti označované jako matematické mají velmi silný vztah s jinými intelektovými schopnostmi (např. Carroll, 1996; Floyd, Evans a McGrew, 2003), výzkum vztahu matematických dovedností a jiných osobních či osobnostních charakteristik (např. již zmíněný příjem, zaměstnatelnost atd.) samostatně bez zahrnutí celkového intelektu poskytuje silně zkreslené informace. Bohužel, podobné designy se vyskytují až příliš často. Naopak výše zmíněný přístup, tedy využití komplexního modelu při studiu dílčích, specifických (a případně i arbitrárně vymezených) schopností, skýtá celkově značné výhody oproti dílčímu studiu předpokládaných vztahů umožňují zachytit jevy v plné šíři bez zbytečné redukce a zkreslení (např. Floyd, Evans a McGrew, 2003). 2.2.1.2 CHC teorie a stručná historie faktorového studia výkonových testů Empirický výzkum vzájemných vztahů výkonových testů pomocí faktorové analýzy je jednou z dominantních metod ve studiu kognitivních schopností již více než sto let. V současnosti nejvlivnější přístup reprezentuje Cattelova-Hornova-Carrollova teorie (zkráceně CHC nebo C-H-C 6 ; Keith a Reynolds, 2010; Schneider a McGrew, 2012; Flanagan a Dixon, 2014) jako McGrewovo spojení novějšího Carrollova třívrstvého modelu ( three-stratum model ; Carroll, 1993) se starší Cattellovou-Hornovou Gf-Gc teorií fluidní a krystalizované inteligence ze 40. let, respektive jejího rozšíření stejnými autory z let šedesátých (Horn a Noll, 1997; Carroll, 1993). Historie těchto modelů nicméně pokračuje k Thurstonově modelu kognitivních schopností a dále pak až k prvním teoriím inteligence od Spearmana či Burta na samém začátku 20. století (jednofaktorovým či se specifickými faktory). Součástí vývoje byla nicméně i řada paralelních modelů a slepých vývojových uliček, k jejichž uvedení zde bohužel nemám prostor; stejně tak nebudu zmiňovat alternativní nepsychometrické modely inteligence, zejm. Sternbergův či Gardnerův (ostrou kritikou Gardnerova pojetí jsem se ostatně zabýval jinde; viz Straka, Cígler a Jabůrek, 2014). Raná Carrollova (1993) teorie a Cattellův-Hornův Gf-Gc model (např. Horn a Noll, 1997) byly do jisté míry velmi podobné. Kromě drobných neshod v zařazení některých úzkých faktorů byla tím nejzásadnějším rozporem existence či neexistence zastřešujícího g-faktoru. Nicméně i dnes je přesný design faktorových modelů častou otázkou psychometrických sporů (podrobněji viz např. Canivez, 2016), přičemž technická podoba modelu ovlivňuje jeho interpretační možnosti. Rozhodnutí mezi modelem zahrnujícím zastřešující faktor třetího řádu (g-faktor) či modelem s korelovanými faktory druhého řádu (bez g-faktoru) je proto do jisté míry arbitrární záležitostí. Druhým, a pro téma této práce důležitějším rozporem, bylo zařazení kvantitativních znalostí v Cattellově-Hornově modelu tvořily samostatný širší faktor, v Carrollově pojetí byly součástí fluidní inteligence (Flanagan a Dixon, 2014; stejně tak Carroll zařadil čtení/psaní do krystalizované inteligence, zatímco Cattell a Horn ji považovali za samostatný široký faktor). Hlavní díl práce na sjednocení obou přístupů provedl zřejmě McGrew (1997, cit. dle Flanaganové a Dixona, 2014) s pozdějšími úpravami ve spolupráci s Flanaganovou. Integrovaný model byl přijat zastánci (a do jisté míry i autory) obou původních teorií a stal se tedy dominantním 6 Na základě doporučení Ústavu pro jazyk český AV (viz http://prirucka.ujc.cas.cz/?ref=164&id=781) jsem se rozhodl používat variantu bez spojovníků, která se zdá být v češtině správnější.

10 Hynek Cígler přístupem k faktorovému studiu kognitivních schopností v současnosti (Flanagan a Dixon, 2014). Zároveň rozvoj výpočetní techniky zrychlil současný vývoj CHC teorie, která se tak dočkala úprav i v posledních letech sem spadá zejména rozsáhlá revize Schneidera a McGrewa (2012). CHC se navíc dostalo praktické i výzkumné podpory. Před 25 lety vznikl první test přímo odvozený z Gf-Gc modelu, a to Woodcock-Johnson Psychoeducational Battery-Revised (WJ-R; Woodcock a Johnson, 1989, cit. dle Keith a Reynolds, 2010). Další verze WJ následovaly a od verze WJ III jsou již založeny přímo na CHC teorii (v češtině pak ze třetí revize odvozený WJ IE II COG; Ruef, Furman a Muñoz-Sandoval, 2010). Dalšími testy vyvinutými na základě CHC teorie, nebo s ní alespoň úzce propojené, jsou zejména Differential Ability Scales (DAS), Kaufmanovy škály (KABC- II), Stanfordův-Binetův test v páté revizi (SB-V) a novější verze Wechslerových testů, např. WISC- V 7. Konstruktová validita většiny z nich byla podpořena cross-battery konfirmačními faktorovými analýzami (CB-CFA; Keith a Reynolds, 2010), bohužel žádné tyto testy, kromě silně ochuzeného (a dnes již také zastaralého) WJ IE II, nebyly v České republice standardizovány a nemá proto cenu se jimi příliš zabývat. 2.2.1.3 Zařazení matematických schopností v rámci CHC Konečně ale tedy: které z širších i užších faktorů současné CHC teorie bychom označili jako matematické a jaký mají vztah k ostatním kognitivním schopnostem? Podobnou otázkou se již zabýval Carroll (1996) či Floyd a kol. (2003); podobně pak McGrew a Hessler (1995), Keith (1999) či Williams, McCallum a Reed (1996) zjišťovali totéž v případě staršího Gf-Gc modelu, a konečně řada studií zkoumajících obecně vztah výkonu a intelektu se mimo jiné zabývala i matematickými schopnostmi (podrobný přehled viz např. ve Floydovi a kol., 2003). Carroll (1996, s. 21) uvádí, že ačkoliv souvislosti faktorově odvozených schopností a dovedností při řešení praktických problémů každodenního života,... a to včetně matematických, zůstávají nejasné, přesto bezpochyby existují, ale co přesně jsou a jak působí, není známo. Zároveň čtenáře ujišťuje, že... matematické schopnosti nejsou jednotné. Existuje přinejmenším několik typů schopností zodpovídajících za matematický výkon, ale nelze jednoduše predikovat, které schopnosti jsou nejvíce relevantní pro ten který typ výkonu. Na problematiku lze nicméně hledět dvojím způsobem: zaprvé se můžeme ptát, které faktory lze považovat přímo za matematické, anebo zadruhé, které faktory s matematickými dovednostmi souvisejí. Vzhledem k rychlosti výzkumu v dané oblasti při identifikaci ryze matematických faktorů vycházím přímo ze základní CHC literatury (zejm. Keith a Reynolds, 2010; Schneider a McGrew, 2012; Flanagan a Dixon, 2014). Veškeré široké i úzké faktory CHC, které je možné označit jako specificky matematické, obsahuje tab. 1. 7 Zde je nutné poznamenat, že starší verze Wechslerových testů včetně u nás používaných WISC-III (Wechsler a kol., 2002) a WAIS-III (Wechsler a kol., 2010) jsou sice s CHC uváděny do jisté míry v souladu (např. Phelps a kol., 2005), ale faktorová řešení jsou celkově zmatená a nevyjasněná. Ačkoliv se na základě společné CB-CFA s WJ-III zdá, že WISC-III nijak zásadně neodporuje CHC teorii, sám o sobě neodpovídá datům, obsahuje příliš málo subtestů pro konfirmaci CHC a vykazuje řadu dalších nedostatků (Taub, McGrew, Witta, 2004; Keith a Witta, 1997; Keith a Reynolds, 2010; výhrady se týkají i WAIS-III). Tyto informace jsou důležité při úvaze nad konstruktovou validitou prakticky nejpoužívanějších metod v ČR přičemž ještě zastaralejší a nedokonalejší WAIS-R byl před několika málo lety používanější než o něco méně zastaralý WAIS-III (Urbánek, 2010).

Měření matematických schopností 11 TAB. 1: SEZNAM ŠIROKÝCH A ÚZKÝCH FAKTORŮ DLE CHC TEORIE, KTERÉ LZE OZNAČIT JAKO MATEMATICKÉ široká schopnost (stratum II) úzká schopnost (stratum I) popis, komentář Fluidní inteligence (Gf) Kvantitativní usuzování (RQ) Schopnost induktivních a deduktivních operací s objekty, zahrnující matematické vztahy či vlastnosti. Kvantitativní vědomosti (Gq) Hluboké a rozsáhlé vědomosti spojené s matematikou. Kvantitativní vědomosti (Gq) Matematické vědomosti (KM) Šířka obecných znalostí matematiky. Kvantitativní vědomosti (Gq) Rychlost zpracování (Gs) Matematický výkon a (A3) Číselná zručnost b (N) Měřený matematický výkon. Schopnost rychlé a přesné manipulace s čísly, a to od jednoduššího počítání a rozpoznávání čísel a množství až po pokročilé sčítání, odčítání, násobení a dělení. Pozn.: Anglické termíny jednotlivých faktorů viz např. Flanaganovou a Dixona (2014), některé s nejednoznačným překladem v poznámkách. a Mathematical Achievement. b Number Facility. Problematický je faktor N (číselná zručnost). Carroll (1996) upozorňuje (byť na základě svého předchozího třívrstvého modelu), že většina používaných testů zdůrazňuje rychlost počítání prostřednictvím přísného časového limitu. Tvrdí, že bychom se měli zaměřit i na rozdíly mezi rychlostí a úrovní prováděných výpočtů přesto je tento úzký faktor jediný výlučně matematický, který ve svém přehledu (1996) zmiňuje. Jeho názor podporují studie např. Kyllonena (1985) či Gearyho, Browna a Samaranayake (1991). Možný směr dalšího výzkumu v této oblasti naznačuje například DiTrapani a kol. (2016), který pomocí tzv. IRTree modelu dokáže odlišit rychlou a pomalou inteligenci. Chci na tomto místě upozornit, že samostatný faktor druhého řádu Kvantitativní vědomosti (Gq) sytí dva faktory prvního řádu, z nichž jeden je zaměřen čistě na vědomosti (KM) a druhý na pozorovaný výkon při řešení matematických problémů (A3). Jde o jediný ryze matematický faktor druhého řádu, který nicméně obsahuje schopnosti se silnou složkou učení. Naopak matematické usuzování (RQ), které bychom arbitrárně považovali za podstatu matematických schopností, je součástí fluidní inteligence (Gf). Faktor RQ dále sytí např. subtesty plánování, číselné matrice a číselné řady. Zdá se tedy, že fluidní inteligence je od matematického usuzování jen málo odlišitelná (Phelps a kol., 2005). Do jisté míry by bylo možné za matematické považovat i ty složky krátkodobé paměti (Gsm), které jsou zodpovědné za manipulaci s číselnými objekty. Jde například o schopnosti zjišťované prostřednictvím subtestů opakování čísel ve Wechslerových testech či obrácených číselných řad v testech Woodcockových. Tyto subtesty však spadají do úzkého faktoru prvního řádu společně se subtestem auditory working memory (WJ) a z faktorového hlediska se proto nezdá, že by existovala jakákoliv číselná pracovní paměť (Phelps a kol., 2005; Flanagan a Dixon, 2014). Touto problematikou se nicméně budeme zabývat podrobněji v dalších kapitolách, protože výzkumná

12 Hynek Cígler zjištění o jedné či dvou pracovních pamětech si odporují (podrobněji např. Siegel a Ryan, 1989; Hitch a McAuley, 1991; Temple a Sherwood, 2002; Landerl a kol., 2004). Výše uvedené faktory bychom mohli označit jako přímý aspekt matematických schopností. Můžeme se však také ptát, které kognitivní faktory obecně stojí za dobrým matematickým výkonem, ale nejsou současně skrze matematiku definované. V tomto ohledu zřejmě nejlepší přehled podávají Floyd a kol. (2003), kteří na americkém standardizačním vzorku testu WJ III COG uvádějí do vztahu kognitivní široké faktory (ze druhé vrstvy; doplnili ještě pracovní paměť, která je jinak součástí krátkodobé paměti, Gsm) se dvěma výkonovými testy matematického trsu WJ III ACH, a to matematické výpočty ( Math Calculation Skills, MCS) a matematické usuzování ( Math Reasoning, MR). Analyzovali přitom separátně jednotlivé věkové ročníky (9 19 let) prostřednictvím simultánní vícenásobné lineární regrese vliv ostatních testů byl tedy vždy kontrolován (čímž byl současně kontrolován i vliv g-faktoru jako takového, což odpovídá předchozím postupům [např. Keith, 1999]). Výsledky po ročnících vyhladili metodou nejmenších čtverců, což umožnilo sledovat sílu vztahu matematického výkonu a kognitivních schopností se vzrůstajícím věkem. Zjednodušené výsledky předkládá tab. 2. TAB. 2: VZTAH KOGNITIVNÍCH SCHOPNOSTÍ (DLE CHC TEORIE) A MATEMATICKÉHO VÝKONU PODLE VĚKU věk Clustery WJ III COG a ACH 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Porozumění-vědomosti (Gc) MCS MR MCS Dlouhodobá paměť (Glr) MR Vizuálně-prostorové schopnosti (Gv) Zvukové zpracování (Ga) Fluidní inteligence (Gf) Rychlost zpracování (Gs) Krátkodobá paměť (Gsm) Pracovní paměť (MW) MCS MR MCS MR MCS MR MCS MR MCS MR MCS MR Pozn.: Bez výplně žádný nebo nevýznamný vztah (standardizovaný koeficient v mnohonásobné regresi menší než 0,1). Světlé šrafování slabý signifikantní vztah (regresní koeficient 0,1 0,3. Tmavé šrafování silný signifikantní vztah (regresní koeficient vyšší než 0,3). Převzato z Floyda a kol. (2003). MCS math calculation skills ; MR math reasoning.

Měření matematických schopností 13 Při pohledu na tabulku vidíme několik zjištění, která jsou poměrně intuitivní. Za prvé, nejsilnější jsou vztahy matematického usuzování (MR) s fluidní inteligencí (Gf) (které jsem již diskutoval výše) a výpočtů (MCS) s rychlostí zpracování (Gs), což taktéž není nijak překvapivé, stejně jako že vliv Gs na matematické usuzování mizí po 13. roce života. Dále vidíme, že vliv krystalizované inteligence (porozumění-vědomosti, Gc) v čase stoupá, což souvisí se vzrůstajícími nároky na znalosti společně u obtížnějších matematických úloh; zároveň je tento vztah silnější v případě MR, což se též zdá být logické. Vliv pracovní paměti (MW) je středně silný a konstantní napříč celým věkovým spektrem, obdobně prakticky též krátkodobé paměti (Gsm). Naopak vliv dlouhodobé paměti (Glr) je středně významný v raném věku, později však klesá (a je nahrazen právě Gf). Zvukové zpracování (Ga) má vliv jen v raném věku do sedmi let, a to jen na schopnost numerických výpočtů (MCS). Tento vztah lze vysvětlit tím, že se děti v první a druhé třídě učí základní aritmetické operace do jisté míry jako násobilku tedy odříkáváním naučených operací. Lepší Ga může být v tomto ohledu výhodou. Poněkud překvapivý je ovšem zcela zanedbatelný vztah matematických schopností a vizuálně-prostorového myšlení (Gv), proto se u něj na okamžik pozastavíme. Z výsledků Floyda a kol. (2003, s. 163) je sice patrné, že slabší (a nesignifikantní) vztah mají prostorové schopnosti s matematickým usuzováním do cca osmi let věku, pak však až do rané dospělosti kolísají kolem nulových hodnot (což může souviset s vyšší mírou vizualizace u mladších dětí, např. počítání na prstech atp., čemuž se budeme ještě věnovat; viz např. Geary, 2004). Toto zjištění odporuje běžné praxi (kdy geometrické, prostorové úlohy jsou chápány jakou součást matematiky) i jiným výzkumným zjištěním. Edens a Potter (2007) např. ukázali, že porozumění prostorovým vztahům u dětí predikuje schopnost řešení matematických problémů, Makina (2010) popisuje stejný proces v kvalitativní studii, jiné empirické souvislosti uvádí též Battista (1990). Dalších studií uvádějících různě silné signifikantní vztahy mezi vizuálně-prostorovými a matematickými schopnostmi je celá řada (McGee, 1979; Sherman, 1979; a další). Naopak Presmeg (1986a) cituje studie uvádějící, že mezi skutečně matematicky nadanými studenty je malé množství těch, kteří preferují vizualizační styl usuzování, a jmenuje též možné příčiny; obdobně pak Lean a Clements (1981) uvádějí, že studenti preferující verbálně-logický styl uvažování překonávají v řešení matematických příkladů ty, kteří preferují vizuální řešení, Kyttälä a Björn (2014) neudávají žádný vztah atd. Presmeg (1986b, s. 42) doslova tvrdí, že... děti mohou být velmi úspěšné při vzdělávání se ve školské matematice bez nutnosti uchýlit se k vizuálnímu myšlení. Právě vizualizacemi při řešení problémů se zabýval zejm. Krutětský (1976), který identifikoval tři typy lidí podle stylu řešení příkladů: verbální, vizuální a smíšený. Podle pozdějších výzkumů se pak zdá, že jde spíše o kontinuum od čistě vizuálního po čistě verbální řešení (cit. dle Lean a Clements, 1981). Presmeg (1986a; 1986b) na Krutětského navázala a uvádí vlastní taxonomii pěti druhů vizuálních představ používaných studenty při řešení matematických úloh: konkrétní vizuální představy, schematické vizuální představy, kinestetické představy (pohyby rukou apod.), dynamické, tedy pohybové představy a za páté vizuální vzpomínky na rovnice a vztahy (např. tak, jak jsou napsané v učebnici). Podle ní jsou komplexní vizuální představy nevhodné, protože odvádějí pozornost od podstatných charakteristik problému k nepodstatným detailům, naopak schematické vizuální představy mohou při řešení pomáhat. Tuto hypotézu pak empiricky potvrzují Hegarty a Kozhevnikov (1999): schematické vizuálně-prostorové představy byly středně silně svázány s matematickým výkonem (r = 0.48), naopak obrazové komplexní vizuálněprostorové představy s ním souvisely dokonce negativně (byť nesignifikantně, r = 0,34). Ačkoliv

14 Hynek Cígler je nevýhodou této studie značně malý vzorek (N = 33), její závěry byly následně podpořeny i v dalších výzkumech (srov. van Garderen a Montague, 2003). Na tomto místě by mohl čtenář namítnout, že schopnosti vizualizace a prostorového myšlení jsou něco odlišného. Ovšem CHC teorie nerozlišuje trojdimenzionální a dvoudimenzionální vizuální představy (McGrew a Evans, 2004). Phelps a kol. (2005) ve své cross-battery CFA ukazují, že jediný faktor třetího řádu společně tvoří mimo jiné subtesty rotace krychlí (Woodcock- Johnson) i řazení obrázků (WISC). Schopnost představit si prostorové a ploché objekty a dále s nimi manipulovat je tedy jen jediná. Zdá se proto, že se autoři studií, které v minulosti nalezly vztah mezi vizuálně-prostorovými schopnostmi a matematikou, nechali unést jejich zdánlivě samozřejmou podobností a zanedbali jejich společnou souvislost s ostatními intelektovými charakteristikami. Pozorovaný vztah je zřejmě způsoben specifikační LOVE chybou, kterou jsem zmínil výše. Zároveň se zdá, že matematickému úsudku pomáhají spíše jednoduché náčrtky a představy, které symbolicky reprezentují zadaný matematický problém, nikoliv komplexnější kresby či obrazové představy. Pro tvorbu podobně jednoduchých náčrtků však zřejmě nejsou potřeba vizuálně-prostorové schopnosti, ale spíše logický úsudek jako takový. Tento závěr částečně podporují i další studie (např. Booth a Thomas, 1999). Volba komplexní vizuálně-ikonické nebo naopak schematické představy při řešení problémů navíc může souviset jak s vizuálně-prostorovými schopnostmi, tak i s kognitivním stylem (Kozhevnikov, Hegarty a Mayer, 2002; Kozhevnikov, Kosslyn a Shepard, 2005). Celkový vztah vizuálně-prostorových schopností s matematickými schopnostmi se tedy zdá být velmi slabý až zanedbatelný a zůstává spíše na úrovni mediátoru vztahu dalších proměnných (Kozhevnikov a kol., 2005). 2.2.2 Kognitivně-informační přístup Kognitivně-informační přístup 8 je svou podstatou blízký přístupu psychometrickému, tj. jde cestou studia kognitivních procesů, které jsou zodpovědné za zpracování informace při řešení matematických problémů. Hlavní rozdíly pramení z odlišné metodologie výzkumu a použitých metod; do jisté míry však i ze specificity otázek, které si autoři z oblasti kognitivních věd kladou. Mayer a Hegarty (1996, s. 30) je přehledně shrnují do tří vět: Proč jsou někteří studenti schopni rychle spočítat aritmetické příklady, když jsou zároveň neschopni řešit slovní problémy zahrnující více než jen aritmetické výpočty? Které kognitivní procesy zodpovídají za řešení matematických problémů? Co vědí úspěšní matematici? Klíčový rozdíl je nicméně někde jinde. Zatímco psychometrický přístup pokračuje v tradici psychologie individuálních rozdílů a identifikuje ty schopnosti, ve kterých existují mezi lidmi rozdíly, pro kognitivní přístup jsou tato zjištění spíše vedlejším produktem (či důsledkem) studia obecných charakteristik toho, jaké funkce zodpovídají za řešení matematických problémů. 8 Cognitive information-procession approach (Sternberg a Ben-Zeev, 1996).

Měření matematických schopností 15 I svým vývojem se kognitivní přístup k matematickému myšlení podobá vývoji CHC teorie. V roce 1972 po dvaceti letech výzkumů Newell a Simon (cit. dle Langley a Rogers, 2005; Mayer a Hegarty, 1996) představili svůj plán k vytvoření obecné teorie řešení problémů založené na general problem solver algoritmu, který používá tzv. means-end analýzu tedy vyjádření rozdílu stávající a žádané situace a hledání takových postupů, které tento rozdíl minimalizují. Ačkoliv sami zmiňovali specifické schopnosti hledání problémů (Simon a Newell, 1971), zdálo se, že lze nalézt určitá univerzální pravidla. Podobně jak obecný faktor inteligence se záhy i obecná teorie řešení problémů rozštěpila a začalo být evidentní, že klíčovou roli v řešení problémů hrají specifické znalosti a dovednosti (např. Ericsson a Smith, 1991; Mayer a Hegarty, 1996). Kognitivní výzkum lze rozdělit (podle Mayer a Hegarty, 1996) podle toho, zda se věnuje procedurám při používání problémů, nebo naopak způsobům, jakým jsou tyto problémy reprezentovány. Obdobně lze rozlišit výzkum zaměřený na osvojování si aritmetických operací a výpočetních strategií, nebo naopak na způsobu, jakým lidé matematickým problémům rozumí. Do třetice navrhuji ještě jedno členění, které vyvstává při studiu empirických studií i teoretických přehledů. Část výzkumníků se totiž ptá: Které postupy vedou ke správnému řešení? zatímco jiní zjišťují: Které operace vedou k nečekaným chybám? Odpověď na obě komplementární otázky může prohloubit naše znalosti o tom, co to jsou matematické schopnosti, a též jakým způsobem matematice vyučovat. 2.2.2.1 Kognitivní procesy vedoucí k řešení Odpověď na první druh těchto otázek hledají Mayer a Hegarty (1996), kteří uvádějí, že většina dětí nemá problém s aritmetickými operacemi. Jde podle nich o tzv. rutinní problém, jehož řešení dítě zná, a nejde tak o problém v pravém slova smyslu příkladem může být např. výpočet 12 + 8 se zpaměti naučeným výsledkem. Jak upozorňuje ovšem Novicková (1992), může jít i aplikaci známého schématu, tedy například úlohu na trojčlenku zadanou v typickém formátu, jehož řešení je dobře nacvičené. Naopak nerutinní problém je takový, jehož postup je neznámý a nalézt ho je tedy přímo obsahem úkolu. Nerutinní problém zahrnuje v prvním kroku správné objevení způsobu řešení a ve druhém správné provedení příslušných matematických operací. Navíc některé slovní úlohy s matematicky ekvivalentním obsahem mohou být někdy rutinní a jindy nerutinní, v závislosti na formulaci. Při řešení problémů se pak obecně tyto procesy označují jako reprezentace problému a vlastní řešení (Ericsson a Smith, 1991; Mayer a Hegarty, 1996). Vztaženo k matematice je reprezentací např. pochopení slovní úlohy (nerutinní problém) a provedení příslušných výpočtů (rutinní problém). Mayer, Lewis a Hegarty (1992) tuto situaci pojmenovávají jako kvalitativní myšlení o kvantitativních problémech : samotnému kvantitativnímu řešení matematické úlohy předchází řešení kvalitativní, které zahrnuje pochopení zadaného příkladu. Mayer (1994) tento model rozšířil do čtyř komponent: překlad (převedení slovního zadání na konkrétní číselně-pojmové reprezentace), integrace (složení reprezentací dohromady), plánování (nalezení řešení) a konečné provedení postupu. Právě překlad a integrace představují procesy vedoucí k vytvoření mentálního modelu problému v myšlenkách, tedy jeho pochopení, a jsou proto klíčovými prvky k jeho vyřešení. Integraci je možné provést dvěma způsoby, které Mayer a Hegarty (1996) označují jako strategie přímého překladu a strategie tvorby modelu. 9 9 Direct Translation Strategy vs. Problem Model Strategy.

16 Hynek Cígler Člověk využívající přímý překlad selektivně vybírá slova či čísla ze zadání problému, na jejichž základě zkusmo hledá řešení, aniž by plně pochopil celé zadání Stigler (cit. dle Mayer a Hegarty, 1996) postup označil jako Prvně počítej, pak mysli. Druhá strategie vede naopak k vytvoření komplexního modelu či mentální reprezentace celé problémové situace, ze které řešení přirozeně vyplývá. Kvalitativní porozumění vzájemných vztahů proměnných v tomto případě předchází kvantitativnímu řešení (a do jisté míry vysvětluje, proč je v moderní CHC teorii řazen faktor kvantitativní usuzování, RQ, pod široký faktor fluidní inteligence, zahrnující i verbální operace). Model vytvořený na základě přímé strategie je nutně ochuzený a neobsahuje všechny klíčové znaky nutné ke správnému řešení, kterého tak bývá dosaženo méně často. Jeho výhodou jsou naopak nižší nároky na pracovní paměť a menší závislost na znalostech řešení problémů (Lewis a Mayer, 1987; Hegarty a kol., 1992; Mayer a Hegarty, 1996) a podle mého názoru lze předpokládat, že též snižuje úzkost při řešení problémů omezením míry nejistoty. Podobné úvahy předkládají i jiní autoři (viz např. Roets a Van Hiel, 2011) a souvisí úzce s Kruglanského potřebou kognitivního uzavření (Kruglanski a Webster, 1996; Kruglanski a Fishman, 2009). Využití komplexního modelu naopak častěji vede ke správnému řešení úspěšní řešitelé si zřejmě více pamatují vztahy, nikoliv čísla či konkrétní formulace jako neúspěšní řešitelé (Hegarty, Mayer a Monk, 1995; byť jiné studie tomuto faktu odporují, např. Pape, 2003) a výuka využití mentálních reprezentací při řešení matematických problémů zlepšuje výkon v matematických příkladech (Lewis, 1989). První strategie, tedy prvně počítej, pak mysli, je svým založením často nerealistická. Vytvořený model v rámci procesu integrace velmi často neodpovídá realitě běžného života. Inoue (2005) nicméně ukázal, že (minimálně u adolescentů) nemusí jít o iracionální řešení a že zvolený postup lidé dokáží smysluplně vysvětlit. Příčinou chybné konceptualizace problému může být alternativní spojení pojmů, které je však vnitřně koherentní a při důkladném rozboru svým způsobem nějaký (nečekaný) smysl dává. Může jít též o vyhovění běžným, ve škole naučeným postupům, ke kterým člověka svede podoba či formulace příkladu. Podobně uvažuje též Greer (1997), podle kterého je aplikace jednoduchých pravidel bez promýšlení realističnosti a pochopení příkladu součástí školní výuky. Stejné teoretické argumenty předkládá i Schoenfeld (1988), podle něhož sice memorování postupů přináší určitý užitek, v důsledku však vede k horšímu matematickému výkonu. V českém školním prostředí přílišný důraz na formální vědomosti a mechanicky aplikované postupy kritizuje například prof. Hejný (Hejný a Kuřina, 2015), nejde však jen o české specifikum a formální přístup se bohužel vyskytuje i v zahraničních školských systémech (Karp, 2011; Mann, 2006; Ching, 1987; Mattson & Bengmark, 2011). 2.2.2.2 Hypotéza konzistentního jazyka Předpoklady plynoucí ze své teorie tým Mayera a Hegartyové testoval v řadě výzkumů. Jedním z výstupů je hypotéza konzistentního jazyka Lewise a Mayera (1987), která dělí zadání matematických problémů podle toho, jak snadno je lze integrovat (vytvořit mentální model). Zadání s tzv. konzistentním jazykem důležité vztahy, pojmy apod. uvádí ve správném pořadí a společně s klíčovými slovy (více, méně atp.). Je-li tedy např. nutné v příkladu odčítat, zadání obsahuje slovo méně (Petr má 10 korun, Pavel o 5 korun méně. Kolik korun má Pavel?). Naopak nekonzistentně zadané příklady tato slova míchají, např. i přes klíčové slovo více v situaci, kdy je ve skutečnosti nutné odečítat (Petr má 10 korun, což je o pět korun více, než má Pavel. Kolik korun má Pavel?).

Měření matematických schopností 17 Lewis a Mayer (1987) ukázali, že lidé v příkladech s nekonzistentním jazykem skutečně častěji selhávají. Stejný závěr byl mnohokrát replikován a velikost účinku bývá velmi silná (Hegarty, Mayer a Green, 1992; Hegarty a kol., 1995; Pape, 2003; van der Schoot a kol., 2009). Na základě některých studií využívajících oční kamery se navíc zdá, že ačkoliv se děti neliší v délce čtení textu ve fázi překladu, úspěšní řešitelé tráví více času integrací poznatků dohromady, a to zejména v případě nekonzistentně zadaných příkladů, které jsou kognitivně náročnější (Hegarty a kol., 1992; 1995). Úspěšní a neúspěšní řešitelé se tedy neliší v samotném čtení a kódování textu, ale úspěšní řešitelé věnují více času vytvoření mentálního modelu, který jim umožní nalézt správný postup řešení. Tomu nepřímo svědčí i chování dětí při administraci našeho vlastního testu TIM v diplomové práci Jany Cíglerové (2016). Jiné studie však tento vztah nenacházejí, podle Papeho (2003) jazyková konzistence nesouvisela s rozdíly v chování (kromě správnosti), konkrétně s délkou čtení či kvalitou paměťového vybavení, o kterém jsme mluvili dříve. Příčinou rozdílných výsledků může být nicméně příznakovost ( markedness ) 10 relačních termínů což naznačovali již autoři původního konceptu Lewis a Mayer (1987) 11. Zdá se, že příznakovost moderuje vliv nekonzistentního zadání. Pape (2003) ukázal, že problematické bylo násobení zlomkem menším než jedna, který lze považovat za příznakový (např. 2/3 oproti 3/2). Ve studii van der Schoota a kol. (2009) se ukázalo, že slabší studenti správně integrovali jednotlivé informace a dělali méně chyb i u nekonzistentních příkladů, pokud nekonzistentní relační člen byl nepříznakový. Konkrétně v případě nepříznakových slov věnovali čtení nekonzistentních relací více času než relacím konzistentním. V případě příznakové relace to bylo naopak, slabší studenti věnovali méně času nekonzistentním relačním termínům než konzistentním. Šikovnější děti pak tuto chybu nedělaly, věnovaly se vždy déle nekonzistentním termínům. Chci však upozornit, že výsledky této studie nevypadají zcela spolehlivě vzhledem k relativně malému vzorku a ne ve všech případech signifikantním výsledkům, které působí dojmem pochybných praktik ve výzkumu ; na druhou stranu, velikosti efektů jsou velké (van der Schoot a kol., 2009) a analýzy věrohodnosti výsledků vycházejí velmi uspokojivě 12. 2.2.2.3 Typické kognitivní chyby při zpracování informace Druhý dříve avizovaný přístup ke studiu kognitivních procesů zpracování matematické informace nabízí Bez-Zeev (1996; 1998), který se zaměřuje na typické chyby při řešení příkladů, a na jejich 10 Příznakovost je jedním z přínosů českého Pražského lingvistického kroužku světové lingvistice, zejm. Romana Jakobsona. Jde o teorii, popisující významovou asymetrii některých antonym. Konkrétně například kladná věta je přirozeně kladná (nepříznaková), kdežto záporná věta obsahuje alespoň jeden specifický zápor a svou zápornost zdůrazňuje (příznaková). (Batistella, 1996) 11 Nutno však dodat, že příznakovostí se zabýval i zmíněný Hegarty a kol., 1992, jejichž výsledky tuto hypotézu nepodpořily. 12 Rybaření v datech, p-hacking, QRP ( questionable research practices, tedy tzv. pochybné praktiky ve výzkumu) označují strategie, jak prezentovat statisticky významné efekty nehledě na věcnou existenci popisovaných jevů (podrobně viz např. Fiedler a Schwarz, 2016; Schimmack, 2014). Studii jsem z důvodu tohoto podezření ověřil prostřednictvím webové aplikace p-checker (Schönbrodt, 2015), data jsem extrahoval automatizovaně pomocí R knihovny statcheck (Epskamp a Nuijten, 2015). R-index (Schimmack, 2014) byl malý, R = 0,52, příčinou je ovšem nízká síla testů, Md = 0,51, čemuž odpovídá i malý počet signifikantních výsledků (0,50). TIVA vychází nesignifikantní, χ 2 (19) = 47,8, p = 1.000, což signalizuje velmi dobrou variabilitu výsledků. Analýza na základě p-curve (Simonsohn, Nelson a Simmons, 2014) vychází též dobře: p-křivka je zprava zešikmená, z = 6,22, p < 0,001, studie tedy obsahuje silnou evidenci výsledků. Jedna p-hodnota pak byla špatně reportována, avšak bez vlivu na signifikanci. Nízká výzkumná evidence studie tak pramení spíše z příliš malého vzorku a tedy malé síly testu než z pochybných výzkumných praktik. Výsledky této analýzy jsou dostupné na http://goo.gl/y4fulz.

18 Hynek Cígler základě usuzuje na podstatu matematického myšlení. Příkladem může být chybné řešení úlohy 1 + 1 = 2, v níž uvedenou chybu dělá systematicky a opakovaně značné množství dětí, nebo 3 2 5 odečítání většího čísla od menšího v příkladu řešeném pod sebou, přestože leží větší číslo pod menším. Ben-Zeev (1995; 1996) tento typ chyb nazývá racionálním omylem, protože je založený na indukci jiných, dříve naučených pravidel. Například se zlomky se děti zpravidla učí počítat s pomocí koláčů ( Petr má 2/8 koláče a Pavel 3/8. Dohromady jich mají 5/8 ), přičemž následně generalizují pravidlo o součtu čitatelů i na jmenovatele. Efekt této indukce přitom může částečně přetrvávat i po následném vysvětlení správného principu učitelem, přičemž různé původní instrukce k řešení problému vedou k rozdílným typickým chybám u nového problému (Ben-Zeev, 1995). Ben-Zeev (1996) pak zmiňuje řadu dalších studií popisujících mechanismus induktivních chyb též na základě analogií, schémat i souvztažností postupu a řešení. Tyto postupy jsou zpravidla užitečné a pomáhají efektivně rozvíjet naše poznání. Za určitých okolností však mohou vést k chybě. Při analogickém usuzování použijeme shodný princip z jedné úlohy a aplikujeme ji na úlohu jinou, což je běžný postup nejen v kvantitativní oblasti (výzkumné příklady viz např. Gick a Holyak, 1980; 1983; Reed, Ernst a Banerji, 1974). Navíc se zdá, že schopnost využít analogie nezávisí na intelektu či lateralizaci a verbálně-vizuálním stylu myšlení (což je zajímavé vzhledem ke zjištěním, představeným v kapitole 2.2.1.3), souvisí však s pohlavím, závislostí na poli, vzděláním aj. (Antonietti a Gioletta, 1995) preference analogického usuzování je zřejmě do značné míry funkcí kognitivního stylu. Využití analogií závisí na postupném objevení souvislosti, provázání obou problémů a do třetice generalizování společného pravidla či schématu řešení. V některých případech však analogie selhává a vytvoření schématu je chybné, jak jsem ilustroval na příkladu s koláči. Ben-Zeev (1996) zmiňuje několik příkladů. Paige a Simon (1966; cit. dle Ben- Zeev, 1996) ukázali, že lidé jsou ochotni řešit s pomocí získaného schématu i příklady, které nedávají logický smysl; jde o typický příklad racionální chyby (viz níže). K chybnému řešení však může vést i správné schéma, například přehozením členů rovnice (Davis a Vinner, 1986). Pro matematiku důležitá schémata jsou pak zejména ta, která popisují souvztažnost konkrétního problému s postupem řešení či příslušnými operátory. Pokud je tato souvislost silná, je užitečné přetvořit ji v pravidlo; problém nastává ve chvíli, kdy součástí tohoto pravidla není podstata problému, ale jeho zadání taková souvislost je pak jen falešná (Bez-Zeev, 1996). To se týká ovšem i zkušených studentů; i ti ve velké míře využívají pouze zdánlivé povrchové podobnosti jednotlivých problémů. Chyba z důvodu zdánlivé souvislosti pak vzniká nejčastěji tehdy, když je vytvořena falešná souvislost nějaké nedůležité vlastnosti (např. plus či mínus) s postupem řešení (sčítání či odčítání). Studenti, kteří tyto nedůležité vlastnosti ignorovali, si méně často vytvářeli schémata falešných souvislostí (Ben-Zeev a Star, 2001). Pokud nicméně úvahu o chybných schématech rozšíříme, dojdeme k tomu, že lidé si při řešení matematických příkladů intuitivně vytváří různé heuristiky, které pak ovlivňují jejich schopnost řešení matematických problémů, preferenci určitých způsobů úvah atp.; například symetricky zadaný příklad posiluje důvěru ve správnost vlastního řešení (Reber, Brun a Mitterndorfer). Zároveň je nutné mít na paměti, že zdánlivě zcela rozdílné chyby mohou pramenit z téhož chybného schématu (Ben-Zeev a Ronald, 2002).

Měření matematických schopností 19 2.2.2.4 Klasifikace racionálních chyb: REASON model Zdá se tedy, že chyba při řešení matematických problémů může plynout jak z výpočetních obtíží, tak z chybně vytvořených schémat (tzv. racionální chyba ). Ben-Zeev (1996; 1998) proto na základě svého výzkumu a rešerše dalších studií vytvořil taxonomii racionálních chyb, kterou pojmenoval jako REASON model 13. Při představení tohoto modelu na obr. 2 a v následujícím textu vycházím z verze z roku 1998, která se drobně odlišuje od předchozích verzí (Ben-Zeev, 1995; 1996). absence kritiky nedostatek kritiky slabá kritika konkurence pravidel neznámý problém negace syntaktická indukce částečná podobnost chybná specifikace selhání v indukci falešná souvislost sémantická indukce analogie k realitě OBR. 2 Taxonomie racionálních chyb v matematice (podle Ben-Zeev, 1998) Podle Ben-Zeeva (1996; 1998) dochází k chybě buď v důsledku nedostatečných vnitřních mechanismů umožňujících odhalení narušení podmínek pro uplatnění pravidla (nedostatek kritiky), anebo v důsledku přílišné generalizace či naopak specializace pravidla na neadekvátní kontext (selhání v indukci). V prvním případě korekce pro uplatnění pravidla může zcela či částečně chybět (absence kritiky). Kritika též může být slabá a prohrát v konkurenci s předchozím pravidlem, které se osvědčilo. Posledním případem nedostatečné kritiky je negace problému. Řešitel správně podrobí pravidlo kritice, ale záměrně upraví průběžné řešení příkladu tak, aby pravidlu vyhovovalo, a tím dosáhne racionálního konsenzu mezi pravidlem a úlohou. Druhý typ chyb je přímo spojen s přílišným zobecněním nebo specifikací schématu řešení mimo původní kontext. Může jít v první řadě o syntaktickou indukci na základě povrchových charakteristik úlohy. V tomto případě člověk může například hledat alespoň částečnou podobnost 13 Rational Errors as Sources of Novelty. Označení REASON modelu se vyskytuje jen ve dřívějších publikacích (Ben-Zeev, 1996); v pozdějších (Ben-Zeev, 1998) je označen prostě jen jako taxonomie racionálních chyb.

20 Hynek Cígler stávající úlohy s předchozími; a pokud ji nalezne, neadekvátně uplatní pravidlo. Dalším druhem tohoto selhání je indukce pravidla z dostupného příkladu, avšak bez patřičné specifikace omezení (která z příkladu nemusí být patrná), případně prosté nalezení falešné souvislosti mezi jevy, které spolu ve skutečnosti vztah nemají. Ve druhé řadě lze chybovat na základě sémantické indukce, kdy je nový problém vztažen k nějaké dřívější, avšak nesouvisející zkušenosti. Tato analogie k realitě je potom pochopitelně chybná (podle Ben-Zeev, 1996; 1998). Z pohledu aplikace schémat řešení na nový, neznámý typ úloh je zajímavá i série výzkumů Novickové (1992). Role expertizy či zkušenosti v řešení algebraických úloh zvyšovala schopnost vybavení si schématu použitého v dřívější algebraické či aritmetické úloze, jeho propojení s novou úlohou a do třetice jeho adaptaci na novou úlohu. Na druhou stranu, expertiza nesouvisela s indukcí schémat, tedy s jejich rozšiřováním či generalizací. Zdá se tedy, že zběhlost v řešení matematických úloh je založena právě (či přinejmenším mimo jiné) na přenosu schémat řešení mezi různými úlohami, nezvyšuje však rychlost získávání zkušeností ze správně vyřešených úloh a jen minimálně tedy přispívá k dalšímu rychlejšímu postupu v učení. Je samozřejmě otázkou, zda se zběhlejší řešitelé rychleji neučí přinejmenším z chybně vyřešených úloh při interakci s vyučujícím, spolužáky či tutorem; byť i to se zdá nepravděpodobné (např. Ohlsson, 1996). 2.2.3 Kognitivně-kulturní přístup Přechozí kapitola shrnula poznatky kognitivní psychologie o tom, jakým způsobem jsou zpracovávány informace při řešení matematických úloh. Osvojování matematických schopností bylo přitom minoritním tématem a omezilo se spíše na popis rozšiřování kompetencí k řešení složitějších, respektive nových typů problémů. Hlavní oblastí zkoumání byly postupy, které vedou v daném čase ke správnému řešení, anebo analýza typických chyb, které naopak vedou k řešení chybnému. Kognitivně-kulturní přístup se naopak zaměřuje právě na otázky osvojování matematických schopností v rámci lidského vývoje. Jeho cílem je identifikovat, jakými procesy začíná dítě chápat, co to jsou abstraktní matematické pojmy (představy čísel, jejich relací atp.), a jakým způsobem je při tom ovlivněno svým kulturním a zejména jazykovým zázemím; a zároveň též, které aspekty matematického myšlení jsou dané spíše kulturně a jaké spíše biologicky. Osvojování si matematických konceptů je přitom předmětem studia už od začátku dvacátého století (např. O Shea, 1901; Rogers, 1919; aj.), přičemž podle Gearyho 14 (2007) byla témata výzkumu v zásadě podobná těm dnešním, s hlavními tématy v podobě vlivu procvičování, faktory, které tento vliv ovlivňují, a využití těchto schopností v jiných doménách. Existují dva hlavní kognitivně-kulturní směry výzkumu, které zmiňuje: za prvé konstruktivismus, reprezentovaný především Jeanem Piagetem (např. Piaget a Szeminska, 1952; Beth a Piaget, 1974; Piaget a Inhelderová, 2014) a zároveň novějšími přístupy reprezentovanými zastánci striktní Sapir- Whoorfovy hypotézy (např. Carey, 2004, 2009, 2011), za druhé pak neonativistický přístup rozvedený Gelmanem a Gallistelem (1978) jako reakce na zjištění, že některé numerické schopnosti jsou pravděpodobně vrozené. Nutno však podotknout, že maturaci přinejmenším některých schopností nerozporuje ani Piaget (např. Piaget a Inhelderová, 2014); a naopak Saxe 14 Zájemce o podrobnější informace odkazuji právě na Gearyho (2007), který věnoval celou kapitolu přímo vývoji matematickému porozumění a zaměřil se při tom jak na historické přístupy, tak i na rešerši aktuálního výzkumu.

Měření matematických schopností 21 a kol. (1996) Piagetovi vyčítá, že zanedbal některé důležité socio-kulturní aspekty vývoje matematických schopností. Vzhledem k Piagetovu přínosu kognitivní a vývojové psychologii velmi stručně uvedu základní principy piagetovského konstruktivismu (nutno ovšem podotknout, že Piaget metodologicky vycházel ze strukturalismu). Nebudu zabíhat do podrobností, protože důslednému přehledu Piagetova přínosu by bylo nezbytné věnovat celou tuto práci a základní znalosti má každý čtenář s psychologickým či pedagogickým vzděláním. Spíše použiju jeho teorii jako platformu, do které v další kapitole zasadím neonativistické teorie a současná empirická zjištění. 2.2.3.1 Piagetovský konstruktivismus Podle Piageta nejsou čísla obsažena v našem okolí, číselném systému či jazyku; čísla jsou naopak konstruována jednotlivými lidmi v průběhu ontogeneze na základě interakcí s prostředím v rámci seberegulačního procesu. Jako taková pak pochopitelně nejsou přímou reflexí prostředí, ani genetických vloh, ani jejich přímou kombinací, jedná se skutečně o konstrukci nad původní rámec. Piaget se proto při výzkumu matematického myšlení orientoval na sledování vývoje abstraktních kognitivních struktur, jako například systému operací, vztahů či pořadí. Tyto struktury se podle něj navíc vyskytují univerzálně ve všech oblastech lidského myšlení a vynořují se v rámci epigeneze v neměnném pořadí (podle Saxe a kol., 1996). Podle Piageta není přirozené číslo... ani jednoduchým systémem zařazení do tříd, ani jednoduchou seriací, ale neoddělitelnou syntézou klasifikace a seriace. Tato syntéza je odvozena z faktu, že oba systémy, jakkoliv jsou oddělené v případě konzervace 15 jejich vlastnosti, slučují se v okamžiku, kdy jsou jejich kvality zabstraktněny, (cit. dle Millera, 1992, s. 7). Dítě tak prvně pochopí logické a na jejich základě i aritmetické operace, které dávají vzniknout zmíněnému spojení klasifikace a seriace. V běžné piagetovské výzkumné metodologii je pojem čísla rozdělen právě na tyto principy, které jsou testovány zvlášť pomocí korespondence jedna k jedné, hierarchické klasifikace, schopnosti vytvořit a udržet pořadí či zachovat množství po změně tvaru. Je poměrně zajímavé, že zatímco na jedné straně je řada pojmů dnes přisuzovaných Piagetovi a jeho kolegům zcela běžně používána v psychologické či speciálněpedagogické praxi, na straně druhé je určitá část kvalitní současné vědecké literatury zabývající se Piagetem věnována spíše kritice jeho přístupu. Nutno však podotknout, že kritika se často týká stadiálního přístupu či dílčích aspektů celé teorie než konkrétních kognitivních operací podléhajících myšlení (např. Saxe a kol., 1996; Driver, 1978; podrobnější přehled viz Sutherland, 1992). To popisují i Lourenço a Machado (1996), kteří upozorňují, že značná část Piagetovské kritiky pramení spíše z nepochopení jeho textů a hodnocení jeho závěrů z empirického úhlu pohledu, namísto konceptuálního; po změně paradigmatu však Piagetovy texty přestávají dávat smysl. Piagetovu práci je nutné chápat jako strukturalistický popis vývoje lidského myšlení v nejširším významu tohoto slova, nelze vytrhávat jednotlivá tvrzení z kontextu a separátně je podrobovat empirickému či teoretickému ověřování. Lourenço a Machado (1996) se proto pokouší vyvrátit deset nejčastějších příkladů Piagetovské kritiky, která je podle mého názoru důsledkem širokého Piagetova záběru. Navíc první (psychometricky využitelné) stochastické modely, které úspěšně 15 Termín konzervace je použit v piagetovském smyslu, jde tedy o vědomí, že určitá kvalita zůstává stejná nehledě na zarámování atp. Trojka následuje vždy po dvojce (seriace), resp. označuje vždy stejné množství (klasifikace).

22 Hynek Cígler popisovaly přechody mezi piagetovskými stadii, vznikly před více než 40 lety (např. Pascual- Leone, 1970). Neměnnost stadií zmiňovaná Saxem a kol. (1996) je tak spíše latentní je evidentní, že jednotlivé manifestace těchto stadií nejsou plně deterministické. Jinými slovy, projev toho kterého stadia se vyskytuje pouze s menší či větší pravděpodobností a v závislosti na kontextu; v čase pak roste pravděpodobnost výskytu projevů vyšších stadií napříč větším množstvím kontextů. Zároveň, jak podotýká Miller (1992), Piaget inspiroval přes padesát let usilovného výzkumu v mnoha různých oblastech, nevyjímaje osvojování si matematiky. Piagetův přínos k tématu této práce je proto naprosto nezpochybnitelný. V piagetovském přístupu lze jen těžko oddělit teorie týkající se inteligence a matematických schopností, obě oblasti jsou podle něj založeny na stejných (logických) kognitivních operacích. Tento přístup je ve shodě s dříve zmíněnou CHC teorií, kde matematické usuzování je jen součástí širší fluidní inteligence (např. Schneider a McGrew, 2012; Flanagan a Dixon, 2014). Rozdíl mezi psychometrickým a piagetovským přístupem nicméně tkví v tom, že psychometrický přístup předpokládá kvantitativní nárůst jednotlivých schopností a změny síly vztahů mezi nimi. Naopak Piaget předpokládal, že v určitých obdobích dochází ke změně v kvalitě myšlení. Piagetovská teorie je psychologům důvěrně známá a tvoří stabilní součást kurikula. Kromě klasických čtyř hlavních vývojových stadií však Piaget (např. Piaget a Szeminska, 1952; stručně pak Miller, 1992) definoval i tři analogická stadia numerického vývoje. První z nich je prenumerické, ve kterém dítě dělá jen globální soudy typu mnoho hrušek, a odpovídá stadiu senzomotorickému. Druhé stadium odpovídá preoperačnímu stadiu, kdy dítě při číselných soudech nedokáže zvážit veškeré charakterstiky situace a dělá běžné chyby, které zmíníme níže. Teprve ve třetím, operačním stadiu (které odpovídá konkrétním i abstraktním operacím) se vyvíjí koncept čísla a schopnost provádět aritmetické operace nezaložené na zapamatování si výsledku či jednoduchých algoritmech (sčítání na prstech atp.). Protože však nemusí být zjevné, jaký je vztah běžných čtyř vývojových stadií k vývoji matematických konceptů, a protože jsou též s matematickými stadii prakticky identická, přidržím se v následujícím textu klasické stadiální teorie a z její perspektivy vývoj matematických schopností popíšu. Senzomotorické stadium Senzomotorické stadium trvá od narození do ovládnutí jazyka, zpravidla před druhým rokem života (nikoliv nutně mluveného; pasivní porozumění a vnitřní řeč jsou plně dostatečným kritériem). Obecně se v literatuře nevyskytuje přímé propojení tohoto období v piagetovském pojetí a matematických schopností (např. Piaget a Inhelderová, 2014). Piaget a Szeminska (1952; s. 10) doslova píší, že v tomto stadiu je nejvíce nápadná... nedostatečná kvantifikace vnímaných kvalit a chybějící koordinace mezi kvantitativními vztahy zapojenými do percepce. Na druhou stranu, řada výzkumů v posledních třiceti letech se týká prearitmetického vývoje v prvních letech života. Antell a Keating už v roce 1983 předvedli, že novorozenci staří jen 21 144 hodin dokáží spolehlivě rozlišit malé počty (2 a 3), nikoliv však už velké (4 a 6); Schleger a kol. (2014) dokonce na základě použití magnetoencefalografu a zvukových stimulů tvrdí, že numerická diskriminace existuje už u většiny plodů ve třetím trimestru. Tomuto tématu se budu věnovat podrobně níže, na tomto místě chci nicméně zdůraznit, že pochopení principu kardinality, tedy schopnost odlišit dvě množství, neznamená též pochopení principu ordinality. Pokud tedy dítě chápe, že dva a tři jsou odlišné, nemusí si být vědomo, že tři je více než dva (Geary, 2007). Starší výzkumy přitom

Měření matematických schopností 23 soudily, že princip ordinality dítě objevuje až před koncem druhého roku života (tedy v závěru senzomotorického stadia), současné výzkumy tento mezník zasazují do věku sedmi až jedenácti měsíců (Brannon, 2002; Picozzi a kol., 2010). Dalších matematických operací děti zřejmě v tomto období schopny nejsou, jakkoliv se myšlení překotně vyvíjí (na druhou stranu, Gallistel a Gelman (1992) udávají poměrně přesvědčivé argumenty pro existenci neverbálního počítání a zřejmě i základních aritmetických operací jak u dětí, tak ve zvířecí říši). Preoperační stadium (cca 2 7 let) Toto stadium 16 trvá od ovládnutí jazyka do zvládnutí tzv. piagetovských operací, tedy například konzervace, generalizace atp., které jsou předpokladem induktivního myšlení k tomu dochází zpravidla do sedmého roku života. Během této doby se dítě naučí počítat ( 1, 2, 3,... ), přičemž čísla jsou reprezentována konkrétními slovy a lze k nim přiřazovat reálné objekty, díky čemuž lze přenášet množství z kontextu do kontextu (blíže o jazyku jako kognitivní technologii viz např. Frank a kol., 2008). Jde o základy tzv. enumerace. Ve věku pěti let většina dětí dovede správně přiřazovat čísla reálným objektům, jakkoliv dělá určité typické chyby například nechápe, že počet nezávisí na směru počítání (zprava/zleva), či že je nutné počítat tzv v pořadí (Geary, 1993). Z matematického hlediska jde o princip komutativity (a + b = b + a). Klasické piagetovské zkoušky, jako zachování množství, objemu atp. jsou proto v tomto období jednoduchým ukazatelem toho, že dítě principy jako komutativita či aditivita 17 ještě plně nepochopilo. Toto období se vyznačuje také nedostatky v kategorizaci (chybné klasifikaci prvků ve třídách a podtřídách) a tranzitivní inferenci ( A < B a zároveň B < C; je větší A nebo C? ). Stadium konkrétních operací (cca 7 11 let) Toto období začíná zvládnutím tzv. piagetovských operací. Dítě správně konzervuje množství, provádí tranzitivní operace a chápe hierarchickou kategorizační strukturu. Zároveň díky ovládnutí reverzibilního myšlení může plně pochopit principy komutativity a vytvořit si představu číselné řady, chápat vztahy mezi množstvím a jeho slovním i symbolickým (číselným) vyjádřením. Ačkoliv sčítání i odčítání jsou schopny děti i bez použití operací, Wubbena (2013) ukázal, že schopnost konzervace objemu má silný vliv na aritmetickou fluenci (Cohenovo d = 1,3 pro sčítání a d = 1,7 pro odčítání po kontrole věku dětí). Ramos-Christian, Schleser a Varn (2008) tyto výsledky potvrzují (d = 1,1 1,2), nicméně v analogickém výzkumném designu udávají nulový rozdíl v přesnosti výpočtů mezi dětmi v obou stadiích (d = 0,5, p > 0,05). Jakkoliv správnost výpočtů tedy není na operacích závislá, dosažení operačního stadia je pro plné rozvinutí aritmetických schopností klíčové. Dítě je dále v tomto období schopno induktivního myšlení, nicméně podle Piageta má obtíže v myšlení deduktivním (Piaget a Inhelderová, 2014). Z tohoto důvodu není schopno plně abstraktního, hypotetického myšlení. Na druhou stranu v tomto období běžné dítě zvládá logický matematický úsudek a chápe aritmetické operace. 16 Z důvodu zjednodušení nepracuji s jednotlivými substadii. 17 Adivita je vlastnost některých množin či číselných oborů, definovaná jako f(ab) = f(a) + f(b). Zjednodušeně má součet stejnou velikost jako jednotlivé části dohromady. Aditivita umožňuje provést operace jako a + (b + c) = (a + b) + c.

24 Hynek Cígler Stadium formálních operací (od cca 11 let) Dříve nabyté schopnosti se zobecňují. Na rozdíl od předchozího stadia, kdy bylo dítě schopné používat mentální operace s reálnými objekty, je adolescent schopný zacházet s abstraktními pojmy. Matematické usuzování je tak plně rozvinuto a další vývoj je spíše kvantitativního rázu. 2.2.3.2 Neonativistický přístup. Vývoj představy čísla a aritmetických dovedností V předchozích kapitolách jsem ukázal, že vývoj matematických dovedností není čistě kvantitativním procesem. Během vývoje dochází ke kvalitativním proměnám ve způsobu myšlení dítěte a samozřejmě též ve způsobu nakládání s numerickými objekty. Psychometrický přístup (např. CHC teorie), který předpokládá existenci stejných latentních rysů od raného dětství do dospělosti, je proto nutně aproximativní hodnotí spíše výsledný produkt kognitivních procesů než tyto procesy samotné. V opačném případě by totiž nezbytně obsahoval velké množství škál specifických pro určitá věková období, jejichž náboj na faktorech vyšších řádů by zprvu rostl, jak by dítě přicházelo do nové vývojové fáze, a následně klesal, jak by přecházelo do fáze jiné. Alternativní přístup k zachycení stadiálního vývoje popisuje též Bond a Foxová (2009, s. 120 130) s využitím raschovského Saltus modelu (technicky jde jen o analýzu latentních tříd v rámci GLM modelu). Možnost využití piagetovských operací při konstrukci inteligenčních testů přitom popisuje např. Humphreys, Rich a Davey (1985), v České republice je k dispozici test TEKO (Piagetovy testy kognitivních operací; Winkelman, Váryová a Mikulajová, 1996). Obdobné zkoušky však obsahem inteligenčních baterií zpravidla nejsou. V současnosti nicméně probíhá určitá diskuze nad tím, nakolik je vývoj numerického myšlení dán evolučně (geneticky) a nakolik kulturně (výchovou); respektive nakolik kulturní a jazykové prostředí ovlivňuje osvojování si základních numerických schopností, a které dílčí schopnosti jsou jazykově či kulturně vázané silněji a které slaběji. Podle mého názoru lze odlišit tři hlavní oblasti, ve kterých může mít kultura různý vliv. První z nich jsou principy kardinality a ordinality, tedy prearitmetické odlišení množství. Druhou je slovní počítání, tedy znalost číselné řady, numerace a základní aritmetické operace. Třetí oblastí je pak schopnost komplexního abstraktního matematického usuzování. Vlivu jazyka a kultury na tuto oblast se nicméně týká jen velmi malá část výzkumu; navíc jakkoliv se bezesporu jednotlivé kultury v průměrném pozorovaném matematickém výkonu liší, tyto rozdíly jsou obdobné rozdílům inteligenčních či jiných achievementových testů (Rindermann, 2007). Vlivu jazyka na komplexní matematické představy proto nebudu věnovat samostatnou kapitolu, ale zmíním jej v části zabývající se jednoduchými aritmetickými schopnostmi. Vývoj prearitmetických a preverbálních matematických schopností Zdá se jisté, že princip kardinality tedy odlišení množství prvků, je vrozený. Již dříve jsem zmínil, že diskriminace malých množství (1 3) jsou schopny již několik hodin staré děti (Antell a Keating, 1983) či dokonce plod ve třetím trimestru těhotenství (Schleger a kol., 2014). Obdobně pak Xu a Spelke (2000) uvádějí, že šestiměsíční děti rozlišují 8 a 16 předmětů, nikoliv však 8 a 12 objektů. Jejich postup označovaný jako number discrimination task je dnes ve výzkumu běžně používaný (např. Ceulemans a kol., 2015) a postup získání výsledného skóru ( habituation success score, HSS) je standardizován a kontrolován proti řadě nenumerických aspektů podnětové situace (postup viz Dehaene, Izard a Piazza, 2005). Vztah těchto tzv. kontinuálních proměnných (např. velikost podnětů, hustota atd.) se schopností rozlišit množství však není zcela jasný; např. se zdá, že vliv kontinuálních proměnných je menší v případě velkých rozdílů v počtu,

Měření matematických schopností 25 stejně tak u menších počtů stačí menší rozdíl (Brannon, Abbot a Lutz, 2004). Klíčovými faktory pro odlišení množství je zřejmě relativní poměr rozdílu v množství prvků a absolutní velikost těchto množství. Obecně se dnes má za to, že existují dva odlišné kognitivní systémy pro diferenciaci množství. První je určený k přesné paralelní reprezentaci dvou až tří prvků najednou u dětí, u dospělých pak dvou až čtyř ( object tracking system, OTS), zatímco druhý je aproximativní a jeho horní kapacita není přesně známa ( aproximative number system, ANS). Klíčová hranice je nicméně známá relativně dlouho, již v roce 1871 ji zmiňoval Jevons, a zdá se být poměrně přesná (cit. dle Atkinson, Cambpell a Francis, 1976). Čím vyšší je poměr rozdílu kvantit, tím snáze je děti pomocí ANS diskriminují (například diskriminace 4 a 12 je snazší než 4 a 8); zároveň čím nižší jsou tyto kvantity, tím menší poměr je nezbytný pro správnou diskriminaci (například správné odlišení 4 a 6 je snazší než 6 a 8) (Agrillo a kol., 2015; Cantrell a kol., 2015; Coubart a kol., 2015; Feigenson, Dehaene a Spelke, 2004). Podrobný a relativně aktuální teoretický přehled včetně konkrétních hypotéz poskytuje např. Hyde (2011). Jedním z rozdílů je i zjištění, že přesnost přibližného systému ANS nezávisí na pozornosti, zatímco přesné vědomí množství prostřednictvím systému OTS ano (Burr, Turi a Anobile, 2010). Přechod mezi oběma systémy tyto principy nicméně komplikuje oba systémy jsou do jisté míry disociované a přechod mezi nimi je obtížný (Feigenson a kol., 2004). Navíc novorozenci staří jen několik hodin vykazují určitou diskontinuitu už mezi množstvím 2 a 3 odliší tedy poměr 1:3 u hodnot 3 9, nikoliv však 2 6. Možným vysvětlením je, že se oba výše zmíněné systémy diferencují až v rámci prvního roku života (resp. OTS systém v raném věku chybí), nebo že je systém OTS po narození omezen na pouhé dva prvky (Coubart a kol., 2014). Dále je možné, že přinejmenším u dospělých lidí se u menších počtů může aktivovat jeden nebo druhý systém v závislosti na úkolu (Agrillo a kol., 2015). Jako dostatečný poměr k diferenciaci na základě ANS systému se u kojenců udává 1:2 až 1:4; Cantrell a kol. (2015) nicméně ukazuje, že v některých případech stačí i poměr 2:3, a pozorované rozdíly vysvětluje právě parametry úkolu, velikostí stimulů apod., tedy kontinuálními proměnnými, což je ve shodě s předchozími zjištěními (Deahene a kol., 2005; Brannon a kol., 2004) 18. V kontextu disociace mezi oběma systémy je zajímavý výzkum Feigensonové a Careyové (2005), které v poměrně komplikovaném designu vyžadujícím zapojení krátkodobé paměti (děti tahaly krekry z krabice) ukázaly, že deseti až dvanáctiměsíční děti správně diskriminují počty 1 2, 2 3 a 1 3, při zvýšení počtu na čtyři však selhávají a nedokáží diskriminovat dokonce ani množství 1 4. Rozlišují nicméně rozdíl 0 4 a též 1 4 v případě, že se vyšší množství liší svou strukturou či jsou prvky odlišně velké (krekry byly větší). Feigensová a Careyová (2005) toto selhání vysvětluje tím, že děti množství čtyř prvků nedokázaly žádným způsobem reprezentovat (např. jako přesně 4, přibližně 4 ani více než 3 ). Alternativním vysvětlením ve světle schopnosti diskriminace vyšších počtů se zdá být hypotéza o s věkem klesající disociaci systémů OTS a ANS, jenž je ve shodě s předpoklady Coubarta a kol. (2014). 18 Stejné výsledky prezentují Ditz a Nieder (2016) i ve zvířecí říši: vrány diskriminují množství podle Weberova-Fechnerova zákona, přičemž pro větší množiny prvků je nutný vyšší poměr rozdílu obou množství. Navíc se zdá, že při identifikaci nižšího množství oproti zadanému je zapotřebí menší poměr (WS = 1,25, což odpovídá 4:5) než pro identifikaci většího množství (WL = 1,42, přibližně 5:7) jsou tedy každopádně schopnější než novorozenci a malé děti.

26 Hynek Cígler Příčinou této schopnosti diskriminovat množství je skutečně představa kvantity, nikoliv jen vizuální či jiná smyslová interference. Izard a kol. (2009) dokládá asociaci vizuálně-prostorových kvantit o velikosti 4 18 u dětí do dvou dní věku s kvantitami auditivními, Coubart a kol. (2015) tyto výsledky nerozporuje u pětiměsíčních dětí, avšak ukazuje, že schopnost analogií mezi množstvím představeným taktilně či vizuálně není zcela jednoznačná oba systémy (OTS vs. ANS) mohou v tomto ohledu fungovat mírně odlišně. Je nicméně zjevné, že schopnost diskriminovat abstraktní množství je lidem i různým zvířatům vrozená a ontogeneticky i fylogeneticky sdílená, ačkoliv může být doménově/úkolově specifická (Feigenson a kol., 2004; Dehaene, Dehaene-Lambertz a Cohen, 1998; Ditz a Nieder, 2016). Jak jsem již však zmínil, pochopení principu kardinality nicméně neznamená vždy to, že víme, které množství je větší (Geary, 2007). Odhady, v kolika letech dítě začíná ordinalitu chápat, se postupně snižují cca od roku a půl či dvou let (např. Sophian a Adams, 1987) k pozdějším výsledkům v podobě jedenácti (Brannon, 2002) či dokonce sedmi měsíců (Picozzi a kol., 2010) v případě velmi malého množství do dvou až tří prvků. V případě vyšších počtů kolem šesti se hranice pohybuje později, okolo dvou let (Brannon a Van de Walle, 2001) vysvětlením tohoto jevu je, že pochopení principu ordinality se projevuje odlišně pro systémy ANS a OTS. Schopnost vnímat ordinální charakteristiky množství je zřejmě u dospělých osob nezávislá na kultuře a dokonce i jazyku, a to včetně jazyků, které konstruují čísla velmi odlišným a netypickým způsobem, nejsou rozdíly patrné při použití testových ani neurozobrazovacích metod (Gordon, 2004; Butterworth a kol., 2008; Gelman a Butterworth, 2005; Feigenson a kol., 2004); rozdíl dále není ani u stejných osob, pokud použijí odlišné jazykové modality téhož čísla (například reprezentace čísla 24 jako dvacet-čtyři vs. čtyři-a-dvacet ; Brysbaert, Fias a Noël, 1998) 19. U malých dětí však podle některých výzkumů na řečových schopnostech naopak záleží pro chápání ordinálních vztahů je dost možná nutná alespoň minimální jazyková kompetence. Znalost základních číslovek zřejmě podporuje pochopení ordinálních vztahů, které je pak možné generalizovat i na vyšší množství (byť vztah nemusí být nutně kauzální v předpokládaném směru a může být způsoben společnou příčinou). Jde o tzv. slabou Whorfovu jazykovou hypotézu (Brannon a van de Walle, 2001) 20. Na druhou stranu, preverbální reprezentace množství je možná prostřednictvím analogie s velikostí či rozsahem ; stejného principu nevyužívají pouze děti, ale i zvířata, jak ve své rešerši ukazují Gelman a Gallistel (1992). V jiném longitudinálním výzkumu dále rozvoj jazykových dovedností u dětí predikoval pokročilé matematické dovednosti (analýzu, pravděpodobnostní počet či geometrii), avšak nikoliv běžnou aritmetiku či algebru tedy dovednosti závislé na komplexním logickém (a tedy jazykovém) úsudku, nikoliv dovednosti založené na aritmetických výpočtech. Rodilí Angličané se též v tomto ohledu nelišili od jazykových a etnických minorit (Vukovic a Lesaux, 2013). Tento závěr tak podporuje dříve zmíněnou hypotézu racionální chyby (Ben-Zeev, 1996; 1998) či princip kvalitativního myšlení o kvantitativních jevech (Mayer a kol., 1992). 19 V tomto případě jsou pozorované rozdíly způsobené odlišnými charakteristikami na vstupu a výstupu, nikoliv v souvisejících aditivních mentálních operacích (Brysbaert a kol., 1998). 20 Silná jazyková hypotéza odvozená ze Sapir-Whorfovy teorie tvrdí, že člověk se učí ordinální vztahy prvků tím způsobem, že se naučí ordinální vztahy jejich slovního označení. Jejím představitelem je např. Susan Carey (2004; 2009; 2014), podrobněji viz níže. Naopak jazykově nezávislá hypotéza spočívá v nezávislosti chápání ordinality prvků na pojmenování čísel; tuto hypotézu podrobněji probírám v textu (Brannon a Van de Walle, 2001; Gelman a Gallistell, 2004).

Měření matematických schopností 27 Předložené rozdílné závěry o vztahu jazyka a ordinality mezi dětmi a dospělými může vysvětlit studie Franka a kol. (2008), která navázala na Gordonův (2004) výzkum amazonských domorodců z kmene Pirahã. Tento domorodý jazyk je značně odlišný od jiných jazykových systémů po mnoha stránkách, a to natolik, že i po 200 letech pravidelného kontaktu s Evropany zůstává naprostá většina kmene monolingvní a používá pouze svůj původní jazyk (Everett, 2005). Jednou z odlišností je i naprostá neexistence žádných číslovek ani kvantifikátorů jazyk neobsahuje slova jako více, méně, dokonce ani jedna jediným kvantifikátorem je jeden / více než jeden 21. Frank a kol. (2008) tvrdí, že domorodci dokázali relativně přesně posoudit množství ve chvílích, kdy nebylo nutné zapojit do posuzování paměť (obě množství byla předkládána současně). Z jeho výsledků vyplývá, že jazyk a zejména výrazy pro čísla neovlivňují naše mentální reprezentace množství, ale... čísla mohou být spíše chápána jako vynález: Kognitivní technologie pro reprezentaci, uchovávání a manipulaci s exaktními, kardinálními množinami prvků (Frank a kol., 2008, s. 823). Je možné, že dětem dostupnost jazyka pomáhá překonat nedostatek v celkově nižších kognitivních schopnostech oproti dospělým. Kognitivní technologie tak může být pro děti nezbytná i v těch úkolech, na které ji dospělí s vyšší kapacitou pracovní paměti nepotřebují. Tomu odpovídá i výše uvedený výzkum Feigensové a Careyové (2005), v jejichž výzkumu děti namísto jazyka použily dodatečné informace o velikosti prvků k uchování informace o množství v krátkodobé paměti. U dospělých respondentů v experimentálních podmínkách se dále prokázalo, že schopnost aproximativního odhadu (ANS systém) je adaptabilní (Dehaene, 2009; Burr a Ross, 2008); adaptace na velké množství prvků vede k nižšímu odhadu množství v následujícím případě a naopak tato adaptace závisí výhradně na množství, nikoliv na kontinuálních proměnných (kontrastu, velikosti, orientaci či hustotě prvků). Tento jev se označuje jako numerosity adaptation effect (efekt adaptace na množství) a ilustruje jej obr. 3. Je tedy pravděpodobné, že schopnost odhadu kvantity je do jisté míry přímo funkcí vizuálního systému, nezávislou na jiných vjemech (Dehaene, 2009; Burr a Ross, 2008), přestože jinak odhad množství předložených prvků sám o sobě na jejich hustotě závisí s rostoucím množstvím je efekt hustoty vyšší (Durgin, 1995). Zároveň mají lidé tendenci množství prvků podhodnocovat tím více, čím je počet větší tzv. efekt podhodnocení počtu. Po kalibraci (prezentace určitého množství spolu s informací o jeho velikosti, ať už správného či domnělého) se však následný odhad výrazně zpřesňuje (Izard a Dehaene, 2008; Dehaene, 2009). 21 Tvrzení o výjimečnosti jazyka Pirahã, včetně neexistence tzv. kvantifikátorů, je založeno na Everettových (např. 2005) výzkumech. Na tomto místě je proto nezbytně nutné zmínit revizi Nevinse, Pesetskeho a Rodriguese (2009), kteří rozporují většinu Everettových (2005) tvrzení a přímo zpochybňují i zde použitou Gordonovu (2004) studii. Stejně jako Nevins a kol. neposuzují psychologické jevy přítomné při počítání, nedovedu ani já osobně posoudit jejich lingvistickou expertizu (to by navíc přesáhlo rámec této práce). Ačkoliv zmíněná kritika vychází pouze ze sekundárních zdrojů bez přímého kontaktu s kmenem Pirahã, je třeba mít na paměti zpochybnitelnost Gordonových (2004) závěrů, zvláště pak ve vztahu k bombastičnosti existence jazyka bez číslovek.

28 Hynek Cígler OBR. 3 Příklad efektu adaptace na množství. Převzato z https://commons.wikimedia.org/wiki/file:numerosityadaptation.png; podle Burr a Ross (2008). Pro účely této práce je navíc extrémně důležité, že schopnost diskriminace většího množství silně souvisí s matematickými schopnostmi (definovanými jako sémantická komponenta numerace), a to po kontrole věku, pohlaví i neverbální inteligence; nesouvisí však s vnímáním kontinuálních proměnných, například hustoty (Anobile a kol., 2016). Podle mého názoru je v oblasti odhadu a srovnávání množství vizuálně vnímaných prvků silný potenciál pro budoucí způsoby diagnostiky dyskalkulie, a oblast tak skýtá značný prostor pro budoucí výzkum. Předchozí text ukázal, že princip kardinality (a do jisté míry i ordinality), tedy vnímání množství, je jednoznačně nezávislý na jazyku tato schopnost je vrozená, je částečně společná i jiným živočišným druhům, a přinejmenším některé procesy odlišné od jiných vjemů blízkých množství, jako je například hustota jsou funkcí hlubších neurálních struktur zodpovědných přímo za vizuální vnímání. To do určité míry zpochybňuje jiné přístupy, např. tzv. bootstrapingovou teorii (Carey, 2004; 2009) 22 a další tzv. striktní teorie založené na Sapir-Whorfově hypotéze. Tato 22 Zastánci striktně konstruktivistické bootstrapingové teorie a související silné jazykové hypotézy (viz 20 ) nedisponují prakticky žádnými přesvědčivými empirickými daty, jak je velmi dobře patrné z obhajoby Susan Careyové (2011; 2014), která se sama vymezuje vůči empiristickému přístupu (např. 2011, s. 122 123; 2014, s. 161); Careyové práce s empirií je vůbec celkově vlažná, například věnuje několik

Měření matematických schopností 29 empirická zjištění mají nicméně vliv též na klasické starší (např. Piaget a Szeminska, 1952) i novější (např. Saxe a kol., 1996) konstruktivistické teorie, které v žádném případě nepředpokládaly, že princip kardinality a částečně i ordinality je přítomen tak hluboko v našich kognitivních či dokonce vizuálních schopnostech. 23 Závěrem bych však chtěl podotknout, že schopnost diskriminace malého počtu prvků ve velmi raném věku není z hlediska individuálních rozdílů příliš zásadní. Ceulemans a kol. (2015) totiž ukazuje, že míra schopnosti diskriminace malého počtu prvků ve věku osmi měsíců prakticky nepredikuje míru matematických schopností ve věku dvou let. Na druhou stranu nesmíme zapomínat, že diskriminace čísel se schopností matematických operací souvisela v případě, kdy byly obě měřeny ve dvou letech věku dítěte (Ceulemans a kol., 2015), nebo když byl počet prvků velký (např. Starr, Libertus a Brannon, 2013). To může obecně souviset s tím, že systém ANS je s matematickými schopnostmi provázán silněji než systém OTS (např. Anobile a kol., 2016), další výzkum v této oblasti je však nutný. 24 Vývoj enumerativních a aritmetických schopností Předchozí kapitola se zaměřila na osvojování si konceptu množství, které je předpokladem přechodu ke konceptu počtu a následně i čísla. Je nesporné, že na rozdíl od chápání principů kardinality a ordinality, které se zdají být lidem vrozené, je aritmetika tedy základní numerické operace a pochopení hlubších aritmetických principů výdobytkem kulturního pokroku lidstva. Ne nadarmo je jedním z prvních cílů základního vzdělávání naučit děti číst, psát a právě počítat; ostatně je zřejmé, že lidé bez vzdělání v aritmetice mají zásadní obtíže i s běžnými numerickými operacemi, a to dokonce i v případě relativně malých čísel (např. Saxe a kol., 1996). Rovněž nelze provádět aritmetické operace bez pomoci jazyka kromě velmi malých čísel by nároky na pracovní paměť byly zcela neúnosné (např. Frank a kol., 2008). Otázkou nicméně zůstává, nakolik kulturní a zejména jazykové prostředí ovlivňuje osvojování aritmetických dovedností a především dosaženou úroveň abstraktních numerických reprezentací v případě běžných kultur a jazyků. stran (2014; s. 151 152, 155, 158) studii Piantadosiho, Tenenbauma a Goodmana (2013), která proces bootstrapingu počítačově simuluje. Nutno podotknout, že taková simulace dokazuje (v naprostém rozporu s tím, jakým způsobem využívá text Careyová) pouze možnost existence bootstrapingové teorie, nikoliv to, že děti podobným způsobem skutečně myslí. Zároveň je uvedená simulace rozporována i z řady jiných, technických důvodů a její závěry jsou do značné míry zpochybněné (např. Rips a kol., 2013). Silná jazyková hypotéza a bootstrapingový přístup je tedy v příkrém rozporu s řadou empirických zjištění. Přestože je považuji za zajímavé, byť obtížně čtivé teoretické cvičení, nevěnuji jim v této práci prakticky žádnou pozornost. Zájemce o tento rozsáhlý a poměrně komplexní přístup odkazuji na obsáhlou knihu The Origin of Concepts (Carey, 2009), případně kratší text (2011, s. 120 122) v časopise Behavioral and Brain Sciences 34(3), které je celé věnované obsáhlé diskuzi Careyové a jiných odborníků. 23 Na tomto místě bych chtěl podotknout, že v průběhu psaní tohoto textu proběhla médii rozsáhlá informační smršť naopak o zpochybnění vrozenosti jazyka : teorie univerzální gramatiky Noama Chomskeho, se dnes zdá přinejmenším v celém svém původním rozsahu neudržitelná (např. Everett, 2016; popularizace např. Ibbotson, 2016). 24 Ceulemans a kol. (2015) například použil pouze rozdíl 1 a 3 prvků. Pokud je správná hypotéza Coubarta a kol. (2014), že v raném věku (Ceulemans pracoval s osmiměsíčními dětmi) není OTS systém vyvinutý nebo je omezený pouze na dva prvky, pak mohl vývoj OTS systému ovlivnit výsledky neočekávatelným způsobem. Zajímavé by bylo zjišťovat prediktivní validitu diferenciace 1 a 2 prvků, přesně jak navrhují autoři původního výzkumu (Ceulemans a kol., 2015).

30 Hynek Cígler Prvním krokem k aritmetickým operacím je enumerace obyčejné počítání (1, 2, 3,...), tedy dovednost určit počet prvků v množině. 25 Podle Shaleva a Gross-Tsura (2001) děti ve věku 3 4 let zvládají v izraelském prostředí počítat do více než čtyř, o pouhý rok později přes patnáct a chápou základní principy číselných reprezentací. Tyto schopnosti jsou však kulturně vázané, jak ukazuje např. Miller a kol. (1995) na srovnání amerických a čínských dětí: čínské děti se díky jednoduššímu číselnému systému 26 učí čísla výrazně rychleji a též plynuleji, nevykazují totiž významné zpomalení mezi první a druhou desítkou. V českém prostředí většina šestiletých dětí zvládá číselnou řadu do deseti (P. Traspe, osobní komunikace, 7. dubna 2013). K osvojení počítání je podle Gelmana a Gallistela (1979) nutné pochopit několik základních principů: 1. jedno slovo označuje vždy jen jeden objekt (tzv. korespondence jedna-k-jedné, one-to-one correspondence ); 2. pořadí čísel je neměnné (součástí této podmínky je znalost číslovek v daném pořadí); 3. počítání je kardinální dosažený počet označuje množství všech prvků dohromady; 4. počítání je abstraktní lze sčítat prvky napříč kategoriemi či skupinami; 5. prvky lze počítat v libovolném pořadí se stejným výsledkem. První tři pravidla jsou naprosto nezbytnou součástí počítání. Další dvě pravidla jsou předpokladem pro osvojení si základních numerických operací a vytvoření mentální reprezentace čísel (Gelman a Gallistel, 1979). Všech pět principů děti obsáhnou zpravidla v pěti letech, ale dělají chyby v doplňkových dovednostech (Geary, 2004): (6.) věří totiž, že počítání probíhá vždy z jedné strany na druhou (tedy nikoliv např. zprostřed) a že (7.) je vždy nutné počítat sousedící prvky (nepřeskakovat). Děti trpící dyskalkulií chybují právě v těchto doplňkových dovednostech, v případě těžších poruch i v principech základních (Geary, 2004). Schopnost počítat (vyjmenovat číselnou řadu či zjistit počet prvků) však neznamená schopnost počítat (provádět aritmetické operace) ostatně angličtina na rozdíl od češtiny odlišuje pojmy counting a computation (či arithmetic ). Zásadním předpokladem aritmetických operací je proto právě numerace tedy pochopení vztahu mezi abstraktním množstvím, slovním označením a číselným zápisem, a to včetně vlastností celé číselné soustavy. Jakkoliv malé dítě může znát odpověď na otázku Kolik je dva a tři?, neznamená správná odpověď pět to, že dítě skutečně umí sčítat 27. Na paměti založené řešení příkladů není pravou aritmetickou schopností, a protože možných příkladů a jejich řešení existuje i v případě menších čísel ohromné množství, je paměťový způsob učení matematice značně neefektivní (Landerl a kol., 2004). Nezvládnutí numerace je současně jedním z hlavních příznaků vývojové dyskalkulie (Geary, 2004). Na druhou stranu je evidentní, že po ovládnutí numerace dochází časem k tzv. automatizaci, tedy naučení se řešení jednoduchých příkladů zpaměti zajímavý počítačový model popisující tento proces v případě sčítání a násobení prezentují např. Campbell a Oliphant (1992). 25 Následující čtyři odstavce částečně vycházejí z mého dřívějšího textu, který je součástí příručky testu DISMAS (Cígler, 2013a). 26 Systém je totiž naprosto pravidelný. Zatímco americké (a částečně též české) děti se musí označení čísel 11 20 naučit (eleven, twelve,...), čínským stačí říct deset-jedna, deset-dva atd. U vyšších čísel je pravidelnost zachována, např. 34 je tři-deset-čtyři. 27 Bisanz a LeFevre (1992) ukazují, že vztah správného řešení a pochopení matematických vlastností dané úlohy se týká i komplexnějších příkladů: například úprava příkladu 85 + 29 na 85 + 30 1, které usnadňuje řešení. Při diagnostice matematických schopností a dovedností by nás proto neměla zajímat ani tak správnost řešení, jako kognitivní procesy k němu vedoucí ty jsou totiž cílem takové diagnostiky.

Měření matematických schopností 31 Ovládnutí numerace je z principu závislé na numerickém systému, který je v dané kultuře obvykle používán. Kulturní rozdíly jsou v tomto případě různého typu: v první řadě se může lišit samotná numerická soustava (jakkoliv většina vyspělých kultur používá soustavu desetinnou). Důležitými faktory se však zdá být také lingvistický systém sloužící k označování čísel, systém zápisu a konečně též jejich vzájemné vztahy například podobnost čísel ve slovním a písemném označení. Zajímavou sondu do základních aritmetických operací prezentuje Saxe (1982; Saxe a kol., 1996) na příkladu tribální kultury papuánského kmene Oksapmin. Podobné mezikulturní výzkumy jsou velmi výhodné, protože umožňují zachytit vývoj schopnosti numerace u dospělých osob, které jsou na rozdíl od malých dětí schopny výzkumníkovi sdělit postup, jakým docházejí k řešení. Kmen Oksapmin k prearitmetickému počítání používá tradiční číselnou soustavu, ve které je ke každé z 27 částí těla na hlavě, pažích a rukou popořadě přidělena číselná hodnota, kterou daná část těla reprezentuje; viz obr. 4. Tento systém je výhodný například k jednoduchému určení, kolik má který člen kmene prasat; součástí tradiční kultury a číselného systému však nebyly žádné aritmetické operace. Jde tedy spíše o systém enumerativní (výčet prvků v pořadí) než numerativní (skutečná číselná soustava s definovanými aritmetickými operacemi). Vzhledem k rozvoji ekonomiky a obchodu však byli členové komunity vystaveni potřebě používat peníze, a tedy i například zjistit celkový obnos mincí k zaplacení za nakoupené předměty. OBR. 4 Číselný systém kmene Oksapmin. Převzato ze Saxe a kol. (1996) Saxe (1982; Saxe a kol., 1996) představuje typické postupy, jakým členové kmene docházeli k řešení podle úrovně svých matematických schopností u jednoduchých úkolů například sečíst 9 + 7 mincí. Lidé s nejmenšími zkušenostmi použili dříve naučené enumerativní postupy. V první řadě tak začali s první částí úkolu a odpočítali devátou část těla, přičemž následně pokračovali v počítání druhé části úkolu od desáté části těla. Protože však úkol pochopili spíše jako enumerativní (prosté počítání) než jako součtový, nezvládli spojit obě části úlohy dohromady, zachovat správný odpočet a došli zpravidla k chybnému výsledku.

32 Hynek Cígler Členové kmene s většími zkušenostmi sice začali opět počítat od jedné do devíti, ale další výčet sledovali na základě fyzické korespondence. Desátý prvek těla tak spárovali s prvním, jedenáctý s druhým a tak dál, až šestnáctý prvek (správnou odpověď) spárovali se sedmým. Tyto osoby tedy pochopily první tři principy podle Gelmana a Gallistela (1979) zmíněné výše a dovedly je zdárně použít. Ještě zdatnější respondenti postupovali opět podobným způsobem, avšak namísto fyzické korespondence využili tzv. substituci. Díky lepší automatizaci znají číselnou řadu zpaměti a nemusejí si pomáhat pomocí tělesných částí; desátý prvek tak pojmenují názvem prvku prvního a tak dál, dokud nedojdou k číslu sedm; následně stačí jen odečíst výsledek z části těla, ke které došli. Tento postup je již základem numerace, samotná čísla jsou totiž oddělena od svých reprezentací (tělesných částí) a využívá tedy čtvrtý Gelmanův-Gallistelův (1979) princip zmíněný výše: abstraktnost čísel napříč kategoriemi. Ovšem jen nejschopnější členové kmene Oksapmin, zpravidla majitelé obchodu, zahrnuli desítkovou soustavu (používanou při písemném vyjádření) do svých výpočtů. Číslici devět tak reprezentují z jedné strany svého těla, zatímco číslici sedm z druhé. Následně pak stačí sedmý prvek přesunout na druhou polovinu těla, čímž vzniká snáze řešitelný příklad 10 + 6, který stačí přečíst jako 16 (Saxe, 1982; 1996). Tento postup je jednak naprosto analogický k postupům evropských školáků při počítání přes desítku, za druhé ukazuje na způsob, jakým jsou zkušenosti z různých kontextů (tradiční způsob počítání vs. arabské číslice) zahrnuty do jediného numeračního modelu. Obdobné strategie používaly intuitivně i děti z kmene Oksapmin, které začaly navštěvovat nově otevřené evropské školy, aniž by je tomuto systému někdo učil. (Saxe, 1996) Výše uvedený příklad je ukázkou přechodu od počítání k aritmetice mám za to, že obdobným způsobem jako dospělí členové kmene Oksapmin postupují při osvojování si principů numerace i evropské děti. Ostatně učení se názvům čísel a počítání zpravidla probíhá obdobně napříč velmi rozdílnými kulturami: Piantadosi, Jara-Ettinger a Gibson (2014) sledovali děti z jiného domorodého kmene, konkrétně Tsimane z bolivijského pralesa, jejichž postup učení se číslům byl shodný s postupem dětí z rozvinutých zemí. Rozdíl však byl v rychlosti vývoje, děti z tribální kultury postupovaly značně pomaleji než děti z USA, Ruska či Japonska (např. k ovládnutí čísla osm došlo v průměru v osmi, namísto ve třech až čtyřech letech). Také australské domorodé děti vykazují obdobné představy čísel jako evropské děti, které sice byly mladší, ale nelišily se rozsahem své numerické slovní zásoby (Butterworth a kol., 2008). Za druhé je z předchozího příkladu kmene Oksapmin patrné, že aritmetické operace na rozdíl od principů kardinality a ordinality jsou výdobytkem kultury. V případě větších množin je pak kulturou daná i přesná, nikoliv jen přibližná reprezentace konkrétního množství (Burr a Ross, 2008; Durgin, 1995; Izard a Dehaene, 2008). Na druhou stranu však i dvou až tříleté děti dokázaly na prstech ukázat přesný počet do tří a přibližný do deseti, ačkoliv dosud neměly utvořený princip kardinality a nedokázaly ještě spolehlivě počítat, takže slovní popis množství byl značně nepřesný (Gunderson a kol., 2015). Nepřesnost u vyšších počtů navíc podle mého názoru může souviset s dříve představenými systémy zpracování počtu OTS a ANS (k neverbální reprezentaci vyššího množství může být použit přibližný systém ANS, verbální reprezentace i vysokého počtu na základě počítání je však pochopitelně přesná). Zdá se tedy, že vědomí množství předchází jazykovému popisu, což je opět v rozporu s některými dříve zmíněnými konstruktivistickými

Měření matematických schopností 33 teoriemi. Zároveň se na základě představených výzkumů nezdá zcela nepravděpodobný Wieseův (2003; 2007) model společného fylogenetického vývoje konceptu vyšších čísel a jejich verbálního pojmenování v historii lidského druhu, který umožnil kulturní přesun od prearitmetického k aritmetickému systému. Příklad kmene Oksapmin použiji ještě (za třetí) k ilustraci důležitosti počítání s využitím fyzických částí těla. Jakkoliv je počítání s využitím větší části horní poloviny těla poměrně nezvyklé a počítání na prstech je výrazně běžnější, počítání na prstech rukou či jiných částech těla je součástí naprosté většiny současných i historických kultur a lze určit několik základních charakteristik (např. prostorovou dimenzionalitu, kvantitativní vs. symbolický systém, zpravidla desítková či pětková soustava atd.), které se napříč systémy opakují a kterými se systémy naopak liší (Bender a Beller, 2012). Na tomto místě je zajímavé podotknout, že naprostá většina jazyků používá číselné soustavy založené zpravidla na násobcích pěti nejčastěji desítkovou, výjimečně pětkovou či dvacítkovou (Bender a Beller, 2012), které jsou pravděpodobně odvozené od počtu prstů, a to nehledě na současný způsob počítání na prstech. Zdá se tedy, že počet prstů (pět, respektive deset) ovlivnil vývoj jazykového numerického systému, ale konkrétní způsob označování pomocí prstů v dnešní době vzniknul dodatečně 28. Zapojení motoriky do počítání má značné množství výhod, v případě dětí například současně podporuje jak udržení vzestupné číselné řady, tak koordinaci společného označení počítaného prvku a odpovídajícího slovního označení (Alibali a DiRusso, 1999). Už v roce 1921 Descoeudres (cit. dle Domahs a kol., 2010) předvedl, že počítání na prstech 29 předchází slovnímu počítání (srov. Gunderson a kol., 2015). Byly dokonce zaznamenány případy, kdy děti po amputaci rukou k výpočtům používaly fantomové končetiny (Poeck, 1964). Porucha poznávání prstů (prstová agnozie) je též silně komorbidní s akalkulií, rychlostí i přesností aritmetických operací (např. Miler a kol., 2010; Fayol, Barrouillet a Marinthe, 1998; Noël, 2016) nutno však dodat, že i s řadou jiných poruch, a může tak jít o koincidenci, byť poměrně nepravděpodobnou. Podstatné nicméně je, že efekt počítání na prstech přetrvává latentně i do dospělosti a interferuje do aritmetických operací, což celkově odpovídá teorii tzv. vtělené kognice ( embodied cognition ) založené na představě, že kognice je rámována nejen mentálními operacemi v mozku, ale též vlastnostmi a způsobem využití celého lidského těla. Například dospělí, kteří používali k počítání na prstech různé systémy, se při srovnávání různých čísel zapsaných arabskými číslicemi lišili v reakčním času u čísel významných v tom kterém prstovém systému (Domahs a kol., 2010). Postup počítání na prstech též determinuje způsob, jakým vnímáme ordinální vztahy v prostoru, a zda počítáme zprava doleva a naopak (Rinaldi a kol., 2016; Knudsen, Fischer a Aschersleben, 2014). V případě 8 13letých dětí příklady zaměřené na odčítání aktivovaly mozková centra zodpovědná za pohyb prstů na ruce, aniž by tyto děti prsty k počítání reálně použily; efekt byl silnější v případě vyšších čísel a současně lepší aritmetický výkon souvisel s nižší aktivací daných neurálních oblastí tedy s vyšším podílem automatizace a menším podílem prováděného výpočtu (Berteletti a Booth, 2015). Tento efekt navíc přetrvává 28 Dvanáctkové, respektive šedesátkové soustavy používané starými Sumery a Babyloňany byly pravděpodobně též odvozeny od reprezentace čísel na rukou, avšak poměrně komplikovanějším způsobem zahrnujícím kombinaci násobků pěti (jedna ruka, každý prst) a dvanácti (druhá ruka, články všech prstů kromě palce). (Ifrah, cit. dle Bender a Beller, 2012) 29 Pro zjednodušení nebudu všechny možné systémy v dalším textu odlišovat a budu je naopak souhrnně označovat jako počítání na prstech.

34 Hynek Cígler do dospělosti; číselné stimuly prezentované osobám začínajícím počítat zprava, respektive zleva, aktivovaly oblasti v kontralaterální (opačné) mozkové hemisféře (Tschentscher a kol., 2012). Způsob počítání na prstech osvojený v raném věku tedy ovlivňuje způsob, jakým na nás působí čísla, jakým způsobem funguje náš mozek, jak vnímáme množství v prostoru či jaké děláme chyby v aritmetických operacích. Zdá se, že podobný efekt má i jazyk, číselný systém či použité písmo alespoň do určité míry abstraktnosti matematického pojmu. Vztahem těchto tří proměnných spolu např. s mírou zkušenosti se dlouhodobě zabývá mj. Miller (Miller, 1992; Miller a Paredes, 1996; Miller a Gelman, 1983). Už výše jsem zmínil, že čínské děti se díky pravidelnějšímu slovnímu označení čísel učí počítat rychleji ve srovnání s dětmi ze západních kultur a že nedochází ke zpomalení vývoje mezi ovládnutím první desítky a vyšších čísel (Miller a kol., 1995). Rozdíl mezi čínskými a americkými dětmi se projevuje i v aritmetických dovednostech. Čínské děti ve věku od mateřské školy po třetí ročník dosahují celkově vyšších skórů v testech zaměřených na sčítání než srovnatelně staré děti americké pokud tedy uvažujeme najednou rychlost a správnost výpočtů, jak je tomu ve většině testů aritmetických schopností (Geary a kol., 1996). Jak ovšem ukazuje Miller a Paredes (1996), v případě příkladů zadaných arabskými číslicemi přibližně stejně starým dětem jako v předchozí studii, jsou čínské děti sice rychlejší, podíl chyb je však shodný. Pokud jsou však příklady zadány slovně (anglická slova vs. čínské znaky), čínské děti jsou stále rychlejší, dělají však zároveň více chyb. Děti obou národností se neliší v pravděpodobnosti, že udělají přibližnou chybu (velikost chyby je stejná nebo menší než dva). Americké děti vykazují sice malý, ale nezanedbatelný počet reverzních chyb, které se však vůbec nevyskytovaly u čínských subjektů (chyba spočívá v záměně desítek a jednotek napříč oběma sčítanými čísly; tedy v příkladu fourteen plus twentyseven sčítaly 4 + 2 na místě desítek a 1 + 7 na místě jednotek s výsledkem 68 namísto správných 41) ty jsou způsobeny specifickým vyjádřením čísel v angličtině. Většinu chyb čínských dětí pak tvořily chyby rozšířením, které se nevyskytovaly naopak u dětí amerických, a jež způsobily pozorovaný celkový vyšší podíl chyb. V tomto případě výsledek obsahuje chybný počet číslic. Protože číslu 27 v čínštině odpovídají tři znaky a tři slova dva-deset-sedm děti ve výpočtu použily číslo 217 namísto správného 27, což pochopitelně vedlo k chybnému výsledku (Miller a Paredes, 1996). Způsob, jakým je číslo označeno v daném jazyce, tedy vede v kombinaci s odlišným způsobem zápisu k odlišným typům chyb, a tedy i jejich četnosti. Způsob prezentace čísel interferuje při aritmetických operacích s abstraktní představou čísel. Jazyk neovlivňuje jen správnost a rychlost aritmetických operací, ale též samotné chápání číselné řady. Miller (1992) nechal hodnotit americké a čínské respondenty podobnost různých párů čísel od 1 do 20. Ve shodě s jeho dřívějšími výsledky (Miller a Gelman, 1983) bylo možné tuto podobnost popsat pomocí dvou faktorů jednak velikosti (obdobně velká čísla byla hodnocena jako podobná), jednak lichosti-sudosti (dvě lichá či dvě sudá čísla byla hodnocena jako podobnější než číslo liché a sudé). Vliv lichosti-sudosti na podobnost čísel rostl u starších dětí na úkor vlivu velikosti čísel to souvisí s tím, jak se vyvíjí chápání komplexnějších vlastností čísel. Zároveň se u čínských dětí chápání lichosti-sudosti vyvíjí dříve, což naznačuje, že vývoj konceptu abstraktních čísel souvisí s jednoduchostí, s jakou jsou čísla v jazyce kódována. V případě, že čísla byla zadána slovně, vliv lichosti-sudosti byl slabší, než když byla zadána prostřednictvím arabských číslic. Zároveň se tento vliv ortografické reprezentace čísel zdá být silnější

Měření matematických schopností 35 u amerických dětí než u čínských; což opět odpovídá teorii, že čínské děti mají (zejména díky jednoduššímu označovacímu systému) lépe vyvinutou abstraktní představu čísel. Mění se vliv jazyka a způsobu reprezentace v závislosti na zkušenosti s matematickými koncepty? To zkoumal Miller (1992; Miller a Paredes, 1996) v jiném výzkumu, během kterého opět nechal hodnotit podobnost čísel různé skupiny dětí. Tentokrát však využil vlastností čínského počítadla, založeného částečně na pětkové soustavě (viz obr. 5), a srovnával americké děti s čínskými začátečníky a pokročilými uživateli počítadla ze šestých ročníků, přičemž americké děti neměly s počítadlem žádnou předchozí zkušenost. Kromě velikosti čísel a lichosti-sudosti se pochopitelně vynořila nová dimenze podobnosti, a to pětkovost tedy rozdíl číselné reprezentace pouze v pozici horního, pětkového kamene. Výsledky jsou na obr. 6. V případě párů prezentovaných pomocí arabských číslic byly výsledky zcela ve shodě s předchozími studiemi: čínské děti díky lepším představám čísel klady ve srovnání s americkými dětmi větší důraz na lichost-sudost a menší na velikost, mezi oběma skupinami čínských dětí nicméně nebyl výrazný rozdíl. Vliv pětkovosti byl zanedbatelný, přičemž se zdál být nejsilnější u dětí, které se s počítadlem teprve učily pracovat. V případě párů čísel prezentovaných ve formátu počítadla americké děti kladly jako dominantní vlastnost pětkovost což je logické, protože pro ně bylo extrémně těžké identifikovat konkrétní čísla reprezentovaná předloženými kameny. Rozdíl mezi čínskými experty a začátečníky však byl jednoznačný experti kladli nižší důraz na vlastnosti spojené s počítadlem (pětkovost) a naopak vyšší důraz na abstraktní vlastnosti čísel (lichost-sudost). OBR. 5 Čínské počítadlo. Každý sloupec označuje desítkovou pozici (jednotky, desítky, stovky,...), kámen v horní části pak symbolizuje pětky (0 4 vs. 5 9), kameny v dolní části jednotky v této pětce. Převzato z https://en.wikipedia.org/wiki/file:positional_decimal_system_on_abacus.jpg.

36 Hynek Cígler stimuly v podobě počítadla stimuly v podobě arabských čísel 0,6 0,6 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0 0-0,1 USA začátečníci experti -0,1 USA začátečníci experti velikost lichost-sudost pětkovost velikost lichost-sudost pětkovost OBR. 6 Regresní váhy vlivu velikosti, lichosti-sudosti a pětkovosti na hodnocení podobnosti číselných párů 1 20 při srovnání stejně starých amerických dětí, čínských začátečníků a čínských expertů na práci s čínským počítadlem. Páry čísel byly předkládány v zápisu podobném počítadlu (vlevo) nebo prostřednictvím arabských číslic (vpravo). Vytvořeno podle Millera (1992). Na základě výše uvedených výzkumů lze vyslovit předpoklad, že specifické vlastnosti systému použitého k reprezentaci čísel ať už slovního, písemného či jiného ovlivňují způsob, jakým jsme schopni provádět základní aritmetické operace a jakým chápeme číselnou řadu. Zdá se nicméně, že vliv jazyka je silnější u mladších dětí či osob, které si daný číselný systém teprve osvojují a kladou tak vyšší důraz na formální aspekty spojené s daným systémem a nižší důraz na abstraktní charakteristiky čísel jako takových. Tomu odpovídají i různé, zde nerozváděné výzkumy s učebními pomůckami (Fuson, Fraivillig a Burghardt, 1992) a závěr je i v souladu se slabou Whorfovou hypotézou (Brannon a van de Walle, 2001) zmíněnou v předchozí kapitole. Podle řady autorů (např. Geary a kol., 1996; Ng a Rao, 2010) není tedy dlouhodobě pozorovaný rozdíl mezi asijskými a evropskými (americkými) dětmi v matematických částech srovnávacích testů, jako např. PISA, způsoben jen studijními příčinami či motivací; zejména v nižším věku jsou velmi důležitá i kulturní a jazyková specifika jednotlivých zemí. Rovněž se zdá, že vliv jazyka je silnější u úloh, kde je důležitá přesná číselná reprezentace, oproti úlohám, kde stačí hrubý odhad (Spelke a Tsivkin, 1999). To je logické a v souladu s výše uváděnými vlastnostmi kognitivních systémů ANS a OTS, stejně jako s též zmíněným vlivem expertizy na transfer schémat řešení napříč různými úlohami (Novick, 1992) a vztahem formulace úlohy na správnost řešení (Lewis a Mayer, 1987; van der Schoot a kol., 2009; Hegarty a kol., 1995) děti s rozvinutějšími matematickými schopnostmi snáze identifikují klíčové numerické vztahy v úloze, snadněji je přenášejí mezi kontexty a jsou méně ovlivněny charakteristikami slovního zadání daného příkladu. 2.2.3.3 Shrnutí kognitivně-kulturního přístupu ke studiu matematických schopností Prearitmetické schopnosti a vztah jazyka s numerickými a aritmetickými dovednostmi jsou klíčem k pochopení toho, co pro lidské myšlení představuje koncept čísla a jakým způsobem jsou čísla v naší mysli reprezentována. Tyto informace však nejsou důležité jen z hlediska základního

Měření matematických schopností 37 výzkumu, ale mají přímý dopad do vzdělávací praxe. Umožňují nám totiž mimo jiné pochopit, jak se vzájemně ovlivňuje jazyková vybavenost dětí s akvizicí numerických dovedností, jaký je vztah jazykově a numericky vázaných specifických poruch učení (dyskalkulie a např. dyslexie), jakým obtížím čelí děti minorit či imigrantů v majoritním základním vzdělávání a má též důsledky na úvahy o inkluzivním vzdělávání. Ukázal jsem, že existují dva hlavní kognitivní procesy zodpovědné za prenumerickou reprezentaci množství nezávislou na jazyku. Systém OTS je určený pro přesnou reprezentaci malých množství do 2 4 prvků a systém ANS pro přibližnou reprezentaci větších množství, přičemž jsou do jisté míry disociované přechod mezi nimi není zcela snadný. Oba systémy se vyskytují již u novorozenců (a rovněž u zvířat) a jakkoliv nejsou pozorovány rozdíly v systému OTS podle úrovně matematických schopností, systém ANS s aritmetickými dovednostmi úzce souvisí. Oba jsou nicméně ve velké míře nezávislé na jazyku a zdají se být funkcí už těch mozkových struktur, které jsou zodpovědné za zpracování vizuálních podnětů; například ANS systém je adaptivní. Přesnou reprezentaci vyšších množství, a tedy i enumeraci, numeraci a aritmetické schopnosti vůbec, umožňují až různé kognitivní technologie : jazyk či písmo, které navíc umožňují přenos číselných informací napříč prostorem a časem. Jejich charakteristiky přitom ovlivňují způsob, jakým si představu čísla osvojujeme. To je v souladu s piagetovským přístupem, kdy představy čísel, číselných řad a aritmetických operací jsou výsledkem abstraktní syntézy klasifikace a seriace tedy konstrukcí závislou jak na vrozených, tak osvojených dovednostech. Jsou-li však tyto představy správně vyvinuty, jsou zabstraktněny a jejich vztah k jazykovým či písemným reprezentacím se stává arbitrárním a méně významným, naopak na důležitosti získávají abstraktní matematické významy různých čísel, které v původním reprezentačním systému nemají žádnou oporu. Přesto některé aspekty raného osvojování přetrvávají do pozdějšího věku jde zejména o souvislost numerických výpočtů a dětského počítání na prstech, což souvisí s teorií vtělené kognice, podle níž nejsou kognitivní procesy pouze funkcí mozku, ale interakcí myšlení a charakteristik lidského těla. Geary (1996) proto rozlišuje biologicky primární funkce (diferenciace množství či kardinalita, ordinalita, počítání a základní aritmetické dovednosti) vs. biologicky sekundární, které jsou sice biologicky determinované, avšak bez kulturního vlivu se nevyvíjejí. Jak jsem však ukázal, některé funkce považované Gearym za primární jsou ve skutečnosti kulturně podmíněné. Přesto jde o konceptuálně zajímavé rozdělení, zejména proto, že Gearyho (1996) přehled kulturních rozdílů mezi americkými a čínskými dětmi ukazuje, že ačkoliv neexistuje žádný systematický rozdíl v primárních funkcích napříč kulturami, ve funkcích sekundárních se tyto děti liší významně. Vliv kultury a způsobu vzdělávání se tak zdá být významnější než vliv samotného jazyka (až na výjimky je pozorovaný v některých tribálních kulturách), který se projevuje jen při osvojování si základních matematických konceptů, a pak je již minimální. Vztahem výuky a vzdělávání s kognitivními reprezentacemi matematických schopností se zabývá kognitivně-vzdělávací přístup, který jen stručně zmíním v následující kapitole. 2.2.4 Kognitivně-vzdělávací přístup Jak jsem uvedl již v úvodu kapitoly 2.2, pedagogický přístup i přes jeho značnou zajímavost jen málo přispívá k rozvoji psychologické diagnostiky matematických schopností, a tedy tématu této práce. Zaměřuje se totiž spíše na způsoby, jak rozvíjet matematické myšlení či základní

38 Hynek Cígler aritmetické operace, nikoliv na tyto schopnosti samotné. Výjimkou jsou samozřejmě poznatky, jakým způsobem konstruovat položky testů a klást otázky testovaným osobám. S tím částečně souvisí i výsledky některých výzkumů uvedených výše, zejména hypotéza konzistentního jazyka a vliv příznakovosti na snadnost testových položek (Lewis a Mayer, 1987; Hegarty a kol., 1992; Hegarty a kol., 1995; Pape, 2003; van der Schoot a kol., 2009), postup označovaný jako kvalitativní myšlení o kvantitativních problémech (Mayer a kol., 1992) a klasifikace chyb, z nichž část je způsobena právě charakteristikami zadání úlohy (Ben-Zeev, 1996; 1998). Další dva zajímavé přístupy nastíním dále. 2.2.4.1 Kontext pro hodnocení míry porozumění matematickému problému V běžných testech matematického usuzování, a zejména v didaktických či achievementových testech, jsou položky zpravidla skórovány z hlediska správnosti. Jak ale podotýkají Bisanz a LeFevre (1992), tento postup není ideální to, že je odpověď správná, nemusí znamenat osvojenou dovednost či příslušnou úroveň schopnosti. Cíl diagnostiky může být někde jinde. Tento přístup úzce souvisí s Bloomovou taxonomií, resp. její dvoudimenzionální revidovanou verzí (cit. dle Krathwohl, 2002). Její zjednodušenou a pro oblast matematiky uzpůsobenou variantu (či přesněji řečeno schéma určené k hodnocení míry porozumění matematickým konceptům) předkládají právě Bisanz a LeFevre (1992) 30. Jeho první dimenze je kontinuální a pohybuje se od velmi úzké k velmi široké schopnosti hodnotí tedy dovednost zobecnit danou aktivitu na jiné podobné typy úloh. Typy aktivit jsou druhou, kategorickou dimenzí podobnou Bloomově taxonomii, a zahrnují (1) aplikaci procedury, (2) vysvětlení jejích principů a (3) schopnost ověřit její správnost. Jak již bylo řečeno, samotná aplikace procedury nezaručuje její pochopení. K součtu lze použít naučeného výsledku či rovněž naučených enumerativních postupů bez numerativního porozumění číselné řadě, jak jsem ukázal na příkladu kmene Oksapmin (Saxe, 1982; Saxe a kol., 1996). Zároveň schopnost sčítat čísla v oboru do 20 nezajišťuje generalizaci postupů na obory vyšší. Vysvětlení principu je proto velmi užitečné a to zvláště u složitějších slovních úloh, kde mohlo být řešení správné jen díky vhodně formulovanému zadání, a tedy na základě strategie přímého překladu (postupu typu prvně počítej, pak mysli ; Mayer a Hegarty, 1996). Významnost vysvětlení postupu je pevně zakotvena v některých způsobech testování, spoléhal na ni např. Piaget (cit. dle Bisanz a LeFevre, 1992). Bohužel, selhání ve vysvětlování řešení nemusí znamenat nepochopení, ale jen nedostatek schopnosti verbalizovat vlastní myšlenky. Teprve schopnost validovat postup řešení u daného typu úlohy zajišťuje plné matematické porozumění danému problému. Děti jsou navíc za určitých okolností schopny ověřit správnost i těch úloh, které by samy nevyřešily (Sowder a Wheeler, 1989; Gelman a Meck, 1983). Validace postupu navíc nezahrnuje vlastní řešení, a je tedy kognitivně méně náročná a méně ovlivněná jinými kognitivními charakteristikami (pracovní paměť apod.). Zároveň umožňuje průběžně ověřovat postup řešení, čímž zvyšuje pravděpodobnost správného výsledku a může též snižovat nutný čas tím, že omezí počet alternativních postupů ve slepých uličkách (Bisanz a LeFevre, 1992). 30 Autoři nicméně z Bloomovy taxonomie explicitně nevycházejí, prezentovaná analogie je mým výtvorem.

Měření matematických schopností 39 Je evidentní, že vyšší úrovně porozumění (tedy širší záběr a schopnost vysvětlit, resp. ověřit postup) zvyšují pravděpodobnost vlastního správného vyřešení úlohy. Proto z hlediska klasické testové teorie i teorie odpovědi na položku není zcela nesmyslné testovat porozumění prostřednictvím počtu správně vyřešených položek v testu. Pro účely didaktického testování by nicméně bylo velmi užitečné mít na paměti představenou typologii hodnocení porozumění matematickým problémům a aktivně ji využívat při formulaci matematických úloh. To ovšem nebývá zvykem už kvůli vyšším nárokům na tvorbu položek i jejich vyhodnocování. 2.2.4.2 Dynamické testování matematických schopností Dynamické testování je v diagnostice alternativním přístupem a zaměřuje se na potenciál dítěte k učení, přičemž úzce souvisí s Vygotského zónou nejbližšího vývoje jako hlavní představitelé tohoto přístupu jsou v dnešní době uváděni Reuven Feuerstein, David Tzuriel či Carol Lidz (např. Murphy, 2011). V současnosti je v České republice dostupná i metoda ACFS právě od Lidzové Dynamická diagnostika kognitivních funkcí u dětí (Lidz a Jepsen, 2014). Principy dynamického testování specificky matematických dovedností podrobně popisují Bransford a kol. (1996) na základě svého dlouholetého výzkumu v rámci Learning Technology Center na Vanderbilt University, a to na všech úrovních od zcela jednoduchých slovních úloh až po náročné algebraické příklady. Jejich postup je podle mého názoru více než výhodný zejména při komplexní diagnostice dyskalkulie a návrhu kompenzačních postupů a individuálního vzdělávacího plánu, tedy jako samozřejmá součást diagnostiky specifických obtíží v matematice. Podrobný popis těchto postupů by ovšem přesáhl rámec této práce a též příliš nesouvisí s psychometrickým pojetím a tedy mým vlastním výzkumem zvědavé čtenáře proto odkazuji na originální text (Bransford a kol., 1996). 2.3 Vysoce nadprůměrné vs. vysoce podprůměrné matematické schopnosti V předchozí rozsáhlé kapitole jsem se podrobně zaobíral nejrůznějšími aspekty matematických schopností (a částečně i dovedností), a to z různých úhlů pohledu od psychometrického přes kognitivně-procesní až po antropologický. Diagnostiku psychických vlastností však zpravidla neprovádíme proto, abychom konstatovali průměrnou schopnost (výjimkou snad může být didaktické testování) ostatně průměrných lidí je z principu normálního rozložení většina. Cílem naopak bývá potvrdit či vyvrátit předpoklad nadprůměrné, respektive podprůměrné úrovně diagnostikované vlastnosti. Výrazně nadprůměrné matematické schopnosti lze označit jako mimořádné (matematické) nadání, naopak výrazně podprůměrné matematické schopnosti bývají označovány jako matematické obtíže, specifické poruchy učení v matematice či dyskalkulie. V následujících dvou kapitolách proto uvedu ty aspekty matematických schopností, které se typicky pojí jak s výrazným nadprůměrem, tak i podprůměrem, a doplním je o další související charakteristiky matematického nadání či naopak deficitu. Vzhledem ke kulturně-vzdělávacím národním specifikám péče o nadané nebo znevýhodněné vycházím v této kapitole ve větší míře z české literatury, než je tomu ve zbytku práce.

40 Hynek Cígler 2.3.1 Specifické poruchy učení v matematice 31 Těsný vztah matematických schopností a obecné inteligence je evidentní a výzkumně známý již od začátku 20. století (Rogers, 1919). Záhy se však ukázalo, že obecná inteligence s matematickými (a ostatními specifickými dovednostmi podobného charakteru) nesouvisí u všech dětí bezpodmínečně; od padesátých let odborníci upozorňují, že ve škole selhávají i děti s jinak průměrnou či dokonce nadprůměrnou inteligencí. Současně byl zjištěný také stabilní rozdíl ve výkonech, které některé děti podávají v různých předmětech, a to zejména při srovnání čtení a matematiky. Tyto rozdíly nebylo možné vysvětlit motivací, rodinným zázemím, stylem výuky ani žádnými jinými externími proměnnými. Bylo proto zřejmé, že v určitých případech má dítě specifický deficit jen v určité oblasti kognitivních schopností, zodpovědných za učení a zdárné zvládnutí školních nároků, a souhrnně začaly být tyto potíže označované jako specifické poruchy učení. Zpočátku byla mezi ně řazena pouze dyslexie, později poruchy psaní, v posledních asi čtyřiceti letech pak i obtíže v matematice (samozřejmě s výjimkami, například již Ranschburg v roce 1916 mluvil o arithmasthenii, tedy poruchách v počítání; cit. dle Pokorné, 1997, s. 56 62). Dnes je hlavním, v literatuře obecně přijímaným kritériem pro diagnózu dyskalkulie či specifické poruchy učení v matematice výrazný deficit v úrovni matematických schopností, které bychom předpokládali na základě věku, vzdělání a inteligence. Současně je však zachována alespoň střední úroveň obecné inteligence. Jako kvantitativní kritérium bývá uváděn obvykle 20. 25. a nižší percentil v matematických schopnostech (např. Shalev & Gross-Tsur, 2001; Geary, 2004; Landerl, Bevan & Butterworth 2004) při průměrné inteligenci 32. Někteří autoři nicméně uvádějí, že tyto příznaky nestačí pro klinickou diagnózu. Podle nich musí být deficit pociťovaný v běžném životě dítěte a důležitý je i výskyt dalších symptomů, popsaných dále v textu; symptomy také musejí být trvalého charakteru a opakovaně zjištěné jednorázové měření není dostatečné (Geary, 2004). Podle Matějčka (1993, s. 22) je navíc pravděpodobné, že poruchami učení trpí i děti mentálně retardované (které by s počítáním měly potíže v každém případě), nebo naopak děti s výrazně nadprůměrnou inteligencí, které sice počítají zdánlivě dobře, ale pod úrovní svých ostatních schopností. Těmto dětem s tzv. dvojí výjimečností se dnes v České republice věnuje Šárka Portešová (např. Portešová a kol., 2014), jakkoliv je prevalence zvlášť ve spojení s dyskalkulií velmi malá. Podle teoretického odhadu Lovetta a Sparkse (2010) je asi 5 % dětí s SPU současně nadaných, obdobné výsledky podávají i McCallum a kol. (2013), kteří na základě různě striktních kritérií reportují celkové počty kombinací mimořádného nadání s potížemi v matematice v řádech promile. Diagnostika specifických poruch učení je proto zaměřená prakticky, s ohledem na možnost a účelnost nápravy, a hledá konkrétní specifické symptomy dětí selhávajících v matematice. Mezinárodní klasifikace nemocí dyskalkulii definuje o něco úžeji. Specifické poruchy počítání jsou zde řazeny pod Specifické vývojové poruchy školních dovedností (kód F81.2) a týkají se snížené 31 Celá kapitola 2.3.1 včetně podkapitol úzce vychází z teoretického úvodu k testu DISMAS, jehož jsem autorem (Cígler, 2013a). Některé pasáže byly doslova přebrány bez další citace manuálu. 32 V tomto ohledu je vhodné si uvědomit, že 20. percentil odpovídá hodnotě IQ 87, a tedy rozdílu 13 bodů oproti průměrnému intelektu (IQ 100). Oboustranný 95% interval spolehlivosti pro rozdíl dvou subtestů, každý o reliabilitě 0,9, spočítaný klasickým způsobem v rámci CTT (Cígler a Šmíra, 2015) je přitom přibližně též ±13 bodů IQ (v případě reliability 0,8 dokonce ±19 bodů IQ). Specifické poruchy by měly být každopádně diagnostikovány pouze tam, kde se matematické schopnosti statisticky významně odlišují od ostatních intelektových schopností daného dítěte.

Měření matematických schopností 41 schopnosti počítat která není vysvětlitelná pouze mentální retardací nebo nepostačující výukou. Defekt je především v neschopnosti běžného počítání sčítání odčítání násobení a dělení spíš než abstraktnějších početních úkonů jako je algebra trigonometrie geometrie nebo vyšší matematika. (MKN-10, 2006). Obdobně (tedy jako deficit v matematice, který nelze přisoudit sníženému intelektu a projevující se v běžném životě či ve školním učivu) definuje specifickou poruchu učení v matematice (mathematic impairement) i DSM-V (American Psychiatric Association, 2013). Přestože je podle APA (2013) dyskalkulie řídká porucha učení s méně než 1% prevalencí, poruchami matematických schopností různé úrovně trpí podle odborníků na dané téma více než 5 % školní populace podobně, jako v případě dyslexie či ADHD (např. do 1 2 % dětí podle Matějčka, 1993; 5 6 % podle Shaleva a Gross-Tsura, 2001; naopak podle Sindelarové, 2007, až 20 % školní populace, což už je podle mého názoru poněkud nadsazené při podobně měkkých kritériích i u jiných poruch by prakticky každé dítě bylo označené jako znevýhodněné v některé z mnoha výkonových oblastí). V zahraniční literatuře bývá označována jako vývojová dyskalkulie (developmental dyscalculia) s cílem odlišit ji od potíží získaných v průběhu života z jiných, například výukových důvodů nebo dodatečného poškození mozku. Podle mého názoru ovšem tyto vyšší odhady nezahrnují jen ty děti, které skutečně mají nějaký kognitivní deficit komplikující numerické operace, ale též děti s nízkou motivací pro matematickou práci, které dosahují nižšího matematického výkonu v důsledku nekognitivních faktorů, či mají sice sníženou, avšak neklinickou úroveň matematických schopností (tedy bez kvalitativního narušení). Jak jsem ukázal v kapitole 2.2.1.3, matematické schopnosti faktorově spadají do více dimenzí rozložených mezi rychlost (aritmetické operace), usuzování (fluidní inteligence) a matematické znalosti. Diagnostika specifické poruchy učení v matematice na základě diskrepance jednotlivých subtestů komplexních inteligenčních testů nicméně nemusí být zcela vhodná, výhodnější je zaměřit se na konkrétní symptomy, které dítě vykazuje. Jde o značnou část dovedností, které jsem uvedl v předchozích kapitolách zaměřím se stručně jen na ty typické. Děti s dyskalkulií selhávají například v učení se násobilkám, jiné si nemohou osvojit principy sčítání, odčítání, násobení a dělení. Další nechápou samotný koncept čísel a číselných řad nebo nedokážou napsat, přečíst či přiřadit správné slovo k psané číslici. Všechny tyto obtíže v matematice bývají popisovány ze dvou hlavních hledisek. Hlavním z nich je snížená schopnost učení a zapamatování aritmetických faktů, pouček a vztahů (např. Shalev & Gross-Tsur, 2001; Landerl et al., 2004; Geary, 1993). Druhým jsou potíže v exekutivních funkcích nutných pro nalézání strategií řešení matematických problémů, konkrétně vysoká chybovost a dlouhý čas nutný k řešení (např. Landerl a kol. 2004; Geary, 1993). Oba typy potíží však spolu zřejmě souvisejí děti s obtížemi v matematice selhávají jak v numerických výpočtech, tak i ve schopnosti náhledu a učení postupu úkolů, přesahujících kritickou míru složitosti. Nemají však zpravidla potíže v naučení jednoduchých postupů (Russell & Ginsburg, 1984). Geary (1993) proto usuzuje, že potíže s naučením postupu lze častým opakováním odstranit snadněji než potíže s výpočty. Podle něj jsou totiž jak problémy s postupem, tak problémy s numerickými operacemi ve skutečnosti způsobené stejnou příčinou: pro dítě s dyskalkulií je obojí nesmyslné a musí se naučit zpaměti to, co děti bez obtíží zvládají intuitivně. Ve stejném duchu tvrdí také Landerl a kol. (2004), že je výrazně snazší namemorovat se několik jednoduchých postupů, než zpaměti ovládnout velké množství numerických operací, násobilek a vzájemných číselných vztahů. Proto u jednoduchých postupů probíhá reedukace rychleji,

42 Hynek Cígler u numerických operací nebo složitějších postupů (které jsou na paměť náročnější) se učení zpomaluje. Tento závěr je logický i z psychometrického, faktorového hlediska. Samotné nalézání matematických řešení a postupů coby fluidní inteligence narušeno být nemusí (nebo přinejmenším ne tolik jako zbytek funkcí), na rozdíl od kognitivních představ čísel 33 a samozřejmě i schopnosti numerických výpočtů (úzký faktor N). Je-li tento můj předpoklad správný, v případě dětí s dyskalkulií je tedy jejich logicko-matematický úsudek zachován (alespoň v podobě definované např. Mayerem a kol., 1992), narušeny jsou výhradně znalosti a schopnost aritmetických operací. Ty ale samozřejmě zpětně ovlivňují i kvalitu úsudku, jemuž chybí obsah k manipulaci. Konkrétní potíže v matematice či přímo dyskalkulie mohou nabývat většího množství podob. Symptomy se sice zpravidla vyskytují souběžně, přesto se jejich individuální poměr může lišit, navíc se typické příznaky liší i podle věku dítěte. U mladších dětí se projevují spíše jako snížená schopnost vybavování aritmetických faktů a potíže s numerickými výpočty, způsobené zřejmě nevyzrálostí numerických dovedností a chybnou představou čísel. Starší děti (9 10 let) již zpravidla mají základní početní operace do určité míry naučené, ovládají pojmy více a méně či řazení čísel, symptomy jsou proto specifičtější a více se různí. Příčinou je zřejmě kompenzace chybějících dovedností, která vede k využívání neefektivních a pomalých strategií řešení matematických problémů. Tyto děti se tak vyznačují například zdánlivou nepozorností při přehlížení a zaměňování znamének v příkladech, nechápou podstatu používaných postupů, zaměňují číslice a podobně (Shalev & Gross-Thur, 2001). Tyto další projevy jsou nejspíše způsobeny již na nižší úrovni, tedy celkovými obtížemi v chápání konceptu matematických pojmů a snížené schopnosti provádět matematické operace. 2.3.1.1 Typické symptomy dětí se specifickou poruchou učení v matematice Enumerace Na straně 30 jsem zmínil pět základních a dva doplňkové principy podle Gelmana a Gallistela (1979), které děti musí zvládnout pro úspěšnou enumeraci. Právě doplňkové principy tedy (6.) lze počítat z libovolné strany a (7.) není nutné počítat sousedící prvky, ale je možné přeskakovat jsou obtížné obzvláště pro děti s dyskalkulií. Ty navíc často počítají jeden prvek dvakrát (chyba v 1. principu) a neovládají dost dobře nezávislost pořadí (5. princip). V případě těžších poruch se samozřejmě vyskytují obtíže i ve všech ostatních principech (Geary, 2004). Relace a základní operační vztahy Základním operačním vztahům jako více, méně, stejně nemusí být dítě učeno, samo si je odvodí ze svého spontánního počítání a jsou zakotveny v jazyce, který dítě každodenně používá. U dětí s matematickými obtížemi se však pochopení těchto vztahů vyvíjí se zpožděním a zřejmě i kvalitativně odlišně. Přestože Russell a Ginsburg (1984) nenalezli rozdíl ve zvládání operačních vztahů mezi dětmi s matematickými obtížemi a bez nich, domnívají se, že děti s dyskalkulií hůře zvládají využívat tyto znalosti při řešení komplexnějších problémů, a mají potíže u složitějších početních operací. Geary, Hoard a Hamson (1999) naopak ukazují, že děti s potížemi v matematice oproti zdravým dětem zvládají hůře rozlišit větší a menší číslo v páru, tento vliv však není velký. To odpovídá zjištění, že aproximativní kognitivní systém ANS pro diskriminaci větších množství 33 Představy čísel v CHC teorii nejsou jednoznačně reprezentovány, ale bylo by snad možné řadit je právě do faktoru GQ, kvantitativní vědomosti, což může být příčinou i jeho snížení v případě dyskalkulie.

Měření matematických schopností 43 silně souvisí s matematickými schopnostmi, resp. se sémantickou komponentou numerace (Anobile a kol., 2016). Podle Gearyho (1999) se vliv dyskalkulie na diferenciaci množství zvyšuje v případě, kdy je poměr rozdílu obou množství menší a kdy jsou obě množství zadávána vizuálně, nikoliv slovně. Mazzocco, Feigenson a Halberda (2011) dokonce předkládají výsledky výzkumu, kde u dětí s dyskalkulií systém ANS s velmi vysokým efektem funguje hůře jak při srovnávání množství, tak i při odhadu počtu rozdíl těchto schopností u matematicky nadaných a průměrných dětí je přitom výrazně menší než rozdíl průměrných dětí a dětí s dyskalkulií. Zdá se velmi pravděpodobné, že porucha systému ANS je jednou z příčin dyskalkulie, jakkoliv česká odbornice Jiřina Bednářová (osobní komunikace, 14. září 2016) na základě vlastní zkušenosti tvrdí, že deficit v diferenciaci množství nepozoruje u každého dítěte s matematickým deficitem. Přesto je pravděpodobné, že testy diferenciace množství by mohly být vhodným způsobem diagnostiky matematického deficitu v raném věku, kdy není možné použít běžně používaná vyšetření tato hypotéza si nicméně vyžaduje další pečlivý výzkum. Základní aritmetické operace Existuje velké množství strategií usnadňujících základní aritmetické operace a patří mezi ně např. vizualizace, různé rozklady čísel, využívání principů komutativity atd. Právě jejich vhodná kombinace vede k rychlému a správnému řešení to je však právě to, v čem děti s dyskalkulií selhávají. Dokážou sice separátně použít stejné strategie jako děti zdravé, liší se však ve způsobech jejich volby a v jejich preferencích (Geary, 2004; Hanich a kol., 2001). Při jednoduchém sčítání například oproti zdravým dětem tíhnou k počítání na prstech či v duchu oproti postupům založených na sémantické paměti. Nezvládají také princip komutativity (2 + 1 = 1 + 2), inverze (3 + 1 = 4 4 1 = 3) či aditivity (3 + 5 = 8 3 + 6 = 9), při počítání na prstech se často spletou o jeden prvek, problematické jsou přechody přes desítku. Pokud děti s potížemi v matematice nemohou použít oblíbené strategie (např. počítání na prstech), dopouštějí se navíc většího počtu chyb než děti zdravé, které snadněji zvolí jiný postup. To vše navíc přetrvává po celou základní školu (Hanich et al., 2001). Příčinou zřejmě může být právě nedokonalá představa čísla a číselné řady, které omezují mechanismus zpětné kontroly při hledání strategie k řešení. Pracovní paměť Potíže v matematice bývají často uváděny do souvislosti s poruchami paměti. Zdají se být zřejmě nezávislé na sémantické paměti (Landerl et al., 2004), ale jsou výrazně ovlivněné rozsahem paměti pracovní (Geary, 1993). Je přitom nutné mít na zřeteli, že velikost pracovní paměti souvisí se školní úspěšností a celkovým intelektem, tedy g-faktorem (Conway, Kane a Engle, 2003; Landerl a kol., 2004; Phelps a kol., 2005), a také silně souvisí s matematickými schopnostmi i po kontrole ostatních intelektových faktorů v rámci CHC teorie (Floyd a kol., 2003). Rovněž fonologická smyčka jako součást pracovní paměti predikuje schopnost učit se číst (Baddeley, Lewis a Vallar, 1984) a vstupuje tak i do diagnostiky dyslexie. I když samostatné zhoršení pracovní paměti tedy pro diagnózu dyskalkulie nestačí, přesto se zdá, že děti s dyskalkulií mají často potíže právě s tou částí pracovní paměti, která je zodpovědná za uchovávání informací o číslech, a například i číselných řadách. Nečíselné (verbální, vizuální aj.) prvky jsou přitom uchovávány v nezmenšené, nebo jen mírně snížené míře (Siegel a Ryan, 1989; Hitch a McAuley, 1991). To přitom nemusí nutně být způsobeno horší pracovní pamětí, ale jen jiným, méně efektivním nakládáním s čísly (Hitch a McAuley, 1991). Důležitým zjištěním též je, že zatímco dyskalkulie narušuje zřejmě jen matematickou část pracovní paměti, dyslexie zhoršuje

44 Hynek Cígler celkově jak její numerickou, tak i nenumerickou část (Siegel & Ryan, 1989), ačkoliv jiné studie ukazují, že dyslexie souvisí výhradně s fonologickou smyčkou a centrální exekutivou, zatímco dyskalkulie s vizuoprostorovým náčrtníkem (Schuchardt, Maehler a Hasselhorn, 2008). Tomu odpovídá studie Rotzera a kol. (2009), která jako první s pomocí fmri podpořila hypotézu o narušení vizuoprostorového náčrtníku u dětí s dyskalkulií, což může být příčinou horšího vytváření představ čísel a číselných řad, stejně jako uchovávání a vybavování aritmetických faktů. Přestože poznatkům o dvojí pracovní paměti některé studie odporují (např. Temple a Sherwood, 2002) a souvislost pravděpodobně není kauzální (např. Landerl a kol., 2004), podrobné posouzení pracovní paměti je pro diagnostikování dyskalkulie a porozumění individuálním obtížím bezpochyby významné. Je však nutné paměť posuzovat opět vůči celkovému kognitivnímu výkonu a současně odlišit její numerickou a nenumerickou složku. 2.3.1.2 Etiologie a prevalence dyskalkulie Příčiny specifických poruch učení nejsou v současné době zcela zřejmé. Zdá se, že dyskalkulie je dědičná, zhruba polovina dvojčat dětí s potížemi trpí matematikou dyskalkulií rovněž (a také 66 % matek a 40 % otců), což je asi 5 10krát více než u běžné populace (Shalev a kol., 2001). Vliv na výskyt dyskalkulie však má i prostředí (Shalev a kol., 2001; Geary, 2004). Příznaky vrozených potíží v matematice jsou podobné s potížemi získanými například zraněním (Geary, 1993) a byly k nim nalezeny biologické koreláty při neurologickém vyšetření (Shalev a kol., 2001; Rotzer a kol., 2009). Poškození mozku v určitých oblastech vede též k některým poruchám, jejichž součástí je i akalkulie zejm. Gerstmanův syndrom (Miler a kol., 2010; Fayol, Barrouillet a Marinthe, 1998; Noël, 2016). Dyskalkulie zřejmě souvisí s ostatními poruchami učení, až 40 % dětí s potížemi v matematice trpí současně i dyslexií (Landerl a kol., 2004; Gross-Tsur a kol., 1996), byl také zaznamenán zvýšený výskyt ADHD (Gross-Tsur, Manor a Shalev, 1996; von Aster a Shalev, 2007). Některé studie však uvádějí, že poruchy pozornosti ani snížený celkový intelekt nejsou rizikovým faktorem výskytu dyskalkulie (Shalev a kol., 2001). Zcela jasná není ani etiologie matematických potíží existuje větší množství modelů, které je vysvětlují. Například McCloskey, Caramazza a Basili (1985) na řadě klinických případů demonstrují a do neurologických souvislostí uvádějí model, který značně rozličné potíže strukturuje do několika relativně nezávislých zdrojů. První z nich nazývají zpracování čísel a v jeho rámci rozlišují schopnost porozumět číslům a produkovat je, a to zvlášť písemně a verbálně. Zvažují navíc rozdíl mezi lexikálními a syntaktickými funkcemi. Druhým zdrojem potíží je podle nich snížená schopnost počítat, rozdělená na zpracování symbolů a slov, využití naučených pracovních postupů a mechanismus pro provedení výpočtu samotného. Neuropsychologicky založený model představují Dehaene a Cohen (1995). Na základě způsobu zpracování různých matematických vjemů rozlišují verbální, vizuální a prostorovou složku matematických schopností. Tento model vysvětluje nízký deficit dětí s dyskalkulií v případě jednoduchých úkolů, k jejichž řešení lze dospět i jen na verbálně-logické úrovni, a zvýraznění potíží u úkolů složitějších, kde je nutné zapojit struktury zodpovědné za práci s vysokými čísly a množstvím. Protože tento model vysvětluje dyskalkulii jako porušení příslušných funkcí mozku a neurálních sítí, uvádí ji do souvislosti s jinými poruchami učení, jako například dyslexií či dysgrafií (Shalev & Gross-Thur, 2001).

Měření matematických schopností 45 Jiný model předkládají von Aster a Shalev (2007), kteří odlišují děti s vrozenou dyskalkulií jako deficitem v představách čísel od ostatních, jejichž postižení je získané v důsledku jiných poruch jako ADHD, dyslexie či zpoždění jazykového vývoje. Ten zpětně vede k opožděnému či nevhodnému vývoji mozkových struktur zodpovědných za zpracování čísel. Tuto teorii Aster a Shalev (2007) dokládají epidemiologickými daty a rozdílným profilem schopností obou typů dětí. Je proto možné, že to, co popisujeme souhrnně jako dyslexie, je ve skutečnosti více etiologicky rozdílných poruch, z nichž jen část má původně neurologický základ. Neuropsychologických modelů je nicméně více. Za zmínku stojí ještě tzv. mozečková teorie (v češtině např. Zelinková, 2003), která uvádí specifické poruchy učení do souvislosti s poškozením cerebrální oblasti mozku. Děti s dyskalkulií vykazují ve srovnání se zdravými dětmi horší automatizaci motorických dovedností, reakčního času, rychlosti vyjmenovávání slov a mají dokonce narušenou i celkovou rovnováhu, za což může být zodpovědný právě mozeček (Nicolson a Fawcett, 1993). Habib (2000) na podporu teorie uvádí také výsledky metod funkčního zobrazování, které v pravé oblasti mozečku dětí s dyskalkulií zjistily metabolické abnormality. Tomu by odpovídala i předchozí zjištění, že specifické poruchy učení souvisejí s lateralitou dítěte (Zelinková, 2003). 2.3.2 Mimořádné matematické nadání Zatímco dyskalkulie a matematické obtíže jsou definovány zejména jako porucha specifických kognitivních funkcí, jak jsem ukázal v předchozí kapitole, koncept mimořádného nadání je komplexnější a při jeho diagnostice jsou v dnešní době zpravidla uvažované i neintelektové faktory. Podle Tannenbauma (1983) se nadání skládá z celkově nadprůměrné inteligence, doménově-specifických schopností, neintelektových facilitátorů a vlivu prostředí doplněných o prvek náhody. Rozšířený a v současné době velice oblíbený Renzulliho (2005) tříkruhový model nadání obdobně zahrnuje (1.) nadprůměrné celkové i specifické schopnosti, (2.) angažovanost či motivaci v dané oblasti a (3.) kreativitu. Právě tvořivost velmi pěkně definuje Lithner (cit. dle Øystein, 2011), který rozlišuje kreativní a imitativní řešení. Ačkoliv se z technického hlediska nemusí oba dva postupy lišit, kreativní řešení provádí dítě, které se se zadaným příkladem (jenž ale může být např. ve vyšších ročnících běžný) dosud nesetkalo, a postup řešení je tak jeho vlastním dílem; naopak imitativní řešení jen recykluje dříve naučený postup. Toto rozdělení má blízko k výše zmíněnému (kap. 2.2.2.1) pojetí rutinního vs. nerutinního postupu (Mayer a Hegarty, 1996). Moje práce je nicméně zaměřena na měření matematických schopností a dovedností, nikoliv diagnostiku neintelektových faktorů. Zaměřím se proto zejména na kognitivní složku nadání. V současnosti neexistuje žádná obecně přijímaná teorie matematického nadání, jednotlivé modely se nicméně značně překrývají a jejich odlišnosti jsou spíše terminologického rázu. Lze přitom identifikovat dva hlavní přístupy: prvním je předčasná vyspělost, která předpokládá, že dítě s kognitivním nadáním si jednotlivé koncepty a znalosti osvojuje v časnějším věku, než je běžné u většiny dětí. Jde tedy o předčasný, kvantitativní nárůst schopností. Druhý přístup považuje nadání za soubor specifických schopností a dovedností kvalitativně odlišných od běžných dětí. 2.3.2.1 Kognitivní nadání jako předčasná vyspělost Výzkumů studujících mimořádné matematické nadání je značné množství, zmínit lze například Stanleyho longitudinální projekt Study of Mathematically Precocious Youth (SMPY), ve kterém

46 Hynek Cígler se ukázalo, že výjimečné matematické schopnosti identifikované v raném věku přetrvaly do dospělosti a dobře predikovaly značnou akademickou a životní úspěšnost takto vybraných jedinců (Stanley, 1985; Benbow, 2016; Lubinski, Benbow, & Kell, 2014). Tento výzkum vycházel z principu předčasné vyspělosti a využíval proto tzv. above-average testing, kdy je použit test určený starším dětem u mladších, nadaných dětí tento postup rozpracovala Leta S. Hollingworthová (cit. dle Stanley, 1990). Je však velkou otázkou, zda se může nadání týkat výhradně matematické domény. Dyskalkulie a matematické obtíže jsou definovány jako míra matematických schopností, která neodpovídá úrovni intelektu daného člověka. Zdá se však, že naopak nadprůměrné matematické schopnosti zpravidla souvisejí s celkově vyšším intelektem. Benbow a Minor (1990) v profilu extrémně nadaných dětí identifikovali tři odlišné faktory, konkrétně prostorově-rychlostní, verbální a neverbální, obdobných studií však není mnoho. Většina výzkumů týkajících se matematicky nadaných včetně zmíněné studie SMPY totiž nezvažuje celkový intelektový profil, a může tak docházet ke specifikační (LOVE) chybě, o níž jsem psal v kap. 2.2.1.1. 2.3.2.2 Kognitivní nadání jako soubor specifických schopností Odpověď na otázku, zda může existovat čistě matematické nadání (tedy mimořádné matematické schopnosti, překračující úroveň celkového intelektu), může pomoci zodpovědět přístup, který se zaměřuje na specifické schopnosti matematicky nadaných dětí. Tento směr výzkumu byl ovlivněn zejména dlouhodobou prací Vadima Krutěckého (např. Kruteckij, 1968), který zkoumal soubor 201 dětí po dobu 12 let, a navazuje na něj řada dalších autorů (např. modernizované pojetí Sheffieldové, 2003). Freiman (2008) shrnuje hlavní aspekty Krutěckého pojetí matematického nadání do několika schopností: uchopování matematické povahy problému adekvátním způsobem; zobecňování matematických obsahů; tendence k maximální úspornosti při řešení; flexibilita myšlení; specifické zaměření paměti a její výkonnost; matematické zaměření mysli. Obdobné charakteristiky pak uvádí i Miller (cit. dle Freimana, 2006): zběhlost a zvědavost v oblasti numerických informací; rychlost v učení, porozumění a aplikování matematických informací; vysoká úroveň abstraktního myšlení; schopnost vidět matematické vzorce a vztahy; schopnost myslet a pracovat kreativním způsobem na abstraktní úrovni; schopnost přenést již naučené dovednosti do nových matematických situací. Pokud si však oba uvedené seznamy prohlédneme, je evidentní, že jde o směs neintelektových (zejm. motivačních) charakteristik a schopností, které bychom mohli považovat za typické součásti fluidní inteligence. I v případě, pokud bychom matematické nadání definovali jako nadprůměrnou schopnost aritmetických výpočtů, byly by pozorovány prakticky výhradně v případě dětí s různými

Měření matematických schopností 47 poruchami, nejčastěji autistického spektra označovaný jako savantismus, idiot savant či savant syndrom (Miller, 1999; Treffert, 2009; APA, 2013; MKN-10, 2008). Je nicméně nutné uvést, že obdobně excelentních výpočetních schopností dosáhl i Pauli a kol. (1996) se zdravými subjekty a Snyder (2009) soudí, že se lidé se savantismem neliší z hlediska kognitivních schopností, jen je využívají odlišným způsobem (chybí jim například inhibiční mechanismy apod.), které souvisejí s podmínkou abnormálně kapacitní krátkodobé i dlouhodobé paměti (Treffert, 2009). Tímto jevem se nicméně nemusíme dále zabývat, protože (1.) se tyto specifické dovednosti týkají prakticky výhradně jinak znevýhodněných osob, (2.) lze se je zčásti naučit, a zejména (3.) extrémní schopnost numerických výpočtů není zpravidla to, co si představujeme pod pojmem matematicky nadaný člověk. 2.3.2.3 Matematické nadání: shrnutí Na základě výše uvedených argumentů se domnívám, že ryze matematické nadání je ve shodě s jinými autory (Tannenbaum, 1983; Renzulli, 2005) směsí celkově vysoké inteligence a neintelektových faktorů, které vedou k preferenci matematického myšlení. Z kognitivního hlediska je však matematické nadání do značné míry neodlišitelné od celkově nadprůměrné inteligence, zejména inteligence fluidní. Podle mého názoru jsou matematické schopnosti zvýšené oproti ostatním složkám intelektu důsledkem vyšší motivace či hlubšího studia, nikoliv přirozené, vrozené struktury schopností (šlo by o CHC faktor Gq, kvantitativní vědomosti). Pro ověření této domněnky nicméně není k dispozici dostatek empirických podkladů. Neexistují ale ani žádné věrohodné důkazy, že matematické nadání může být důsledkem výhradního zvýšení úrovně matematického úsudku nad úroveň celkového intelektu daného jedince. Matematické nadání proto v žádném případě nelze chápat jako protipól dyskalkulie. Přesto i v případě, že je má domněnka správná, nejde o argument proti ověřování specificky matematických schopností a dovedností a tedy proti diagnostice specifického matematického nadání. Neintelektové a motivační faktory jsou důležité a mohou sekundárně podporovat rozvoj matematického myšlení a v důsledku tak mohou být výrazně nad ostatními schopnostmi daného člověka; zejména sociálními, komunikačními, emočními atp., byť si jsem vědom, že tento směr uvažování vede k jisté stereotypizaci. Zároveň je důležité si uvědomit, že průměrně inteligentní člověk může uspět v řadě oblastí a životních rolí, kde chybí tvrdá, objektivní kritéria výkonu. Naopak v matematických oblastech tato kritéria jsou mnohem zřejmější a proto je nutnou podmínkou úspěchu v matematických oblastech právě matematické nadání, ať už jde o celkově zvýšený intelekt či specifické schopnosti. Při diagnostice matematického nadání je každopádně nutné sledovat celkový profil kognitivních schopností. Teprve v případě, že se zvýšená úroveň fluidní inteligence (matematické usuzování) pojí se současně velkou motivací k matematickému myšlení a hlubokými matematickými znalostmi (faktor Gq v CHC teorii), je diagnostika specificky matematického nadání smysluplná; v opačném případě je výhodnější diagnostikovat celkově nadprůměrný intelekt. V případě, že se jiné složky inteligence (zejména verbální) výrazně odlišují od matematického usuzování, může být příhodnější zvažovat dvojí výjimečnost (tedy současný výskyt celkového kognitivního nadání a specifické poruchy učení) než pouhé navýšení matematických schopností nad celkovou úroveň intelektu (tedy specifické, matematické nadání).

48 Hynek Cígler 2.4 Testy používané k měření matematických schopností a dovedností V České republice existuje v současné době (druhá polovina roku 2016) zdánlivě dostatečné množství různých testů matematických schopností a dovedností; naprostá většina z nich je ovšem do značné míry zastaralá či s pochybnými psychometrickými vlastnostmi. V této kapitole se proto pokusím předložit velmi stručný přehled dostupných metod včetně jejich účelu a stručného popisu. Výčet zřejmě není vyčerpávající je pravděpodobné, že existují další, méně rozšířené testy. Zároveň ne všechny metody mi byly fyzicky dostupné a při jejich popisu tak vycházím ze sekundárních zdrojů (tento fakt je v textu vždy uveden). Řada dílčích subtestů a zkoušek se navíc napříč metodami prolíná a občas není snadné přesně odlišit jednotlivé verze obdobných testů to se týká zejména Novákových a Koščových zkoušek. Kromě níže uvedených lze samozřejmě použít i subtesty některých inteligenčních baterií. Zmínit lze např. Počty z WISC-III (Wechsler a kol., 2002) či Kvantitativní usuzování z WJ II IE COG (Ruef, Furman a Muñoz-Sandoval, 2010). Přehled vhodných subtestů nicméně neuvádím a zaměřuji se na testy specificky určené k měřené matematických schopností či dovedností; administrace komplexní intelektové baterie by ostatně měla být přirozenou součástí každého vyšetření za účelem diagnostiky dyskalkulie i mimořádného nadání. Kromě toho pro speciálněpedagogické účely nejsou jednofaktorově pojaté škály příliš výhodné. 2.4.1 Test pro identifikaci nadaných žáků v matematice (TIM) Test určený k diagnostice mimořádného matematického nadání 34 vznikl na katedře psychologie FSS MU (Cígler, Jabůrek, Straka a Portešová, in press) a popis jeho konstrukce a ověřování je součástí této dizertační práce (kap. 4). Podrobný popis je proto k dispozici tam. 2.4.2 Diagnostika struktury matematických schopností (DISMAS) Test 35 vytvořili Traspe a Skalková (2013) během svého působení v pedagogicko-psychologické poradně v Trutnově, vydal jej Národní ústav pro vzdělávání. Osobně jsem autorem teoretického úvodu a reanalýzou testu se zabývám v kap. 5 této práce, kde je i podrobný popis metody. Metoda je nicméně podle mého názoru spolehlivým nástrojem při diagnostice specifických poruch učení v matematice, přestože některé ze škál diferencují poněkud hůře. 2.4.3 Posuzovací škály a didaktické testy k vyhledávání nadaných žáků (baterie IDENA) Baterie IDENA 36 (Hříbková, Nejedlý a Zhouf, 2013), vydaná Národním ústavem pro vzdělávání, sestává ze škál pro učitele určených k posouzení obecného intelektového nadání žáků 1. 2. třídy, 3. 5. třídy a specifických škál matematiky, češtiny, fyziky, chemie a biologie pro žáky 34 http://www.nadanedeti.cz/vyvoj-testu-matematicky-test 35 http://www.nuv.cz/t/diagnostika/projekt-dis/diagnostika-struktury-matematickych-schopnostidismas 36 http://www.nuv.cz/t/diagnostika/projekt-dis/posuzovaci-skaly-a-didakticke-testy-k-vyhledavaninadanych

Měření matematických schopností 49 8.-9. ročníků; jsem autorem jejich psychometrického zpracování. Tyto škály byly doplněny didaktickým testem z matematiky a českého jazyka. Didaktický test z matematiky by měl podle autorů pokrývat celou látku probranou do poloviny 8. ročníku základní školy. K dispozici jsou dvě alternativní 12položkové formy administrovatelné skupinově formou tužka-papír. Reliabilita testu je však poměrně malá (vnitřní konzistence přibližně 0,5), ačkoliv test relativně dobře diskriminoval nadané a běžné děti (Cohenova d se pohybovala kolem hodnoty dva) vzhledem k tomuto rozporu a na základě informací v manuálu se lze domnívat, že test není jednodimenzionální. Jeho validita je přesto nejasná a je otázkou, nakolik dokáže 12 položek zachytit matematické znalosti dítěte v plném rozsahu. Podle mého názoru lze test použít jako doplňkovou metodu. 2.4.4 Neuropsychologická batéria testov na spracovávanie čísiel a počítanie u detí (ZAREKI) ZAREKI 37 (von Aster a Weinholdová, 2008; vydala Psychodiagnostika Brno) je pouze ve slovenském jazyce dostupný individuálně administrovaný test, který se snaží odděleně měřit schopnosti percepce, zpracování a produkce čísel při diagnostice dyskalkulie v 12 dílčích subtestech a několika dalších ukazatelích. Celková vnitřní konzistence dosahuje hodnoty α = 0,90, pro jednotlivé subtesty se pohybuje v rozmezí 0,22 0,78; zdá se nicméně, že tyto hodnoty byly odhadnuty na základě výkonů dětí z celého vzorku s věkem 7;6 10;11 let. Protože je věk zřejmě velmi silným prediktorem výkonu (viz tabulku 2 v manuálu testu), jsou tyto hodnoty pro normativní účely nadhodnocené (část rozptylu je vysvětlena věkem, normy jsou však pro děti různého věku stanoveny zvlášť). Důkazy kriteriální validity jsou podle mého názoru nedostatečné. Z těchto důvodů a rovněž kvůli slovenskému znění položek bych pro diagnostiku matematických obtíží využil spíše jiného testu. 2.4.5 Percepčně numerický test, barevná kalkulie a kalkulie IV Percepčně numerický test 38 (Novák, 2010; vydala Psychodiagnostika Brno) je dvojice testů s individuální administrací, určených k diagnostice dyskalkulie prostřednictvím kvalitativního i kvantitativního vyhodnocení, a to ve formě A (7 11 let) a B (12 16 let). Normy jsou z let 1997-1998 (forma A), respektive 2000 2001 (forma B). Test-retest reliabilita je přijatelná, ačkoliv korelace obou forem je velmi nízká (r = 0,37) a výsledky validizačních studií nejsou přesvědčivé. Silnější vztahy byly pozorovány jen s testem Kalkulie III (r A = 0,48, r B = 0,52), který je však ve skutečnosti jen předchozí verzí formy B tohoto testu; ověření prediktivní či postdiktivní validity vůči specifickým poruchám učení v matematice chybí. Ze srovnání výkonu nadaných a běžných dětí je patrné, že rozdíl mezi oběma skupinami je malý a test tak nelze využít ani k diagnostice mimořádného nadání. K diagnostice dyskalkulie je podle mého názoru možné test použít pouze obezřetně jako doplňkový. Barevná kalkulie (Novák, 2001), uváděná někdy jako samostatný test, je ve skutečnosti shodná s Percepčně-numerickým testem formy A, stejně tak jsou shodné i Kalkulie IV (Novák, 2002) 37 http://www.psychodiagnostika-sro.cz/cz/katalog_popis.asp?kod=626&zozarg=1&kateg=1&mt= 38 http://www.psychodiagnostika-sro.cz/cz/katalog_popis.asp?kod=635&zozarg=1&kateg=1, http://www.psychodiagnostika-sro.cz/cz/katalog_popis.asp?kod=636&zozarg=1&kateg=1

50 Hynek Cígler a forma B Percepčně numerického testu, shodné jsou zřejmě i standardizační vzorky zde uváděných verzí. Jde jen o jiná vydání týchž testů, ostatně v nabídce nakladatelství Psychodiagnostika se vyskytuje již jen percepčně-numerický test. 2.4.6 Matematické předpoklady dětí v mladším školním věku, Vyšetření matematických schopností u dětí Matematické předpoklady dětí v mladším školním věku 39 jsou testem doporučeným Národním ústavem pro vzdělávání (2011) pro diagnostiku dyskalkulie na prvním a druhém stupni základní školy. Test jsem neměl osobně k dispozici, ale jde zřejmě o novější verzi původního Vyšetření matematických schopností u dětí (Novák, 1997; vydala Psychodiagnostika Brno), který sestává z původní Kraepelinovy zkoušky Číselný trojúhelník z roku 1902, Kalkulie III a dalších speficických zkoušek: Percepční, Verbální, Lexické, Prostorové a grafické (založené na kvalitativní analýze číselného trojúhelníku a Rey-Osteriethovy komplexní figury ROKF), Operacionální, Paměťové faktory a Faktory matematického úsudku. Všechny testy však postrádají (přinejmenším ve mně dostupné verzi) příslušné psychometrické zhodnocení a lze je tedy použít pouze jako doplňkové, například jako podklad pro pozorovací schéma dítěte při vyšetření; Kalkulii jsem se věnoval výše. Teoretické pozadí testu lze pokládat za přinejmenším zastaralé, například účelnost využití ROKF při diagnostice dyskalkulie je v nejlepším případě sporná. Další subtest pak měří jednoznačně fluidní inteligenci; ta sice s matematickými schopnostmi těsně souvisí, nesouvisí však s dyskalkulií jako poruchou učení (viz předchozí kapitoly). V tomto světle tak nevidím žádné důvody, proč tento test využít namísto jiných (novějších) baterií, pokud však aktuální verze nebyla zásadním způsobem přepracována. 2.4.7 Diagnostika matematických schopností a dovedností Diagnostika matematických schopností a dovedností 40 a prematematická část Diagnostiky školní připravenosti 41 (Bednářová, 2015a; 2015b; vydala Pedagogicko-psychologická poradna Brno) jsou testové baterie určené pro děti od posledního půlroku před nástupem do první třídy až do čtvrté třídy ZŠ. V baterii pro předškolní děti jsou ověřovány pouze základní matematické představy, testy pro starší děti obsahují 5 subtestů určených k ověření numerace, 5 pro základní číselné operace a 3 pro jejich aplikace. Testy se vyznačují uspokojivou reliabilitou i diferenciální validitou a lze je doporučit pro diagnostiku nižšího matematického výkonu v určeném věku. Jsou zřejmě užitečné i pro ipsativní diagnostiku a plánování nápravných programů. 2.4.8 Další testy V České republice existují samozřejmě další standardizované testy matematických dovedností. Ty však nejsou v pedagogické či psychologické praxi využívány a slouží běžně k jinému účelu; příkladem mohou být matematické zkoušky společnosti SCIO, určené pro poslední ročníky prvního i druhého stupně ZŠ a středních škol. Je bohužel velmi nepraktické, že tyto testy nemají 39 http://www.psychodiagnostika-sro.cz/cz/katalog_popis.asp?kod=658&zozarg=1&kateg=1 40 https://www.pppbrno.cz/cs/kurzy-spz/diagnostika-matematickych-schopnosti-a-dovednosti/ 41 https://www.pppbrno.cz/cs/kurzy-spz/diagnostika-skolni-pripravenosti/

Měření matematických schopností 51 známé psychometrické ukazatele a že nebývá zvykem zvažovat jejich výsledky při pedagogicko-psychologické diagnostice, pro některé účely by jejich užití mohlo být vhodné. 2.5 Shrnutí úvodu a výzkumné cíle práce Po přečtení předchozího textu se zdá tvrzení některých autorů (viz např. Geary, 1993; Floyd, Evans a McGrew, 2003) o tom, že toho víme jen velmi málo o kognitivních procesech, které za matematickými schopnostmi stojí, velmi zvláštní mám za to, že rozsáhlý výzkum matematických schopností, dovedností a myšlení zejména v posledních letech posunul lidské poznání o značný kus dopředu. V úvodní kapitole 2.1 jsem definoval, co považujeme za matematické schopnosti a dovednosti, a stručně popsal, že rozdíly mezi muži a ženami jsou zcela zanedbatelné. Následně jsem popsal možné přístupy ke studiu tohoto fenoménu a v kapitole 2.2.1 zasadil matematické schopnosti mezi ostatní složky intelektu v rámci CHC teorie inteligence. V tomto kontextu je nutné připomenout, že studium souvislosti matematických schopností a jiných, nematematických proměnných, může být výrazně zkreslené v důsledku úzkého vztahu matematického usuzování a fluidní inteligence, která může vést k tzv. specifikační LOVE chybě. Kapitola 2.2.2 byla věnována kognitivním procesům, které vedou ke správnému, nebo naopak chybnému řešení. Tento postup je bližší spíše speciálněpedagogickému pojetí matematických dovedností, které člení na řadu dílčích postupů a dovedností. Zmínil jsem například řešení na základě analogií a úvahy o kvalitativním řešení kvantitativních problémů : např. hypotézu konzistentního jazyka (konzistentní jazyk vede ke snadnějšímu vytvoření mentálního modelu úlohy), vliv příznakovosti a její moderační vliv na vztah konzistence zadání a matematické schopnosti při řešení příkladu. Dále jsem kategorizoval typické chyby při řešení příkladů v REASON modelu. V kapitole 2.2.3 jsem se zaměřil jednak na piagetovský, jednak na antropologický přístup k matematickým schopnostem. Piagetovský konstruktivismus je psychologům známý a nebudu se zde proto opakovat; na druhou stranu existence dvojího systému pro zpracování informací o množství (ANS vs. OTS), který řídí princip kardinality a ordinality, či fakt, že jsou tyto systémy vrozené a vyskytují se již v prenatálním období, mohou být pro leckoho překvapivé. Dále jsem zmínil hypotézu jazyka jako kognitivní technologie, která umožňuje přenášet informace o množství v čase a prostoru, a podrobně popsal principy enumerace a přechodu k numeraci, tedy vytvářením představy čísla, číselné osy a numerických operací. Zaměřil jsem se rovněž na to, jaký vliv na přesnost a rychlost numerických operací má jazyk či systém použitý k reprezentaci čísel, jaký je vztah počítání a motoriky v rámci teorie vtělené kognice, a zmínil jsem též, v jaké míře tyto faktory, přítomné zejména v průběhu vývoje a vzdělávání, přetrvávají do dospělosti. Pedagogický přístup jsem jen velmi stručně nastínil v kapitole 2.2.4 zmínil jsem možnost využití dynamického testování matematických schopností a upozornil na problematiku spojenou s kladením otázek. V kapitole 2.3 jsem potom popsal specifický matematický deficit a naopak kognitivní souvislosti matematického nadání. Zdá se, že zatímco dyskalkulie je důsledkem narušení konkrétních

52 Hynek Cígler kognitivních funkcí při zachované úrovni celkového intelektu, matematické nadání je produktem celkově nadprůměrného intelektu a neintelektových charakteristik (např. motivace). Matematické nadání proto není opakem dyskalkulie. Závěrečná kapitola 2.4 ve stručnosti představila testy běžně využívané k diagnostice matematických schopností. Na základě tohoto přehledu literatury se vynořuje několik hlavních výzkumných otázek či cílů, které přímo souvisejí s psychologickou diagnostikou, a tedy tématem této práce. Podívejme se na ně postupně. 2.5.1 Vývoj a ověření testů matematického nadání V době zahájení mého doktorského studia nebyl v České republice k dispozici žádný test matematického nadání. Záhy byla sice vydána baterie IDENA, na jejíchž posuzovacích škálách jsem se coby psychometrik podílel (Cígler, 2013b) a jejíž součástí byl i didaktický test. Ten se však podle manuálu vyznačoval nízkou reliabilitou (Urbánek, 2013) i kriteriální validitou (Cígler, 2013b). Navíc šlo skutečně o didaktický test, nikoliv test schopností či předpokladů. V týmu Šárky Portešové jsme se proto s Michalem Jabůrkem, Ondrou Strakou (a za významné podpory týmu z Katedry matematiky na Pedagogické fakultě MU) rozhodli sami vytvořit test pro diagnostiku mimořádných matematických schopností: výsledkem byl Test pro identifikaci nadaných žáků v matematice, zkráceně TIM (Cígler, Jabůrek, Straka a Portešová, in press). Cílem bylo publikovat test v takové podobě, aby mohl sloužit jako příklad dobré praxe při publikaci a standardizaci dalších psychologických testů u nás. Prvním cílem této celé práce je proto (1.) představit způsob vývoje a standardizace diagnostické metody pro vyhledávání nadaných dětí v matematice. Konkrétní výzkumné otázky nepokládám, příslušná kapitola bude pojata spíše jako psychometrická kazuistika. 2.5.2 Validita, reliabilita a férovost testu matematického deficitu Jak jsem již uvedl, jsem autorem teoretického úvodu k testu Diagnostika struktury matematických schopností, zkráceně DISMAS (Traspe a Skalková, 2013), určeného k diagnostice dyskalkulie. Protože jsem, s laskavým svolením Národního ústavu pro vzdělávání i všech autorů, získal veškerá dostupná data o fungování testu, druhým cílem práce je provést jejich reanalýzu a ověřit část procesů, na něž v původním manuálu nezbyl prostor. V tomto ohledu si kladu tři výzkumné cíle, které zároveň publikuji v samostatné studii (Cígler a kol., in review): 2. Odhadnout reliabilitu kompozitních skórů a srovnat ji s odhady dostupnými v manuálu metody. Tyto nové odhady mohou být využity psychology a speciálními pedagogy v běžné praxi. 3. Zkonstruovat strukturní model ověřující faktorovou strukturu s využitím původních hrubých skórů, a to se zohledněním ročníku dítěte. Zároveň zkonstruovat hierarchický faktorový model, který ověří naráz jak skladbu jednotlivých subtestů, tak i strukturu celkového skóru testu. 4. Ověřit faktorovou invarianci běžné a poradenské populace, a dále ověřit též invarianci jednotlivých vývojových škál napříč ročníky i populacemi.

Měření matematických schopností 53 2.5.3 Dimenzionalita škál testů matematických schopností V předchozích kapitolách jsem uvedl velkou řadu důkazů, že specifické poruchy učení v matematice dyskalulie jsou důsledkem řady dílčích poruch kognitivních funkcí (zejm. Geary, 1993, 2004; Russell a Ginsburg, 1984; Geary a kol., 1999; Mazzocco a kol., 2011; Landerl a kol., 2004). Přitom u běžné populace se zdají být matematické schopnosti sycené jen několika málo odlišnými faktory třetího řádu v rámci CHC modelu inteligence konkrétně kvantitativním usuzováním (RQ) jako součásti fluidní inteligence, dále širším faktorem kvantitativní vědomosti (Gq) s úzkými faktory šířka znalostí (KM) a matematický výkon (A3) a nakonec číselnou zručností (N), coby schopností rychlých a přesných aritmetických výpočtů (zejm. Keith a Reynolds, 2010; Schneider a McGrew, 2012; Flanagan a Dixon, 2014). Číselná zručnost se pak s matematickým usuzováním pojí jen v mladším věku, později vztah slábne (Floyd a kol., 2003). Zdá se, že velké množství dílčích kognitivních funkcí tvoří určitý předpoklad pro navazující matematické usuzování, které je však ovlivňováno spíše již širšími intelektovými faktory. Vývoj těchto kognitivních funkcí je ukončen v relativně nízkém věku a v populaci běžných starších dětí by tak již v tomto ohledu neměly být interindividuální rozdíly. Pokud je nicméně tato hypotéza pravdivá, měl by být pozorovatelný rozdíl v dimenzionalitě zdánlivě jednofaktorových testů matematických schopností. Lze předpokládat, že děti s vyšší mírou schopnosti mají základní kognitivní funkce zodpovědné za numerické operace (představy čísel, číselných řad atp.) plně vyvinuté, a tyto testy by tedy měly v jejich případě zachycovat výhradně fluidní inteligenci (resp. její faktor prvního řádu RQ). Naopak u dětí s nižší úrovní matematických schopností lze předpokládat, že kognitivní funkce jsou celkově méně vyvinuté, a proto se tyto interindividuální rozdíly projevují různým způsobem při řešení matematických úloh. Výsledkem je potom multidimenzionalita, či přinejmenším lokální závislost položek test kromě faktoru RQ bude zachycovat interindividuální rozdíly v rozvinutosti jednotlivých kognitivních funkcí zodpovědných za představy čísel atp. Tento jev by se měl projevit jak na úrovni jednotlivých testů, tak i na úrovni faktorů vyššího řádu přítomných v testech. Na tomto základě proto formuluji výzkumnou otázky, kterou se pokusím zodpovědět v následující části této práce: 5. Liší se dimenzionalita škál matematických schopností podle úrovně měřených matematické schopností? 2.5.4 Využití systému ANS jako příčiny dyskalkulie při její diagnostice Anobile a kol. (2016) uvádí schopnost diskriminace množství prostřednictvím přibližného kognitivního systému ANS do souvislosti s matematickými schopnostmi, konkrétně se sémantickou komponentou numerace. Zejména v případě nižšího množství 24 prvků je tento vztah středně silný, r = 0,432 (po kontrole dalších proměnných v lineární regresi β = 0,387). Přitom reliabilitu diskriminace množství na základě 45 úloh odhadují na r = 0,54, 95% CI [0,40; 0,68]; reliabilitu testu matematických schopností nereportují 42. 42 Lze ji však odhadnout z prezentovaných dat. Korelace průměru dvou z-standardizovaných subtestů s oběma těmito subtesty je 0,813 kolem této hodnoty se bude pohybovat reliabilita celého měření.

54 Hynek Cígler S využitím Spearman-Brownova vzorce lze uvažovat, že pro dosažení uspokojivé reliability diskriminačního testu r = 0,8 by bylo nutné administrovat 3,4krát více položek na diskriminaci množství, tedy asi 153 spíše však méně vzhledem k tomu, že Anobile a kol. (2016) používali adaptivní odhad, díky kterému administrovali položky lépe diferencující pro danou úroveň schopnosti diferenciace množství. Protože na základě předložených informací lze předpokládat, že délka administrace těchto 45 úloh trvala jen pár minut, 153položkový test by neměl zabrat více než 10 minut času respondenta (o něco méně než 4 sekundy na jednu položku je adekvátní odhad). Mám za to, že tento způsob administrace by bylo možné (6.) upravit pro použití jako diagnostické metody v případě mladších dětí, u kterých není možné diagnostikovat dyskalkulii přímo například kvůli nedostatečně naučené číselné řadě atp. Zároveň je otázkou, (7.) nakolik schopnost diskriminace souvisí přímo s numeračními schopnostmi, tedy sčítáním, odčítáním atp. Bohužel, na řešení těchto otázek již nezbývá v této práci prostor; jde tedy o nedořešené výzkumné otázky, kterým se hodlám věnovat v navazujících výzkumech. 2.5.5 Experimentální ověření nezávislosti matematických dovedností ve faktorovém modelu inteligence Jak jsem ukázal výše, matematické usuzování (RQ) je faktor třetího řádu v rámci fluidní inteligence (Gf), který umožňuje manipulovat s matematickými koncepty za porozumění těmto konceptům je nicméně zodpovědný samostatný faktor druhého řádu, Gq kvantitativní vědomosti. To vše je relativně nezávislé na samostatné schopnosti rychlých a přesných aritmetických výpočtů, tedy na faktoru třetího řádu číselná zručnost, N, v rámci širšího faktoru rychlosti zpracování, Gs (např. Flanagan a Dixon, 2014). Kvantitativní vědomosti přitom neznamenají schopnost osvojovat si matematické koncepty, ale rozsah těchto znalostí: The Gq store of acquired knowledge represents the ability to use quantitative information and manipulate numeric symbols.. Rozdíl mezi znalostmi (Gq) a usuzováním (RQ) je popsán jako...gq represents an individual s store of acquired mathematical knowledge, including the ability to perform mathematical calculations (i.e., procedural knowledge). Quantitative Reasoning represents only the ability to reason inductively and deductively when solving quantitative problems. Gq is most evident when a task requires mathematical skills (e.g., addition, subtraction, multiplication, division) and general mathematical knowledge (e.g., knowing what the square-root symbol means). RQ, on the other hand, would be required to solve for a missing number in a number-series task (e.g., 3, 6, 9, ), for example. (Flanagan a Dixon, 2014. s. 141). Jinde je tento rozdíl popsán jako Gq is distinct from Quantitative Reasoning (a facet of Gf) in the same way that Gc [krystalická inteligence; pozn. autora] is distinct from the non-quantitative aspects of Gf. (Schneider a McGrew, 2013, s. 9). Jinými slovy: matematické usuzování je velmi blízkou součástí fluidní inteligence, nejde o samostatný faktor přičemž vztah fluidní inteligence a RQ je extrémně těsný, na základě Phelpsova a kol. (2005) cross-battery modelu je standardizovaný strukturní koeficient roven 0,92, oba faktory jsou tedy prakticky totožné. Zároveň se nezdá, že Gq je faktor zodpovědný za osvojování si matematických znalostí, jde prostě jen o jejich šířku.

Měření matematických schopností 55 To jde nicméně proti selskému rozumu: jak často slyšíme matematika mi nikdy nešla, nemám na matematiku buňky atp. Přesto se domnívám, že za těmito výroky stojí spíše motivační či jiné nekognitivní vlastnosti, jako např. strach z neúspěchu, sebeznevýhodňování atd. Předloženou hypotézu o tom, že matematické schopnosti jsou od fluidní inteligence téměř neoddělitelné, však lze ověřit experimentálním způsobem 43 : stačí vybrat osoby, které mají vysokou míru fluidní inteligence a které zároveň tvrdí, že se jim v matematice nikdy v minulosti nedařilo, v současnosti jsou již několik let pryč z běžného vzdělávání a jejich matematický výkon a znalosti (Gq) tak objektivně budou velmi nízké. Tyto osoby by byly vyšetřeny komplexním inteligenčním testem a testem matematického výkonu (s výhodou by bylo možné použít například národní srovnávací zkoušky společnosti SCIO 44 ). Následně by absolvovaly intenzivní, nejlépe individuální kurz středoškolské matematiky, po němž by byly opětovně vyšetřeny oběma testy. Moje (8.) hypotéza zní, že by během tohoto kurzu došlo k výraznému zlepšení a srovnání úrovní matematických schopností a fluidní inteligence. Bohužel, na takto rozsáhlý longitudinální prostor nebyl během mého doktorského studia čas ani prostor, a výzkum proto nebude realizovaný v rámci této dizertační práce. 43 Za inspiraci děkuji Standovi Ježkovi, který stál u zrodu této myšlenky. 44 https://www.scio.cz/nsz/matematika.asp

56 Hynek Cígler 3 Raschův model Studie 1, tedy popis standardizace Testu pro identifikaci nadaných žáků v matematice (TIM), je založena na postupech vycházejících z tzv. Raschova modelu. Protože zmíněné analýzy nejsou dosud v České republice dostatečně známé a některé jejich aplikace jsem osobně odvozoval, popíšu je podrobně zde namísto kapitoly Metoda v rámci příslušné studie. Myslím, že následujících několik stran textu navíc může být přínosem pro čtenáře, který se chce na jednom místě dozvědět více o možnostech standardizace psychologického testu s využitím právě Raschova modelu. Věřím však, že čtenář má zároveň přinejmenším povrchní znalosti o teorii odpovědi na položku, proto budu postupovat rychle a některé nejzákladnější informace vynechám. Raschův (1966) model je nejjednodušším z modelů teorie odpovědi na položku (IRT). Pro standardizaci TIMu byla použita jeho upravená verze pro ordinálně seřazené odpovědi v podobě Mastersova (1982) partial-credit modelu (PCM), který na rozdíl od Andrichova (1978; Andersen, 1977) rating-scale modelu (RSM) neklade nároky na shodnou strukturu prahů napříč položkami (viz níže). Na rozdíl od klasické testové teorie, která zpravidla pracuje pouze se souhrnnými statistikami (průměr, rozptyl atd.), teorie odpovědi na položku modeluje způsob, jakým respondent odpovídá na jednotlivé položky 45. Základem IRT je tzv. charakteristická funkce položky. Ačkoliv Rasch (1966) ji definoval s pomocí normální ogivy (normálního kumulativního rozdělení), dnes se častěji používá její logistická aproximace z důvodu nižší výpočetní náročnosti: 1 P{X ni = 1} = eθ n b i 1+e θ n b i = 1 1+e (θ n b i ), kde P{X ni = 1} je pravděpodobnost správné odpovědi (kódované v tomto případě jako 1) respondenta n na položku i při úrovni latentního rysu θ n a obtížnosti položky b i, které jsou udávány na stejné škále. Tento model má několik různých výhod, které shrnují např. Bond a Foxová (2009). Klíčovou je nezávislost takto vytvořené měřicí škály na parametrech vzorku a metody škála je fundamentální, vytvořená z ordinálních dat pomocí aditivních operací. Tato výhoda je patrná ve vztahu k víceparametrovým modelům IRT, protože při použití adekvátního estimátoru např. joint-maximum likelihood (JMLE), se kterým pracuje mnou používaný program Winsteps (Linacre, 2016a) neklade Raschův model žádné nároky na distribuci latentního rysu v populaci, a není tak nutné specifikovat její parametry (JMLE je dnes z různých důvodů kritizován a preferován je CML estimátor; pro přehled různých způsobů odhadu viz např. Mair a Hatzinger, 2007). Zároveň je model plně identifikovaný, tedy každé jedné úrovni latentního rysu odpovídá právě jeden očekávaný hrubý skór a jediná hodnota informační funkce testu (viz níže). Veškeré 45 Na tomto místě je nutné zmínit, že moderní klasická testová teorie využívající tetrachorické/polychorické korelace a faktorovou analýzu je matematicky ekvivalentní multidimenzionálnímu IRT modelu (např. Maydeu-Olivares, Cai a Hernández, 2011; Bechger, 2003; a další) bylo by tedy chybou považovat oba přístupy za konceptuálně zcela oddělené. Zároveň není zcela pravda, že IRT modeluje odpovědi na položku tomu se spíše věnují přístupy označované jako IRT modelování (např. Raise a Revicki, 2015) či modernější bayesovské kognitivní modelování (např. Lee a Wagenmakers, 2013) a jiné. V případě klasického IRT jde o výrazné zjednodušení.

Měření matematických schopností 57 informace nutné k vyhodnocení testu jsou tak obsaženy přímo v hrubém, pozorovaném skóru a není nutné mít k dispozici položková data. Této vlastnosti se běžně využívá v testech vyhodnocovaných tužka-papír, avšak založených na IRT. Raschův model má samozřejmě též řadu nevýhod oproti víceparametrovým či vícedimenzionálním IRT modelům, zejména striktnější předpoklady: v první řadě je zásadním požadavkem jednodimenzionalita testu či alespoň lokální nezávislost položek, za druhé pak jejich shodné diskriminační schopnosti vůči měřenému rysu. Hlavní rozdíl je nicméně epistemologický: hlavním cílem při použití Raschova modelu je konstrukce fundamentální škály a způsob použití modelu je spíše konfirmační: data musejí odpovídat modelu. V případě klasického IRT modelování jde spíše o explorační přístup, během něhož je konstruován model, který data nejvhodnějším způsobem popíše a to právě na úkor fundamentality měření. Vzhledem k tomu, že v rámci testu TIM pracujeme s parciálně správnými ordinálně řazenými odpověďmi, použili jsme pro většinu analýz Mastersův (1982) parcial-credit model (PCM), definovaný jako: x 2 P{X ni = x; x > 0} = e k=1 [θ n (b i τ ik )] P{X ni = 0} = m i k=1 (t ik ) = 0 ; m e j i [θ n (b i τ ik )] k=1 j=1 1 1+ e j ; m i [θ n (b i τ ik )] k=1 j=1 ; pro respondenta n a položku i s x {0, 1,, m i } možnými správnými odpověďmi (tedy od 0 do m i). Oproti předchozímu případu v rovnicích přibyla proměnná τ ik označovaná jako práh, která definuje vzdálenosti jednotlivých možných odpovědí na položku i. V tomto případě jde o tzv. Rasch-Andrichovy prahy, použité pro konstrukci charakteristické křivky položky: práh τ ik udává bod na škále latentního rysu, kde jsou pravděpodobnosti pozorování sousedních kategorií stejně velké (po odhlédnutí od ostatních kategorií), tedy P{X ni = k} = P{X ni = k 1}. Těchto prahů je tedy o jedna méně než možných odpovědí na danou položku; z výpočetních důvodů pak bývá arbitrárně definovaná hodnota prvního prahu (zpravidla 0), nebo naopak častěji jejich součet (rovněž 0) v tomto druhém případě lze celkovou obtížnost položky chápat jako průměrnou obtížnost jednotlivých možných složek/částí/odpovědí dané položky. V případě, že by šlo o rating-scale model (RSM; Andrich, 1978), byla by struktura prahů shodná pro všechny položky (τ ik = τ k ), a tedy i maximální počet různých odpovědí by byl nutně napříč položkami stejný (m i = m). Vzhledem k nižšímu počtu parametrů v případě RSM se proto někdy používá kombinovaný model, ve kterém je struktura prahů fixována shodným způsobem pro různě zvolené skupiny položek, mezi nimi navzájem se však liší. Pro praktické rozhodování o vlastnostech položek jsou nicméně užitečnější prahy definované odlišným způsobem. Může jít např. o Raschův půlbodový práh, definovaný jako bod na škále latentního rysu, kde je očekávaný pravý skór respondenta v dané položce roven k + 0,5, tedy E(X ni ) = k + 0,5, pokud θ n = b i τ ik. Např. mezi odpověďmi 2 a 3 v položce s možnostmi 0 7 očekáváme pro respondenta s hodnotou latentního rysu shodnou s hodnotou prahu (tedy θ n = b i τ i3 ) pozorovaný hrubý skór 2,5. Jiným příkladem pak může být Raschův-Thurstonův práh, který je definován jako místo na škále latentního rysu, kde pozorujeme nižší odpovědi se

58 Hynek Cígler stejnou pravděpodobností jako vyšší, tedy P{X ni k 1} = P{X ni k}, pokud θ n = b i τ ik. (odvozeno podle Linacre, 2016b) 3.1 Informační funkce položky a testu Jednou z výhod teorie odpovědi na položku je způsob, jakým uvažuje o chybě měření. V rámci běžného přístupu CTT je v prvním kroku odhadnuta reliabilita (např. prostřednictvím Cronbachovy alfy), a následně je na jejím základě odhadnuta chyba měření společná všem respondentům a všem úrovním hrubého skóru (způsobu odhadu chyby měření v CTT jsem se věnoval jinde, viz Cígler a Šmíra, 2015). CTT totiž pracuje pouze s korelačními či variančně-kovariančními maticemi položek (a případně jejich průměry), informace o respondentech nejsou součástí modelu. Nevýhodou tohoto postupu je fakt, že reliabilita je přímo funkcí výzkumného vzorku ze své definice, protože jde o podíl rozptylů pravých a pozorovaných skórů, a pracuje proto vždy s pozorovaným rozptylem daného vzorku: 3 r xx = σ τ 2 σ2 = 1 σ 2 e x σ x 2. Zároveň díky tomu, že IRT není založena na lineární regresi, chyba měření není uvažována jako konstantní napříč kontinuem odhadovaných skórů jakkoliv existují nepříliš používané výjimky v podobě binomického modelu CTT (viz např. Lord a Novick, 1968; Feldt, 1984), případně jiných dalších konceptů. Teorie odpovědi na položku definuje množství informace I v položce i jako nepřítomnost chybového rozptylu σ e 2 při určité hodnotě latentního rysu θ: 4 I i (θ) = 1 σ e 2 (θ). V případě dichotomického modelu IRT s nesprávnou a správnou odpovědí se informační funkce položky řídí vztahem (podle Magise, 2013): 5 I i (θ) = [P i (θ)] 2 P i (θ)q i (θ), kde P i (θ) je pravděpodobnost správné, Q i (θ) = 1 P i (θ) nesprávné odpovědi a P i (θ) je její první derivace. Tato rovnice je založena na faktu, že informace je tím vyšší, čím menší je chybový rozptyl binární odpovědi (jmenovatel) a zároveň čím strmější je křivka (derivace je rovna směrnici tečny charakteristické křivky položky, druhá mocnina je pak z důvodu rozptylové škály ), a tedy těsnější vztah pozorované odpovědi a latentního rysu (čitatel). Pro jednoparametrový Raschův model je poměrně snadné vyřešit derivaci v čitateli: informační funkce položky se pak po vykrácení rovná rozptylu binomické pravděpodobnostní funkce pro danou úroveň latentního rysu: 6 I i (θ) = P i (θ)q i (θ) = P i (θ)[1 P i (θ)].

Měření matematických schopností 59 Protože je definice informační funkce založena na rozptylu, lze v případě binárního i polytomického (např. partial-credit modelu) považovat informační funkci položky i za součet informačních funkcí jejích jednotlivých možností odpovědí j: m 7 I i (θ) = i j=1 I ij (θ), přičemž ty se na celkové informační funkci podílejí stejnou měrou, s jakou pravděpodobností nastanou při dané úrovni rysu. Informační funkci položky I i (θ) lze tedy rozparcelovat na jednotlivé informační funkce kategorií I ij (θ) podle pravděpodobnosti jejich pozorování P ij (θ): 8 I ij (θ) = P ij (θ)i i (θ). Informační funkci celé položky podle úrovně daného rysu I i (θ) lze pak odhadnout přímo jako: m 9 I i (θ) = {[x ij x i(θ)] 2 i j=0 P ij (θ)}, kde m i x i(θ) = j=0 [x ij P ij (θ)]. V této rovnici je P ij (θ) pravděpodobnost výskytu dané kategorie j položky i a ne žádné jiné 46 a x ij {0, 1,, m i } je tzv. skórovací funkce, která přiřazuje dané odpovědi bodovou hodnotu (od nuly do počtu kategorií, tedy m i). Závěrem pak x i(θ) je tzv. celková skórovací funkce nebo též pravý skór položky, tedy očekávaný hrubý skór na dané položce při určité úrovni latentního rysu. Odvození rovnic 8 9 viz Muraki (1993). Stejně jako celková informační funkce položky je součtem informačních funkcí jednotlivých odpověďových kategorií, tak i informační funkce celého testu je součtem informačních funkcí n položek, tedy: n 10 I(θ) = i=1 I i (θ). Pomocí vzorce 4 lze z informační funkce zpětně získat odhad standardní chyby měření daného respondenta pomocí libovolného modelu IRT 47 jako 11 σ e (θ) = 1 I(θ). Standardní chyba měření je tedy funkcí samotného konkrétního aktu měření a je tedy specifická pro interakce daného respondenta s daným setem položek (měřicím nástrojem). To odpovídá reliabilitě mnohem lépe než předpoklad uniformní chyby měření pro všechny respondenty v CTT. 3.2 Odhad reliability v rámci IRT Andrich (1982) představil jednoduchý způsob, jakým lze odhadnout reliabilitu celého testu konstruovaného pomocí IRT. Protože je reliabilita definovaná jako podíl rozptylů (vzorec 3), chyby měření jednotlivých respondentů jsou na sobě nezávislé a součet těchto nekorelovaných 46 Lze snadno odvodit ze vzorce 2 na základě P{X ni = x; x > 0} P{X ni = x 1}; nerozepisuji. 47 Uvedená rovnice platí i pro vícedimenzionální IRT modely, pokud za I(θ) dosadíme celkovou informační funkci položky. Ta je stejně jako v předchozích případech daná součtem informací v jednotlivých dimenzích; tentokrát však jde z různých důvodů o vektorový součet. Blíže viz např. Reckase (2009).

60 Hynek Cígler chybových rozložení je roven součtu jejich rozptylů, lze pro výpočet reliability použít průměrný chybový rozptyl všech respondentů ve výzkumném vzorku. Andrich (1982) dále podrobně popsal vztah tradiční reliability ve smyslu vnitřní konzistence (konkrétně KR-20) a tohoto způsobu odhadu. Reliabilita celého testu se tedy rovná: 12 r xx = 1 RMSE2 σ 2, E(θ) 2 kde σ E(θ) je rozptyl pozorovaných odhadů latentních rysů a RMSE je tzv. root mean-square error, kořen průměrného chybového rozptylu n respondentů: n 13 RMSE = i=1 σ 2 e (θ i ). Protože jde v tomto případě o průměrnou modelovou chybu (a tedy i modelovou reliabilitu), doporučují někteří autoři (Linacre, 2016b; Bond a Fox, 2009) používat chybu měření korigovanou proti neshodě modelu s daty pomocí: n 14 RMSE korig. = i=1 σ 2 e (θ i ) max(1; u i ), kde u i je infit mean-square, tedy odchylka dané měřené osoby od modelu (vážená podle vhodnosti položek, viz níže); díky funkci max se korekce uplatňuje jen v případě, kdy je odchylka od modelu větší než očekávaná. Nebyl jsem však schopen odhalit postup odvození tohoto výpočtu a osobně se domnívám, že jde jen o jakousi aproximaci bez reálného statistického podložení, tedy něco, co Daniel (1999) označuje jako kvazireliabilitu (viz níže). Výhodou tohoto přístupu k reliabilitě je fakt, že je shodným způsobem definována jak pro osoby, tak i pro položky. V případě položek je označována někdy jako položková reliabilita a určuje teoretickou korelaci odhadů obtížností položek získaných ve dvou stejně velkých vzorcích vybraných z téže populace. Podrobněji viz např. Bond a Fox (2007; s. 41, 284 285). Zajímavý přístup k reliabilitě v rámci IRT nabízí Daniel (1999). Ten vychází z úvahy, že stejně, jako máme lokální chybu měření pro danou úroveň latentního rysu, lze zvažovat i lokální úroveň reliability: 15 r xx (θ M) = 1 RMSE2 (θ c 1 ;c 2 ) σ 2. E(θ) Daniel (1999) tedy pracuje s celkovým rozptylem všech osob v daném výzkumném souboru, avšak pro výpočet průměrného chybového rozptylu bere pouze osoby, jejichž odhad latentního rysu splňuje kritérium M; například se nachází v určitém rozmezí, jde o respondenty se zvolenou diagnózou atp. Reliabilita v Danielově smyslu sice nereprezentuje skutečný podíl rozptylů (Daniel, 1999, ji sám označuje jako kvazireliabilitu ), po praktické stránce je však extrémně užitečná pro dedikaci daného testu danému typu respondentů.

Měření matematických schopností 61 Lze snadno odvodit, že vážený průměr lokálních reliabilit pro všechny dílčí nepřekrývající se subvzorky je roven reliabilitě celkového souboru (uvádím příklad pro dva vzorky o počtu respondentů a a b s lokálními reliabilitami r aa a r bb ) 48 : 16 r xx = ar aa +br bb. a+b Důkaz: r xx = ar aa +br bb a+b 2 = aσ2+e a σ 2 a+b +bσ2 +e 2 b σ 2 2 a+beb 2 = 1 (a+b)ae ae 2 a+beb 2 a+b a+b = 1. σ 2 (a+b) σ 2 = σ2 (a+b) (ae a 2 +be b 2 ) σ 2 (a+b) = 1 ae a 2 +be b 2 σ 2 (a+b) = Protože celkový součet chybových rozptylů se rovná součtu chybových rozptylů v jednotlivých subvzorcích, RMSE 2 (a + b) = ae a 2 + be b 2, lze dosadit a zkrátit: 1 ae a 2 +beb 2 a+b σ 2 = 1 RMSE 2 (a+b) a+b σ 2 = 1 RMSE2 σ 2 = r xx. Podobným způsobem lze snadno dokázat, že reliabilita celého vzorku se rovná váženému průměru všech potenciálních lokálních reliabilit (provedení nechávám z důvodu úspory místa na čtenáři). V tomto významu tedy lokální reliabilita nabývá smysl jako parciální podíl rozptylů očištěný o chybový rozptyl zbylé části vzorku; opět pro dva subvzorky: 17 r xx = ar aa +br bb a+b 18 r aa = r xx (a+b) br bb a = r xx + b RMSE2 (1 a σ 2 ; = r xx + r xx b a r bb b a = r xx + b a (r xx r bb ) = 1 + σ 2 b σ 2) = r xx + b a (σ b 2 RMSE 2 ). σ 2 Je patrné, že toto očištění je tím silnější a rozdíl celkové a lokální reliability tím vyšší, čím menší podíl celkového vzorku tvoří subvzorek, pro nějž je lokální reliabilita odhadována (koeficient b a ), a též čím větší je rozdíl reliability zbylých subvzorků a celkové reliability (člen r xx r bb ), resp. v další úpravě čím větší je rozdíl mezi chybovými rozptyly celého testu a zbylé části (σ b 2 RMSEA 2 ). Obdobný důkaz lze opět provést pro n subvzorků. Z tohoto pohledu má tedy reliabilita dle Daniela (1999) i svůj statistický význam, ačkoliv ji skutečně nelze interpretovat jako teoretickou korelaci dvou paralelních forem testu. Lze ji však chápat buď (1.) ve shodě s autorem tak, že např. lokální reliabilita 0,8 indikuje, že test na dané úrovni latentního skóru funguje, jako by jeho celková reliabilita byla 0,8 (Daniel, 1999, s. 54), anebo (2.) na základě její odlišnosti od reliability celého vzorku. Nejde však o reliabilitu na základě klasické definice paralelních testů. 48 Z důvodu zjednodušení notace uvádím RMSE skupiny (např. a) jen jako e a 2 a celkový pozorovaný rozptyl jako σ 2.

62 Hynek Cígler 3.3 Shoda dat s modelem 3.3.1 Na úrovni modelu Předpokladem Raschova modelu je jednodimenzionalita a shodné diskriminační parametry všech položek. Nejsou-li tyto předpoklady dodrženy, vedou v každém případě k nižší shodě dat s modelem. Toto ověření by mělo být podle některých autorů samozřejmou součástí práce s daty (De Ayala, 2009), zatímco jiní (Bond a Foxová, 2009; Linacre, 2016b) postupují pragmaticky a nepovažují je za natolik důležité. Běžným ověřením shody Raschova modelu s daty je test dobré shody s df = N i N p NA N c j=1 [N i + N p 1 + (N j 2) ] stupni volnosti, kde první část udává celkový počet parametrů, tedy interakcí N i položek s N p respondenty bez extrémních odpovědí a po odečtení chybějících dat NA, a druhá část výpočtu udává počet tzv. volných, tedy odhadovaných parametrů modelu: v něm N j udává počet možných odpověďových kategorií položky pro celkem N c položek s odlišnou strukturou prahů; pro RSM model N c = N i, pro PCM model N c = 1. Dále je patrné, že pro binární N c j=1 model je sumační člen rovnice ( (N j 2) ) roven nule, protože všechny položky mají vždy právě dvě kategorie (N j = 2). (Podle Linacre, 2016b) Linacre (2016a) používá alternativní, aproximativní odhad počtu stupňů volnosti založený na bootstrapingu. Počet stupňů volnosti je odhadnut jako průměrná hodnota log-likelihood chíkvadrátu napříč např. 100 simulací na základě pozorovaných dat. Tento postup nicméně nebyl publikovaný v recenzovaném časopise a je nutné jej brát s rezervou; na základě vlastních zkušeností takto simulovaný test dobré shody nebývá prakticky nikdy signifikantní, vyjma datasetů s fixovanými parametry položek či respondentů (např. při vyvažování paralelních forem). Protože RSM a PCM modely jsou tzv. uhnízděné (vnořené), lze prostřednictvím testu dobré shody přímo testovat zhoršení či zlepšení shody s daty při volbě jednoho či druhého modelu. Alternativně lze využít i zažitá kritéria jako AIC či BIC (Wit, van den Heuvel a Romeijn, 2012). Maydeu-Olivares, Cai a Hernández (2011) navrhují rovněž použití RMSEA (root mean-square error of approximation) ukazatele známého spíše z faktorových analýz a strukturních modelů. V tomto případě není vhodné použít log-likelihood chí-kvadrát zdrojové datové matice, ale spíše reziduální kovarianční matice podobně, jako při běžné faktorové analýze. Maydeu-Olivares a kol. (2011) ukazují, že výsledné indexy nabývají podobných hodnot a jsou obdobně důvěryhodné. Tennant a Pallant (2012) sice ukazují možnost využití RMSEA s použitím hodnot chí-kvadrátu zdrojové matice, podle mého názoru a ve shodě s Maydeu-Olivares a kol. (2011) však výsledek není interpretovatelný stejně, jako v případě CFA či SEM modelů. Posledním užitečným způsobem prozkoumání splnění předpokladů Raschova modelu, podobným výše uvedenému odhadu RMSEA na základě matice reziduálních korelací, je analýza hlavních komponent (PCA) reziduální matice. Tento postup podporuje program Winsteps, a slouží přímo k ověření lokální nezávislosti položek. Jsou-li data jednodimenzionální, veškerý nenáhodný sdílený rozptyl vyčerpá právě Raschův model a v matici reziduálních kovariancí již žádný systematický rozptyl není patrný. Pokud však PCA analýza naznačí existenci dalších faktorů v reziduální matici, položky byly lokálně závislé. Osobně se domnívám, že by bylo velmi užitečné

Měření matematických schopností 63 doplnit analýzu reziduální matice o některý z exaktních postupů odhadu počtu faktorů, které zohledňují právě náhodný rozptyl (např. paralelní analýza). Těm se věnuji v kap. 6.1.2.1. 3.3.2 Na úrovni položek a respondentů Pro ověření shody modelu s daty na úrovni respondentů se používají tzv. ukazatele fitu v případě dichotomického Raschova modelu nejsou žádné rozdíly mezi parametry položek a osob, a tedy jsou oba ukazatele shodné jak pro osoby, tak pro položky. V případě raschovského přístupu jsou používány dva hlavní ukazatele, infit a outfit, vyjádřené v podobě průměru čtverců ( meansquare ) a z-statistiky. Následující výpočet je předveden pro dichotomický model; pro polytomický model viz např. Wright a Masters (1982; s. 100). Outfit je ukazatel fitu, který není žádným způsobem vážený, a je tedy senzitivní vůči neshodě outlierů s daty. Obecně je pro položku i definovaný outfit u i jako: N p=1 N 19 u i = z pi, 2 kde z pi je standardizovaná odchylka položky i pro respondenta p od modelu a N je počet respondentů (výpočet outfitu pro respondenty je zcela analogický). V případě dichotomického modelu je standardizované reziduum rovno: 20 z pi = x pi P pi P pi (1 P pi ), kde x pi je pozorovaný hrubý skór (0 nebo 1) respondenta p na položku i a P pi je očekávaný skór na základě Raschova modelu. Infit je definovaný analogicky k outfitu, avšak je vážený podle míry informace položky pro daného respondenta. Je tedy málo ovlivněn outliery, ale je senzitivnější k odchylkám modelu pro respondenty a položky s obdobnými úrovněmi latentního rysu, resp. obtížnosti. Je definován jako: 21 u i = z pi N 2 p=1 Ipi N = N z 2 p=1 pi [Ppi (1 P pi )] p=1 I pi N p=1 P pi (1 P pi ), kde I pi = P pi (1 P pi ) je informační funkce položky (druhá úprava platí pouze pro dichotomický model). Výše uvedené hodnoty jsou založené na podílu chí-statistiky a příslušného počtu stupňů volnosti. Její interpretace je nicméně závislá právě na počtu stupňů volnosti, tedy počtu respondentů či položek. Proto se občas uvádí její z-standardizovaná hodnota (v raschovské literatuře někdy uváděná jako t-hodnota, viz Linacre, 2016b). Tuto standardizaci je možné provést buď analyticky (viz např. Schultz, 2002), nebo pomocí p-hodnoty obou rozdělení. Výhodou z-standardizovaného infitu a outfitu je vlastnost normálního rozdělení, totiž že hodnoty větší než cca 2 (resp. menší než 2) na první pohled indikují, že na hladině pravděpodobnosti p < 0,05 položka nevyhovuje Raschovu modelu. Bohužel, při tomto druhu analýzy nevíme, zda za neshodou stojí nahodilé fluktuace na úrovni měřeného rysu, nebo předpoklad shodného diskriminačního parametru napříč položkami.

64 Hynek Cígler 3.4 DIF analýza Diferenciální fungování položek, tzv. DIF (z angl. differential item functioning ) je jev, kdy jedna položka vykazuje odlišné parametry pro různé subvzorky respondentů. Tento jev úzce souvisí s tzv. invariancí, kterou běžně známe ze strukturního modelu. Shodně fungující položky jsou základním předpokladem férového testu, který umožňuje srovnávání různých skupin respondentů navzájem na škále stejného latentního rysu, a jsou jedním z důkazů konstruktové validity. Identifikací DIF se zabývá tzv. DIF analýza. Dva nejčastěji uváděné druhy DIF jsou tzv. uniformní, kdy je mezi skupinami rozdíl pouze v parametru obtížnosti položky, a non-uniformní, při kterém se skupiny liší v diskriminačním parametru položky situaci ilustruje obr. 7. Ačkoliv Raschův model předpokládá shodnou diskriminační účinnost všech položek, je přesto vhodné ověřovat přítomnost non-uniformního DIF z důvodu zajištění ekvivalence položky napříč všemi vzorky. OBR. 7 Ilustrace různých typů diferenciálního fungování položky. Diskriminační parametr červené položky je stále a = 1, parametr obtížnosti b = 0. Parametr modré položky variuje; vlevo a = 1, b = 1; uprostřed a = 2, b = 0; vpravo a = 1, b = 1. Existuje větší množství postupů pro identifikaci DIF, zejména logisticky-regresní přístup (např. Swaminathan a Rogers, 1990; Magis a kol., 2011), přičemž kvalitní přehled poskytuje zejm. Zumbo (1999; 2007). Ačkoliv i v rámci Raschova přístupu existují pokročilejší přístupy, založené rovněž zpravidla na generalizovaném lineárním mixed modelu (viz např. Schauberger a Tutz, 2016), používám ve svých analýzách dvě tradiční statistiky doplněné o vizuální inspekci charakteristických křivek položek s pozorovanými pravděpodobnostmi pro různé skupiny respondentů a některé další odvozené statistiky. Jejich výhodou je nízká výpočetní náročnost a jsou navíc poskytovány přímo i programem Winsteps. Běžnou statistikou původně vyvinutou pro účely CTT, která se nicméně používá i v IRT, je na testu dobré shody založený Mantel-Haenszelův test (1959) použitelný pro párové srovnání. Respondenti jsou rozděleni do několika (typicky pěti) skupin podle úrovně výkonu, pro každou je sestavena 2 2 kontingenční tabulka správných vs. nesprávných odpovědí, a následně jsou sledovány rozdíly mezi oběma skupinami. Tento test je citlivý jak na uniformní, tak i neuniformní DIF.

Měření matematických schopností 65 Druhou statistikou, užitečnou rovněž pro párové srovnání, je prosté porovnání lokálních odhadů obtížnosti pomocí t-testu poté, co jsou latentní odhady obou skupin standardizovány na stejnou škálu. Testovou statistikou je prostý standardizovaný rozdíl obtížností položky ve vzorku A a B: 22 t A B = b A b B s t-rozložením o SE A 2 +SE B 2 23 df = (SE 1 2 +SE 2 2 ) 2 ( SE 1 4 N1 1 + SE 2 4 N2 1 ), stupních volnosti (Welch-Satterthwaitova úprava t-testu pro nestejné rozptyly), kde b A a b b jsou odhady obtížností položek v obou vzorcích a SE A a SE B příslušné chyby odhadu (Linacre, 2016b). V případě více než dvou skupin respondentů lze tímto způsobem srovnávat buď lokální odhady napříč všemi skupinami, což však ústí ve velké množství testů; alternativně lze srovnávat odhad v rámci dané skupiny s průměrným odhadem napříč celým vzorkem (Linacre, 2016b). Test je vhodný pro identifikaci uniformního DIF. Pokud je však vzorek rozdělen do několika kategorií (zpravidla tří) podle úrovně latentního rysu (typicky podle tercilů) pro obě (všechny) srovnávané skupiny a následně je analýza provedena popsaným způsobem, lze identifikovat i neuniformní DIF konkrétně je srovnáván nejlepší tercil jedné skupiny s nejlepším tercilem skupiny druhé; a totéž pro nejhorší tercil. V případě, že je provedeno rozdělení vzorku pouze podle výkonu, ale nikoliv současně podle různých skupin respondentů, vede analýza k závěru o vhodnosti předpokladu Raschova modelu se shodným diskriminančním parametrem pro danou položku. V případě více respondentů nás nicméně většinou nezajímá, zda se liší některé páry skupin či některá vybraná skupina od průměru, ale chceme zjistit, zda celkové rozdíly mezi skupinami v rámci vybrané položky odpovídají náhodě. V tomto případě lze využít součet druhých mocnin normalizovaných t-statistik rozdílů všech skupin od průměru (převedených na z-skóry), které mají chí-rozložení s df = n 1, kde n je počet srovnávaných skupin (Linacre, 2016b). Obdobným způsobem občas osobně používám součet těchto výsledných chí-statistik napříč všemi položkami s df = m(n 1), kde m je navíc počet položek. Jde o test nulové hypotézy, že v datech neexistují žádné DIF rozdíly zvoleného typu. Analogicky je občas uvažován podíl položek vykazujících DIF na zvolené hladině pravděpodobnosti z celkového počtu. Například na hladině p < 0,05 by nemělo vykazovat DIF o mnoho více než 5 % položek. Za vyjádření velikosti efektu diferenciálního fungování položek občas používám korelaci lokálních odhadů obtížností ve dvou vzorcích. Metoda je ve shodě s postupem využívajícím Spearmanovu korelaci ULI indexů 49 či přímo obtížností položek v rámci klasické testové teorie, který popisují např. Furr a Bacharach (2014; s. 311) a podobá se v tomto ohledu Jensenově metodě korelovaných vektorů (např. Jensen, 1980). Protože je nicméně IRT odhad obtížností na fundamentální škále, používám vždy parametrickou Pearsonovu korelaci (heteroskedascidita 49 ULI index tzv. upper-lower index definovaný jako rozdíl průměrného výkonu extrémních skupin respondentů v položce (tedy popularit položky pro tyto skupiny). Běžně se používá lepší a horní polovina, třetiny či čtvrtiny výzkumného vzorku.

66 Hynek Cígler v důsledu různých chyb odhadu obtížnosti mezi položkami by neměla odhad korelace ovlivnit přespříliš). 3.5 Skóry založené na Raschově modelu Raschův model ve své běžné variantě představené v úvodu této kapitoly pracuje s diskriminačním parametrem a = 1, a výsledné skóry jsou tedy na logitové škále (podobně, jako v logistické regresi). Pro snadnější interpretaci je nicméně v některých testech, např. novějších vydáních baterií Woodcock-Johnson, Leiter-3 či Stanford-Binet, zaváděn tzv. W-skór (viz např. Jaffe, 2009; McGrew a Woodcock, 1989). Ten je definován tak, že skór 500 odpovídá věku 10 let a 0 měsíců (v případě věkových norem) nebo začátku pátého ročníku (v případě ročníkových norem). Dítě s W-skórem 500 pak má 50% šanci odpovědět správně na položku s obtížností W = 500 (položky i schopnosti respondentů jsou v rámci IRT na stejné škále). Ovšem dítě s W-skórem 510 má na stejnou položku již 75% šanci odpovědět správně; analogicky dítě se skórem W = 490 má pravděpodobnost správné odpovědi již jen 25 %. Stejný vztah ±10 platí pro všechny úrovně W-škály. W-skór tedy na rozdíl od standardních skórů, které srovnávají respondenta se zbytkem populace udává hodnotu měřené veličiny na fundamentální škále (protože odvozené od pravděpodobnosti), jejíž všechny jednotky jsou od sebe stále stejně vzdálené rozdíl 550 a 560 W-skórů je stejný, jako v případě W-skórů 500 a 510. Z tohoto důvodu je proto výhodné W-skóry používat např. k diagnostice vývoje schopnosti v čase. Například naměřený IQ 100 v osmi letech a IQ 80 ve dvanácti letech pochopitelně neznamená, že se inteligence dítěte snížila dítě je pravděpodobně stále chytřejší než dříve, jen se vyvíjelo pomaleji než obdobně staré děti. Využití kombinace informací ze standardizovaných skórů a W-skórů umožňuje zachycovat tyto nuance. Převod z logitů na W-skóry je možný prostřednictvím běžné lineární trasformace. Protože platí, že pokud θ b i = 10, pak P(x i = 1 θ) = 0,75, lze dosadit do vzorce 1 a doplnit jej navíc o diskriminační parametr a, jehož hodnota je v běžném Raschově modelu fixována na a = 1. Po úpravě tedy: 1 24 0,75 = 1+e a(10) a = ln 3 0,10986. 10 Převod logitů na W skóry se tedy pro danou věkovou skupinu řídí vzorcem: 25 W = 10 (θ θ ) ln 3 10 + 500, kde θ 10 je průměrný logit 10letých dětí a θ původní logitový skór. Je nicméně samozřejmě možné rovnou odhadnout upravený Raschův model s pozměněným diskriminačním parametrem na a = 0,10986 (nebo naopak 1 0,10986 umožňuje, a pak již jen přičíst konstantu. = 9,10239 jednotkami na logit), což například program Winsteps Druhým Raschovským skórem, který používám v některých analýzách, je tzv. relative- -proficiency index, tedy index relativní zběhlosti (RPI). Jde o měřítko běžně používané

Měření matematických schopností 67 v některých testech schopností, zejména ve Woodcock-Johnsonových inteligenčních testech. Je zpravidla udávané v podobě zlomku RPI = P 90, kde P (čitatel) je pravděpodobnost správné odpovědi dítěte na položku, na kterou jeho vrstevníci odpovídají správně s pravděpodobností 90 % (jmenovatel). Tento index je proto použitelný zejména v pásmu podprůměru informace, že dítě odpovídá např. jen s 40% pravděpodobností na otázky, na které jeho vrstevníci odpovídají téměř vždy (v 90 %) správně, je velmi užitečná. Tento index však není vhodný pro diagnostiku nadaných dětí, protože nepopisuje s dostatečnou citlivostí nadprůměrné hodnoty. Navrhuji proto zobecnění indexu jako RPI = P C, kde P je pravděpodobnost správné odpovědi na položky, kterou vrstevníci daného člověka odpovídají s kriteriální správností C. V případě testu TIM jsme potom použili námi definovaný RPI 1 = P 10, určený k vyčíslení nadání. Odvození obecného vzorce pro RPI index s libovolným jmenovatelem (RPI = P C ) vychází z řešení soustavy dvou rovnic: C = P = 1 ; 1+e a(θ b) 1, 1+e a(θ b) se známými parametry: C cílová pravděpodobnost (jmenovatel RPI indexu); a diskriminační (škálovací) parametr použitý u všech položek v Raschově modelu; θ průměr latentních rysů vrstevníků respondenta; θ odhad latentního rysu respondenta, pro nějž RPI index zjišťujeme. Neznámé parametry jsou potom: b obtížnost položky, na níž průměrní respondenti daného věku odpovídají správně s pravděpodobností C; a P čitatel RPI indexu. První rovnici lze upravit jako: b = θ + 1 1 C ln a C a dosadit do rovnice druhé: 26 P = 1, 1+e [ln1 C C a(θ θ )] přičemž notace zůstává stejná. Obecný vzorec RPI indexu s libovolným základem je tedy: 27 RPI = 1 1+e [ln1 C C a(θ θ )] C, kde jsou nicméně C a celý čitatel ve formátu pravděpodobnosti; pro převedení na tradiční formát je nutné celý zlomek rozšířit hodnotou 100. Pro účely testu TIM a jako ilustraci výše uvedeného postupu jsem vytvořil vlastní aplikaci dostupnou na adrese http://fssvm6.fss.muni.cz/tim/, která po zadání jmenovatele RPI indexu, W-skóru a ročníku dítěte vrátí RPI index ve správném formátu. Je nicméně možné zvolit rovněž vlastní průměr, případně i IRT škálu, vstupními daty nemusí být výhradně test TIM. Zdrojový kód je k dispozici na https://github.com/hynekcigler/rpi.

68 Hynek Cígler 4 Studie 1: Vývoj testu TIM psychometrická kazuistika Tato explorační kapitola 50,51,52 se bude věnovat prvnímu, exploračnímu cíli dizertační práce, tj. představit způsob vývoje a standardizace diagnostické metody pro vyhledávání nadaných dětí v matematice. Chci čtenáři poskytnout návod pro pečlivou standardizaci relativně jednoduchého testu schopností. Kapitola je proto pojata spíše jako psychometrická kazuistika : popisuje způsob našeho uvažování a zasazuje jej do širšího psychometrického kontextu. Mým hlavním úkolem během přípravy testu byly psychometrické analýzy; i v této práci se proto primárně zaměřuji na ně a další aspekty tvorby testu zmiňuji jen letmo. Během celé kapitoly se též budu odkazovat na harmonogram vývoje testu, který shrnuje tab. 3: TAB. 3: HARMONOGRAM VÝVOJE TESTU TIM verze časové činnosti testu zařazení předběžné verze pilotní verze standardizační verze květen 2013 září 2013 tvorba položkové banky a předběžných verzí testu sběr dat PZ říjen 2013 kognitivní pilotáž 1 říjen 2013 pilotáž 3 separátních předběžných verzí testu 2 ne listopad 2013 1. pilotní sběr dat 3 ano únor 2014 2. pilotní sběr dat 4 ano květen 2014 3. pilotní sběr dat 5 ne únor 2015 standardizační sběr dat 6 ne poznámka 1. běh vzdělávacího programu pro nadané děti 2. běh vzdělávacího programu pro nadané děti Pozn.: PZ proběhnutí administrovace subtestu Počítání zpaměti (rychlost zpracování). 50 Celá tato kapitola úzce vychází z jiných textů, kterých jsem byl hlavním autorem či spoluautorem: zejm. Psychometrického manuálu a Příručky administrátora testu TIM (Cígler a kol., in press) a souvisejícího článku popisujícího pilotáž (Cígler a kol., in review). V případě veškerých statistických analýz (kromě malé části analýz dat získaných během 2. sběru v tab. 3, které zde však přímo neprezentuji) jsem byl vždy hlavním autorem, v případě teoretických textů jsem byl zpravidla druhým a dalším autorem (z těch však vycházím jen minimálně). Některé mé dřívější texty jsou přímo použity z těchto uvedených zdrojů bez další citace; část analýz je nicméně buď upravena, nebo doplněna zcela nově, nejde tedy o přímé převzetí původního textu. Všichni z autorů souhlasili s využitím textu v mé dizertační práci. 51 Protože je test komerčně vydaný Masarykovou univerzitou, nejsem oprávněn otisknout znění položek v tomto textu. Pracovní sešity však budou dostupné oponentům dizertační práce a budou rovněž k dispozici při její obhajobě. 52 Tvorba testu byla podpořena tříletou sérií projektů specifického výzkumu MU Adaptace a publikace diagnostických nástrojů pro identifikaci nadaných dětí se zaměřením na rodiče a pedagogy (MUNI/A/0991/2013 a MUNI/A/1462/2014).

Měření matematických schopností 69 4.1 Teoretická východiska a tvorba položkové banky Naším 53 cílem v týmu Šárky Portešové, jenž působí jako Centrum rozvoje nadaných dětí na katedře psychologie FSS MU, bylo vytvořit test schopností, který by bylo možné využít pro diagnostiku mimořádného matematického nadání při souběžné administraci komplexního intelektového testu. Cílovou věkovou skupinou byla 3. 5. třída tento věkový rozsah byl zvolen proto, že podle naší úvahy mají třeťáci již dostatek didaktických znalostí na to, aby se nadání mohlo projevit, zároveň je ale vzdělávací systém na prvním stupni dostatečně homogenní na to, aby test nebyl příliš ovlivněn rozdílným učivem. Do budoucna je nicméně plánováno rozšiřování směrem ke starším i mladším dětem. Před zahájením prací jsme stanovili následujících pět zásad, definujících obsahové univerzum testu, a tedy i tvorbu položkové banky: 1. Cílené zaměření na nadané žáky: Tvořili jsme záměrně vysoce náročné položky, které jsou však cíleně určeny žákům 3. 5. ročníků (nechtěli jsme využívat tzv. above-average testování; viz např. Stanley, 1990). 2. Přizpůsobení aktuálnímu vzdělávacímu obsahu: Volili jsme položky, které vyžadují jen ty didaktické znalosti, které jsou dostupné naprosté většině žáků 3. 5. ročníků. Vzhledem k relativní variabilitě v pořadí probírané látky, způsobené individuálním přizpůsobením Rámcových vzdělávacích programů, jsme též vytvořili jedinou verzi společnou všem třem cílovým ročníkům. 3. Soulad s teoretickými východisky: Snažili jsme se, aby se do tvorby položek promítly oba hlavní přístupy zmíněné v kapitole 2.3.2 tedy pojetí předčasné vyspělosti i pojetí specifických schopností. Položky tedy byly cíleně vytvářeny tak, aby se podobaly úkolům určeným pro žáky vyšších ročníků svou obtížností a nároky na matematicko-logický úsudek, ale zároveň aby vyžadovaly minimum konkrétních znalostí (např. terminologie, matematické symboliky, konkrétních algoritmických postupů, číselných oborů atd.), které jsou standardně náplní učiva na 2. stupni ZŠ a výše. Snažili jsme se též promítnout hlavní rysy modelů Krutěckého (1968) či Sheffieldové (2003); položky byly proto voleny tak, aby k jejich řešení byl využíván spíše inteligenční faktor kvantitativní usuzování (QR), nikoliv kvantitativní znalosti (Gq), a řešení úloh nebylo numericky náročné (tedy aby bylo nezávislé na číselné zručnosti, N). Důležité bylo zajištění obsahové validity položek, které bylo garantováno spoluprací s odborným didaktickým týmem (viz níže). 4. Zaměření na proces řešení: Chtěli jsme, aby se při řešení položek testu v co nejvyšší míře projevila tvořivost či kreativita dítěte v Lithnerově smyslu (cit. dle Øysteina, 2011). Naprostá většina položek byla proto volena jako otevřená a podporující volnou tvorbu dětí, uzavřené položky byl voleny jen jako doplňující či jako součásti rozsáhlejších položek. Dítěti byl také poskytnut prostor pro písemný či grafický zápis řešení a jeho dílčích kroků, aby bylo možné zohlednit i částečně správný postup, který nicméně nevedl k očekávanému výsledku v důsledku numerické chyby, neschopnosti provést určitou operaci v posloupnosti několika dílčích kroků apod. 5. Snadnost administrace a vyhodnocení: Cílem testu bylo, aby jeho použití nebylo omezeno jen na psychology, ale mohli jej využívat pro screening i pedagogové. Požadavkem na test proto byla možnost písemné, skupinové administrace (z níž 53 Tato kapitola obsahově vychází z Příručky administrátora (Straka a kol., in press), kde jsem nebyl prvním autorem. Přehled literatury je dílem především Ondřeje Straky; formulace a úprava aktuálního testu je má v některých ohledech byl text výrazně krácen, jinde jsem jej naopak doplnil o některé rozšiřující pasáže.

70 Hynek Cígler vyplynul požadavek existence alespoň dvou paralelních forem testu) v rámci jedné vyučovací hodiny. Během tvorby položkové banky jsme úzce spolupracovali s didaktickým týmem z katedry matematiky Pedagogické fakulty MU ve složení R. Blažková, I. Budínová, H. Durnová a M. Vaňurová, se kterým jsme v roce 2014 realizovali program obohacování učiva pro nadané žáky na základních školách. Členky týmu jsou také autorkami části položek. Ve spolupráci s nimi jsme zvolili osm obsahových faset úloh: 1. číselné obory (číselné řady apod.); 2. logické úlohy; 3. geometrické představy; 4. konstrukční geometrické úlohy; 5. početní geometrické úlohy; 6. kombinatorické úlohy; 7. úlohy z teorie grafů; 8. problémové a aplikační úlohy, které jsme doplnili o samostatný, nezávislý subtest na numerickou zručnost (N): 9. rychlost zpracování. V rámci tohoto obsahového univerza (prvních osm faset) a při vědomí pěti zásad zmíněných výše vznikla banka vágně formulovaných položek, z níž jsme vybrali a vyprecizovali 62 položek pro první pilotáž testu. Zároveň jsme už v tento okamžik předpokládali existenci dvou paralelních forem, proto některé položky existovaly ve více podobných variantách (např. stejný princip, jednou však se sčítáním, podruhé s odčítáním). Protože nebylo z časových důvodů možné administrovat všechny položky stejným dětem a zároveň se výše uvedené fasety obsahově překrývaly, definovali jsme tři zastřešující fasety, mezi něž jsme tyto položky rozdělili s cílem separátní administrace: 1. Aplikační úlohy (27 položek z faset 2, 6 a 8) tyto položky byly formulovány jako problémy z reálného světa. Jejich řešení vyžaduje od dítěte uchopení matematické podstaty zadané situace a následné provedení výpočtu (nebo několika na sebe navazujících výpočtů). 2. Geometrické úlohy (20 položek z faset 3, 4, 5 a 7) tyto položky jsou náročné na prostorovou představivost dítěte a vyžadují od něj provádění různých manipulací či transformací geometrických tvarů ve své mysli. Nejsou však založeny jen na vizuálněprostorových schopnostech (což je v CHC samostatný široký faktor vizuální zpracování, Gv), ale jejich součástí vždy byl i matematický úsudek. 3. Aritmetické úlohy (15 položek z fasety 1) u tohoto typu položek byly matematické problémy prezentovány v čistě formální podobě, tj. bez odkazů na problémy a situace každodenního života. Jejich vyřešení vyžadovalo kromě logické úvahy rovněž elementární znalosti přirozených čísel, číselných řad a rovněž základních operací, které je možné s přirozenými čísly provádět. Z důvodu ověření srozumitelnosti položek proběhla krátká kognitivní pilotáž, během které byly položky administrovány několika dětem s následujícím rozhovorem o tom, zda a jakým způsobem pochopily jednotlivá zadání. Na základě těchto rozhovorů bylo upraveno znění některých položek.

Měření matematických schopností 71 Subtest Rychlost zpracování (faseta 9) byl vyvinut separátně a obsahoval vždy 10 položek pro každý ročník, z nichž několik bylo shodných vždy pro dva ročníky (viz příloha 1). Měli jsme za to, že uvedený postup tedy jasné vymezení konstruktu, definice obsahového univerza, týmová tvorba položek včetně spolupráce s didaktickým týmem a jejich pečlivá pilotáž jsou podkladem pro zajištění dostatečné obsahové validity budoucího testu. Na základě studia teorie jsme přesvědčeni, že test by měl měřit rys či skupinu rysů, souhrnně označovaných jako kognitivní složka matematického nadání. 4.2 Metoda 4.2.1 Výzkumný vzorek a postup sběru dat Ve všech případech byl sběr dat anonymní. Dětem byl přidělen číselný kód podle třídního výkazu či třídní knihy, který sloužil zejména v pilotní studii k párování záznamů při retestu. Pod vlastním jménem vystupovaly pouze děti, zapojené do rozvojového projektu, i jim však byl přidělen číselný kód. Konkrétní forma testu byla během pilotáže administrována vždy náhodně, dětem s lichým pořadovým číslem forma A, sudým forma B; při retestu pak děti dostaly vždy druhou formu, než kterou absolvovaly poprvé. Během pilotáže předběžných verzí celá třída dostala vždy stejnou verzi z důvodu snížení administrativní zátěže. Sběr dat probíhal při všech skupinových administracích zhruba podobným způsobem. Na začátku hodiny se jeden až dva přítomní výzkumníci představili, popsali účel testu a zmínili dobrovolnost celého testování, možnost kdykoliv odstoupit a též fakt, že na základě výsledků v testu nebudou děti hodnoceny. V případě prvních dvou pilotních sběrů (3 4 v tab. 3) následně přítomný učitel (ve výjimečných případech výzkumník) administroval pětiminutovku (byla-li součástí daného sběru dat), tedy subtest počítání zpaměti ( rychlost zpracování ). Následovalo rozdání a administrace TIMu. Během pilotáže děti mohly pracovat i přes přestávku; během standardizace nikoliv. V rámci standardizace rovněž nebyl u části administrací přítomen žádný výzkumník, v takových případech sdělil všechny důležité okolnosti testování přímo vyučující na základě informačního letáku, který mu byl předem doručen. 4.2.1.1 Pilotáž předběžných verzí Všechny tři subtesty, jejichž vývoj jsem popsal výše, byly separátně administrovány třem rozdílným, příležitostně vybraným třídám 4. 5. ročníku (s celkem n 1 = 82, n 2 = 68 a n 3 = 74 žáky) během října 2013 (viz tab. 3). Na základě položkových analýz v rámci paradigmatu klasické testové teorie i Raschova modelu byly odstraněny nediferencující položky a odhadnuty obtížnosti položek. Všechny tři verze testu se na základě exploračních faktorových analýz a po odstranění nejhůře diferencujících položek zdály být přiměřeně jednodimenzionální (jeden výrazně dominantní faktor) a uspokojivě reliabilní (standardizovaná Cronbachova alfa napříč oběma ročníky při předpokladu jednodimenzionality α 1 = 0,82, α 2 = 0,85 a α 3 = 0,80). Na základě těchto údajů byly položky rozděleny do dvou paralelních forem podle svého obsahu (aby byla zachována obdobná obsahová validita obou forem) a tak, aby položky napříč formami

72 Hynek Cígler měly zhruba stejné rozdělení obtížnosti. Dále byly vybrány jen nejlépe diskriminující položky. Vzhledem k velkému množství analýz a kolektivnímu způsobu práce nelze tento proces výběru položek zcela přesně popsat šlo o živelnou formu vývoje, která by spíše odpovídala kvalitativní, nikoliv kvantitativní práci. Obě formy testu měly celkem 11 společných kotevních položek určených k vyvážení odhadů latentních rysů. Každá forma obsahovala 33 úloh v 27 separátně skórovaných položkách (z důvodu pozorované lokální závislosti byly před následnými položkovými analýzami některé položky sečteny). Je nutné podotknout, že ke sloučení části úloh do jediné položky došlo až na základě analýzy z pilotáže. 4.2.1.2 Vlastní pilotáž TIMu Pilotní vzorek sestával z celkem 524 žáků 3. 5. třídy, kterým byla pilotní verze testu administrována ve třech fázích ve zhruba dvou až tříměsíčních intervalech mezi listopadem 2013 květnem 2014 (viz tab. 3). První fáze se zúčastnilo 463 dětí, z toho 60 mimořádně nadaných. Druhé fáze se zúčastnilo 325 dětí, z toho 45 mimořádně nadaných. Celkem 295 dětí se zúčastnilo první i druhé fáze sběru dat (mezi nimi všichni nadaní z druhé fáze). Ve třetí fázi se zapojilo 31 žáků, z toho 8 mimořádně nadaných tato vlna sběru dat byla zařazena z důvodu posílení vzorku o nejšikovnější děti. Výběr respondentů nebyl náhodný, do výzkumu byly zařazeny nadané a šikovné děti zapojené do projektu zaměřeného na rozvoj nadaných dětí v JMK 54, jejich spolužáci a děti z dalších tříd na zapojených školách. Učitelé označili děti s dyslexií (n = 15), dysgrafií (n = 4) a s dyskalkulií (n = 2); některé děti byly označeny jako vykazující SPU či jejich kombinaci, avšak bez další specifikace (n = 39). Z toho n = 7 dětí mělo ADHD, žádná z diagnóz byla uvedena u 457 žáků. Známky z českého jazyka byly zaznamenány u 444 žáků (84 %), z matematiky u 453 (86 %), podíl chybějících dat se pohyboval podle předmětu a ročníku mezi 6 24 %. Podrobný popis způsobu výběru vzorku viz Cígler a kol. (in review). Na základě této pilotní studie byly obě formy testu zkráceny, položky byly seřazeny podle odhadů jejich obtížnosti (nikoliv zcela důležitou roli hrála i typografická stránka věci, tedy aby položky vedle sebe dobře vypadaly a aby obě formy testu působily vizuálně odlišným dojmem, tj. aby společné kotevní položky nebyly umístěny na stránce na podobných místech) a na tomto základě byla vytvořena standardizační verze testu. Během její konstrukce nás překvapila jednodimenzionalita testu k ní se vyjádřím později. 4.2.1.3 Standardizace TIMu Žáci ze standardizačního souboru (N = 797) byli nahodile vybráni začátkem druhého pololetí školního roku 2014/2015 ze škol v Ústeckém (n = 691), Jihomoravském (n = 92) a Středočeském kraji (n = 14 škola ležela na hranici mezi Ústeckým a Středočeským krajem). V tab. 4 je k dispozici rozložení výzkumného vzorku podle pohlaví, třídy, velikosti sídla a kraje. 54 Projekt byl spolufinancován Evropským sociálním fondem a státním rozpočtem ČR v rámci OP VK. Kód projektu CZ.1.07/1.2.17/02.0040.

Měření matematických schopností 73 TAB. 4: POPIS STANDARDIZAČNÍHO VZORKU kraj počet obyvatel v obci počet škol ve vzorku ročník 3 (n = 243) 4 (n = 276) 5 (n = 278) chlapců dívek NA chlapců dívek NA chlapců dívek celkem Ústecký více než 10 000 1 21 16-31 23-20 23 134 Ústecký 5 10 000 3 44 46 1 44 52 1 45 47 280 Ústecký 1 5 000 2 16 24-20 20-15 16 111 Ústecký méně než 1 000 4 27 23-30 34-29 23 166 Středočeský 1 5 000 1 1 3-5 0-0 5 14 Jihomoravský Brno (400 000) 1 0 0-0 0-21 20 41 Jihomoravský 1 5 000 1 9 12-9 7-10 4 51 celkem 13 118 124 1 139 136 1 140 138 797 Pozn.: NA neuvedeno pohlaví. Díky zkušenostem z pilotáže jsme vylepšili záznamové listy pro učitele (viz přílohu 2) a získali tak podrobnou zpětnou vazbu o složení vzorku. Počty žáků s SPU a jinými obtížemi obsahuje tab. 5. Učitelé často označovali souběžně dyslexii a dysortografii (r = 0,69) 55, dysortografii a grafomotorické potíže (r = 0,48), dyslexii a grafomotorické potíže (r = 0,35), dysgrafii a dysortografii (r = 0,31). Ostatní korelace byly nižší než 0,21. Dále může působit poněkud překvapivě, že ze 797 vyšetřených dětí žádné nebylo označené jako mimořádně nadané. Nicméně podle analýzy Národního ústavu pro vzdělávání (2013) bylo v Ústeckém kraji pedagogicko-psychologickými poradnami ve školním roce 2011/2012 evidováno pouze 25 mimořádně nadaných dětí na prvním stupni ZŠ z celkového počtu 48 562 dětí ve věku 6 11 let (ČSÚ, 2013), přičemž krajští koordinátoři péče o nadané evidovali jen 23 nadaných (NÚV, 2013), ve Středočeském kraji 44 nadaných žáků ze 75 065 dětí (krajští koordinátoři 28 dětí) a v Jihomoravském kraji 129 nadaných z celkem 61 819 (krajští koordinátoři 145). Můžeme se jen domnívat, kolik z nadaných dětí chodilo do 3. 5. třídy, nicméně i v případě, že se přikloníme vždy k vyššímu údaji o počtu nadaných dětí, lze jednoduše odhadnout pravděpodobnost náhodného zařazení alespoň jednoho jediného nadaného dítěte do našeho vzorku (za předpokladu rovnoměrného rozložení nadaných dětí mezi ročníky) na P = 0,440, tedy necelých 50 %. Fakt, že v našem vzorku tedy není ani jediné nadané dítě, tak vůbec není překvapivý, ačkoliv při definici cca 2 % nadaných v populaci 56 bychom očekávali 16 dětí, což je statisticky významný rozdíl oproti žádnému dítěti, p < 0,001. 55 Korelace byla spočítána nad celým vzorkem dětí (N = 797). V případě binárních dat se pochopitelně hodnoty Pearsonova, Spearmanova i Kendallova korelačního koeficientu shodují. 56 Podle nejnovějšího, dosud nepublikovaného Standardu diagnostiky mimořádného nadání, vytvořeného v rámci NÚV (2016), je navrženo jako mimořádně nadané identifikovat ty děti, které dosáhnou alespoň druhé směrodatné odchylky v libovolné ze sledovaných oblastí kognitivního nadání. Vzhledem k inflaci p- hodnoty opakovaným testováním a z důvodu slabších korelací subtestů a indexu je tak de facto za nadané považováno výrazně více dětí než 2 % populace. Tento předpoklad jsem ověřil v rámci simulační studie pro diagnostiku pomocí testu I-S-T 2000-R (korelace a reliability stanovené na základě německé verze) pokud uvažujeme skór vyšší než 2 směrodatné odchylky v libovolném z indexů a subtestů, diagnostikovali

74 Hynek Cígler TAB. 5: ROZLOŽENÍ SPU A DALŠÍCH POTÍŽÍ PODLE ROČNÍKU 3. ročník 4. ročník 5. ročník celkem SPU bez další specifikace 15 (6%) 24 (9%) 27 (10%) 66 (8%) dysortografie 11 (5%) 15 (5%) 13 (5%) 39 (5%) dyslexie 9 (4%) 8 (3%) 8 (3%) 25 (3%) ADHD/ADD 8 (3%) 8 (3%) 7 (3%) 23 (3%) grafomotorické obtíže 3 (1%) 4 (1%) 8 (3%) 15 (2%) dysgrafie 2 (1%) 5 (2%) 5 (2%) 12 (2%) lehké mentální postižení 3 (1%) 3 (1%) 1 (0%) 7 (1%) dyspraxie 0 (0%) 1 (0%) 2 (1%) 3 (0%) dyskalkulie 2 (1%) 1 (0%) 0 (0%) 3 (0%) logopedické obtíže 2 (1%) 1 (0%) 0 (0%) 3 (0%) poruchy autistického spektra 1 (0%) 1 (0%) 1 (0%) 3 (0%) Průměrný čas práce na standardizační verzi testu TIM byl 41,0 minut (SD = 4,45), rozložení bylo zleva zešikmené. Délka administrace nesouvisela s dosaženým skórem po ověření Spearmanovou korelací ani v žádném z ročníků separátně, ani po ověření parciální Spearmanovou korelací po kontrole ročníku, ρ parc = 0,03, p = 0,386. V diplomové práci Cíglerové (2016), kde měly děti na práci na testu neomezené množství času, se vztah výkonu a času projevil byl však nelineární, velmi slabý a bez praktického vlivu na validitu výsledků testování. 4.2.2 Postup zpracování dat Všechna dostupná data z testu TIM byla přepisována jediným členem výzkumného týmu do programu MS Excel, následně byla data převáděna do dalších programů. Kalibrace Raschova modelu, DIF analýzy atp. probíhaly v programu Winsteps různých verzí (Linacre, 2016a) prostřednictvím JML estimátoru. Odhady strukturních modelů probíhaly v programu Mplus (Muthén a Muthén, 2015), případně R (viz dále). Samotné analýzy probíhaly v programu SPSS v. 22 23 (IBM, 2013), zbytek v programu MS Excel, případně R (R Core Team, 2016) s příslušnými balíčky (zejm. Rosseel, 2012; Revelle, 2015; semtools Contributors, 2015; Epskamp, 2014; a další). 4.3 Výsledky Způsoby konkrétního skórování položek byly průběžně upravovány na základě nových dat. Podrobnosti jsou uvedeny v psychometrickém manuálu testu (Cígler a kol., in press). Zde budu prezentovat pouze výsledné analýzy. Do standardizační verze testu byly navíc zařazeny i extrémně snadné úvodní položky (A1 a B1). Ty sice byly součástí pilotní verze testu, ale nevyhovovaly Raschovu modelu a byly určeny k odstranění. Následně byly zařazeny z motivačního důvodu, aby první položky měla správně bychom jako nadaných 13 % dětí; a to jen s použitím pozorovaných skórů, bez zvážení chyby měření. Lze předpokládat, že v případě použití více testů či testu se slabšími náboji na g-faktoru by efekt byl silnější. Zdrojový kód simulace je k dispozici on-line: https://github.com/hynekcigler/nadani_simulace.

Měření matematických schopností 75 většina dětí, a neměly být vyhodnocovány. Po přesunutí těchto položek na první místo v testu se nicméně ukázalo, že Raschovu modelu vyhovují dostatečně, byť poskytují velmi málo informace nebyl však nyní žádný důvod k jejich vyřazení z hodnocených položek a ve finální verzi testu jsou proto normálně skórovány. 4.3.1 Vyvážení verzí a forem testu TIM Během všech následujících položkových analýz probíhal kromě popsaného vyvažování i výběr položek. Hlavními kritérii byly hodnoty fitu položky, nebylo však stanoveno žádné jednoznačné kritérium; používány byly hodnoty infitu i outfitu, a to jak absolutní odchylka (mean-square), tak i jeho p-hodnota (respektive z-standardizovaný fit). Dalším kritériem byla Wrightova mapa a zejména informační funkce testu, která měla být vyvážená bez žádných propadů, s maximem v pásmu nadání. Zvažována byla pochopitelně i obsahová validita testu jako takového. Kromě výběru samotných položek probíhala průběžně i úprava jejich skórování. Zde jsme se opět řídili fitem jednotlivých kategorií a zejména charakteristickými křivkami kategorií; vyřazovány byly neinformativní hodnotící kategorie tak, aby hodnocení bylo zároveň obdobné napříč položkami z důvodu snadnosti pro administrátora testu. V tomto ohledu jsme se nicméně rozhodovali i na základě správnosti položek, obsahová validita testu byla každopádně nadřazena jeho empirickému fungování. 4.3.1.1 Srovnání dat z pilotní a standardizační studie Abychom dosáhli co nejpřesnější kalibrace jednotlivých položek, chtěli jsme pro tyto účely použít jak data z pilotážní, tak i ze standardizační studie (sběry dat 3 6 v tab. 3). Raschův model předpokládá invarianci položek, tedy nezávislost jejich obtížností a charakteristických křivek na výzkumném vzorku, který byl pro jejich odhad použit (jde o součást tzv. předpokladu lokální nezávislosti položek a testové invariance, podrobněji viz Lord a Novick, 1968, s. 361). Pokud tento předpoklad platí, měla by být obtížnost položek odhadnutá v jednom vzorku snadno převoditelná prostřednictvím lineární transformace na obtížnost odhadnutou ve vzorku jiném (Bond a Fox, 2007, s. 69 71). Rozhodl jsem se proto v prvním kroku vyvážit obě formy testu separátně napříč všemi vzorky, ve druhém kroku pak vyvážit obě paralelní formy. Jako design byla zvolena souběžná kalibrace (Kolen a Brennan, 2014, s. 213 226, 289 292); v případě polytomických položek byly napříč vzorky fixovány jak obtížnosti položek, tak i struktura jejich prahů. V předkalibračních analýzách (regrese aj.) jsem však pracoval pouze s obtížností. Srovnání obtížnosti v separátně odhadnutých modelech V první řadě jsme srovnali odhady obtížností položek v pilotáži (finální odhady s využitím dat ze všech tří pilotních sběrů) a ve standardizační studii prostou Pearsonovou korelací. Položky A1 a B1, které jsme v pilotáži neskórovali, byly ze srovnání vynechány. Korelace odhadů obtížností položek napříč vzorky byly přiměřeně vysoké, pro formu A r A = 0,969, pro formu B r B = 0,958. Položková reliabilita (viz kap. 3.2) všech čtyř datasetů (forem A a B v pilotáži i ve standardizační studii) však shodně dosahovala 0,99 a této hodnotě by se tedy měly blížit i obě korelace jinak by to znamenalo, že oba vzorky byly vybrány z odlišných populací.

76 Hynek Cígler Navíc během pilotní studie byly korelace prvního a druhého sběru o něco vyšší, r A = 0,972 a r B = 0,971, ačkoliv rozdíl nebyl signifikantní (z A = 0,16, p = 0,87; z B = 0,6, p = 0,55) 57. Pro bližší identifikaci rozdílů jsme proto pomocí lineární transformace převedli obtížnosti položek a standardní chyby jejich odhadu z pilotáže na škálu ze standardizační studie, a následně jsme je srovnali prostřednictvím z-testu 58. Výsledek srovnání je obsahem přílohy 3, v grafické podobě pak obr. 8. Popis regresního modelu obsahuje tab. 6. V této fázi vývoje nebyly ještě převedeny položky prostřednictvím lineární transformace na společnou škálu (W-skóry), proto je obtížnost položek mezi sběry dat konstantě posunuta jedním či druhým směrem (viz grafy). V případě formy A se lišilo celkem 9 odhadů (38 %) obtížností položek na 5% hladině pravděpodobnosti, z toho 3 (13 %) i po Bonferroniho korekci. V případě formy B se lišilo taktéž 9 položek (38 %); z toho 6 (25 %) i po Bonferroniho korekci. Velikosti efektů (odhadnuté jako r = z/ n) byly nicméně velmi slabé, pro obě formy testu se pohybovaly v rozmezí od 0,31 až 0,19 s M = 0,003 a směrodatnou odchylkou SD = 0,117. Přestože za signifikantními rozdíly do jisté míry stojí i relativně početné výzkumné vzorky, které snižují chybu odhadu parametrů položek a způsobují, že i velmi malé a zanedbatelné rozdíly jsou statisticky významné, zdá se, že existují i další faktory, které mají vliv na rozdílné fungování položek. Tyto zdroje rozdílů můžeme rozčlenit do dvou hlavních oblastí: komplikace na straně respondentů a komplikace na straně testu. V případě první oblasti jde zejména o fakt, že v pilotních studiích byly častěji zastoupeny mimořádně nadané děti, které byly záměrně zařazovány s cílem ověřit diskriminační validitu testu zjištěné rozdíly v nedostatečné invarianci položek proto mohou pramenit spíše ze samotné konstrukce testu (tzv. non-uniform DIF ), nikoliv z rozdílů mezi výzkumnými vzorky z hlediska Raschova modelu (uniform DIF). To je problém z hlediska férovosti testu, nikoliv nutně z hlediska vyvážení dat z obou výzkumných vzorků, a budeme se mu věnovat níže. Naopak zdrojem chyb na straně testu může být zejména rozdílné pořadí položek v pilotáži a ve standardizační studii. Později zařazené položky se mohou jevit jako zdánlivě obtížnější, protože k nim respondenti v omezeném časovém limitu nestihli dojít, případně byli při jejich řešení unavenější, méně pozorní apod. 57 Tyto statistiky jsou ve skutečnosti poněkud zkreslené, protože nejde o korelaci dvou náhodných, normálně rozdělených proměnných, ale proměnných agregovaných pomocí logistické regrese z původního normálního rozdělení schopností respondentů ve výzkumných vzorcích. Vhodnějším postupem by proto bylo zkonstruovat nějaký multilevel model. 58 Ve skutečnosti má rozdíl přibližně t-rozložení s (SE 2 1 + SE 2 2 ) 2 / ( SE 1 4 4 ) stupni volnosti, kde SE1 a SE2 + SE 2 N 1 1 N 2 1 jsou chyby odhadu obtížností a N1, N2 velikosti příslušných vzorků. To proto, že chyba odhadu obou položek (jejich rozptyl ) není stejná, a je tedy nutné použít předloženou Welch Satterthwaitovu úpravu t-testu pro nestejné rozptyly, tedy tzv. Welchův test (Welch, 1947; Satterthwaite, 1946). Vzhledem k tomu, že takto vypočtené stupně volnosti se ve všech případech pohybovaly přes 550 (Md = 805,4), rozdíl oproti normálnímu rozložení je zcela minimální (zpravidla na třetím a dalším desetinném místě), a byl proto zanedbán.

Měření matematických schopností 77 OBR. 8 Srovnání obtížnosti položek v pilotáži a ve standardizační studii. Barevně jsou zvýrazněny položky, jejichž parametr obtížnosti se signifikantně lišil napříč jednotlivými výzkumnými vzorky.

78 Hynek Cígler Tento jev je přímo patrný z dat: Spearmanova korelace rozdílu pořadí a rozdílu odhadů obtížností 24 položek mezi pilotní a standardizační studií je v případě formy A ρ A = 0,47, p = 0,020, v případě formy B ρ B = 0,823, p < 0,001. Platí proto, že čím vyšší měla položka v testu pořadí, tím více vzrostla její obtížnost, a naopak. Zejména v případě formy B je tento vztah velmi silný. Sestavili jsme proto lineární regresi obtížnosti položek ve standardizační studii na základě obtížnosti v pilotáži, kde jsme ve druhém kroku vložili rozdíl pořadí položky v pilotáži a ve standardizační studii. Na základě analýzy histogramů a P-P plotů se tyto rozdíly jevily být přibližně normálně rozložené 59, a tedy použitelné v lineární regresi. V případě formy A zařazení rozdílu pořadí nevedlo k signifikantnímu zvýšení vysvětleného rozptylu, F A(1, 21) = 3,373, p = 0,080, v případě formy B však ano, F B(1, 21) = 39,143, p < 0,001. 60 Oba modely zachycuje tab. 6. Je patrné, že minimálně v případě formy B pořadí expozice položek významně ovlivňuje jejich obtížnost. Změna pořadí vysvětluje mezi 0,008/(1 0,939) = 13 % (ve formě A) až 0,053/(1 0,919) = 65 % (ve formě B) rozptylu obtížnosti položek ve standardizační studii, který nebyl vysvětlen obtížností položek v pilotáži. V případě formy B je multiple-correlation coefficient (který můžeme přímo srovnávat s položkovou reliabilitou v obou sběrech dat) dokonce R = 0,986, a tedy srovnatelný s položkovou reliabilitou oba prediktory vysvětlily prakticky veškerý rozptyl a pro další intervenující faktory tak nezbývá mnoho prostoru. Lze tedy soudit, že drobné formulační změny položek a odlišný způsob výběru výzkumného vzorku neměly vliv na odhad parametrů modelu; k drobnému zkreslení došlo zřejmě jen z důvodu odlišného pořadí položek, i to je však celkově zanedbatelné. TAB. 6: REGRESNÍ MODEL OBTÍŽNOSTÍ A ZMĚNY POŘADÍ POLOŽEK VE FORMÁCH A A B forma A forma B model 1 model 2 model 1 model 2 B β p B β p B β p B β p intercept 1,940 0,000 1,946 0,000 1,795 0,000 1,799 0,000 obtížnost v pilotáži 1,071 0,969 0,000 1,038 0,939 0,000 0,944 0,958 0,000 0,927 0,941 0,000 rozdíl pořadí položek 0,031 0,096 0,080 0,055 0,231 0,000 adjustovaný R 2 0,939 0,000 0,948 0,000 0,919 0,000 0,972 0,000 R 0,969 0,000 0,974 0,000 0,958 0,000 0,986 0,000 R 2 0,008 0,080 0,053 0,000 Poznámka: Závislou proměnnou je obtížnost položky ve standardizaci. Rozdíl efektu pořadí položek se mezi formami A a B nelišil (srovnání 95% intervalů spolehlivosti, pro formu A CI 95% = -0,004 0,065, pro formu B CI 95% = 0,037 0,074). Důvodem rozdílu mezi statistickou významností pořadí ve formách A a B může být větší rozdílnost pořadí mezi verzemi ve formě B (SD = 6,06) oproti formě A (SD = 5,34); rozdíl však může být čistě náhodný. 59 Deskriptivy rozdílu pořadí ve formě A MA = 0,17, SDA = 5,45; ve formě B MB = 0,08, SDB = 6,19 (záporné průměry jsou důsledkem celkového snížení počtu položek). 60 Je nutné mít na paměti, že signifikance byla podhodnocena z toho důvodu, že lineární regrese nezachycuje fakt, že hodnoty jsou agregovanými statistikami většího vzorku. Při korektním zpracování pomocí multilevel modelu by byl rozdíl signifikantní zřejmě i ve formě A.

Měření matematických schopností 79 Společný odhad parametrů položek Úvodem je potřeba zmínit, že reálně jsou vyvažována data z až tří pilotních sběrů (třetí byl z hlediska počtu respondentů zanedbatelný) s daty z jednoho standardizačního sběru; nelze tedy očekávat, že by pilotní populace byla zcela homogenní. Srovnáváme-li proto obtížnosti položek ve standardizační a pilotní studii, ve skutečnosti jde o srovnání standardizační studie a společného odhadu parametrů položek, založené na minimálně dvou pilotních vzorcích (byť většina dětí byla zařazena v prvním i druhém pilotním sběru dat). Pořadí položek v obou fázích pilotního sběru dat přitom bylo totožné. Zároveň reálně pozorované narušení lokální nezávislosti položek, popsané v předchozí kapitole, je velmi malé a zřejmě bez velkého praktického vlivu na skutečné odhady parametrů vyšetřovaných dětí. Změna pořadí položek je navíc z principu vyvážená (některé položky se přesunuly dopředu, jiné dozadu) a vliv změny obtížnosti se tak do značné míry redukuje. Přínos ve společné kalibraci položek na základě pilotního i standardizačního vzorku je proto podle nás větší než rizika spojená s tímto postupem. Rozhodli jsme se proto data z 1. a 2. fáze pilotního sběru (sběry dat 3 4 v tab. 3) 61 sloučit do jediného datasetu spolu se standardizačním souborem (sběr dat 6 v tab. 3) a ověřit shodné fungování položek podle jednotlivých sběrů dat pomocí DIF analýzy. Data formy A i B odpovídala Raschovu modelu, χ A 2(15521) = 15517,1, p = 0,51, χ B 2(15386) = 15391,7, p = 0,49. Prostřednictvím t-testů jsme srovnali lokální obtížnosti položek s celkovou obtížností položek, odhadnutou nad všemi třemi vzorky (1. fáze pilotáže, 2. fáze pilotáže a standardizace). Podrobné výsledky pro obě formy jsou v příloze 4, v grafické podobě (na rozdíl od tabulek obsahují absolutní hodnotou obtížností položek, nikoliv jen relativní rozdíl) je prezentuje obr. 9. V případě formy A bylo 8 rozdílů (11 %) signifikantních na p < 0,05, 3 (4 %) i po Bonferroniho korekci. Z toho položky A9, A16 a A21 byly identifikovány jako rozdílně fungující jak v DIF analýze, tak i v regresní analýze výše. Forma B fungovala o něco hůře celkem 13 rozdílů (18 %) bylo signifikantních alespoň na p < 0,05, žádný z nich však nebyl statisticky významný po Bonferroniho korekci. Z toho položky B7, B8, B10, B12, B15, B17, B22 a B23 byly identifikovány jako rozdílně fungující jak v DIF analýze, tak i v regresní analýze výše. Z grafů (a tabulek v příloze) je patrné, že DIF vykazuje relativně málo položek a rozdíly zpravidla nejsou příliš velké. Výjimkou byla položka A25, která se ve 2. pilotním vzorku jevila jako výrazně obtížnější (rozdíl je patrný zejména vizuálně na obr. 9, ačkoliv efekt nebyl statisticky významný. Příčinou je fakt, že v tomto sběru položku nezodpovědělo správně žádné dítě, a odhad obtížnosti je tedy pouhou aproximací s velkou mírou chyby odhadu. 61 Data z 3. fáze pilotního sběru byla z přehledu vynechána z důvodu malého počtu respondentů, a tedy i velké chyby odhadu. Dalším důvodem byly i jejich vysoké skóry, které zdůrazňovaly odlišnost subvzorku.

B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 B22 B23 B24 B25 Lokální odhad obtížnosti položky ve formě B A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 Lokální odhad obtížnosti položky ve formě A 80 Hynek Cígler 10 8 6 4 2 0-2 pilotáž (1. sběr) pilotáž (2. sběr) standardizace rozdíl pořadí / 2-4 -6 Položka 8 6 4 2 0-2 pilotáž (1. sběr) pilotáž (2. sběr) standardizace rozdíl pořadí / 2-4 -6 Položka OBR. 9 DIF analýza obtížností položek podle sběru dat. Nahoře forma A, dole forma B. Závěrem jsme provedli párové srovnání jednotlivých výzkumných vzorků navzájem prostřednictvím t-testu, počty signifikantních rozdílů představuje tab. 7. Vidíme, že zatímco oba pilotní vzorky se liší spíše minimálně (4, resp. 3 statisticky významné rozdíly), většina rozdílů pramení z odlišnosti pilotáže a standardizační studie (7 9 signifikantních rozdílů). Ta proto pochopitelně vykazuje vyšší celkový počet výskytů diferenciálně fungujících položek.

Měření matematických schopností 81 TAB. 7: POČET SIGNIFIKANTNÍCH DIF MEZI SBĚRY DAT (A FORMAMI) PÁROVÉ SROVNÁNÍ pilotáž (1. sběr) forma A pilotáž (2. sběr) standardizace celkem pilotáž (1. sběr) forma B pilotáž (2. sběr) standardizace celkem pilotáž (1. sběr) - 4 (0) 7 (2) 11 (2) - 3 (0) 9 (5) 12 (5) pilotáž (2. sběr) 0 (0) - 8 (6) 12 (6) 0 (0) - 8 (4) 11 (4) standardizace 1 (1) 2 (2) - 15 (8) 4 (1) 2 (2) - 17 (9) celkem 1 (1) 2 (2) 3 (3) 4 (1) 2 (2) 6 (3) Poznámka: Počet rozdílů signifikantních na hladině pravděpodobnosti p < 0,05, číslo v závorce pak udává počet rozdílů signifikantních na p < 0,01. Pod diagonálou (a v součtech sloupců) jsou hodnoty po Bonferroniho korekci, nad diagonálou (a v součtech řádků) bez korekce. Shrnutí: rozdíly ve fungování pilotní a standardizační verze testu Na základě výše prezentovaných dat můžeme konstatovat, že položky fungovaly velmi podobně v pilotní i standardizační verzi testu, ačkoliv rozdíly byly často statisticky významné. Zároveň platí, že rozdíly mezi 1. a 2. fází pilotního sběru dat byly menší než mezi pilotním sběrem jako celkem a standardizační studií. Jednou z pravděpodobných příčin je zejména změna pořadí položek, ke které došlo mezi pilotní a standardizační verzí testu. Kromě toho obsahovala pilotní verze testu navíc položky, které již nebyly zahrnuty do standardizační verze. Podrobné shrnutí rozdílů je v manuálu testu (Cígler a kol., in press), zde se chci jen pozastavit nad položkou B17, u které byly pozorované nejvýznamnější DIF rozdíly a která zároveň vykazovala velmi nízkou shodu s Raschovým modelem (infit u = 1,20, t u = 2,6; outfit v = 1,50, t v = 2,7). Sestrojili jsme proto alternativní model, kde byla položka zařazena jako dvě různé zvlášť pro standardizační a pro pilotní studii 62. V první řadě je nutné poznamenat, že odhadnuté latentní skóry jak všech respondentů dohromady, tak zvlášť respondentů v pilotní i ve standardizační studii se prakticky nelišily ve všech případech byla korelace skórů odhadnutých původním i alternativním modelem r > 0,99997. Navíc v případě alternativního modelu přetrvával u položky B16b statisticky významný rozdíl v odhadu obtížnosti položky mezi oběma pilotními vzorky, t(387) = 2,28, p = 0,023. V případě položky pilotního vzorku (B17b) se poněkud zlepšila shoda s modelem, infit u = 1,18, t u = 1,9 a outfit v = 1,18, t v = 0,9, v případě standardizační položky (B17) se fit spíše zhoršil (a to zejména nevážený outfit ), infit u = 1,20, t u = 1,6; outfit v = 2,04, t v = 3,1. Inspekce charakteristické křivky položky (viz přílohu 5) svědčí spíše o náhodných než systematických odlišnostech. Z těchto důvodů jsme se rozhodli položku ponechat v původním stavu a zvolit hlavní model se společným skórováním pro všechny výzkumné vzorky. Určitou nevýhodou tohoto postupu je fakt, že daná položka je kotevní (určená pro vyvažování obou forem testu ve formě A položka vykazuje stejný trend charakteristické křivky testu, nízký fit však není statisticky významný). Protože jsou však respondenti napříč jednotlivými datasety rovnoměrně rozloženi mezi formy A i B (rozřazení bylo náhodné), měl by tedy být tento jev minimalizován 62 Pro účely dalších analýz jsme ponechali označení B16 v případě standardizačního souboru a přejmenovali položku na B16b pro pilotní vzorek. Protože v rámci teorie odpovědi na položku lze operovat s chybějícími daty, respondenti ze standardizační studie měli chybějící skór u položky B16b, kdežto respondenti z pilotní studie u položky B16.

82 Hynek Cígler a kvalita vyvážení obou forem testu by měla být ovlivněna jen minimálně oproti ostatním položkám. Závěrem je možné říci, že položky v jednotlivých verzích forem A i B napříč všemi fázemi sběru dat fungují velmi podobně, ačkoliv pořadí jejich expozice má určitý nezanedbatelný vliv na odhad jejich obtížnosti. Pro účely přenositelnosti platnosti validizačních studií z pilotní na finální verzi testu jsou však tyto pozorované odlišnosti zcela zanedbatelné. I pro účely individuální diagnostiky při použití standardizační verze testu hrají rozdíly zanedbatelnou roli: korelace latentních skórů respondentů ze standardizačního vzorku, odhadnuté s pomocí modelu konstruovaného ze všech tří fází sběru dat a s využitím modelu pouze s daty ze standardizace, jsou pro obě formy testu vyšší než r > 0,999. Předpokládáme, že výhoda v podobě zpřesnění odhadu parametrů zejména obtížnějších položek (díky vyššímu počtu probandů ve vzorku) je vyšší než nevýhoda v podobě možných zkreslení menších než jedno promile rozptylu chybového odhadu (zejména při srovnání s náhodnou chybou způsobenou nereliabilitou testu). Z těchto důvodů jsou v následujících analýzách za účelem odhadu parametrů položek sloučena data ze všech fází sběru dat. 4.3.1.2 Vyvážení paralelních forem testu Pro vyvážení obou forem testu jsme zvolili metodu společných položek pro neekvivalentní skupiny se společnou kalibrací ( common-item nonequivalent group equating, resp. concurrent calibration, např. Kolen a Brennan, 2014, s. 182 183; viz obr. 10), který je robustnější než v našem případě rovněž možný single group design. Zde byla výhodou i opakovaná administrace paralelní verze během pilotní studie (tzv. counter-balancing ), díky které jsme mohli přesněji ověřit kvalitu vyvážení a reliabilitu paralelních forem. Postup byl do jisté míry podobný jako v případě sloučení dat z prvních dvou fází pilotního sběru a ze standardizace cílem bylo odhadnout parametry položek tak, aby na jejich základě vypočítané odhady latentních skórů osob byly rovnocenné. skupina 1 kotevní položky forma A forma B skupina 2 OBR. 10 Vyvážení paralelních forem (test equating) prostřednictvím souběžné kalibrace (conurrent calibration). Kotevní položky jsou součástí obou forem, polovině dětí jsou však administrovány zbylé položky formy A, druhé polovině položky formy B. Následně je IRT model odhadnut pro celý soubor naráz. Pokud model popisuje dobře data a kotevní položky odpovídají modelu, jsou formy A i B vyjádřené na stejné škále latentního rysu.

Měření matematických schopností 83 Párové srovnání odhadů parametrů kotevních položek V prvním kroku jsem odhadl parametry osmi tzv. kotevních položek společných pro obě formy, a to zvlášť pro formu A (n = 813) a B (n = 788). Odhad celkových obtížností položek společných ve formě A a B byl prakticky stejný, Pearsonova korelace byla r(6) = 0,998, p < 0,001. Následně jsem odhadl regresní koeficienty pro lineární transformaci odhadů obtížností položek z formy B na škálu formy A podle vzorce B = ab + b, kde jednotlivé koeficienty měly hodnoty: a = 0,97508 (SE = 0,02581), b = 0,11757 (SE = 0,06141) 63. Koeficient a se nicméně statisticky významně nelišil od 1 (z = 0,97, p = 0,33) a koeficient b od 0 (z = 1,91, p = 0,06). Z tohoto důvodu, a také protože formy byly respondentům přiřazovány náhodně, předpokládáme, že rozdíly v měřítkách obou škál jsou způsobeny pouze výběrovou chybou a směrem regrese (z verze A na B či naopak). Dále tedy srovnávám přímo odhady obtížností položek bez převodu prostřednictvím lineární transformace. Výsledek srovnání obsahuje tab. 8, graficky pak obr. 11. Vidíme, že jediná položka, která se statisticky významně liší, je A13 s její alternativou B14. Položky však i přes zdánlivou podobnost nejsou plně identické pro obě verze testu ačkoliv mají obě shodná řešení, v zadání jsou přehozena grafická znázornění pohledů zepředu a zboku. Tato položka proto byla pro účely dalších analýz vyřazena ze sady kotevních položek. Položka B17, hodnocená jako problematická z hlediska stability mezi vzorky, se od paralelní položky A15 svým odhadem neliší. Korelace odhadů obtížností zbylých položek je r AB(5) = 0,998, p < 0,001; vzhledem k tomu, že položková reliabilita zbylých sedmi položek je v obou verzích přes 0,997, po korekci na nereliabilitu je korelace r AB = 1,002. Rozdíly v odhadu zbylých kotevních položek proto byly způsobeny výhradně náhodnou chybou a lze je použít pro vyvážení obou forem. TAB. 8: PÁROVÉ SROVNÁNÍ SPOLEČNÝCH POLOŽEK FORMY A A B forma A forma B rozdíl položka obtížnost SEM položka obtížnost SEM rozdíl z p A1-3,73 0,23 B1-4,05 0,24 0,32 0,96 0,336 A2-1,81 0,07 B2-1,85 0,08 0,04 0,38 0,707 A8 1,22 0,06 B8 1,25 0,07-0,03-0,33 0,745 A10 1,44 0,09 B11 1,51 0,1-0,07-0,52 0,603 A13 1,57 0,1 B14 1,22 0,09 0,35 2,60 0,009 A14 3,55 0,13 B15 3,37 0,11 0,18 1,06 0,291 A15 2,11 0,08 B17 2,16 0,08-0,05-0,44 0,659 A17 2,09 0,11 B18 2,03 0,11 0,06 0,39 0,700 Md 1,505 0,095 1,380 0,095 0,050 0,381 0,631 M 0,805 0,109 0,705 0,110 0,100 0,512 0,506 SD 2,221 0,050 2,273 0,051 0,154 0,973 0,247 Pozn.: Obtížnost tučně zvýrazněné položky se liší na p < 0,01. Rozdíl přesto není signifikantní po Bonferroniho korekci (α crit. = 0,05/8 = 0,006). 63 Ve všech případech jsem pro účely vyvažování pracoval s odhadem na pět desetinných míst. Změna na škále latentního rysu o jednu stotisícinu vede k zanedbatelným změnám na pravděpodobnost správných odpovědí, např. P = 0,5 se změní na P = 0,5000025, resp. P = 0,9 na P = 0,9000009.

84 Hynek Cígler OBR. 11 Srovnání odhadů obtížností společných položek forem A a B Souběžná kalibrace Dalším krokem byla souběžná kalibrace za pomoci zbývajících sedmi společných položek. Jednotlivé soubory byly sloučeny do jediného datasetu, čímž jsme docílili, že výsledné odhady latentních skórů jsou na stejné škále (viz obr. 10). Parametry položek uvádíme níže v tab. 10, na tomto místě se věnujeme pouze kvalitě vyvážení paralelních forem testu. Data velmi dobře vyhovují Raschovu modelu, χ 2 = 31773,88, df = 31754, p = 0,45. 64 Navíc nepozorujeme signifikantní rozdíl mezi separátními odhady forem A a B v případě, že použijeme kalibrované položky, a v případě, že parametry položek uvolníme: Δχ A 2(467) = 473,1, p = 0,41 a Δχ B 2(743) = 785,7, p = 0,13 data odpovídají kalibrovanému odhadu obou forem dohromady stejně dobře, jako dvěma separátním odhadům pro každou formu zvlášť. Prostřednictvím DIF analýzy jsme ověřili, zda se neliší respondenti forem A a B ve stylu odpovídání na kotevní položky. Jak prezentuje tab. 9, žádný z rozdílů nebyl statisticky významný, navíc veškeré rozdíly byly poměrně malé vyšších rozdílů nabyly pouze položky A01/B01 (extrémně snadné) a A14/B15 (extrémně obtížné), zatížené větší chybou měření. 64 Jak jsem zmínil v kap. 3.3.1, Winsteps počet stupňů volnosti aproximuje. Počet stupňů volnosti v datech byl 37905. V tomto případě tedy p = 1, model odpovídá datům výrazně lépe, než by měl. To je způsobeno vyšší diskriminací obtížnějších položek a celkovou vysokou obtížností testu.

Měření matematických schopností 85 TAB. 9: DIF ANALÝZA SPOLEČNÝCH POLOŽEK SROVNÁNÍ FOREM A A B lokální obtížnost rozdíl obtížnost infit outfit položky forma A forma B rozdíl SE t p položky (SE) u tu v tv A01 B01-3,76-4,00 0,24 0,33 0,73 0,57-3,89 (0,17) 0,95-0,4 1,7 2,1 A02 B02-1,84-1,80-0,04 0,11-0,30 0,99-1,83 (0,05) 1,06 1,8 0,99-0,2 A08 B08 1,22 1,24-0,02 0,09-0,23 0,94 1,23 (0,05) 1,29 7,3 1,24 3,6 A10 B11 1,43 1,51-0,08 0,14-0,60 0,39 1,43 (0,07) 0,90-2,9 0,78-2,6 A14 B15 3,57 3,34 0,23 0,17 1,33 0,34 3,45 (0,08) 1,01 0,2 0,54-2,4 A15 B17 2,13 2,14-0,01 0,11-0,12 0,74 2,14 (0,05) 1,23 4,4 1,42 3,3 A17 B18 2,08 2,03 0,05 0,15 0,34 0,83 2,06 (0,07) 0,82-4,4 0,63-3,6 Pozn.: SE sdílená chyba měření; t t-hodnota rozdílu; p příslušná p-hodnota; SE chyba odhadu obtížnosti položky; u/v infit / outfit mean-square; tu/tv infit /outfit z-standardizovaná hodnota Určitou komplikací je, že kotevní položky ne zcela vyhovují Raschovu modelu. Z osmi položek jen jediná (A02/B02) plně vyhovuje ve všech ohledech; položky A08/B08 a A15/B17 vykazují příliš nízkou shodu (tzv. underfit ), položky A09/A10 a A16/B17 naopak shodu příliš vysokou (tzv. overfit ). Ostatní položky (A01/B01 a A14/B15) s extrémně nízkou či vysokou obtížností pak vykazují dobrou shodu pro respondenty s přiměřenou mírou schopností, z hlediska všech respondentů však modelu vyhovují spíše hůře nebo naopak příliš dobře. Absolutní hodnoty (tzv. mean-square ) však nejsou tak neuspokojivé, jako z-standardizované hodnoty tento jev je způsoben zejména velkým vzorkem (n = 1616 ve všech použitých vzorcích dohromady), který vede ke značné statistické citlivosti i na malé odchylky. Obecně se za uspokojivé hodnoty mean-square statistik považuje rozmezí 0,75 1,3 (např. Bond a Fox, 2007), příp. 0,5 1,5 s hodnotami menšími než 2 jako dostatečnými (Linacre, 2015b). Ostatně i v inteligenčních testech, jako je např. Leiter-3 (Roid, Miller, Pomplun, Koch, 2013) či Stanford-Binet V (Roid, 2003), standardizovanými pomocí Raschova modelu, byly ponechány položky s hodnotami mean-squar do 2 2,5 tedy výrazně horšími, než jakých bylo dosaženo v testu TIM. Protože se položky od modelu liší statisticky významně, ale věcná významnost odlišnosti je nízká, srovnali jsme dále kvalitu souběžné kalibrace. Průměr formy A byl M A = 0,044 (SD A = 1,590, n A = 819, SE B = 0,056), průměr formy B M B = 0,046 (SD B = 1,710, n B = 797, SE B = 0,061), což je prakticky shodné, t(1614) = 0,017, p = 0,986, Cohenovo d = 0,001. Kumulativní rozdělení odhadů latentních skórů forem A a B ukazuje obr. 12, na obr. 13 je srovnání pomocí Q-Q grafu a skutečné rozdělení obou forem zachycuje obr. 14. Po vizuální kontrole je patrné, že obě rozdělení jsou prakticky totožná. Tomu odpovídá i výsledek Kolmogorovova- Smirnovova testu pro dva nezávislé výběry, který i přes velký výběrový soubor (celkové n = 1616) nepotvrdil statisticky významné rozdíly, z = 1,165, p = 0,133. Dále se neliší ani rozptyly ověřované Levenovým testem, F(1, 1615) = 3,202, p = 0,074, ani průměry obou forem (viz výše). Můžeme tedy uzavřít, že obě formy testu jsou plně ekvivalentní a v jejich fungování nejsou patrné žádné rozdíly. Měření oběma formami testu je naprosto shodné a z hlediska měřeného konstruktu a naměřené hodnoty není podstatné, kterou z forem administrátor zvolí (lišit se může mírně jen míra chyby měření, viz níže).

86 Hynek Cígler OBR. 12 Srovnání kumulativního percentilového rozdělení forem A a B OBR. 13 Srovnání rozložení forem A a B pomocí Q-Q grafu pro dvě rozložení

Měření matematických schopností 87 OBR. 14 Histogram odhadů latentních skórů pro formy A a B 4.3.2 Položková analýza výsledné verze testu TIM Raschův model byl primárním nástrojem pro položkovou analýzu testu. Obsahem psychometrického manuálu testu TIM (Cígler a kol., in press) je z hlediska lepší srozumitelnosti v českém odborném prostředí rovněž položková analýza v rámci paradigmatu klasické testové teorie, tu zde však neuvádím. Hrubé skóry celého vzorku byly výrazně zešikmené (Skew > 1,05, Kurt. < 0,72) a test byl pro klasickou položkovou analýzu naprosto nevhodný. Výsledky položkové analýzy společně pro obě formy testu prezentuje tab. 10. Pro popis položek s více než dvěma možnostmi odpovědí (správně/špatně) jsme zvolili Raschovy-Andrichovy prahy (viz kap. 3). Vzhledem k maximálnímu množství 3 kategorií (0/1/2 body) jsou oba prahy vždy symetrické okolo celkové obtížnosti položky. Pro přehlednost byla škála fixována tak, aby průměrný respondent napříč všemi třemi ročníky měl latentní skór θ = 0; položku o obtížnosti b = 0 tedy průměrný respondent řeší s pravděpodobností 50 %. Diskriminační parametr všech položek byl fixován na a = 1, pracujeme tedy přímo s logitovou škálou. Vidíme, že položky vykazují poměrně dobrou shodu s daty. Poměr χ 2 /df (tzv. mean-square ) se pohybuje v rozmezí 0,74 1,36 pro infit a 0,20 2,27 pro outfit (druhou nejvyšší hodnotou je 1,70). Hodnoty infitu jsou podle Bonda a Foxové (2007) i Linacra (2015a) velmi dobré, za horšími hodnotami outfitu stojí velký rozsah obtížnosti položek oproti schopnostem respondentů (vzájemné rozložení kalibračního souboru viz obr. 20). Příkladem může být položka A01/B01, která vykazuje optimální infit (u = 0,95, t u = 0,39), outfit je však druhý největší ze všech položek (v = 1,70, t v = 2,14). Po inspekci charakteristické křivky

88 Hynek Cígler položky (obr. 15) je patrné, že za špatnou hodnotou stojí občasná chyba z nepozornosti u schopnějších respondentů a položka jinak funguje dobře. Podobně fungujících položek je v datech více, namátkou např. A14/B15 aj. V tomto ohledu patří mezi nejhorší položky dvojice A08/B08, u které je patrné systematické selhávání schopnějších respondentů v odpovědi hodnocené dvěma body (tedy řešení, které zahrnuje i opakování čísel, viz obr. 16); podobný jev, a navíc i častější poskytnutí zcela chybné odpovědi nejschopnějšími respondenty, se projevil i u položky B13. Při inspekci charakteristické křivky (obr. 18) vidíme podobnost s analogickou položkou A12 ve druhé formě testu, jejíž parametry jsou však ve výsledku v pořádku. Další hůře fungující položkou je A15/B17, u které často selhávali respondenti v odpovědi hodnocené dvěma body (tedy optimální řešení bez přebývajících čar) a někteří nejschopnější žáci selhali dokonce úplně (tedy získali 0 bodů, vše viz obr. 17). Jednalo se však spíše o slabší efekt. Poslední problematickou položkou je B23 (viz obr. 19, vlevo), kde je patrné systematické selhávání schopnějších respondentů. Zde předpokládáme dva možné důvody prvním z nich je, že jednak kvůli zvýšené chybovosti v pilotních studiích (způsobené zřejmě jen výběrovou chybou), a také z typografických důvodů při sazbě testu (snažili jsme se, aby úkoly na stránkách pracovních listů byly hezky vyvážené ), byla tato relativně jednoduchá položka (průměrný respondent měl více než 50% šanci zodpovědět ji správně) zařazena až ke konci testu, matematicky zdatnější žáci proto v položce mohli vidět chyták a chybovali tak častěji, než bychom předpokládali na základě modelu. Druhým důvodem může být naopak lákavost položky pro méně zdatné respondenty díky tomu, že její řešení má grafickou podobu. Proto jí tito respondenti na konci testu, kde zvládali vyřešit jen málo úloh, věnovali více času, a dosahovali tak lepší úspěšnosti. Reálnou příčinou slabé shody s modelem je proto jen nízká diskriminační účinnost položky 65. Naopak řada položek odpovídala Raschovu modelu lépe, než bychom předpokládali. Šlo zejména o obtížnější položky v závěru testu tyto položky dosahovaly vyšší diskriminační účinnosti: korelace obtížnosti a infitu (z-standardizovaných) byla r u(41) = 0,341, p = 0,025, obtížnosti a outfitu dokonce r v(41) = 0,681, p < 0,001; korelace diskriminační účinnosti a obtížnosti pak r a(41) = 0,323, p = 0,035. Díky tomu slabší respondenti odpovídali častěji špatně a snížili tak hodnotu outfitu; naopak se stoupající úrovní schopnosti respondenti rychleji začali dosahovat správných odpovědí a snížili tak hodnotu infitu výsledkem byl v obou případech tzv. overfit, tedy větší shoda s daty, než předpokládá statistický model. Typickým příkladem je extrémně obtížná (b = 4,49) a nadprůměrně diskriminující (a = 1,13) položka B24 (obr. 19), kde hodnota pozorované shody s modelem (96,70 %) nepatrně převýšila předpokládanou shodu (96,50). Extrémně nízkou hodnotu outfitu pak způsobili respondenti s mírou latentního rysu nižší než cca 0,5, kteří v žádném pozorovaném případě neodpověděli na položku správně (viz obr. 19, vlevo). Podobně fungovaly i další obtížnější položky, např. A22 A24. 65 Raschův model předpokládá stejnou diskriminační účinnost všech položek, přesto může být vhodné odhadnout, jakých diskriminačních účinností by položka nabývala při použití dvouparametrového modelu. Diskriminační parametr však nebyl využit při odhadech obtížností položek ani schopností respondentů.

Měření matematických schopností 89 TAB. 10: POLOŽKOVÁ ANALÝZA TESTU TIM V RÁMCI RASCHOVA MODELU infit outfit shoda s modelem (%) položka N b prahy SE χ 2 /df infit χ 2 /df infit r a pozorovaná predikovaná A01/B01 796-3,89 0,17 0,95-0,39 1,70 2,14 0,30 0,97 95,60 94,40 A02/B02 1601-1,83 ±1,80 0,05 1,06 1,77 0,99-0,21 0,59 0,94 72,80 69,50 A03 813-0,21 0,08 1,05 1,30 1,17 2,15 0,50 0,86 72,40 73,50 A04 813-0,13 0,08 0,88-3,42 0,84-2,19 0,59 1,24 77,60 73,30 A05 813 0,00 ±1,50 0,05 1,09 1,72 0,99 0,01 0,66 0,95 58,80 60,70 A06 813 0,22 0,08 1,17 4,47 1,31 3,72 0,43 0,63 68,30 73,40 A07 813 0,95 0,09 0,99-0,31 0,94-0,59 0,52 1,03 76,10 76,50 A08/B08 1601 1,23 ±0,72 0,05 1,29 7,29 1,24 3,64 0,56 0,72 64,20 65,90 A09 813 1,02 0,06 1,06 1,02 0,98 0,04 0,62 0,96 70,50 71,40 A10/B11 1601 1,47 0,07 0,90-2,88 0,78-2,62 0,55 1,14 83,10 80,60 A11 813 1,92 ±0,49 0,07 1,07 1,20 0,90-0,75 0,56 0,97 71,20 74,00 A12 813-0,21 ±0,47 0,05 1,08 1,69 1,04 0,42 0,65 0,93 55,40 57,80 A13 813 1,57 0,10 1,03 0,51 0,99-0,05 0,47 0,97 79,80 80,90 A14/B15 1601 3,45 ±0,32 0,08 1,01 0,19 0,54-2,41 0,43 1,03 91,70 91,80 A15/B17 1601 2,14 ±0,30 0,05 1,23 4,38 1,42 3,29 0,51 0,84 77,80 78,00 A16 813 1,79 ±1,26 0,07 1,07 0,96 0,88-0,36 0,56 0,98 81,30 80,80 A17/B18 1601 2,06 0,07 0,82-4,38 0,63-3,61 0,55 1,19 87,80 84,80 A18 813 2,36 0,11 0,78-3,48 0,77-1,32 0,52 1,18 89,20 86,80 A19 813 2,61 0,12 0,74-3,71 0,44-3,37 0,54 1,23 90,50 88,60 A20 813 2,80 0,13 0,95-0,61 0,99 0,05 0,41 1,04 90,40 89,80 A21 813 3,37 ±0,26 0,12 1,07 0,56 0,93-0,14 0,40 0,99 92,60 92,20 A22 813 2,93 0,13 0,92-0,90 0,70-1,36 0,42 1,07 91,40 90,60 A23 813 3,31 0,11 0,98-0,13 0,68-1,21 0,42 1,02 91,90 91,20 A24 813 4,12 ±0,16 0,17 0,82-0,82 0,39-1,77 0,33 1,07 97,30 96,70 A25 813 4,93 ±0,96 0,26 0,83-0,77 0,20-3,18 0,30 1,11 98,00 97,90 B03 788 0,13 0,09 0,92-2,22 0,85-1,92 0,59 1,17 76,80 74,40 B04 788 0,49 0,09 0,96-0,90 0,89-1,36 0,57 1,08 76,30 75,30 B05 788 0,56 0,09 0,93-1,83 0,83-2,08 0,59 1,14 77,80 75,50 B06 788 0,71 0,09 0,97-0,72 0,94-0,68 0,56 1,06 76,30 76,10 B07 788 0,57 0,09 0,99-0,18 0,95-0,55 0,55 1,03 75,10 75,50 B09 788 1,04 0,09 0,87-3,00 0,79-2,09 0,60 1,19 81,90 78,00 B10 788 1,14 ±0,47 0,06 0,97-0,49 1,01 0,14 0,66 1,02 77,00 76,40 B12 788 1,68 0,07 1,05 0,82 1,02 0,22 0,62 0,96 69,80 71,50 B13 788-0,10 ±0,84 0,06 1,36 6,16 2,27 6,41 0,60 0,69 58,40 63,40 B14 788 1,23 0,09 0,99-0,28 0,95-0,43 0,53 1,02 80,60 79,30 B16 788 1,63 0,10 0,94-1,06 0,82-1,34 0,54 1,08 83,20 82,20 B19 788 2,74 0,12 0,75-3,43 0,46-2,93 0,54 1,21 92,40 89,10 B20 788 2,86 ±1,51 0,10 1,20 1,75 1,15 0,50 0,47 0,94 90,10 90,60 B21 788 3,15 0,14 0,90-1,11 0,85-0,55 0,44 1,07 91,80 91,20 B22 788 2,87 0,13 0,94-0,76 0,71-1,30 0,46 1,06 90,20 89,80 B23 788 0,19 0,09 1,16 3,99 1,32 3,57 0,47 0,67 70,40 74,50 B24 788 4,49 0,21 0,83-1,12 0,23-3,09 0,36 1,13 96,70 96,50 B25 788 4,26 ±0,40 0,16 0,91-0,49 0,33-2,26 0,35 1,07 96,30 95,40

90 Hynek Cígler infit outfit shoda s modelem (%) položka N b prahy SE χ 2 /df infit χ 2 /df infit r a pozorovaná predikovaná M 1,57 0,76 0,10 0,99 0,01 0,90-0,45 0,51 1,02 81,09 80,83 Md 1,57 0,49 0,09 0,97-0,39 0,90-0,59 0,54 1,03 80,60 79,30 SD 1,69 0,51 0,04 0,14 2,49 0,37 2,14 0,09 0,14 11,10 10,13 min -3,89 0,16 0,05 0,74-4,38 0,20-3,61 0,30 0,63 55,40 57,80 max 4,93 1,80 0,26 1,36 7,29 2,27 6,41 0,66 1,24 98,00 97,90 5. percentil -0,12 0,28 0,05 0,82-3,34 0,44-2,87 0,37 0,84 68,60 69,88 95. percentil 3,43 1,51 0,16 1,17 3,55 1,3 3,06 0,62 1,19 95,00 93,96 Pozn.: N počet skórovaných respondentů v dané položce; b odhad obtížnosti položky (položku b = 0 řeší průměrný respondent napříč všemi ročníky s 50% pravděpodobností správně); prahy Raschovy-Andrichovy prahy pro položky s více než dvěma možnými odpověďmi; SE standardní chyba odhadu obtížnosti; χ 2 /df tzv. mean-square statistika shody s modelem; infit z-standardizovaná hodnota χ 2 /df; r bodově-biseriální korelace predikovaného skóre (pravděpodobnosti) s reálnými odpověďmi respondentů; a odhad diskriminačního parametru položky (nebyl použit pro úpravy odhadů obtížností položek ani schopnosti respondentů jde o odhad, jaké diskriminace by položka nabývala ve 2PL modelu); shoda s modelem data byla hodnocena jako shodující se s modelem, byla-li velikost nestandardizovaného rezidua v poli odpověďové matice menší než 0,5; M průměrná hodnota ve sloupci; Md medián hodnot ve sloupci; SD směrodatná odchylka sloupce; min minimální hodnota sloupce; max maximální hodnota sloupce; 5. percentil / 95. percentil rozmezí 90 % hodnot ve sloupci OBR. 15 Charakteristická křivka funkce položky A01/B01

Měření matematických schopností 91 OBR. 16 Charakteristická křivka funkce položky (vlevo) a jejích kategorií (vpravo) A08/B08 OBR. 17 Charakteristická křivka funkce položky (vlevo) a jejích kategorií (vpravo) A15/B17

92 Hynek Cígler OBR. 18 Charakteristická křivka funkce položky A12/B13 (vlevo) a kategorií položky B13 (vpravo) OBR. 19 Charakteristická křivka položek B23 (vlevo) a B24 (vpravo) Vztah obtížnosti položek a všech respondentů předkládá Wrightova mapa na obr. 20. Na vodorovné ose je míra obtížnosti položky / schopnosti respondenta, histogram respondentů je nahoře, dole je rozložení položek podle obtížnosti. Vidíme, že položky jsou výrazně obtížnější, než by odpovídalo průměrnému respondentovi právě to bylo naším cílem při konstrukci testu TIM.

Měření matematických schopností 93 OBR. 20 Wrightova mapa zachycující vztah obtížnosti položek a míru latentního rysu respondentů 4.3.3 Reliabilita 4.3.3.1 Reliabilita ve smyslu vnitřní konzistence Během standardizace TIMu byla reliabilita odhadnuta několika různými způsoby. Vnitřní konzistence testu odhadnutá prostřednictvím standardizované Cronbachovy alfy se pro obě formy testu a pro jednotlivé ročníky pohybovala v rozmezí 0,849 0,897 (Md = 0,888) během pilotních sběrů dat (3 5 v tab. 3) a 0,668 0,910 (Md = 0,807) pro standardizaci (zde byla vnitřní konzistence testu nižší u žáků třetích tříd z důvodu efektu podlahy). Reliabilita odhadnutá prostřednictvím ordinální Cronbachovy alfy 66 se pohybovala v rozmezí 0,931 0,966 (Md = 0,960) během pilotáže a 0,679 0,970 (Md = 0,912) při standardizaci. Reliabilitě odhadnuté prostřednictvím klasické testové teorie se podrobněji věnuji v psychometrickém manuálu k testu (Cígler a kol., in press); zde výsledky neprezentuji, následující IRT odhady považuji za užitečnější. 4.3.3.2 Odhad reliability z Raschova modelu Na obr. 21 jsou zobrazeny informační křivky obou forem testu spolu s rozložením odhadů latentních skórů. Je patrné, že byl naplněn účel testu, tj. TIM měří s nejvyšší mírou přesnosti 66 Ordinální Cronbachova alfa se namísto variančně-kovarianční (klasická alfa) či korelační matice (standardizovaná alfa) počítá nad maticí polychorických korelací. Zejména v případě šikmých dat či položek s binární odpovědí a kratší odpověďovou škálou (do cca pěti stupňů) je lepším odhadem skutečné reliability ve smyslu vnitřní konzistence než jeho neordinální varianty (Zumbo, Gadermann a Zeisser, 2007).

94 Hynek Cígler v pásmu středního a vysokého nadprůměru. Je při tom patrné, že forma B v horním písmu měří nepatrně přesněji. OBR. 21 Informační funkce (TIC test information curve ) obou forem testu a rozložení skórů podle ročníků ( density plot ) Odhady reliability pro každý ročník, tři úrovně latentního skóru (první, druhá a třetí třetina respondentů v daném ročníku podle svého výkonu) a reliabilitu celého vzorku obsahuje tab. 11. S daty jsem přitom v tomto případě pracoval, jako by šlo o jediný test, a ne dvě různé formy tj. sčítal jsem chybový rozptyl napříč oběma formami testu (podrobný postup je popsaný v kap. 3.2). Vidíme, že v případě prvního tercilu čtvrtého a třetího ročníku (a částečně i ve druhém tercilu třetího ročníku) test nedosahuje dostatečné úrovně reliability vykazuje zde až příliš silný efekt podlahy. V případě ročníku pátého je test vhodný k měření prakticky všech úrovní matematických schopností. TAB. 11: ODHAD IRT RELIABILITY PRO JEDNOTLIVÉ ROČNÍKY A ÚROVNĚ LATENTNÍHO RYSU DOHROMADY PRO OBĚ FORMY 0. 33. percentil 34. 66. percentil 67. 100. percentil celý ročník 3. ročník 0,261 0,74 0,809 0,649 4. ročník 0,611 0,872 0,886 0,649 5. ročník 0,828 0,932 0,928 0,896 dohromady 0,723 0,911 0,921 0,851

Měření matematických schopností 95 OBR. 22 Rozložení lokálních reliabilit pro 3. (nahoře) 5. ročník (dole) včetně rozložení odhadů latentních rysů

96 Hynek Cígler Přehlednější pohled na přesnost měření podle úrovně latentního rysu předkládá obr. 22. Najdeme zde odhady lokální reliability podle Daniela (1999) pro jednotlivé ročníky, včetně informací o jejich rozložení. Rozdíl mezi formami A a B zde již není tolik patrný jako v případě informační funkce položek. Z důvodů zde uvedených není test TIM určený k měření matematických schopností žáků třetího ročníku, u nichž lze očekávat průměrný či horší výsledek. V případě žáků čtvrtého ročníku test důrazně nedoporučujeme používat u dětí, u nichž lze očekávat výsledek na úrovni 30. a nižšího percentilu. TIM je naopak použitelný u všech ostatních výkonnostních skupin 3. 4. třídy a prakticky u všech žáků pátého ročníku, zejména od percentilu 50. 4.3.3.3 Reliabilita jako stabilita v čase a reliabilita paralelních forem Ověření reliability ve smyslu test-retest a reliability paralelních forem proběhlo v rámci prvních dvou pilotních sběrů (3 4) v tab. 3, během kterých byly stejné děti vyšetřeny s odstupem tří až čtyř měsíců oběma formami TIMu. Protože jsem v předchozích kapitolách prokázal obdobné fungování pilotní i standardizační verze testu, lze zde prezentovaný odhad zobecnit i na finální verzi testu. Korelace pro jednotlivé ročníky i pro celý vzorek dohromady obsahuje tab. 12, druhý sloupec. Společný odhad reliability paralelních forem a stability v čase je pochopitelně nižší než separátní odhad (např. pomocí administrace obou forem ve stejný čas, případně prostřednictvím administrace téže formy s časovým odstupem), protože kombinuje oba zdroje chyb. Přesto jsou uvedené hodnoty vysoké; při separátním odhadu by byly podle modelu recenze testu podle EFPA hodnoceny jako adekvátní až vynikající; a to zvlášť podle ročníku i pro všechny ročníky dohromady (Bartram a kol., 2010). TAB. 12: RELIABILITA VE SMYSLU STABILITY V ČASE A SOUBĚŽNÝCH FOREM TESTU ročník r [95% CI] n β 3 0,793 [0,719; 0,849] 128 0,714 4 0,682 [0,549; 0,781] 85 0,480 5 0,804 [0,705; 0,872] 73 0,690 dohromady 0,775 [0,725; 0,817] 286 0,683 Poznámka: všechna p < 0,001, r Pearsonova korelace forem A a B s odstupem 3 4 měsíců; 95% CI 95% interval spolehlivosti; β standardizovaný regresní koeficient po očištění od vlivu účasti v matematickém kurzu. Výše prezentovaný odhad reliability mohl být nicméně ovlivněn skutečností, že část žáků v době mezi prvním a druhým testováním absolvovala rozvojový matematický kurz, který měl vliv na zlepšení jejich schopností oproti jejich vrstevníkům šlo o 40 (17 %) dětí ve třetím, 31 (20 %) ve čtvrtém a 23 (17 %) v pátém ročníku. Ty děti, které se kurzu účastnily, současně dosahovaly v prvním testování nejlepších výsledků 67, což mohlo pozorovanou korelaci nadhodnotit. Sestrojil jsem proto regresní model, kde byl skór v retestu v prvním kroku predikovaný pomocí skóru v pretestu. Pro všechny děti dohromady přidání informace o účasti v kurzu do regrese (β = 0,171, 67 Účastníci kurzu (M = 0,03, SD = 1,31) měli v prvním testování oproti ostatním dětem (M = 2,25, SD = 1,42) při srovnání t-testem statisticky významně lepší skór, t(284) = 10,735, efekt byl při tom silný, Cohenovo d = 1,63. Pro jednotlivé ročníky byly výsledky obdobné, velikosti účinku d3 = 1,63, d4 = 1,97, d5 = 1,76.

Měření matematických schopností 97 p < 0,001) zvýšilo o 2,1 % vysvětlený rozptyl, přičemž změna byla statisticky významná, F(1, 283) = 15,651, p < 0,001. Celkový vysvětlený rozptyl pak byl R 2 = 0,789. Standardizovaný regresní koeficient skóru z prvního testování se po očištění o vliv účasti v kurzu snížil na β = 0,683, p < 0,001. Přidání interakce kurzu a úrovně v pretestu do regrese rozptyl nezvětšilo, p = 0,884. Zvýšení vysvětleného rozptylu bylo na p < 0,05 signifikantní i pro jednotlivé ročníky zvlášť, regresní koeficienty pro jednotlivé ročníky i pro celý vzorek dohromady obsahuje tab. 12. Vyjma čtvrtého ročníku se silným vlivem účasti v kurzu (β = 0,322, p < 0,001), považuji i tyto hodnoty za uspokojivé až dobré a měření testem TIM je podle mého názoru dostatečně stabilní v čase i napříč formami testu. 4.3.4 Validita 4.3.4.1 Faktorová struktura (obsahová a konstruktová validita) Konfirmační faktorová analýza (obsahová validita) Po ukončení pilotních i standardizačních studií jsem provedl sérii konfirmačních a exploračních faktorových analýz a odhady Raschova modelu s daty. Všechny analýzy svědčí o výrazné jednodimenzionalitě modelu. To je překvapivé způsob konstrukce testu měl podle našich předpokladů vést ke třídimenzionální struktuře ve shodě se separátní pilotáží tří širších faset (geometrické, aplikační a aritmetické úlohy). Výsledky původních analýz jsou obsahem psychometrického manuálu (Cígler a kol., in press). Zde budu prezentovat nové analýzy, které vznikly jako reakce na připomínky anonymního recenzenta časopisu Learning and Individual Differences, kde jsme předkládali manuskript článku vzniklý na základě pilotáže (Cígler a kol., in review). Obsahem jeho výhrad bylo, že jsem sice testoval jednodimenzionální model, ale nesrovnal jsem jej s původním třídemzionálním řešením. Níže uvedené dodatečné analýzy, které nejsou součástí výše uvedeného článku a ani manuálu k testu, jsem provedl v programu R s balíčkem lavaan (Rosseel, 2012) a s využitím všech dostupných dat sloučil jsem tedy respondenty ze všech sběrů (3 6 v tab. 3) do jediného datasetu. Pro odhad modelu byla použita matice polychorických korelací s WLSMV robustním odhadem a delta parametrizací prahů položek. Na tomto místě chci podotknout, že shoda robustního odhadu byla výrazně horší než shoda modelu bez korekce (který zpravidla nevykazoval signifikantní testy dobré shody). Prezentuji však pochopitelně jen výsledky robustního odhadu. Aby bylo možné testovat hypotézu o rozdílu jednodimenzionálních a třídimenzionálních modelů, použil jsem ve všech případech hierarchické řešení, kde faktory prvního řádu tvořily tři širší fasety položek, popsané na s. 70 (aplikační, aritmetické a geometrické), sycené celkovými matematickými schopnosti. Pro účely jednodimenzionálního modelu byly fixované reziduální rozptyly faktorů prvního řádu na 0, což vede k matematicky ekvivalentnímu modelu, jako kdyby hlavní faktor sytil přímo jednotlivé položky. Modely byly srovnávány prostřednictvím funkce comparefit z balíčku semtools, rozdílový test dobré shody proto není založen na prostém rozdílu stupňů volnosti a chí-kvadrátu. Pokusil jsem se rovněž odhadnout model zvlášť pro žáky různých ročníků (multigroup analýza), ale vzhledem k vysokým obtížnostem některých položek u nižších ročníků nebylo možné takový model odhadnout bylo by nutné buď vyřadit některé položky, nebo odstranit celý třetí ročník.

98 Hynek Cígler Proto pracuji s celým souborem dohromady. Tento postup je navíc podpořen výsledky DIF analýzy prezentovanými níže (kap. 4.3.4.3.5), podle které je míra invariance napříč ročníky velmi vysoká. Výsledky analýz obsahuje tab. 13, na obr. 23 jsou zobrazeny 3dimenzionální modely pro formu A i B. V případě formy B byl u faktoru geometrie setrvale odhadován záporný reziduální rozptyl, který vedl ke standardizovanému náboji na celkovém skóru většímu než jedna. Z toho důvodu jsem provedl omezení modelu tak, aby minimálním přípustným reziduálním rozptylem byla 0. Toto omezení nemělo prakticky žádný vliv na shodu modelu s daty (Δχ 2 = 0,4, Δdf = 0, všechny ukazatele shody s daty zůstaly na původních hodnotách). Je ovšem patrné, že v obou případech vedlo třídimenzionální řešení k signifikantně lepšímu modelu na druhou stranu, praktický význam je zanedbatelný, rozdíl ve shodě s daty je minimální, ΔCFI 0,002. Navíc definice modelu nemá praktický vliv na faktorové skóry v případě formy A korelují celkové faktorové skóry odhadnuté pro respondenty na základě obou modelů r(817) = 0,995, v případě formy B r(647) = 0,998. V tab. 13 jsou navíc uvedeny i hodnoty McDonaldova koeficientu reliability ω total (semtools Contributors, 2015) odhadnutého z výsledků konfirmační faktorové analýzy, který zvažuje celý podíl veškerého vysvětleného rozptylu (faktor druhého řádu i tři faktory řádu prvního) a pozorovaného rozptylu. Je patrné, že zvážení vícedimenzionální struktury vede jen k zanedbatelnému nárůstu reliability. Lavaan bohužel neumožňuje definici různých modelů pro různé pozorované skupiny, nebylo proto možné testovat hypotézu o invarianci faktorů prvního řádu napříč formami testu. TAB. 13: KONFIRMAČNÍ FAKTOROVÁ ANALÝZA TESTU TIM (VŠECHNY SBĚRY, OBĚ FORMY) χ 2 / df forma A (n = 819) forma B (n = 797) 1dimenzionální 3dimenzionální 1dimenzionální 3dimenzionální 385,6/252 (p < 0,001) 320,4/249 (p = 0,002) 416,9/252 (p < 0,001) 392,5/249 (p < 0,001) CFI 0,988 0,993 0,988 0,989 TLI 0,987 0,993 0,986 0,988 RMSEA [95% CI] Δχ 2 /df b 0,025 [0,020 0,030] 0,019 [0,012 0,024] 37,2/2,5 (p < 0,001) 0,029 [0,024 0,033] 0,027 [0,022 0,032] 21,2/2,0 (p < 0,001) ΔCFI c 0,002 0,001 ω total 0,963 0,964 0,967 0,968 náboje a geometrie 1 0,995 1 1,000 d aplikace 1 0,915 1 0,964 aritmetika 1 0,949 1 0,952 a Standardizované strukturní koeficienty faktorů prvního řádu. b Rozdíl modelů byl vypočítaný po robustní korekci; není shodné s rozdílem df a chí-kvadrátu. c Po Satorra-Bentler korekci, není shodné s prostým rozdílem CFI. d Hodnota omezena pomocí fixace reziduálního rozptylu faktoru na větší nebo rovno nule.

Měření matematických schopností 99 OBR. 23 Strukturní diagram hierarchického řešení formy A (nahoře) a formy B (dole) pro třídimenzionální model; v případě jednodimenzionálního modelu by byla velikost nábojů faktorů prvního řádu rovna jedné. Sytost regresních šipek a reziduálních rozptylů udává relativní velikost hodnot, modré čáry u položek označují prahy položek. apl aplikační, gmt geometrické, art aritmetické úlohy. Položky jsou číslovány jiným způsobem než ve standardizační verzi testu (pol. A02 je v grafu uvedena jako položka A01 atd.)

100 Hynek Cígler Shoda dat s Raschovým modelem Ukazatelem jednodimenzionality je i shoda dat s Raschovým modelem. Celý datový soubor, tedy obě formy testu a všechny sběry dat, se shodoval s daty uspokojivým způsobem, χ 2 = 31773,88, df = 31754, p = 0,45. 68 Použil jsem i odhad RMSEA z reziduální matice, který navrhuje Maydeu-Olivares a kol. (2011). Za tímto účelem jsem použil standardizovanou reziduální matici exportovanou z programu Winsteps, nad kterou jsem spustil konfirmační faktorovou analýzu v R s balíčkem lavaan a robustním MLM odhadem. Její výsledky nejsou nijak zajímavé 69, nicméně prostřednictvím balíku semtools jsem extrahoval RMSEA nulového modelu (se Satorra-Bentler korekcí) a s pomocí balíku MBESS (Kelley, 2016) odhadl intervaly spolehlivosti. Výsledky obsahuje tab. 14 jsou znatelně horší než v případě konfirmační faktorové analýzy (tab. 13). Předpokladem Raschova jednoparametrového modelu je totiž obdobná diskriminace všech položek, konfirmační faktorový model je však analogický ke dvouparametrovému IRT modelu (2PL), který tento předpoklad na data neklade. Je evidentní, že 2PL model by data popsal lépe (tuto analýzu v programu R jsem provedl rovněž, výsledky zde již neprezentuji). Na druhou stranu, hodnoty RMSEA sice nejsou dobré, avšak podle MacCalluma, Browna a Sugawara (1996) jsou uspokojivé. Výhody fundamentálního měření v případě 1PL Raschova modelu pak podle mého názoru převyšují horší, ale stále dostatečnou shodu s daty. TAB. 14: RMSEA RASCHOVA MODELU PRO OBĚ FORMY TESTU forma A (n = 819) forma B (n = 797) χ 2 / df RMSEA [95% CI] 1527,9/276 (p < 0,001) 0,080 [0,075; 0,084] 1344,0/276 (p < 0,001),073 [0,069; 0,078] Pozn.: Odhad proveden podle postupu Maydeu-Olivares a kol. (2011) se Sattora-Bentler korekcí. Reziduální matici jsem analyzoval i jiným způsobem, zejména analýzou hlavních komponent (PCA). Výsledky jsou obsahem Psychometrického manuálu testu (Cígler a kol., in press) a jednoznačně ukazují na jednodimenzionalitu celého testu zároveň nebyl identifikován žádný smysluplný vzorec v reziduálním rozptylu. 4.3.4.2 Empirická validita Souběžnou, zejména konvergentní validitu ověřoval tým Šárky Portešové v různých studiích včetně několika diplomových prací. Jejich přehled je součástí Psychometrického manuálu testu (Cígler a kol., in press); zde uvádím jen stručné výsledky analýz, na jejichž uskutečnění jsem se 68 Jde o aproximovaný odhad počtu stupňů volnosti programem Winsteps; v případě skutečného počtu stupňů volnosti na základě datové matice overfitoval, tedy odpovídal datům lépe, než bychom čekali, p = 1. 69 Kromě toho variančně-kovarianční matice modelu nebyla pozitivně-definitivní, což však neomezuje interpretaci.

Měření matematických schopností 101 sám podílel. Zbylé studie zahrnovaly souvislost s motivací dětí (Cíglerová, 2016), vizuálně-prostorovými schopnostmi (Krčová, 2014; Cíglerová, 2016), délkou administrace (Cíglerová, 2016) aj.; další studie obou autorek pracovaly se stejnými proměnnými jako já osobně v níže prezentovaných analýzách. Jejich výsledky podporují výsledky zde prezentované, pro podrobné srovnání viz Psychometrický manuál (Cígler a kol., in press). Souvislost s matematickým nadáním (prediktivní validita) Během pilotní studie jsme provedli sérii analýz zjišťujících sílu vztahu mezi TIMem a mimořádným nadáním diagnostikovaným v pedagogicko-psychologické poradně (ve standardizačním vzorku se žádné dítě s potvrzením mimořádného nadání z PPP neobjevilo). Informace o typu mimořádného nadání bohužel nebyly k dispozici, a proto nebylo možné zjišťovat diferenciální validitu mezi různými typy nadání, např. mezi všeobecným intelektovým a specifickým matematickým nadáním. Velikost efektu byla ve všech případech velmi silná, Cohenovo d se pro jednotlivé ročníky pohybovalo mezi 1,2 1,8 (což odpovídá 0,67 > r > 0,5), výsledky včetně deskriptiv obsahuje tab. 15. Medián efektu pro všechny ročníky a obě verze byl Md = 1,59. TAB. 15: SOUVISLOST TESTU TIM A MIMOŘÁDNÉHO NADÁNÍ běžní M (SD) TIM (forma A) TIM (forma B) nadaní M (SD) t (df) d běžní M (SD) nadaní M (SD) 3. ročník -2,46 (1,32) -0,27 (1,06) 7,58 (182) 1,83-2,42 (1,44) -0,22 (1,46) 7,42 (180) 1,52 4. ročník -1,64 (1,55) 0,41 (0,83) 8,48 (49,5) 1,65-1,46 (1,55) 0,73 (1,03) 7,42 (180) 1,66 5. ročník -1,04 (1,24) 0,52 (1,35) 4,08 (110) 1,20-0,99 (1,55) 1,04 (1,38) 3,79 (103) 1,38 dohromady -1,84 (1,10) 0,15 (1,10) 11,85 (87,4) 1,52-1,75 (1,62) 0,32 (1,39) 9,20 (405 1,37 Pozn.: Všechna p < 0,001. d Cohenovo d. t (df) d Ve druhém kroku jsem provedl ROC analýzu pro celý soubor dohromady i pro jednotlivé ročníky zvlášť. Informace o ploše pod křivkou (včetně 95% intervalu spolehlivosti) jsou v tab. 16 medián plochy pod křivkou pro jednotlivé ročníky a obě formy byl Md = 0,865. Vzhledem k tomu, že diagnostikované nadání není objektivním kritériem, ale je samo zatíženo chybou, považuji uvedené hodnoty za výborné. Tabulka obsahuje rovněž zvolené kritické skóry (ve W-skórech i T-skórech) a odpovídající míry senzitivity a specificity. Z uvedených výsledků je patrné, že TIM s velkou mírou přesnosti diferencuje děti s identifikovaným mimořádným nadáním a běžné děti a vhodnou hranicí jsou 2 směrodatné odchylky nad průměrem, tedy běžně používané hranice pro diagnostiku mimořádného nadání. TAB. 16: SENZITIVITA A SPECIFICITA TESTU V PILOTÁŽI PŘI IDENTIFIKACI NADANÝCH DĚTÍ kritický skór W (T) forma A forma B AUC [95% CI] sens. spec. AUC 95% CI sens. spec. 3. ročník 515 (72).900 [.83-.97].783.795.850 [.77-.93] 714.818 4. ročník 524 (72).880 [.82-.94].850 792.886 [.83-.95].810.788 5. ročník 534 (68).818 [.67-.96].750.800.844 [.68-1.00].889.813 Pozn.: Kritický skór byl zvolen arbitrárně pro každý ročník a formu zvlášť. AUC plocha pod křivkou; CI interval spolehlivosti; sens. senzitivita; spec. specificita. Kritický skór je ve formátu W-skór (odpovídající T-skór).

102 Hynek Cígler Souvislost s intelektem K dispozici jsou dvě studie souvislosti TIMu s intelektem. První studie: U části dětí z pilotní studie, které v minulosti navštívily pedagogicko- -psychologickou poradnu, se podařilo se souhlasem zákonných zástupců získat informace o vyšetření intelektu prostřednictvím testu Woodcock-Johnson IE II COG (n = 30) a WISC-III (n = 52), 12 dětí absolvovalo oba testy. Medián časového intervalu mezi administrací WJ IE II COG a pilotní verzí TIMu činil 7 měsíců (s maximem 37 měsíců), u testu WISC-III pak 34 měsíců (s maximem 60 měsíců). Protože obě formy testu měří shodnou schopnost a protože část dětí absolvovala obě formy testu, nerozlišuji mezi formami testu a pro děti, u nichž byla data z obou forem, jsem použil průměrný skór. Ostatně korelace obou forem se lišily na hladině pravěpodobnosti p < 0,05 méně, než bychom očekávali na základě prosté náhody, χ 2 (24) = 10,5, p = 0,992. Zprůměrování obou forem testu alespoň částečně kompenzuje vysokou výběrovou chybu odhadu korelace v důsledku velmi malého souboru. Protože ne všechny děti byly ze stejného ročníku, před provedením korelační analýzy jsem odhady latentních rysů standardizoval podle ročníku dítěte na z-skór. Druhá studie: Členové týmu Šárky Portešové 70 po dokončení standardizační studie vyšetřili řadu dětí souběžně TIMem a testem Woodcock-Johnson IE II COG v rámci diagnostiky mimořádného intelektového nadání. Používali zejména formu A, kterou takto vyšetřili celkem N = 92 žáků 3. 5. tříd. Protože se ve všech případech jednalo o nadprůměrně šikovné děti, předpokládáme, že jsou díky nižší směrodatné odchylce zjištěné korelace podhodnocené, a to zejména v pilotním souboru 71. V případě pilotního sběru dat je pak odhad podhodnocen rovněž v důsledku velkého odstupu obou měření. Souhrnné výsledky obsahuje tab. 17 a v grafické podobě rovněž obr. 24. Test TIM pozitivně koreloval s většinou subtestů a subtestových trsů obou inteligenčních testů, vzhledem k malému vzorku však nebylo mnoho korelací signifikantních zejména v pilotáži s velmi malým vzorkem. Medián korelací testu WJ IE II COG s TIMem byl v pilotáži Md = 0,212; v dodatečných studiích Md = 0,330; medián korelací testu WISC-III pak Md = 0,256. Kromě prostých korelací jsem rovněž provedl i regresní analýzu s ročníkově standardizovaným skóre TIMu jako závislou proměnnou a s jednotlivými subtesty coby prediktory (v případě pilotní studie a testu WISC-III byly některé subtesty s menším počtem respondentů vynechány v tomto případě není uveden β-koeficient v regresi). Výhodou tohoto postupu je, že kontroluje vliv ostatních subtestů na skór v TIMu; tedy splňuje podmínky, o nichž jsem psal v kap. 2.2.1.1. Výsledky jsou rovněž v tab. 17. Zejména dodatečné výsledky odpovídají velmi dobře teoretickým předpokladům a ukotvení matematických schopností v rámci CHC teorie, kromě nečekaně silného vlivu prostorových schopností. 70 Já osobně jsem se přímé administrace testů neúčastnil. 71 V pilotní studii byl medián průměrů vážených skórů subtestů WJ 119,8 s rozmezím 108,0 135,1, medián směrodatných odchylek 12,2 a průměr celkového IQ pak 131,7, SD = 11,2. Medián průměrů vážených skórů subtestů WISC-III byl 13,80 s rozpětím 11,75 15,65, medián směrodatných odchylek byl 2,47; průměr celkového IQ byl 130,67, SD = 8,58. V dodatečné studii byl medián vážených skórů WJ 116,4 s rozmezím 107,6 123,7, medián směrodatných odchylek 14,3 a průměr celkového IQ pak 124,9, SD = 15,1.

WJ: Paměť na jména WJ: Prostorové vztahy WJ: Zvukové vzorce WJ: Formování konceptů WJ: Vizuální porovnávání WJ: Obrácené číselné řady WJ: Kvantitativní vyvozování WJ: Celkové IQ WJ: Verbální schopnosti (celkem) WJ: schopnosti myšlení (celkem) WJ: kognitivní efektivnost (celkem) WISC: Doplňování obrázků WISC: Vědomosti WISC: Kódování WISC: Podobnosti WISC: Řazení obrázků WISC: Počty WISC: Kostky WISC: Slovník WISC: Skládanky WISC: Porozumění WISC: Opakování čísel WISC: IQ WISC: VIQ WISC: PIQ Měření matematických schopností 103,80,60,40,20,00 -,20 -,40 pilotáž dodatečné OBR. 24 Korelace testu TIM a intelektových baterií Woodcock-Johnson a WISC-III

104 Hynek Cígler TAB. 17: KORELACE TESTU TIM A INTELEKTOVÝCH BATERIÍ WOODCOCK-JOHNSON A WISC-III pilotní studie dodatečné studie r [95% CI] n β r [95% CI] n β WJ: Paměť na jména,25 [-0,13; 0,56] 29,199,25 * [0,05; 0,43] 92 -,020 WJ: Prostorové vztahy,45 * [0,1; 0,7] 29,513 *,51 *** [0,34; 0,65] 92,292 * WJ: Zvukové vzorce -,05 [-0,41; 0,32] 29 -,374,23 * [0,03; 0,42] 92 -,003 WJ: Formování konceptů,02 [-0,36; 0,4] 27 -,301,22 * [0,01; 0,41] 90 -,093 WJ: Vizuální porovnávání,19 [-0,2; 0,53] 28,113,14 [-0,06; 0,34] 91,067 WJ: Obrácené číselné řady,21 [-0,17; 0,54] 29,093,33 ** [0,13; 0,5] 92,072 WJ: Kvantitativní vyvozování,38 * [0,02; 0,66] 29,174,56 *** [0,4; 0,69] 92,398 *** WJ: Celkové IQ,21 [-0,19; 0,55] 26,199,43 *** [0,25; 0,59] 91 -,020 WJ: Verbální schopnosti (celkem),05 [-0,33; 0,41] 29,00 [-0,21; 0,2] 92 WJ: schopnosti myšlení (celkem),26 [-0,12; 0,57] 29,43 *** [0,25; 0,58] 92 WJ: kognitivní efektivnost (celkem),24 [-0,14; 0,56] 28,34 *** [0,14; 0,51] 91 WJ regrese: F-test F(7, 16) = 1,846 F(7, 79) = 6,738 *** adjustovaný R 2 0,205 0,318 WISC: Doplňování obrázků,15 [-0,14; 0,4] 51,168 WISC: Vědomosti,40 ** [0,14; 0,61] 51 -,064 WISC: Kódování,32 * [0,05; 0,55] 51,192 WISC: Podobnosti,11 [-0,17; 0,38] 51,063 WISC: Řazení obrázků -,06 [-0,33; 0,22] 51,027 WISC: Počty,40 ** [0,14; 0,61] 51,349 * WISC: Kostky,50 *** [0,27; 0,68] 51,419 * WISC: Slovník,13 [-0,15; 0,4] 49,085 WISC: Skládanky,17 [-0,16; 0,46] 38 WISC: Porozumění,19 [-0,32; 0,61] 17 WISC: Opakování čísel,19 [-0,13; 0,47] 41,044 WISC: IQ,56 *** [0,32; 0,73] 47 WISC: VIQ,43 ** [0,16; 0,63] 48 WISC: PIQ,34 * [0,06; 0,57] 48 WISC regrese: F-test F(9, 29) = 3,322 ** adjustovaný R 2 0,205 * p < 0,05; ** p < 0,01; *** p < 0,001. Souvislost s hodnocením učitele Ve standardizační i pilotní studii učitelé označovali i děti, které sice nebyly diagnostikované jako nadané, ale učitel je považoval za mimořádně šikovné. Učitelé dokázali poměrně dobře diferencovat děti s vyšší a nižší úrovní matematických schopností zachycených v TIMu, jak ukazuje tab. 18 pro pilotní a tab. 19 pro standardizační vzorek (z pilotního vzorku jsou již vyřazeny nadané děti, které učitel nemohl označit jako šikovné). Medián síly efektu v pilotní studii byl Md d = 0,78, ve standardizační Md d = 1,36, celkově Md d = 0,87.

Měření matematických schopností 105 TAB. 18: SOUVISLOST TIMU A HODNOCENÍ UČITELE V PILOTNÍ STUDII forma A forma B běžní šikovní t (df) d běžní šikovní t (df) d 3. ročník -2,56 (1,35) -1,71 (0,75) 4,21 (93,2) 0,79-2,58 (1,41) -1,61 (1,33) 3,14 (152) 0,71 4. ročník -2,10 (1,43) -0,32 (1,06) 5,82 (99) 1,41-1,70 (1,56) -0,64 (1,22) 3,02 (97) 0,76 5. ročník -1,40 (1,14) -0,6 (0,92) 5,47 (98) 0,77-1,41 (1,54) 0,04 (1,01) 5,47 (98) 1,11 dohromady -2,15 (1,40) -0,60 (1,15) 8,71 (360) 1,21-2,05 (1,57) -0,71 (1,36) 6,75 (347) 0,91 Pozn.: Všechna p < 0,01. d Cohenovo d. TAB. 19: SOUVISLOST TIMU A HODNOCENÍ UČITELE VE STANDARDIZAČNÍ STUDII TIM běžní šikovní t (df) d 3. ročník -1,25 (1,23) -0,24 (1,09) 3,523 (241) 0,87 4. ročník -0,24 (1,26) 1,33 (0,92) 3,920 (274) 1,42 5. ročník 0,65 (1,53) 2,75 (1,55) 4,469 (276) 1,36 dohromady -0,23 (1,55) 0,94 (1,73) 4,672 (795) 0,71 Pozn.: Všechna p < 0,01. d Cohenovo d. Souvislost se školním prospěchem Školní prospěch je do určité míry jen jiným vyjádřením hodnocení dítěte učitelem. V pilotní i ve standardizační studii jsme zjišťovali školní prospěch v matematice a v českém jazyce, v případě pilotní studie šlo o výsledky ze čtvrtletního hodnocení, v případě standardizační studie o známky z pololetního vysvědčení. V případě obou studií dosahují děti s lepšími známkami také lepších výsledků v testu TIM, a to jak v rámci celého souboru, tak i v jednotlivých ročnících dohromady konkrétní výsledky předkládá tab. 20 a obr. 25. Medián korelací s českým jazykem (standardizační studie, protože obsahuje souhrnné údaje pro obě formy, byla zahrnuta dvakrát) je 0,422, s matematikou 0,372. Poměrně překvapivě se na základě prezentovaných výsledků nezdá, že by TIM souvisel jinou měrou s hodnocením v matematice a v českém jazyku (v pilotáži jsou vyšší korelace s českým jazykem, ve standardizaci zase s matematikou, rozdíly v žádném z případů nejsou signifikantní 72 ). Souběžně s tím můžeme soudit, že se vzrůstajícím věkem dětí (zejména srovnáme-li žáky třetích ročníků a ostatní děti) je vztah školního hodnocení a známek vyšší. Tento jev je nicméně zřejmě způsoben vysokou obtížností testu pro třeťáky, a tedy nižší variabilitou výsledků, která odhad korelace mohla snížit. 72 Srovnány 95% intervaly spolehlivosti při bootsrapovém odhadu, n = 1000.

106 Hynek Cígler TAB. 20: VZTAH TIMU A ŠKOLNÍHO PROSPĚCHU V PILOTNÍ A STANDARDIZAČNÍ STUDII pilotní studie standardizační studie známka Čj známka M známka Čj známka M 3. ročník (n = 172) 4. ročník (n = 99) 5. ročník (n = 96) forma A -,283 *** -,232 *** TIM -,330 *** -,360 *** forma B -,189 ** -,190 ** 3. ročník známka Čj 1,000,591 *** známka z Čj 1,000,527 *** (n = 239) známka M,591 *** 1,000 známka z M,527 *** 1,000 forma A -,443 *** -,372 *** TIM -,449 *** -,495 *** forma B -,400 *** -,371 *** 4. ročník známka Čj 1,000,656 *** známka z Čj 1,000,591 *** (n = 253) známka M,656 *** 1,000 známka z M,591 *** 1,000 forma A -,443 *** -,350 *** TIM -,465 *** -,488 *** forma B -,364 *** -,373 *** 5. ročník známka Čj 1,000,753 *** známka z Čj 1,000,599 *** (n = 275) známka M,753 *** 1,000 známka z M,599 *** 1,000 celkem (n = 367) forma A -,257 *** -,174 *** TIM -,274 *** -,288 *** forma B -,198 *** -,138 ** celkem známka Čj 1,000,688 *** známka z Čj 1,000,590 *** (n = 767) známka M,688 *** 1,000 známka z M,590 *** 1,000 Pozn.: V tabulce je použit Kendallův pořadový korelační koeficient (Kendallovo τ). ** p < 0,01; *** p < 0,001 OBR. 25 Vztah školního prospěchu a TIMu ve standardizační studii

Měření matematických schopností 107 Souvislost s numerickými (početními) schopnostmi Subtest aritmetických operací, resp. rychlost zpracování, který jsem zběžně popsal výše, nevyhovoval v žádném případě Raschovu modelu, položky nebyly lokálně nezávislé a jejich obtížnosti se značně lišily napříč testem a retestem. Příčinou může být různé pracovní tempo, které způsobuje vynechávání některých položek, což v kombinaci se změnou jejich pořadí mohlo zhoršit fungování testu. Tento subtest navíc vykazoval obecně nízkou reliabilitu ve smyslu vnitřní konzistence i test-retestové reliability, a proto byl z finální verze TIMu vyřazem. Přesto je vztah 10 aritmetických položek s TIMem zajímavým validizačním kritériem vzájemné korelace a reliability ukazuje tab. 21, medián korelací byl Md = 0,465. Podobný typ úloh bývá běžným kritériem ke známkování dětí ve škole, ostatně korelace aritmetických úloh se školním prospěchem byly středně silné, medián korelací (Kendallovo tau) napříč ročníky, předměty a sběry dat byl Md τ = 0,420 tedy těsnější než souvislost známek a TIMu u těch stejných dětí (Md τ = 0,363), a to i přes jeho značně vyšší reliabilitu. Školní hodnocení se tak zdá být tedy založeno spíše na schopnosti počítat než na kvalitě matematického usuzování. Rozdíl v síle těchto vztahů však nelze přímo testovat z důvodu nesplněných předpokladů pro strukturní model a současně výrazně odlišných reliabilit. K podobným výsledkům ve své diplomové práci došla i Cíglerová (2016), která zjišťovala vztah testu TIM a skóru v Číselném trojúhelníku (Novák, 1997). Děti, které vynechaly alespoň jeden z parciálních výpočtů v trojúhelníku, dosáhly výrazně nižšího výsledku v TIMu oproti dětem, které žádný výpočet nevynechaly (Cohenovo d = 0,77, p = 0,021). Celkový počet numerických chyb, byť slabě, negativně koreloval s výsledkem v TIMu, Kendallovo τ = 0,236, p = 0,007, a stejně tak počet chyb přehlédnutím / nadbytečným výpočtem, Kendallovo τ = 0,214, p = 0,017. Nalezené korelace tak odpovídají názoru, že dobré zvládnutí numerických operací je sice prerekvizitou vysokých výkonů v matematice (Carraher a kol., 2006; Butterworth, 2005; Slavit, 1999), ale zároveň není s matematickým nadáním totožné. Výsledky tedy potvrzují náš předpoklad, že matematické nadání odpovídá spíše schopnosti hledat řešení složitějších matematických problémů než jen rychle a přesně provádět aritmetické operace (Miller, 1990; Mann, 2006), což je schopnost, která je mnohem těsněji provázaná například s pracovní pamětí (Swanson, 2005) než se složitějšími exekutivními funkcemi. TAB. 21: VZTAH MATEMATICKÉHO USUZOVÁNÍ (TIM) A SCHOPNOSTI ARITMETICKÝCH OPERACÍ 1. sběr 2. sběr test-retest N M (SD) α rtim N M (SD) α rtim N rretest ročník 3 223 7,86 (1,96) 0,67,46 *** 134 8,57 (1,61) 0,61,46 *** 130,50 *** ročník 4 120 7,73 (2,18) 0,73,66 *** 88 7,97 (2,27) 0,80,51 *** 88,61 *** ročník 5 120 6,99 (2,94) 0,85,43 *** 81 7,65 (2,46) 0,80,47 *** 81,63 *** α Cronbachova alfa početních úloh; rtim korelace s testem TIM; rretest test-retest reliabilita početních úloh po třech měsících.

108 Hynek Cígler Nominace lektorů kurzu pro podporu matematických schopností Děti navštěvující matematický kurz byly navíc průběžně hodnoceny garanty celého kurzu z Pedagogické fakulty Masarykovy univerzity na základě svých písemných výstupů a své motivace v průběhu kurzu (podrobně viz Cígler a kol., in review). Ty děti, které dosahovaly v kurzu nejlepších výsledků a projevovaly napříč kurzem zájem o probíranou problematiku, byly lektory označeny jako vysoce motivované. Průměrný skór takto nominovaných dětí (n A = 32, n B = 28) byl 0,30 (SD = 1,05) ve formě A a 0,97 (SD = 1,12) ve formě B; průměrný skór ostatních účastníků kurzu (n A = 44, n B = 51) byl ve formě A 0,31 (SD = 1,14) a 0,28 (SD = 1,40) ve formě B. Lektoři v době hodnocení neznali skóry jednotlivých účastníků kurzu. Tyto vybrané děti tedy oproti ostatním účastníkům kurzu skórovaly v TIMu lépe, a to jak ve formě A, t(74) = 2,36, p = 0,021, tak i ve formě B, t(77) = 4,08, p < 0,001. Síla efektu přitom byla střední až vysoká, Cohenovy d A = 0,55, d B = 0,99. Tento vztah je rovněž důkazem obsahové validity testu; děti s vyšším skórem se při práci s matematickým materiálem projevují takovým způsobem, jakým by se měly nadané děti projevovat podle odborníků na problematiku vzdělávání nadaných. 4.3.4.3 Konstruktová validita Souvislost s intelektem Vztah testu Woodcock-Johnson II IE COG a testu TIM jsem kromě korelační a regresní analýzy pozorovaných skórů, jejíž výsledky jsem prezentoval v kapitole 4.3.4.2.2 na s. 102, ověřil i pomocí strukturního modelu. Tato analýza dosud nebyla publikována jinde. Strukturní model jsem opět sestrojil s využitím programu R a balíčku lavaan (Rosseel, 2012), dále jsem využil balíčky semtools a semplot (semtools Contributors, 2015; Epskamp, 2014). Použil jsem data z dodatečných analýz (viz kap. 4.3.4.2.2) u dětí, které absolvovaly formu TIMu A (formu B absolvovalo příliš málo dětí). Bohužel, analýzy jsou nutně zkreslené v důsledku malých vzorků. Zároveň z důvodů problému s konvergencí jsem v případě analýz zahrnujících i test TIM v prvním kroku odhadnul běžný model s předpokladem intervalových manifestních proměnných s pomocí MLM estimátoru, a výstupní hodnoty použil jako startovní hodnoty pro následný WLSMV odhad ordinálního modelu, což mohlo zkreslit výsledky analýz. V první řadě jsem provedl CFA testu WJ s MLM odhadem pro jednotlivé subtesty všechny sytily celkový g-faktor. Velikost vzorku byla n = 68, model dobře popsal data, χ 2 (20) = 19,42, p = 0,495, TLI = 1,000, RMSEA = 0, CI 95% = [0,000; 0,101], p(rmsea < 0,05) = 0,681. Ve druhém kroku jsem provedl ordinální CFA nad polychorickými korelacemi testu TIM (forma A) s robustním WLSMV odhadem, n = 116. I tento model dobře popsal data, χ 2 (252) = 281,9, p = 0,095, TLI = 0,953, RMSEA = 0,032, CI 95% = [0,000; 0,051], p(rmsea < 0,05) = 0,940. Ve třetím kroku jsem oba modely spojil a nechal na základě g-faktoru predikovat skór v TIMu. I tento model odpovídal datům, χ 2 (463) = 487,1, p = 0,211, TLI = 0,959, RMSEA = 0,029, CI 95% = [0,000; 0,053], p(rmsea < 0,05) = 0,917. Standardizovaný regresní koeficient TIMu na g-faktoru byl extrémně vysoký, β = 0,922, p < 0,001. Bohužel, vzhledem k malém vzorku a komplexnosti modelu nebylo možné prozkoumat další vztahy, například přidání reziduálního rozptylu kvantitativního usuzování v testu WJ do regrese

Měření matematických schopností 109 g-faktoru na TIM, tento model v případě ordinálního řešení nekonvergoval (konvergoval pouze MLM odhad s předpokladem intervalových dat; v jeho případě byly regresní koeficienty kvantitativního usuzování a g-faktoru rovnocenné a pohybovaly se okolo 0,5, nicméně předpoklady modelu byly významně porušené a shoda s daty byla poněkud slabší). Je rovněž nutné podotknout, že dobré údaje o shodě modelu s daty mohou být zkreslené malým vzorkem; ostatně Hoelterovo kritické N (α = 0,05) pro model pouze s WJ bylo N crit = 112, pro model jen s TIMem N crit = 146 a pro celý model N crit = 101, což jsou nepříjemně malé hodnoty. Rozložení skórů testu Matematické schopnosti by měly být v populaci normálně rozdělené. Protože je Raschův model invariantní na vzorku, i přes silně zešikmené rozložení hrubých skórů by odhady latentních rysů měly mít přibližně normální distribuci. Rozložení jsem proto ověřil jednovýběrovým Kolmogorovovým-Smirnovovým testem pro každý ročník zvlášť, a to pouze pro standardizační vzorek (pilotní vzorek nebyl výběrem z normální populace). Protože byly distribuční parametry odhadnuty z dat, použili jsme metodu odhadu Monte Carlo v SPSS (n = 100000). Rozložení odhadů latentních skórů třeťáků se statisticky významně liší od rozložení normálního, K(243) = 0,133, p < 0,001. Rozložení skórů čtvrťáků, K(276) = 0,078, p < 0,066, ani páťáků, K(276) = 0,079, p < 0,060, se však od normální distribuční funkce neliší. Q-Q grafy jsou na obr. 26. Lze uzavřít, že u čtvrté a páté třídy Raschův model normalizoval zešikmené rozložení hrubých skórů. V případě třetí třídy na základě analýzy Q-Q grafu soudíme, že odlišnost způsobuje zejména hrubý vztah úrovně latentního rysu a možných úrovní hrubého skóru, což je patrné z bodů seskupených do dlouhých horizontálních řad v levé dolní části grafu. Praktická významnost odchylky od normálního rozložení je proto zanedbatelná. OBR. 26 Q-Q graf odhadů latentních skórů 3., 4. a 5. třídy (zleva) Efekt rozvojového programu pro podporu matematických schopností Mezi prvním a druhým sběrem dat v pilotní studii (sběry 3 4 v tab. 3) některé děti absolvovaly osm setkání v rámci rozvojového programu pro podporu matematických schopností, které zpravidla vedl jeden z učitelů matematiky na dané škole. Mezi dětmi zařazenými do kurzu byli bohužel veškeří nadaní žáci, což může např. zkreslit výsledky lineární regrese uvedené v kap. 4.3.4.3.4 z důvodu multikolinearity (ve druhém kroku nicméně byl nejvyšší VIF = 2,777, což

110 Hynek Cígler nenaznačuje závažnější potíže). Pro ověření předpokladu, že absolvování matematického kurzu vede ke zvýšení matematických schopností, jsem použil lineární regresi; výsledky jsou v tab. 22. Pokud předpokládáme, že absolvování kurzu vedlo k byť dočasnému zlepšení matematických dovedností, pak by se tento efekt měl projevit i ve skóre v TIMu při jeho retestu. Skór v pretestu velmi dobře predikoval skór v retestu (samotná test-retest reliabilita, jak jsme uvedli dříve, byla r xx = 0,775). Vidíme také, že páťáci se zlepšili v retestu více než třeťáci a čtvrťáci (konkrétní příčiny nám nejsou známé). Z prvního modelu bychom mohli soudit, že se nadaní žáci zlepšili více než běžné děti (a tedy že se jejich nadání v čase zvyšuje); jde však jen o zdánlivou korelaci způsobenou právě faktem, že nadaní byli zařazeni do rozvojového kurzu. Jeho zařazení do regrese signifikantně zvýšilo vysvětlený rozptyl ve druhém modelu, ačkoliv efekt kurzu byl spíše slabý; efekt nadání jako takového přestal být signifikantní. Třetí model s interakční proměnnou již žádný další vysvětlený rozptyl nepřináší a přímo z něj vidíme, že rozvojový kurz měl stejný vliv na všechny děti bez ohledu na počáteční míru jejich matematických schopností. TAB. 22: VLIV ÚČASTI V MATEMATICKÉM KURZU NA SKÓRE V RETESTU model 1 model 2 model 3 pretest,655 ***,620 ***,627 *** nadání,164 **,044,058 * 4. ročník -,016 -,006 -,005 5. ročník,135 **,143 **,145 ** účast v kurzu,183 **,161 * interakce kurz pretest -,019 R 2,624,634,633 119,310 F *** 99,810 *** 82,965 *** df = 4, 281 df = 5, 280 df = 6, 279 R 2,011,000 8,711 F **,189 df = 1, 280 df = 1, 279 Pozn.: Závislou proměnnou bylo skóre v retestu. Tabulka obsahuje standardizované β regresní koeficienty. * p < 0,05; ** p < 0,01; *** p < 0,001. N = 286. Další souvislosti TIMu Během pilotní studie (Cígler a kol., in press; in review) jsme testovali další souvislosti testu TIM v rámci jediného regresního modelu, jehož výsledky obsahuje tab. 23. Je patrné, že nejsilnějším prediktorem skóru testu je mimořádné nadání a školní ročník. Silným prediktorem je též označení dítěte učitelem jako šikovné a také (na rozdíl od standardizační studie) čas práce na testu nelze však říci, zda delší čas vede k lepšímu výsledku, či zda děti s větší motivací a lepšími schopnostmi pracují déle. Nezapomínejme, že v případě zájmu mohly děti pracovat během pilotáže i přes přestávku, což při standardizaci pochopitelně možné nebylo. Datum sběru mělo relativně silný efekt děti, které absolvovaly příslušnou verzi testu při druhém sběru dat (tedy v únoru), dosahovaly výrazně lepších výsledků než děti z prvního sběru

Měření matematických schopností 111 (listopadového), ačkoliv mezi oběma skupinami byl rozdíl jen tří měsíců; zdá se také, že vliv těchto tří měsíců je slabší u vyšších ročníků, byť výsledky nejsou ve všech případech statisticky významné. Zároveň je nutné podotknout, že vliv délky práce na testu se vůbec neprojevil ve standardizační studii délka administrace signifikantně nekorelovala se skórem v testu v celém vzorku ani v jednotlivých ročnících, všechna 0,063 < r < 0,074 (všechna p > 0,075). Předpokládám, že za korelací v pilotním vzorku mohl stát fakt, že položky nebyly v této verzi seřazené podle obtížnosti. V posledním kroku, který také zvýšil statisticky významně vysvětlený rozptyl, jsem do modelu doplnil informace o specifických poruchách učení a ADHD. Vzhledem k malým četnostem klinických skupin nejsou výsledky zcela spolehlivé, zdá se však, že efekt dyslexie a dysortografie je spíše slabší (nesignifikantní); vliv dalších blíže neurčených SPU je záporný, ale také slabý, stejně jako v případě ADHD. V případě dyskalkulie a dysgrafie jsou četnosti příliš nízké, než aby bylo možné činit jakékoliv závěry. Invariance testu: Diferenciální fungování položek (DIF analýza) K DIF analýze jsem použil data standardizačního souboru s výjimkou analýzy matematického nadání, kde jsem použil data z pilotáže standardizační vzorek neobsahoval žádné nadané děti. Všechny analýzy byly provedeny najednou pro obě formy, parametry položek byly odhadnuty naráz nad celým vzorkem. V případě dvou skupin jsem obě srovnával navzájem pomocí t-testu, v případě více skupin jsem zpravidla t-testem srovnával odhad celého vzorku s odhadem příslušné skupiny. Chlapci a dívky se v žádném z ročníků nelišili v průměrném celkovém skóru (všechna p > 0,200) a nelišil se ani rozptyl skórů (všechna p > 410). Jen u sedmi položek (15,9 %; položky AB02, A05, AB08, A13, A16, B09 a B14) se pak signifikantně (p < 0,05) lišily lokální odhady jejich obtížnosti; po Bonferroniho korekci byl signifikantní nicméně jediný rozdíl, a to AB08 (pro chlapce byla položka o 0,58 logitu obtížnější). Průměrná velikost absolutní hodnoty rozdílu odhadu mezi oběma skupinami byla 0,257 logitu (SD = 0,228), medián 0,19. Směrodatná odchylka t-hodnot byla 1,45. Ačkoliv jsou pozorované rozdíly větší než náhodné, χ 2 (43) = 78,20, p < 0,001, reálný efekt je velmi slabý Pearsonova korelace mezi lokálními odhady obtížnosti pro chlapce a dívky byla r = 0,981. Rozdíly ve fungování testu TIM mezi chlapci a dívkami jsou zanedbatelné a mohu tedy uzavřít, že TIM měří shodně pro obě pohlaví. Vizuální přehled rozdílů lokálních odhadů položek obsahuje obr. 27.

112 Hynek Cígler TAB. 23: SOUVISLOST TIMU S DALŠÍMI PROMĚNNÝMI (SPU, NADÁNÍ, ROČNÍK, SBĚR DAT A DALŠÍ) forma A (závislá proměnná) forma B (závislá proměnná) proměnná β (model 1) β (model 2) model 3 model 3 β B [95% CI] model 1 β model 2 β β B [95% CI] mimořádné nadání,43 ***,43 ***,46 *** [1,81; 2,54],38 ***,38 ***,40 *** [1,66; 2,5] 4. ročník,25 ***,31 ***,32 *** [,78; 1,44],27 ***,31 ***,32 *** [,83; 1,6] 5. ročník,38 ***,42 ***,42 *** [1,17; 1,85],35 ***,32 ***,33 *** [,92; 1,71] 2. sběr dat a,15 ***,25 ***,25 *** [,5; 1,27],22 ***,23 ***,25 *** [,51; 1,37] nominované učitelem,31 ***,30 ***,28 *** [,85; 1,46],22 ***,21 ***,19 *** [,48; 1,2] délka práce,23 ***,23 ***,23 *** [,03;,07],27 ***,26 ***,27 *** [,05;,09] interakce: 4. ročník 2. sběr dat interakce: 5. ročník 2. sběr dat dyslexie nebo dysortografie (na = 12; nb = 13) dyskalkulie (na = 1; nb = 2) dysgrafie (na = 3; nb = 4) kombinované nebo jiné SPU (na = 36; nb = 31) ADHD (na = 6; nb = 6) -,13 * -,13 * [-1,33; -,15] -,09 -.09 [-1,2;,15] -,09 -,09 t [-1,13;,09],05.02 [-,57;,83] -,03 [-0,98;,39] -.07 t [-1,58;,01] -,14 *** [-5,53; -1,85] -.04 [-3,41;,89],01 [-1,2; 1,43].03 [-1,02; 2,07] -,13 *** [-1,23; -,35] -.11 ** [-1,27; -,25] -,07 * [-2,01; -,03] -.09 * [-2,52; -,22] R 2,470,479,519,438,445,471 F 56,47 *** 43,60 *** 31,08 *** 48,54 *** 37,30 *** 25,13 *** R 2,009,040,007,026 F 3,113 * 6,242 *** 2,460 t 3,58 ** Poznámka: NA = 389, NB = 381. CI = interval spolehlivosti pro nestandardizovaný regresní koeficient. t p <.1; * p <.05; ** p <.01; *** p <.001, tučně zvýrazněné hodnoty jsou signifikantní na p < 0,05. a cca tři měsíce po prvním sběru dat.

AB01 AB02 A03 A04 A05 A06 A07 AB08 A09 A10_B11 A11 A12 A13 A14_B15 A15_B17 A16 A17_B18 A18 A19 A20 A21 A22 A23 A24 A25 B03 B04 B05 B06 B07 B09 B10 B12 B13 B14 B16 B19 B20 B21 B22 B23 B24 B25 Lokální odhad obtížnosti Měření matematických schopností 113 8 6 4 2 0-2 chlapci -4 dívky -6 Položka OBR. 27 DIF analýza mezi chlapci a dívkami Dále jsem ověřoval rozdílné fungování testu napříč ročníky (zde jsem srovnával lokální odhad obtížnosti položky v příslušném ročníku s celkovým průměrným odhadem v celém vzorku). Na hladině pravděpodobnosti p < 0,05 se lišily odhady pouze ve 4 ze 120 (3,3 %) provedených t-testů, po Bonferroniho korekci nebyl nalezen žádný rozdíl. Průměrná hodnota absolutního rozdílu byla 0,25 logitu (SD = 0,29, Md = 0,17) a klesala s věkem to je však očekávatelné vzhledem ke snižujícím se chybám odhadu parametrů položek se vzrůstající mírou latentního rysu respondenta. Ačkoliv při párovém srovnání každého ročníku s každým se lokální odhady obtížností vzájemně signifikantně liší, χ 2 (129) = 178,89, p = 0,003, velikost těchto odchylek je zanedbatelná, všechny korelace odhadů mezi ročníky jsou vyšší než 0,962. Můžeme tedy uzavřít, že neexistují významné DIF rozdíly mezi jednotlivými ročníky a že tedy test TIM je napříč ročníky invariantní. Vizuální znázornění DIF přináší obr. 28. To je velmi důležité zjištění z hlediska konfirmačních faktorových analýz, které jsem prezentoval výše v kap. 4.3.4.1.1 na s. 97. Na základě této analýzy lze předpokládat faktorovou invarianci napříč ročníky, a není tedy nutné odhadovat parametry faktorového modelu pro každý ročník zvlášť. Tento postup by vzhledem k malému vzorku a velkému množství volných parametrů nebyl možný, modely konstruované jako multi-group nekonvergovaly.

AB01 AB02 A03 A04 A05 A06 A07 AB08 A09 A10_B11 A11 A12 A13 A14_B15 A15_B17 A16 A17_B18 A18 A19 A20 A21 A22 A23 A24 A25 B03 B04 B05 B06 B07 B09 B10 B12 B13 B14 B16 B19 B20 B21 B22 B23 B24 B25 lokální odhad obtížnosti 114 Hynek Cígler 8 6 4 2 0-2 -4 3. ročník 4. ročník 5. ročník -6 položka OBR. 28 DIF analýza mezi ročníky Obdobně jsem srovnal i děti podle věku (po roce od 8 do 12 let). Celkem devět rozdílů bylo signifikantních na p < 0,05, po Bonferonniho korekci žádný. Podrobné výsledky analýzy byly pochopitelně obdobné s DIF analýzou podle ročníku, a proto je zde neuvádím. Jako statisticky významný se potvrdil rozdíl ve fungování položek napříč jednotlivými školami, χ 2 (559) = 641,44, p = 0,009. Nicméně jen 44 z 559 (7,9 %) srovnání lokálního odhadu obtížnosti položky s celkovým odhadem bylo signifikantních na p < 0,05 a jen 1 po Bonferroniho korekci (nutno dodat, že kritická hodnota byla v tomto případě extrémně nízká, α crit. = 0,05/559 = 0,00009). Na úrovni jednotlivých tříd se pak jen 2 položky (4,7 %) signifikantně liší na hladině pravděpodobnosti p < 0,05. Dále jsem testoval rozdíl ve fungování položek mezi běžnými dětmi a dětmi, které označili učitelé jako výjimečně šikovné. Jen dva rozdíly (4,7 %) byly signifikantní na hladině pravděpodobnosti p < 0,05, žádná z nich po Bonferroniho korekci. Dále nebyl statisticky významný rozdíl rozložení t-hodnot od náhodného, χ 2 (42) = 47,34, p = 0,264. Pro srovnání lokálních obtížností viz obr. 29.

AB01 AB02 A03 A04 A05 A06 A07 AB08 A09 A10_B11 A11 A12 A13 A14_B15 A15_B17 A16 A17_B18 A18 A19 A20 A21 A22 A23 A24 A25 B03 B04 B05 B06 B07 B09 B10 B12 B13 B14 B16 B19 B20 B21 B22 B23 B24 B25 lokální odhad obtížnosti Měření matematických schopností 115 8 6 4 2 0-2 -4 běžné děti šikovné děti -6 položka OBR. 29 DIF analýza mezi běžnými dětmi a dětmi označenými učiteli jako šikovné DIF analýzu podle mimořádného nadání jsem z výše uvedených důvodů provedl pouze na pilotním vzorku a srovnal jsem nadané děti se všemi ostatními. Průměrná velikost absolutní hodnoty DIF rozdílu byla 0,48 (SD = 0,34, Md = 0,48). Celkem 14 ze 48 rozdílů (29 %) bylo signifikantních na p < 0,05, z toho 2 i po Bonferroniho korekci. Rozložení t-hodnot se signifikantně lišilo od náhodného, χ 2 (48) = 151,25, p < 0,001. Z obr. 30 se zdá, že obtížnější položky byly spíše snadnější pro mimořádně nadané děti, naopak lehčí položky byly pro ně spíše obtížnější. Tento předpoklad jsem ověřil prostřednictvím korelace lokálního odhadu obtížnosti pro obě skupiny dětí a t-standardizovaného DIF odhadu. Pro běžné děti r(46) = 0,323, p = 0,025, pro nadané analogicky r(46) = 0,323, p = 0,036. Je nutné mít opět na paměti, že statistická signifikance je podhodnocena. Mezi potenciální příčiny může patřit například to, že se nadané děti častěji odvážily řešit i obtížnější položky, byly více motivované apod. (tomu odpovídají závěry Cíglerové, 2016). Korelace lokálních odhadů obtížnosti položek mezi nadanými a běžnými dětmi je nicméně 0,928, což již není zcela zanedbatelné, efekt je však stále spíše slabý (po korekci na položkovou nereliabilitu r cor = 0,958). Pravděpodobnější příčinou je však vyšší diskriminační účinnost nejobtížnějších položek, což souvisí i s overfitem celého Raschova modelu. Obtíže tak nejsou na straně rozdílného fungování nadaných a běžných dětí, ale předpokladů modelu.

116 Hynek Cígler 4 3 lokální odhad obtížnosti 2 1 0-1 -2-3 běžné děti nadané děti A02 A03 A04 A05 A06 A07 A08 A09 A10 A12 A13 A14 A11 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 B02 B03 B04 B05 B06 B07 B08 B09 B10 B12 B13 B14 B11 B15 B16 B17 B18 B19 B20 B21 B22 B23 B24 B25-4 položka OBR. 30 DIF analýza rozdílů mezi nadanými a běžnými dětmi (pilotáž). Položky jsou v grafu řazeny podle pořadí ve standardizační studii 4.3.5 Normy a standardizace Podrobný popis tvorby norem je součástí psychometrického manuálu (Cígler a kol., in press), zde uvedu jen některé souvislosti, které mohly mít na konstrukci norem vliv. Pro normalizaci testu TIM byla využita výhradně data ze standardizační studie (N = 797), tedy sběru 6 v tab. 3 deskriptivní charakteristiky vzorku jsem popsal v kapitole 4.2.1.3 na s. 72. Během standardizační studie bohužel nebyly získávány detailnější sociodemografické údaje. Z tohoto důvodu nejsou k dispozici některé informace, které mohly mít vliv na výsledek v testu TIM, jako je například vzdělání rodičů či socioekonomické zázemí dětí. Protože však standardizační vzorek tvoří vždy celé třídy namísto vybraných jednotlivců, předpokládám, že vliv těchto proměnných byl do určité míry minimalizován. Standardizační data byla sbírána na začátku druhého pololetí školního roku. Děti na začátku či na konci školního roku samozřejmě budou mít odlišné skóry během pilotáže byl efekt sběru dat mezi listopadem a únorem (tedy zhruba tři měsíce) β = 0,25 pro obě formy testu, síla efektu se navíc částečně lišila napříč ročníky (viz kap. 4.3.4.3.4 a zejm. tab. 23 na s. 112). Na druhou stranu, některé děti test řešily již podruhé (byť v alternativní formě), případně se účastnily rozvojového kurzu matematických schopností. Obě skutečnosti mohou velikost efektu zvyšovat. Z uvedených důvodů proto považuji kvalitu norem ve srovnání s ostatními parametry testu (jako je validita, reliabilita apod.) za nižší, jakkoliv jsou dostatečné pro identifikaci matematického nadání. Cílem našeho výzkumného týmu je nicméně odhadnout prostřednictvím polynomické

Měření matematických schopností 117 regrese vývoj průměrných skórů v čase na základě dat z reálného používání testu TIM a ukotvit je do stávajících norem v budoucnu bude tedy k dispozici přibližný odhad standardních skórů i pro jiné termíny sběru. 4.3.5.1 Vliv termínu sběru dat V tab. 24 je uveden vliv doby sběru dat tedy rozdíl mezi listopadovým a únorovým výkonem školáků během pilotáže (sběry 3 a 4 v tab. 3). Tabulka obsahuje odvozené hodnoty z regresního modelu, který jsem prezentoval v tab. 23. Pokud předpokládáme, že efekt je shodný napříč ročníky, byly děti testované v listopadu zhruba o třetinu směrodatné odchylky horší než děti testované v únoru; v případě formy B šlo o zhruba polovinu směrodatné odchylky. Mezi třetím a čtvrtým ročníkem je tento efekt navíc zřejmě nižší než mezi ročníkem čtvrtým a pátým. K těmto údajům je vhodné přihlédnout při testování dětí na začátku a na konci školního roku do té doby, než budou k dispozici podrobnější ročníkové normy, a předpokládat o něco vyšší (či naopak nižší) standardní skór. TAB. 24: VLIV DOBY ADMINISTRACE (LISTOPAD VS. ÚNOR) NA SKÓR V TIMU (PILOTNÍ STUDIE) forma A forma B shodný efekt a různý efekt b shodný efekt a různý efekt b SD B T B interakce Tsum SD B T B interakce Tsum 3. ročník 1,48 0,52 *** 3,5 0,88 *** 0,00 5,9 1,65 0,82 *** 5,0 0,88 *** 0,00 5,3 4. ročník 1,64 0,52 *** 3,1 0,88 *** -0,74 * 0,8 1,69 0,82 *** 4,8 0,88 *** -0,53 2,1 5. ročník 1,33 0,52 *** 3,9 0,88 *** -0,51 2,8 1,63 0,82 *** 5,0 0,88 *** 0,32 7,3 Pozn.: Závislou proměnnou je skór TIMu (forma A, resp. forma B v pilotní studii). Pro podrobný popis modelu viz kap. 4.3.4.3.4. Všechny modely jsou signifikantní (p < 0,001). B nestandardizovaný regresní koeficient (tedy efekt na logitové škály). Interakce nestandardizovaný regresní koeficient pro interakci ročníku a doby administrace. T velikost rozdílu vyjádřená v T-skórech (směrodatná odchylka 10). SD směrodatná odchylka TIMu; Tsum celkový efekt jako součet interakce a hlavního efektu vyjádřený v T-skórech a Předpoklad shodného efektu tříměsíčního rozdílu v administraci TIMu napříč všemi ročníky; b Předpoklad různého efektu napříč ročníky celkový efekt v T-skórech, Tsum pro model s různým efekty podle ročníku je vždy součtem B a interakce. * p < 0,05; *** p < 0,001. 4.3.5.2 Vliv věku a ročníku na výkon v TIMu Během standardizační studie jsme měli k dispozici věk dětí s přesností na měsíce. Korelace TIMu s věkem byla r(781) = 0,353, p < 0,001. Protože vyhodnocení TIMu probíhá elektronicky, naším původním záměrem bylo zkonstruovat tzv. na regresi založené normy (např. Gurnani, John a Gavett, 2015; Smerbeck a kol., 2012; nebo Cavaco a kol., 2013) s prediktory školní ročník a věk. Takto sestavenou regresi pro W-skóry a obě formy dohromady předkládá tab. 25. Ve druhém kroku jsme do regrese přidali k ročníku i věk a vidíme překvapivý vztah věk negativně souvisí s výkonem v TIMu, a to se slabým až středně silným efektem (a pro všechny ročníky shodně, přidání interakčních proměnných nezvýšilo rozptyl, F(2, 777) = 0,236, p = 0,790).

118 Hynek Cígler TAB. 25: VZTAH SKÓRE V TIMU, ROČNÍKU A VĚKU (V MĚSÍCÍCH) model 1 model 2 β B [CI] β B [CI] konstanta 490,5 [488,9; 192,1] 531,2 [514,6; 547,8] 4. třída,285 8,9 [6,7; 11,0],428 13,3 [10,5; 16,1] 5. třída,295 9,0 [6,9; 11,1],441 13,4 [10,7; 16,2] věk (měsíce) -,290-0,38 [-0,53; -0,23] adj. R 2,247,268 F 129,37 177,36 ΔR 2 0,022 ΔF 23,47 Poznámka: všechna p < 0,001. Zařazení interakčních proměnných do modelu rozptyl již nezvýšilo, F(2, 777) = 0,236, p = 0,790. β standardizovaný regresní koeficient; B [CI] nestandardizovaný regresní koeficient na fundamentální W-škále. Zdá se, že starší děti v rámci téhož ročníku tedy dosahují horších výsledků než děti mladší tento jev přetrvává prakticky nezměněný i v případě, že z dat odstraníme všechny děti s pětkami (i se čtverkami) z češtiny či z matematiky, u nichž je větší pravděpodobnost propadnutí. Děti nastupující do školy s odkladem podávají nižší výkon v testu než jejich mladší spolužáci. Protože nemá smysl do norem zahrnovat negativní vliv věku, rozhodli jsme se regresní normy nevyužít, a sestrojit je jen na základě ročníkových skórů. 4.3.5.3 Vliv pohlaví Ačkoliv děvčata v jednotlivých ročnících i celkově skórovala nepatrně hůře než chlapci, rozdíl průměrů, rozptylů ani rozložení odhadů latentních skórů nebyl v případě žádného z ročníků statisticky významný, jak ukazuje tab. 26. Nelišily se ani Q-Q grafy (obr. 31), reálná velikost rozdílu průměrů je zanedbatelná (do jedné desetiny směrodatné odchylky). Stejné výsledky reportuje u žáků pátých tříd i Cíglerová (2016). Protože se děvčata a chlapci nelišili ani z hlediska DIF analýzy (viz výše), jsou normy sestrojené společně pro obě pohlaví. TAB. 26: ROZDÍL MEZI CHLAPCI A DÍVKAMI V TIMU chlapci dívky Levenův test t-test KS M SD n M SD n F p t p d Z p 3. třída -1,17 1,27 118-1,17 1,22 124,682,410,024,981,00,621,836 4. třída -,09 1,24 139 -,29 1,32 136,245,621 1,272,204,11,635,815 5. třída,85 1,61 140,61 1,55 138,506,477 1,219,224,10,753,623 dohromady -,08 1,61 397 -,25 1,55 398,091,763 1,511,131,08,571,900 Pozn.: d Cohenovo d. KS Kolmogorovovův-Smirnovovův test shody dvou rozložení.

Měření matematických schopností 119 OBR. 31 Q-Q grafy rozložení odhadů latentních skórů chlapců (svislá osa) a děvčat (vodorovná osa). Vlevo je třetí třída, uprostřed čtvrtá a vpravo pátá 4.3.5.4 Skóry použité ve standardizaci testu Odhady latentních rysů jsem v rámci každého ročníku převedl prostřednictvím lineární transformace 73 na T-skóry (M = 50, SD = 10). Kromě toho jsou k dispozici rovněž ročníkové percentily a dva další skóry založené na Raschovu modelu, stejně jako některé ukazatele spolehlivosti vyšetření. Standardní chyba měření je uváděna pro každý skór zvlášť a je definována Raschovým modelem (a transformována na příslušný standardní skór). Percentily Percentilová škála byla spočítána společně pro chlapce i děvčata a pro obě formy testu zvlášť pro každý ročník. Před výpočtem percentilu byla distribuční funkce vyhlazena (kernel smoothing) metodou biweight s pomocí SPSS pluginu Fit kernel-smoothed distributions v programu IBM SPSS v. 23. Šířka pásma byla 1,2násobek automaticky zvolené hodnoty, tj. 0,406 pro třetí ročník, 0,397 pro čtvrtý a 0,510 pro pátý. Tímto postupem byl odstraněn vliv náhodné výběrové chyby výzkumného vzorku. W-škála Raschovské skóry na logitové škály byly převedeny na W-skór a následně i na RPI index tak, jak je popsáno v kap. 3.5. V tab. 27 jsou uvedena rozložení odhadů latentních skórů na obou škálách, na obr. 32 jsou pak histogramy rozložení. Z grafu i tabulky patrné zvyšování směrodatné odchylky napříč ročníky je signifikantní po ověření Levenovým testem F(2, 794) = 7,08, p = 0,001; při dodatečném ověření se však ukázalo zvýšení rozptylu jen mezi 4. a 5. ročníkem, F(1, 795) = 9,89, p = 0,002, nikoliv však mezi 3. a 4. ročníkem, F(1, 795) = 0,00, p = 0,99. Příčinou zvyšující se směrodatné odchylky může být rovněž overfit obtížnějších položek. Protože obtížnější položky ve skutečnosti mají nepatrně vyšší diskriminační účinnost, může to vést 73 Jak píši výše, nejen že z důvodu použití neparametrického Raschova modelu předpokládám přibližně normální rozdělení odhadů latentních skórů, ale tento předpoklad byl pro čtvrtý i pátý ročník ověřen jako platný. Z toho důvodu používám výhradně lineární transformace bez normalizace či korekce proti zešikmení dat.

120 Hynek Cígler k roztažení škál v pásmu nadprůměru, což se mohlo projevit právě u pátého ročníku. K ověření tohoto předpokladu by nicméně bylo nutné odhadnout paralelní 2PL model. TAB. 27: PRŮMĚRY A SMĚRODATNÉ ODCHYLKY STANDARDIZAČNÍHO VZORKU logitová škála W-škála M SD M SD 3. ročník -1,165 1,248 490,484 11,36 4. ročník -0,187 1,278 499,386 11,63 5. ročník 0,731 1,580 507,741 14,38 OBR. 32 Rozložení W-skórů pro jednotlivé ročníky