Téma 10 Evaluace veřejných politik Martin Nekola Proč je třeba monitorovat a vyhodnocovat veřejné politiky??? 1
Když se to dostatečně nerozmyslí mělo by se to aspoň vyhodnotit. http://healthimpactnews.com/2013/the-war-on-marijuana-who-is-the-real-enemy/ Úvod evaluace > zásadní, ale podceňovaná fáze tvorby politiky nebo programu (více méně) každá veřejná politika(/program/projekt/intervence) by měla být v průběhu své implementace monitorována a vyhodnocována tak, aby mohlo být rozhodnuto o jejím dalším pokračování, změnách a/nebo případném ukončení 2
Co to je evaluace? Co je to evaluace a jaké otázky si klade? Evaluace je sociálněvědní aktivita zaměřená na sběr, analýzu, interpretaci a sdělování informací o činnosti a efektivitě sociálních programů (Rossi, Lipsey a Freeman 2004). Je to snaha popsat a vysvětlit veřejné politiky (Dunn 2004). Evaluace základní významy 1. Jakékoli hodnocení projektů, programů a politik; 2. Systematické vyhodnocení programů či projektů na základě vlastního sběru dat a specificky zvoleného výzkumného designu ( výzkumná evaluace ) 3
Cíle / funkce evaluace Hlavním úkolem evaluace je poskytování spolehlivých a užitečných informací, které v politickém procesu využívají jak objekty tak subjekty dané politiky užitečná zpětná vazba pro rozhodování. Co to je evaluace? Evaluace je věda i umění (Evaluátorské rčení) Evaluace jako věda (Campbell) nebo jako umění poskytnout užitečné informace (Cronbach) ne vždy jde skloubit oba přístupy. Nejenom znalost metod, ale i politická obratnost, citlivost k četným zájmům a aktérům, schopnost koordinace a řízení apod. 4
Typy evaluace Podle hlavního zájmu Ex ante hodnotí přípravované intervence (programování) Procesní hodnotí úzká hrdla a problémy při realizaci intervence Dopadová (ex post) hodnotí efekty politiky/programu/projektu Typy evaluace Formativní (formative) zlepšení objektu evaluace pomocí zkoumaní fungovaní politiky nebo programu, kvality implementace a organizačního kontextu Souhrnná (summative) celkové posouzeni efektů politiky nebo programu 5
Ex ante Mid term Ex post Ongoing Formativní Ex ante Sumativní Ex ante Procesní Dopadová Základní otázky ex post evaluace Byla politika implementována tak, jak bylo zamýšleno? Pokud ano, má takové výsledky, jaké byly očekávány? (theory failure) Pokud ne, kde se stala chyba? (program failure) 6
Obecný rámec pro monitoring a evaluaci politik Zdroj: Dunn (2004:286) Obecný rámec pro evaluaci vstupy a procesy výstupy a účinky ostatní faktory (mimo kontrolu veřejné politiky): výchozí podmínky (kulturní hodnoty, zdravotní stav, územní členitost atd.) nepředvídatelné události (katastrofy ) vedlejší (nekontrolované) efekty 7
Základní pojmy Vstupy (inputs) nejčastěji využíván objem finančních prostředků, počet zapojených pracovníků atd. Výstupy (outputs) do značné míry jde o formální ukazatele (počet akcí, projektů, účastníků); Výsledky (results) specifikace vytvořených hodnot (například nové dovednosti, znalosti účastníků školení) Dopady (impacts, důsledky) jak se změnila situace ve většině případů je značně obtížné určit vliv konkrétní aktivity (například snížení počtu nezaměstnaných) Jednoduchý logický model pokud tak pokud tak pokud tak pokud tak pokud tak vstupy aktivity výstupy okamžité efekty střednědobá změna konečné dopady vstupy finance, odborný tým, dodávky, partneři, zapojené cílové skupiny aktivity tréninky, školení, konzultace, studie, průzkumy, konstrukce výstupy absolventi, manuály, schválené koncepce, stavby kapacity povědomí, znalosti, dovednosti, postupy, přístup ke zdrojům, nové plány chování využití nových kapacit, metod, zdrojů, staveb; realizace plánů přínosy životní standard cílových skupin, omezení rizik 16 8
Evaluační kritéria Evaluace = hodnocení => nutnost stanovení hodnotících kritérií! celá řada kritérií administrativní, právní, ekonomické, etické atd. hlavní evaluační kritéria: 3E/5U (v terminologii metodického pokynu MMR) Evaluační kritéria Relevance přiměřenost cílů programu s ohledem na identifikované potřeby Účinnost dosažení cílů formulovaných v programu, případné problémy a vliv vnějších faktorů. Efektivita posouzení dosažených výsledků (efektů) vzhledem k použitým zdrojům (hospodárnost). Užitečnost hodnocení dopadů programu ve vztahu k širším společenským a ekonomickým potřebám. Nemá přímý vztah k oficiálním cílům programu. Udržitelnost odkazuje k rozsahu, v jakém jsou výsledky a výstupy intervence trvalé. Chceme potřebné věci? Dosahujeme toho, co chceme? Stojí to rozumné peníze? Je to v důsledku prospěšné? Přetrvá změna? 9
Zdroj: metodický pokyn MMR Typy otázek Deskriptivní Popisují stav, proces, názory nebo organizační a implementační aspekty intervence Předkládají fotku skutečnosti Vhodné pro popis vstupů, aktivit a výstupů Využívají se především pro zmapování postojů a názorů klientů programu Normativní Srovnávají skutečnost s tím, co by mělo být Opírají se o determinant cílového stavu nebo standard Příčinné (kauzální) Zaměřují se na změnu, kterou intervence způsobila Hledají odpověď na otázku jak a vnitřní závislosti Jsou klíčové s ohledem na ustavenou teorii změny Kdo, co, kde, kdy, kolik? Odpovídá to a to? Proč? Jak? 10
Co potřebujeme pro evaluaci? Příklad: jak je možno zjistit, že daný program (například prevence šikany na školách) je skutečně účinný a efektivní? Vědecké vs. ad hoc přístupy Vědecké směřuje k závěrům o vysoké validitě na základě spolehlivých dat užívají adekvátní metody stanovení vzorku, sběru dat a analýzy ověřují svoji kvalitu přes kritéria spolehlivosti a validity. Ad hoc: vědecká robustnost je někdy méně než: Potřebná rychlost => quick and dirty evaluace Dynamika, zapojení aktérů Dostupnost pro širší publikum 11
Vědecké přístupy Abychom mohli skutečně dobře vyhodnotit výsledky a efekty, musíme mít dobrý výzkumný design. základní typy výzkum. uspořádání: experimentální kvazi-experimentální Kontrafaktuální evaluace ne-experimentální Theory - based evaluace (smíšené) Co potřebujeme pro určení efektu? rozdíl mezi situací pozorovanou po provedené intervenci a situací, která by nastala bez takové intervence. Problém: jedinci mají pouze jednu existenci Tudíž máme problém chybí nám srovnání (data) Jak to můžeme řešit? 12
Uspořádání výzkumu Použití náhodného přiřazení do kontrolní a experimentální skupiny. ANO NE ANO Přítomnost experimentální a kontrolní skupiny nebo opakované měření v čase. NE experiment kvazi-experiment ne-experiment Zdroj: Trochim (2005) Uspořádání výzkumu Jak rozdělit skupiny; Kde a jak intervenovat; Kde a jak sledovat efekty intervence. 13
Formální značení O (observation pozorování resp. měření stavu) X (exposure vystavení účinkům programu) přiřazení jednotek do skupin vyjadřují písmena R (random assignment náhodné přiřazení) nebo N (nonequivalent groups nestejné skupiny) Experimentální srovnání dvou skupin (two-group experiment) Rozdělení Měření před (pretest) Působení programu Měření po (posttest) R O X O R O - O Zdroj: Leedy and Ormrod 2005, upraveno Experimentální 1. přímá kontrola nad vstupy a výsledky experimentu => kauzální vztah 2. minimálně dvě skupiny experimentální a kontrolní 3. náhodné rozdělení jednotek do experimentálních nebo kontrolních skupin nejjednodušší: srovnání dvou skupin (post-test) náhodným rozdělením do skupin získáme prakticky shodné skupiny (teorie pravděpodobnosti) srovnání rozdílů mezi průměry: t-test nebo ANOVA apod. Příklad: Účinky léků 14
Příklad II ERA Employment Retention and Advancement (ERA) ve Velké Británii program zaměřený na nízkopříjmové zaměstnance a dlouhodobě nezaměstnané spuštěný v r. 2003 ve vybraných Job Centres (ÚP) prolomení low-pay, no-pay cyklu => stálé zaměstnání na plný úvazek tradiční služby před získáním zaměstnání (pre-employment) doplněné o finanční pobídky a poradenství i následně po získání zaměstnání (post-employment, in-work) až 9 měsíců + po zaměstnání dalších až 24 měsíců poradenství a finanční podpory => vyvarování se počátečních chyb a větší jistota zaměstnání a příjmu Zdroj: Hendra et al. (2011) Evaluace ERA lidé z cílových skupin pozváni na úvodní setkání a po získání souhlasu náhodně rozděleni do dvou skupin (celkem 16 tisíc) účastníci některého z ERA programů a kontrolní skupina (mohli pokračovat v jiných programech, na které měli nárok, ale měli omezit kontakt se zaměstnanci ÚP po získání práce) běh programu: 5 let efekty měřeny srovnáním výsledků zisk zaměstnání v průběhu sledování programu, průměrná mzda, průměrná celková podpora 15
Výsledky ERA nezaměstnaní samoživitelé/ky: krátkodobé zvýšení zaměstnanosti (plný úvazek) a příjmu, efekt vymizel po ukončení účasti malé snížení podpory (Income Support) lepší výsledky u vzdělanějších účastníků neprokázalo se zvýšení životní úrovně účastníků ani jejich dětí nízkopříjmoví samoživitelé/ky s část. úvazky: vyšší pravděpodobnost plného úvazku a vyššího příjmu (efekt vymizel po ukončení účasti) žádné rozdíly v poskytované podpoře a životní úrovni dlouhodobě nezaměstnaní 25+: zvýšení míry zaměstnanosti a příjmů po celou dobu sledování => ERA funguje pro vysoce znevýhodněné skupiny snížení pobírání podpory v nezaměstnanosti Proč nelze vždy použít experiment? 16
Proč nelze vždy použít experiment? etické, technické, finanční, časové a další omezení Problémy s experimentálním designem Nízká externí validita Ohrožení vnitřní validity - míra platnosti (pravdivosti) zjištěných tvrzení o kauzálních a jiných vztazích mezi sledovanými proměnnými 17
Ohrožení vnitřní validity 1. historie nekontrolované vlivy působící v průběhu programu a poskytující tak konkurenční vysvětlení pro zjištěné změny. 2. zrání biologické, psychologické nebo sociální procesy, které způsobují změny v chování respondentů nebo sociálních jednotek (únava, názorové změny, učení se apod.). 3. výzkumný nástroj pozorované změny mohou být způsobeny změnou nástrojů měření a ne efektem politiky. 4. testování samotné provedení měření může ovlivnit sledovaný fenomén. V sociálních vědách je tento fenomén znám jako tzv. Hawthornův efekt. 12.12.2018 Martin Nekola - FSV UK 35 Ohrožení vnitřní validity (pokr.) 5. úmrtnost v průběhu času může dojít k odstoupení jednotlivců nebo celých skupin ještě před ukončením evaluace popř. jsou výpadky v časových řadách. Úmrtnost náhodná vs. systematická! 6. regresní artefakty tendence krajních hodnot dané charakteristiky navracet se k průměru nezávisle na působení programu (regrese k průměru). Např. v případě výběru na základě extrémních hodnot, působení štěstí (ale i dědičnost viz inteligence) 7. výběrové zkreslení u kvazi/neexperimentů může docházet k souběžnému působení výběrového zkreslení a ostatních ohrožení interní validity výběrová historii, výběrové zrání atd. nestejnoměrné působení ohrožení vlivem nenáhodného rozdělení do skupin rozdílnost kontrolní a intervenční skupiny má dalekosáhlé důsledky = jeden z důvodů, proč je experiment považován za zlatý standard mezi výzkumnými uspořádáními. 12.12.2018 Martin Nekola - FSV UK 36 18
Kvaziexperiment jednotky nejsou náhodně rozděleny mezi kontrolní a experimentální skupinu => neekvivalentní skupiny nutnost řešit výběrové zkreslení a s ním spojené problémy Kvazi-experimenty Ne vždy je možné / vhodné provést experiment (etické, finanční, technické a jiné důvody) kvaziexperimenty: analýza přerušené časové řady (interupted time-series analysis) analýza nestejných skupin (non-equivalent groups analysis) 19
Analýza přerušené časové řady nástroje pro grafické nebo statistické vyjádření efektů politiky klasická před po komparace v čase bez kontrolní skupiny; více měření v delším časovém úseku zvyšuje vypovídací hodnotu (časové řady) problém nízké vnitřní validity! užití: nelze provést experiment, neexistuje kontrolní skupina apod. Rozdělení do skupin Měření před (pre-test) Působení programu Měření po (post-test) není O X O 20
Analýza nestejných skupin klasické před po uspořádání s kontrolní skupinou nenáhodné rozřazení do intervenční a kontrolní skupiny, ale snaha o jejich co největší podobnost => problém výběrového zkreslení Rozdělení do skupin Měření před (pre-test) Působení programu Měření po (post-test) N1 O X O N2 O - O Analýza nestejných skupin (pokr.) 21
Analýza nestejných skupin (pokr.) Analýza nestejných skupin (pokr.) slabina: nenáhodný výběr jednotek do skupin => může významným způsobem ovlivnit výsledky měření. nebezpečí výběrového zkreslení a s ním spojeného vychýlení výsledků měření => individuální (kvalifikace, motivace, zkušenosti apod.) nebo místní rozdíly, které nelze vyloučit ani v dostatečné míře kontrolovat. Příklad: ověření účinnosti nové výuky jazyků na ZŠ => jedna intervenční, jedna kontrolní třída => AVŠAK POZOR! rozdělování do jednotlivých tříd v ročníku je často systematické (např. podle prospěchu nebo specializace) => vliv na účinnost ověřované výukové metody. Užití především v případech, kdy očekáváme velký vliv implementované politiky. 22
Ne-experimentální design neexistuje kontrolní skupina a neznáme stav před intervencí měření provedené pouze po intervenci (post-test) Ne-experimentální design neexistuje kontrolní skupina a neznáme stav před intervencí měření provedené pouze po intervenci (post-test) 23
Techniky a metody analýzy příprava dat sběr, zadávání, transformace a kontrola dat a dokumentace popisná statistika popis základních rysů a struktury dat, sumarizace proměnných, jednoduchá grafická analýza atd. deduktivní statistika pomocí teorie pravděpodobnosti zkoumá otázky, modely a hypotézy týkající se vztahů mezi proměnnými 24
A teď jak je to doopravdy. Typické rysy české evaluační kultury (v oblasti fondů EU) Typický design je neexperimentální, zpravidla prováděný ex-post. Evaluace nejsou detailně plánovány při tvorbě intervence (výzvy), evaluátoři se potýkají s problémy plynoucími z toho, že nikdo předem neuvažoval o evaluační informačních/datových potřebách. Převažují kvalitativní metody, typická evaluace zahrnuje mix strukturovaných rozhovorů, fokusních skupin, dotazníkové šetření. = Impresionistická evaluace Většina evaluačních prací se outsourcuje Zadavatelé zpravidla chtějí vědět všechno a hned (nerealistické časování evaluací) 25
Změna je na vás Více informací https://evaluuj.cz/ Veselý, A. a Nekola, M. 2007. Analýza a tvorba veřejné politiky. Praha: SLON. (kap. 14) http://www.socialresearchmethods.net/kb/ Greenberg, D. (2006) Hodnocení veřejných programů. In: Potůček a kol. Veřejná politika. Praha: Sociologické nakladatelství. Miovský, M., Kubů, P. a Miovská, L. (2004). Evaluace programů primární prevence užívání návykových látek v ČR: základní východiska a aplikační možnosti. Adiktologie, roč. 4, č. 3, s. 288-305. Rossi, P.H., Lipsey, M.W. & Freeman, H.E. (2004). Evalution: A Systematic Approach (Seventh Edition). Thousand Oaks, CA: Sage. Shadish, W.R., Cook, T.D. and Campbell, D.T. 2001. Experimental and Quasi-experimental Designs for Generalised Causal Inference. Houghton Mifflin Company. 26