Kvalita modelů a volba parametrů počítačové textové analýzy v programu COOA *
|
|
- Kryštof Navrátil
- před 8 lety
- Počet zobrazení:
Transkript
1 Kvalita modelů a volba parametrů počítačové textové analýzy v programu COOA * Václav Čepelák** Fakulta sociálních věd, Univerzita Karlova v Praze Model evaluation and parameter selection in COOA computer-assisted text analysis software Abstract: This article examines the reliability of statistical models that use visualization of word distances using computer-assisted text analysis. This study looks at the choice of parameters in the COOA - software for word co-occurrence analysis. The word co-occurrence analysis enables visualization of text structure through the exploration of the number of co-occurrences of words. The data visualization provided by a multi- -dimensional scaling (MDS) procedure is susceptible to a particular form of error. The nonlinear relationship between words with significantly different frequencies lies at the root of this problem where words with higher frequencies are placed in the middle of a two-dimensional MDS map visualization. Words with lower frequency, on the other hand, are forced by the MDS estimator to the edge of the two-dimensional map and their estimated spatial positions are unstable. These two processes are potentially a major source of error in making inferences. One solution for reducing this source of error is to (a) reduce the number of words in a model or (b) increase of the number of model dimensions. This article, however, suggests that a detailed investigation of the word structure and a thorough analysis of the error sources and their meaningful interpretation may be a better solution. Key words: computer-assisted text analysis, multidimensional scaling, similarity measures, contextual unit, data visualisation. Data a výzkum - SDA Info 2013, Vol. 7, No. 1: DOI: (c) Sociologický ústav AV ČR, v.v.i., Praha * Tento článek vznikl v rámci řešení výzkumného projektu P404/10/0790, podpořeného Grantovou agenturou České republiky. ** Veškerou korespondenci směřujte na v.cepelak@seznam.cz
2 Úvod Rozvoj analytické sociologie je do značné míry dán rozvojem informačních technologií, které umožňují popisovat data novým způsobem. Zároveň umožňují pracovat s novými typy dat, což je příklad analýzy sítí (social network analysis), pro niž předmětem analýzy nejsou informace o individuální jednotce, ale tzv. data relační, vypovídající o vztahu dvou či více jednotek [srov. Scott 2000: kap. 1]. Jako data pro sociologické analýzy mohou sloužit i texty, které společnost různými kanály (skrze masová média, internet, byrokratický aparát atp.) produkuje. Tento typ dat lze popisovat a analyzovat různými způsoby. Sociologie tradičně s texty pracuje s využitím dvou hlavních metodologických přístupů (paradigmat). První z nich tvoří Berelsonova kvantitativní obsahová analýza, která je systematickou analýzou textových dat vycházející z pozitivistické metodologie [Berelson 1952]. Druhé paradigma má kořeny v Gadamerově hermeneutice, která se zaměřuje na hledání alternativních významových rovin v textech s využitím principu hermeneutického kruhu [srov. Gadamer 2010 (1960)]. Konkrétním návodem k analytickému přístupu k textovým datům je pak grounded theory Glasera a Strausse [Glaser, Strauss 1973] a její princip třístupňového kódování. Trendem posledních dvaceti let je zejména zapojování počítačů do analýzy textů. Počítače umožňují zrychlení procesu analýzy a zvýšení její komplexity, na druhé straně ale prohlubují otázku validity metod. Kvantitativní analýza textů přestává být založena výhradně na kvantifikaci předem stanovených schémat (proměnných), ale umožňuje explorativně odkrývat v textech předem neznámé struktury (významy). 1 Trendem je proto propojování obsahové analýzy s poznatky lingvistiky. Svou otevřeností se tak počítačová textová analýza přibližuje kvalitativní metodologii, ač stále pracuje s kvantifikací poznatků [Alexa 1997: 6; Baker 2006]. Alexa [1997: 10] dále poukazuje na to, že rozlišení kvalitativní a kvantitativní metodologie není v případě textových analýz triviální. Podle Alexy se v rámci textové analýzy spíše jedná o kontinuální než o dichotomické rozlišení těchto dvou metodologických větví. Alexa nechápe kvantitativní metodologii pouze jako přístup založený na kvantifikaci poznatků, ale tvrdí, že [...] obsahová analýza (content analysis) patří k empirické výzkumné tradici, a tím odkazuje k průkaznému, systematickému, objektivnímu a na datech založenému přístupu, spíše než pouze k počítání [frekvencí] slov [ibid]. Sblížení obou přístupů tak spočívá v tom, že explorace dat není omezena žádným a priori daným schématem, ale toto schéma je možné budovat vý- 1 Pro tento přístup se v informačních technologiích užívá termín information retrieval. Informační technologie se v práci s automatizovanými způsoby extrakce významů z textu dostaly již velmi daleko. Projevuje se to například v rozvoji vyhledávacích algoritmů pro webové vyhledávače
3 hradně na základě dat. 2 Ukázkou aplikace jedné z těchto metod je i následující text. Cílem textu není metodu popisovat ani dávat návod k jejímu užití tuto práci již odvedl Martin Hájek [2010]. Text může posloužit jako zdroj hlubšího pochopení principů zobrazování a interpretace dat při využívání počítačové textové analýzy, která není v sociologii běžně užívána, ale v určitých tematických oblastech má potenciál pro využití. Zároveň text může posloužit i jako úvaha nad využíváním mnohorozměrného škálování sociologických dat relační povahy, které s sebou nese určité limity zejména z hlediska asymetrie vztahů mezi zkoumanými jednotkami. V první části textu bude metoda stručně představena s odkazem na citovaný Hájkův článek. Dále se text zaměří na zobrazování spoluvýskytů slov v textu, a tedy struktury textu. Věnovat se bude jednotlivým parametrům, které ovlivňují strukturu zobrazení, a hodnocení kvality vizualizace. Poukáže na to, že chyby zobrazení nejsou dány pouze nepřesností metody, ale mají příčinu v povaze zobrazovaných vztahů mezi slovy zejména mezi slovy s vysokou a slovy s nižší frekvencí výskytu. Metoda zkoumání spoluvýskytu slov v textech Pro zarámování celé analýzy je nutné alespoň ve stručnosti představit metodu, která byla pro analýzu použita. Jedná se o metodu počítačové textové analýzy (CATA Computer Assisted Text Analysis) zkoumající spoluvýskyty slov v textu. K tomuto zkoumání je využit software COOA [COOA 2009], jehož autorem je Martin Hájek (více k metodě Hájek [2010]). Metoda operuje s následujícími klíčovými pojmy: 1. textový korpus soubor textů, na nějž je metoda aplikována, 2. lemma souhrn tvarů téhož klíčového slova, které je v textovém korpusu vyhledáváno, 3. slovník seznam klíčových slov (lemmat), která jsou v textu zkoumána, 4. kontextová jednotka úsek textu, v jehož rámci jsou počítány společné výskyty slov (lemmat) obsažených ve slovníku. Při využití metody je třeba projít třemi fázemi. Nejprve je provedena frekvenční analýza výskytu slov v textu, která pomůže určit klíčová slova. Na 2 Tvrzením o sbližování kvalitativní a kvantitativní metodologie se nesnažíme relativizovat postavení kvalitativního výzkumu jako odnože výzkumu kvantitativního. Pouze se zde pokoušíme konstatovat, že mezi komplexním popisem individuálních případů na základě zcela otevřeného schématu (tj. kvalitativní metodologie) a induktivně-zobecňujícím popisem celku na základě a priori daného schématu (tj. kvantitativní metodologie) mohou existovat určité mezistupně. Z aplikace metody níže v tomto textu vyplývá, že typ informace využívá výhod otevřenosti metody a umožňuje vytvářet analytická schémata zcela na základě dat, na druhé straně dává odlišný typ informace, který je na vyšší úrovni obecnosti, zároveň však méně komplexní, než zjištění, která poskytuje kvalitativní analýza
4 základě klíčových slov je sestaven slovník, se kterým výzkumník vstoupí do druhé fáze analýzy v programu COOA. Pro textové korpusy analyzované v tomto textu byla minimální frekvence lemmat okolo 100 výskytů. V programu je třeba definovat kontextovou jednotku jako určitý počet slov, znaků, vět či odstavců. Program pak rozčlení text na jednotlivé úseky a v těchto úsecích sleduje, zda se zde společně vyskytne některá dvojice slov ze slovníku. Výstupem je pak frekvenční matice spoluvýskytů slov (lemmat) a zároveň matice podobnosti (resp. vzdálenosti) těchto slov. Podobnost dvojic slov je vypočtena na základě koeficientu podobnosti, který je rovněž zvolen jako parametr v programu COOA (nejčastěji používaným je koeficient Jaccardův). Matice podobnosti je pak ve třetí fázi statisticky zpracována s využitím různých statistických procedur: faktorové analýzy, clusterové analýzy či mnohorozměrného škálování. Mnohorozměrné škálování primárně slouží k vizualizaci rozložení slov v textu a jejich interpretaci. Volba slov do slovníku je klíčovou fází analýzy, která determinuje povahu výsledků (více k této fázi Hájek [2010]). Pro správné využití metody je třeba ale rozumět i tomu, jak zvolit jednotlivé parametry. V následujícím textu se tedy detailně zaměříme na druhou fázi analýzy, tedy na vliv volby parametrů analýzy na její výsledky a celkovou interpretaci. Metoda CATA je aplikována na dva textové korpusy. Jedná se o přepisy biografických vyprávění aktérů reálného socialismu v Československu získané v rámci interdisciplinárního grantového projektu Instituce v životních příbězích 3, který se zaměřuje na studium životních zkušenosti různých typů aktérů v období vymezeném lety Na projektu se vedle sociologů podílejí i lingvisté a sociolingvisté. Celkově byly v rámci projektu provedeny rozhovory se čtyřmi skupinami aktérů: 1. disidenty, 2. komunistickými funkcionáři, 3. dělníky, 4. inteligencí. Tabulka 1 shrnuje základní charakteristiky provedených rozhovorů. V následujícím textu srovnáváme výsledky analýzy za první dvě skupiny. Reliabilita vizualizace dat Statistické zpracování matice spoluvýskytů je krokem metody, která umožňuje data smysluplně interpretovat. Nese však s sebou určitou míru zjednodušení, která vychází z toho, že se snažíme strukturu sémantického prostoru textových korpusů reprezentovat jako vzdálenosti v dvojrozměrném (případně trojrozměrném) eukleidovském prostoru, který umožní nahlédnout na strukturu původního mnohorozměrného prostoru. Vzniká zde několik problémů a otázek, které ovlivňují uspořádání této struktury, a tedy její interpretaci. Obrázek 1 je ukázkou výstupu analýzy. Jedná se o vizualizaci vzdáleností lemmat v textovém korpusu, velikost bodu je ilustrací frekvence výskytu dané- 3 GAP404/10/0790 Instituce v životních příbězích. Víceúrovňová srovnávací analýza biografických vyprávění tří skupin aktérů české společnosti 2. poloviny 20. století ( , GA0/GA)
5 Tabulka 1. Vlastnosti analyzovaných textových korpusů Celkový počet narátorů Průměrná délka rozhovoru (počet slov) Průměrná délka odpovědi 1 Průměrný věk narátorů Podíl mužů Disidenti ,6 85 % Funkcionáři ,3 97 % Dělníci ,9 54 % Inteligence ,2 64 % Zdroj: Projekt Instituce v životních příbězích Poznámka: Průměrná délka odpovědi ukazuje, jak dlouhé odpovědi dávají narátoři na otázky tazatelů. Jsou-li odpovědi delší, ukazuje to, že narátoři dokážou sami vést vyprávění a nepotřebují příliš mnoho otázek. Krátké odpovědi naopak ukazují, že narátoři nedokážou o tématu sami vyprávět a potřebují větší podporu tazatele. Obrázek 1. Rozložení bodů v grafu MDS podle frekvence (disidenti) KOMUNISMUS CHARTISTA SVOBODA DISENT DISIDENT SPOLEČNOST OBČANSKÉ_FÓRUM REVOLUCE STÁT DEMONSTRACE REŽIM POLITIKA SAMIZDAT HAVEL KONTAKT ČASOPIS SCHŮZE SOUD VÝSLECH STRACH PROCES CHARTA ČLOVĚK STÁTNÍ_BEZPEČNOST ČLEN VĚZENÍ KSČ VĚZEŇ KAMARÁD PRÁCE MANŽEL RODIČ DÍTĚ ŘEDITEL KNIHA DOMOV RODINA ŠKOLA BYT GYMNÁZIUM STUDENT DIVADLO VYSOKÁ_ŠKOLA VOJNA ČSM FILM SOUROZENCI CÍRKEV PENÍZE Zdroj: Projekt Instituce v životních příbězích. Legenda: Vizualizace (MDS) umísťuje slova s vyšší relativní frekvencí spoluvýskytu blíže k sobě a slova s nižší relativní frekvencí spoluvýskytu dále od sebe. Velikost bodu je dána frekvencí výskytu daného slova v textovém korpusu
6 ho slova. Tento graf je třeba interpretovat se znalostí toho, s jakou logikou jsou zde slova/lemmata uspořádána. Pro vizualizaci je použito mnohorozměrné škálování, konkrétně procedura PROXSCAL v programu SPSS. Mnohorozměrné škálování 4 je podle Norušis [Norušis 2005: 288] statistická metoda navržená pro zkoumání dat vyjadřujících stupeň vzájemné rozdílnosti (dissimilarity data) či podobnosti (similarity data) proměnných. V rámci modelu mnohorozměrného škálování jsou jednotlivé proměnné reprezentovány jako body ve vícerozměrném prostoru. Cílem procedury mnohorozměrného škálování je najít takovou méněrozměrnou konfiguraci bodů, kde vzdálenosti mezi body co nejlépe reprezentují míru nepodobnosti (tj. původní vzdálenosti pozn. autora) těchto bodů [Borg, Groenen 2005: 170]. Data ve formátu matice podobností slov získáme z programu COOA [COOA 2009] ve výše naznačené druhé fázi analýzy. V programu COOA je třeba zvolit i dva základní parametry: koeficient podobnosti a velikost kontextové jednotky. Koeficient podobnosti Koeficient podobnosti je variantou vzdálenosti či podobnosti používanou pro dvojice binárních proměnných. 5 Poměřuje počet společných výskytů dvou prvků v našem případě slov v kontextové jednotce s celkovým počtem výskytů obou těchto prvků slov v textu. Výpočet koeficientu podobnosti naznačuje Tabulka 2. Chen, Härdle a Unwin [Chen, Härdle, Unwin 2008: 318] uvádějí 17 různých koeficientů podobnosti. Pro analýzu výskytu slov je vhodných pouze 8 z nich, které nepracují s proměnnou d. 6 Tyto koeficienty, shrnuté v Tabulce 3, se liší 1. rychlostí růstu a ne/linearitou funkce a 2. oborem hodnot, a tedy mírou, s jakou zohledňují nerovnoměrnost frekvence výskytu dvou slov, v textovém souboru. Koeficienty tak můžeme rozdělit na lineárně rostoucí (Simpson, Czekanowski-Sørensen-Dice, Braun-Blanque, Kulczynski, Ochiai) a nelineárně rostoucí (Jaccard, Sokal-Sneath-Annenberg, Mountford). 7 Druhou vlastností je různý obor hodnot koeficientů, který je patrný zejména u slov s různou 4 Anglicky multidimensional scaling, v literatuře je často používána zkratka MDS. 5 Pro kardinální data je nejčastěji používána eukleidovská vzdálenost či jiné varianty vzdálenosti, případně podobnosti. Jako míra podobnosti může sloužit i korelační koeficient. 6 Jak uvádějí Borg a Groenen [2005: 128], tyto koeficienty nejsou vhodné pro vzácně se vyskytující případy, což se týká i výskytu slov v textu. Autoři to zdůvodňují tím, že vzácně se vyskytující případy by díky vysoké míře společného ne-výskytu byly umístěny velmi blízko sebe. 7 Pro zde prezentovaný typ analýzy se jako jednoznačně nevhodný ukazuje Mountfordův koeficient, který roste velmi rychle až u velmi vysokého počtu spoluvýskytů
7 Tabulka 2. Modelová kontingenční tabulka pro výpočet koeficientů vzdálenosti frekvencí výskytu. Tato vlastnost koeficientů je klíčová, protože zásadním způsobem působí na organizaci grafu. Důsledky pro uspořádání grafů a jejich interpretaci Volba koeficientu do jisté míry závisí na tom, jak chápeme vztah dvou slov s odlišnou frekvencí výskytu. Vztah těchto dvou slov je na rozdíl od vzdálenosti v grafu asymetrický. Jako příklad si vezměme slova ČLOVĚK (6529 výskytů v korpusu disidentů) a CÍRKEV (269 výskytů v korpusu disidentů). Maximální Výskyt slova Y 1 = ano 0 = ne celkem 1 = ano a b a + b Výskyt slova X 0 = ne c d c + d celkem a + c b + d a + b + c + d Zdroj: Převzato z Chen, Härdle, Unwin [2008: 318], upraveno autorem. Tabulka 3. Vzorce výpočtu jednotlivých koeficientů vzdáleností Koeficient Vzorec výpočtu Simpson = min{( + ), ( + )} Kulczynski (2) = Ochiai = ( + )( + ) 2 Czekanowski-Sørensen-Dice = Braun-Blanque = max{( + ), ( + )} 2 Jaccard = + + Sokal-Sneath-Annenberg = +2( + ) 2 Mountford = ( + ) + 2 Zdroj: Převzato z Chen, Härdle, Unwin [2008: 318].
8 počet společných výskytů těchto dvou slov je 269 otázka je, zda tato maximální frekvence výskytu ukazuje na silnou, nebo na slabou vazbu mezi těmito dvěma slovy. Z pohledu slova CÍRKEV jistě silnou význam a použití slova CÍRKEV je silně svázáno se slovem ČLOVĚK, které se vždy vyskytuje v jeho kontextu. Pro slovo ČLOVĚK je ale naopak slovo CÍRKEV jen okrajovou součástí kontextu. První vztah tedy vztah méně frekventovaného slova k více frekventovanému zohledňuje Simpsonův koeficient, který vztahuje počet společných výskytů k celkovému počtu výskytů méně frekventovaného slova. 8 Druhý vztah pak reprezentuje koeficient Braun-Blanqueův. 9 Ostatní koeficienty (zejm. Kulczynski, Ochiai a Jaccard) pak hledají střední hodnotu mezi oběma vztahy, a proto je považujeme za nejvhodnější. Nejčastěji užívaný a v literatuře uváděný koeficient pro tento typ analýzy je koeficient Jaccardův [Hájek 2010; Borg, Groenen 2005: 127; Mohammad, Hirst 2005]. Tyto skutečnosti mají pro logiku a interpretaci grafů dvojí význam. Jejich důsledkem je to, co je viditelné na Obrázku 1, a sice že frekvence slova je zásadní pro uspořádání grafu. 10 Méně frekventovaná slova jsou vytlačována na okraj, neboť mají slabý vztah ke slovům více frekventovaným (při užití Braun- -Blanqueova koeficientu) nebo proto, že více frekventovaná slova mají vazbu na více různých slov (při užití Simpsonova koeficientu). Vztah mezi frekvencí slova a jeho vzdáleností od středu však není definiční. 11 Obvykle jsou tyto jevy způsobeny gramatickými vazbami mezi slovy (např. často užívané sousloví člen strany posouvá v korpusu disidentů slovo ČLEN blízko středu díky silné vazbě na slovo STRANA) nebo kontextovou vázaností slova (slovo RODINA má v korpusu disidentů vysokou frekvenci, ale je silně kontextově vázáno na vyprávění o dětství a rodině). Druhým důsledkem asymetrie vztahu mezi slovy je nutná existence vyšší chybovosti způsobené tím, že blízkost dvou slov v grafu nemusí být způsobena pouze častým vzájemným společným výskytem, ale také společnou vazbou na třetí, více frekventované slovo V tomto případě by tedy Simpsonův koeficient byl roven 1. 9 Braun-Blanqueův koeficient by byl roven 0, Výskyt slov v textu podle frekvence je nerovnoměrný, na což poukazují tzv. Zipfovy zákony [podle Manning, Schütze 1999: 24 an.]. George Kingsley Zipf zkoumal ve 30. letech statistické rozložení slov v textu a všiml si určitých pravidelností. Jednou z nich a pro nás nejdůležitější je zákon distribuce slov podle jejich frekvence, podle něhož je součin frekvence výskytu slov v textu a jejich pořadí mezi všemi slovy podle frekvence přibližně konstantní. To jinými slovy znamená, že v náhodně vybraném textu se vyskytuje několik velmi frekventovaných slov a velké množství slov málo frekventovaných. 11 Tento vztah lze vyjádřit Spearmanovým korelačním koeficientem, který je pro analyzovaný slovník v korpusu disidentů roven -0,87 a pro slovník korpusu funkcionářů -0, Tento jev lze ilustrovat následujícím příkladem. Slovo ČLOVĚK v učebnici vývoje lidského druhu má tendenci vytvářet silné vazby na přívlastky ZRUČNÝ, VZPŘÍMENÝ nebo
9 Obrázek 2. Naznačení modulární interpretace (disidenti) C KOMUNISMUS OBČANSKÉ_FÓRUM CHARTISTA SVOBODA DISENT DISIDENT REVOLUCE STÁT SPOLEČNOST DEMONSTRACE REŽIM POLITIKA SAMIZDAT SOUD VÝSLECH HAVEL KONTAKT SCHŮZE ČASOPIS CHARTA ČLOVĚK A STÁTNÍ_BEZPEČNOST ČLEN VĚZENÍ KSČ STRACH VĚZEŇ KAMARÁD PRÁCE MANŽEL RODIČ DÍTĚ ŘEDITEL PROCES KNIHA DOMOV RODINA ŠKOLA BYT GYMNÁZIUM SOUROZENCI CÍRKEV PENÍZE STUDENT DIVADLO VYSOKÁ_ŠKOLA VOJNA ČSM D B FILM Zdroj: Projekt Instituce v životních příbězích. Legenda: Naznačení modulární interpretace (oblasti vyprávění) A. Jádro vyprávění B. Vyprávění o soukromém a rodinném životě C. Vyprávění o životě v opozici D. Vyprávění o politice a ideologii To vede k nutnosti používat při čtení grafu tzv. modulární interpretaci [srov. Borg, Groenen 2005: 81]. V tomto způsobu uspořádání grafu rozdělíme prostor na kruhové výseče, v nichž mají body určité podobné vlastnosti. Tato logika vychází z výše uvedeného: slova se do grafu primárně řadí podle frekvence, ale další uspořádání již probíhá podle významových vazeb. ROZUMNÝ. Jelikož však učebnice velmi pravděpodobně bude uspořádána do kapitol, kde se každá kapitola bude věnovat podrobně jednomu druhu, vyskytne se velmi málo kolokací jednotlivých přívlastků. Tím se zvýší jejich stres. Hlavní příčinou je nerovnoměrnost výskytu jednotlivých slov: zatímco ČLOVĚK se vyskytuje velmi často, jednotlivé přívlastky mají mnohem nižší frekvenci
10 Modulární interpretaci ukazuje Obrázek 2. Zde sémantický prostor vyprávění disidentů rozdělujeme na jádro, které tvoří základní rámec vyprávění a obsahuje slova s nejvyšší frekvencí, popř. slova, která jsou propojena s různými kontexty. U okraje pak nacházíme slova s nižší frekvencí, která rozdělujeme do tří oblastí (výsečí): 1. soukromý a rodinný život, 2. život v opozici, 3. opoziční ideologie. Tyto oblasti pak reflektuje i uspořádání jádra vyprávění, kdy slova ČLEN a KSČ náleží blíže k oblasti soukromé, STÁTNÍ BEZPEČNOST k oblasti života v opozici a CHARTA k oblasti opoziční ideologie. Určení hranic jádra a kruhových výsečí je v tomto případě čistě analytické a je součástí interpretace dat. Struktura sémantického prostoru obvykle nevytváří jasně vymezené podoblasti znamenalo by to, že narátoři využívají zcela odlišnou slovní zásobu pro vyprávění o jednotlivých událostech/oblastech vyprávění a tyto části striktně odděluje, což se ovšem v praxi obvykle neděje. Určení hranic proto není založeno na výpočetní proceduře, která hranice oblastí stanoví objektivně. Výzkumník zde využívá toho, že mnohorozměrné škálování umožňuje nahlédnout na sémantický prostor komplexně a sledovat vztahy mezi jednotlivými součástmi vyprávění: těmi, které se vyskytují blízko, a těmi, které jsou naopak od sebe vzdáleny. Dodejme, že s maticí vzdáleností lze pracovat i s užitím jiných statistických procedur, které umožňují akcentovat jiné vztahy mezi slovy. Pro stanovení interpretačních os textového korpusu lze užít faktorovou analýzu. Výstupem takové analýzy může být určení několika důležitých dimenzí vyprávění, které tvoří klíčové sémantické opozice. 13 Stejně tak lze jednotlivé oblasti vyprávění jak bylo naznačeno stanovit i početně s pomocí hierarchické clusterové analýzy. Hierarchický graf pro korpus disidentů je možné najít v příloze. Obecně platí, že výsledek clusterové analýzy se nemusí plně shodovat se zobrazením pomocí mnohorozměrného škálování, neboť clusterová analýza ignoruje komplexitu vztahů mezi slovy včetně společných vazeb na třetí slovo, které jsou při zobrazení mnohorozměrným škálováním zohledňovány. 14 Porovnání výsledků těchto tří statistických procedur může umožnit komplexnější pochopení a interpretaci dat. 13 Není zde prostor pro hlubší představení užití faktorové analýzy na matici kolokací výskytu slov v textu. Jako ilustrativní příklad můžeme uvést základní dimenze vyprávění, které identifikovala faktorová analýza v korpusu disidentů. Počet dimenzí byl arbitrárně omezen na pět pro účely prezentace. Jsou to: 1. soukromý veřejný (rodina proti ostatním částem vyprávění), 2. oficiální neoficiální (život v ilegalitě proti životu legálnímu), 3. politika kultura, 4. bezpečí nebezpečí, 5. před revolucí po revoluci. Tyto dimenze základní binární opozice charakterizují text a jsou spojeny s (ne)výskytem určitých slov. 14 Hierarchická clusterová analýza řeší odlišným způsobem problém slov, která se vyskytují ve více kontextech (přiřadí slova do jedné nejbližší skupiny), než mnohorozměrné škálování (které zohledňuje pozici slova i vůči ostatním kontextům). Tak například v clusterové analýze má slovo HAVEL blízko slovu DIVADLO, i když mnohorozměrné škálování jej umísťuje zejména do kontextu opoziční a porevoluční politiky
11 Hodnocení kvality modelu Zobrazení mnohorozměrného prostoru do prostoru méněrozměrného, které je podstatou mnohorozměrného škálování, s sebou nese určitou míru zkreslení. 15 Tuto míru je třeba zhodnotit a promítnout do interpretace výsledné vizualizace dat. Míra zkreslení je vyjádřena tzv. hrubým stresem, vypočteným podle vzorce: (5.1) Hrubý stres je součet čtverců rozdílů mezi mírou nepodobnosti dvou prvků a vzdáleností zobrazených bodů, tj. mezi původní vzdáleností v mnohorozměrném prostoru a novou vzdáleností v prostoru méněrozměrném. Tento hrubý stres je pak dále normalizován, tj. vydělen čtvercem vzdálenosti zobrazených bodů: = (5.2) Z této míry je pak dále odvozen Kruskalův Stress-1 jako její odmocnina. Tato míra bývá nejčastěji používána jako kritérium pro hodnocení kvality modelu. V literatuře bývají nejčastěji uváděna Kruskalova kritéria velikosti stresu [viz Hebák 2005; Cox, Cox 2001; Borg, Groenen 2005]. Podle Kruskala by stres neměl překročit hodnotu 0,2 a v ideálním případě by se měl pohybovat kolem 0,05. Borg a Groenen [Borg, Groenen 2005: 54] však nepovažují za vhodné užívat Kruskalova kritéria jako jediné měřítko kvality modelu. Autoři uvádějí, že stres jako míra kvality zobrazení mnohorozměrných dat je závislý na několika aspektech, a sice zejména na: 1. počtu proměnných v modelu, 2. dimenzionalitě modelu, 3. druhu a rozsahu chyby měr podobnosti, 4. typu originální konfigurace, která má být zobrazena a 5. počtu chybějících pozorování v datech. Podle Borga a Groenena proto lze jen těžko usuzovat na optimální a přijatelnou velikost stresu. V tomto ohledu dávají Borg a Groenen dvě základní doporučení. Jednak odkazují na studie datových simulací, které pracují s náhodně generovanými daty a hodnotami stresu pro různé typy dat. Druhým Borgovým a Groenenovým doporučením je zabývat se stresem pouze orientačně a spíše zkoumat, zda se má zobrazená struktura tendenci v různých zobrazeních proměňovat, či je naopak stabilní. Volba nejlepšího modelu by měla být závislá na vývoji velikost stresu se zvyšováním počtu dimenzí. To shrnuje Graf 1 (viz následující stranu). Borg a Groenen [2005: 48] doporučují vybírat to řešení, které se nachází ve zlomu 15 Hledání zobrazení mnohorozměrného prostoru je iterativní procedura, kdy se po stanovení určité úvodní konfigurace, která probíhá buď náhodně, či určitými výpočetními metodami, toto proložení iterativně zlepšuje do chvíle, kdy je nalezeno optimum podle určitých kritérií (maximální počet iterací, minimální snížení stresu oproti předchozí iteraci)
12 Graf 1. 0,5 0,4 0,3 0,2 0,1 0,46 Hodnoty Stresu-1 pro řešení s různou dimenzionalitou (Jaccardův koeficient, kontextová jednotka 100 slov) 0,48 0,28 0,30 0,22 0,20 0,17 0,16 0,15 0,14 0,13 0,12 Disidenti Funkcionáři 0,11 0,10 0,10 0, dim. 2 dim. 3 dim. 4 dim. 5 dim. 6 dim. 7 dim. 8 dim. Zdroj: Projekt Instituce v životních příbězích. křivky klesající hodnoty stresu v závislosti na počtu dimenzí. To by v našem případě mělo být řešení třídimenzionální. Důvodem, proč volíme řešení dvoudimenzionální, je limitovaná možnost zobrazení, která značně ztěžuje interpretaci. Řešením situace by mohlo být vyřazení nestabilních slov z analýzy s vědomím určité redukce informací o struktuře vyprávění, případně analýza trojrozměrného zobrazení, která je jistě proveditelná, ale velice obtížně prezentabilní v odborném textu. Analýza stability struktury zobrazení Volbu dvoudimenzionálního řešení s vědomím větší chybovosti zobrazení dále podpoříme analýzou stability struktury různých zobrazení. Analýza zohledňuje stabilitu zobrazení s týmiž parametry, ale i stabilitu z hlediska změny základních parametrů, tj. koeficientu podobnosti (Jaccardův, Ochiaiův a Kulczynského koeficient) 16 a kontextové jednotky (50, 100 a 150 slov) Předběžná analýza ukázala, že tyto tři koeficienty podobnosti produkují velmi podobné konfigurace. Významně se lišil zejména koeficient Simpsonův, který jsme proto do analýzy již nezahrnovali, neboť vyžaduje odlišnou interpretaci vztahů mezi body. 17 Přístupy k volbě délky kontextové jednotky shrnuje Hájek [2010 : 27]. Důležitý je fakt, že krátké kontextové jednotky (v řádu jednotek slov) jsou vhodné spíše pro sledování obecně jazykových jevů, pro tematickou analýzu jsou pak vhodnější delší kontextové jednotky. Preferovaná varianta 100 slov vychází z těchto úvah a také z předpokladu, že 100 slov přibližně odpovídá délce jednoho kratšího odstavce, a tedy délce smysluplné vý
13 Rozbor proměn konfigurací bodů tedy byl proveden pro 9 skupin datových matic. Na každou z nich byla aplikována analýza mnohorozměrného škálování (PROXSCAL v programu SPSS) celkem pětkrát. Počátek analýzy byl stanoven metodou náhodných počátků v počtu Výsledkem tak bylo 5 různých dobrých konfigurací pro každou skupinu. V těchto 45 výstupech byly dále analyzovány posuny konfigurací jako průměrné vzdálenosti od průměrné konfigurace daného bodu, tzv. centroidu. Ten byl stanoven jako průměr jednotlivých hodnot každé ze dvou dimenzí daného bodu. Průměrná vzdálenost od centroidu byla zvolena jako míra tendence bodu měnit svou pozici v grafu. Velikost hodnoty průměrné vzdálenosti bodu od svého centroidu je mírou tendence bodu měnit svou pozici v grafu. Tato míra by měla být vztažena k měřítku grafu, které kvůli přehlednosti není ve vizualizacích uvedeno, ale pohybuje se přibližně od 1 do +1 v obou dimenzích. Graf 2 (viz následující stranu) zobrazuje výsledky této analýzy pro konfiguraci disidentů. Každý z bodů má tři vlastnosti. Vodorovná osa zobrazuje míru variability bodu způsobenou změnou velikosti kontextové jednotky (50, 100, 150 slov). 19 Svislá osa pak zobrazuje míru variability bodu způsobenou změnou koeficientu podobnosti (Jaccard, Ochiai, Kulczynski). Plocha bodu pak určuje míru nevysvětlené variability daného bodu, tj. variabilitu při stejně zvolených parametrech (u vybraných bodů uvedena i číslem). Z grafu je na první pohled vidět, že vliv volby jedné ze tří měr podobnosti na výslednou konfiguraci bodů není příliš velký. V grafu, kde se souřadnice bodů na obou osách pohybují přibližně od 1 do +1, je posun způsobený volbou jiného koeficientu roven maximálně 0,2. Naopak volba jiné kontextové jednotky již způsobuje výraznější posuny některých slov. Jedná se o slova s nízkou frekvencí nacházející se na okraji grafu. Důvody pro tyto posuny již byly naznačeny: při nízké frekvenci mají vazby na slova ve větší míře náhodný charakter a nejsou pevně zakotveny v určitých kontextech. Při vizualizaci má pak tendenci převážit jedna z těchto vazeb, která umístí slovo do jednoho z jeho kontextů. Graf 3 (viz stranu 21) ukazuje analogickou situaci pro korpus funkcionářů. Vliv změn kontextové jednotky je v tomto korpusu u některých slov vyšší (např. u slova HAVEL se pohybuje v průměru kolem 0,6). Souvisí to s menší velikostí korpusu funkcionářů, která významně zkreslila graf pro kontextovou jednotku povědi. Ostatní hodnoty kontextové jednotky zde byly zkoumány pro zaznamenání změn struktury způsobených změnou tohoto parametru. Dalším aspektům volby délky kontextové jednotky se budeme věnovat v diskuzi. 18 Tento typ analýzy stanoví náhodnou úvodní konfiguraci bodů, kterou dalšími iteracemi zpřesňuje, dokud nejsou naplněna kritéria. Tento postup program opakuje 1000krát a vybírá tu konfiguraci, která má nejnižší míru normalizovaného hrubého stresu (viz výše). 19 Jedná se o průměrnou vzdálenost průměrné pozice (centroidu) každé ze tří velikostí kontextové jednotky (50, 100, 150 slov) od průměrné pozice bodů spočtené ze všech 45 variant výstupů. Míra určuje, zda daný bod má soustavnou tendenci měnit svou pozici s volbou jiné velikosti kontextové jednotky. Analogicky je vypočtena táž míra pro zobrazení s různým koeficientem podobnosti
14 Graf 2. Variabilita zobrazení bodů při změně kontextové jednotky, míry podobnosti a nevysvětlená variabilita (disidenti) 0,2 CHARTISTA 0,27 Velikost bodu: Vnitroskupinová variabilita 0,15 0,1 0,05 0 KOMUNISMUS 0,38 SAMIZDAT 0,26 OBČANSKÉ_FÓRUM 0,32 STRACH 0,26 DEMONSTRACE 0,32 BYT 0,20 ČASOPIS 0,35 SVOBODA 0,31 STÁT 0,42 CÍRKEV 0,49 Osa y: Variabilita při změně koeficientu vzdálenosti 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 Osa x: Variabilita při změně kontextové jednotky Zdroj: Projekt Instituce v životních příbězích
15 Graf 3. Variabilita zobrazení bodů při změně kontextové jednotky, míry podobnosti a nevysvětlená variabilita (funkcionáři) 0,2 0,15 0,1 0,05 0 AUTO 0,19 DIVADLO 0,44 KNIHA 0,20 VOLBA 0,13 PENÍZE 0,22 STUDENT 0,38 VZDĚLÁNÍ 0,14 POLITICKÁ_PRÁCE 0,17 REVOLUCE 0,28 HAVEL 0,33 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 Osa y: Variabilita při změně koeficientu vzdálenosti Osa x: Variabilita při změně kontextové jednotky Velikost bodu: Vnitroskupinová variabilita Zdroj: Projekt Instituce v životních příbězích
16 Obrázek 3. Zobrazení změn pozic bodů se změnou kontextové jednotky (disidenti) Zdroj: Projekt Instituce v životních příbězích. Legenda: Vliv změny kontextové jednotky ( slov) ( slov) 50 slov. Zde se zvyšuje počet dvojic slov s nulovým počtem spoluvýskytů, což komplikuje možnost zobrazení. Konkrétní realizaci této nestability ukazuje Obrázek 3. Vidíme, že některá slova se pohybují velmi výrazně. Důvody těchto výrazných pohybů lze však obvykle najít ve dvojí roli daného slova. Je to patrné u slova CÍRKEV, které se vyskytuje ve dvou dominantních kontextech: v kontextu polistopadové politiky a v kontextu dětství a dospívání narátorů. Podobně slovo SVOBODA se táhne obdobím disidentského boje i obdobím porevolučním, tedy obdobím jejího dosažení. Obrázek 4 pak ukazuje proměny struktury grafu při změně kontextové jednotky ze 100 na 150 slov. Proměna struktury při snížení počtu slov v kontextové jednotce na 50 není naznačena, neboť je natolik zásadní, že by její zachycení ve vizualizaci bylo zcela nepřehledné. U korpusu funkcionářů se tak ukazuje, že volba kontextové jednotky o délce 50 slov zcela mění strukturu, která při zvýšení kontextové jednotky ze 100 na 150 slov už zůstává zachována
17 Obrázek 4. Zobrazení změn pozic bodů se změnou kontextové jednotky (funkcionáři) Zdroj: Projekt Instituce v životních příbězích. Legenda: Vliv změny kontextové jednotky ( slov) I v korpusu funkcionářů se vyskytují některá velmi nestabilní slova. Ukazuje se například, že slovo VOLBA se nachází v politickoideologické oblasti vyprávění, kde však hraje dvojí roli. Je spojeno jednak s volbami jako klíčovou institucí porevolučního společenského a politického vývoje, druhou rolí tohoto slova je pak spojení s vnitřním ideologickým životem komunistické strany. Podobně zajímavá je oscilace slov DIVADLO a AUTO mezi dvěma póly soukromé a rodinné oblasti vyprávění, mezi rolemi těchto dvou slov v popisu mládí a v popisu rodinného života v souvislosti s funkcionářskou kariérou. Nacházíme zde ale také příklad deformace struktury spojené s dvojí rolí slova STUDENT. Toto slovo se vyskytuje ve dvojím kontextu. První kontext, vyprávění o studentském životě narátora, je do značné míry potlačen druhým kontextem, rolí studentů v sametové revoluci. Vysoká vzdálenost slov STU- DENT a VYSOKÁ ŠKOLA naznačuje, že komunističtí funkcionáři o sobě příliš často nehovořili jako o studentech, což souvisí s tím, že studovali stranické školy často při práci, a neprošli tak studentským obdobím života v tom smyslu, jaký je mnohem více patrný u disidentů
18 Poměrně zajímavá situace nastává u slova MATKA, které se s prodloužením kontextové jednotky výrazně posouvá směrem do středu před slovo OTEC. Tento posun nemůže být dán frekvencí daného slova, která je nutně pořád stejná. Ukazuje se tak, že slovo se může dostat do středu grafu i díky silnější vazbě na jiná, důležitá slova. Diskuze a závěr Cílem tohoto textu bylo diskutovat kritéria kvality zobrazení výstupů mnohorozměrného škálování při používání počítačové textové analýzy v programu COOA. Sekundárním cílem pak bylo zhodnotit, jaký vliv na kvalitu modelu má volba parametrů (koeficientu podobnosti a velikosti kontextové jednotky). Analýza ukazuje, že pro postižení struktury vyprávění touto metodou lze jen těžko stanovit objektivní kritéria kvality modelu a volby parametrů. Je spíše třeba s těmito kritérii experimentovat a analyzovat změny zobrazení, které samy o sobě přispívají k pochopení dané struktury. Zásadním zdrojem chyby zobrazení je problém asymetrie vztahu mezi více frekventovaným slovem a slovem méně frekventovaným, který vede k nutnosti interpretovat graf nikoli jako mapu, kde vzájemně si blízká slova mají společné vlastnosti, ale jako oblasti (kruhové výseče), ve kterých se nacházejí slova charakterizující oblasti vyprávění. Modely prezentované v textu neodpovídají obvykle užívaným kritériím kvality (tj. Kruskalovu kritériu, kdy stres ve výši 0,2 je hranice přijatelného modelu). Výzkumník má v tu chvíli několik možností, jak chybu redukovat: 1. vyřadit problematická slova a tím redukovat informaci v modelu obsaženou, 2. zvýšit dimenzionalitu modelu, což ovšem vede ke snížení možností snadné prezentace v odborném textu. Třetí cestou je analyzovat zdroje této chyby a v interpretaci je zohlednit. Otázka je, zda je samotná struktura celkově stabilní a jen malá část prvků má tendenci výrazně měnit svou pozici, nebo je struktura celkově nestabilní. První případ je pro interpretaci použitelný. U nestabilních prvků je pak třeba rozhodnout, zda tuto nestabilitu dokážeme smysluplně interpretovat (jako např. u dvojího kontextu slova CÍRKEV ve vyprávění disidentů), či zda je takové povahy, že slovo z analýzy raději vyloučíme. Analýza ukázala, že v některých případech může znalost chování slova v různých zobrazeních sloužit jako interpretační nástroj i přesto, že je zdrojem chyby. Druhá otázka, ke které je třeba se vyjádřit, je volba parametrů výpočtu matice vzdáleností v programu COOA. Analýza ukazuje, že volba koeficientu podobnosti by se měla omezit na koeficient Jaccardův, Kulczynského a Ochiaiův, které se pokoušejí eliminovat asymetrii vztahu mezi slovy s různou frekvencí. Rozdíly mezi těmito koeficienty nejsou pro výslednou konfiguraci již zásadně významné. Volba kontextové jednotky již ve výsledné konfiguraci hraje větší roli. Hájek [2010: 27] poukazuje na to, že velikost a povaha kontextové jednotky závisí na
19 typu textu, způsobu jeho vytvoření a uspořádání. Zde prezentovaná analýza ukazuje, že optimální kontextová jednotka závisí i na frekvenci analyzovaných slov. Pro slova s nižší frekvencí výskytu (okolo 100) je krátká kontextová jednotka (okolo 50 slov) nevhodná, protože tato slova nejsou dostatečně pevně ve struktuře zakotvena a mají tendenci být vychylována náhodnými vazbami. Příliš velká kontextová jednotka na druhou stranu vede k tomu, že významová struktura může být méně zřetelná. 20 Z výše uvedeného plyne, že počítačovou textovou analýzu nelze aplikovat mechanicky podle předem daných pravidel. Konstrukce slovníku i volba parametrů významně závisí na povaze analyzovaných dat, na tom, zda jde o text psaný či přepis mluveného slova, na charakteristikách autora či mluvčího, případně na povaze komunikační situace a částečně také na velikosti textového korpusu a frekvenci výskytu analyzovaných lemmat. Tyto závěry ukazují, že otevřenost metody znamená na jednu stranu větší šíři možností pro práci s daty, vede však k také nutnosti detailněji data poznat a parametry analýzy volit adekvátně tomuto poznání. Je třeba analýzu opakovat a korigovat ji úpravou slovníku a volbou délky kontextové jednotky. Otevřená metoda tak klade větší nárok na komplexní práci s daty a vyžaduje jednotlivé fáze výzkumu průběžně opakovat a upravovat parametry pro dosažení komplexního obrazu o analyzovaných datech. Václav Čepelák je doktorandem na Katedře sociologie Institutu sociologických studií Fakulty sociálních věd Univerzity Karlovy, kde se zabývá aplikací textových analýz v sociologii. Konkrétně se zaměřuje na studium ekonomického jednání jednotlivců a domácností a jeho chápání ve veřejném a mediálním diskurzu. Mimo studium pracuje v marketingovém výzkumu. Literatura Alexa, Melina Computer-assisted text analysis in the social sciences. ZUMA Arbeitsbericht 97/07. Mannheim: Zuma. Baker, Paul Using corpora in discourse analysis. New York: Continuum. Berelson, Bernard Content Analysis in Communication Research. Glencoe, Illinois: The Free Press. Borg, Ingwer, Patrick J. Groenen Modern multidimensional scaling: theory and applications. 2nd ed. New York: Springer. Chen, Chun-houh; Wolfgang Härdle; Antony Unwin Handbook of data visualization. Berlin: Springer. COOA. Co-occurrence Analysis Software [počítačový software] Praha: Fakulta sociálních věd UK [cit ]. Dostupné z: cuni.cz/attachments/471_setup_cooa.exe. 20 Je vidět, že délka kontextové jednotky by si zasloužila detailnější analýzu, zaměřenou na změny struktury zobrazení při významnějším zvětšování kontextové jednotky. Taková analýza je však nad rámec tohoto textu
20 Cox, Trevor F., Michael A. Cox Multidimensional scaling. 2nd ed. Boca Raton: Chapman. Gadamer, Hans-Georg Pravda a metoda I: nárys filosofické hermeneutiky. Vyd. 1. Praha: Triáda Glaser, Barney G., Anselm L. Strauss The discovery of grounded theory: strategies for qualitative research. 1st pbk. ed. Chicago: Aldine Pub. Hájek, Martin Počítačová textová analýza metodou sledování spoluvýskytů slov. Data a výzkum-sda info, 4(1): Hebák, Petr Vícerozměrné statistické metody. Vyd. 1. Praha: Informatorium. Manning, Christopher D., Heinrich Schütze Foundations of statistical natural language processing. Cambridge: MIT Press. Mohammad, Saif, Graeme Hirst Distributional Measures as Proxies for Semantic Relatedness [online]. Toronto : University of Toronto [cit ]. Dostupné z: ftp://ftp.cs.toronto.edu/pub/gh/mohammad+hirst-2005.pdf. Norušis, Marija J SPSS 14.0 advanced statistical procedures companion. Upper Saddle River : Prentice Hall : SPSS. Scott, John P Social Network Analysis: a handbook. Thousand Oaks: SAGE Publications
21 Příloha: Hierarchická clusterová analýza matice vzdáleností disidentů A B C D E F
Seznam příloh Příloha č. 1:
86 Seznam příloh Příloha č. 1: Slovník pro korpus disidentů a frekvence jednotlivých konceptů Příloha č. 2: Slovník pro korpus funkcionářů a frekvence jednotlivých konceptů Příloha č. 3: Vizualizace korpusu
Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
Využití zakotvené teorie pro výzkum volby školy na úrovni primárního vzdělávání
Využití zakotvené teorie pro výzkum volby školy na úrovni primárního vzdělávání Jaroslava Simonová Ústav výzkumu a rozvoje vzdělávání Pedagogická fakulta UK Praha výzkumný projekt Přechod mezi preprimárním
Popisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR
Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Data Obce ČR 2011 (Veřejná databáze ČSÚ) SPSS IBM, ArcGIS Proměnné: intenzita migračního
Testování hypotéz a měření asociace mezi proměnnými
Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,
Vícerozměrné statistické metody
Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární
Přehled výzkumných metod
Přehled výzkumných metod Kateřina Vlčková Přednášky k Základům pedagogické metodologie PdF MU Brno 1 Definice výzkumné metody Výzkumná metoda Obecný metodologický nástroj k získávání a zpracování dat Systematický
Výzkumný problém. Přednášky ze Základů pedagogické metodologie Kateřina Vlčková, PdF MU Brno
Výzkumný problém Přednášky ze Základů pedagogické metodologie Kateřina Vlčková, PdF MU Brno 1 Formulace výzkumného problému Výzkum musí začít vymezením výzkumného problému toho, co chceme řešit, které
Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová
Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová KOGNITIVNÍ LINGVISTIKA Jazyk a jeho užívání jsou jednou z kognitivních aktivit lidské mysli. Kognitivní lingvisté předpokládají, že jazyk
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
odpovědí: rizikové již při prvním užití, rizikové při občasném užívání, rizikové pouze při pravidelném užívání, není vůbec rizikové.
TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská, Praha Tel.: 8 840 9 E-mail: jan.cervenka@soc.cas.cz Postoj veřejnosti ke konzumaci vybraných návykových látek
ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)
ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,
Konference Terénní a nízkoprahové programy 2010
Hodnocení efektivity nízkoprahových programů Jan Morávek, Ph.D. Institut sociologických studií FSV UK Praha Konference Terénní a nízkoprahové programy 2010 Praha 15. 1. 2010 Východiska Své právo na existenci
Základy sociologie a psychologie metodické listy (B_ZSP)
Základy sociologie a psychologie metodické listy (B_ZSP) AR 2007/2008 - Bakalářské studium kombinovaná forma 1. ročník (pro obor Aplikovaná informatika; ML-sociologie) Přednášející: doc. Dr. Zdeněk Cecava,
ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU. Martina Cirbusová (z prezentace doc. Škopa)
ZÁKLADNÍ METODOLOGICKÁ PRAVIDLA PŘI ZPRACOVÁNÍ ODBORNÉHO TEXTU Martina Cirbusová (z prezentace doc. Škopa) OSNOVA Metodologie vs. Metoda vs. Metodika Základní postup práce Základní vědecké metody METODOLOGIE
Konzumace piva v České republice v roce 2007
TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská 1, Praha 1 Tel./fax: 26 40 129 E-mail: jiri.vinopal@soc.cas.cz Konzumace piva v České republice v roce 2007 Technické
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
MODERNÍ MARKETINGOVÝ VÝZKUM
KOZEL Roman MODERNÍ MARKETINGOVÝ VÝZKUM Obsah O hlavním autorovi... 9 Slovo úvodem...11 1. Marketingové prostředí...13 1.1 Charakteristika prostředí...14 1.2 Makroprostředí...16 1.2.1 Demografické prostředí...18
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
Spokojenost se životem
SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO
Pearsonův korelační koeficient
I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních
Hodnocení kvality logistických procesů
Téma 5. Hodnocení kvality logistických procesů Kvalitu logistických procesů nelze vyjádřit absolutně (nelze ji měřit přímo), nýbrž relativně porovnáním Hodnoty těchto znaků někdo buď předem stanovil (norma,
Česká veřejnost o tzv. Islámském státu březen 2015
pm TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská, Praha Tel.: + E-mail: jan.cervenka@soc.cas.cz Česká veřejnost o tzv. Islámském státu březen 05 Technické parametry
Metody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
Topospolitické korektnosti v současném českém mediálním diskurzu
Topospolitické korektnosti v současném českém mediálním diskurzu Eva Lehečková a Michal Hořejší Ústav českého jazyka a teorie komunikace FF UK eva.leheckova@ff.cuni.cz; mhorejsi@ujc.cas.cz Konference České
Metody analýzy modelů. Radek Pelánek
Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza
Fakulta elektrotechniky a komunikačních technologíı Ústav automatizace a měřicí techniky v Brně
Vysoké učení technické v Brně Fakulta elektrotechniky a komunikačních technologíı Ústav automatizace a měřicí techniky Algoritmy řízení topného článku tepelného hmotnostního průtokoměru Autor práce: Vedoucí
Derivace funkce Otázky
funkce je jedním z hlavních nástrojů matematické analýzy. V příští části ukážeme, jak mnoho různorodých aplikací derivace má. Geometricky lze derivaci funkce v nějakém bodě chápat jako směrnici tečny grafu
Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 1 ČHMÚ, OPZV, Na Šabatce 17, 143 06 Praha 4 - Komořany sosna@chmi.cz, tel. 377 256 617 Abstrakt: Referát
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Bakalářské studium otázky ke státním bakalářským zkouškám. Sociologie
Bakalářské studium otázky ke státním bakalářským zkouškám Sociologie 1. Plurality I Sociální rozměr lidské existence. Podoby sociálních seskupení. Sociální kategorie. Sociální agregáty náhodné, shluky,
Experimentální realizace Buquoyovy úlohy
Experimentální realizace Buquoyovy úlohy ČENĚK KODEJŠKA, JAN ŘÍHA Přírodovědecká fakulta Univerzity Palackého, Olomouc Abstrakt Tato práce se zabývá experimentální realizací Buquoyovy úlohy. Jedná se o
Derivace funkce DERIVACE A SPOJITOST DERIVACE A KONSTRUKCE FUNKCÍ. Aritmetické operace
Derivace funkce Derivace je jedním z hlavních nástrojů matematické analýzy. V příští části ukážeme, jak mnoho různorodých aplikací derivace má. Geometricky lze derivaci funkce v nějakém bodě chápat jako
Souběžná validita testů SAT a OSP
Souběžná validita testů SAT a OSP www.scio.cz 15. ledna 2013 Souběžná validita testů SAT a OSP Abstrakt Pro testování obecných studijních dovedností existuje mnoho testů. Některé jsou všeobecně známé a
7. Tematická kartografie
7. Tematická kartografie Zabývá se tvorbou tematických map, které na topografickém podkladě přebíraném z vhodné podkladové mapy podrobně zobrazují zájmové přírodní, socioekonomické a technické objekty
Citlivost kořenů polynomů
Citlivost kořenů polynomů Michal Šmerek Univerzita obrany v Brně, Fakulta ekonomiky a managementu, Katedra ekonometrie Abstrakt Článek se zabývá studiem citlivosti kořenů na malou změnu polynomu. Je všeobecně
JAKÉ MÍSTO MÁ DATOVÁ ANALYTIKA V PROSTŘEDÍ SOCIÁLNÍCH, HUMANITNÍCH NEBO BIO- SOCIÁLNÍCH OBORŮ
JAKÉ MÍSTO MÁ DATOVÁ ANALYTIKA V PROSTŘEDÍ SOCIÁLNÍCH, HUMANITNÍCH NEBO BIO- SOCIÁLNÍCH OBORŮ PŘÍKLAD DEMOGRAFIE: VYUŽITÍ, INSPIRACE, MOŽNOSTI KLÁRA HULÍKOVÁ KATEDRA DEMOGRAFIE A GEODEMOGRAFIE, PŘÍRODOVĚDECKÁ
GRAFICKÉ ŘEŠENÍ ROVNIC A JEJICH SOUSTAV
GRAFICKÉ ŘEŠENÍ ROVNIC A JEJICH SOUSTAV Mgr. Jitka Nováková SPŠ strojní a stavební Tábor Abstrakt: Grafické řešení rovnic a jejich soustav je účinná metoda, jak vysvětlit, kolik různých řešení může daný
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,
Řešení "stiff soustav obyčejných diferenciálních rovnic
Řešení "stiff soustav obyčejných diferenciálních rovnic Jiří Škvára Katedra fyziky, Přírodovědecká fakulta Univerzity J.E. Purkyně v Ústí n.l.. ročník, počítačové metody ve vědě a technice Abstrakt Seminární
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
Studie webů automobilek
Studie webů automobilek červen 2006 [manažerské shrnutí] Obsah Obsah... 1 Manažerské shrnutí... 2 Kvalita obsahu a použitelnost webu... 3 Základní nedostatky negativně ovlivňují použitelnost většiny webů...
Logika a jazyk. filosofický slovník, Praha:Svoboda 1966)
Logika a jazyk V úvodu bylo řečeno, že logika je věda o správnosti (lidského) usuzování. A protože veškeré usuzování, odvozování a myšlení vůbec se odehrává v jazyce, je problematika jazyka a jeho analýza
Spokojenost se životem březen 2018
Tisková zpráva Spokojenost se životem březen 2018 Dvě třetiny (66 %) populace jsou spokojeny se svým životem. Od května 2013 spokojenost se životem měla většinou vzestupnou tendenci, v průběhu minulého
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat.
3. Kvalitativní vs kvantitativní výzkum Kvantitativní výzkum Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat. Kvantitativní výzkum
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
Zpracoval: Milan Tuček Centrum pro výzkum veřejného mínění, Sociologický ústav AV ČR, v.v.i. Tel.: ,
Tisková zpráva Priority ve financování jednotlivých oblastí sociální politiky listopad 2016 Z deseti sociálních oblastí nejvyšší prioritu získala zdravotní péče, kterou polovina dotázaných uvedla na prvním
GEN104 Koncipování empirického výzkumu
GEN104 Koncipování empirického výzkumu Hypotézy Proměnné Konceptualizace Operacionalizace Měření Indikátory Využity podklady Mgr. K. Nedbálkové, Ph.D. etapy výzkumu I Formulace problému (čtu, co se ví,
Matematika pro geometrickou morfometrii
Matematika pro geometrickou morfometrii Václav Krajíček Vaclav.Krajicek@mff.cuni.cz Department of Software and Computer Science Education Faculty of Mathematics and Physics Charles University Přednáška
UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
Popisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
1. Měření a analýza didaktické vybavenosti učebnic
1. Měření a analýza didaktické vybavenosti učebnic Koeficienty didaktické vybavenosti se stanovují jako procentuální podíl počtu komponentů v učebnici využitých ku počtu komponentů možných. Kromě celkové
REGIONÁLNÍ KONCENTRACE AKTIVIT PODNIKŮ. Příklad využití individuálních dat ve spojení s autokorelační statistikou
REGIONÁLNÍ KONCENTRACE AKTIVIT PODNIKŮ Příklad využití individuálních dat ve spojení s autokorelační statistikou Kristýna Meislová [meislova@tc.cz] 14. dubna 2016 Co bude následovat I. Proč zkoumat prostorovou
Metodologie výzkumu mezigeneračního učení: od otázek k výsledkům
Metodologie výzkumu mezigeneračního učení: od otázek k výsledkům Milada Rabušicová Lenka Kamanová Kateřina Pevná Ústav pedagogických věd, Filozofická fakulta Masarykovy university, Brno Výzkumný projekt
Česká veřejnost o tzv. Islámském státu únor 2015
pm50 TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská, Praha Tel.: +40 86 840 9 E-mail: jan.cervenka@soc.cas.cz Česká veřejnost o tzv. Islámském státu únor 05
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.0141 Báze vektorových prostorů, transformace souřadnic Michal Botur Přednáška
MAPA VÝZKUMU 13/03/2015 1
MAPA VÝZKUMU 13/03/2015 1 VÝZKUMNÁ ZPRÁVA velikost příspěvku pro vědu není tak důležitá jako kvalita práce,v níž se přínos demonstruje. S původností práce se asociují vlastnosti jako novost, nový styl
Spokojenost se životem červen 2019
Tisková zpráva Spokojenost se životem červen 2019 Více než dvě třetiny (68 %) populace jsou spokojeny se svým životem. Od roku 2013 měla spokojenost se životem většinou vzestupnou tendenci, v průběhu roku
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Návrh postupu pro stanovení četnosti překročení 24hodinového imisního limitu pro suspendované částice PM 10
Návrh postupu pro stanovení četnosti překročení 24hodinového imisního limitu pro suspendované částice PM 1 Tento návrh byl vypracován v rámci projektu Technologické agentury ČR č. TA23664 Souhrnná metodika
časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality.
Modelování dynamických systémů Matematické modelování dynamických systémů se využívá v různých oborech přírodních, technických, ekonomických a sociálních věd. Použití matematického modelu umožňuje popsat
METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU
METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ
Využití tabulkového procesoru MS Excel
Semestrální práce Licenční studium Galileo srpen, 2015 Využití tabulkového procesoru MS Excel Ing Marek Bilko Třinecké železárny, a.s. Stránka 1 z 10 OBSAH 1. ÚVOD... 2 2. DATOVÝ SOUBOR... 2 3. APLIKACE...
Česká veřejnost o tzv. Islámském státu a o dění na Ukrajině leden 2016
pm0 TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská, Praha Tel.: +0 0 E-mail: jan.cervenka@soc.cas.cz Česká veřejnost o tzv. Islámském státu a o dění na Ukrajině
Technické parametry výzkumu
OR1202b TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská 1, Praha 1 Tel.: +20 210 0 58 E-mail: jiri.vinopal@soc.cas.cz Výběr piva českými konzumenty v roce 201
Analytické metody v motorsportu
Analytické metody v motorsportu Bronislav Růžička Ústav konstruování Odbor konstruování strojů Fakulta strojního inženýrství Vysoké učení č technické v Brně ě 29. června 2011, FSI VUT v Brně, Česká republika
Psychosémantické metody
Psychosémantické metody Psychosémantika filosofické pozadí Význam skrytý za slovy Filosofické zakotvení Ludwig Wittgenstein Význam nějakého slova je způsob jeho užití v řeči. (Filosofická zkoumání) Hranice
Matematika (a fyzika) schovaná za GPS. Global Positioning system. Michal Bulant. Brno, 2011
Matematika (a fyzika) schovaná za GPS Michal Bulant Masarykova univerzita Přírodovědecká fakulta Ústav matematiky a statistiky Brno, 2011 Michal Bulant (PřF MU) Matematika (a fyzika) schovaná za GPS Brno,
Spokojenost se životem březen 2019
Tisková zpráva Spokojenost se životem březen 2019 Více než dvě třetiny (68 %) populace jsou spokojeny se svým životem. Od roku 2013 měla spokojenost se životem většinou vzestupnou tendenci, v průběhu roku
ZKUŠEBNÍ PROTOKOLY. B1M15PPE / část elektrické stroje cvičení 1
ZKUŠEBNÍ PROTOKOLY B1M15PPE / část elektrické stroje cvičení 1 1) Typy testů 2) Zkušební laboratoře 3) Dokumenty 4) Protokoly o školních měřeních 2/ N TYPY TESTŮ PROTOTYPOVÉ TESTY (TYPOVÁ ZKOUŠKA) KUSOVÉ
Aplikace výsledků European Social Survey a Schwartzových hodnotových orientací v oblasti reklamy
Aplikace výsledků European Social Survey a Schwartzových hodnotových orientací v oblasti reklamy Ing. Ludmila Navrátilová Vysoké učení technické v Brně, Fakulta podnikatelská, Kolejní 4, 612 00 Brno, Česká
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Moravské gymnázium Brno s.r.o. Kateřina Proroková
Číslo projektu Název školy Autor Tématická oblast CZ.1.07/1.5.00/34.0743 Moravské gymnázium Brno s.r.o. Kateřina Proroková Základy společenských věd Téma Ročník 1. Datum tvorby 28.2.2013 Anotace Sociologický
Metodologie pedagogického výzkumu II
Metodologie pedagogického výzkumu II kurz pro první ročník magisterského studia oboru pedagogiky, PedF UK rozsah kurzu: 1/1 výuka probíhá blokově: sobota 2.4. v 10:00-17:30 v R208 sobota 9.4. v 10:00-17:30
Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007
Název školy: Základní škola a Mateřská škola Žalany Číslo projektu: CZ. 1.07/1.4.00/21.3210 Téma sady: Informatika pro sedmý až osmý ročník Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
POPTÁVKA PO VEŘEJNÉ DOPRAVĚ V ZÁVISLOSTI NA ŠKOLSTVÍ V KRAJI TRANSPORT DEMAND DEPENDS ON EDUCATION ON REGIONS
POPTÁVKA PO VEŘEJNÉ DOPRAVĚ V ZÁVISLOSTI NA ŠKOLSTVÍ V KRAJI TRANSPORT DEMAND DEPENDS ON EDUCATION ON REGIONS Kateřina Pojkarová Anotace:Dopravu vužívají lidé za různým účelem, mimo jiné i ke svým cestám
Technické parametry výzkumu
TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská 1, Praha 1 Tel./fax: 286 840 129 E-mail: jiri.vinopal@soc.cas.cz Některé aspekty výběru piva českými konzumenty
Otázku, kterými body prochází větev implicitní funkce řeší následující věta.
1 Implicitní funkce Implicitní funkce nejsou funkce ve smyslu definice, že funkce bodu z definičního oboru D přiřadí právě jednu hodnotu z oboru hodnot H. Přesnější termín je funkce zadaná implicitně.
HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)
HYPOTÉZY Hypotéza není ničím jiným než podmíněným výrokem o vztazích mezi dvěma nebo více proměnnými. Na rozdíl od problému, který je formulován v podobě otázky explicitně, nebo implicitně vyjádřené, hypotéza
OD INFORMACE K METAINFORMACI (Systémy automatické podpory vytváření metadat z primárních dokumentů)
OD INFORMACE K METAINFORMACI (Systémy automatické podpory vytváření metadat z primárních dokumentů) Zdeněk Jonák, Výzkumný ústav pedagogický Praha Úvod Se vzrůstajícím počtem těch, kteří dosáhnou osvědčení
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Technické parametry výzkumu
TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská 1, Praha 1 Tel./fax: 286 840 129 E-mail: jiri.vinopal@soc.cas.cz K některým aspektům výběru piva českými konzumenty
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Výsledky a prezentace české vědy z pohledu veřejnosti
TISKOVÁ ZPRÁVA Centrum pro výzkum veřejného mínění Sociologický ústav AV ČR, v.v.i. Jilská 1, Praha 1 Tel./fax: +420 210 310 584 E-mail: jiri.vinopal@soc.cas.cz Výsledky a prezentace české vědy z pohledu
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného) 1 Obecný popis metody Particle Image Velocimetry, nebo-li zkráceně PIV, je měřící
Nové výsledky o zlomkových kuželosečkách v rovině a prostoru
Michal Řepík ZS 0/0 Nové výsledky o zlomkových kuželosečkách v rovině a prostoru Michal Řepík Pedagogická fakulta, Univerzita Karlova v Praze, BM, ZS 0/0, m.repik@email.cz Abstrakt Tato seminární práce
Metody tvorby politik (MTP) Zimní semestr 2018/2019 Katedra veřejné a sociální politiky FSV UK
Metody tvorby politik (MTP) Zimní semestr 2018/2019 Katedra veřejné a sociální politiky FSV UK Dnes Představení Povinnosti v MTP Úvod do policy analysis Představení Vyučující Garant: Prof. PhDr. Arnošt
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
Seminář k absolventské práci
Seminář k absolventské práci Jak napsat a úspěšně obhájit absolventskou práci Absolventské práce - závěrečná práce studia - významný čin z hlediska celkového růstu intelektuálních zdatností a tvůrčích
Karta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0259 Garantující institut: Garant předmětu: Exaktní metody rozhodování Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková,
Mnohorozměrná statistická data
Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná