Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

Podobné dokumenty
I. SONDA ZÁKLADNÍ INFORMACE O SONDĚ

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu

Specializovaný korpus BANÁT a jeho využití

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Vysoká škola technická a ekonomická v Českých Budějovicích. Institute of Technology And Business In České Budějovice

K slovosledu mluvené češtiny v rumunském Bígru

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

Zkoumání lidské psychiky, základní metody a postupy. PaedDr. Mgr. Hana Čechová

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Celopopulační studie o zdravotním stavu a životním stylu obyvatel v České republice - Charakteristika výběrového souboru


Ě Ž

SŠ - VÝSLEDKY. Ja-h-ve/Frk 1

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

Korpus spontánní mluvené češtiny ORAL2013 1

Sankce EU vůči Rusku. Závěrečná zpráva. Září 2014

Výuka s ICT na SŠ obchodní České Budějovice Šablona III/2:

TARCEVA klinický registr

Vzdělávání jako výraz jistoty zaměstnání?

ALKOHOL A TABÁK KONZUMUJÍ V ČR NEJČASTĚJI MLADÍ LIDÉ VE VĚKU LET

Příloha 2 Tabulka 1. Nabídka pořadů podle 2 odst. 2 písm. c) a d) zákona o Českém rozhlasu. Regionální vysílání Českého rozhlasu celkem.

Jazyk a společnost: pojmy a teze jaro 2019

2. Korpusový portál a volně dostupné nástroje

BYDLENÍ PRO MLADOU GENERACI VÝSLEDKY PRŮZKUMU

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Ing. Eva Hamplová, Ph.D. Ing. Jaroslav Kovárník, Ph.D.

Případové studie projektu e-nazor.cz

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Užívání pasivního participia v mluvené češtině: srovnání institucionální komunikace a běžného dorozumívání 1

TARCEVA klinický registr

Cizinci a cizinky ze třetích zemí na trhu práce v ČR

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

Metody sociálního výzkumu. 2. Ročník LS 2010 Jabok, ETF 2. výukový blok

Fyzické tresty Výzkum PR

Občané o stavu životního prostředí květen 2013

Jaký máte vztah k Vašemu hejtmanovi? (graf) 36,0% 34,8% 50,7% 55,9% 45,9% 58,3% 41,0% 49,6% 49,7% 73,3% 42,8% 71,3% 41,7% 54,9% 33,3% 27,2% 30,5%

Problematika hluchoty: aktuální otázky 4. hodina ( ) NESLYŠÍCÍ V POLSKU VĚDA, VZDĚLÁNÍ, VÝZKUM, KORPUS

Měření výsledků komunikační kampaně chráněných označení

Využití shlukové analýzy při vytváření typologie studentů

Občané o stavu životního prostředí květen 2014

Jazyk a společnost: pojmy a teze jaro 2017

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Kriminalistická

E M B L E M A T I C K É M Y S T É R I U M Z A H R A D Y

průzkum STAROSTOVÉ sběr: Praha S 1/6 Znáte jednotlivé starosty / starostky? (řazeno od nejznámějších)

Práva homosexuálů Zpracováno exkluzivně pro:

Analýza potřeb venkova

Výběrové šetření o zdravotním stavu české populace (HIS CR 2002) - Charakteristika výběrového souboru (II. díl)

1. Velikost pracovní síly

Sdru ený okresní p ebor Plze ska

VOLBY DO KRAJSKÝCH ZASTUPITELSTEV A SENÁTU 2012 V ČESKÉ TELEVIZI

Postoj české veřejnosti k přijímání uprchlíků září 2015

Sněmovní volební model MEDIAN. (květen-červen 2013) 24. června 2013

Česká veřejnost o tzv. Islámském státu únor 2015

Výzkum před komunálními volbami 2018 Volební potenciál

2/5. Graf 1: Názory na zajištění vybraných oblastí sociální politiky v ČR 1. so iál í politika elkově 2. školství a vzdělává í 14.

Sociální původ, pohlaví, vzdělání a kompetence ve světle dat z národního šetření PIAAC

Zdravé klima v zájmovém a neformálním vzdělávání. Prezentace výsledků výzkumu

TECHNICKÁ ZPRÁVA ZE ZAJIŠTĚNÍ TERÉNNÍ FÁZE SBĚRU DAT SOCIOLOGICKÉHO ŠETŘENÍ TŘÍDNÍ STRUKTURA A SOCIÁLNÍ MOBILITA

Měření výkonů cestovního ruchu: spolupráce destinací s VŠ

EUROREGION. Datamining. zápočtová analýza č. 2

Žáci s odlišným mateřským jazykem diskuse

Sociologický výzkum (stručný úvod) Michal Peliš

po /[5] Jilská 1, Praha 1 Tel./fax:

II. Složení a reprezentativita výběrového souboru

Rozdělení Československa

Vzdělávání dospělých v pracovním a profesním kontextu

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Zpráva z bleskového výzkumu

PRŮZKUM SPOKOJENOSTI CESTUJÍCÍCH NA LINKÁCH MAD TŘEBÍČ

Analýza míry krytí nákladů na výkon státní správy

Český jazyk a literatura Prostě-sdělovací funkční styl

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Survey of Health, Ageing and Retirement in Europe. Česká republika 50+:

Česká veřejnost o tzv. Islámském státu březen 2015

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

Spokojenost občanů s místním společenstvím

Expertní studie VÝZKUM FAKTORŮ PŘECHODU OD INDUSTRIÁLNÍ EKONOMIKY KE ZNALOSTNÍ A PODNIKAVÉ EKONOMICE V PODMÍNKÁCH MORAVSKOSLEZSKÉHO KRAJE

Sněmovní volební model MEDIAN

Vzácná onemocnění. Závěrečná zpráva Únor 2016

š š ů š ó ů ů Č Č š Ž šť ů ů ů š ů ů š Ž ů š š š š Č š ů š ů ů š šť ů ú š ů š ů ů š Ú Ú ů Ž Ž Ú ÝÚ Ž Ž š ů ů š š ů ů ů Ž Ý Ž š Č Ú Ž Ú Ú Č Ú ů ů š ů š

Radio projekt. VÝZKUM POSLECHOVOSTI ROZHLASOVÝCH STANIC (Výsledky I/ II/2007) STEM/MARK a MEDIAN. Prezentace výsledku RP - 9.

Analýza sociálně vyloučených lokalit v ČR. Závěrečná konference

4. Územní rozdíly v úrovni vzdělanosti obyvatelstva ČR

Projekt: Výzkumné šetření informovanosti o vypnutí zemského analogového televizního vysílání v územní oblasti Plzeň (vysílač Krašov)

Vnímání potravin spotřebitelem. Ing. Jan Pivoňka, Ph.D.

Studie Hluk a zdraví sledování zdravotních účinků hluku. MUDr. Zdeňka Vandasová

Voliči populistických stran ve volbách 2013: základní charakteristiky a užívání nových médií

Č E ŠT I NA A RUŠT I NA V KONTAKTU

Český jazyk ve 4. ročníku

Univerzita Karlova v Praze. Filozofická fakulta. Ústav bohemistických studií. čeština pro cizince. Diplomová práce. Anastasia Tartakovskaya

Preference ne-pvc obalů ve třech krajích ČR: Evaluace kampaně Arniky

Výsledky z průzkumu Agresivní chování vůči učitelům

SEKCE 1: SOCIODEMOGRAFIE: S01. Pohlaví respondenta 1) Muž 2) Žena

GEN104 Koncipování empirického výzkumu

NÁRODNÍ JAZYK A JEHO ÚTVARY

Četnost brýlové korekce v populaci

DIGLOSIE V MEZINÁRODNÍCH FIRMÁCH?

Neúplné rodiny žena jako zaměstnankyně nebo pečovatelka?

Transkript:

Validita korpusu ORAL2013 Mgr. Jan Chromý, Ph.D.

Obsah korpus ORAL2013 validita

ORAL2013 cíl represent spontanneous spoken Czech in a sociolinguistically balanced way (Válková et al. 2012) charakteristiky 835 nahrávek (17 471 minut; průměr = 21 minut) z let 2008 2011 2 785 189 slovních tvarů celkově 1297 zaznamenaných mluvčích

ORAL2013 vyvážený pohlaví věk vzdělání region původu povaha nahrávek neformální rozhovory většinou skryté nahrávání

ORAL2013: problémy stavba vzorku a reprezentativnost sociolingvistické údaje

Problémy stavby vzorku pokrytí území vyváženost

ORAL2013: pokrytí převzato z http://wiki.korpus.cz/lib/exe/detail.php/cnk:o13.png?id=cnk%3aoral2013

ORAL2013: vyváženost věk < 35 let vs. 35 let kontinuum 18 93 let rozděleno nerovnoměrně vhodnější by byla životní stadia adolescence raná dospělost rodičovství důchod

Problémy s údaji málo demografických informací věk vzdělání místo původu vztah k nahrávajícímu problém místa původu pozdější mobilita?

Místo původu devět oblastí, žádná bližší specifikace jihozápadočeská pohraničí moravské pohraničí české severovýchodočeská slezská středomoravská středočeská východomoravská česko-moravská

Validita Nakolik můžeme prostřednictvím korpusu ORAL2013 zkoumat současnou spontánní mluvenou češtinu? souběžná validita dva způsoby zkoumání téhož by měly vykazovat stejné výsledky

Souběžná validita srovnání dvou zdrojů dat data z grantu GAČR analogická data z ORAL2013 vzorek mluvčí z Prahy 20 30 let mluvčí z Českých Budějovic 19 30 let srovnávané jevy protetické /v/ kondicionálový tvar 1. os. pomocného slovesa být

Grant GAČR 13-12973P (2013 2015) Sociolingvistická analýza užívání protetického /v/ v Čechách (SAUP) pět zkoumaných měst 10 žen a 10 mužů ve věku cca 20 30 let 10 žen a 10 mužů ve věku cca 60 70 let respondenti narodil/a se a žije v daném místě alespoň jeden z rodičů z daného místa, druhý z Čech v užším slova smyslu hodinové rozhovory neformální

Použité datové soubory částečně rozdílná povaha dat Mluvčí kondicionál Výskyty kondicionál Mluvčí (v) Výskyty (v) SAUP: Praha 18 697 18 3359 ORAL: STČ 114 868 127 5495 SAUP: ČB 20 732 20 4780 ORAL: JZČ 57 534 67 3550

Kondicionál výchozí předpoklad v 1sg preference bych, v 1pl preference bysme kódování varianty bych, kdybych, abych nejsou rozlišovány dvě hodnoty: spisovný vs. nespisovný tvar

Kondicionál: výsledky rozdíl pouze 1pl SAUP: ČB vs. ORAL: JZčeská bych bysem bychom bysme SAUP: Praha 631 (98,9 %) 7 (1,1 %) 1 (1,69 %) 58 (98,31 %) ORAL: STČ 674 (98,25 %) 12 (1,75 %) 13 (7,14 %) 169 (92,86 %) SAUP: ČB 637 (98,61 %) 9 (1,39 %) 8 (9,3 %) 78 (90,7 %) ORAL: JZČ 406 (97,83 %) 9 (2,17 %) 0 (0 %) 119 (100 %)

Průběžné závěry: Omezení dat SAUP všech 8 výskytů bychom je u jednoho mluvčího problém dopadu jednotlivých mluvčích u malého vzorku ORAL2013 krátké rozhovory 1pl alespoň jeden výskyt pouze u 56 mluvčích (ze 114 v STČ) a u 34 mluvčích (z 57 v JZČ) 31 výskytů 1pl (cca 25 %) u jednoho mluvčího v JZČ

Protetické v- Chromý (2015) užívání je spoluurčováno řadou faktorů obtížnější analýza jsou si datové soubory základně podobné?

Protetické v-: výsledky rozdíl SAUP: ČB vs. ORAL: JZČ ženy muži /o/ /vo/ /o/ /vo/ SAUP: Praha 689 (37.49 %) 1149 (62.51 %) 341 (23.45 %) 1113 (76.55 %) ORAL: STČ 1253 (37.49 %) 2089 (62.51 %) 580 (26.94 %) 1573 (73.06 %) SAUP: ČB 1778 (69.64 %) 775 (30.36 %) 1114 (50.02 %) 1113 (49.98 %) ORAL: JZČ 643 (40.31 %) 952 (59.69 %) 510 (26.09 %) 1445 (73.91 %)

Důvody rozdílu vzorek SAUP mluvčí, kteří se nevyjadřují spontánně vzorek ORAL2013: JZČ silně heterogenní další faktory?

Nespontánnost v SAUP nepravděpodobné viz výsledky kondicionálu zcela běžně další obecně české varianty (ý > ej, é > ý, -ama apod.)

Vzorek ORAL: JZČ heterogennost jihozápadočeská oblast Plzeň vs. České Budějovice vs. České Budějovice na hranici doudlebského výběžku historicky bez protetického v- převzato z http://www.ujc.cas.cz/zakladni-informace/oddeleni/oddelenidialektologicke/publikacni-cinnost/obalky/mapa-nareci.jpg a upraveno

Závěr středočeská oblast zdá se validní pro pražské mluvčí žádné rozdíly v užívání kondicionálových tvarů a protetického v- jihozápadočeská oblast příliš velká různé jevy mohou být používány různě v různých místech

Závěr rozdíly mezi mluvčími disproporce mezi objemem dat od různých mluvčích v ORAL2013 v případě malého vzorku velký problém potřeba dodatečných informací mobilita mluvčích