Roviny analýzy jazyka. Fonetika

Podobné dokumenty
Pavel Cenek, Aleš Horák

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Speciální struktury číslicových systémů ASN P12

NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Algoritmy a struktury neuropočítačů ASN P8b

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

FONETIKA A FONOLOGIE I.

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Neubauer, K. a kol. NEUROGENNÍ PORUCHY KOMUNIKACE U DOSPĚLÝCH (Praha, Portál, r. vydání 2007).

Šablona: I/2Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Zvuková stránka jazyka

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Úvod do praxe stínového řečníka. Úvod

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Český jazyk a literatura

Úvod do praxe stínového řečníka. Proces vytváření řeči

TULLIO DE MAURO: BIBLIOGRAFICKÉ A KRITICKÉ POZNÁMKY O FERDINANDOVI DE SAUSSUROVI

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Řeč. u osob se sluchovým postižením. Mgr. MgA. Mariana Koutská

1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce

Předmět: Český jazyk. hlasité čtení, praktické čtení. hlasité i tiché čtení s porozuměním

Transkripce psaného českého textu do fonetické podoby

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jarmila Kuchařová Týdenní dotace hodin: 9 hodin Ročník: druhý

Předmět: Český jazyk a literatura

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Tematický plán pro školní rok 2016/2017 Předmět: Český jazyk a literatura Vyučující: Mgr. Jana Paličková Týdenní dotace hodin: 9 hodin Ročník: druhý

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Okruhy pojmů ke zkoušce, podzim 2016

Předmět:: Český jazyk a literatura

FONETIKA A FONOLOGIE II.

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

vydáno 3. listopadu 2015 Součásti SZZK podle výběru studenta se koná na jednom, nebo na druhém oboru Zkušební tematické okruhy (podrobněji)

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 9. Průřezová témata Mezipředmětové vztahy.

Český jazyk a literatura

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

ZČU v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015

Přirozený jazyk prostředek komunikace

Gramatické rozbory češtiny Výklad a cvičení s řešeními. Robert Adam a kol. Recenzovaly: PhDr. Jasňa Pacovská, CSc. PhDr. Jana Bílková, Ph.D.

Systém českých hlásek

Univerzita Pardubice Fakulta-ekonomicko správní

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

Motivace pro jazykovou správnost. Prezentace pro předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2014

Komunikace a jazyková správnost (pravopis)? Předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2015

český jazyk a literatura

ŠVP Školní očekávané výstupy. - vyslovuje jasně a srozumitelně - mluví přiměřeně hlasitě

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Příspěvky k české morfologii

SYNTAX LS Úvod

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Lingvistická terminologie

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Vzdělávací obsah vyučovacího předmětu

Výukové programy - Mgr. Karla Pitáková, tel

ÚVOD DO STUDIA JAZYKA - JAZYK A ŘEČ

Syntaxe gramatiky a syntaktické struktury

Český jazyk a literatura

český jazyk a literatura

Předmluva autora k českému vydání 9 Předmluva překladatelů 11 Kapitola 1: Na úvod 13

LS 2013 Teorie skrytých Markovových modelů. Tino Haderlein, Elmar Nöth

Úvodní jazykový seminář: výklad a cvičení (s terminologickým slovníkem)

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět ČESKÝ JAZYK 1. OBDOBÍ

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

Poř. Číslo materiálu Předmět Ročník Téma hodiny Ověřený materiál Program 1 VY_32_INOVACE_04_09 Český jazyk 1. ČJ - ověření učiva za 1.

český jazyk - 2. ročník časová dotace: 8 hod. týdně

Obsah Předmluva autora k českému vydání... 9 Předmluva překladatelů...11 Kapitola 1: Na úvod... 13

4. 1. SPECIFICKÉ PORUCHY UČENÍ A OSTATNÍ (SPU-O)

Učební osnovy vyučovacího předmětu anglický jazyk se doplňují: 1. stupeň Ročník: pátý. Přesahy, vazby, rozšiřující učivo, poznámky.

Předmět:: Český jazyk

ZÁŘÍ. Náprava - používání pomůcek: Přípravné období pro výuku čtení a psaní, odstraňování symptomů provázejících dyslexii

3 Sluchové vnímání dětí s narušenou komunikační schopností

Specifické poruchy učení

MAL. one of the best corroborated law in linguistics

český jazyk a literatura

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

ORÁLNÍ ŘEČ ( = ÚSTNÍ, MLUVENÁ, ZVUKOVÁ)

ŠVP Školní očekávané výstupy. - vyslovuje pečlivě a správně hlásky a slova - pozná svou špatnou výslovnost a opraví ji

Anglický jazyk pro 8. ročník

Německý jazyk - Kvinta

Řečové technologie pomáhají překonávat bariéry

NLP & strojové učení

2 Lexikální jednotka. 2.1 Obecné kategorie

Fonetika italštiny. Jan Radimský. Recenzovali: prof. PhDr. Sylva Hamplová, CSc. doc. Mgr. Pavel Štichauer, Ph.D.

Český jazyk a literatura - jazyková výchova

Český jazyk a literatura

ČESKÝ JAZYK - 2. ROČNÍK

ŘEČOVÉ TECHNOLOGIE v PRAXI

Přehled očekávaných výstupů

Český jazyk a literatura

Český jazyk ve 2. ročníku

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Transkript:

. Fonetika Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Úvod do počítačové lingvistiky 2/11 1 / 20 Struktura jazyka Struktura jazyka zahrnuje informace o: co jsou slova (z jakých znaků, jaké slovní tvary a jejich složky) jak se slova (větné složky) kombinují do vět co slova označují, jaké jsou jejich lexikální významy jak se význam věty skládá z významů slov a slovních spojení (větných složek) zpracování jazyka dále potřebuje: obecnou (encyklopedickou) znalost světa (ontologie) inferenční mechanismus znalost komunikační situace Úvod do počítačové lingvistiky 2/11 2 / 20

znalosti struktury jazyka jsou propojeny hierarchicky Pragmatická jazykové roviny: fonetická morfologická Sémantická syntaktická sémantická Syntaktická pragmatická Morfologická Fonetická kontextová znalost základní ontologie jazykové metaznalosti Úvod do počítačové lingvistiky 2/11 3 / 20 příklad rovina analýzy příklad pragmatická sémantická syntaktická Jíst(I 2, Salát, TI 3 ) with(salát, krab) Jíst(On, Salát, T min ) with(salát, krab) Jíst with (On, Salát, krab, T min ) S S Verb NP Verb NP NP jíst Noun NP jíst Noun Prep Noun salát Prep Noun salát s krab morfologická s krab jíst Verb3MSP, salát Noun4IS, s Prep7, krab Noun7MS fonetická [j e d l s a l a: t s k r a b e m] povrchová Jedl salát s krabem. Úvod do počítačové lingvistiky 2/11 4 / 20

,,,, start..,, pokrač. fonetická postihuje vztahy mezi zvuky používanými v (mluveném) jazyce, jejich skládání do slabik a slov foném nejmenší jednotka jazyka, která může odlišit význam nadřazených jednotek kosit/nosit fonémy k a n odlišují dvě slova často odpovídají znakům vždy ale označují zvuky morfologická interní struktura slov, skládání slov z menších jednotek morfém nejmenší jednotka, která může nést význam pří-lež-it- pří prefix (bĺızko) -ost-n-ými: lež lexikální kořen (ležet) it adjektivní derivační sufix (ten, který) ost substantivní derivační sufix (ta skutečnost, že) n adjektivní derivační sufix (charakteristický pro) ými gramatický afix (instrumentál plurálu) Úvod do počítačové lingvistiky 2/11 5 / 20 pokrač. syntaktická struktura větných frází popisuje, jak vypadá gramaticky správná věta, většinou pomocí pravidel gramatiky sentence ends syntaktický analyzátor nástroj, který analyzuje clause clause clause VBL part_adv VL VL bylo udělaly vyprávěla vstup na základě gramatiky ADJ ADV pp N PRONPER _prop_names Postižených víc bankrot nám N NUMK PREP NPR NPR cestovek dvě z Ludmila Janočková na výstup dává různé info, např. derivační stromy PRONPER N N sémantická význam výrazů přirozeného jazyka a jejich kombinací hodně závisí na zvolené sémantické reprezentaci logická analýza věty strukturní část sémantické analýzy pragmatická zkoumá vztah mezi výrazy přirozeného jazyka a kontextem často se do ní řadí znalost komunikační situace, základní ontologie a jazykových metaznalostí nich majitelka agentury Úvod do počítačové lingvistiky 2/11 6 / 20

Fonologie: fonologický systém jazykových zvuků v určitém jazyce pracuje s gramatikou řečových zvuků pomocí gramatických pravidel popisuje historické změny i současné alternace Fonetika: studuje produkci, přenos a příjem jazykových zvuků má kĺıčový význam např. pro oblast automatického rozpoznávání a syntézy řeči není tradičně chápána jako součást gramatiky jazyka Úvod do počítačové lingvistiky 2/11 7 / 20 Kde vznikají jazykové zvuky? https://dood.al/pinktrombone/ Úvod do počítačové lingvistiky 2/11 8 / 20

Fonetické jednotky Členění řečového proudu řečový proud: nejsou mezery mezi slovy nejsou žádné izolované zvuky přesto všechny jazyky pracují s lingvistickými jednotkami jako separátními oronym/orofón fráze, které zní stejně/podobně, ale mají jiný obsah ( české oronymum!) It s not easy to recognize speech. It s not easy to wreck a nice beach. Úvod do počítačové lingvistiky 2/11 9 / 20 Fonetické jednotky Fonetické jednotky foném (phoneme) základní jednotka zvukového systému jazyka foném je abstraktní věc, konkretizuje se pomocí fónů (viz dále) např. v češtině 37 základních fonémů: a, a:, b, ts, ts, d, d, dz, dz, e, e:, f, g, h\, x, i, i:, j, k, l, m, n, n, o, o:, p, r, r, s, S, t, t, u, u:, v, z, Z fón (phone) řečový zvuk z hlediska jeho fyzikálních charakteristik (zvuková vlna určitého tvaru) bez zařazení k zvukovému systému jazyka jeden foném odpovídá množině fónů alofón určitého fonému = jeden z množiny fónů tohoto fonému např. nosit, banka Úvod do počítačové lingvistiky 2/11 10 / 20

jeden z nejpoužívanějších nástrojů fonetiky převod řečového proudu do lingvisticky významných symbolických jednotek používá se standardních fonetických abeced (viz dále) široká úzká (broad/narrow) transkripce = převod do fonémů/fónů důvody pro tento převod: nedostatečnost písmenného zápisu, mezijazykové/krajové variace v písmenném zápisu jedno písmeno různý zvuk spodoba znělosti v češtině: vypít [v] / vpustit [f] krajové variace výslovnosti: shánět moravská [z h], česká [s ch] c [c] v latinském Cicero, [k] v canis, [č] v italském ciao ch [ch] v čes. chovat, [č] v angl. cheat, [k] v it. Chianti jeden zvuk různá písmena (foném může být zaznamenán více písmeny) [j] j v českém jídlo y v anglickém yes ea v anglickém beautiful [f] f v českém fyzika gh v anglickém laugh ph v řeckém philosophia Úvod do počítačové lingvistiky 2/11 11 / 20 Příklady dat pro českou transkripci pro MBROLA pravidla pro přepis do fonémů CLASS SA [aáeéěiíoóuúůyý] # samohlásky CLASS ZPS [bdd gvzžhcč] # znělé párové souhlásky CLASS NPS [ptt kfsšhcč] # neznělé párové souhlásky [[ dě ]] d e [[ b ]] ( NPS ZPS ) p [[ p ]] ZPS b vstup pro MBROLA text shání tě též muž 200 0 132 z 57 0 115 h 45 a: 137 n 75 0 132 i: 93 0 114 t 27 0 120 e 50 0 114 t 31 0 120 e: 102 S 81 0 114 m 43 0 120 u 61 S 110 # zvuková databáze cz2 37 fonémů, 1442 difónů nutné ručně nařezat všechny difóny Úvod do počítačové lingvistiky 2/11 12 / 20

Fonetické abecedy IPA a SAMPA IPA: International Phonetic Alphabet vznikla v roce 1886 v Paříži, od té doby několik revizí (poslední 1996, drobnosti pak 2005 a 2015) speciální znak pro vyjádření každého fónu mezinárodně standardní zápis jsou k dispozici tabulky a fonty Unicode speciální IPA znaky v rozsahu U+0250 02AD zápis např. www.i2speak.com SAMPA: Speech Assessment Methods Phonetic Alphabet vznikla v projektu SAM (Speech Assessment Methods) v letech 1987 89 strojově čitelná fonetická abeceda http://www.phon.ucl.ac.uk/home/sampa/ IPA souhlásky Úvod do počítačové lingvistiky 2/11 13 / 20 v americké angličtině pulmonické i nepulmonické Úvod do počítačové lingvistiky 2/11 14 / 20

IPA souhlásky ve slovech IPA samohlásky Úvod do počítačové lingvistiky 2/11 15 / 20 v americké angličtině vokalický čtyřúhelník Úvod do počítačové lingvistiky 2/11 16 / 20

IPA samohlásky ve slovech IPA dvojhlásky v americké angličtině Úvod do počítačové lingvistiky 2/11 17 / 20 ai au i find, high, aisle, quiet, ride house, crown, around, flower, how boy, enjoy, Freud, avoid, join Úvod do počítačové lingvistiky 2/11 18 / 20

Text-to-Speech systémy Text-to-Speech systémy syntéza řeči převod psaného textu na (digitální) zvuk TTS, Text-to-Speech dvě hlavní části 1. jazykový modul, NLP modul vstup = text výstup = fonémy + prozodická informace označována také jako TTP, Text-to-Phoneme 2. modul zpracování signálu, DSP (Digital Signal Processing) modul vstup = výstup z NLP modulu výstup = zvukový soubor Úvod do počítačové lingvistiky 2/11 19 / 20 Text-to-Speech systémy Příklady TTS systémů se vztahem k češtině Epos z 90. let, Karlova univerzita a ČAV, nejlepší český open source MBROLA difónová syntéza MBR-PSOLA, řeší DSP část Mikuláš Piňos, DP 2000 česká DB pro MBROLA, text2phone v Perlu Demosthenes FI MU Brno, laboratoř LSD slabiková syntéza, základní prozodie ARTIC (ARtificial Talker In Czech) ZČU Plzeň, DEMO obsahuje i Talking head vizuální část CS-Voice 97 komerční, Frog Systems, pro Windows Espeak open source, formantová syntéza, včetně češtiny Festival z Edinburghu, GPL, hodně jazyků, projekt Festival Czech Úvod do počítačové lingvistiky 2/11 20 / 20