pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008
|
|
- Vratislav Bureš
- před 5 lety
- Počet zobrazení:
Transkript
1 (nejen) češtiny 21. dubna 2008
2 Tipovací soutěž Pro který/é z následujících jazyků bude v průběhu přednášky překonán state-of-the-art? Čeština % ( et. al., 2007) Slovenština % (TnT, Brants 2000) Angličtina % (Shen et. al., 2007) (čeština PDT 2.0 etest, slovenština provizorní etest, angličtina WSJ sekce 21-24)
3 Morfologická analýza (češtiny) Název Popis Tag1 Tag2 1 POS Slovní druh SUBPOS Detailní slovní druh GENDER Jmenný rod NUMBER Číslo CASE Pád POSSGENDER Přivlastňovací rod POSSNUMBER Přivlastňovací číslo PERSON Osoba TENSE Čas GRADE Stupeň NEGATION Negace VOICE Vid VAR Varianta, styl
4 Možnosti a meze taggingu Nejlepší metoda se neshodne s anotací na 4 % dat co to může znamenat? 1 Ruční anotace vůbec není elementem morfologické nabídky 1 Rozkĺıžení verzí morfologie 2 Úmysl anotátora (nedostatečný recall morfologie) 2 Ruční anotace je elementem morfologické nabídky 1 Tag je jednoznačný 1 K jeho určení anotátorovi stačila aktuální věta 2 Bylo třeba znát širší kontext nebo něco dalšího 2 Tag je sporný (více anotátorů může mít různý názor) Chyba v anotaci (anotátor zaklikl něco jiného, než chtěl) může být kombinována s kteroukoli z uvedených možností!
5 Co jsme provedli? Označkovali jsme data několika taggery a provedli několikanásobnou re-anotaci dobře vytipovaných tagů. Dtest problémy 5000, placebo 2500, 3 anotátoři Pididtest problémy 667, placebo 333, 5 anotátorů Train problémy 5000, placebo 2500, 3 anotátoři Problémy: neplatí a = b = m = pdt Placebo: rovnost platí a zároveň morfologie nabízí více než jeden tag.
6 Co lze tímto způsobem najít? Chybně anotované tagy (může znamenat nejen chybu anotátora, ale i rozjetí verzí morfologie) Sporné tagy (dělají problém i anotátorům) Bezesporné, leč pro taggery problémové tagy Odhad chybovosti jednotlivých anotátorů Horní odhad možností taggeru
7 Odhad chybovosti anotace PDT (1) správné chybné nejasné dtest problémy % 3.42 % 4.48 % dtest placebo % 0.16 % 0.56 % dtest vážený % 0.37 % 0.65 % train problémy % 5.10 % 5.74 % train placebo % 0.52 % 0.64 % train vážený % 0.50 % 0.59 %
8 Odhad chybovosti anotace PDT (2) Absolutní odhad pro celé PDT (i s e-testem): 9563 chybných tagů (0.49 %) nejasných tagů (0.60 %) % dat je tedy zcela v pořádku......což ovšem stále nezaručuje, že jsou pokryta morfologíı Odhad pro horní mez taggerů: 1.56 % sjednocení všech překážek (nejasnosti a chyby anotace, nedostatečnost morfologie) tj. měly by jít teoreticky vylepšit až do úspěšnosti :)
9 Značkování mluvené řeči Specifika přepisů/výsledků rozpoznávání mluvené řeči: Text je prasečí (chybějící kapitalizace a interpunkce, přeřeky, chyby rozpoznávadla) Občas i doménově specifický (Malach...) Možnosti: Použití stávajících taggerů, tak jak jsou Přímé přetrénování na přepisech Fikanější přetrénování na kombinovaných datech (P.S. Pravidla si fakt neškrtnou ;))
10 Značkování mluvené řeči - výsledky V obou případech přepisy ASR výstup není (zatím) jak evaluovat. malach-dtest dialog Počet tokenů Recall morfologie % % Feature-based tagger % % Morče (ragby) standardní % % Ragby jen na Malachu % % Ragby malach+pdt % % Ragby malach+pdt měňavka % % K čemu to bude dobré, to se teprve uvidí...
11 Vliv taggingu na parsing Má vůbec smysl sbírat desetinky? Jak moc to pomůže navazujícím úlohám a jak moc by pomohl ideální tagger? A co je vlastně vhodná navazující úloha? :) Parsing (McDonald, dtest): tagger accuracy parseru Standardní (Feature-based b) % Morče ragby % Morče unsupervised % Anotace místo taggeru % Závěr: křišťálová koule snižuje chybu o 9.33 %, náš nejlepší pokus o 4.24 %. Překlad: Obo selhal ;)
12 Házení rukavice do Brna alias hrachu na stěnu Možnosti porovnání našich nástrojů: Na hřišti jednoho z nás (tj. hosté převezmou tagset i trénovací a testovací data) my můžeme na jejich hřiště a chceme, oni dělají fóry :) Na neutrální půdě (tj. na neznámých datech s ad hoc vyhodnocením průniku tagsetů chtějí oba, neshody v detailech a je třeba netriviálního času a peněz) Na aplikaci, tj. např. parseru z minulého slajdu bez obtíží realizovatelné, my chceme, oni zase nic...
13 Potřeba oddémonizovat češtiny Výchozí stav závěr loňské přednášky a technologické změny v mezičase (vše dtest). Metoda* Loni Mezičas Letos M % % % M % %?? M % %?? M % %?? *) M1 Nejlepší metoda snadno trénovatelná, spustitelná, přenositelná... M2 Nejlepší metoda snadno spustitelná M3 Nejlepší metoda ryze statistická M4 Nejlepší metoda vůbec
14 Nápady, ideologie (1) Připomenutí nejlepší metody: ze sjednocení výsledků několika taggerů se udělá morfologická nabídka, volitelně se prořeže pravidly a následně se předhodí závěrečnému taggeru. Jak se zbavit magie? Natrénovat Morče na megadatech označkovaných hydridem nepomohlo. Natrénovat Morče na podmnožině megadat, kde se shodlo vícero taggerů nepomohlo. Přidat jako feature do Morčete slovní třídu (získanou z megadat magickou implementací Davida Klusáčka) pomohlo nepatrně, prozatím odloženo.
15 Nápady, ideologie (2) (Strategický nápad č. 1) Natrénovat Morče na megadatech označkovaných hybridem vtipně proložených kopiemi PDT trainu... (Doladění strategického nápadu) V každé iteraci dát Morčeti jiná trénovací data: vždy nejprve PDT train a za ním přilepený unikátní kus megadat (v řádu jednotek megatokenů)....a následovala už jen hromada experimentů na vyladění nejlepších parametrů :) Postup lze samozřejmě zkusit iterovat, tj. udělat hybrid zahrnující jedno či více různých takto vzniklých unsupervised Morčat.
16 Shrnutí provedeného oddémonizování Dtest: Etest: Loni Mezičas Letos M % % % M % % % M % % % M % % % Loni Letos M1 (transparentní) % % M2 (použitelná) % % M3 (statistická) % % M4 (nejlepší) % %
17 Slovenčina Těžce ve vývoji, a to jak u zdroje (opravy morfologie, anotace), tak následně u nás Existuje morfologická analýza, zatím dost chyb, ale v zásadě dosti propracovaná Tagset podobně bohatý jako náš, ale formálně jiný (není poziční) technická adaptace provedena, obsahová by byla těžší Docela dost ručně značkovaných dat (provizorně rozdělena na train (993,841 tokens), dtest (108,176) a etest (94,249 tokens)) Na.sk straně zatím testovány pouze cizí taggery (TnT, SVM..), které navíc neberou v potaz morfologickou nabídku U nás zatím přetrénovány a otestovány Feature-based tagger a Morče v (téměř) stejném nastavení jako pro češtinu
18 Slovenčina temporární výsledky a výhled tagger accuracy (etest) TnT % Feature-based % Morče % Momentálně čekáme na opravy na slovenské straně Následovat bude přetrénování taggerů, experimenty s kombinacemi a unsupervised metodami a o SNK :)
19 Angličtina intro Vyrobit nějaký tagger triviální. Vyrobit nejlepší tagger čiré šílenství! :) of the art První liga (etest): tagger acc. publikovaná acc. dosažená Shen % % Stanford % % SVM % % Collins (Morče) % % Další taggery (rozchozené): TnT, MXPOST, Tree tagger...
20 Angličtina technické záležitosti Určuje se pouze slovní druh, celkem 45 kategoríı (včetně vší interpunkce) Všichni používají Penn Treebank 3 WSJ Poslední léta se všichni drží rozdělení 0-18 train, dtest, etest Pravděpodobně všichni berou data z parsed a ne z tagged (neměla by se lišit, ale liší se) Někdo používá závorky jako závorky, někdo jako -LRB-, -RRB- apod. Je třeba na to pamatovat a buď přetrénovat, nebo obalit konverzemi Morfologickou nabídku si dělá každý sám, postupy jsou různé (většinou triviálně na základě trainu, ale např. Shen dává všem všechno) Zcela výjimečně jsou taggery schopny požrat nabídku externě vyrobenou
21 Angličtina morfologická nabídka Defaultně jde pouze o Morče, které ji potřebuje Triviálně můžeme získat tabulku možností z trainu nebo z větších dat ojetých někým jiným (ale recall (cca 99.5 % podle typu dat) nám dost ubĺıží) Rovněž triviálně můžeme dát všem všechno (ale bude to neskutečně pomalé) Aktuální stav: ručně zpracovány všechny uzavřené třídy, dále (kvůli rychlosti) vytažen slovník několika tisíc nejčastějších slov z obří tabulky dua Čmejrek-Cuřín, zbytku přiřazeny všechny otevřené třídy. Recall (dtest) % (chybí prakticky jen chyby anotace), precision není podstatná :) (asi 15.5 %)
22 Angličtina kombinace Sedm a více taggerů == mnoho možností? Ne tak docela... Jelikož neprořezáváme pravidly, je lepší dělat iniciální sjednocení jen ze dvou a dorazit třetím (jiným!) Je možné dělat i stromoidní šílenosti, ale neosvědčilo se to (vyzkoušeno cca 8000 možností :)) Taggery mimo první ligu nemají prakticky žádný přínos A hlavně: skoro žádný tagger nelze jen tak vzít a použít pro dorážkový krok (pouze Morče a Tree tagger)...ovšem Johanka se dobře vdala :)
23 Angličtina unsupervised trénování...pročež se nejlépe vydařila kombinace Stanford+Shen doraženo SVM (témeř stejně to vyšlo v pořadí Shen+SVM doraženo Stanfordem) Označkovali jsme tím North American News, rozdělili na kousky, a od té doby se Morče trénovalo a trénovalo a jestli neskončilo, trénuje se dosud!
24 Angličtina výsledky Etest: Metoda accuracy redukce* Stanford (2003) % Shen (2007) % 3.26 % Kombinace % 5.62 % Morče %** 1.50 % *) redukce chyby oproti předchozímu nejlepšímu publikovanému výsledku **) stav z dnešního rána Pro Šlezu: (F. Wilcoxon says:) zlepšení hybridu je signifikantní, unsupervised Morčete zatím ne :)
johanka April 16, 2008
(Jak disambiguátoři přicházejí o iluze) April 16, 2008 Výchozí podmínky Co máme k dispozici? Jazyk LanGR + poloboha Pavla Květoně Pravidla pro (částečnou) morfologickou disambiguaci (Niki Petkevič, Tomáš
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
Popis morfologických značek poziční systém
Popis morfologických značek poziční systém Jan Hajič Ústav formální a aplikované lingvistiky MFF UK Morfologická analýza a syntéza Morfologické značky jsou součástí výsledku (výstupem) morfologické analýzy,
7 Další. úlohy analýzy řeči i a metody
Pokročilé metody rozpoznávánířeči Přednáška 7 Další úlohy analýzy řeči i a metody jejich řešení Výsledky rozpoznávání (slovník k 413k) frantisek_vlas 91.92( 90.18) [H= 796, D= 10, S= 60, I= 15, N=866,
Co nového ve zpracování MWE Automatická identifikace
Co nového ve zpracování MWE Automatická identifikace Společný workshop tří GAČRů 15. dubna 2013 Víceslovné výrazy Osnova Víceslovné výrazy (VV, MWE) v PDT 2.5 Automatická identifikace Problémy (Úpravy
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
Detekce a rozpoznávání mincí v obraze
POV prezentace projektu Projekt pro předmět POV, ZS 2012 Varianta projektu č. 12: Detekce a rozpoznávání mincí v obraze Autoři: Adam Crha, xcrhaa00 Jan Matyáš, xmatya02 Strana 1 z 11 Řešený problém a cíl
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Faktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
V jedné ohradě budou tři a půl ovečky
V jedné ohradě budou tři a půl ovečky Psychodidaktická analýza vztahu mezi slovními úlohami a reálnými zkušenostmi Irena Smetáčková Katedra psychologie Pedagogická fakulta Univerzity Karlovy v Praze GA16-06134S:
Penetrační test & bezpečnostní audit: Co mají společného? V čem se liší?
Penetrační test & bezpečnostní audit: Co mají společného? V čem se liší? Karel Miko, CISA (miko@dcit.cz) DCIT, s.r.o (www.dcit.cz) Nadpis Penetrační test i bezpečnostní audit hodnotí bezpečnost předmětu
Jak dělat strojový překlad lépe než Google Translate
Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.
Jazykové modelování Pavel Smrž 27. listopadu 2006 Osnova 1 Úvod motivace, základní pojmy 2 Modely n-tic 3 Způsob vyhodnocování 4 Vyhlazování a stahování 5 Rozšíření modelů n-tic 6 Lingvisticky motivované
Možnosti zlepšení strojového překladu z angličtiny do češtiny
Prezentace k obhajobě diplomové práce Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel 14. září 2009 TectoMT Anotace překladových chyb Jednotlivá vylepšení Analýza Transfer Syntéza
NLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
( ) ( ) Rozklad mnohočlenů na součin I (vytýkání) Předpoklady:
1.8.6 Rozklad mnohočlenů na součin I (vytýkání) Předpoklady: 010805 Pedagogická poznámka: Na začátku každé rozkládací hodiny jsou přidány příklady na opakování úprav mnohočlenů. Důvod je jediný, čtyři
Vytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
Slovníky a morfologická analýza
Počítačové zpracování přirozeného jazyka Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Slovník Zásobárna informací o slovech Morfologie vzory ohýbání, pravidelné odvozování
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování
Slovní úlohy I
..1 Slovní úlohy I Předpoklady: 0008 Pedagogická poznámka: Slovní úlohy jsou problém, hlavně pro to, že neexistuje jednoznačný algoritmus na jejich řešení. Této první hodiny se však problémy netýkají,
Problematika neúspěšných ukončení vysokoškolského studia (drop-outs) v českém kontextu
Problematika neúspěšných ukončení vysokoškolského studia (drop-outs) v českém kontextu Jan Hraba, Vladimír Hulík (MŠMT, oddělení analytické) Klára Hulíková Tesárková (PřF UK, katedra demografie a geodemografie)
Vybrané přístupy řešení neurčitosti
Vybrané přístupy řešení neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 8-1 Faktory jistoty Jedná se o přístup založený na ad hoc modelech Hlavním důvodem vzniku tohoto přístupu je omezení slabin
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Nemocnice. Prvotní analýza a plán projektu
Nemocnice Projekt do předmětu AIS Prvotní analýza a plán projektu Lukáš Pohl, xpohll00, xkosti03 Jan Novák, xnovak79 2009/2010 1 Neformální specifikace FN potřebuje informační systém, který bude obsahovat
ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová
Název projektu ICT podporuje moderní způsoby výuky Číslo projektu CZ.1.07/1.5.00/34.0717 Název školy Gymnázium, Turnov, Jana Palacha 804, přísp. organizace Číslo a název šablony klíčové aktivity III/2
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,
2. Korpusový portál a volně dostupné nástroje
1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska
Přínosy ITIL a potíže s implementací. Ing. Štěpán Macura
Přínosy ITIL a potíže s implementací Ing. Štěpán Macura Program Přínosy a motivace k ITIL Potíže s implementací Přínosy ITIL Ing. Štěpán Macura macura@cruxit.com Motivace k ITIL Externí (nařízeno vedením)
Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman
Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/ Úloha Rozpoznat slovo, které není ve slovníku Triviální Těžší je rozpoznat slovo, které ve slovníku je,
ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413
Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká,
1.4.6 Negace složených výroků I
1.4.6 Negace složených výroků I Předpoklady: 010405 Pedagogická poznámka: Dlouho jsem se v počátcích své praxe snažil probrat negace za jednu hodinu. Tvorba negací je skvělým procvičováním schopnosti dodržovat
Strojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
Zhodnocení dopadů inovace na studijní výsledky
Zhodnocení dopadů inovace na studijní výsledky Zpracoval: doc. Ing. Josef Weigel, CSc. hlavní řešitel projektu Hodnocené studijní programy: - Bakalářský studijní program Geodézie a kartografie v prezenční
KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY. Drahomíra johanka Spoustová
KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY Drahomíra johanka Spoustová Copyright Institute of Formal and Applied Linguistics, 2009 ISBN 978-80-904175-4-0 Obsah 1 Úvod 1 2 Výchozí situace
Učící se klasifikátory obrazu v průmyslu
Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:
Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR
EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR PŘEDMĚT PRÁCE Popis extrakce strukturovaných dat ve vybraných doménách ze semistrukturovaných
Dotazník pro rychlé hodnocení společenské odpovědnosti firem (CSR)
Dotazník pro rychlé hodnocení společenské odpovědnosti firem (CSR) Tento dotazník byl sestaven pro rychlé kvalitativní vyhodnocení orientace na společenskou odpovědnost podniku a pro zjištění, jak dobře
1 Úvod 5 1.1 Co je PDT 2.0... 5 1.2 Historické pozadí projektu... 6 1.3 Vývoj projektu... 6. 2 Roviny anotace 11 2.1 Morfologická rovina...
Průvodce PDT 2.0 Jan Hajič, Eva Hajičová, Jaroslava Hlaváčová, Václav Klimeš, Jiří Mírovský, Petr Pajas, Jan Štěpánek, Barbora Vidová Hladká, and Zdeněk Žabokrtský 20. června 2006 Obsah 1 Úvod 5 1.1 Co
PROBLÉMY A SPECIFIKA VÝVOJE SOFTWARE
PROBLÉMY A SPECIFIKA VÝVOJE SOFTWARE Vývoj prvních programů byl prováděn nadšenci, programy byly šité na míru. Žádná metodika vývoje SW v té době neexistuje. Vývoj SW byl vnímán jako výzkum. Cíl, co bude
14. května 2012, Brno
14. května 2012, Brno Připravil: Tomáš Koubek Testování Cvičení z předmětu Pokročilá uživatelská rozhraní Testování Strana 2 / 12 Testování aplikací Testování návrhu Cílem je vylepšit produkt během vývoje.
ČESKÝ INSTITUT PRO AKREDITACI, o.p.s. Dokumenty ILAC. ILAC Mezinárodní spolupráce v akreditaci laboratoří
ČESKÝ INSTITUT PRO AKREDITACI, o.p.s. Opletalova 41, 110 00 Praha 1 Nové Město Dokumenty ILAC ILAC Mezinárodní spolupráce v akreditaci laboratoří Číslo publikace: ILAC - G17:2002 Zavádění koncepce stanovení
7.1.3 Vzdálenost bodů
7.. Vzdálenost bodů Předpoklady: 70 Př. : Urči vzdálenost bodů A [ ;] a B [ 5;] obecný vzorec pro vzdálenost bodů A[ a ; a ] a [ ; ]. Na základě řešení příkladu se pokus sestavit B b b. y A[;] B[5;] Z
Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry
Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet
DOTAZNÍK PRO URČENÍ UČEBNÍHO STYLU
DOTAZNÍK PRO URČENÍ UČEBNÍHO STYLU Projekt MOTIVALUE Jméno: Třida: Pokyny Prosím vyplňte vaše celé jméno. Vaše jméno bude vytištěno na informačním listu s výsledky. U každé ze 44 otázek vyberte a nebo
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
Testování Mapy.cz. David Říha. Semestrální práce z předmětu Testování uživatelského rozhraní.
Testování Mapy.cz Semestrální práce z předmětu Testování uživatelského rozhraní David Říha rihadav4@fel.cvut.cz Obsah Obsah... 2 1. Úvod... 3 1.1. Popis aplikace... 3 1.2. Cílová skupina... 3 2. Test bez
0. ÚVOD - matematické symboly, značení,
0. ÚVOD - matematické symboly, značení, číselné množiny Výroky Výrok je každé sdělení, u kterého lze jednoznačně rozhodnout, zda je či není pravdivé. Každému výroku lze proto přiřadit jedinou pravdivostní
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Předběžné výsledky výzkumu efektivity fyzikálních experimentů jako nástroje pro učení konceptuálních znalostí
Předběžné výsledky výzkumu efektivity fyzikálních experimentů jako nástroje pro učení konceptuálních znalostí Karel Havlíček Vedoucí: doc. Leoš Dvořák CSc. Obsah prezentace Motivace Metodologie Nástroje
WTFbots. prezentace strategie. Nikola Beneš Tomáš Kyjovský Jan Vykopal
WTFbots prezentace strategie Nikola Beneš Tomáš Kyjovský Jan Vykopal Osnova Proces vývoje Implementace naší strategie První turnaj Druhý turnaj Třetí turnaj Finále Nepoužité nápady Statistika Shrnutí Proces
Statistika. Jindřich Soukup. University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems
Statistika Jindřich Soukup 2013-07-24 University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems Statistika umí: Předpovídat budoucnost? "...
Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry
Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet
Řízení v souvislostech
Řízení v souvislostech Naše řešení Společnost LCG 360 Consulting, s.r.o. vidí příležitosti v současné době pouze v individuálních řešení, která na míru připravuje pro každého svého klienta. LCG 360 Consulting
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
Mezi... aspekty řadíme obecné pojmy, tvrzení či soudy a tvrzení následně vyvozená.
Logika 6 Zadání: Doplň vhodný termín z nabízených nebo vyber správnou odpověď: Otázka číslo: 1 Mezi... aspekty řadíme obecné pojmy, tvrzení či soudy a tvrzení následně vyvozená. formální neformální obsahové
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo Přesahy a vazby, průřezová témata rozlišuje spisovný jazyk, nářečí a obecnou češtinu
Faily při tvorbě e-shopů,
Faily při tvorbě e-shopů, za které zaplatíte víc, než za celý e-shop Marek Čevelíček Twitter: @mcevel Nefunkční weby a e-shopy Proč existuje tolik nefunkčních webů a e-shopů? 1/ nevím, jak udělat funkční
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
Stavba a organizace sprintu. Jan Mrázek seminář trenérů a rozhodčích Plzeň, 2018
Stavba a organizace sprintu Jan Mrázek seminář trenérů a rozhodčích Plzeň, 2018 O čem to bude o základní organizaci o návrhu tratí o specifikách sprintu (volby, umělé překážky) na co se připravit, s čím
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
Pracovní list, styl, pojmy ze syntaxe a slovní zásoby Předmět. porozumět textu, uvědomit si styl, útvar, syntax Klíčová slova
Práce s textem Číslo projektu CZ.1.07/1.5.00/34.0950 Kódování materiálu VY_32_INOVACE_cjl_mlu10 Označení materiálu mlu10_prace_s_textem_pl.pdf Název školy Gymnázium Kladno Autor Mgr. Radana Litmanová Anotace
TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH Autoreferát dizertační práce Jindra Drábková Liberec 2005 Tvorba jazykového
EVALUACE OP V LETECH 2004 2012 VÝSLEDKY META-EVALUAČNÍHO ŠETŘENÍ Mgr. Jiří Remr, Ph.D., MBA
KONFERENCE 2013 Odpovědnost za výsledky a výzvy pro 2014+ EVALUACE OP V LETECH 2004 2012 Mgr. Jiří Remr, Ph.D., MBA 28. 5. 2013 1 Obsah Programová teorie Pozornost věnovaná zainteresovaným stranám Implementace
( ) ( ) Negace složených výroků II. Předpoklady:
1.4.7 Negace složených výroků II Předpoklady: 010405 Pedagogická poznámka: Na začátku hodiny slovně zadávám úkol najít negaci implikace. Teprve po zapsání do třídnice promítám zadání příkladů (kde je v
Vedoucí odboru, vedoucí organizační složky, ředitel MP
Hodnocený: Pracovní pozice hodnoceného: Nadřízený: Pracovní pozice nadřízeného: Kompetenční model: Vedoucí odboru - majetku a investic Vedoucí odboru majetku a investic Tajemník - Tajemnice úřadu Tajemník
Projekt Odyssea, www.odyssea.cz
Projekt Odyssea, www.odyssea.cz Příprava na vyučování s cíli osobnostní a sociální výchovy (typ B) Téma oborové Vzdělávací obor Ročník Časový rozsah Hlavní oborové cíle (tj. cíle vázané na očekávaný výstup
Odpřednesenou látku naleznete v kapitole 3.1 skript Abstraktní a konkrétní lineární algebra.
Odpřednesenou látku naleznete v kapitole 3.1 skript Abstraktní a konkrétní lineární algebra. Jiří Velebil: Lineární algebra 14.10.2016: 1/13 Minulé přednášky 1 Lineární kombinace. 2 Definice lineárního
Požadavky na zápočet a zkoušku
1/6 Požadavky na zápočet a zkoušku Zápočet vstupní test aktivní účast na cvičeních dva zápočtové testy Maximální počet bodů, který můžete získat je 200 bodů. 80 bodů zápočet 50-79 bodů souhrnný test (1
Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR
Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY Karel Oliva Ústav pro jazyk český Akademie věd ČR Předchůdce: korektor pravopisu Příklad: Psi štěkaly. OK Technologie: vyhledávání v (dlouhém) seznamu slov slovo
Doplňky slovníku SPOT
Doplňky slovníku SPOT SPOTým Finální specifikace požadavků Tým: SPOTým Bc. Pavel Máčka Bc. Jan Bešta Bc. Jan Plas Bc. Vojtěch Žihla Autor: Pavel Máčka Datum: 22.dubna 1. Úvod Cílem tohoto dokumentu je
Výsledky testování školy. Výběrové zjišťování výsledků žáků 2014/2015 9. ročník ZŠ. Školní rok 2014/2015
Výsledky testování školy Výběrové zjišťování výsledků žáků 2014/2015 9. ročník ZŠ Školní rok 2014/2015 Gymnázium, Teplice, Čs. dobrovolců 11, příspěvková organizace Termín akce: 11.05.2015 22.05.2015 Termín
Bakalářská matematika I
do předmětu Mgr. Jaroslav Drobek, Ph. D. Katedra matematiky a deskriptivní geometrie Bakalářská matematika I Podmínky absolvování předmětu Zápočet Zkouška 1 účast na přednáškách alespoň v minimálním rozsahu,
Jednoduchá exponenciální rovnice
Jednoduchá exponenciální rovnice Z běžné rovnice se exponenciální stává, pokud obsahuje proměnnou v exponentu. Obecně bychom mohli exponenciální rovnici zapsat takto: a f(x) = b g(x), kde a, b > 0. Typickým
Screeningový dotazník specifické poruchy učení
Screeningový dotazník specifické poruchy učení Přečtěte si pozorně následující tvrzení a na uvedené škále označte variantu, která Vás nejlépe vystihuje. Měl/a jste uzpůsobené podmínky konání státní maturitní
INTERNÍ PROJEKT "DOTAŽENÍ CERTIFIKAČNÍHO PROCESU" (DCP)
INTERNÍ PROJEKT "DOTAŽENÍ CERTIFIKAČNÍHO PROCESU" (DCP) Prezentace stavu projektu k termínu Valné hromady dne 3.prosince 2008 Kontext Od 1.5.2008 byl v ČR úspěšně ukončen projekt Implementace ICB v3.0
ZÁVĚREČNÁ ZPRÁVA Z HODNOCENÍ DOPADŮ REGULACE
IV. ZÁVĚREČNÁ ZPRÁVA Z HODNOCENÍ DOPADŮ REGULACE SHRNUTÍ ZÁVĚREČNÉ ZPRÁVY RIA 1. Název návrhu právního předpisu: návrh vyhlášky, kterou se mění vyhláška č. 5/2014 Sb., o způsobu, termínech a rozsahu údajů
Základní škola Ruda nad Moravou. Označení šablony (bez čísla materiálu): EU-OPVK-MAT-8+9- Slovní úlohy
Označení šablony (bez čísla materiálu): EU-OPVK-MAT-8+9- Slovní úlohy Číslo mate riálu Datum Třída Téma hodiny Ověřený materiál - název Téma, charakteristika Autor Ověřil 1. 2.5. 2012 VI.B I. Sestavení
Výukový materiál zpracován v rámci projektu EU peníze školám
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ. 1.07/1.5.00/34.0637 Šablona III/2 Název VY_32_INOVACE_39_Algoritmizace_teorie Název školy Základní škola a Střední
Persony. Vystavte si uživatele vašeho produktu přímo ve vaší pracovně. 36SCP: 2. cvičení Persony
Persony Vystavte si uživatele vašeho produktu přímo ve vaší pracovně 36SCP: 2. cvičení Persony Úvodní slovo nebojte se uživatelských požadavků nebojte se vytvářet persony uživatel není přízrak! 2 Scénka
Teorie argumentace Pavel Arazim
Teorie argumentace Pavel Arazim Druhá lekce Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia (reg. č. CZ.1.07/2.2.00/28.0216, OPVK) Otázky v argumentaci
Struktura článku. Chemická literatura. Struktura článku. Struktura článku 10/25/ Struktura článku, cílová skupina
Chemická literatura 17.10. 2017, cílová skupina Shrnuje celý článek TOC Volně k dispozici (Supporting Information) Připravuje + motivuje čtenáře k dalšímu čtení Shrnuje současný stav poznání!! Zohledňuje
MAL. one of the best corroborated law in linguistics
MAL one of the best corroborated law in linguistics proč se vo tom pořád dohadujete, když je to tak dobře dokázaný? proč se vo tom pořád dohadujete, když je to tak dobře dokázaný? hmm není to tak jednoduché,
0. Úvod. 1. Syntaktické značkování textu
Systém pro syntaktické značkování velkých textových korpusů 1 Tomáš Jelínek Ústav teoretické a komputační lingvistiky Filozofické fakulty Karlovy univerzity Abstract Syntactic annotation of corpora is
Kontrola pravopisných chyb. Kontrola pravopisu Kontrola gramatiky Nastavení jazyka dokumentu Tezaurus Překlad textu
4 Kontrola pravopisných chyb Kontrola pravopisu Kontrola gramatiky Nastavení jazyka dokumentu Tezaurus Překlad textu Microsoft Word 2010 Rychle hotovo! Kontrola pravopisu Kontrola pravopisu. Dokument byste
Cíl výuky: Cílem předmětu je uvedení studentů do problematiky projektování, seznámit posluchače se zásadami
PM_prezenční a kombinované bakalářské studium Česky Projektový management Anglicky Project Management Garant Ing. Zdeněk Voznička, CSc. Zakončení Zápočet Anotace: Úvod do projektového managementu, základní
MATEMATIKA. Třída: 5. ročník
Výsledky testování třídy Výběrové zjišťování výsledků žáků 2016/2017 5. a 9. ročník ZŠ Školní rok 2016/2017 MATEMATIKA Termín akce: 09.05.2017 26.05.2017 Termín testování: 10.05.2017 16.05.2017 Datum vyhodnocení:
IB111 Úvod do programování skrze Python Přednáška 13
IB111 Úvod do programování skrze Python Přednáška 13 Programovací jazyky Nikola Beneš 14. prosinec 2016 IB111 přednáška 13: programovací jazyky 14. prosinec 2016 1 / 21 Osnova dnešní přednášky Programovací
Výstupní testování v rámci projektu IMPACT Centra jazykového vzdělávání Masarykovy
Mgr. Radmila Doupovcová, PhDr. Eva Šrámková Výstupní testování v anglickém a německém jazyce na PrF MU v Brně Výstupní testování v rámci projektu IMPACT Centra jazykového vzdělávání Masarykovy univerzity
Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol
Diktovací sw NovaVoice zkušenosti D.Zoubek KZM FN Motol NovaVoice automatické rozpoznávání řeči Automatic Speech Recognition - ASR je určen k automatickému rozpoznávání souvislé mluvené české řeči je