WEB CORPUS IN ONE CLICK
|
|
- Adam Král
- před 8 lety
- Počet zobrazení:
Transkript
1 WEB CORPUS IN ONE CLICK Jan Pomikálek, Vít Suchomel NLP Centre Masaryk University 13 December 2011
2 OUTLINE Text corpora Sketch Engine Creating web corpora Web crawling Character encoding detection Language detection Removing junk De-duplication Results
3 TEXT CORPORA Large collections of texts Typically monolingual Linguistically annotated (part-of-speech tags, lemmata) Wide range of applications Speech recognition Machine translation Language teaching and learning Lexicography (creating dictionaries)
4 USE CASE EXAMPLES Looking up words
5 CONCORDANCE LINES FOR CORPUS
6
7 USE CASE EXAMPLES Looking up words Looking up patterns
8 CQL: AS <ADJECTIVE> AS A <NOUN>
9 AS <ADJECTIVE> AS A <NOUN>
10
11 USE CASE EXAMPLES Looking up words Looking up patterns Frequencies of words and patterns Collocations
12
13 FAMILY TREE
14 USE CASE EXAMPLES Looking up words Looking up patterns Frequencies of words and patterns Collocations Word sketches
15 WORD SKETCHES FOR TREE
16 WORD SKETCHES FOR LECTURE (NOUN)
17 TO DELIVER A LECTURE
18 SKETCH ENGINE Corpus query system 170 text corpora, 46 languages Developed by Lexical Computing Ltd in cooperation with NLP Centre MU Freely available to MU students and staff Available to public for a fee Open source version (no word sketches) NoSketch Engine
19 SKE USERS AT MU 370 registered users, 130 active (at least 1 access in the last month) 73,876 page views in November 2011 Teaching (foreign languages, linguistics) James Thomas (Faculty of Arts) Jarmila Fictumová (Faculty of Arts) Radomíra Bednářová (Faculty of Science) Research projects Corpus Pattern Analysis (NLP Centre, Patrick Hanks) Verbalex (NLP Centre)
20 SKE USERS WORLD-WIDE ca. 100 organisations, 4000 users Dictionary publishing houses Oxford University Press (UK) Cambridge University Press (UK) Harper Collins (UK) Amebis (Slovenia) Research institutions Institut voor Nederlandse Lexicologie (Netherlands) Institute of the Estonian Language (Estonia) University Pompeu Fabre (Spain) Institut Libre Marie Haps (Belgium)
21 TRADITIONAL CORPORA From printed materials Books, newspaper, magazines Scanning, OCR Controlled We know what kind of texts are inside Contents based on sociologic studies British National Corpus (100M words, 1994) Czech National Corpus (1300M words, 2010) Disadvantages Expensive Time consuming Limited size
22 WEB CORPORA Uncontrolled We are not sure what kinds of texts we are downloading and at which amounts Cheap (provided we have required technology) Can be made really big (at least for some languages) The only option for under-resourced languages
23 TRADITIONAL VS. WEB CORPORA Existing studies suggest that they do not differ by much Serge Sharrof, 2006: Creating general-purpose corpora using automated search engine queries. English web corpus vs. BNC Similar word frequency lists Comparison of text genres BNC I-EN (web corpus) Life 27% 14% Politics 19% 12% Business 8% 13% Natsci 4% 3% Appsci 7% 29% Socsci 17% 16% Arts 7% 2% Leisure 11% 11%
24 MORE DATA = BETTER DATA Rare language phenomena More data = more occurrences of rare items corpus name BNC ukwac ClueWeb09 (7%) size [tokens] 112 M 1,565 M 8,391 M nascent effort unbridled hedonism nascent effort unbridled hedonism
25 Building web corpora (with one click)
26 URLs Charset detection model Language detection model Text corpus (with nearduplicates) SpiderLing (web crawler)
27 URLs Charset detection model Language detection model Text corpus (with nearduplicates) SpiderLing (web crawler) chared trigram.py justext
28 Wikipedia language ID Wikipedia Corpus Factory Search engine (bing) URLs Charset detection model Language detection model Text corpus (with nearduplicates) SpiderLing (web crawler) chared trigram.py justext
29 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs Charset detection model Language detection model Text corpus (with nearduplicates) SpiderLing (web crawler) chared trigram.py justext
30 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs trigram.py training Charset detection model Language detection model Text corpus (with nearduplicates) SpiderLing (web crawler) chared trigram.py justext
31 Wikipedia language ID Corpus Factory Sample text Wikipedia Search engine (bing) URLs wget HTML pages (a few) trigram.py training Charset detection model Language detection model Text corpus (with nearduplicates) SpiderLing (web crawler) chared trigram.py justext
32 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training Charset detection model Language detection model Text corpus (with nearduplicates) SpiderLing (web crawler) chared trigram.py justext
33 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) chared trigram.py justext
34 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) POS-tagger Annotated text corpus chared trigram.py justext
35 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) POS-tagger Annotated text corpus chared trigram.py justext
36 CORPUS FACTORY Wikipedia language ID wget Wikipedia XML dump WikiExtractor.py Wikipedia Tuples of words N-gram generator Frequency list of words Wordlist maker Wikipedia in plain text Search engine (bing) URLs wget + cleaning + de-duplication Smallish text corpus
37 1. WIKIPEDIA XML DUMP <page> <title>astronomie</title> <id>10</id> <revision> <id> </id> <timestamp> t23:08:37z</timestamp> <contributor> <username>arthurbot</username> <id>34408</id> </contributor> <minor /> <comment>bot: [[en:astronomy]] is a good article</comment> <text xml:space="preserve">[[soubor:usa.nm.verylargearray.02.jpg thumb Mezi zařřízení, která se používají k astronomickým pozorováním, patřří i [[radioteleskop]]y.]] '''Astronomie''', [[řřeččtina řřecky]] αστρονομία z άστρον (astron) hvěězda a νόμος (nomos) zákon, [[ččeština ččesky]] též '''hvěězdářřství''', je [[věěda]], která se zabývá jevy za hranicemi [[Atmosféra Zeměě zemské atmosféry]]. Zvláštěě tedy výzkumem [[vesmír vesmírných]] [[těěleso těěles]], jejich soustav, růůzných děějůů ve vesmíru i vesmírem jako celkem. == Historie astronomie == Astronomie se podobněě jako další věědy začčala rozvíjet ve [[starověěk]]u. První se z astronomie rozvíjela [[astrometrie]], zabývající se měěřřením [[poloha poloh]] [[hvěězda hvěězd]] a [[planeta planet]] na obloze. Tato oblast astronomie měěla velký význam pro [[navigace navigaci]]. Podstatnou ččástí astrometrie je [[sférická astronomie]] sloužící k popisu poloh objektůů na [[nebeská sféra nebeské sféřře]], zavádí [[souřřadnice]] a popisuje významné [[křřivka křřivky]] a [[bod]]y na nebeské sféřře. Pojmy ze sférické astronomie se také používají přři [[měěřření ččasu]]. Další oblastí astronomie, která se rozvinula, byla [[nebeská mechanika]]. Zabývá se [[Mechanický pohyb pohybem]] [[těěleso těěles]] v [[gravitačční pole gravitaččním poli]], napřříklad [[planeta planet]] ve [[Slunečční soustava slunečční soustavěě]]. Základem nebeské mechaniky jsou práce [[Johannes Kepler Keplera]] a [[Isaac Newton Newtona]].
38 2. WIKIPEDIA IN PLAIN TEXT Astronomie. Astronomie, řřecky αστρονομία z άστρον (astron) hvěězda a νόμος (nomos) zákon, ččesky též hvěězdářřství, je věěda, která se zabývá jevy za hranicemi zemské atmosféry. Zvláštěě tedy výzkumem vesmírných těěles, jejich soustav, růůzných děějůů ve vesmíru i vesmírem jako celkem. Historie astronomie. Astronomie se podobněě jako další věědy začčala rozvíjet ve starověěku. První se z astronomie rozvíjela astrometrie, zabývající se měěřřením poloh hvěězd a planet na obloze. Tato oblast astronomie měěla velký význam pro navigaci. Podstatnou ččástí astrometrie je sférická astronomie sloužící k popisu poloh objektůů na nebeské sféřře, zavádí souřřadnice a popisuje významné křřivky a body na nebeské sféřře. Pojmy ze sférické astronomie se také používají přři měěřření ččasu. Další oblastí astronomie, která se rozvinula, byla nebeská mechanika. Zabývá se pohybem těěles v gravitaččním poli, napřříklad planet ve slunečční soustavěě. Základem nebeské mechaniky jsou práce Keplera a Newtona. Aristotelés ve svém díle "O nebi" z roku 340 přř. n. l. dokázal, že tvar Zeměě musí být kulatý, jelikož stín Zeměě na Měěsíci je přři zatměění vždy kulatý, což by přři plochém tvaru Zeměě nebylo možné. ŘŘekové také zjistili, že pokud sledujeme Polárku z jižněějšího místa na Zemi, jeví se nám níže nad obzorem než pro pozorovatele ze severu, kterému se bude její poloha na obloze jevit výše. Aristotelés dále urččil poloměěr Zeměě, který ale odhadl na dvojnásobek skuteččného poloměěru. V aristotelovském modelu Zeměě stojí a Měěsíc se Sluncem a hvěězdami krouží kolem ní, a to po kruhových drahách. Myšlenky Aristotelovy rozvinul ve 2. století našeho letopoččtu Ptolemaios, který také stavěěl Zemi do střředu a další objekty nechal obíhat kolem ní ve sférách, první byla sféra Měěsíce, dále sféry Merkuru, Venuše, Slunce, Marsu, Jupitera, Saturna a sféra stálic (hvěězd, jež byly považovány za nehybné, jak to plyne z názvu, měěly se pohybovat jen společčněě s oblohou). Tento model poměěrněě vyhovoval polohám těěles na obloze. Roku 1514 navrhl Mikuláš Koperník nový model, ve kterém bylo ve střředu soustavy Slunce a planety obíhaly kolem něěj po kruhových drahách, setkal se ale s problémy přři pozorováních, objekty se nenacházely na správných souřřadnicích. Roku 1609 zkonstruoval Galileo Galilei dalekohled, s jehož pomocí objevil ččtyřři měěsíce obíhající kolem planety Jupiter, a tím dokázal Koperníkovu teorii o Slunci ve střředu a planetách kroužících kolem. Johannes Kepler zaměěnil kruhové dráhy planet za eliptické, ččímž bylo dosaženo souladu s pozorovánými polohami těěles. V roce 1687 vydal sir Isaac Newton knihu Philosophiae Naturalis Principia Mathematica o poloze těěses v prostoru a ččase a zákon obecné přřitažlivosti, podle něěhož jsou k soběě těělesa vázana gravitací, která závisí na hmotnosti těěles a na jejich vzdálenosti. Z gravitaččního zákona vychází eliptický pohyb planet. Roku 1929 studoval Edwin Hubble daleké galaxie, zjistil rudý posuv, který se zvěětšuje se vzdáleností, to byl důůkaz o rozpínání vesmíru. Fakt, že se od sebe objekty vzdalují, naznaččuje, že něěkdy v minulosti byly objekty velmi blízko od sebe, tím se zrodily myšlenky o velkém třřesku, místěě a ččase, kdy byl vesmír nekoneččněě malý a hustý. V letech napsal Albert Einstein teorii relativity speciální, ve které zavedl koneččnou rychlost svěětla a obecnou relativitu o gravitaci, ččase a prostoru ve velkých rozměěrech. Na začčátku 20. století vznikla kvantová teorie o chování elementárních ččástic.
39 3. FREQUENCY LIST OF WORDS 1 a v se na je z s do V byl roce ve i jako o informace státy vzhledem minulosti největším vychází podobně řešení tabulky Bill živočichů vrcholy (za farnosti vítězem 649
40 4. TUPLES OF WORDS místem určené veřejné vojáci Enterprise provozu. přinesla teprve hodnocení kvalitní považováno vystupoval Nejstarší hlavu pohlaví ukončení francouzskou procesu scény snadno nearabské náboženství). pravý přechodu Francii mužů náměstí. závody Oblast doprava. proběhl zahrál Alois kříže příběhu ruce konstrukce letounu rekonstrukce rekord 1907 Vznik povýšen zemí. dřívější miliónů nepříliš výšky 1902 I., verzí členové hvězdná studia vyslal C budovu grafické kolonie počasí
41 5. URLS místem určené veřejné vojáci id= ZIEL=SSA&FFT=1 ArticleID= Enterprise provozu. přinesla teprve %C3%A9mov%C3%BD%20software
42 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) POS-tagger Annotated text corpus chared trigram.py justext
43 LANGUAGE DETECTION / FILTERING Trigram class Similarity score based on frequencies of 3-grams of characters >>> import Trigram >>> reference_en = Trigram('/path/to/reference/text/english') >>> reference_de = Trigram('/path/to/reference/text/german') >>> unknown = Trigram('url://pointing/to/unknown/text') >>> unknown.similarity(reference_de) 0.4 >>> unknown.similarity(reference_en) 0.95
44 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) POS-tagger Annotated text corpus chared trigram.py justext
45 CHARACTER ENCODING DETECTION Bytes 70 c5 99 c3 ad 6c 69 c5 a1 20 c5 be 6c 75 c5 a5 6f 75 c4 8d 6b c3 bd 20 6b c5 af c c4 9b 6c 20 c4 8f c3 a c 73 6b c3 a9 20 c3 b In windows-1250 pĺ Ă liĺˇ ĹľluĹĄouÄŤkĂ kĺżĺ ĂşpÄ l ďábelskĂ Ăłdy In iso pĺă liĺą ĹžluĹĽouÄkĂ kĺżĺ ĂşpÄl ÄĂĄbelskĂŠ Ăłdy In utf-8 příliš žluťoučký kůň úpěl ďábelské ódy
46 WEB PAGE ENCODING SPECIFICATION Meta tags <meta http-equiv="content-type" content="text/html; charset=utf-8" /> HTTP protocol 200 OK Content-Type: text/html; charset=utf-8 Not always available Not always correct Guessing from text is more reliable
47 AUTOMATIC ENCODING DETECTION Byte frequency vector for the input text 3-grams of bytes Compare with model vectors (scalar product) iso koi8-r utf-8
48 TRAINING DATA Take ca web pages with texts in the target language (Corpus Factory) Extract encoding information from meta tags Mostly correct; errors cancelled out by statistical processing Discard pages for which encoding cannot be determined Usage frequency of encodings for the target language E.g. for Czech: utf-8: 60.2%, windows-1250: 32.2%, iso : 6.0% Ignore encodings with freq < 0.5% Convert all pages to all frequently used encodings To balance training data Create models
49 EVALUATION 5-fold cross-validation on training data Czech English German Greek Italian Norwegian freq accuracy freq accuracy freq accuracy freq accuracy freq accuracy freq accuracy utf-8 60,2% 100,0% 56,9% 95,8% 54,6% 100,0% 68,5% 100,0% 54,2% 100,0% 63,0% 100,0% windows ,2% 100,0% 0,3% n/a 0,1% n/a 0,2% n/a 0,0% n/a 0,1% n/a windows ,4% n/a 9,4% 97,5% 6,5% 97,3% 3,1% 75,8% 7,1% 95,7% 7,0% 97,4% windows ,0% n/a 0,0% n/a 0,0% n/a 14,3% 99,3% 0,0% n/a 0,0% n/a iso ,0% 89,5% 32,8% 90,9% 37,1% 85,8% 1,7% 71,2% 37,9% 85,1% 29,3% 88,2% iso ,0% 99,6% 0,0% n/a 0,1% n/a 0,0% n/a 0,1% n/a 0,1% n/a iso ,0% n/a 0,0% n/a 0,0% n/a 12,0% 97,2% 0,0% n/a 0,0% n/a iso ,0% n/a 0,0% n/a 1,2% 85,6% 0,0% n/a 0,0% n/a 0,4% n/a training docs w. avg accuracy 99,2% 93,5% 93,7% 97,9% 93,3% 95,7%
50 IMPLEMENTATION In Python Open source (BSD License) Available from: Online demo: Currently supports 51 languages
51 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) POS-tagger Annotated text corpus chared trigram.py justext
52 BOILERPLATE The content outside of the main body of a page, e.g. Headers, footers Navigation links Copyright notices Advertisements Does not contain full sentences Mostly noise (for text corpora) Inflates frequency of some terms, such as home, search, print 52
53 53
54 JUSTEXT Boilerplate cleaning algorithm Operates in 3 basic steps: 1. Segmentation - a page is split into text blocks (segments) 2. Context-free classification - preliminary class assigned to each segment (good, bad, near-good, short) Length Number of hyperlinks Number of function (stoplist) words 3. Context-sensitive classification - final class assigned (good, bad) 54
55 JUSTEXT: TEXT BLOCK CLASSIFICATION document start BAD SHORT BAD SHORT NEAR-GOOD BAD SHORT SHORT GOOD SHORT GOOD SHORT NEAR-GOOD SHORT BAD NEAR-GOOD?? BAD BAD BAD BAD BAD BAD BAD BAD GOOD GOOD GOOD GOOD GOOD BAD BAD BAD document end 55
56 JUSTEXT EVALUATION Data collections Canola (KrdWrd team, CleanEval L3S-GN1 (C. Kohlschütter, news articles) Algorithms Victor (CRF classifier; Marek, Pecina, Spousta; CleanEval winner) NCLEANER / StupidOS (n-gram language model; S. Evert) boilerpipe (C4.8-based decision trees; C. Kohlschütter) BTE (tag density; Finn et al; better than Victor on CleanEval) 56
57 JUSTEXT: EVALUATION RESULTS On all collections on par with the best algorithms or even slightly better 57
58 DOCUMENT FRAGMENTATION Boilerplate cleaning algorithms with too fine-grained segmentation tend to have problems with fragmented output Example - Victor: 1. A few days ago, I mentioned that I d begun playing on one of the older text- based MMOGs, Gemstone IV. Many of you 2. commented on the Loading forums 3. about your own old experiences with text and how they compared with my own.... Gold standard Algorithm 1 Algorithm 2 58
59 EVALUATION OF FRAGMENTATION ON CANOLA avg fragment length median fragment length avg fragments per document perfect cleaning 1315, ,98 BTE 11095, ,00 boilerpipe 671, ,81 Victor 637, ,13 justext 2304, ,88 59
60 AVAILABILITY OF JUSTEXT In Python Open source (BSD License) downloads since March 2011 Online demo: 60
61 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) POS-tagger Annotated text corpus chared trigram.py justext
62 SPIDERLING In-house created web crawler for text corpora Why not use existing software? Specific requirements Robustness (must handle terabyte downloads) Simple crawlers Not robust enough Complex robust crawlers (e.g. Heritrix) Difficult to customize
63 SPIDERLING Web crawler which focuses on text-rich sources Written in Python Evaluator Starting URLs Emphasis on simplicity Asynchronous communication with servers Main modules (subprocesses) Downloader Internet Evaluator Downloader Data processors Document processor Document processor Document processor Text corpus (with near-duplicates)
64 DOCUMENT PROCESSORS Character encoding detection (chared) Language filters (trigram.py) Removing boilerplate (justext)
65 YIELD RATE yield rate = final corpus size / downloaded data size Yield rate stats for internet domains (on the fly) Prune bad domains domain downloaded data clean data yield rate MB MB 76,4% MB 97.8 MB 70,9% slovnik.online-clanky.cz 17.2 MB 11.1 MB 64,5% MB 8.5 MB 61,8% MB 7.7 MB 60,8%... stanpilot.rajce.idnes.cz 12.6 MB 0.2 MB 1,4% spojene-arabske-emiraty.orbion.cz 10.6 MB 0.1 MB 1,2% sof.rock.cz 11.2 MB 0.1 MB 1,1%
66 YIELD RATES FOR HERITRIX CRAWLED DATA
67 YIELD RATES FOR SPIDERLING CRAWLED DATA
68 YIELD RATE THRESHOLD Yield rate threshold is a function of the number of downloaded documents: t(n) = 0.01 (log10(n) - 1) # of documents yr threshold 10 0% 100 1% % %
69 CRAWLING SPEED (RAW HTML DATA) MB of raw HTML data per second Japanese Russian Turkish time (hours)
70 YIELD RATE DEVELOPMENT Japanese Russian Turkish average yield rate time (hours)
71 CRAWLING SPEED (CLEAN DATA) 1000 Japanese Russian Turkish MB of clean text per hour time (hours)
72 Wikipedia language ID Wikipedia Corpus Factory Sample text Search engine (bing) URLs wget HTML pages (a few) chared training trigram.py training onion Charset detection model Language detection model Text corpus Text corpus (with nearduplicates) SpiderLing (web crawler) POS-tagger Annotated text corpus chared trigram.py justext
73 REMOVING DUPLICATE AND NEAR-DUPLICATE DATA Exact duplicates - easy aa7d66733dbe aa7d66733dbe Near duplicates - difficult aa7d66733dbe d87a79bfe197 73
74 KNOWN ALGORITHMS Mostly from IR field (web search engines) Broder s shingling algorithm Charikar s algorithm Fail to detect similarities at intermediate level (say 50-80%) Not a problem for search engines (a feature rather than a bug) For text corpora, all duplicates are problematic It seems that in web collections, document pairs at an intermediate level of similarity are much more frequent than document pairs at a high level of similarity 74
75 SIMILAR DOCUMENTS IN CLUEWEB09 Experiment performed on a small sample of ClueWeb09: 21,776 Web pages from 2,722 different domains. 75
76 ONION (DE-DUPLICATION PROGRAM) N-gram based We don t need to know which pairs of documents are near-duplicates It suffices to make sure that the text we are adding to a corpus is not already there Keep a set of n-grams already present in a corpus A new document is added to the corpus only if it doesn t contain too many n- grams already contained in the corpus The set of n-grams may grow out of RAM capacity Precompute list of duplicate n-grams (with 2 or more occurrences in the whole corpus); usually less than 10% of all n-grams (n >= 7) Prune unique n-grams 6-grams for what can we do with a drunken sailor : (what, can, we, do, with, a) (can, we, do, with, a, drunken) (we, do, with, a, drunken sailor) 76
77 ONION: TECHNICAL DETAILS Finding duplicate n-grams -- standard external sort Storing 64-bit hashes of n-grams (rather than raw n-grams) Hashes stored in a Judy array -- a complex memory efficient associative array data structure Judy1 - integer->boolean (for representing sets) RAM requirements as low as 6 bytes per hash 77
78 ONION: EVALUATION corpus name ententen ittenten detenten ClueWeb09 (7%) language English Italian German English words before de-duplication* 4.09 bil bil bil bil. words after de-duplication 3.15 bil. (76.9%) 2.59 bil. (61.5%) 2.44 bil. (59.1%) 7.28 bil. (81.0%) dupl. 10-grams before de-dupl. 528 mil. 662 mil. 625 mil. 913 mil. dupl. 10-grams after de-dupl. 41 mil. (7.7%) 66 mil. (10.0%) 36 mil. (5.8%) 97 mil. (10.6%) * after language filtering, removing boilerplate and exact duplicates 78
79 ONION: SCALABILITY Used for de-duplication of English ClueWeb09 (1bn web pages) Input size 920 GB (more than 100bn words) 72bn words after de-duplication aura.fi.muni.cz (8x 8-core Intel Xeon 2.27GHz, 440 GB RAM) ca 5 days on a single CPU Required 148 GB RAM 79
80 ONION: AVAILABILITY In C Open source (BSD License)
81 RESULTS Language Tokens Time Czech 5.8G? Tajik 32.5M 3.4 days Russian 20.2G 12.5 days Japan 12-18G 22.5 days (+) Turkish 5-10G 6.5 days (+)
82 FUTURE WORK Distinguishing between similar languages (e.g. Czech vs. Slovak) What kind of data is there in the web corpora? Document clustering Manual inspection of the clusters Corpus evaluation
83 Thank you! Questions?
Compression of a Dictionary
Compression of a Dictionary Jan Lánský, Michal Žemlička zizelevak@matfyz.cz michal.zemlicka@mff.cuni.cz Dept. of Software Engineering Faculty of Mathematics and Physics Charles University Synopsis Introduction
USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING
USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING Eva Minaříková Institute for Research in School Education, Faculty of Education, Masaryk University Structure of the presentation What can we as teachers
GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA
GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA What is an FTP client and how to use it? FTP (File transport protocol) - A protocol used to transfer your printing data files to the MAFRAPRINT
Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.
Czech Republic EDUCAnet Střední odborná škola Pardubice, s.r.o. ACCESS TO MODERN TECHNOLOGIES Do modern technologies influence our behavior? Of course in positive and negative way as well Modern technologies
VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace
VY_32_INOVACE_06_Předpřítomný čas_03 Autor: Růžena Krupičková Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace Název projektu: Zkvalitnění ICT ve slušovské škole Číslo projektu: CZ.1.07/1.4.00/21.2400
Website review vaznikystrechy.eu
Generated on August 02 2016 10:08 AM The score is 56/100 SEO Content Title Dřevěné příhradové vazníky pro všechy typy střech Length : 49 Perfect, your title contains between 10 and 70 characters. Description
Website review ciporat.ru
Website review ciporat.ru Generated on October 12 2016 02:27 AM The score is 39/100 SEO Content Title Polina Gagarina: Zhubnout 40 kg může být i se špatným dědičnosti. Vím, že pro sebe! - Svět Ženy Length
CZ.1.07/1.5.00/
Projekt: Příjemce: Digitální učební materiály ve škole, registrační číslo projektu CZ.1.07/1.5.00/34.0527 Střední zdravotnická škola a Vyšší odborná škola zdravotnická, Husova 3, 371 60 České Budějovice
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Projekt MŠMT ČR Číslo projektu Název projektu školy Klíčová aktivita III/2 EU PENÍZE ŠKOLÁM CZ.1.07/1.4.00/21.2146
Postup objednávky Microsoft Action Pack Subscription
Postup objednávky Microsoft Action Pack Subscription DŮLEŽITÉ: Pro objednání MAPS musíte být členem Microsoft Partner Programu na úrovni Registered Member. Postup registrace do Partnerského programu naleznete
Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU
Systém pro správu experimentálních dat a metadat Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU BioWes Systém pro správu experimentálních dat a meta Hlavní cíl Vytvoření systému usnadňujícího
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.
CURRICULUM VITAE - EDUCATION Jindřich Bláha Výukový materiál zpracován v rámci projektu EU peníze školám Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Bc. Jindřich Bláha. Dostupné z Metodického
Syntactic annotation of a second-language learner corpus
Syntactic annotation of a second-language Jirka Hana & Barbora Hladká Charles University Prague ICBLT 2018 CzeSL Corpus of L2 Czech ICBLT 2018 2 CzeSL Czech as a Second Language Part of AKCES Acquisition
Translation Model Interpolation for Domain Adaptation in TectoMT
Rudolf Rosa, Ondřej Dušek, Michal Novák, Martin Popel {rosa,odusek,mnovak,popel}@ufal.mff.cuni.cz Translation Model Interpolation for Domain Adaptation in TectoMT Charles University in Prague Faculty of
cstenten17, a Recent Czech Web Corpus
cstenten17, a Recent Czech Web Corpus Vít Suchomel vit.suchomel@sketchengine.co.uk December 8, 2018 Raslan 2018 Vít Suchomel cstenten17 Raslan 2018 1 / 29 Outline 1 Introduction 2 Corpus Construction And
CZ.1.07/1.5.00/
Projekt: Příjemce: Digitální učební materiály ve škole, registrační číslo projektu CZ.1.07/1.5.00/34.0527 Střední zdravotnická škola a Vyšší odborná škola zdravotnická, Husova 3, 371 60 České Budějovice
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
DIACRAN: a framework for diachronic analysis
: a framework for diachronic analysis Adam Kilgarriff, Ondřej Herman, Jan Bušta, Vojtěch Kovář, Vít Baisa, Miloš Jakubíček Lexical Computing Brighton, UK & Brno, CZ NLP Centre, Masaryk University, Brno,
Vybrané aktuální projekty Centra ZPJ. Kolokace a dokumenty. Metody. Kontext:,,One-click dictionary post-editing lexicography
Obsah: Vybrané aktuální projekty Centra ZPJ Vojtěch Kovář, Zuzana Nevěřilová E-mail: xkovar3@fi.muni.cz,xpopelk@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Kontext:,,One-click dictionary post-editing lexicography
Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115
Číslo projektu: Číslo šablony: Název materiálu: Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 CZ.1.07/1.5.00/34.0410 II/2 Parts of a computer IT English Ročník: Identifikace materiálu: Jméno
II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách
Název školy Gymnázium, Šternberk, Horní nám. 5 Číslo projektu CZ.1.07/1.5.00/34.0218 Šablona Označení materiálu II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách VY_22_INOVACE_Mrh16 Vypracoval(a),
Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting
Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting Petr Macháček PETALIT s.r.o. 1 What is Redwood. Sensor Network Motion Detection Space Utilization Real Estate Management 2 Building
Introduction to MS Dynamics NAV
Introduction to MS Dynamics NAV (Item Charges) Ing.J.Skorkovský,CSc. MASARYK UNIVERSITY BRNO, Czech Republic Faculty of economics and business administration Department of corporate economy Item Charges
STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace
Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace Číslo a název projektu: CZ.1.07/1.5.00/34.0880 Digitální učební materiály www.skolalipa.cz
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
Instrukce: Cvičný test má celkem 3 části, čas určený pro tyto části je 20 minut. 1. Reading = 6 bodů 2. Use of English = 14 bodů 3.
Vážení studenti, na následujících stranách si můžete otestovat svou znalost angličtiny a orientačně zjistit, kolik bodů za jazykové kompetence byste získali v přijímacím řízení. Maximální počet bodů je
Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:
WORKBOOK Subject: Teacher: Student: Mathematics.... School year:../ Conic section The conic sections are the nondegenerate curves generated by the intersections of a plane with one or two nappes of a cone.
CZ.1.07/1.5.00/
Projekt: Příjemce: Digitální učební materiály ve škole, registrační číslo projektu CZ.1.07/1.5.00/34.0527 Střední zdravotnická škola a Vyšší odborná škola zdravotnická, Husova 3, 371 60 České Budějovice
Mechanika Teplice, výrobní družstvo, závod Děčín TACHOGRAFY. Číslo Servisní Informace Mechanika: 5-2013
Mechanika Teplice, výrobní družstvo, závod Děčín TACHOGRAFY Servisní Informace Datum vydání: 20.2.2013 Určeno pro : AMS, registrované subj.pro montáž st.měř. Na základě SI VDO č./datum: Není Mechanika
Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic
Dynamic Development of Vocabulary Richness of Text Miroslav Kubát & Radek Čech University of Ostrava Czech Republic Aim To analyze a dynamic development of vocabulary richness from a methodological point
Digitální učební materiál
Digitální učební materiál Projekt Šablona Tématická oblast DUM č. CZ.1.07/1.5.00/34.0415 Inovujeme, inovujeme III/2 Inovace a zkvalitnění výuky prostřednictvím ICT (DUM) Anglický jazyk pro obor podnikání
Content Language level Page. Mind map Education All levels 2. Go for it. We use this expression to encourage someone to do something they want.
Study newsletter 2015, week 40 Content Language level Page Phrase of the week Go for it All levels 1 Mind map Education All levels 2 Czenglish Stressed vs. in stress Pre-intermediate (B1-) Advanced (C1)
VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.
VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O. Návrh konceptu konkurenceschopného hotelu v době ekonomické krize Diplomová práce 2013 Návrh konceptu konkurenceschopného hotelu v době ekonomické krize Diplomová
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
Jak importovat profily do Cura (Windows a
Jak importovat profily do Cura (Windows a macos) Written By: Jakub Dolezal 2019 manual.prusa3d.com/ Page 1 of 10 Step 1 Stažení Cura profilů V tomto návodu se dozvíte, jak importovat a aktivovat nastavení
CHAIN TRANSMISSIONS AND WHEELS
Second School Year CHAIN TRANSMISSIONS AND WHEELS A. Chain transmissions We can use chain transmissions for the transfer and change of rotation motion and the torsional moment. They transfer forces from
Billy Elliot 1 Pre-watching activities A2/B1
Billy Elliot 1 Pre-watching activities A2/B1 Číslo projektu Kódování materiálu Označení materiálu Název školy Autor Anotace Předmět Tematická oblast Téma Očekávané výstupy Klíčová slova Druh učebního materiálu
Litosil - application
Litosil - application The series of Litosil is primarily determined for cut polished floors. The cut polished floors are supplied by some specialized firms which are fitted with the appropriate technical
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
Číslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky
Číslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky Autor: Mgr. Libuše Matulová Název materiálu: Education Označení materiálu: VY_32_INOVACE_MAT27 Datum vytvoření: 10.10.2013
Role DSO v implementaci GDPR
Role DSO v implementaci GDPR Role of Voluntary Association of Municipalities in the GDPR Implementation Mgr. Michaela Neumahr pověřenec pro ochranu osobních údajů DSO Region Slezská brána (DPO) michaela.neumahr@slezskabrana.cz
Project Life-Cycle Data Management
Project Life-Cycle Data Management 1 Contend UJV Introduction Problem definition Input condition Proposed solution Reference Conclusion 2 UJV introduction Research, design and engineering company 1000
Bibliometric probes into the world of scientific publishing: Economics first
Bibliometric probes into the world of scientific publishing: Economics first Daniel Münich VŠE, Nov 7, 2017 Publication space Field coverage of WoS Source: Henk F. Moed, Citation Analysis in Research Evaluation,
User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com
1/ 11 User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 2/ 11 Contents 1. MINIMUM SYSTEM REQUIREMENTS... 3 2. SŘHV ON-LINE WEB INTERFACE... 4 3. LOGGING INTO SŘHV... 4 4. CONTRACT
5.VY_32_INOVACE_AJ_UMB5, Vztažné věty.notebook. September 09, 2013
1 (Click on the text to move to the section) Methodology Sources 2 We use We use We use We use We use for PEOPLE. for THINGS. for POSSESIONS. for PLACES. for TIME. 3 QUIZ: People: Do you know where are
Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace
Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace Číslo a název projektu: CZ.1.07/1.5.00/34.0880 Digitální učební materiály www.skolalipa.cz
Risk management in the rhythm of BLUES. Více času a peněz pro podnikatele
Risk management in the rhythm of BLUES Více času a peněz pro podnikatele 1 I. What is it? II. How does it work? III. How to find out more? IV. What is it good for? 2 I. What is it? BLUES Brain Logistics
VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová
VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová VZDĚLÁVÁNÍ V ČR VY_32_INOVACE_AH_3_03 OPVK 1.5 EU peníze středním školám CZ.1.07/1.500/34.0116 Modernizace výuky na učilišti Název školy Název šablony Předmět
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Projekt MŠMT ČR Číslo projektu Název projektu školy Klíčová aktivita III/2 EU PENÍZE ŠKOLÁM CZ.1.07/1.4.00/21.2146
Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list
VY_32_INOVACE_AJ_133 Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list PhDr. Zuzana Žantovská Období vytvoření: květen 2013 Ročník: 1. 4. ročník SŠ Tematická oblast: Gramatika slovesa
EU peníze středním školám digitální učební materiál
EU peníze středním školám digitální učební materiál Číslo projektu: Číslo a název šablony klíčové aktivity: Tematická oblast, název DUMu: Autor: CZ.1.07/1.5.00/34.0515 III/2 Inovace a zkvalitnění výuky
Research infrastructure in the rhythm of BLUES. More time and money for entrepreneurs
Research infrastructure in the rhythm of BLUES More time and money for entrepreneurs 1 I. What is it? II. How does it work? III. References Where to find out more? IV. What is it good for? 2 I. What is
PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT
PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT Dear Friends We will now be able to buy from us succulent plants at very good wholesale price.
Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční
Příloha I Seznam tabulek Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční odměny pro rozhodčí platný od roku
kupi.cz Michal Mikuš
kupi.cz Michal Mikuš redisgn website kupi.cz, reduce the visual noise. ADVERT ADVERT The first impression from the website was that i dint knew where to start. It was such a mess, adverts, eyes, products,
Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/21.3688 EU PENÍZE ŠKOLÁM
ZÁKLADNÍ ŠKOLA OLOMOUC příspěvková organizace MOZARTOVA 48, 779 00 OLOMOUC tel.: 585 427 142, 775 116 442; fax: 585 422 713 email: kundrum@centrum.cz; www.zs-mozartova.cz Projekt: ŠKOLA RADOSTI, ŠKOLA
CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT
Autor: Sylva Máčalová Tematický celek : Gramatika Cílová skupina : mírně pokročilý - pokročilý Anotace Materiál má podobu pracovního listu, který obsahuje cvičení, pomocí nichž si žáci procvičí rozdíly
Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115
Číslo projektu: Číslo šablony: Název materiálu: Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 CZ.1.07/1.5.00/34.0410 II/2 Business correspondence Business English Ročník: Identifikace materiálu:
Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/
Číslo materiálu: Název materiálu: Ironic Číslo projektu: CZ.1.07/1.4.00/21.1486 Zpracoval: Mgr. Petra Březinová IRONIC 1. Listen to the song Ironic from the singer Alanis Morissette. For the first time
MEDIA RESEARCH RATINGS
READERS OF MF DNES MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie vydavatelů)
READERS OF MAGAZÍN DNES + TV
READERS OF MAGAZÍN + MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie
http://www.zlinskedumy.cz
Číslo projektu Číslo a název šablony klíčové aktivity Tematická oblast Autor CZ.1.07/1.5.00/34.0514 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Výklad a cvičení z větné stavby, vy_32_inovace_ma_33_01
MEDIA RESEARCH RATINGS
READERS OF MF DNES MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie vydavatelů)
1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.
Moje hlavní město Londýn řešení: 1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení. Klíčová slova: capital, double decker bus, the River Thames, driving
Newstin Real-time Web Content Categorization. Presentation to WebExpo 2008
Newstin Real-time Web Content Categorization Presentation to WebExpo 2008 October 18, 2008 Company Background Newstin a.s. founded in 1998 as I2S in Prague Team of 30 employees 26 engineers 14 nations
Theme 6. Money Grammar: word order; questions
Theme 6 Money Grammar: word order; questions Čas potřebný k prostudování učiva lekce: 8 vyučujících hodin Čas potřebný k ověření učiva lekce: 45 minut KLÍNSKÝ P., MÜNCH O., CHROMÁ D., Ekonomika, EDUKO
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
MEDIA RESEARCH RATINGS
READERS OF MF DNES MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie vydavatelů)
MEDIA RESEARCH RATINGS
READERS OF MF DNES MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie vydavatelů)
VY_22_INOVACE_60 MODAL VERBS CAN, MUST
VY_22_INOVACE_60 MODAL VERBS CAN, MUST Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor: Anglický jazyk Ročník: 9. MODAL VERBS CAN, MUST, SHOULD 1/ Connect the verbs to their future forms.
Olympus High Res Shot Raw File Photoshop Plug-in. Uživatelská příručka
Olympus High Res Shot Raw File Photoshop Plug-in Uživatelská příručka Úvod Děkujeme, že jste zakoupili tento výrobek společnosti Olympus. Modul "Olympus High Res Shot Raw File Photoshop Plug-in" slouží
By David Cameron VE7LTD
By David Cameron VE7LTD Introduction to Speaker RF Cavity Filter Types Why Does a Repeater Need a Duplexer Types of Duplexers Hybrid Pass/Reject Duplexer Detail Finding a Duplexer for Ham Use Questions?
Co vím o Ázerbájdžánu?
Ministerstvo mládeže a sportu Ázerbájdžánské republiky Ministerstvo zahraničních věcí Ázerbájdžánské republiky Velvyslanectví Ázerbájdžánské republiky v Praze ve spolupráci s Centrem ázerbájdžánských a
SYSTEM OF ROAD SURFACE MEASUREMENT AND EVALUATION IN THE CZECH REPUBLIC, NEW TRENDS IN THIS FIELD
SYSTEM OF ROAD SURFACE MEASUREMENT AND EVALUATION IN THE CZECH REPUBLIC, NEW TRENDS IN THIS FIELD Josef Stryk, Ilja Březina, Jiří Sláma, Leoš Nekula et al. Table of content measured road surface characteristics
MEDIA RESEARCH RATINGS
READERS OF MF DNES MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie vydavatelů)
MEDIA RESEARCH RATINGS
READERS OF MF DNES MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie vydavatelů)
Klepnutím lze upravit styl Click to edit Master title style předlohy nadpisů.
nadpisu. Case Study Environmental Controlling level Control Fifth level Implementation Policy and goals Organisation Documentation Information Mass and energy balances Analysis Planning of measures 1 1
Digitální učební materiály www.skolalipa.cz
Název školy Číslo projektu Název projektu Klíčová aktivita Dostupné z: Označení materiálu: Typ materiálu: Předmět, ročník, obor: Tematická oblast: Téma: STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ,
Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin
Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin (nově AllFusion Data Modeller a Process Modeller ) Doc. Ing. B. Miniberger,CSc. BIVŠ Praha 2009 Tvorba datového modelu Identifikace entit
PRAVIDLA ZPRACOVÁNÍ STANDARDNÍCH ELEKTRONICKÝCH ZAHRANIČNÍCH PLATEBNÍCH PŘÍKAZŮ STANDARD ELECTRONIC FOREIGN PAYMENT ORDERS PROCESSING RULES
PRAVIDLA ZPRACOVÁNÍ STANDARDNÍCH ELEKTRONICKÝCH ZAHRANIČNÍCH PLATEBNÍCH PŘÍKAZŮ STANDARD ELECTRONIC FOREIGN PAYMENT ORDERS PROCESSING RULES Použité pojmy Platební systém Elektronický platební příkaz Účetní
MEDIA RESEARCH RATINGS
READERS OF MF DNES MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie vydavatelů)
Microsoft Office 365. SharePoint Online novinky a administrace
Microsoft Office 365 SharePoint Online novinky a administrace Co lze dělat se SharePoint(em) Online? KOLEGOVÉ SHARE Projekty Produkty Procesy Služby Reporty Kontakty PARTNEŘI ZÁKAZNÍCI SharePoint a cloud
Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.
- University I would like to enroll at a university. Stating that you want to enroll I want to apply for course. Stating that you want to apply for a course an undergraduate a postgraduate a PhD a full-time
Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.
- University Rád/a bych se zapsal/a na vysoké škole. Stating that you want to enroll Rád/a bych se zapsal/a na. Stating that you want to apply for a course bakalářské studium postgraduální studium doktorské
Cambridge International Examinations Cambridge International General Certificate of Secondary Education
Cambridge International Examinations Cambridge International General Certificate of Secondary Education *0123456789* FIRST LANGUAGE CZECH 0514/02 Paper 2 Writing For Examination from 2016 SPECIMEN PAPER
Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.
1 Bad line breaks The follwing text has prepostions O and k at end of line which is incorrect according to Czech language typography standards: Mezi oblíbené dětské pohádky patří pohádky O Palečkovi, Alenka
Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually
What is PRIME? Problems of Recognition In Making Erasmus European-wide research project Conducted by ESN with the support of the European Commission Two editions: 1 st in 2009 Follow-up in 2010 Why PRIME?
READERS OF MAGAZÍN DNES + TV
READERS OF MAGAZÍN + MEDIA RESEARCH RATINGS National media ratings research in the Czech Republic jointly requested by the publishers of dailies and magazines associated in the Publisher s Union (Unie
Martin Vrbka 0/14. Institute of Machine and Industrial Design Faculty of Mechanical Engineering Brno University of Technology
Martin Vrbka Institute of Machine and Industrial Design Faculty of Mechanical Engineering Brno University of Technology 0/14 Outline Aim Courses Employees Budget, cost and profit Classrooms and laboratories
Výukový materiál zpracován v rámci projektu EU peníze školám
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/34.0456 Šablona: III/2 č. materiálu: VY_32_INOVACE_198 Jméno autora: Třída/ročník: Mgr. Eva Lopatová
IT4Innovations Centre of Excellence
IT4Innovations Centre of Excellence Supercomputing for Applied Sciences Ivo Vondrak ivo.vondrak@vsb.cz: VSB Technical University of Ostrava http://www.it4innovations.eu Motto The best way to predict your
18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013
1 (Click on the text to move to the section) Worksheet Methodology Sources 2 Decide which words are considered prepositions (předložky) and which are particles (částice) Source: SWAN, Michael a Catharine
2 Axiomatic Definition of Object 2. 3 UML Unified Modelling Language Classes in UML Tools for System Design in UML 5
Contents Contents 1 Semestrální práce 1 2 Axiomatic Definition of Object 2 3 UML Unified Modelling Language 2 3.1 Classes in UML............................ 3 4 Tools for System Design in UML 5 5 Student
EXACT DS OFFICE. The best lens for office work
EXACT DS The best lens for office work EXACT DS When Your Glasses Are Not Enough Lenses with only a reading area provide clear vision of objects located close up, while progressive lenses only provide
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA
CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA &KDSWHUSUHVHQWVWKHGHVLJQDQGIDEULFDW LRQRIPRGLILHG0LQNRZVNLIUDFWDODQWHQQD IRUZLUHOHVVFRPPXQLFDWLRQ7KHVLPXODWHG DQGPHDVXUHGUHVXOWVRIWKLVDQWHQQDDUH DOVRSUHVHQWHG
SSOS_AJ_3.18 British education
Číslo a název projektu Číslo a název šablony DUM číslo a název CZ.1.07/1.5.00/34.0378 Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT SSOS_AJ_3.18