Spark Jan Hučín 5. dubna 2017
|
|
- Adam Macháček
- před 6 lety
- Počet zobrazení:
Transkript
1 Spark Jan Hučín 5. dubna 2017
2 Osnova 1. Co to je a k čemu slouží 2. Jak se to naučit 3. Jak se s tím pracuje 4. Jak to funguje Logický a technický pohled Transformace, akce, kešování Příklady Nadstavby Architektura a alokace zdrojů 5. Spark streaming 2
3 Úvod do Sparku
4 Co je to Spark a k čemu slouží systém pro distribuované výpočty na clusteru vylepšení původního map-reduce, o 2 řády rychlejší zpracování v paměti méně I/O operací, vhodné pro iterativní algoritmy nebo analýzu dat optimalizace operací před zpracováním nyní i pseudo-sql příkazy API pro Scalu, Javu, Python a R s Hadoopem (využívá HDFS, YARN) i samostatně napsán ve Scale, běží na JVM nejaktivnější opensource Big Data projekt 4
5 Spark vs. map-reduce 5
6 Vhodné úlohy dostatečně velké, ale ne extrémně dobře paralelizovatelné iterační obtížné pro stávající technologie Např. 1. výpočty charakteristik klientů (riskové skóre, zůstatky) 2. ETL pro odlehčení DWH 3. hledání vazeb v síti 4. text-mining 6
7 Nevhodné úlohy příliš malé s extrémními požadavky na paměť šité na míru jiné technologii (SQL, Java) špatně paralelizovatelné real-time Např. 1. modelování na malých datech 2. výpočet mediánu, náhodné přeskoky mezi řádky souboru 3. JOIN několika opravdu velkých tabulek 7
8 Jak se to naučit aspoň základy Python Scala Java R vlastní praxe rady zkušených, StackOverflow apod. 8
9 Jak se s tím pracuje interaktivně z příkazové řádky (shell pro Python i Scalu) Zeppelin/Jupyter notebook dávka / aplikace zkompilovaný.jar soubor skript Pythonu 9
10 Jak funguje Spark
11 Pohled high level (logický) RDD výstup transformace akce série transformací zakončená akcí transformace se plánují a optimalizují, ale zatím neprovádějí lazy evaluation: až první akce spustí celý proces Co je to RDD? resilient distributed dataset kolekce prvků (např. řádky v textovém souboru, datová matice, posloupnost binárních dat) musí být dělitelné na části místo rozdělení (spolu)určí Spark! 11
12 Pohled mid level (technický) vytvoření JVM na nodech (exekutory) rozdělení úlohy na joby a jobů na tasky distribuce tasků a případně dat na nody řízení procesu více v architektuře Sparku 12
13 Tradiční RDD přístup transformace RDD1 RDD2, po prvcích ( řádcích ) map (prvek transformační funkce nový prvek) flatmap (prvek transformační funkce 0 až N nových prvků) filter, distinct (pustí se jen řádky vyhovující podmínce / unikátní) join (připojí řádky jiného RDD podle hodnot klíče) union, intersection (sjednocení a průnik s jiným RDD) groupbykey, reducebykey (setřídí / agreguje prvky podle klíče)... a další Kde vzít klíč? výsledek transformace, např. slovo (slovo, 1) první prvek tuple se bere jako klíč "tuple" (má Scala i Python) 13
14 Příklad transformace Úkol: spočítat četnosti slov v dokumentu Vstup: textový soubor rozdělený do řádků (RDD) Postup: transformace řádků: řádek rozdělení na slova prvky typu (slovo, 1) seskupení prvků se stejným klíčem a sečtení jedniček Výsledek transformace: RDD s prvky (slovo, četnost) 14
15 Vsuvka interaktivní shell pyspark (Python) spark-shell (Scala) spouští se z příkazové řádky některého serveru bigdatan funguje lokálně nebo v YARNu: pyspark --master local pyspark --master yarn vytvoří důležité objekty, např. sc (SparkContext), sqlcontext ukončuje se exit() 15
16 Příklad transformace Úkol: spočítat četnosti slov v dokumentu Vstup: textový soubor rozdělený do řádků (RDD) lines = sc.textfile("/user/pascepet/bible.txt") Postup: transformace řádků: řádek jednotlivá slova (více prvků) words = lines.flatmap(lambda line: line.split(" ")) transformace řádků: řádek čili slovo struktura (slovo, 1) pairs = words.map(lambda word: (word, 1)) seskupení prvků se stejným klíčem a sečtení jedniček counts = pairs.reducebykey(lambda a, b: a + b) to be or not to be to be or not to be (to, 1) (be, 1) (or, 1) (not, 1) (to, 1) (be, 1) (to, 2) (be, 2) (or, 1) (not, 1) 16
17 Proč se nic nespočítalo? Protože jsme zatím neprovedli žádnou akci. 17
18 Tradiční RDD přístup akce reduce (pomocí zadané funkce agreguje všechny prvky RDD) take (vypíše prvních n prvků RDD) count (počet prvků) collect (vypíše RDD jako pole prvků) saveastextfile (uloží jako textový soubor)... a další Akce spustí celý řetězec od začátku! Všechny mezivýsledky se zapomenou. Pokud to nechceme, musíme některé RDD uložit do keše. 18
19 Kešování Kešování: RDD se nezapomene, ale uchová v paměti / na disku. Metody pro kešování: cache (pokusí se uchovat v paměti) persist (obecnější, např. serializace, využití disku atd.) unpersist (uvolnění RDD z paměti) Typy kešování: MEMORY_ONLY MEMORY_AND_DISK MEMORY_ONLY_SER MEMORY_AND_DISK_SER SER = serializace úspora paměti, ale vyšší výpočetní náročnost Volby se SER pouze Java a Scala, v Pythonu serializace vždy Kešování není akce! 19
20 Spark SQL a DataFrames (DataSets) Alternativa k tradičnímu RDD přístupu Datová struktura DataFrame = RDD + sloupcové operace obdoba databázové relační tabulky obsahuje i schéma operace nad rámec RDD práce se sloupci možnost použití syntaxe podobné SQL Výhody oproti RDD: optimalizace dotazů rychlejší běh stručnější a jednodušší kód 20
21 Spark SQL a DataFrames co je navíc (např.) sql (SQL dotazování, např. do Hive) select (omezení počtu sloupců) filter (omezení počtu řádků) groupby (seskupení) agg (agregační funkce) show (hezčí výpis několika řádků) read, write (I/O operace) 21
22 Příklad SparkSQL Úkol: který stát USA má na meteostanicích nejvyšší průměrný normál v létě? Vstup: tabulka Hive Postup: načtení dat dotazem do Hive omezit data na letní měsíce ponechat jen důležité sloupce seskupit po státech, spočítat průměry seřadit podle průměrů sestupně vypsat první řádek 22
23 Příklad SparkSQL Úkol: který stát USA má na meteostanicích nejvyšší průměrný normál v létě? Vstup: tabulka Hive Postup: načtení dat dotazem do Hive df=sqlcontext.sql('select * from sstamenov.pocasi') omezit data na letní měsíce df2=df.filter((df.mesic>5) & (df.mesic<9)) ponechat jen důležité sloupce (+ vyhodit null) df3=df2.select('stat','teplota').na.drop() seskupit po státech, spočítat průměry (+ přejmenovat sloupec) df4=df3.groupby('stat').avg().todf('stat','prum') seřadit podle průměrů sestupně df5=df4.sort(df4.prum.desc()) omezit na první řádek df5.limit(1) 23
24 Nadstavby machine-learning (MLlib) zpracování grafů (GraphX) streaming 24
25 Architektura Sparku
26 Důležité pojmy 1 Application master proces zodpovědný za vyjednání výpočetních zdrojů od res. manageru Driver hlavní proces plánuje workflow distribuuje práci do exekutorů Executor proces běžící na některém z nodů (ideálně na každém) provádí tasky (může i několik paralelně) 26
27 Důležité pojmy 2 Job akce volaná uvnitř programu driveru Stage sada transformací, které mohou být vykonány bez shuffle Task jednotka práce, kterou provádí exekutor na nějakém kousku dat 27
28 Plánování a optimalizace 28
29 Plánování a optimalizace přetypování posloupnost transformací (např. přehození FILTER a JOIN) volba typu JOINu, využití clusterování, partitions, skew apod. atd. 29
30 Plánování a optimalizace rozdělení a distribuce dat překlad transformací a akcí do příkazů pro JVM atd. 30
31 Ukázka DAG graf popisující průběh výpočtu určení závislostí (X musí být uděláno před Y) optimalizace v rámci dodržení závislostí 31
32 Spuštění Sparku a konfigurace běhu pyspark spark-shell spark-submit --param value Kde a jak poběží na clusteru plné využití paralelismu mod client mod cluster lokálně paralelní běh na více jádrech určeno parametry --master a --deploy-mode 32
33 Spark on YARN client mode 33
34 Spark on YARN cluster mode 34
35 Mod client versus mod cluster default je client mod client je vhodný pro interaktivní práci a debugging (výstup jde na lokální konzolu) mod cluster je vhodný pro produkční účely 35
36 Konfigurace běhu Sparku požadavky na zdroje --name jméno aplikace --driver-memory paměť pro driver --num-executors počet exekutorů --executor-cores počet jader pro exekutor --executor-memory paměť pro exekutor Příklad pyspark --master yarn --deploy-mode client --driver-memory 1G --num-executors 3 --executor-cores 2 --executor-memory 3G 36
37 Příklad plánu alokace zdrojů Obecná doporučení: --num-cores <= 5 --executor-memory <= 64 GB Cluster 6 nodů, každý 16 jader a 64 GB RAM Rezervovat 1 jádro a 1GB /node pro OS zbývá 6 *15 jader a 63 GB 1 jádro pro Spark Driver: 6 * 15 1 = 89 jader. 89 / 5 ~ 17 exekutorů. Každý node (kromě toho s driverem) bude mít 3 exekutory. 63 GB / 3 ~ 21 GB paměti na exekutor. Navíc se musí počítat s memory overhead -> nastavit 19 GB na exekutor 37
38 Spark Streaming
39 Co to je a jak to využít dávkové zpracování přicházejících dat příchozí data neklepou na dveře, sedí v čekárně near real-time, pevné nastavení časového okna Možné využití: filtrování logů, zpráv monitorování, reakce na událost vyhledávání v nakešovaných datech 39
40 Princip zpracování streamovací modul dávkuje příchozí data posloupnost RDD klasický Spark postupně odbavuje RDD ve frontě API pro Javu, Scalu, s malým omezením i Python 40
41 Příklad Úkol: pro každou dávku ze socketu spočítat četnosti slov sc = SparkContext(appName="Priklad") ssc = StreamingContext(sc, 10) lines = ssc.sockettextstream(sys.argv[1], int(sys.argv[2])) counts = lines.flatmap(lambda line: line.split(" ")) \.map(lambda word: (word, 1)) \.reducebykey(lambda a, b: a+b) counts.pprint() ssc.start() ssc.awaittermination() 41
42 Díky za pozornost Profinit, s.r.o. Tychonova 2, Praha 6 Telefon Web LinkedIn linkedin.com/company/profinit Twitter twitter.com/profinit_eu
Spark Jan Hučín 15. listopadu 2017
Spark Jan Hučín 15. listopadu 2017 Osnova 1. Co to je a k čemu slouží 2. Jak se to naučit 3. Jak se s tím pracuje 4. Jak to funguje Logický a technický pohled Transformace, akce, kešování Příklady Architektura
Spark SQL, Spark Streaming. Jan Hučín
Spark SQL, Spark Streaming Jan Hučín 22. listopadu 2017 Osnova 1. Spark SQL 2. Další rozšíření Sparku Spark streaming GraphX Spark ML 2 Spark SQL Spark SQL a DataFrames (DataSets) Rozšíření k tradičnímu
Spark SQL, Spark Streaming. Jan Hučín
Spark SQL, Spark Streaming Jan Hučín 21. listopadu 2018 Osnova 1. Spark SQL 2. Další rozšíření Sparku Spark streaming GraphX Spark ML 2 Spark SQL Spark SQL a DataFrames (DataSets) Rozšíření k tradičnímu
B0M33BDT Technologie pro velká data. Supercvičení SQL, Python, Linux
B0M33BDT Technologie pro velká data Supercvičení SQL, Python, Linux Sergej Stamenov, Jan Hučín 18. 10. 2017 Osnova cvičení Linux SQL Python 2 SQL pro uživatele aneb co potřebuje znát a umět bigdatový uživatel:
B0M33BDT 7. přednáška Architektury a bezpečnost. Marek Sušický Milan Kratochvíl
B0M33BDT 7. přednáška Architektury a bezpečnost Marek Sušický Milan Kratochvíl 5. prosinec 2018 Osnova Něco ze života Architektury Hadoop Lambda Kappa Zetta Security a dopady do architektury 2 Jak vypadá
BigData. Marek Sušický
BigData Marek Sušický 28. Únoru 2017 Osnova Big data a Hadoop Na jakém hardware + sizing Jak vypadá cluster - architektura HDFS Distribuce Komponenty YARN, správa zdrojů 2 Big data neznamená Hadoop 3 Apache
Hadoop, Hive a Spark: Využití pro data mining. Václav Zeman, KIZI VŠE
Hadoop, Hive a Spark: Využití pro data mining Václav Zeman, KIZI VŠE VŠE: Katedra informačního a znalostního inženýrství Hlavní činnosti: Data Mining a Machine Learning Nástroje: LispMiner a EasyMiner
A4M33BDT Technologie pro velká data
A4M33BDT Technologie pro velká data Milan Kratochvíl 22. března 2017 MapReduce 3 MapReduce Paradigma/framework/programovací model pro distribuované paralelní výpočty Princip: MAP vstupní data ve formátu
Hadoop a HDFS. Bc. Milan Nikl
3.12.2013 Hadoop a HDFS Bc. Milan Nikl Co je Hadoop: Open-Source Framework Vyvíjený Apache Software Foundation Pro ukládání a zpracovávání velkých objemů dat Big Data trojrozměrný růst dat (3V) Objem (Volume)
Operátory ROLLUP a CUBE
Operátory ROLLUP a CUBE Dotazovací jazyky, 2009 Marek Polák Martin Chytil Osnova přednášky o Analýza dat o Agregační funkce o GROUP BY a jeho problémy o Speciální hodnotový typ ALL o Operátor CUBE o Operátor
BIG DATA je oveľa viac ako Hadoop. Martin Pavlík
BIG DATA je oveľa viac ako Hadoop Martin Pavlík Analýza všech dostupných dat? Big data =? = Buzzword? = Hadoop? Hadoop Jen ke zpracování nestrukturovaných dat? Mentální posun něco za něco 2 Big data =
B0M33BDT Stream processing. Milan Kratochvíl
B0M33BDT Stream processing Milan Kratochvíl 13. prosinec 2017 Stream processing Průběžné zpracování trvalého toku zpráv Vstupní stream Message processor Stream processor Úložiště Stream processing Hlavní
Matematika v programovacích
Matematika v programovacích jazycích Pavla Kabelíková am.vsb.cz/kabelikova pavla.kabelikova@vsb.cz Úvodní diskuze Otázky: Jaké programovací jazyky znáte? S jakými programovacími jazyky jste již pracovali?
Maturitní otázky z předmětu PROGRAMOVÁNÍ
Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu PROGRAMOVÁNÍ 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu ověřování správnosti
NSS - Cache 5. LECTURE MARTIN TOMASEK
NSS - Cache 5. LECTURE MARTIN TOMASEK Cache mechanismus 1. Lze využít k: 1. Optimalizaci výkonu systému 2. Snížení náročností jednotlivých operací 3. Snížení náročností na jednotlivé vrstvy 4. Mitigaci
Struktura pamětí a procesů v DB Oracle. Radek Strnad
Struktura pamětí a procesů v DB Oracle Radek Strnad radek.strnad@gmail.com 1 Základní rozdělení paměti Software codes area Chráněná část spustitelného kódu samotné DB. System global area (SGA) Sdílená
Da D to t v o é v ty t py IB111: Datové typy
Datové typy IB111: Datové typy Data a algoritmizace jaká data potřebuji pro vyřešení problému? jak budu data reprezentovat? jaké operaci s nimi potřebuji provádět? Navržení práce s daty je velice důležité
O Apache Derby detailněji. Hynek Mlnařík
O Apache Derby detailněji Hynek Mlnařík Agenda Historie Vlastnosti Architektura Budoucnost Historie 1997 Cloudscape Inc. - JBMS 1999 Informix Software, Inc. odkoupila Cloudscape, Inc. 2001 IBM odkoupila
MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr
MetaCentrum datové služby Miroslav Ruda, Zdeněk Šustr Agenda Národní gridová infrastruktura přehled služeb MetaCentra aktuální stav výpočetní grid cloudové prostředí MapReduce výpočty Národní gridová infrastruktura
Databázové systémy Cvičení 5.2
Databázové systémy Cvičení 5.2 SQL jako jazyk pro definici dat Detaily zápisu integritních omezení tabulek Integritní omezení tabulek kromě integritních omezení sloupců lze zadat integritní omezení jako
Základní přehled SQL příkazů
Základní přehled SQL příkazů SELECT Základní použití Příkaz SELECT slouží k získání dat z tabulky nebo pohledu v požadované podobě. Získání všech řádků a sloupců z tabulky SELECT * FROM Person.Contact
KIV/ZIS cvičení 5. Tomáš Potužák
KIV/ZIS cvičení 5 Tomáš Potužák Úvod do SQL (1) SQL (Structured Query Language) je standardizovaný strukturovaný dotazovací jazyk pro práci s databází Veškeré operace v databázi se dají provádět pomocí
Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19
Předmluva 13 O autorovi 15 Poděkování 16 O odborných korektorech 17 Úvod 19 Co kniha popisuje 19 Co budete potřebovat 20 Komu je kniha určena 20 Styly 21 Zpětná vazba od čtenářů 22 Errata 22 KAPITOLA 1
On line analytical processing (OLAP) databáze v praxi
On line analytical processing (OLAP) databáze v praxi Lukáš Matějovský Lukas.Matejovsky@CleverDecision.com Jan Zajíc Jan.Zajic@CleverDecision.com Obsah Představení přednášejících Základy OLAP Příklady
Provoz Počet zaměstnanců Průměrná nemocnost hod/osoba/rok
PŘIJÍMACÍ TEST z informatiky a matematiky pro navazující magisterské studium Fakulta informatiky a managementu Univerzity Hradec Králové Registrační číslo Hodnocení část A Hodnocení část B Hodnocení A+B
Healtcheck. databáze ORCL běžící na serveru db.tomas-solar.com pro
Ukázka doporučení z health checku zaměřeného na PERFORMANCE. Neobsahuje veškeré podkladové materiály, proto i obsah píše špatné odkazy. Healtcheck databáze ORCL běžící na serveru db.tomas-solar.com pro
DATA CUBE. Mgr. Jiří Helmich
DATA CUBE Mgr. Jiří Helmich Analytické kroky formulace dotazu analýza extrakce dat vizualizace Motivace n-sloupcová tabulka v Excelu vs. sloupcový graf Dimensionality reduction n dimenzí data obecně uspořádána
Paralelní architektury se sdílenou pamětí typu NUMA. NUMA architektury
Paralelní architektury se sdílenou pamětí typu NUMA NUMA architektury Multiprocesorové systémy s distribuovanou pamětí I. úzkým hrdlem multiprocesorů se sdílenou pamětí je datová komunikace s rostoucím
Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz
Databázové systémy Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Vývoj databázových systémů Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace 60.-70. léta Program Komunikace Výpočty
Bi-Direction Replication
Bi-Direction Replication P2D2 2015 Petr Jelínek, 2ndQuadrant (petr@2ndquadrant.com) BDR Bi-Directional Replication Je možné zapisovat na všech serverech Asynchronní Nízká latence (zápisu) Tolerance ke
B0M33BDT Technologie pro velká data. Storage
B0M33BDT Technologie pro velká data Storage Milan Kratochvíl 24.10.2018 Motivace Jak efektivně ukládat data v Hadoop ekosystému? formát ukládání dat a jejich komprese možnost paralelně zpracovávat na mnoha
SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ
SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ TITAN / HOPPER / NOTEBOOK TITAN HOPPER NOTEBOOK Počet CPU jader 299 008 153 216 2 Operační paměť [GB] 598 016 217 000 8 Počet GPU (CUDA) jader 50 233 344 0 8
Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)
Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod
Paralelní výpočty ve finančnictví
Paralelní výpočty ve finančnictví Jan Houška HUMUSOFT s.r.o. houska@humusoft.cz Výpočetně náročné úlohy distribuované úlohy mnoho relativně nezávislých úloh snížení zatížení klientské pracovní stanice
GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím
GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER váš partner na cestě od dat k informacím globtech spol. s r.o. karlovo náměstí 17 c, praha 2 tel.: +420 221 986 390 info@globtech.cz
RELAČNÍ DATABÁZOVÉ SYSTÉMY
RELAČNÍ DATABÁZOVÉ SYSTÉMY VÝPIS KONTROLNÍCH OTÁZEK S ODPOVĚDMI: Základní pojmy databázové technologie: 1. Uveďte základní aspekty pro vymezení jednotlivých přístupů ke zpracování hromadných dat: Pro vymezení
IW3 MS SQL SERVER 2014
Instalace a konfigurace IW3 MS SQL SERVER 2014 Ing. Peter Solár, MCITP EA solar@pocitacoveskoleni.cz 1 OSNOVA 1. příprava instalace SQL serveru 2. instalace SQL serveru 3. základní konfigurace SQL serveru
Činnost počítače po zapnutí
Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 Činnost počítače po zapnutí Paměť RWM(Read Write Memory - paměť pro čtení a zápis, označovaná také jako RAM)
UAI/612 - Cloudová Řešení. Technologie
UAI/612 - Cloudová Řešení Technologie Rekapitulace Multitenance Bezestavovost Škálovatelnost Cachování Bezpečnost Způsoby nasazení Datová úložiště SQL databáze NoSQL databáze Cloudová datová úložiště (API)
Databázové systémy. - SQL * definice dat * aktualizace * pohledy. Tomáš Skopal
Databázové systémy - SQL * definice dat * aktualizace * pohledy Tomáš Skopal Osnova přednášky definice dat definice (schémat) tabulek a integritních omezení CREATE TABLE změna definice schématu ALTER TABLE
Aktuální stav MetaCentra, novinky
Aktuální stav MetaCentra, novinky Jan Kmuníček CESNET 1 Obsah Začlenění do evropského kontextu Aktuální projekty MetaCentra Užší spolupráce s uživateli 2 Evropský kontext Superpočítačová centra simulace
Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009
Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován.
Instalace Produkt se neinstaluje. Stačí soubor uložit na libovolné místo na Vašem počítací (klikněte pravým tlačítkem a dejte 'uložit cíl jako ), pak jen spustit. Požadavky na software Produkt je odzkoušen
Experimentální systém pro WEB IR
Experimentální systém pro WEB IR Jiří Vraný Školitel: Doc. RNDr. Pavel Satrapa PhD. Problematika disertační práce velmi stručný úvod WEB IR information retrieval from WWW, vyhledávání na webu Vzhledem
Paralelní dotazy v PostgreSQL 9.6 (a 10.0)
Paralelní dotazy v PostgreSQL 9.6 (a 10.0) Tomáš Vondra tomas.vondra@2ndquadrant.com Prague PostgreSQL Developer Day 16. února, 2017 Agenda spojení vs. procesy v PostgreSQL využití zdrojů výhody, nevýhody,
Fyzické uložení dat a indexy
Fyzické uložení dat a indexy Michal Valenta Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze c Michal Valenta, 2016 BI-DBS, LS 2015/16 https://edux.fit.cvut.cz/courses/bi-dbs/
OPS Paralelní systémy, seznam pojmů, klasifikace
Moorův zákon (polovina 60. let) : Výpočetní výkon a počet tranzistorů na jeden CPU chip integrovaného obvodu mikroprocesoru se každý jeden až dva roky zdvojnásobí; cena se zmenší na polovinu. Paralelismus
DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 61 DATABÁZE - ACCESS. (příprava k vykonání testu ECDL Modul 5 Databáze a systémy pro zpracování dat)
DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 61 DATABÁZE - ACCESS (příprava k vykonání testu ECDL Modul 5 Databáze a systémy pro zpracování dat) DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 62 Databáze a systémy pro uchování
Optimalizace plnění a aktualizace velkých tabulek. Milan Rafaj, IBM
Optimalizace plnění a aktualizace velkých tabulek Milan Rafaj, IBM Agenda OLTP vs DSS zpracování Optimalizace INSERT operací Optimalizace DELETE operací Optimalizace UPDATE operací Zdroje Dotazy OLTP vs
Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MySQL základní pojmy, motivace Ing. Kotásek Jaroslav
Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1 Šablona: Název: Téma: Autor: Číslo: Anotace: Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MySQL základní
Analýza a modelování dat. Přednáška 8
Analýza a modelování dat Přednáška 8 OLAP, datová kostka, dotazování nad kostkou Motivace většina DB relační zaznamenání vztahů pomocí logicky provázaných tabulek jakou mají velmi často vztahy povahu vztah
Datablades včera, dnes a zítra
Datablades včera, dnes a zítra 11. seminářcidug Petr Pomykáček d-prog s.r.o. 18.3.2010 DataBlades - Včera (1) Informix Universal Server 9.10 (Falcon) Duben 1997 (acquisition illustra server ) Uživatelsky
Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
ÚVOD DO DATABÁZÍ. Metodické listy pro předmět
Metodické listy pro předmět ÚVOD DO DATABÁZÍ Cíl: Cílem tohoto předmětu je získat základní znalosti v oblasti databází, naučit se dotazovací jazyk SQL a naučit se zásady dobrého navrhování databází. Převážná
MBI - technologická realizace modelu
MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,
Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD
Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD 1. Příprava k instalaci SQL Serveru 2. Instalace SQL Serveru 3. Základní konfigurace SQL Serveru Vychází ze Sybase SQL Server Verze Rok Název Codename 7.0 1998
Příprava dat v softwaru Statistica
Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,
Služby, Registr Služby, Registr Procesy, BCD Pro, Událo cesy, BCD sti, Událo
Služby, Registry, Procesy, BCD, Události Richard Biječek Služba (angl. service) je program běžící na pozadí Typicky není interaktivní Může být spuštěna OS při bootování, nezávisle na přihlášení uživatele
Databáze SQL SELECT. David Hoksza http://siret.cz/hoksza
Databáze SQL SELECT David Hoksza http://siret.cz/hoksza Osnova Úvod do SQL Základní dotazování v SQL Cvičení základní dotazování v SQL Structured Query Language (SQL) SQL napodobuje jednoduché anglické
Architektura rodiny operačních systémů Windows NT Mgr. Josef Horálek
Architektura rodiny operačních systémů Windows NT Mgr. Josef Horálek = Velmi malé jádro = implementuje jen vybrané základní mechanismy: = virtuální paměť; = plánování vláken; = obsluha výjimek; = zasílání
Monitoring SQL Server, Resource Governor, Tracing SQL Server
Monitoring SQL Server, Resource Governor, Tracing SQL Server 1. Monitoring Monitoring cíl Zrychlení odezvy. Hledání úzkého hrdla. Identifikace často prováděných dotazů. Úprava dotazu, změna indexu, Sledování
9 - Map/filter/reduce OMO. Ing. David Kadleček, PhD
9 - Map/filter/reduce OMO Ing. David Kadleček, PhD kadlecd@fel.cvut.cz, david.kadlecek@cz.ibm.com 1 Map/filter/reduce v Java Map/filter/reduce v Java = Java 1.8 streams API Funkcionální přístup (řetězíme
Databázové systémy. Cvičení 6: SQL
Databázové systémy Cvičení 6: SQL Co je SQL? SQL = Structured Query Language SQL je standardním (ANSI, ISO) textovým počítačovým jazykem SQL umožňuje jednoduchým způsobem přistupovat k datům v databázi
Technické informace. PA152,Implementace databázových systémů 4 / 25. Projekty. pary/pa152/ Pavel Rychlý
Technické informace PA152 Implementace databázových systémů Pavel Rychlý pary@fi.muni.cz Laboratoř zpracování přirozeného jazyka http://www.fi.muni.cz/nlp/ http://www.fi.muni.cz/ pary/pa152/ přednáška
Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu
StatSoft Typy souborů ve STATISTICA Tento článek poslouží jako přehled hlavních typů souborů v programu STATISTICA, ukáže Vám jejich možnosti a tím Vám dovolí využívat program efektivněji. Jistě jste již
Virtualizace. Lukáš Krahulec, KRA556
Virtualizace Lukáš Krahulec, KRA556 Co je vitualizace Způsob jak přistupovat ke zdrojům systému jako k univerzálnímu výkonu a nezajímat se o železo Způsob jak využít silný HW a rozložit ho mezi uživatele,
Úvod do databázových systémů
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Úvod do databázových systémů Cvičení 3 Ing. Petr Lukáš petr.lukas@vsb.cz Ostrava, 2014 Opakování 4 fáze vytváření
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů Otázka č. 1 Datový model 1. Správně navržený ERD model dle zadání max. 40 bodů teoretické znalosti konceptuálního modelování správné
VISUAL BASIC. Práce se soubory
VISUAL BASIC Práce se soubory Práce se soubory 1/2 2 Vstupní data pro programy bývají uloženy do souborů Vstupy pro výpočet, nastavení vzhledu aplikace Výsledky práce programu je potřeba uchovat uložit
DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB
DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB VYSOKÁ ŠKOLA BÁŇSKÁ - TECHNICKÁ UNIVERZITA OSTRAVA Hornicko-geologická fakulta Institut geoinformatiky Ostrava 2014 Autorka: Bc. Radka
MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ
MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ 1) PROGRAM, ZDROJOVÝ KÓD, PŘEKLAD PROGRAMU 3 2) HISTORIE TVORBY PROGRAMŮ 3 3) SYNTAXE A SÉMANTIKA 3 4) SPECIFIKACE
Algoritmus pro hledání nejkratší cesty orientovaným grafem
1.1 Úvod Algoritmus pro hledání nejkratší cesty orientovaným grafem Naprogramoval jsem v Matlabu funkci, která dokáže určit nejkratší cestu v orientovaném grafu mezi libovolnými dvěma vrcholy. Nastudoval
Souborové systémy a práce s daty David Antoš
Souborové systémy a práce s daty David Antoš antos@ics.muni.cz Úvod obecný úvod do síťových souborových systémů souborové systémy v MetaCentru jejich použití práce s nimi praktické poznámky kvóty efektivní
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů Otázka č. 1 Datový model 1. Správně navržený ERD model dle zadání max. 40 bodů teoretické znalosti konceptuálního modelování správné
Paměti EEPROM (1) Paměti EEPROM (2) Paměti Flash (1) Paměti EEPROM (3) Paměti Flash (2) Paměti Flash (3)
Paměti EEPROM (1) EEPROM Electrically EPROM Mají podobné chování jako paměti EPROM, tj. jedná se o statické, energeticky nezávislé paměti, které je možné naprogramovat a později z nich informace vymazat
Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské
FORTANNS. havlicekv@fzp.czu.cz 22. února 2010
FORTANNS manuál Vojtěch Havlíček havlicekv@fzp.czu.cz 22. února 2010 1 Úvod Program FORTANNS je software určený k modelování časových řad. Kód programu má 1800 řádek a je napsán v programovacím jazyku
Analýza a modelování dat. Přednáška 9
Analýza a modelování dat Přednáška 9 Další dotazování nad kostkou Rozšíření SQL99 rozšíření SQL99 (minulá přednáška): seskupovací operátory za GROUP BY CUBE statistiky dle řezů ROLLUP statistiky dle rolování
SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek
SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek NÁSLEDUJÍCÍCH 25 MINUT Proč je letošní prezentace modro-zelená Vyhledávání a Big data Search architektura s využitím Big data Co to může přinést
Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012
Přednáška Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Příprava studijního programu Informatika je podporována projektem financovaným z Evropského
Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit
Jednoduché stránkování Operační systémy Přednáška 8: Správa paměti II Hlavní paměť rozdělená na malé úseky stejné velikosti (např. 4kB) nazývané rámce (frames). Program rozdělen na malé úseky stejné velikosti
Programovací jazyky. imperativní (procedurální) neimperativní (neprocedurální) assembler (jazyk symbolických instrukcí)
Programovací jazyky Programovací jazyky nižší assembler (jazyk symbolických instrukcí) vyšší imperativní (procedurální) Pascal, C/C++, Java, Basic, Python, php neimperativní (neprocedurální) Lisp, Prolog
DATABÁZE MS ACCESS 2010
DATABÁZE MS ACCESS 2010 KAPITOLA 5 PRAKTICKÁ ČÁST TABULKY POPIS PROSTŘEDÍ Spuštění MS Access nadefinovat název databáze a cestu k uložení databáze POPIS PROSTŘEDÍ Nahoře záložky: Soubor (k uložení souboru,
11. Přehled prog. jazyků
Jiří Vokřínek, 2016 B6B36ZAL - Přednáška 11 1 Základy algoritmizace 11. Přehled prog. jazyků doc. Ing. Jiří Vokřínek, Ph.D. Katedra počítačů Fakulta elektrotechnická České vysoké učení technické v Praze
Business Intelligence
Business Intelligence Josef Mlnařík ISSS Hradec Králové 7.4.2008 Obsah Co je Oracle Business Intelligence? Definice, Od dat k informacím, Nástroj pro operativní řízení, Integrace informací, Jednotná platforma
Ukládání a vyhledávání XML dat
XML teorie a praxe značkovacích jazyků (4IZ238) Jirka Kosek Poslední modifikace: $Date: 2014/12/04 19:41:24 $ Obsah Ukládání XML dokumentů... 3 Ukládání XML do souborů... 4 Nativní XML databáze... 5 Ukládání
Architektury databázových
Univerzita Pardubice Fakulta elektrotechniky a informatiky Semestrální práce na Architektury databázových systémů Matěj Trakal Poslední úprava: 8. listopadu 2010 INADS 2010 (Žák) OBSAH Obsah 1 Zadání 2
Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází
1 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Požadavky kreditového systému. Relační datový model, relace, atributy,
Databázové systémy. Datová integrita + základy relační algebry. 4.přednáška
Databázové systémy Datová integrita + základy relační algebry 4.přednáška Datová integrita Datová integrita = popisuje pravidla, pomocí nichž hotový db. systém zajistí, že skutečná fyzická data v něm uložená
Přednáška 1. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012
Přednáška 1 Úvod do HW a OS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012 Příprava studijního programu Informatika je podporována projektem financovaným z Evropského
PŘIJÍMACÍ TEST z informatiky a matematiky pro navazující magisterské studium Fakulta informatiky a managementu Univerzity Hradec Králové
PŘIJÍMACÍ TEST z informatiky a matematiky pro navazující magisterské studium Fakulta informatiky a managementu Univerzity Hradec Králové Registrační číslo Hodnocení část A Hodnocení část B Hodnocení A+B
Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19
3 Obsah Novinky v tomto vydání 10 Význam základních principů 11 Výuka principů nezávisle na databázových produktech 12 Klíčové pojmy, kontrolní otázky, cvičení, případové studie a projekty 12 Software,
Inovace a zkvalitnění výuky prostřednictvím ICT. Základní seznámení s MySQL Ing. Kotásek Jaroslav
Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1 Šablona: Název: Téma: Autor: Číslo: Anotace: Inovace a zkvalitnění výuky prostřednictvím ICT Databáze Základní seznámení s MySQL
Microsoft Access. Typy objektů databáze: Vytvoření a návrh nové tabulky. Vytvoření tabulky v návrhovém zobrazení
Microsoft Access Databáze je seskupení většího množství údajů, které mají určitou logiku a lze je určitým způsobem vyhodnocovat, zpracovávat a analyzovat Access je jedním z programů určených pro zpracování
Informační systémy 2008/2009. Radim Farana. Obsah. Dotazy přes více tabulek
5 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Jazyk SQL, Spojení tabulek, agregační dotazy, jednoduché a složené
Informační systémy ve zdravotnictví. 6. cvičení
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Informační systémy ve zdravotnictví 6. cvičení Ing. Petr Lukáš petr.lukas@nativa.cz Ostrava, 2014 Opakování Relace
Nové jazykové brány do Caché. Daniel Kutáč
Nové jazykové brány do Caché Daniel Kutáč O čem budeme mluvit.net T/SQL Perl Python MultiValue Basic Téma.NET provider .NET Provider Co lze již dnes Factory / VisM ODBC.NET Web Services Factory a VisM
Disková pole (RAID) 1
Disková pole (RAID) 1 Architektury RAID Důvod zavedení RAID: reakce na zvyšující se rychlost procesoru. Pozice diskové paměti v klasickém personálním počítači vyhovuje pro aplikace s jedním uživatelem.
Martin Lísal. Úvod do MPI
Martin Lísal září 2003 PARALELNÍ POČÍTÁNÍ Úvod do MPI 1 1 Co je to paralelní počítání? Paralelní počítání je počítání na paralelních počítačích či jinak řečeno využití více než jednoho procesoru při výpočtu
Programování v jazyku C# II. 5.kapitola
Programování v jazyku C# II. 5.kapitola Obsah O ADO.NET Spojení s DB Příkazy Jednoduché čtení DataSet 2/28 ADO.NET ADO - ActiveX Data Object Orientováno na webové aplikace neexistence stavu v HTTP Obecný