B0M33BDT. Technologie pro velká data. Petr Paščenko 2020
|
|
- Barbora Kolářová
- před 4 lety
- Počet zobrazení:
Transkript
1 B0M33BDT Technologie pro velká data Petr Paščenko 2020
2 Co?
3 Cíle předmětu Představit technologie pro zpracování velkých dat Architektonický pohled systém jako celek a jeho součásti Uživatelský pohled jednotlivé technologie a jak je správně používat Programátorský pohled jak vyvíjet aplikace v prostředí velkých dat Byznysový pohled Data Science jako motivace pro rozvoj Big Dat Ukázat skutečný život na skutečných projektech 3
4 Jak?
5 Přednášky Úvod, přehled, organizace, motivace Co jsou Big Data a kde se tady vzala vztah Big Data a Data Science aplikace Big Data technologií v průmyslu organizace, za co zápočet, představení zápočtových úloh Architektura clusteru Hadoop, distribuce Cloudera, správa zdrojů YARN, atd. Storage HDFS, formáty ukládání a komprese dat, HIVE, Impala Map-reduce softwarové paradigma a implementace algoritmů, vztah k sql Apache Spark Distribuované výpočty v RAM a zpracování streamovaných dat (Kafka) Big Data Science a Big Datové Architektury page rank, kolaborativní filtrování, SNA typické architektury Big Data řešení 5
6 Cvičení První kroky na clusteru Připojení, certifikáty, tunely, aplikace pro správu, hdfs Opakování potřebných dovedností Linux, shell utility, textové zpracování, SQL Hive Tabulky, int./ext., vytváření, správa, dotazy, partitions Spark scala/java/python Seznámení se Sparkem, konzole, notebook a batch vývoj Dva přístupy: data frame a map-reduce Spark větší úloha, příprava na test Zpracování jedné až dvou úloh v rozsahu odpovídajícím zápočtové úloze 6
7 Komplikovaný rozvrh Cíl: méně teorie, více cvičení Dotace předmětu 2/1 posuneme směrem k 1,5/1,5 Lichý týden přednáška středa: 9:15-10:45 KN:E-127 Sudý týden varianta A přednáška středa: 9:15-10:45 KN:E-127 cvičení: 2 paralelky 11:00-12:30 a 12:45-14:15 KN:E-307 Sudý týden varianta B super cvičení 2 paralelky: 9:15-11:30 a 12:00-14:15 KN:E-307 7
8 Za co bude zápočet a zkouška Dvě možnosti pro zápočet můžete si vybrat 1. Vypracování zápočtové úlohy zpracování samostatné analýzy velkého datového souboru zodpovězení předepsaných a vlastních analytických otázek výkonnostní měření v závislosti na velikosti vstupu dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran) odevzdání dokumentovaných zdrojových kódů github klasifikační kritéria: Analytické výstupy 40% Programátorské postupy a kvalita kódu 30% Analytická zpráva a kvalita textu 30% 2. Splnění zápočtového testu během semestru proběhne 1-2 testy z teorie hodnocené 10 body závěrečný praktický test bude hodnocen 30 body pro absolvování je třeba dosáhnout 50% bodů Ústní zkouška známka bude udělena podle klasifikačního řádu fakulty za součet bodů ze zápočtu a samotné ústní zkoušky 8
9 Kdo?
10 Petr Paščenko Zaměření Data Science a Machine Learning Big Data Byznys Aplikace Praxe V Profinitu 7 let, konzultant, R&D Data Science vývoj vztahových a podobnostních modelů nad velkými daty Grantový výzkum zaměřený na IT bezpečnost Webmining, SNA, text-mining, grafová analytika, zabezpečení online kanálů Big Data aplikace a školení Vývoj Java, Python, R ČEZ, 2 roky Analytik trhů Eccam, 2 roky Vývoj c
11 Marek Sušický Zaměření Databáze Oracle, PostgreSQL, grafové db apod. Security, fraud, sítě Big data Praxe V Profinitu 10 let Práce pro banky, letiště, telekomunikační operátory Praxe v mezinárodním prostředí 11
12 Stamenov Sergii Zaměření Data Science, Machine learning, Big Data Vyvoj Python a.net Praxe V Profinitu 5 let Data science a Big Data projekty pro banky a telco operátory Školení ML a DS a technologická témata
13 Jan Hučín Zaměření Data Science a Machine Learning Big Data Byznys Aplikace Praxe V Profinitu 5 let, konzultant Data Science klasifikační modely, survival analysis, časové řady Big Data popularizace a školení Scio Psychometrika, datová analytika Institut informatiky Výuka matematiky a statistiky
14 Big Data?
15 Co jsou Big Data? Je to složité. 15
16 Co jsou Big Data? Technologie velkých dat jsou prodloužením několika trendů Data Od malých dat k velkým od jednoduchých ke složitým Databáze Od souborů přes relační paradigma k distribuovaným clusterům Programování Od procedurálního programování k funcionálním frameworkům Data Science Od výběrových statistik k detailní kontextové analýze Postupně si je projdeme 16
17 Data?
18 A Very Short History Of (Big) Data Gil Press pro forbes 1944: Fremont Rider, Wesleyan University Librarian American university libraries were doubling in size every sixteen years. Yale Library in 2040 will have approximately 200,000,000 volumes, which will occupy over 6,000 miles of shelves 1961: Derek Price, Science Since Babylon the number of new journals has grown exponentially rather than linearly, doubling every fifteen years and increasing by a factor of ten during every halfcentury. Each scientific advance generates a new series of advances at a reasonably constant birth rate, so that the number of births is strictly proportional to the size of the population of discoveries at any given time. 1975: The Ministry of Posts and Telecommunications in Japan information supply is increasing much faster than information consumption the demand for information provided by mass media, which are one-way communication, has become stagnant, and the demand for information provided by personal telecommunications media, which are characterized by two-way communications, has drastically increased. 18
19 A Very Short History Of Big Data Gil Press pro forbes 1980: I.A. Tjomsland, Fourth IEEE Symposium on Mass Storage Systems Parkinson s 1st Law paraphrased: Data expands to fill the space available. The penalties for storing obsolete data are less apparent than are the penalties for discarding potentially useful data. 1986: Hal B. Becker, Can users really absorb data at today s rates? The recoding density achieved by Gutenberg was approximately 500 symbols per cubic inch 500 times the density of [4,000 B.C. Sumerian] clay tablets. By the year 2000, semiconductor random access memory should be storing 1.25x10 11 bytes per cubic inch. po pravdě o řád přestřelené v roce : B.J. Truskowski, The Evolution of Storage Systems Digital storage becomes more cost-effective for storing data than paper Michael Cox and David Ellsworth Data sets are generally quite large, taxing the capacities of main memory, local disk, and even remote disk. We call this the problem of big data. When data sets do not fit in main memory (in core), or when they do not fit even on local disk, the most common solution is to acquire more resources. 19
20 A Very Short History Of Big Data Gil Press pro forbes 1997 Michael Lesk, How much information is there in the world? In only a few years, (a) we will be able [to] save everything no information will have to be thrown out, and (b) the typical piece of information will never be looked at by a human being. 1998: K.G. Coffman and Andrew Odlyzko the growth rate of traffic on the public Internet, while lower than is often cited, is still about 100% per year, much higher than for traffic on other networks. 2000: Big Data Era the world produced about 1.5 exabytes of unique information, or about 250 megabytes for every man, woman, and child on earth. It also finds that a vast amount of unique information is created and stored by individuals (what it calls the democratization of data ) and that not only is digital information production the largest in total, it is also the most rapidly growing. 20
21 A Very Short History Of Big Data Shrnutí Množství dat exponenciálně roste, stejně jako přenosová kapacita Nabídka dat roste rychleji než poptávka V komunikaci převládá obousměrnost a aktivní role uživatelů Je levnější data skladovat než je třídit a vyhazovat Opačná perspektiva: roste úložná kapacita a data ji jen celou zaplňují poprvé můžeme uložit (skoro) všechny informace. Datové soubory překračují hranici jednoho zařízení / média Průměrná informace není nikdy přečtena člověkem 21
22 Big Data Definice 3V 22
23 Databáze?
24 Prehistorie pojmu Databáze Původně datová základna, slovník faktů 40. léta Ad hoc proudy dat Děrné štítky a pásky 50. léta File System Soubory a složky s hierarchickou strukturou a unikátní cestou Nezávislost na použitém médiu (páska, disk, ) 60. léta DBMS Tabulky a Indexování: hashování, B-stromy. Klient-server architektura 70. léta R-DBMS Relační paradigma: normální formy, relační algebra, selekce, projekce atd. 24
25 Historie pojmu Databáze 80. léta SQL Jednotný dotazovací jazyk, rozvoj proprietálních databází 90. léta Datové sklady Datová Integrace, jedna pravda, analytický reporting. 0. léta NoSQL Webové programování, rozvolňování normáních forem, grafové databáze, cloud částečný návrat ke vzdáleným architekturám 10. léta Big Data 25
26 RDMS vs Big Data Relační DB Hadoop Velikost GB, TB TB, EB, PB Přístup interaktivní i batch jen batch Dotazy SQL a program. nástavby Map-Reduce a SQL emulace Úpravy opakované čtení i zápis zápis jednou, čtení opakovaně Struktura statické databázové schéma dynamické schéma volba při načtení Integrita ACID není, konzistence pomocí redundance Výkon limitovaný shora optimalizace na straně DB lineární škálování optimalizace přidáváním výkonu Latence minimální (ms) značná (desítky sekund i více) HW špičkově vyladěné stroje běžný hardware Licence komerční, velmi drahé open source + podpora Paralelizace limitovaná a extrémě drahá cena per jádro základní kámen architektury 26
27 Programování?
28 Programování stručná historie aneb stále větší abstrakce Procedurální Imperativní programování Programátor tvoří program tím, že přímo specifikuje posloupnost příkazů Nestrukturované paradigma (cca do 60.let) Asemblerové instrukce a podmíněné skoky goto era Strukturované paradigma (cca léta) Ústřední prvek programu jsou funkce sdružené do knihoven Objektové paradigma (cca 90. léta) Propojení funkcí a dat do objektů, dědičnost a polymorfismus Virtualizace (cca 0. léta) Oddělení programátora od specifického OS a HW Nosná myšlenka Zvyšování úrovně abstrakce (kompilátor, linker, vm) Odstraňování komplexity ležící dole knihovny obsatrají nízkoúrovňové úlohy Problém: komplexita neleží jen dole, ale i nahoře. 28
29 Paralelní framework Problém paralelního programu komplexita přichází svrchu Je potřeba formulovat algoritmus rovnou jako paralelní a to je velmi těžké Ještě těžší je program udržovat, debugovat, optimalizovat a ladit Rozvoj frameworků (současnost) Framework je programová konstrukce popisující hrubou strukturu algoritmu Například quick-sort s uživatelským komparátorem, struktura rozděl a panuj, Programátor tvoří program tím, že vkládá vlastní kód na předem připravená místa obvykle se využívá dědičnosti, šablonování, lambda funkcí atd. Odstínění programátora od komplexity problému, zejména paralelizace Událostmi řízené programování, webové frameworky (apache tomcat), Tensorflow pro neuronové sítě, Map-Reduce paradigma atd. Paralelní knihovny (MPI, BSP, OpenMP ) Univerzální frameworky mají plnou sílu, ale neřeší komplexitu algoritmu Map-Reduce paradigma Limitovaný rozsah funkcionality na zpracování dat výměnou za jednoduchou funkcionální strukturu 29
30 Map-Reduce Schéma algoritmu dáno Doplňujeme implementaci metod Map sestaví páry <key,val> Combine* lze sloučit páry se stejným klíčem pro omezení síť. přenosu Shuffle and Sort Předun dat mezi uzly Reduce Agregace výsledků Funkce mohou být obecně komplexní Algoritmus = zřetězení Map a Reduce fází 30
31 Data Science?
32 Google Google není vyhledávač Google je řadič 1G stránek (webů) s řádově 10x více odkazy Fulltextové vyhledávání Roboti procházejí web a indexují obsah inženýrská úloha Uživatel zadá dotaz (slovo, frázi) a výsledkem je seznam stránek V jakém pořadí zobrazit výsledky vyhledávání Většinou je hledaný výraz hned ten první nebo na první stránce Jak je to možné? Google Pagerank Iterativní metoda pro ohodnocení stránek Stránky jsou uzly, odkazy jsou hrany Markovovské řetězce s okrajovými podmínkami Násobení řídkých matic o hraně 1G Implementace ve sparku ;-) 32
33 Amazon, Netflix, YouTube Doporučování obsahu Viděl jste těchto deset filmů, podívejte se na jedenáctý Kdo si koupil Babičku, ten si koupí Broučky Dva přístupy Podobnost zboží Podobnost zákazníků Kolaborativní filtrování Singular Value Decomposition Alternating Least Squares (Spark) A matice klient x produkt U matice klient x faktor L matice faktorů V matice faktor x produkt Opětovné vynásobení Doporučení chybějících 33
34 Big Data Science Google Google není vyhledávač, Google je řadič 1G stránek s řádově více odkazy V jakém pořadí zobrazit výsledky vyhledávání Big Data Algoritmus PageRank Hledání vlastních vektorů velké matice Amazon, Netflix, YouTube Kdo si koupil Babičku, ten si koupí Broučky Big Data Algoritmus Kolaborativní filtrování Singular Value Decomposition Facebook Komu zobrazit jaký obsah Kombinace SNA přátelé Kolaborativní filtrování like A co banky? 34
35 Co děláme my?
36 Analýza Finančních Transakcí pomocí BD Vytváříme vyladěné modely pro retailové banky Vstup finanční transakce Výstup využitelné informace o klientovi, příznaky, události, Cílem je obohatit stávající obchodní proces o novou znalost Převod mezi lidmi Platba kartou Příjem Výběr z bankomatu Ostatní platby Nákup na internetu Platby za služby 36
37 Detekce sociálních sítí rodiny a přátel Vstup Klientské transakce banka (c2c, karetní operace, ) Informace ze sítě telco (cdr, lokace, billing) Základní demografie (věk, pohlaví, adresa, příjmení, ) Výstup Identifikace členů domácnosti, rodinných vztahů a přátel Obchodní využití Rodinný marketing, robustní rizikové skóre, Principy Detekce transakčních vzorců, analýza interakcí, text mining 37
38 Telco Big Data SimBox Fraud Scénář Zahraniční operátor/subjekt obchází standardní mezistátní hovor přes internet s cílem ušetřit na mezinárodním propojovacím poplatku Vstup Telco, síťová data (cdr, location, billing) Výstup Identifikované podezřelé sim karty Principy Detekce specifických typů neobvyklého chování Rozpoznání skupin s podobným chováním Automatická detekce pomocí roamingových dat 38
39 Dotazy 39
A4M33BDT. Technologie pro velká data
A4M33BDT Technologie pro velká data Petr Paščenko 20. 02. 2017 Co? Cíle předmětu Představit technologie pro zpracování velkých dat Architektonický pohled systém jako celek a jeho součásti Uživatelský pohled
Hadoop a HDFS. Bc. Milan Nikl
3.12.2013 Hadoop a HDFS Bc. Milan Nikl Co je Hadoop: Open-Source Framework Vyvíjený Apache Software Foundation Pro ukládání a zpracovávání velkých objemů dat Big Data trojrozměrný růst dat (3V) Objem (Volume)
SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek
SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek NÁSLEDUJÍCÍCH 25 MINUT Proč je letošní prezentace modro-zelená Vyhledávání a Big data Search architektura s využitím Big data Co to může přinést
B0M33BDT 7. přednáška Architektury a bezpečnost. Marek Sušický Milan Kratochvíl
B0M33BDT 7. přednáška Architektury a bezpečnost Marek Sušický Milan Kratochvíl 5. prosinec 2018 Osnova Něco ze života Architektury Hadoop Lambda Kappa Zetta Security a dopady do architektury 2 Jak vypadá
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Projekt MŠMT ČR Číslo projektu Název projektu školy Klíčová aktivita III/2 EU PENÍZE ŠKOLÁM CZ.1.07/1.4.00/21.2146
Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.
Czech Republic EDUCAnet Střední odborná škola Pardubice, s.r.o. ACCESS TO MODERN TECHNOLOGIES Do modern technologies influence our behavior? Of course in positive and negative way as well Modern technologies
MBI - technologická realizace modelu
MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,
Databáze II. 1. přednáška. Helena Palovská palovska@vse.cz
Databáze II 1. přednáška Helena Palovská palovska@vse.cz Program přednášky Úvod Třívrstvá architektura a O-R mapování Zabezpečení dat Role a přístupová práva Úvod Co je databáze Mnoho dat Organizovaných
BigData. Marek Sušický
BigData Marek Sušický 28. Únoru 2017 Osnova Big data a Hadoop Na jakém hardware + sizing Jak vypadá cluster - architektura HDFS Distribuce Komponenty YARN, správa zdrojů 2 Big data neznamená Hadoop 3 Apache
Databázové systémy úvod
Databázové systémy úvod Michal Valenta Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze c Michal Valenta, 2016 BI-DBS, LS 2015/16 https://edux.fit.cvut.cz/courses/bi-dbs/
Databázové systémy BIK-DBS
Databázové systémy BIK-DBS Ing. Ivan Halaška katedra softwarového inženýrství ČVUT FIT Thákurova 9, m.č. T9:311 ivan.halaska@fit.cvut.cz Stránka předmětu: https://edux.fit.cvut.cz/courses/bi-dbs/parttime/start
Big Data Science Petr Paščenko
Big Data Science Petr Paščenko 18. 4. 2017 Osnova 1. Co je Data Science 2. Statistika 3. Strojové učení 4. Vizualizace dat 5. Data Science úlohy 6. Metodika Data Science Projektu 7. Role Big Dat v Data
Maturitní témata Školní rok: 2015/2016
Maturitní témata Školní rok: 2015/2016 Ředitel školy: Předmětová komise: Předseda předmětové komise: Předmět: PhDr. Karel Goš Informatika a výpočetní technika Mgr. Ivan Studnička Informatika a výpočetní
Databázové systémy úvod
Databázové systémy úvod Michal Valenta Katedra softwarového inženýrství FIT České vysoké učení technické v Praze c Michal Valenta, 2012 BI-DBS, ZS 2012/13 https://edux.fit.cvut.cz/courses/bi-dbs/ Michal
Databázové systémy úvod
Databázové systémy úvod Michal Valenta Katedra softwarového inženýrství FIT České vysoké učení technické v Praze c Michal Valenta, 2011 BI-DBS, ZS 2011/12 https://edux.fit.cvut.cz/courses/bi-dbs/ Michal
BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012
BIG DATA Nové úlohy pro nástroje v oblasti BI 27. listopadu 2012 AGENDA 1. Úvod 2. Jaké jsou potřeby? 3. Možné řešení 2 Jaké jsou potřeby? Dopady Analýza dat potřeba nového přístupu Jak na nestrukturovaná
Datová věda (Data Science) akademický navazující magisterský program
Datová věda () akademický navazující magisterský program Reaguje na potřebu, kterou vyvolala rychle rostoucí produkce komplexních, obvykle rozsáhlých dat ve vědě, v průmyslu a obecně v hospodářských činnostech.
UAI/612 - Cloudová Řešení. Technologie
UAI/612 - Cloudová Řešení Technologie Rekapitulace Multitenance Bezestavovost Škálovatelnost Cachování Bezpečnost Způsoby nasazení Datová úložiště SQL databáze NoSQL databáze Cloudová datová úložiště (API)
Databázové a informační systémy
Databázové a informační systémy doc. Ing. Miroslav Beneš, Ph.D. katedra informatiky FEI VŠB-TUO A-1007 / 597 324 213 http://www.cs.vsb.cz/benes Miroslav.Benes@vsb.cz Obsah Jak ukládat a efektivně zpracovávat
Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů
- 1.1 - Kapitola 1: Úvod Účel databázových systémů Pohled na data Modely dat Jazyk pro definici dat (Data Definition Language; DDL) Jazyk pro manipulaci s daty (Data Manipulation Language; DML) Správa
BIG DATA je oveľa viac ako Hadoop. Martin Pavlík
BIG DATA je oveľa viac ako Hadoop Martin Pavlík Analýza všech dostupných dat? Big data =? = Buzzword? = Hadoop? Hadoop Jen ke zpracování nestrukturovaných dat? Mentální posun něco za něco 2 Big data =
Matematika v programovacích
Matematika v programovacích jazycích Pavla Kabelíková am.vsb.cz/kabelikova pavla.kabelikova@vsb.cz Úvodní diskuze Otázky: Jaké programovací jazyky znáte? S jakými programovacími jazyky jste již pracovali?
Digitální učební materiál
Digitální učební materiál Projekt Šablona Tématická oblast DUM č. CZ.1.07/1.5.00/34.0415 Inovujeme, inovujeme III/2 Inovace a zkvalitnění výuky prostřednictvím ICT (DUM) Anglický jazyk pro obor podnikání
Úvod do databázových systémů. Ing. Jan Šudřich
Ing. Jan Šudřich jan.sudrich@mail.vsfs.cz 1. Cíl předmětu: Úvod do databázových systémů Poskytnutí informací o vývoji databázových systémů Seznámení s nejčastějšími databázovými systémy Vysvětlení používaných
Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje
jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových
Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz
Databázové systémy Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Vývoj databázových systémů Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace 60.-70. léta Program Komunikace Výpočty
GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA
GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA What is an FTP client and how to use it? FTP (File transport protocol) - A protocol used to transfer your printing data files to the MAFRAPRINT
PRODUKTY. Tovek Tools
jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.
Zaměření Webové inženýrství doc. Ing. Tomáš Vitvar, Ph.D. Katedra softwarového inženýrství Fakulta informačních technologií České vysovké učení technické v Praze Den otevřených dveří 20.2.2014 http://www.fit.cvut.cz
Business Intelligence
Business Intelligence Josef Mlnařík ISSS Hradec Králové 7.4.2008 Obsah Co je Oracle Business Intelligence? Definice, Od dat k informacím, Nástroj pro operativní řízení, Integrace informací, Jednotná platforma
Architektury Informačních systémů. Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/
Architektury Informačních systémů Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Nutné pojmy Co je to informační systém? Jaké oblasti zahrnuje? Jaká je vazba IS na podnikovou strategii?
Název projektu: Multimédia na Ukrajinské
Základní škola, Ostrava Poruba, Ukrajinská 1533, příspěvková organizace Operační program Vzdělávání pro konkurenceschopnost Název projektu: Multimédia na Ukrajinské číslo projektu: CZ1.07/1.4.00/21.3759
Využití informačních technologií v cestovním ruchu P1
Využití informačních technologií v cestovním ruchu P1 Pavel Petr Petr.USII@upce.cz 1 Obsah kurzu Princip vyhledávání Definování vyhledávacích požadavků Vyhledávací nástroje Zdroje informací Nástroje pro
Spark SQL, Spark Streaming. Jan Hučín
Spark SQL, Spark Streaming Jan Hučín 21. listopadu 2018 Osnova 1. Spark SQL 2. Další rozšíření Sparku Spark streaming GraphX Spark ML 2 Spark SQL Spark SQL a DataFrames (DataSets) Rozšíření k tradičnímu
Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně
Identifikační karta modulu v. 4 Kód modulu Typ modulu profilující Jazyk výuky čeština v jazyce výuky Management informačních systémů česky Management informačních systémů anglicky Information systems management
Experimentální systém pro WEB IR
Experimentální systém pro WEB IR Jiří Vraný Školitel: Doc. RNDr. Pavel Satrapa PhD. Problematika disertační práce velmi stručný úvod WEB IR information retrieval from WWW, vyhledávání na webu Vzhledem
Vzdělávací obsah vyučovacího předmětu
V.9.3. Vzdělávací obsah vyučovacího předmětu Vzdělávací oblast: Inormatika a informační a komunikační technologie Vyučovací předmět: Informatika Ročník: 1. ročník + kvinta chápe a používá základní termíny
Spark Jan Hučín 15. listopadu 2017
Spark Jan Hučín 15. listopadu 2017 Osnova 1. Co to je a k čemu slouží 2. Jak se to naučit 3. Jak se s tím pracuje 4. Jak to funguje Logický a technický pohled Transformace, akce, kešování Příklady Architektura
Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu
Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu Filip Trojan Applied Analytics Manager, Deloitte Advisory Listopad 2012 Obsah 1. Představení 2. Marketing versus analýza
Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales 2. 2. 2011
Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales 2. 2. 2011 Klíčovéatributy Enterprise Information Infrastructure Spolehlivost Obchodní data jsou stále kritičtější,
Databáze Bc. Veronika Tomsová
Databáze Bc. Veronika Tomsová Databázové schéma Mapování konceptuálního modelu do (relačního) databázového schématu. 2/21 Fyzické ik schéma databáze Určuje č jakým způsobem ů jsou data v databázi ukládána
Podíl zdrojů informací
Podíl zdrojů informací 80% nestrukturovaných (10 -) 20 % strukturovaných 80% vnitřní informační zdroje 20% vnější informační zdroje Současný stav Business Intelligence Procesy: dolování dat (Data Mining)
Převod prostorových dat katastru nemovitostí do formátu shapefile
GIS Ostrava 2009 25. - 28. 1. 2009, Ostrava Převod prostorových dat katastru nemovitostí do formátu shapefile Karel Janečka1, Petr Souček2 1Katedra matematiky, Fakulta aplikovaných věd, ZČU v Plzni, Univerzitní
Influencer marketing. Hype or an effective marketing tool?
Influencer marketing Hype or an effective marketing tool? Does anyone care about Influencer Marketing? Google search trends for Influencer Marketing Source: Google 2017 planned investment in Influencer
Analýza a modelování dat 3. přednáška. Helena Palovská
Analýza a modelování dat 3. přednáška Helena Palovská Historie databázových modelů Relační model dat Codd, E.F. (1970). "A Relational Model of Data for Large Shared Data Banks". Communications of the ACM
Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA
Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu
Použití databází na Webu
4IZ228 tvorba webových stránek a aplikací Jirka Kosek Poslední modifikace: $Date: 2010/11/18 11:33:52 $ Obsah Co nás čeká... 3 Architektura webových databázových aplikací... 4 K čemu se používají databázové
Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu
Správa dat v podniku MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Obsah o Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie Řízení dat na úrovni podniku Data
IB111 Úvod do programování skrze Python Přednáška 13
IB111 Úvod do programování skrze Python Přednáška 13 Programovací jazyky Nikola Beneš 14. prosinec 2016 IB111 přednáška 13: programovací jazyky 14. prosinec 2016 1 / 21 Osnova dnešní přednášky Programovací
Michal Krátký, Miroslav Beneš
Databázové a informační systémy Michal Krátký, Miroslav Beneš Katedra informatiky VŠB Technická univerzita Ostrava 5.12.2005 2005 Michal Krátký, Miroslav Beneš Databázové a informační systémy 1/24 Obsah
Úvod. Programovací paradigmata
.. Úvod. Programovací paradigmata Programovací techniky doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Cíl: programování efektivně a bezpečně Programovací techniky
MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ
MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ 1) PROGRAM, ZDROJOVÝ KÓD, PŘEKLAD PROGRAMU 3 2) HISTORIE TVORBY PROGRAMŮ 3 3) SYNTAXE A SÉMANTIKA 3 4) SPECIFIKACE
Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU
Systém pro správu experimentálních dat a metadat Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU BioWes Systém pro správu experimentálních dat a meta Hlavní cíl Vytvoření systému usnadňujícího
Základy business intelligence. Jaroslav Šmarda
Základy business intelligence Jaroslav Šmarda Základy business intelligence Business intelligence Datový sklad On-line Analytical Processing (OLAP) Kontingenční tabulky v MS Excelu jako příklad OLAP Dolování
WORKSHEET 1: LINEAR EQUATION 1
WORKSHEET 1: LINEAR EQUATION 1 1. Write down the arithmetical problem according the dictation: 2. Translate the English words, you can use a dictionary: equations to solve solve inverse operation variable
Profilová část maturitní zkoušky 2013/2014
Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2013/2014 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 78-42-M/01 Technické lyceum Předmět: TECHNIKA
Spark SQL, Spark Streaming. Jan Hučín
Spark SQL, Spark Streaming Jan Hučín 22. listopadu 2017 Osnova 1. Spark SQL 2. Další rozšíření Sparku Spark streaming GraphX Spark ML 2 Spark SQL Spark SQL a DataFrames (DataSets) Rozšíření k tradičnímu
Jaký programovací jazyk učit jako první a jak ho učit?
Vojtěch Merunka Katedra informačního inženýrství PEF ČZU Praha Jaký programovací jazyk učit jako první a jak ho učit? strana 1 Motivace dříve strana 2 Motivace... pokračování dnes strana 3 Obsah presentace
B0M33BDT Stream processing. Milan Kratochvíl
B0M33BDT Stream processing Milan Kratochvíl 13. prosinec 2017 Stream processing Průběžné zpracování trvalého toku zpráv Vstupní stream Message processor Stream processor Úložiště Stream processing Hlavní
Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází
1 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Požadavky kreditového systému. Relační datový model, relace, atributy,
Znalostní systém nad ontologií ve formátu Topic Maps
Znalostní systém nad ontologií ve formátu Topic Maps Ladislav Buřita, Petr Do ladislav.burita@unob.cz; petr.do@unob.cz Univerzita obrany, Fakulta vojenských technologií Kounicova 65, 662 10 Brno Abstrakt:
DATABÁZOVÉ SYSTÉMY. Metodický list č. 1
Metodický list č. 1 Cíl: Cílem předmětu je získat přehled o možnostech a principech databázového zpracování, získat v tomto směru znalosti potřebné pro informačního manažera. Databázové systémy, databázové
VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.
VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ Ing. Lukáš OTTE, Ph.D. Ostrava 2013 Tento studijní materiál vznikl za finanční podpory
Geografické informační systémy p. 1
Geografické informační systémy Slajdy pro předmět GIS Martin Hrubý hrubym @ fit.vutbr.cz Vysoké učení technické v Brně Fakulta informačních technologií, Božetěchova 2, 61266 Brno akademický rok 2004/05
Open Source projekty pro Big Data
Open Source projekty pro Big Data Leo Galamboš LG@HQ.EGOTHOR.ORG Řešení pro velká data Oblasti 1. ukládání dat 2. zpracování dat 3. analýza dat (Dobrá zpráva) OSS řešení nyní pokrývají všechny oblasti
Profilová část maturitní zkoušky 2017/2018
Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2017/2018 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 78-42-M/01 Technické lyceum Předmět: TECHNIKA
Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19
Předmluva 13 O autorovi 15 Poděkování 16 O odborných korektorech 17 Úvod 19 Co kniha popisuje 19 Co budete potřebovat 20 Komu je kniha určena 20 Styly 21 Zpětná vazba od čtenářů 22 Errata 22 KAPITOLA 1
Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje
Analytické systémy nad Hadoopom Lukáš Antalov, Vedoucí týmu vývoje Outline Big Data Hadoop Štatistiky Sklik.cz Webová analytika Big Data Big Data sú všade 200 Londýnskych dopravných kamier 8 TB / deň Približný
VZOROVÝ STIPENDIJNÍ TEST Z INFORMAČNÍCH TECHNOLOGIÍ
VZOROVÝ STIPENDIJNÍ TEST Z INFORMAČNÍCH TECHNOLOGIÍ 1. Dědičnost v OOP umožňuje: a) dědit vlastnosti od jiných tříd a dále je rozšiřovat b) dědit vlastnosti od jiných tříd, rozšiřovat lze jen atributy
Big Data od velkých očekávání k praktickému využití. DSW, Praha, 23.9.2014
Big Data od velkých očekávání k praktickému využití DSW, Praha, 23.9.2014 Gartner: Hype Cycle for Emerging Technologies Zdroj: Gartner 3D scanners? NFC předběhlo cloud compu3ng? Internet of things zrychlil
FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU
FUJITSU PRIMEFLEX Human Centric Innovation in Action Integrované systémy pro Vaše řešení 30. května 2017 Pavel Čáslavský 0 Copyright 2017 FUJITSU Integrované systémy FUJITSU PRIMEFLEX Definice Před-konfigurované,
Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské
Hynek Cihlář Podnikový architekt 7.11..2013. Od Indoše ke Cloudu
Hynek Cihlář Podnikový architekt 7.11..2013 Od Indoše ke Cloudu Jediná jistota je změna Rychlost vstupu na trh, zvyšování efektivity, zjednodušení funkčnosti, snižování nákladů Obtížnost řízení a kontroly
Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale
je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně vyhledávat informace,
Transportation Problem
Transportation Problem ١ C H A P T E R 7 Transportation Problem The transportation problem seeks to minimize the total shipping costs of transporting goods from m origins (each with a supply s i ) to n
Databáze s tisíci uložených procedur. Pavel Bláhovec, DiS www.blahovec.cz pavel@blahovec.cz
Databáze s tisíci uložených procedur Pavel Bláhovec, DiS www.blahovec.cz pavel@blahovec.cz Kdo jsem 1/2 Vývojem software se zabývám přes 15 let Mobilní aplikace pro obchodníky Wella PageMaker plug in pro
EMBARCADERO TECHNOLOGIES. Jak na BYOD chytře? Možnosti zapojování různých mobilních zařízení do podnikových informačních systémů.
Jak na BYOD chytře? Možnosti zapojování různých mobilních zařízení do podnikových informačních systémů. Trendy a móda EMBARCADERO TECHNOLOGIES Popularita a prodej mobilních zařízení roste Skoro každý má
KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d
KMA/PDB Prostorové databáze Karel Janečka Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d Sylabus předmětu KMA/PDB Úvodní přednáška Základní terminologie Motivace rozdíl klasické
Multimediální systémy
Multimediální systémy Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI přednášky Literatura Havaldar P., Medioni G.: Multimedia Systems: Algorithms, Standards, and Industry Practices. Course
Okruhy z odborných předmětů
VYŠŠÍ ODBORNÁ ŠKOLA INFORMAČNÍCH STUDIÍ A STŘEDNÍ ŠKOLA ELEKTROTECHNIKY, MULTIMÉDIÍ A INFORMATIKY Novovysočanská 280/48, 190 00 Praha 9 Pracoviště VOŠ: Pacovská 350/4, 140 00 Praha 4 Okruhy z odborných
V t í á t V á V s ČVU V T v v P r P a r ze
Vítá Vás Fakulta informačních ních technologií ČVUT v Praze 25. 11. 2009 Den otevřených dveří FIT 1 Historie FIT je zatím velmi krátká - jsme na startu 31. 3. 2008 první info na www.cvut.cz 20. 1. 2009
Maturitní témata pro 1.KŠPA Kladno, s.r.o. Výpočetní technika
Maturitní témata pro 1.KŠPA Kladno, s.r.o. Předmět Typ zkoušky Obor Forma Zkoušející Období Výpočetní technika Profilová ústní Ekonomika a podnikání zaměření Podnikání Denní / Distanční Ing. Horová / K.
Vzdělávací oblast: Informatika a informační a komunikační technologie Vzdělávací obor: Programování. Předmět: Programování
Vzdělávací oblast: Informatika a informační a komunikační technologie Vzdělávací obor: Programování Vzdělávací oblast Informatika a informační a komunikační technologie pro vzdělávací obor Programování
SYLABUS IT V. Jiří Kubica. Ostrava 2011
P MODULU SYLABUS IT V DÍLČÍ ČÁST PROGRAMOVÁNÍ BUSINESS APLIKACÍ PODNIKU Bronislav Heryán Jiří Kubica Ostrava 20 : Autoři: Vydání: Počet stran: Tisk: Vydala: Sylabus modulu IT v podniku Programování business
Návrh softwarových systémů - architektura softwarových systémů
Návrh softwarových systémů - architektura softwarových systémů Martin Tomášek, Jiří Šebek Návrh softwarových systémů (B6B36NSS) Převzato z přednášky X36AAS M. Molhanec Co je to architektura Využívá se
METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha
METACENTRUM Miroslav Ruda CESNET Seminář MetaCentra, Praha 11.5. 2018 Program semináře Dopoledne představení MetaCentra novinky z CESNETu a CERITu SafeDX/Ultimum Odpoledne věnované podrobnějším informacím
Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery
Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery Petr Podbraný Oracle Business Intelligence Sales Consultant 1 2012 Oracle Corporation Co znamená Information Discovery? Zjednodušeně
Současný svět Projekt č. CZ.2.17/3.1.00/32038, podpořený Evropským sociálním fondem v rámci Operačního programu Praha adaptabilita
Aktivní webové stránky Úvod: - statické webové stránky: pevně vytvořený kód HTML uložený na serveru, ke kterému se přistupuje obvykle pomocí protokolu HTTP (HTTPS - zabezpečený). Je možno používat i různé
Databázové a informační systémy Jana Šarmanová
Databázové a informační systémy Jana Šarmanová Obsah Úloha evidence údajů, způsoby evidování Databázové technologie datové modely, dotazovací jazyky. Informační systémy Datové sklady Metody analýzy dat
A5M33IZS Informační a znalostní systémy. O čem předmět bude? Úvod do problematiky databázových systémů
A5M33IZS Informační a znalostní systémy O čem předmět bude? Úvod do problematiky databázových systémů Co se dozvíte? Návrh datových struktur (modelování relačních dat) Relační modelování úlohy z oblasti
SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ
SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ TITAN / HOPPER / NOTEBOOK TITAN HOPPER NOTEBOOK Počet CPU jader 299 008 153 216 2 Operační paměť [GB] 598 016 217 000 8 Počet GPU (CUDA) jader 50 233 344 0 8
RELAČNÍ DATABÁZE. Cíl:
Cíl: Cílem tohoto předmětu je získat praktické znalosti a dovednosti v oblasti relačních databází, jakož i seznámit se s novými trendy v objektově relačních a objektových databázích. Podstatná část je
CERIT SCIENTIFIC CLOUD. Centrum CERIT-SC. Luděk Matyska. Praha, Seminář MetaCentra, 15. 10. 2010
Centrum CERIT-SC Luděk Matyska Praha, Seminář MetaCentra, 15. 10. 2010 Poslání Centrum CERIT-SC (CERIT Scientific Cloud 1 je národním centrem poskytujícím flexibilní úložné a výpočetní kapacity a související
Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting
Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting Petr Macháček PETALIT s.r.o. 1 What is Redwood. Sensor Network Motion Detection Space Utilization Real Estate Management 2 Building
Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)
Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod
Aplikace je program určený pro uživatele. Aplikaci je možné rozdělit na části:
Aplikace Aplikace je program určený pro uživatele. Aplikaci je možné rozdělit na části: prezentační vrstva vstup dat, zobrazení výsledků, uživatelské rozhraní, logika uživatelského rozhraní aplikační vrstva
Sémantický web 10 let poté
Sémantický web 10 let poté Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2011, 26. 5. 2011 Vilém Sklenák
Představuje. Technický Informační Systém nové generace
Představuje Technický Informační Systém nové generace Nový náhled na položky Sjednocení typů položek - položky nejsou striktně dělené na vyráběné a nakupované. Do tohoto typu je zahrnuté i nakupované a
Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade - 29.5.2014
Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích David Marko TCL DigiTrade - 29.5.2014 Xpages a napojení na SQL data Přístup na SQL tabulky a nebo uložené procedury (stored procedures
ArcGIS Server 10.1/10.2
ArcGIS Server 10.1/10.2 Úvod do mapového serveru firmy ESRI Podpořeno grantem FRVŠ číslo 2308G1/2012. Katedra geomatiky, www.company.com Úvod Trend dnešní doby Desktop > Server (Cloud) ESRI je klíčovým