SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek



Podobné dokumenty
UAI/612 - Cloudová Řešení. Technologie

KAM SMĚŘUJE VYHLEDÁVÁNÍ. Pavel Kocourek SEARCH TECHNOLOGIES, formerly INCAD INFORUM

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

2000s E-business. 2010s Smarter Planet. Client/Server Internet Big Data & Analytics. Global resources and process excellence

Web 2.0 vs. sémantický web

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

BigData. Marek Sušický

Průmysl 4.0 jako příležitost pro budování chytré továrny Dr. Filová, Plánování značky

Veritas Information Governance získejte zpět kontrolu nad vašimi daty

Systém detekce a pokročilé analýzy KBU napříč státní správou

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

SAP Business One Analytics powered by SAP HANA: Analytic Content and Enterprise Search

Sémantický web 10 let poté

Analýzou dat k efektivnějšímu rozhodování

Coupon Kaspersky Password Manager free software for windows 7 ]

Cesta ke zpřístupnění a archivaci dokumentů. Jan Pokorný, MULTIDATA Praha s.r.o. INFORUM 2008, VŠE Praha

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Jak vypadá opravdová discovery služba

NTK Discovery. Od katalogu k centralizovanému vyhledávání

SAP a SUSE - dokonalá symbióza s open source. Martin Zikmund Technical Account Manager

Big Data. Josef Šlerka, Ataxo Interactive, SNM FF UK Business & Information Forum 2011, Praha

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Vzdělávání jako cesta do budoucnosti knihoven? Mgr. Jan Zikuška Kabinet informačních studií a knihovnictví, FF MU

Vývoj informačních systémů. Architektura, návrh Vzory: Doménová logika

Ondřej Lorenc System x a virtualizace ondrej_lorenc@cz.ibm.com

Tvorba počítačových clusterů pomocí Linuxu. Vedoucí práce: Mgr. Jiří Pech, Ph.D. Katedra informatiky

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Jedním z technologických. Big Data: Business Intelligence budoucnosti má jméno Hadoop. Business Analytics. Big Data

Data Science projekty v telekomunikační společnosti

Cloudové řešení pro ŠKODA AUTO

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

<Insert Picture Here> Na co se můžete s Oracle BI těšit

Veřejné cloudové služby

Jak spustit provoz v DR lokalitě snadno a rychle

Ověřování vybraných parametrů datových sítí ve vztahu k NGA sítím - připravované metodické postupy ČTÚ

IBM Cloud computing. Petr Leština Client IT Architect. Michal Votava IBM GTS Cloud Sales. Přehled IBM služeb v cloudu IBM Corporation

SIEM Mozek pro identifikaci kybernetických útoků. Jan Kolář , Praha, Cyber Security konference 2014

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

Cloud Computing IBM Corporation

Systémová administrace portálu Liferay

Servisně orientovaná architektura Základ budování NGII

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček


Co najdeš v síti? Změna konceptu relevance výsledků vyhledávání v sociálních sítích. Kateřina Hronová, ÚISK FF UK INFORUM 2011, Praha

Commvault + Azure = Data Management budoucnosti. Antonín Moravec, Territory Manager CZ/SK Miroslav Dvořák, Systems Engineer CZ/SK

Business Intelligence

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

IBM Enterprise Marketing Management Představení

Řešení ochrany databázových dat

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Indexace pro souborová uložiště a Vyhledávací centrum

Role informační architektury a optimalizace pro vyhledavače v online publikování

SAP S/4HANA & Analytika Jiří Přibyslavský, SAP Analytics Business Consultant. SAP Forum Slovensko

Vyhledávání na portálu Knihovny.cz

Komunikační infrastruktura pro Smart Energy

HadoopDX (Hadoop as a Service)

local content in a Europeana cloud

Aktuality 26. září 2012

Vývoj informačních systémů. Architektura, návrh Vzory: Doménová logika

Fujitsu Day Prague 2017

Máte to? Summon jako základní vyhledávací nástroj NTK

Internet věcí & Cloud Systémy v Energetice Miroslav HLADÍK Toshiba Corp. Energy Systems & Solutions Company

Řešení pro internet věcí. 9. prosince 2015

3 Bezpečnostní politika 3/1 Základní pojmy, principy standardy a požadavky

Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

Informační systémy. Jaroslav Žáček

Cloudová Řešení UAI/612

Virtualizace desktopů a aplikací ve státní správě , Mikulov

TCP Open Cloud Provider

Konsolidace na privátní cloud

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Uživatelská podpora v prostředí WWW

NCR PRAGUE CENTER OF EXCELLENCE. Představení společnosti a vývojového centra v Praze.

CONNECTING GOVERNMENT AND CITIZENS Creating a Single Citizen View Konference ISSS, Jaroslav Novotný Sun Microsystems Czech

Znalostní systém nad ontologií ve formátu Topic Maps

Nová generace analytik mění zažité způsoby BI

Pomáháme vám využívat vaše informace VYHLEDÁVACÍ TECHNOLOGIE PRO ON-LINE INFORMAČNÍ ZDROJE SEARCH DRIVEN INNOVATION

UNIVERZITA PRO OBCHODNÍ PARTNERY. Úvod do Midmarket, BP Cloud programy Miroslav Černík, Midmarket Manager

Digital Transformation of Organization

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ

Řízení privilegovaný účtů

Technologie digitálních knihoven

Budování architektury pomocí IAA

Tomáš HEBELKA, MSc. Skepse vůči cloudu. 21. června 2011 VI. Konference ČIMIB, Hotel Continental, Brno

Web 2.0, Search 2.0 jak se to rýmuje?

PŘESUŇTE VAŠE DATA Z MÁ DÁTI NA DAL

Využití moderních přístupů při budování Technologického centra kraje

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Jan Pokorný MULTIDATA Praha PRIMO. od čtenářského OPAC ke čtenářskému portálu

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

System Center Operations Manager

Coupon Kaspersky Small Office Security pc software latest ]

Discovery systémy. stručný přehled. Mgr. Petr Novák Ústřední knihovna Univerzity Karlovy v Praze

Obsah Úvod 11 Jak být úspěšný Základy IT

GDPR Modelová Situace z pohledu IT

Budování a využívání cloudových služeb ve veřejné správě. leden 2015

Transkript:

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

NÁSLEDUJÍCÍCH 25 MINUT Proč je letošní prezentace modro-zelená Vyhledávání a Big data Search architektura s využitím Big data Co to může přinést

INCAD A SEARCH TECHNOLOGIES COMPANY Od ledna 2015 Center of Search Excellence pro Evropu

SEARCH TECHNOLOGIES Jsme vedoucí nezávislou IT společností zaměřenou na návrh, implementaci a správu podnikových a big data vyhledávacích řešení

SEARCH TECHNOLOGIES Cincinnati London UK Frankfurt DE Prague, CZ San Diego San Jose, CR Washington (HQ)

600+ ZÁKAZNÍKŮ

CO DĚLÁME Podnikové vyhledávání (Enterprise Search) Data warehouse vyhledávání (BI/Fraud detection) E commerce vyhledávání (machine learning, accuracy) Search and Match (HR) Vyhledávání pro media a nakladatele Goverment (portals, archiving, services)

SEARCH & BIG DATA [ & ANALYTICS]

VYHLEDÁVÁNÍ

VYHLEDÁVÁNÍ Je výjimečně rychlé Je škálovatelné Je schema-free Zvládá velké objemy dat A je uživatelům známé

BIG DATA Big data is like teenage sex: everybody talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it http://www.mediapost.com/publications/article/224120/an-open-letter-to-ibm.html?print

TAKŽE CO VLASTNĚ?

HROMADA DAT http://en.wikipedia.org/wiki/big_data

JAKÝCH DAT?

JAKÝCH DAT? Příliš na jeden server je fyzicky nemožné je zpracovat na jednom stroji Agregace dat & Analýza Transformovat datové záznamy nestačí Data je třeba je agregovat / vyvařit Dávkové zpracování Dlouho trvající procesy (not real-time) Spousta dat Big Data

ODKUD SE BEROU? Web servery Obsah

ODKUD? Web servery Obsah

ODKUD? Web servery Obsah

APACHE HADOOP je open-source projekt vyvíjející software pro spolehlivé, škálovatelné distribuované zpracování. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

HADOOP MAP REDUCE http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/yarn.html

PROČ HADOOP A SEARCH? Vyhledávání bude hrát klíčovou roli v příští generaci interaktivních, data využívajících aplikací. Všichni víme, jak vyhledávat - využití vyhledávací vrstvy k objevování souvislostí v datech je přirozeným postupem. Řešení, využívající koncept Velkých dat, mohou poskytnout výrazné zlepšení spolehlivosti a flexibility vyhledávacích systémů TO PLATÍ I PRO KNIHOVNY

BIG DATA ARCHITEKTURA PRO VYHLEDÁVÁNÍ

BIG DATA CONTENT PROCESSING Je platformou pro zpracování / normalizaci / obohacení dat a jejich analýzy Udržuje bezpečnou kopii původního textu a metadat každého dokumentu Může být využit pro vytváření indexů

CO UMOŽŇUJE BIG DATA SEARCH HADOOP CLOUD COMPUTING MODERNÍ STATISTICKÉ ANALÝZY MACHINE LEARNING

K ČEMU PŘÍSTUP VYUŽÍVÁME? Search & Match Analýza citací (předpokládané a zpětné) Latentní sémantické analýzy Dokonalejší vyhodnocování (TF/IDF+) Detekce přibližných duplicit Tagování témat v dokumentech Hodnocení výsledků na základě popularity Doporučování na základě chování uživatelů Doporučené dotazy dle na chování uživatelů >>>

ZPRACOVÁNÍ VSTUPŮ SEARCH MATCH Dotaz: Zadán uživatelem Vstup: Klíčová slova uživatele Dotaz: Generovaný automaticky Vstup: Dokumenty & Data Vyhodnocení Pouze několik klíčových slov Přesné zadání Hledání známého Normalizované výsledky (%) hodnoty Řada datových signálů Semantické hledání Podobných/související

ZKUŠENOSTI S S&BD

JSME NA INFORU CO KNIHOVNY? Nesbíráme a zahazujeme data o čtenářích o jejich chování Jejich využití může sloužit K optimalizaci fondu K personalizaci služeb Přesnost/správnost hledání Predikci trendů...

ZÁVĚR? Big data přístup může výrazně posunout vyhledávání A nyní je lze začít

DOTAZY? DĚKUJI ZA POZORNOST