Hunk: analýza surových dat do 60 minut



Podobné dokumenty
Připojení k eduroam.cz: Nastavení síťových komponent Meraki a konfigurace ISE

Dokument stručně popisuje způsob propojení aplikací ESO9 s karetními terminály ČSOB.

1 Návod na instalaci prostředí LeJOS-NXJ a přehrání firmwaru NXT kostky

Instalace síťové CLS licence

1 Webový server, instalace PHP a MySQL 13

Licencování ecscad. Mensch und Maschine Mechatronik GmbH

Aplikace a služba Money Dnes Publisher v deseti krocích

IntraVUE Co je nového

Postup získání licence programu DesignBuilder v4

Použití zásad skupin k instalaci klientské komponenty ESO9

Instalační a uživatelská příručka

Kurz Databáze. Přechod na SQL server. Obsah. Vytvoření databáze. Lektor: Doc. Ing. Radim Farana, CSc.

1 Administrace systému Moduly Skupiny atributů Atributy Hodnoty atributů... 4

Filr 3.4 Příručka k aplikaci Desktop pro Linux. Červen 2018

Instalace MS SQL Server 2005 a nastavení programu DUEL pro síťový provoz

Rocrail. Nejprve: Obecný úvod. Instalace

VZDÁLENÉ PŘIPOJENÍ - OpenVPN. Popis a vlastnosti služby

Dávkový rendering prostřednictvím sítě

Versiondog Lukáš Rejfek, Pantek (CS) s.r.o. 7/2014

Aktivace Demo licence - Digifort

Nastavení DCOM. Uživatelský manuál

APS Administrator.OP

STUDIJNÍ MATERIÁL PRO TECHNICKOU CERTIFIKACI ESET Business Edition, ESET Remote Administrator

IP adaptér Linksys SPA-1001 (SIP) Stručný průvodce instalací a konfigurací

ZÁKLADNÍ POKYNY PRO INSTALACI PROID+ Z INSTALAČNÍHO MÉDIA

DŮLEŽITÉ INFORMACE, PROSÍM ČTĚTE!

a autentizovaná proxy

První krůčky se SAS Enterprise Miner 6.2. Zaškrtněte Personal Workstation a přihlašte se jako localhost\sasdemo.

VoIP telefon Gigaset A580IP

1. Webový server, instalace PHP a MySQL 13

PROGRAMOVATELNÉ AUTOMATY FATEK

Nintex Workflow 2007 je nutné instalovat na Microsoft Windows Server 2003 nebo 2008.

Uživatelská příručka

Téma 1 - řešení s obrázky

STRUČNÝ NÁVOD K POUŽITÍ

Konfigurace licenčního serveru Autodesk

Virtuální počítače základy

IFTER-EQU Instalační manuál

v. 2425a Jak si na PC vypěstovat HTTP (WWW, Web) server a jak ho používat (snadno a rychle) by: Ing. Jan Steringa

WAP-5883 Rychlá Instalační Příručka

Přidání zařízení do aplikace FREE IP pro vzdálený dohled na mobilních zařízeních

Nastavení Java pro aplikaci G-Client Str. 1/8

Postup instalace síťové verze Mount Blue

Synchronizace kontaktů z ESO9 do MS Outlook

Na vybraném serveru vytvoříme MySQL databázi. Soubory scratch.jpa, kickstart.php a en-gb.kickstart.ini nahrajeme na vybraný server.

BRICSCAD V15. Licencování

ZMODO NVR KIT. Instalační příručka

KMI / TMA Tvorba mobilních aplikací

Bezdrátové routery LTE & UMTS datové a hlasové brány

Implementace LMS MOODLE. na Windows 2003 Server a IIS 6.0

KMI / TMA Tvorba mobilních aplikací. 2. seminář ZS 2016/2017 Středa 13:15-15:45

Uživatelský modul. Modem Bonding

Doporučené nastavení prohlížeče MS Internet Explorer 7 a vyšší pro Max Homebanking PS s využitím čipové karty

Program slouží k provozní evidenci chemických látek, směsí, archivaci bezpečnostních listů a tvorbě rychlých přehledů.

Avaya IP Office Jak ji nakonfigurovat s 2N Helios IP

Velmi stručný návod jak dostat data z Terminálu Bloomberg do R


Avaya IP Office R8.0 - Jak ji nakonfigurovat s 2N Helios IP

Uživatelská příručka RYANT OtWIin RYANT, s.r.o.

Návod pro řešení typických problémů se stabilitou AMČR

TSM for Virtual Environments Data Protection for VMware v6.3. Ondřej Bláha CEE+R Tivoli Storage Team Leader. TSM architektura IBM Corporation

1) Instalace aplikace a) otevřete Obchod Play ve Vašem zařízení b) do vyhledávacího pole zajdejte výraz CamHi a vyhledání potvrďte

ŘADA LASERJET ENTERPRISE M4555 MFP. Průvodce instalací softwaru

Nastavení připojení k internetu prostřednictvím terminálu Axesstel TX210LF platí pro Windows 98 SE (Second Edition) a Windows ME (Millenium Edition)

Body Mass Index 3. Instalace

SCS - Manuál. Obsah. Strana 1 (celkem 14) Verze 1.1

WORKWATCH ON-LINE EVIDENCE PRÁCE A ZAKÁZEK

Snadná a rychlá aktivace technologie Intel vpro

VComNet uživatelská příručka. VComNet. Uživatelská příručka Úvod. Vlastnosti aplikace. Blokové schéma. «library» MetelCom LAN

1. POSTUP INSTALACE A KONTROLA NASTAVENÍ MICROSOFT SQL SERVERU 2005 EXPRESS:

SW ATTIS Postup aktualizace aplikace ATTIS

BALISTICKÝ MĚŘICÍ SYSTÉM

Návod k instalaci. Nintex Workflow Návod k instalaci

Sentech AL 7000 C. Instalace a ovládání programu BREATH

Průvodce rychlou instalací Wi-Fi směrovače pro Pevný internet DSL. Zyxel VMG bezdrátový N300 xdsl modem

Zálohování ů pomocí klienta Mozilla Thunderbird

Téma 1: Práce s Desktop. Téma 1: Práce s Desktop

T-MOBILE DSL MANAGER UŽIVATELSKÁ PŘÍRUČKA

LAN se používá k prvnímu nastavení Vašeho DVR a když potřebujete nastavit síť na Vašem DVR pro používání po internetu.

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

COLOR LASERJET ENTERPRISE CM4540 MFP SERIES. Průvodce instalací softwaru

Instrukce k provádění QA kontrol pro překladatele a korektory

Uživatelská příručka

Zvýšení zabezpečení počítače

Upgrade klientů Notes na V10

DEKRA Emise CIS instalační příručka

NASTAVENÍ TISKOVÉHO OVLADAČE TECHNICKÝ PRŮVODCE PRO TISK NA SAFEQ SERVER. Nastavení tiskového ovladače pro tisk na SafeQ

Jak resetovat heslo administrátora Rychlý průvodce HIKVISION TECHNICAL SUPPORT TEAM

s anténou a podstavcem CD-ROM obsahující návod a informace o záruce Ethernetový kabel (CAT5 UTP nekřížený) ADSL kabel (standardní telefonní kabel)

Wireless-N Range Extender WAP Rychlá instalační příručka

Instalace webové služby Mydlinka

Instalační a uživatelská příručka aplikace PSImulator2 Obsah

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

Versiondog Lukáš Rejfek, Pantek (CS) s.r.o. 4/2014

Internetový prohlížeč-vyhledávání a ukládání dat z internetu do počítače

Popis programu EnicomD

Obsah. Rozdíly mezi systémy Joomla 1.0 a Systém Joomla coby jednička online komunity...16 Shrnutí...16

Transkript:

Hunk: analýza surových dat do 60 minut Kamil Brzak, SCSR Project Manager at Trask solutions a.s. 1

Obsah 0. 20. minuta: Nastavení prostředí... 3 20. 40. minuta: Konfigurace Hunk s využitím UI... 3 20. 40. minuta: Konfigurace Hunk pomocí konfiguračních souborů... 9 Krok 1... 9 Krok 2... 10 Krok 3... 11 49. 50. minuta: Analyzujte data z Hadoopu... 11 59. in infinitum: Hunkujte... 12 Originál článku: Hunk: Raw data to analytics in < 60 minutes, Ledion Bitincka 8.11.2013 2

0. 20. minuta: Nastavení prostředí Příprava prostředí vyžaduje instalaci následujících komponent: 1. Instalační balíček Hunk je ke stažení jako 60-denní zkušební verze na tomto místě, 2. Java alespoň ve verzi 1.6 a vyšší (případně verze odpovídající potřebám klientských knihoven Hadoop), 3. Klientské knihovny Hadoop lze je získat od dodavatele Hadoopu, v případě distribuce Apache jsou ke stažení právě zde. Instalace Hunku probíhá velmi jednoduše: #1. untar the package > tar -xvf splunk-6.0-<build#>-linux-x86_64.tgz #2. start Splunk >./splunk/bin/splunk start Je potřeba dodržet postup dle instalačních průvodců pro Javu a klientských knihoven Hadoop. Ujistěte se jen, že jsou vytvořené JAVA_HOME a HADOOP_HOME, jelikož s nimi budeme dále pracovat. 20. 40. minuta: Konfigurace Hunk s využitím UI Hunk je možno konfigurovat buď prostřednictvím grafického rozhraní (UI) v sekci Settings > Virtual Indexes, anebo editací konfiguračních souborů, indexes.conf. Protože jde o popis dvou metod, vyskytují se kapitoly, popisující 20. 40. minutu v textu dvakrát, jednou pro každou metodu. 1. Přihlašte se do Hunku (výchozí username: admin, password: changeme) 3

2. Přejděte do Settings > Virtual Indexes 3. Vytvořte připojení pro zobrazování výsledků z externího zdroje (ERP External Resource Provider) kliknutím na zelené tlačítko New provider 4

4. Zadejte informace o prostředí jako je: domovský adresář Java, domovský adresář Hadoop, informace o clusteru jako je verze Hadoopu, host a port JobTrackeru, výchozí souborový systém apod. 5

5. Po uložení ERP můžete přikročit k tvorbě virtuálních indexů pro tento konkrétní ERP. Jednoduše překliknete ze záložky Providers (1) na záložku Virtual Indexes (0) 6

6. Hlavním konfiguračním požadavkem virtuálních indexů je cesta k datům, která mají reprezentovat virtuální indexy. Můžete využít volitelně whitelist regex, který přiřadí pouze ty soubory, které mají být součástí indexu. A dále pokud jsou data rozdělena podle času, můžete rovněž Hunku říci, jak je tohle časové dělení implementováno (time/date partitioning je popsán níže) 7

7. Po uložení virtuálních indexů můžete okamžitě začít s prozkoumáváním jejich obsahu kliknutím na odkaz Search Následující sekci můžete přeskočit, pokud se nechcete zabývat konfigurací Hunku prostřednictvím konfiguračních souborů. 8

20. 40. minuta: Konfigurace Hunk pomocí konfiguračních souborů V této sekci je popsán postup konfigurace Hunku editací konfiguračních souborů. Soubor, který bude editován je následující: $SPLUNK_HOME/etc/system/local/indexes.conf Krok 1 Nejprve musíme říci Hunku o Hadoop clusteru, kde leží data a jak s nimi komunikovat v terminologii Hunku jde o ERP (External Resource Provider). Následující stanza ukazuje příklad takové definice ERP v Hunku. [provider:hadoop-dev01] # this exact setting is required vix.family = hadoop # location of the Hadoop client libraries and Java vix.env.hadoop_home = /opt/hadoop/hadoop-dev01 vix.env.java_home = /opt/java/latest/ # job tracker and default file system vix.fs.default.name = hdfs://hadoop-dev01- nn.splunk.com:8020 vix.mapred.job.tracker = hadoop-dev01-jt.splunk.com:8021 # uncomment this line if you're running Hadoop 2.0 with MRv1 #vix.command.arg.3 = $SPLUNK_HOME/bin/jars/SplunkMRs6.0-h2.0.jar vix.splunk.home.hdfs = /home/ledion/hunk vix.splunk.setup.package = /opt/splunkbeta-6.0-171187- Linux-x86_64.tgz Většina z výše uvedených konfigurací je jednoduše vysvětlitelná, přesto se zastavme u některých řádků: [stanza name] Musí začínat provider:, aby Hunk poznal, že se jedná o ERP. Zbytek řetězce je pojmenování poskytovatele. vix.splunk.home.hdfs Cesta v HDFS (nebo v čemkoliv co je výchozím souborovým systémem), kterou využívá Hunk jako umístění pracovního adresáře (scratch space). vix.splunk.setup.package Cesta v Hunk serveru, kde může Hunk nalézt balíček Linux x64_64, který bude vyexpedován a používán na TaskTrackerech/Datových uzlech. 9

Krok 2 Nyní je potřeba vydefinovat virtuální index, který obsahuje data, jež chceme analyzovat. V tomto případě je využito dat z Apache access logu. Ta jsou rozdělená podle času, uložená v HDFS v adresářové struktuře, která může vypada např. takto: /home/ledion/data/weblogs/20130628/access.log.gz /home/ledion/data/weblogs/20130627/access.log.gz /home/ledion/data/weblogs/20130626/access.log.gz... A teď lze nakonfigurovat virtuální index (opět v souboru indexes.conf), který bude obsahovat následující data: [hunk] # name of the provider stanza we defined above # without the "provider:" prefix vix.provider = hadoop-dev01 # path to data that this virtual index encapsulates vix.input.1.path = /home/ledion/data/weblogs/... vix.input.1.accept = /access\.log\.gz$ vix.input.1.ignore = ^$ # (optional) time range extraction from paths vix.input.1.et.regex = /home/ledion/data/weblogs/(\d+) vix.input.1.et.format = yyyymmdd vix.input.1.et.offset = 0 vix.input.1.lt.regex = /home/ledion/data/weblogs/(\d+) vix.input.1.lt.format = yyyymmdd vix.input.1.lt.offset = 86400 V souboru se nachází mnoho míst, která je dobré blíže vysvětlit: vix.input1.path Odkazuje na adresář ve výchozím souborovém systému (např. HDFS) poskytovatele. Tam se nalézají data virtuálního indexu. POZN.:... na konci cesty znamená, že Hunk rekurzivně přidá i obsah všech podadresářů. vix.input.1.accept a vix.input.1.ignore Umožňují specifikovat regulární výraz, který filtruje vstupní a výstupní soubory (na základě plné cesty), jež mají nebo nemají být vnímané jako součást tohoto virtuálního indexu. Je potřeba podotknout že ignore má vyšší prioritu, než accept. Obecným příkladem, kdy využít ignore, je např. u dočasných souborů nebo u souborů, do kterých je právě zapisováno..et a.lt prvky Je to koncept první třídy ze Splunku (Hunk je vlastně přizpůsobená aplikace Splunku nad Hadoopem). Data jsou organizovaná v adresářové struktuře a využívá se rozdělování na základě data..et a.lt říkají Hunku v rámci jaké časové rozteče se vyhledávání v adresáři očekává. Vychází se z následující logiky: porovnává se regex vůči cestě, spojí se všechny zachycené skupiny, interpretují v daném formátu a nakonec se přidá nebo odebere počet sekund (offset) k výslednému času. Offset přijde vhod, pokud chcete rozšířit vyextrahovaný časový rámec např. pokud 10

několik minut daného dne končí v adresářích z předešlého nebo následujícího dne nebo dochází k rozdílům daným časovými pásmy umístěného Hadoop serveru oproti Hunk serveru. Celá rutina časové extrakce se provádí dvakrát za sebou, právě aby došlo k vymezení nejdřívějšího a nejpozdějšího času. Jakmile je časová extrakce nakonfigurovaná, Hunk může přeskočit nebo ignorovat adresáře a soubory, které nespadají do odpovídajícího časového rámce. V terminologii Hunku jde o průřez dělením na základě času (time based partition pruning). Krok 3 Dále je potřeba Hunku sdělit, jak schematizovat data na základě časového vyhledávání. V tomto okamžiku vkládáme změny do klasické konfigurace Splunku. Kromě toho budeme editovat další soubor, ze kterého na sebe Hunk naváže schema. $SPLUNK_HOME/etc/system/local/props.conf [source::/home/ledion/data/weblogs/...] priority = 100 sourcetype = access_combined Tato stanza řekne Hunku, aby napojil sourcetype access_combined na všechna data v našem virtuálním indexu (např. všechna data v adresáři /home/crm_team/data/weblogs/). Sourcetype access_combined je vydefinován v $SPLUNK_HOME/etc/system/default/props.conf a říká, jak budou data z access logu zpracovávána (např. že každá událost je na samostatném řádku, kde najde časové razítko a jak vyextrahuje ta správná pole ze surové události). 49. 50. minuta: Analyzujte data z Hadoopu Nyní jsme připraveni začít s průzkumem a analýzou dat. Jednoduše provádíme vyhledávání nad virtuálním indexem, jakoby to byl nativní index Splunku. Jako na následujícím příkladu. 1. Prozkoumejte surová data 11

2. Zobrazte graf s pořadím stavových kódů v průběhu 30 dní s granularitou (bucketem) jednoho dne: 59. in infinitum: Hunkujte 12