StatSoft Úvod do data miningu
|
|
- Lucie Tomanová
- před 9 lety
- Počet zobrazení:
Transkript
1 StatSoft Úvod do data miningu Tento článek je úvodním povídáním o data miningu, jeho vzniku, účelu a využití. Historie data miningu Rozvoj počítačů, výpočetní techniky a zavedení elektronického sběru dat vedlo ke vzniku velkých datových souborů. Tím vyvstala potřeba společností a podniků tyto velké objemy dat nějakým způsobem zpracovávat a využívat informaci v nich skrytou ke zvýšení výdělku, optimalizaci produktů, získání výhod oproti konkurenci nebo mnoha dalším cílům. Pro takovéto objemy dat nicméně standardní statistické metody nejsou příliš vhodné, bylo tedy potřeba nalézt metody, které dokáží nalézt i složité nelineární vztahy a to navíc bez omezujících předpokladů. Zadání tedy vzešlo přímo z potřeby mít nové metody, prostředkem bylo využití výpočetní síly počítačů k nalezení struktury (pravidla, vzory, asociace), namísto statistických parametrů (středních hodnot, vah, uzlů). Pojem data mining se začal objevovat v devadesátých letech, v roce 1991 napsal první definici data miningu pan Frawley: Data mining je netriviální získávání předtím neznámé a potenciálně užitečné informace ukryté v datech. Do češtiny se občas překládá jako dolování či vytěžování dat. Na začátku nového tisíciletí se pak data mining osamostatnil jako nové odvětví statistiky. Co je data mining Data mining je dnes zcela určitě nejrychleji rostoucím segmentem business intelligence. S jeho pomocí se snažíme z ukládaných dat získat složitější a užitečnější informace než jen grafy a základní přehledy. Ze statistického úhlu pohledu se jedná o vyšetřování vzájemných vztahů nebo vzorů v datech. Smyslem je analyzovat datové závislosti, určit trendy, a pokud to typ dat umožňuje, předpovědět budoucí vývoj. Data mining pomáhá hledat odpovědi na různé otázky. Články na toto téma je možné si přečíst v sekci Publikační činnost:
2 Na co data mining použít? Využití v praxi je celkem široké, jak se za chvíli přesvědčíme. Začněme výsledky nezávislé studie společnosti Rexer o využití dataminingových nástrojů za rok 2013 (a také 2011) v jednotlivých oblastech: Je vidět, že data mining se používá především v oblastech, kde se sbírá velké množství dat. Typickými příklady obrovských datových souborů jsou například: údaje o klientech, pohyby na účtech (bankovnictví), údaje o volání (telefonní operátoři), informace o tom, jak lidé nakupují (obchodní řetězce a internetové obchody), pohyb uživatelů na internetu, datové informace o expresi genů (genetika), provozy zaznamenávají průběh provozních parametrů (průmysl). Nicméně data mining již nějakou dobu není výsadou pouze velkých společností, ale jak ukazuje praxe, tyto postupy mají nemalý potenciál i v menších firmách, výzkumných ústavech, lékařství apod. Dataminingové úlohy Statistické úlohy, které stojí nad samostatnými daty, můžeme rozdělit na několik skupin: Klasifikace - Klasifikační metody mají poměrně široké využití v různých oblastech, kde se shromažďuje větší množství dat. Definujeme je jako zařazování objektů (zákazníků, pacientů, dlužníků, příležitostí) do tříd, přičemž třídou rozumíme například: Splatí/nesplatí, zdravý/nemocný, odpoví/neodpoví, registruje se/neregistruje se, koupí/nekoupí, SPAM/non SPAM. Jde o nejčastější dataminingovou úlohu, kterou nad
3 daty děláme. V těchto úlohách máme tzv. cílovou proměnnou (učitele), která definuje příslušnost konkrétního zákazníka do nějaké třídy. V tabulce níže je cílová proměnná Credit Rating, každý řádek reprezentuje konkrétního klienta, kterému byla v minulosti poskytnuta půjčka, a proměnná Credit Rating ukazuje ohodnocení konkrétních klientů. Jde tedy o historická data, nad kterými chceme vystavět model, s jehož pomocí potom budeme klasifikovat nové klienty. Shlukování/Segmentace Cílem této úlohy je najít objekty, které jsou si vzájemně podobné, případně skupiny vzájemně podobných objektů (zákazníků) bez znalosti či nějaké definice těchto skupin. V této úloze tedy nemáme cílovou proměnnou. Tento typ analýzy nám umožní shlukovat objekty (zákazníky) do skupin dle jejich vzájemné podobnosti, která ale není na první pohled zřejmá. Predikce do této skupiny řadíme úlohy, které se zaměřují na předpovědi vývoje nějakého ukazatele v čase (objem poptávky, ceny a dalších ekonomických, ale také např. průmyslových ukazatelů) pomocí netriviálních statistických technik (neuronové sítě). Regrese regresní úlohy slouží obecně pro vysvětlení a předpověď spojitých proměnných za pomoci dostupných informací z historických dat. Regresní úloha se liší od klasifikační především typem výsledku. V regresi je výsledkem spojitá číselná hodnota, nikoliv odhad dané kategorie (třídy). V některých oblastech se tyto metody nazývají úlohami typu: Co se stane, když. Asociační pravidla specifické metody, které jsou vhodné pro konkrétní typ úloh. Tyto metody umožňují z velkého počtu záznamů stanovit pravidlo, které např. říká, že pokud návštěvník klikne na záložku Pro ženy, tak s určitou pravděpodobností klikne také na hubnutí a diety. Snahou asociačních pravidel je zjistit mezi položkami takový vztah, že přítomnost jedné nebo více položek v transakci implikuje výskyt jiných položek. Jinak řečeno, pomocí těchto metod hledáme odpovědi na otázky typu: Jaké jsou typické průchody webovou prezentací? Jaké jsou překážky při procházení stránek? Které URL navštíví uživatel obvykle před tím, než klikne na reklamní banner? Ukázky konkrétní asociací z různých oblastí jsou následující: pečivo => pátek/pondělí/středa
4 brusle & chrániče => helma Apartment Rent & Credit => Full time job plenky & mléko => Basa piva Pro-ženy & cokoliv => hubnutí-diety detoxikace & pro-muže => Přírodní viagra Text Mining textminingové úlohy obecně řadíme do úloh dataminingových. Text Mining pracuje s nestrukturovaným textem, lze ho tedy definovat jako proces vytěžení cenné informace z textu. V textové proměnné obvykle hledáme klíčová slova, následně děláme jejich frekvenční analýzu. Případy (konkrétní klienti, záznamy apod.), kde se tato klíčová slova vyskytla, indexujeme a následně vrátíme do souboru (databáze) jako novou číselnou proměnnou, kterou využijeme v rámci klasifikačních metod. Dalším typem úlohy je potom porovnávání dokumentů podle frekvence jednotlivých slov. Článek o této problematice si můžete přečíst např. v článku Text Mining aneb Kladivo na nestrukturovaná data. Typickými metodami, které spadají do oblasti data miningu jsou klasifikační a regresní stromy, neuronové sítě a metody strojového učení. Data miningový projekt Nevládne jednota v tom, co znamená samotné spojení data mining. Někteří vidí za data miningem pouze analytické metody, které jsou potřeba k tvorbě modelů. Jiní berou data mining jako ucelený proces od vytažení dat, jejich zpracování přes tvorbu modelu až k nasazení modelu na nová data tento druhý pohled je nicméně častější a vhodnější. Nyní se pojďme podívat, co takový dataminingový projekt obnáší. Představme si, že před nás jako statistiky někdo právě položil nějaké zadání. První fází každého projektu je pochopení dat a pochopení cíle celého projektu a to nejen ze statistického, ale také z obchodního pohledu (je potřeba vědět, na co bude případně model použit, jaký je tedy jeho smysl). Poté, co se do detailu seznámíme s daty, čeká nás ta nejpracnější část a to očištění a zpracování dat, zde vyřazujeme a hledáme nesmyslné hodnoty a připravujeme si nové proměnné, které by se nám mohly hodit pro následné modelování. Pokud máme data připravena, čeká nás fáze modelování, což je proces vytváření nejrůznějších modelů, přičemž se nám často stane, že zjistíme, že by se nám například velmi hodila ještě nějaká další proměnná, musíme se tedy občas vrátit do fáze přípravy dat a vhodné proměnné si dovyrobit. Pokud již máme modely, vybereme z nich ten nejlepší (úspěšnost modelu hodnotíme například pomocí tzv. ROC, Gains a ROC křivek, které velmi pěkně popisuje článek v starším newsletteru). Pokud se model chová dobře a dává smysl i z obchodního hlediska, dostáváme se do fáze nasazení (deployment) - vytvořený model použijeme již v praxi na novou sadu dat. Kolečko uzavřeme tím, že pozorujeme, zda je model stále aktuální, což provedeme porovnáváním výsledků modelu, stejně jako i rozložením vstupních dat aktuálních a historických. V případě velkých odchylek poté musíme přikročit k aktualizaci modelu, tedy tvorbě modelu na základě nových poznatků.
5 Toto je samozřejmě pouze stručný popis dataminingového projektu. Možné cíle dataminingového projektu: pochopení stávajících zákazníků, zlepšení spokojenosti zákazníka, zabránění odchodu klienta, eliminování rizikového klienta, vzbuzení zájmu potencionálního zákazníka, optimalizovaní pojistné sazby, detekce podvodného jednání, určení pravděpodobnosti pojistné události, nesplácení úvěru, Cross-up/sell analýzy Konkrétní aplikace a zajímavá řešení najdete mezi našimi případovými studiemi.
Data Miner Recipes. StatSoft
StatSoft Data Miner Recipes V tomto článku Vám ukážeme postup dataminingového modelování ve výukovém modulu Data Miner Recipes, který je vhodný pro začínající uživatele, protože Vás krok po kroku provede
Profitabilita klienta v kontextu Performance management
IBM Technical specialist team Pre Sale 26/10/2010 Profitabilita klienta v kontextu Performance management Co všechno řadíme do PM? Automatická data Běžný reporting Pokročilé statistické modely Včera What
Diagnostika regrese pomocí grafu 7krát jinak
StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
StatSoft Úvod do neuronových sítí
StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
Dolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR
Váš pomocník pro analýzu dat MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich StatSoft CR StatSoft StatSoft CR Dodavatel komplexních analytických řešení Výhradní dodavatel softwaru STATISTICA pro
Předpovídejte snadno a rychle
Předpovídejte snadno a rychle Newsletter Statistica ACADEMY Téma: Časové řady, exponenciální vyrovnávání Typ článku: Příklad Dnes se budeme zabývat situací, kdy chceme předpovídat, jak se bude v čase vyvíjet
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
Uživatelská podpora v prostředí WWW
Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,
Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.
Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z. Operační program Vzdělávání pro konkurenceschopnost Název projektu:
INOVATIVNÍ MANAŽER MARKETINGU: INOVATIVNÍ BUSINESS INTELLIGENCE
INOVATIVNÍ MANAŽER MARKETINGU: INOVATIVNÍ BUSINESS INTELLIGENCE E-LEARNING Jan Novák 15. července 2014 Obsah Proč mít data? Zdroje dat (externí a interní) Typy dat tvrdá a měkká Nejčastější chyby při přípravě
Statistica Enterprise
Statistica Enterprise díl první Newsletter Statistica ACADEMY Téma: Enterprise, možnosti software Typ článku: Příklad V starším článku jsme si představili jednotlivé typy licencí softwaru Statistica. V
Neuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
Market Intelligence Cesta k poznání trhu
Market Intelligence Cesta k poznání trhu Petr Šmíd, Consulting České spořitelny, a.s. smid@consultingcs.cz INSOURCE 2008:Konference o profesionálních informačních zdrojích pro obchod, management, marketing
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam
Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat
Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat Martin Řezáč 22.1.2011 Co budu po VŠ dělat? Co se dá dělat s matematikou??? Ukázka aktuálních pracovních nabídek: Analytik řízení
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Cíle supervizovaného učení Ondřej Háva
Cíle supervizovaného učení Ondřej Háva ACREA CR Využíváme více než 40 let zkušeností IBM s hlavním cílem: řízení rozhodovacích procesů Akvizice SPSS společností IBM v říjnu 2009 Přejmenování SPSS CR na
Získávání znalostí z databází. Alois Kužela
Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Získávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
Učící se klasifikátory obrazu v průmyslu
Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:
Slučování tabulek. Sloučení dvou tabulek
Slučování tabulek Newsletter Statistica ACADEMY Téma: Příprava dat Typ článku: Návody Máte informace ve více tabulkách a chcete je sloučit dohromady? Pak je tento článek právě pro Vás. Vysvětlíme, jaké
Vizualizace nad edukačními daty z pohledu datově řízeného rozhodování
Vizualizace nad edukačními daty z pohledu datově řízeného rozhodování Matěj Karolyi, IBA MU Konference MEFANET, 29. 30. listopadu 2016 Osnova Proč? Jak? Stručný úvod Co? 2 Klíčové oblasti tohoto příspěvku
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
Téma 9: Vícenásobná regrese
Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.
Statistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Datová věda (Data Science) akademický navazující magisterský program
Datová věda () akademický navazující magisterský program Reaguje na potřebu, kterou vyvolala rychle rostoucí produkce komplexních, obvykle rozsáhlých dat ve vědě, v průmyslu a obecně v hospodářských činnostech.
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
Webová analytika v kostce. Pavel Jašek Marketing Monday 7. listopadu 2011
Webová analytika v kostce Pavel Jašek Marketing Monday 7. listopadu 2011 Agenda 1. Webová analytika CO a PROČ 2. Typické úlohy pro různé typy webů 3. Nástroje a lidi 4. Výzvy webové analytiky snímek 2
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Manažerská ekonomika KM IT
KVANTITATIVNÍ METODY INFORMAČNÍ TECHNOLOGIE (zkouška č. 3) Cíl předmětu Získat základní znalosti v oblasti práce s ekonomickými ukazateli a daty, osvojit si znalosti finanční a pojistné matematiky, zvládnout
Využití metod strojového učení v bioinformatice David Hoksza
Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace
prekrocena mez ukazatele kvality.
Příklad efektivního využití dataminingových metod v oblasti kontroly kvality výroby Mgr. Petra Beranová Pokud hovoříme o data miningu (dolování dat), většina z nás si jako typické oblasti využití vybaví
Při prvním přihlášení Vás program vyzve ke změně úvodního hesla.
Návod na používání helpdeskového systému HELP.i. Požadavky směrované na podporu produktů firmy DATACENTRUM systems & consulting, a.s., jsou evidovány v aplikaci HELP.i. V systému jsou evidovány požadavky,
STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM
SPOLEČNOST ACREA Váš dlouholetý partner v oblasti analýzy dat - od dodání softwaru, přes řešení analytických úkolů, až po výuku statistických a dataminingových metod. STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM
Popisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
Zajímavé aplikace teorie grafů
Modulární systém dalšího vzdělávání pedagogických pracovníků JmK v přírodních vědách a informatice CZ.1.07/1.3.10/02.0024 Zajímavé aplikace teorie grafů Nejkratší cesta Problém: Jak nalézt nejkratší cestu
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
StatSoft Jak poznat vliv faktorů vizuálně
StatSoft Jak poznat vliv faktorů vizuálně V tomto článku bychom se rádi věnovali otázce, jak poznat již z grafického náhledu vztahy a závislosti v analýze rozptylu. Pomocí následujících grafických zobrazení
Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
5. Umělé neuronové sítě. Neuronové sítě
Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně
Analýza a vizualizace dat
Analýza a vizualizace dat Business intelligence Jednou z dalších oblastí, která spadá do sféry systémové integrace, je návrh a implementace řešení, spadajících do oblasti nazývané Business Intelligence
MODEL TVÁŘECÍHO PROCESU
MODEL TVÁŘECÍHO PROCESU Zkouška tlakem na válcových vzorcích 2 Vyhodnocení tlakové zkoušky Síla F způsobí změnu výšky H a průměru D válce. V každém okamžiku při stlačování je přetvárný odpor definován
Obsah. Zpracoval:
Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč
Centrální databáze nežádoucích událostí
Centrální databáze nežádoucích událostí srovnání zdravotnických zařízení 4.čtvrtletí 2009 Kabinet veřejného zdravotnictví 3.lékařská fakulta Univerzity Karlovy v Praze Obsah Centrální databáze nežádoucích
Multimediální prezentace MS PowerPoint I
Multimediální prezentace MS PowerPoint I Informatika Multimediální prezentace zažívají v poslední době obrovský rozmach. Jsou používány například k reklamním účelům, k předvedení výrobků či služeb. Velmi
Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu
StatSoft Typy souborů ve STATISTICA Tento článek poslouží jako přehled hlavních typů souborů v programu STATISTICA, ukáže Vám jejich možnosti a tím Vám dovolí využívat program efektivněji. Jistě jste již
Informační systémy 2006/2007
13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza
DATABÁZOVÉ SYSTÉMY. Metodický list č. 1
Metodický list č. 1 Cíl: Cílem předmětu je získat přehled o možnostech a principech databázového zpracování, získat v tomto směru znalosti potřebné pro informačního manažera. Databázové systémy, databázové
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
StatSoft Jak vyzrát na datum
StatSoft Jak vyzrát na datum Tento článek se věnuje podrobně možnostem práce s proměnnými, které jsou ve formě datumu. A že jich není málo. Pokud potřebujete pracovat s datumem, pak se Vám bude tento článek
Zpracování chybějících dat a dat mimo rozsah
StatSoft Zpracování chybějících dat a dat mimo rozsah V tomto článku si představíme jeden z možných postupů, jak se rychle a snadno vypořádat s detekcí chybějících dat a dat mimo stanovený rozsah. Načtení
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Zobrazení zdrojových dat u krabicového grafu
StatSoft Zobrazení zdrojových dat u krabicového grafu Krabicový graf zobrazuje informace o poloze i variabilitě dat. Zachycujeme na něm různé charakteristiky a někdy může být žádoucí zobrazit si v grafu
Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
Přednáška č.7 Ing. Sylvie Riederová
Přednáška č.7 Ing. Sylvie Riederová 1. Aplikace klasifikace nákladů na změnu objemu výroby 2. Modelování nákladů Podstata modelování nákladů Nákladové funkce Stanovení parametrů nákladových funkcí Klasifikační
Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu
Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu Filip Trojan Applied Analytics Manager, Deloitte Advisory Listopad 2012 Obsah 1. Představení 2. Marketing versus analýza
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
Textové popisky. Typ dat
Textové popisky Newsletter Statistica ACADEMY Téma: Možnosti softwaru, datová reprezentace Typ článku: Tipy a triky Máte ve svých datech kategorie ve formě textu? Víme, že někdy není úplně jasné, jak Statistica
Obsah. Předmluva 9 Poděkování 10. Statistické pojmy
Obsah Předmluva 9 Poděkování 10 PRVNÍ ČÁST Statistické pojmy Kapitola 1 Základy matematiky 13 Množiny 13 Souvislosti a statistické funkce 16 Čísla 20 Rovnice o jedné neznámé 23 Jednoduché grafy 26 Modelování,
STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá
STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá 1) Lineární i nelineární regrese prostá, korelace Naeditujeme data viz obr. 1. Obr. 1 V menu Statistika zvolíme submenu Pokročilé lineární/nelineární
Programujeme v softwaru Statistica
Programujeme v softwaru Statistica díl třetí Newsletter Statistica ACADEMY Téma: Programování, makra, skripty Typ článku: Návody V předchozích článcích (díl první, díl druhý) jsme si osvětlili základní
PROJEKTOVÝ ZÁMĚR. Podkladové informace k realizaci projektu Smart city Zpracováno pro Komisi Rady hl.m. Prahy pro rozvoj konceptu Smart Cities
Příloha č. 1 Objednávka služeb - Dílčí příkaz PROJEKTOVÝ ZÁMĚR Podkladové informace k realizaci projektu Smart city Zpracováno pro Komisi Rady hl.m. Prahy pro rozvoj konceptu Smart Cities 1. Název projektu
Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013
Ambasadoři přírodovědných a technických oborů Ing. Michal Řepka Březen - duben 2013 Umělé neuronové sítě Proč právě Neuronové sítě? K čemu je to dobré? Používá se to někde v praxi? Úvod Umělé neuronové
ANALÝZA KONKURENCE CO JE PRO NÁS DŮLEŽITÉ. Veronika Ko MSFN Analýza konku
ANALÝZA KONKURENCE CO JE PRO NÁS DŮLEŽITÉ Obsah: Co je konkurence Konkurenční pozice Porterova analýza pěti sil Postup analýzy Matice pro přímé a nepřímé konkurenty Strategické mapy Co je konkurence Konkurence
Získávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007
Název školy: Základní škola a Mateřská škola Žalany Číslo projektu: CZ. 1.07/1.4.00/21.3210 Téma sady: Informatika pro sedmý až osmý ročník Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007
1 Modelování systémů 2. řádu
OBSAH Obsah 1 Modelování systémů 2. řádu 1 2 Řešení diferenciální rovnice 3 3 Ukázka řešení č. 1 9 4 Ukázka řešení č. 2 11 5 Ukázka řešení č. 3 12 6 Ukázka řešení č. 4 14 7 Ukázka řešení č. 5 16 8 Ukázka
Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
Genetické programování
Genetické programování Vyvinuto v USA v 90. letech J. Kozou Typické problémy: Predikce, klasifikace, aproximace, tvorba programů Vlastnosti Soupeří s neuronovými sítěmi apod. Potřebuje značně velké populace
1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,
KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce
Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague
1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,
Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
BA_EM Electronic Marketing. Pavel
BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?
A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)
A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h) 2.1 Základy marketingové strategie (2,5h) Učitelé se seznámí se základní marketingovou terminologií a s možnými cestami rozvoje firmy. V
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012
BIG DATA Nové úlohy pro nástroje v oblasti BI 27. listopadu 2012 AGENDA 1. Úvod 2. Jaké jsou potřeby? 3. Možné řešení 2 Jaké jsou potřeby? Dopady Analýza dat potřeba nového přístupu Jak na nestrukturovaná
1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15
Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních
IBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
Tvar dat a nástroj přeskupování
StatSoft Tvar dat a nástroj přeskupování Chtěli jste někdy použít data v jistém tvaru a STATISTICA Vám to nedovolila? Jistě se najde někdo, kdo se v této situaci již ocitl. Není ale potřeba propadat panice,
Instance based learning
Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění
Plánování ve stavební firmě
Co je to podnikatelský plán? Podnikatelský plán je dokument, který popisuje podnik (ideu pro stávající nebo začínající) a způsob, jak dosáhne ziskovosti Plán by měl zahrnovat: všechny náklady a marketingový
Úvod do dobývání. znalostí z databází
POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů
Praha6.cz. Správa moderního portálu
Praha6.cz Správa moderního portálu Praktické detaily Ochrana emailů před roboty. Formát např.: jméno{zavináč}praha6{tečka}.cz Účinné a praktické, ale chce to použít včas (ještě před kompromitací emailové
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
Proč a kdy selhávají klasické MIS. Petr Kučera, KOMIX s.r.o. Seminář CI Únor 2009, VŠE Praha
Copyright 2007 KOMIX Copyright s.r.o. 2009 KOMIX s.r.o. Proč a kdy selhávají klasické MIS Petr Kučera, KOMIX s.r.o. Seminář CI Únor 2009, VŠE Praha 1. Selhávají MIS nebo manažeři? Každou chvíli čteme zprávy
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu