prekrocena mez ukazatele kvality.

Podobné dokumenty
Moderní systémy pro získávání znalostí z informací a dat

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Popisná statistika. Komentované řešení pomocí MS Excel

Diagnostika regrese pomocí grafu 7krát jinak

Popisná statistika kvantitativní veličiny

Neuronové časové řady (ANN-TS)

Jana Vránová, 3. lékařská fakulta, UK Praha

Rozdělování dat do trénovacích a testovacích množin

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

StatSoft Jaký je mezi nimi rozdíl?

Tvar dat a nástroj přeskupování

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Strojové učení Marta Vomlelová

IBM SPSS Decision Trees

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

StatSoft Jak poznat vliv faktorů vizuálně

Metodologie pro ISK 2, jaro Ladislava Z. Suchá

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Z X H o d n o c e n í v l i v ů n a ž i v o t n í p r o s t ř e d í. Vybrané metody posuzování dopadu záměrů na životní

Pokročilé neparametrické metody. Klára Kubošová

Lineární regrese. Komentované řešení pomocí MS Excel

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

StatSoft Úvod do data miningu

Ing. Alena Šafrová Drášilová, Ph.D.

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Korelace. Komentované řešení pomocí MS Excel

StatSoft Jak vyzrát na datum

Nejvhodnější rozhodovací styl v daném kontextu

Úloha - rozpoznávání číslic

Statistická teorie učení

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Regresní a korelační analýza

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Ivana Kozlová. Modely analýzy obalu dat

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Testy do hodin - souhrnný test - 6. ročník

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Experimentální realizace Buquoyovy úlohy

Metodologie pro Informační studia a knihovnictví 2

Pokročilé neparametrické metody. Klára Kubošová

UČENÍ BEZ UČITELE. Václav Hlaváč

11. Trhy výrobních faktorů Průvodce studiem: 11.1 Základní charakteristika trhu výrobních faktorů Poptávka po VF Nabídka výrobního faktoru

Lineární klasifikátory

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality.

Měření závislosti statistických dat

Analýza výsledků maturit 2018 na Gymnáziu Teplice

Trénování sítě pomocí učení s učitelem

Fyzikální korespondenční seminář MFF UK

TPS1200 Setup Protínání zpět. Pozn.: některé dialogy TPS1200 musely být převzaty z orig. textu a jsou tudíž v angličtině

Regresní a korelační analýza

STATISTICKÉ ODHADY Odhady populačních charakteristik

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

KORELACE. Komentované řešení pomocí programu Statistica

3. Optimalizace pomocí nástroje Řešitel

StatSoft Jak se pozná normalita pomocí grafů?

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

2. Bodové a intervalové rozložení četností

StatSoft Úvod do neuronových sítí

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Pravděpodobně skoro správné. PAC učení 1

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Rozhodování. Ing. Alena Šafrová Drášilová, Ph.D.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Příprava dat v softwaru Statistica

Credit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna Brno

Asociační i jiná. Pravidla. (Ch )

3.3 Data použitá v analýze

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Regresní analýza. Eva Jarošová

Metody výběru variant

Cvičení 12: Binární logistická regrese

podnikatelských koncepcí, objasnit přístupy sektoru finančních služeb k trhu a

Předzpracování dat. Lenka Vysloužilová

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Téma 9: Vícenásobná regrese

Stanovení nejistot při výpočtu kontaminace zasaženého území

Studie webů automobilek

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

SLOŽENÉ ÚROKOVÁNÍ. částky naspořené po n letech při m úrokových obdobích za jeden rok platí formule

FAKULTA INFORMATIKY A MANAGEMENTU UNIVERZITA HRADEC KRÁLOVÉ VOLBA TECHNOLOGIE. Semestrální práce MIE2

DATA MINING KLASIFIKACE DMINA LS 2009/2010

7 Kardinální informace o kritériích (část 1)

Josef Keder, Lenka Janatová Český hydrometeorologický ústav

Protokol č. 7. Jednotné objemové křivky. Je zadána výměra porostu, výška dřevin a počty stromů v jednotlivých tloušťkových stupních.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Pearsonův korelační koeficient

Změkčování hranic v klasifikačních stromech

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Pokročilé operace s obrazem

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

PRŮZKUM VÝŽIVY LESA NA ÚZEMÍ ČESKÉ REPUBLIKY

Transkript:

Příklad efektivního využití dataminingových metod v oblasti kontroly kvality výroby Mgr. Petra Beranová Pokud hovoříme o data miningu (dolování dat), většina z nás si jako typické oblasti využití vybaví bankovní sektor, pojišťovny, telekomunikace či například marketing. Použití je samozřejmě daleko širší. Protože dataminingové metody přinášejí řadu nesporných výhod, prosazují se postupně s úspěchem v medicíně, genetickém inženýrství a také například v průmyslové sféře. A právě možnostem využití data miningu v průmyslu je věnován tento článek. Konkrétně se zaměříme na potravinářský průmysl a seznámíme se s aplikací dataminingových metod v oblasti kontroly kvality výroby. S jakými daty budeme pracovat a co je cílem? Soubor popcorn.sta obsahuje data z výrobní linky na praženou kukuřici popcorn. Aby byla výroba efektivní a bylo dosaženo požadované kvality popcornu, je třeba optimálně nastavit parametry výrobního procesu. Určitě nás tedy zajímá, co všechno má podstatný vliv na výslednou kvalitu popcornu a čeho je třeba se vyvarovat, aby kvalita výroby neklesla pod určité meze. Potřebujeme tedy sestavit model, který nám dokáže komplexně popsat vztahy mezi různými nastaveními jednotlivých parametrů výrobního procesu a kvalitou produktu. Tabulka 1: Vstupní data Vstupní data byla získána provedením testů s různým nastavením parametrů výrobního procesu (čísla testů jsou uvedena v prvním sloupci tabulky 1). Nastavení se týkala například obsahu CO 2, hmotnosti dávky, tlaku CO 2, teploty CO 2, ph, tlaku vzduchu, plnění O 2 atd. Kvalita vyrobeného popcornu se posuzovala na základě kvantitativní charakteristiky, uvedené jako ukazatel kvality ve třetím sloupci tabulky 1. 1

Jak nejlépe posoudit kvalitu výroby? Samozřejmě je mnoho způsobů, jak můžeme kvalitu posoudit. Pokud chceme mít komplexní pohled na situaci a podchytit i různé složitější vztahy v datech, nabízí se právě možnost použití dataminingových metod. V následujících odstavcích si popíšeme jeden z řady možných přístupů využívajících metody data miningu. Vlastní analýza Ať už se jedná o jakoukoli analýzu, je pochopitelně třeba znát co nejlépe věcnou povahu dat. Na základě expertní analýzy se ukázalo, že kvalita popcornu výrazně klesá, pokud sledovaný ukazatel kvality roste nad mez 0,15. Tím můžeme celý pohled na data zjednodušit a zajímat se o to, zda se hodnota ukazatele kvality dostane pod nebo nad 0,15. Proměnná prekrocena mez ukazatele kvality, která tuto informaci obsahuje, je uvedena v tabulce 1 ve čtvrtém sloupci. Nabývá hodnot 0 a 1 (0 = hodnota 0,15 nebyla překročena, 1 = hodnota 0,15 byla překročena). Dále je třeba poznamenat, že v uvedené analýze se zaměřujeme výhradně na regulovatelné faktory, i když samozřejmě výsledná kvalita popcornu závisí také na faktorech neregulovatelných. Celkově tedy v jednotlivých testech nastavujeme 31 různých parametrů. Sledujeme vliv těchto nastavení a hledáme nejdůležitější faktory, které nejlépe rozlišují mezi hodnotami ukazatele kvality pod a nad mezí 0,15. Pomocí těchto faktorů pak dokážeme vysvětlit příčinu variability ukazatele kvality a efektivně ovlivňovat kvalitu výroby. Jak bude náš model konkrétně vypadat? Závislou proměnnou je kategorická proměnná prekrocena mez ukazatele kvality. Z obrázku 1 je patrné, které charakteristiky na ni mají největší vliv. Obrázek 1: Graf důležitosti vlivu vstupních parametrů 2

Největší vliv má parametr nastaveni polohy nadoby. Mezi další důležité parametry patří tlak_h1, tlak_h3, tlak_h2, MFR, prutok CO 2 atd. (řazeno podle klesajícího vlivu). Pro náš model využijeme 15 faktorů, které jsou nejvíce spojovány s kvalitou výroby popcornu. Počet vstupních proměnných jsme tedy zredukovali z původních 31 na 15. S redukcí samozřejmě souvisí také jednodušší interpretace modelu a méně náročné nasazení v praxi. V našem dataminingovém projektu použijeme různé klasifikační modely a poté vyhodnotíme, který přístup k datům vede k dosažení nejlepších výsledků. Pro analýzu využijeme rozhodovací stromy CHAID, boosted stromy, MARSpliny a support vector machines. Účinnost jednotlivých modelů se v praxi velmi často posuzuje na základě různých typů grafů, jako je například graf navýšení (lift chart) či ROC (Receiver Operating Characteristic) křivka. Jejich výhodou je přehlednost a jednoduchá orientace ve výsledcích. Grafy také mívají mnohem větší přesvědčovací schopnost při jednání s managementem. V našem případě využijeme oblíbený lift chart. Obrázek 2: Lift chart posuzující míru efektivity jednotlivých modelů Na obrázku 2 je znázorněn jeden z typů lift chartu % Response Lift Chart. Graf vlevo posuzuje úspěšnost klasifikace do skupiny 0 (hodnota ukazatele kvality nepřekročila mez 0,15). Graf vpravo posuzuje úspěšnost klasifikace do skupiny 1 (hodnota ukazatele kvality překročila mez 0,15). Zaměřme se nyní na graf vlevo. Modrá křivka (baseline) odpovídá situaci, kdy nepoužijeme ke klasifikaci žádný model. Můžeme z ní vyčíst, že zastoupení skupiny 0 v daném souboru je 68%. Ostatní křivky ukazují, jaký efekt přinese použití jednotlivých modelů. Čím více se křivka blíží pravému hornímu rohu, tím lépe model klasifikuje. V naší datové sadě tedy nejlépe klasifikují boosted stromy (na obrázku 2 jsou označeny růžovou barvou). Proč tomu tak je? Lift chart vlevo znázorňuje procentní zastoupení vzorků ze skupiny 0 v určité části datové sady, jejíž prvky jsou seřazeny podle pravděpodobnosti příslušnosti ke skupině 0. Tato pravděpodobnost je vypočtena klasifikačním modelem. Vezměme z celého souboru 20 % vzorků, kterým boosted stromy předpověděly nejvyšší pravděpodobnost, že náleží do skupiny 0 (tj. první dva decily, které jsou odděleny svislou čerchovanou čárou). Díky použitému modelu je v tomto výběru 93 % prvků klasifikovaných do skupiny 0. Je to tedy výrazně více, než kdybychom nepoužili žádný model. V takovém případě by zastoupení 3

skupiny 0 v daném vzorku bylo jen 68%. Pokud spočítáme podíl 93 % / 68 %, dostaneme hodnotu navýšení (liftu). Lift vyjadřuje, jak je model efektivní. V našem případě dostáváme hodnotu liftu 1,37. Tedy jinými slovy pomocí boosted stromů dokážeme vybrat 20 % vzorků (první dva decily) tak, že výběr bude obsahovat 1,37krát více vzorků ze skupiny 0, než by tomu bylo bez použití modelu (baseline). Podobně můžeme interpretovat výsledky, které vidíme na obrázku 2 vpravo. Uvažujme opět první dva decily. V efektivitě klasifikace do skupiny 1 zvítězily MARSpliny s liftem 78 % / 32 % = 2,44 vůči baseline. Nyní záleží na odborných znalostech a heuristice, kolik prvních decilů budeme uvažovat pro výběr nejlepšího modelu. Než podrobněji prozkoumáme přesnost, které vítězné modely dosáhly na testovacích datech, popišme si stručně principy těchto metod. Boosting je poměrně nový algoritmus trénování modelů. Jeho základní princip spočívá v tom, že opakovanou změnou vah jednotlivých pozorování vytváří i ze slabých modelů modely velice silné. Výsledkem je pak skupina (třeba i několika set) slabých modelů, z nichž každý je expertem na jednotlivé části vstupního prostoru. Vícerozměrné adaptivní regresní spliny (MARSplines) lze navzdory jménu využít pro klasifikační i regresní problémy s kategoriálními i spojitými vstupními veličinami. MARSpliny jsou neparametrickou modelovací procedurou a nekladou žádné nároky na vztahy mezi vstupními a výstupními proměnnými. Konstrukce modelu místo toho spočívá v určení koeficientů a počtu jednoduchých bázových funkcí. Jejich konstrukce je svým způsobem podobná konstrukci stromů typu C&RT. Velice dobře se uplatňují při řešení úloh s mnoha vstupními proměnnými, kde by jiným metodám mohlo dělat problémy tzv. prokletí rozměrnosti, tj. prudce narůstající výpočetní složitost při použití teoreticky optimálních postupů. Nyní se vraťme k posouzení přesnosti, s jakou naše modely dokážou klasifikovat. Využijeme kontingenční tabulky pro pozorované versus predikované hodnoty závislé proměnné prekrocena mez ukazatele kvality. Tabulka 2: Kontingenční tabulka znázorňující úspěšnost klasifikace pomocí boosted stromů Celková úspěšnost boosted stromů je 77,52 %. Předmětem našeho zájmu je skupina, ve které hodnota ukazatele kvality překročila mez 0,15. Úspěšnost boosted stromů v klasifikaci do této skupiny je 66,99 % (viz tabulka 2). 4

Tabulka 3: Kontingenční tabulka znázorňující úspěšnost klasifikace pomocí MARSplinů Pokud jde o MARSpliny, celková úspěšnost je ještě o něco vyšší 78,98 %. Vzorky, u nichž hodnota ukazatele kvality překročila mez 0,15, model správně klasifikuje z 51,13 % (viz tabulka 3). S jakou přesností klasifikují ostatní modely v porovnání s výše uvedenými? Vše je přehledně vidět v tabulce 4. Tabulka 4: Porovnání přesnosti klasifikačních modelů Metoda support vector machines má druhou nejvyšší celkovou klasifikační sílu. Avšak vzorků s hodnotou ukazatele kvality vyšší než 0,15 dokáže tato metoda identifikovat jen 47,9 %. Nejméně v našem případě uspěly rozhodovací stromy CHAID. Pro naše potřeby jsou tedy nejlepšími klasifikátory boosted stromy a MARSpliny. Při rozhodování je třeba také mít na paměti, kolik procent vzorků s hodnotou ukazatele kvality nižší než 0,15 je klasifikováno chybně. Pokud je při výrobě využíván systém alarmů, vede takováto chybná klasifikace ke spuštění falešného alarmu, což může zbytečně způsobit prostoje ve výrobě. Nicméně nejlépe dokážou identifikovat stěžejní skupinu vzorků s ukazatelem kvality vyšším než 0,15 boosted stromy. Finální rozhodnutí, který model zvolit, závisí na mnoha faktorech a vždy je třeba rozhodovat na základě komplexních informací o konkrétním výrobním procesu. 5

Závěr Cílem výše uvedeného dataminingového modelování bylo nalezení prediktivního modelu, který dokáže odhalit riziko poklesu kvality výroby popcornu ještě dříve, než dojde k vlastní výrobě, a tak eliminovat možné ztráty. Model natrénovaný a ověřený na historických datech, u nichž známe kvalitu výstupu, můžeme nyní aplikovat na aktuální data, a zajistit tak efektivní kontrolu kvality výroby v reálném čase. Výrobní společnosti jsou díky silné konkurenci nuceny optimalizovat výrobní procesy. Hledají sofistikované a ekonomicky výhodné způsoby řízení a kontroly kvality výrobního procesu pomocí modelování a simulací. Metody demonstrované v tomto článku mohou při řízení a kontrole kvality výrobního procesu výrazně pomoci. V dataminingových technologiích je skrytý velký potenciál. Nasazování v praxi je postupné a masivní využití i v menších výrobních společnostech je věcí budoucnosti. Nicméně praxe již ukázala, že dataminingové aplikace přinášejí zvýšení efektivity v mnoha výrobních procesech. Autorka působí jako senior consultant ve společnosti StatSoft CR. Copyright 2008 StatSoft CR s.r.o. 6