prekrocena mez ukazatele kvality.

Příklad efektivního využití dataminingových metod v oblasti kontroly kvality výroby Mgr. Petra Beranová Pokud hovoříme o data miningu (dolování dat), většina z nás si jako typické oblasti využití vybaví bankovní sektor, pojišťovny, telekomunikace či například marketing. Použití je samozřejmě daleko širší. Protože dataminingové metody přinášejí řadu nesporných výhod, prosazují se postupně s úspěchem v medicíně, genetickém inženýrství a také například v průmyslové sféře. A právě možnostem využití data miningu v průmyslu je věnován tento článek. Konkrétně se zaměříme na potravinářský průmysl a seznámíme se s aplikací dataminingových metod v oblasti kontroly kvality výroby. S jakými daty budeme pracovat a co je cílem? Soubor popcorn.sta obsahuje data z výrobní linky na praženou kukuřici popcorn. Aby byla výroba efektivní a bylo dosaženo požadované kvality popcornu, je třeba optimálně nastavit parametry výrobního procesu. Určitě nás tedy zajímá, co všechno má podstatný vliv na výslednou kvalitu popcornu a čeho je třeba se vyvarovat, aby kvalita výroby neklesla pod určité meze. Potřebujeme tedy sestavit model, který nám dokáže komplexně popsat vztahy mezi různými nastaveními jednotlivých parametrů výrobního procesu a kvalitou produktu. Tabulka 1: Vstupní data Vstupní data byla získána provedením testů s různým nastavením parametrů výrobního procesu (čísla testů jsou uvedena v prvním sloupci tabulky 1). Nastavení se týkala například obsahu CO 2, hmotnosti dávky, tlaku CO 2, teploty CO 2, ph, tlaku vzduchu, plnění O 2 atd. Kvalita vyrobeného popcornu se posuzovala na základě kvantitativní charakteristiky, uvedené jako ukazatel kvality ve třetím sloupci tabulky 1. 1

Jak nejlépe posoudit kvalitu výroby? Samozřejmě je mnoho způsobů, jak můžeme kvalitu posoudit. Pokud chceme mít komplexní pohled na situaci a podchytit i různé složitější vztahy v datech, nabízí se právě možnost použití dataminingových metod. V následujících odstavcích si popíšeme jeden z řady možných přístupů využívajících metody data miningu. Vlastní analýza Ať už se jedná o jakoukoli analýzu, je pochopitelně třeba znát co nejlépe věcnou povahu dat. Na základě expertní analýzy se ukázalo, že kvalita popcornu výrazně klesá, pokud sledovaný ukazatel kvality roste nad mez 0,15. Tím můžeme celý pohled na data zjednodušit a zajímat se o to, zda se hodnota ukazatele kvality dostane pod nebo nad 0,15. Proměnná prekrocena mez ukazatele kvality, která tuto informaci obsahuje, je uvedena v tabulce 1 ve čtvrtém sloupci. Nabývá hodnot 0 a 1 (0 = hodnota 0,15 nebyla překročena, 1 = hodnota 0,15 byla překročena). Dále je třeba poznamenat, že v uvedené analýze se zaměřujeme výhradně na regulovatelné faktory, i když samozřejmě výsledná kvalita popcornu závisí také na faktorech neregulovatelných. Celkově tedy v jednotlivých testech nastavujeme 31 různých parametrů. Sledujeme vliv těchto nastavení a hledáme nejdůležitější faktory, které nejlépe rozlišují mezi hodnotami ukazatele kvality pod a nad mezí 0,15. Pomocí těchto faktorů pak dokážeme vysvětlit příčinu variability ukazatele kvality a efektivně ovlivňovat kvalitu výroby. Jak bude náš model konkrétně vypadat? Závislou proměnnou je kategorická proměnná prekrocena mez ukazatele kvality. Z obrázku 1 je patrné, které charakteristiky na ni mají největší vliv. Obrázek 1: Graf důležitosti vlivu vstupních parametrů 2

Největší vliv má parametr nastaveni polohy nadoby. Mezi další důležité parametry patří tlak_h1, tlak_h3, tlak_h2, MFR, prutok CO 2 atd. (řazeno podle klesajícího vlivu). Pro náš model využijeme 15 faktorů, které jsou nejvíce spojovány s kvalitou výroby popcornu. Počet vstupních proměnných jsme tedy zredukovali z původních 31 na 15. S redukcí samozřejmě souvisí také jednodušší interpretace modelu a méně náročné nasazení v praxi. V našem dataminingovém projektu použijeme různé klasifikační modely a poté vyhodnotíme, který přístup k datům vede k dosažení nejlepších výsledků. Pro analýzu využijeme rozhodovací stromy CHAID, boosted stromy, MARSpliny a support vector machines. Účinnost jednotlivých modelů se v praxi velmi často posuzuje na základě různých typů grafů, jako je například graf navýšení (lift chart) či ROC (Receiver Operating Characteristic) křivka. Jejich výhodou je přehlednost a jednoduchá orientace ve výsledcích. Grafy také mívají mnohem větší přesvědčovací schopnost při jednání s managementem. V našem případě využijeme oblíbený lift chart. Obrázek 2: Lift chart posuzující míru efektivity jednotlivých modelů Na obrázku 2 je znázorněn jeden z typů lift chartu % Response Lift Chart. Graf vlevo posuzuje úspěšnost klasifikace do skupiny 0 (hodnota ukazatele kvality nepřekročila mez 0,15). Graf vpravo posuzuje úspěšnost klasifikace do skupiny 1 (hodnota ukazatele kvality překročila mez 0,15). Zaměřme se nyní na graf vlevo. Modrá křivka (baseline) odpovídá situaci, kdy nepoužijeme ke klasifikaci žádný model. Můžeme z ní vyčíst, že zastoupení skupiny 0 v daném souboru je 68%. Ostatní křivky ukazují, jaký efekt přinese použití jednotlivých modelů. Čím více se křivka blíží pravému hornímu rohu, tím lépe model klasifikuje. V naší datové sadě tedy nejlépe klasifikují boosted stromy (na obrázku 2 jsou označeny růžovou barvou). Proč tomu tak je? Lift chart vlevo znázorňuje procentní zastoupení vzorků ze skupiny 0 v určité části datové sady, jejíž prvky jsou seřazeny podle pravděpodobnosti příslušnosti ke skupině 0. Tato pravděpodobnost je vypočtena klasifikačním modelem. Vezměme z celého souboru 20 % vzorků, kterým boosted stromy předpověděly nejvyšší pravděpodobnost, že náleží do skupiny 0 (tj. první dva decily, které jsou odděleny svislou čerchovanou čárou). Díky použitému modelu je v tomto výběru 93 % prvků klasifikovaných do skupiny 0. Je to tedy výrazně více, než kdybychom nepoužili žádný model. V takovém případě by zastoupení 3

skupiny 0 v daném vzorku bylo jen 68%. Pokud spočítáme podíl 93 % / 68 %, dostaneme hodnotu navýšení (liftu). Lift vyjadřuje, jak je model efektivní. V našem případě dostáváme hodnotu liftu 1,37. Tedy jinými slovy pomocí boosted stromů dokážeme vybrat 20 % vzorků (první dva decily) tak, že výběr bude obsahovat 1,37krát více vzorků ze skupiny 0, než by tomu bylo bez použití modelu (baseline). Podobně můžeme interpretovat výsledky, které vidíme na obrázku 2 vpravo. Uvažujme opět první dva decily. V efektivitě klasifikace do skupiny 1 zvítězily MARSpliny s liftem 78 % / 32 % = 2,44 vůči baseline. Nyní záleží na odborných znalostech a heuristice, kolik prvních decilů budeme uvažovat pro výběr nejlepšího modelu. Než podrobněji prozkoumáme přesnost, které vítězné modely dosáhly na testovacích datech, popišme si stručně principy těchto metod. Boosting je poměrně nový algoritmus trénování modelů. Jeho základní princip spočívá v tom, že opakovanou změnou vah jednotlivých pozorování vytváří i ze slabých modelů modely velice silné. Výsledkem je pak skupina (třeba i několika set) slabých modelů, z nichž každý je expertem na jednotlivé části vstupního prostoru. Vícerozměrné adaptivní regresní spliny (MARSplines) lze navzdory jménu využít pro klasifikační i regresní problémy s kategoriálními i spojitými vstupními veličinami. MARSpliny jsou neparametrickou modelovací procedurou a nekladou žádné nároky na vztahy mezi vstupními a výstupními proměnnými. Konstrukce modelu místo toho spočívá v určení koeficientů a počtu jednoduchých bázových funkcí. Jejich konstrukce je svým způsobem podobná konstrukci stromů typu C&RT. Velice dobře se uplatňují při řešení úloh s mnoha vstupními proměnnými, kde by jiným metodám mohlo dělat problémy tzv. prokletí rozměrnosti, tj. prudce narůstající výpočetní složitost při použití teoreticky optimálních postupů. Nyní se vraťme k posouzení přesnosti, s jakou naše modely dokážou klasifikovat. Využijeme kontingenční tabulky pro pozorované versus predikované hodnoty závislé proměnné prekrocena mez ukazatele kvality. Tabulka 2: Kontingenční tabulka znázorňující úspěšnost klasifikace pomocí boosted stromů Celková úspěšnost boosted stromů je 77,52 %. Předmětem našeho zájmu je skupina, ve které hodnota ukazatele kvality překročila mez 0,15. Úspěšnost boosted stromů v klasifikaci do této skupiny je 66,99 % (viz tabulka 2). 4

Tabulka 3: Kontingenční tabulka znázorňující úspěšnost klasifikace pomocí MARSplinů Pokud jde o MARSpliny, celková úspěšnost je ještě o něco vyšší 78,98 %. Vzorky, u nichž hodnota ukazatele kvality překročila mez 0,15, model správně klasifikuje z 51,13 % (viz tabulka 3). S jakou přesností klasifikují ostatní modely v porovnání s výše uvedenými? Vše je přehledně vidět v tabulce 4. Tabulka 4: Porovnání přesnosti klasifikačních modelů Metoda support vector machines má druhou nejvyšší celkovou klasifikační sílu. Avšak vzorků s hodnotou ukazatele kvality vyšší než 0,15 dokáže tato metoda identifikovat jen 47,9 %. Nejméně v našem případě uspěly rozhodovací stromy CHAID. Pro naše potřeby jsou tedy nejlepšími klasifikátory boosted stromy a MARSpliny. Při rozhodování je třeba také mít na paměti, kolik procent vzorků s hodnotou ukazatele kvality nižší než 0,15 je klasifikováno chybně. Pokud je při výrobě využíván systém alarmů, vede takováto chybná klasifikace ke spuštění falešného alarmu, což může zbytečně způsobit prostoje ve výrobě. Nicméně nejlépe dokážou identifikovat stěžejní skupinu vzorků s ukazatelem kvality vyšším než 0,15 boosted stromy. Finální rozhodnutí, který model zvolit, závisí na mnoha faktorech a vždy je třeba rozhodovat na základě komplexních informací o konkrétním výrobním procesu. 5

Závěr Cílem výše uvedeného dataminingového modelování bylo nalezení prediktivního modelu, který dokáže odhalit riziko poklesu kvality výroby popcornu ještě dříve, než dojde k vlastní výrobě, a tak eliminovat možné ztráty. Model natrénovaný a ověřený na historických datech, u nichž známe kvalitu výstupu, můžeme nyní aplikovat na aktuální data, a zajistit tak efektivní kontrolu kvality výroby v reálném čase. Výrobní společnosti jsou díky silné konkurenci nuceny optimalizovat výrobní procesy. Hledají sofistikované a ekonomicky výhodné způsoby řízení a kontroly kvality výrobního procesu pomocí modelování a simulací. Metody demonstrované v tomto článku mohou při řízení a kontrole kvality výrobního procesu výrazně pomoci. V dataminingových technologiích je skrytý velký potenciál. Nasazování v praxi je postupné a masivní využití i v menších výrobních společnostech je věcí budoucnosti. Nicméně praxe již ukázala, že dataminingové aplikace přinášejí zvýšení efektivity v mnoha výrobních procesech. Autorka působí jako senior consultant ve společnosti StatSoft CR. Copyright 2008 StatSoft CR s.r.o. 6