VYUŽITÍ STATISTICKÝCH NÁSTROJŮ K PREDIKCI VZNIKU VLASOVÝCH TRHLIN VE VÝKOVCÍCH NA ZÁKLADĚ TAVBOVÉHO OBSAHU VODÍKU USE OF STATISTIC TOOLS FOR PREDICTION OF FORMATION OF FINE CRACKS IN FORGINGS ON THE BASIS OF HEAT CONTENT OF HYDROGEN Adam Kracík ŠKODA STEEL s.r.o. člen konsorcia ŠKODA STEEL Tylova 1/57, 316 00 Plzeň adam.kracik@skoda-steel.cz Abstrakt: Tento příspěvek je inspirován reálným problémem, při jehož řešení došlo k mezioborové spolupráci materiálového experta a matematika. Tato spolupráce se ukázala jako velice přínosná a produktivní. Je zřejmé, že jednotlivé vědní disciplíny by se neměli uzavírat do sebe a tvořit tak izolované ostrůvky, ale společně se snažit posunout naše vědění zase o kousek dál, otvírat nám oči a ukazovat to, co jsme dosud neviděli! Na mezioborové spolupráci je nejzajímavější její poměr cena/výkon, kdy jednotliví spolupracovníci nemusejí vynaložit tolik sil, na rozdíl od bádání na vlastní pěst, mezi úzkými mantinely svého vědního oboru. Nejvíce sil však paradoxně stojí umět naslouchat a snažit se porozumět tomu druhému. Abychom porozuměli, je třeba vědět, že horizont našeho oboru není horizontem světa, ale právě jen ta nejasně definovaná mez naší disciplíny O přínosu statistických metod všude tam, kde je dostatek dat, nemůže být dnes již pochyb. Jedině statistické metody dokáží vydolovat z nasbíraných dat objektivní a tedy lidským úsudkem nezkreslené informace. Často se ale setkáváme s malými soubory dat, které navíc nesplňují mnohdy požadované předpoklady. Dokáže být matematická statistika přínosem i v těchto případech? Abstract: This paper has been inspired by an actual problem whose solution involved interprofessional cooperation between a material expert and a mathematician. This cooperation proved to be very beneficial and effective. It is obvious that individual science branches should not work separately and create isolated islands but in joint effort they should try to advance our knowledge ever further, open our eyes and show what we have not been able to see so far! The most attractive feature of cooperation between individual science branches is its price/performance ratio, when individual co-workers must not exert too much power compared to research performed separately within the narrow boundaries of their branch. However, the greatest effort paradoxically has to be exerted when trying to learn to listen and understand the other side. To understand the other party, you need to be aware of the fact that the horizon of your branch is not the utmost horizon there is, but just the vaguely defined limit of your branch There is no doubt about the benefit of statistic methods in all situations with sufficient amount of data. Only statistic methods may find objective information i.e. not biased by human opinion in the collected data. However, we often come across small sets of data which often do not comply with the required conditions. May mathematic statistics be a contribution even in such cases? 1
1. ÚVOD Při výrobě velkých zalomených hřídelí z legované oceli a ingotů o hmotnosti 55t 70t se vyskytl problém praskání těchto hřídelí během tepelného zpracování. Byla vyslovena hypotéza, že na vznik trhlin ve výkovcích by mohl mít vliv obsah vodíku v materiálu. Přestože obsahy vodíků v modelovém příkladu se pohybují pod obecně uznávanou hranicí nebezpečnosti, mohl by mít tento vysoce reaktivní prvek v souvislosti s tepelným zpracováním špatný vliv. Bylo tedy rozhodnuto sesbírat data z výroby za poslední 2 roky a pomocí statistických metod a softwaru Minitab je vyhodnotit. H 2 výsledek1 H 2 výsledek1 H 2 výsledek1 H 2 výsledek1 H 2 výsledek1 1,3 T 1,0 OK 0,5 OK 0,5 OK 0,8? 1,1 T 0,5 OK 0,9 OK 0,9 OK 0,6? 0,7 OK 0,8 OK 0,5 OK 0,9 OK 0,5? 1,0 OK 0,7 OK 0,8 OK 1,0 T 0,8? 0,9 OK 0,5 OK 0,5 OK 0,5 OK 0,7? 0,8 T 1,0 OK 0,5 OK 1,0 T 0,5? 1 OK 0,7 OK 0,8 OK 1,2? 0,5? Tab.1 Obsahy vodíku [% ppm]; trhliny jsou označeny barevně Tab.1 Content of hydrogen [% ppm]; cracks are marked in colour 2. ZOBRAZENÍ DAT Vhodné grafické zobrazení dat je vždy prvním krokem, který umožňuje udělat si dobrou představu o procesu výroby a zároveň generovat hypotézy, které jsou po té vyhodnocovány matematicko-statistickými testy. Obr.1 Bodový graf rozložení obsahu H 2 ve výkovcích Fig.1 Scatter diagram of distribution of content of H 2 in forgings 2
Přestože tento graf podporuje vyslovenou hypotézu, objektivní odpověď můžeme dostat pouze po použití statistického testu. Protože normalita dat byla zamítnuta (Obr.2), nemůžeme použít dvouvýběrový t-test a musíme se obrátit na neparametrické metody. (Normalitu dat zamítáme pro p-hodnotu 0,05.) Obr.2 Test Normálního rozdělení Fig.2 Test of normal distribution 3. DVOUVÝBĚROVÝ WILCOXONŮV TEST Mnoho statistických testů je založeno na různých omezujících předpokladech. Z pravidla na požadavku normálního rozdělení, shodnosti rozptylů či spojitosti. Často však pracujeme s výběry poměrně malých rozsahů, kde porušení normality má mnohem větší negativní důsledky než u velkých rozsahů. Pro práci s nimi byly vypracovány tzv.neparametrické metody, které nepotřebují předpoklad o konkrétním typu rozdělení. Neparametrickou obdobou dvouvýběrového t-testu je dvouvýběrový Wilcoxonův test. Při testování, zda oba výběrové soubory pochází ze stejné populace, nebudeme používat střední hodnoty, ale mediány obou výběrů. Vyhodnocení proběhlo pomocí softwaru Minitab. Po zadání vstupních dat, provedl Minitab následující výpočet (Obr.3). Pomocí p-hodnoty = 0,0052 (resp.0,0044) zamítáme nulovou hypotézu, že oba výběrové soubory pocházejí ze stejné populace. Jinými slovy, výběr obsahující výkovky s trhlinami (H2_T), jehož medián je rovný 1, se statisticky významně liší od výběru výkovků bez trhlin (H2_OK), jehož medián je 0,75. (Nulovou hypotézu zamítáme, je-li p-hodnota zvolené hladině testu.) 3
Obr.3 Výpočet Wilcoxonova testu pomocí Minitabu Fig.3 Calculation of Wilcoxon test using Minitab 4. LOGISTICKÁ REGRESE Logistická regrese je nástroj pro modelování vztahu mezi jednou či více vstupními proměnnými X a diskrétní výstupní proměnou Y. V našem případě bude výstupní proměnnou Y výskyt trhlin ve výkovcích. Tato proměnná nabývá pouze dvou hodnot (1, 0 ano, ne) a proto je diskrétní. Vstupní proměnnou bude tavbový obsah vodíku. Tato proměnná je spojitého charakteru. Jelikož Y není spojité, je na místo něj modelována pravděpodobnost jeho výskytu P(Y=1). Logistický model pro výpočet pravděpodobnosti má tento tvar (Vzorec1). b e 1+ e + b 0 1 ( = 1 ) = b + b x P Y Vzorec1: Logistický model pravděpodobnosti Formula 1: Logistic model of probability 0 x 1 V Minitabu byla vypočtena konstanta b 0 a koeficient b 1. Pomocí p-hodnot byla ověřena adekvátnost modelu a významnost b 0 a b 1. U koeficientu b 1 však musíme přimhouřit oči, protože nebyla splněna podmínka 95%, ale 94% spolehlivosti jeho významnosti (Obr.4). 4
Obr.4 Výpočet Logistické regrese a její ověření pomocí Minitabu Fig.4 Calculation of logistic regression and its verification by means of Minitab Obr.4: b 0 = Konstant = -11,6065 p-hodnota = 0,041 b 1 = H2 = 11,1656 p-hodnota = 0,057 Po dosazení b 0, b 1 a x do vzorce1, můžeme vykreslit graf pravděpodobnosti modelující pravděpodobnost výskytu trhlin v závislosti na tavbovém obsahu vodíku (Obr.5). Při dosazení x = 1,2 do vzorce 1 vyjde pravděpodobnost vzniku trhliny 85.7%. To znamená, že u dosud nevyšetřeného výkovku s tavbovým obsahem vodíku 1,2 je více než 85% pravděpodobnost vzniku trhlin. 5
Obr.5 Pravděpodobnost výskytu trhlin v závislosti na obsahu H 2 Fig.5 Probability of occurrence of cracks in dependence on heat content of H 2 5. ČÁSTEČNÝ ZÁVĚR - Pomocí dvouvýběrového Wilcoxova testu byl prokázán vliv tavbového obsahu vodíku na vznik trhlin při vychlazování výkovku. - Pomocí Logaritmické regrese byl tento vztah vymodelován formou pravděpodobnostní fce výskytu trhlin v závislosti na tavbovém obsahu vodíku. 6. POKRAČOVÁNÍ MODELOVÉHO PŘÍKLADU Po půl roce byl doplněn sběr dat z tabulky 1 (Tab.2), pro ověření a zpřesnění prvních závěrů. Z osmi nevyšetřených kusů z tabulky 1 byly v jednom případě indikovány trhliny, ostatní výkovky byly bez trhlin. H 2 výsledek2 H 2 výsledek2 H 2 výsledek2 H 2 výsledek2 H 2 výsledek2 1,3 T 1,0 OK 0,5 OK 0,5 OK 0,8 OK 1,1 T 0,5 OK 0,9 OK 0,9 OK 0,6 OK 0,7 OK 0,8 OK 0,5 OK 0,9 OK 0,5 OK 1,0 OK 0,7 OK 0,8 OK 1,0 T 0,8 OK 0,9 OK 0,5 OK 0,5 OK 0,5 OK 0,7 OK 0,8 T 1,0 OK 0,5 OK 1,0 T 0,5 OK 1 OK 0,7 OK 0,8 OK 1,2 T 0,5 OK Tab.2 Doplněná data Tab.2 Complemented data Zobrazení doplněných dat: 6
Obr.6 Bodový graf doplněných dat Fig.6 Scatter diagram of complemented data Wilkoxonův test 2 z doplněných hodnot pouze potvrdil závěr z předcházející části o zamítnutí hypotézy, že oba výběry pocházejí ze stejné populace (Obr.6). Obr.7 Výpočet Wilkoxonova testu 2 Fig.7 Calculation of Wilcoxon test 2 Logistická regrese doplněných dat: Koeficienty regresní fce vyšly tentokrát takto: b 0 = -13,4068 p-hodnota = 0,018 b 1 = 13,0225 p-hodnota = 0,025 Podmínka 95% spolehlivosti významnosti b 0 i b 1 je tentokrát splněna beze zbytku. 7
Obr.8 Výpočet Logistické regrese 2 a její ověření Fig.8 Calculation of logistic regression 2 an its verification Grafické zobrazení pravděpodobnosti: Následující graf porovnává křivku pravděpodobnosti výskytu trhlin prvního výpočtu (přerušovaná čára) a křivku pravděpodobnosti vycházející z doplněných dat (plná čára). Dá se konstatovat, že došlo pouze ke kosmetickým úpravám, nicméně lépe vycházející p-hodnoty ve výpočtu na Obr.7 činí tento výpočet a graf legitimnější. 8
Obr.9 Pravděpodobnost výskytu trhlin v závislosti na obsahu H 2 Fig.9 Probability of occurrence of cracks in dependence on the content of H 2 7. ZÁVĚR - Výpočet s doplněnými daty upřesnil a potvrdil správnost částečného závěru. - Na modelovém přikladu bylo demonstrováno užití dvou statistických testů, přestože výběrový soubor obsahoval pouze 27 respektive 35 hodnot. Správnost a korektnost byla v obou příkladech potvrzena p-hodnotami. Literatura: [1] ANDĚL J.: Matematická statistika, SNTL 1978 [2] ANDĚL J.: Statistické metody, MFF UK 1998 9