Vysoká škola báňská Technická univerzita Ostrava Hornicko-geologická fakulta DÁLKOVÝ PRŮZKUM ZEMĚ (Neřízená klasifikace) Tomáš Peňáz Ostrava, 2014
Vysoká škola báňská Technická univerzita Ostrava Hornicko-geologická fakulta DÁLKOVÝ PRŮZKUM ZEMĚ (Neřízená klasifikace) Tomáš Peňáz Ostrava, 2014
Obsah 1 Úvod... 2 2 Cíle cvičení... 3 3 Data a programové vybavení... 3 4 Časová náročnost... 3 5 Geografické vymezení území... 3 6 Postup zpracování... 4 6.1 Shluková analýza... 5 6.2 Interpretace shluků... 10 7 Úkoly pro samostatnou práci... 11
1 Úvod Ve cvičení nazvaném Interpretační znaky, interpretace obrazových dat, jsme prováděli vyhodnocení obrazových dat na základě vizuálního vjemu. Vjem, získaný pozorováním obrazu, doplňujeme svými znalostmi a zkušenostmi. Před zahájením interpretace máme možnost obrazová data zvýraznit a tím usnadnit vnímání části obsahu, který by zůstal za normálních okolností skrytý. Digitální obrazová data, získaná metodou DPZ, však mohou nést informace, které pro člověka nejsou bezprostředně viditelné. Takovou možnost poskytují především digitální obrazová data, získaná skenováním v intervalech vlnových délek, na něž není lidské oko citlivé. Potenciál využitelných informací skrývají obrazová data, tvořená N obrazovými pásmy, tedy tzv. víceobraz. V takových datech bývají informace zakódovány v několika pásmech současně. Jedná se především o multispektrální nebo hyperspektrální data, jejichž automatizované vyhodnocení je zajišťováno různými metodami klasifikace. Hyperspektrální data sestávají z obrazových pásem, odpovídajících N intervalům vlnových délek, které jsou relativně úzké a kontinuálně pokrývají určitý interval, označovaný jako atmosférické okno. Získání a vyhodnocení požadovaných informací z hyperspektrálních dat se provádí některou ze skupiny specializovaných metod. Pojmem multispektrální obrazová data, je nejčastěji označován víceobraz, jehož pásma odpovídají diskrétním intervalům vlnových délek a pro který platí: N 3; 10 Horní hranice počtu pásem pro multispektrální obrazová data není přesně stanovena, takže někteří odborníci se kloní k názoru, že se jedná o víceobraz, pro jehož pásma v počtu N platí: N 3; 15 Toto cvičení se zabývá klasifikací multispektrálních obrazových dat. V jednom z předchozích cvičení jsme se vykreslili křivky, vyjadřující spektrální odezvu pro tři typy pokryvu zemského povrchu: zastavěné oblasti, zalesněné oblasti a povrchové vody. Viděli jste, že projevy každého z těchto typů pokryvu jsou jedinečné. Typ povrchu může tedy být identifikován na základě své spektrální odezvy. Tento fakt stojí v pozadí klasifikace digitálních obrazových záznamů (image classification). Mnoho typů map (mapy krajinného pokryvu, mapy půd, bathymetrické mapy, apod.) bylo vytvořeno na základě digitálních obrazových záznamů, získaných metodou dálkového průzkumu Země. Automatizovanou klasifikaci digitálních obrazových záznamů lze provádět dvěma základními metodami jako klasifikaci řízenou (supervised classification) a klasifikaci neřízenou (unsupervised classification).
2 Cíle cvičení Absolvováním cvičení budou dosaženy následující cíle: seznámíte se s praktickou stránkou neřízené klasifikace digitálních obrazových dat, získaných metodou DZP, naučíte se základní kroky, nutné k provedení procesu automatizované klasifikace, získáte základní zkušenosti při volbě parametrů, ovlivňujících nalezení spektrálních tříd v obrazových datech, vyzkoušíte si transformaci spektrálních tříd na informační třídy, které jsou výsledkem klasifikačního procesu. 3 Data a programové vybavení Neřízenou klasifikaci si vyzkoušíte v prostředí programu IDRISI Selva, který je vynikajícím nástrojem pro výuku zpracování obrazových dat v dálkovém průzkumu Země. Pro klasifikaci využijeme digitální obrazový záznam L71189025_02520030421, získaný systémem Landsat 7, jehož skener ETM+ vytváří obrazová data v 9 pásmech. Tato obrazová data z 21. 4 2003, pokrývají území o rozměrech 191x185 km. Předzpracování dat zahrnuje pouze systémové korekce. Data jsou doplněna o georeferenční údaje, které umožňují tzv. předběžnou geometrickou transformaci prováděnou při zobrazování ve vhodném programovém prostředí. Před neřízenou klasifikací se nedoporučuje provádět další geometrické transformace. Neřízenou klasifikací budeme zpracovávat data pokrývající oblast o rozměrech 11,6 x 9 km, s rozlohou přesahující 100 km 2. Cvičná data pro toto cvičení jsou připravena jako výřez z původní scény 189-25. Pro klasifikaci budeme nadále používat pouze pásma 1,2,3,4,5 a 7, která jsou vybrána ve výřezu. 4 Časová náročnost Cvičení by mělo být zpracováno v průběhu 90 minut. Aktivity cvičení jsou připraveny tak, abyste je mohli provádět samostatně a to jak pod dohledem pedagoga, tak v jeho nepřítomnosti. Části, které nestihnete provést ve vymezeném časovém limitu v počítačové laboratoři, můžete dokončit samostatně. Předpokládá se, že zpracování samostatné části cvičení bude vyžadovat 90 minut. 5 Geografické vymezení území Oblast, kterou se pokusíme klasifikovat na základě dat ze systému Landsat 7, se nachází v Moravskoslezském kraji. Ve výřezu se nacházejí obce Dolní Benešov, Háj ve Slezsku, Bolatice, Jilešovice, Kozmice a další. V území je zastoupena především zemědělská krajina a
lesní plochy (obrázek 1). Významnou součást krajiny tvoří trvale zastavěné území sídel, letiště a průmyslových objektů a dále též povrchové vodní objekty (rybníky, zatopené štěrkovny a vodní toky). Obrázek 1 Ukázka zájmového území na syntéze v pravých barvách 6 Postup zpracování Postup, který si vyzkoušíme, představuje pouze zjednodušený proces zpracování dat, využívající jeden z možných způsobů neřízené klasifikace. V tomto cvičení se máte naučit základní principy a zjednodušený postup vám umožní tyto základní principy lépe pochopit. Reálně prováděný proces klasifikace je totiž výrazně složitější a pro vás jako pro začátečníky je příliš komplikovaný a zdlouhavý. Klíčovou součástí neřízené klasifikace je terénní rekognoskace, která má zajistit co nejdokonalejší znalost území. Tyto znalosti jsou potřebné při transformaci tzv. spektrálních tříd na informační třídy. Terénní šetření by mělo být provedeno velmi důkladně především před prováděním klasifikace. Jestliže se však v průběhu klasifikace vyskytne okamžitá
potřeba upřesnění znalostí o území, je vhodné provést došetření in situ (tedy na místě samém) opakovaně, je-li to možné. 6.1 Shluková analýza V tomto cvičení budou z digitálních obrazových dat extrahovány dominantní vzory spektrální odezvy a identifikovány požadované informační třídy. V IDRISI je tato klasifikace prováděna pomocí modulů CLUSTER a ISOCLUST. Toto cvičení se soustřeďuje na modul CLUSTER Modul CLUSTER používá techniku výběru vrcholu histogramu (histogram peak). Je to způsob podobný hledání maxima v jednorozměrném histogramu, kde maximum je definováno jako hodnota s větší frekvencí výskytu než sousední hodnoty. Jakmile jsou maxima nalezena, všechny možné hodnoty jsou přiřazeny nejbližšímu maximu. Hranice tříd tedy obvykle odpovídají střednímu bodu mezi dvěma lokálními maximy. Protože tato metoda má specifická kritéria pro to, co všechno může být označeno za lokální maximum, není potřebné provádět předběžné odhady počtu shluků (clusters) v obrazových datech. Výpočty lokálních maxim a tedy i vymezení shluků proběhne automaticky. CLUSTER tedy vyhodnocuje multidimenzionální histogram všech vstupujících pásem. Budeme používat 6 pásem (ETM+1, ETM+2, ETM+3, ETM+4, ETM+5 a ETM+7), s nimiž jsme se setkali i při řízené klasifikaci. Zadávání dat je usnadněno, jestliže jsou tato pásma zařazena ve vícepásmovém obrazovém souboru tzv. zásobník (raster group file), který má název vyrez_idrisi.rgf. Termální pásmo ETM+6 není zařazeno v zásobníku spolu s ostatními pásmy, protože fyzikální podstava vzniku zaznamenaného signálu je odlišná. Ujistěte se, že zobrazovací vlastnosti máte nastaveny správně. File/User Preferences a ujistěte se, že v záložce System Settings je povoleno automatické generování titulku a legendy při tvorbě obrázků zobrazujících obrazová data. Spusťme CLUSTER z nabídce Image Processing/Hard Classifiers. Vyberme vícepásmový obrazový soubor vyrez_idrisi.rgf. Jako vstupní data se označí všech 6 pásem. Dále zadejme název výstupního rastrového obrazu BROAD. Dále je třeba vybrat Broad jako stupeň generalizace (Generalization level) vstupního obrazu, zvolit pravidlo pro shlukování (Clustering rule), které zajistí vypuštění nejméně důležitých clusterů (Drop least significant clusters) s méněn než 10% pixelů a ponechat 6 výstupních úrovní šedi (Grey levels). Výsledek shlukové analýzy obrazový soubor BROAD se zobrazí v paletě Qualitative color. Vizuální analýzu výsledného obrazu usnadníme, jestliže použijeme nástroj, který způsobí zablikání třídy, na kterou klikneme v legendě levým tlačítkem myši. To způsobí, že vybraná spektrální třída bude dočasně zobrazena červeně, zatímco ostatní kategorie zůstanou černé. Jakmile dojde k uvolnění tlačítka myši, zobrazení se vrátí k normálu.
Obrázek 2 Okno CLUSTER - unsupervised classification pro zadání parametrů shlukové analýzy Obrázek 3 Výsledek zpracování modulem CLUSTER
Výsledný rastrový obraz (obrázek 3) obsahuje data roztříděná do 6 kategorií. V tomto okamžiku se ještě nejedná se o výsledné informační třídy, nýbrž o shluky pixelů s podobnými spektrálními vlastnostmi, tzv. spektrální třídy. Ty lze za příznivých okolností transformovat na třídy informační. Tento mezivýsledek obsahuje spektrální třídy, které jsou široké (broad). Zobrazme nyní rovněž tři vybraná obrazová pásma (ETM+2, ETM+3, ETM+4) jako syntézu v nepravých barvách. Nejprve si vytvoříme kompozitní obraz, který vznikne následující kombinací barevných kanálů RGB a zvolených pásem multispektrálního obrazu: vyrez_idrisi2.rst (Blue) vyrez_idrisi3.rst (Green) vyrez_idrisi4.rst (Red) Volbou v nabídce Display/COMPOSITE otevřeme okno pro zadání požadovaných parametrů syntézy (obrázek 3). Obrázek 4 Okno COMPOSITE pro zadání parametrů barevné syntézy Kompozitní obraz nyní přidejte do okna, v němž je zobrazen výsledek shlukové analýzy Broad.rst. Tento rastr umístěte nad composite_2_3_4.rst s barevnou syntézou. Nyní střídavě vypínejte a zapínejte zobrazení rastru Broad.rst a sledujte, jakému krajinnému pokryvu odpovídají jednotlivé spektrální třídy.
Kontrolní otázka 1) Kolik spektrálních tříd bylo vytvořeno? S ohledem na výsledky předchozí řízené klasifikace zkuste odhadnout, který typ pokryvu odpovídá jednotlivým spektrálním třídám. Každý ze stupňů generalizace (broad i fine) používá jiná rozhodovací kritéria pro vyhodnocení frekvenčních histogramů při vyhledávání maxim (obrázek 5). Při vysoce generalizované (broad) tvorbě shluků musí vrchol obsahovat vyšší četnost než všichni nediagonální sousedi. Nízký stupeň generalizace (fine) umožňuje, aby jeden nediagonální soused měl vyšší frekvenci. To se přizpůsobí i lokálním maximům, která by byla jinak vynechána, neboť je zakrývají vyššími sousední maxima. Tento koncept v jednorozměrném prostoru je naznačen na obrázku 4. Velké shluky jsou odděleny pouze v oblastech lokálních minim. Jemné shluky jsou odděleny jak v oblastech lokálních minim, tak i v oblastech inflexních bodů (shoulders). Obrázek 5 Princip shlukové analýzy při použití modulu CLUSTER Použijeme opět modul CLUSTER a zadáme vícepásmový obrazový soubor (Insert layer group) vyrez_idrisi.rgf jako vstupní data pro zpracování. Tentokrát však zvolíme nízký stupeň generalizace (fine generalization level), pojmenujeme výstupní rastrový obraz FINE. Dále vybereme vypuštění nejméně důležitých shluků, menších než 10 % a potvrdíme OK. Zvolený stupeň generalizace způsobil vytvoření většího množství shluků. Prohlédněte si nyní celou legendu (můžete zvětšit její velikost). Kontrolní otázka 2) Kolik spektrálních tříd bylo vytvořeno? Které třídy jsou nejsnáze identifikovatelné? Co myslíte, že to způsobuje?
Histogramy obrázků umožňují pozorovat rozdíl v třídním rozložení pixelů v závislosti na stupni generalizace. Spusťte modul HISTO (v menu Display/HISTO a vytvořte histogramy pro oba soubory BROAD a FINE. Shluk 1 má vždy největší frekvenci výskytu pixelů. Odpovídá tomu typu povrchu, který je na obrázcích nejvíce zastoupen. Cluster 2 má nižší počet pixelů a tak dále. Všimněte si, že řada spektrálních tříd s vyšším číslem má relativně málo pixelů. Jedním často využívaným přístupů k odhadu počtu významných typů pokryvu ve studované oblasti, je vizuální zhodnocení histogramu jemného členění spektrálních tříd a nalezení přirozené zlomy (natural breaks). Jakmile jsou určeny, použijte znovu modul CLUSTER, ale tentokrát zadejte odpovídající počet tříd. Všechny zbývající pixely jsou přiřazeny do tříd, kterým jsou nejbližší. Všimněte si, že není správný přístup, zaměřit se na typy krajinného pokryvu, které jsou zastoupeny na relativně malé ploše. Podívejme se na histogram FINE. Vidíme, že studované oblasti dominují dvě spektrální třídy (shluky). V histogramu můžeme určit několik malých přirozených zlomů jako hranice tříd. Na základě těchto zlomů můžeme vybrat 6, 10 nebo 15 tříd. Jestliže nám chybí znalosti území získané v terénu, měli bychom se pro snadnou interpretaci držet prvních 6 shluků jako významných typů krajinného pokryvu. Nyní spustíme znovu modul CLUSTER, se zvolenými šesti pásmy. Tentokrát zadejte název výstupního souboru FINE10, vyberte jemný stupeň generalizace a nastavte maximální počet tříd (shluků) na 10. Pro zbývající parametry ponechejte implicitní nastavení (obrázek 6). Obrázek 6 Okno CLUSTER - unsupervised classification pro zadání parametrů shlukové analýzy
6.2 Interpretace shluků Nyní před námi stojí problém, jak interpretovat tyto shluky. Pokud jste s oblastí seznámeni, není problém klasifikovat velké shluky (broad clusters). Klasifikaci jemných shluků je nutno věnovat maximální pozornost. Pro jejich identifikaci je nezbytné použít dostupné mapy, letecké snímky i vlastní terénní šetření. Navíc většinou dojdeme k závěru, že při tvorbě finální mapy je nutno některé třídy navzájem sloučit. Může dojít k situaci, kdy jeden shluk (jedna třídu) představuje les na osvětlených svazích a jiný shluk (jiná třída) představuje tentýž les na zastíněných svazích. Při slučování tříd můžeme použít modul ASSIGN. Zkusme interpretovat 10 tříd obrazu FINE10. Abychom toho dosáhli, porovnejme FINE10 s výstupy z řízené klasifikace MINDISTNORMAL a MAXLIKE. Užitečné může být i srovnání s originálními pásmy nebo s barevnou kompozicí (vytvořte 24- bitovou kompozici k dosažení lepšího vizuálního efektu). Až určíte, které kategorii by měla být přiřazena každá spektrální třída, použijte nástroj EDIT. Jedná se o textový editor a najdete jej v nabídce GIS Analysis/Database Query/ Edit. Pomocí editoru zapíšeme relace číslo spektrální třídy typ krajinného pokryvu a vytvořený seznam relací uložíme do atributového souboru s názvem LANDCOVER. Číslo spektrální třídy zapíšeme do prvního sloupce, označení typu krajinného pokryvu do druhého sloupce. Čísla spektrálních tříd zapíšeme jako čísla přirozená (integer) například takto: 1 Pole1 2 Pole2 3 Pole3 4 Les1 5 Louka 6 Pole4 Kontrolní otázka 3) Jaký typ pokryvu jste přidělili svým třídám? Pro vytvoření nového digitálního obrazu krajinného pokryvu použijte modul ASSIGN. Definiční soubor geoprvků je FINE10, soubor s hodnotami je LANDCOVER, pojmenování výstupního souboru LANDCOVER. Zobrazte jej pomocí kvalitativní palety (Qualitative palette). Do legendy k LANDCOVER přidejte důležité popisy pomocí nástroje Metadata utility, který najdete v IDRISI Explorer a uložte. Potom znovu zobrazte LANDCOVER, v důsledku čehož se v legendě na displeji objeví nové informace.
Neřízená klasifikace je velmi rychlým způsobem jak získat znalosti o studované oblasti. Klasifikace je nejčastěji iterativní proces, při němž jsou v každém koku získávány nové informace, které můžete analytik využít pro zlepšení klasifikace. Často se používají řízená a neřízená klasifikace společně jako tzv. hybridní přístup. Např. shluk číslo 3 v obrazovém souboru FINE7 se obtížně interpretuje, i když je to třetí nejdůležitější spektrální třída v oblasti. To nás upozorňuje na kategorie krajinného pokryvu (např. mokřiny), které byly při tvorbě příznaků pro řízenou klasifikaci ponechány stranou. Pak se můžeme vrátit zpět a vytvořit tréninkové plochy a příznaky pro tuto třídu a digitální obrazový záznam znovu klasifikovat s využitím řízené klasifikace. Shluky z neřízené klasifikace mohou být také následně použity při řízené klasifikaci jako tréninkové plochy pro stanovení příznaků. Důležitou věcí, která stojí za povšimnutí je, že klasifikace bývá sotvakdy jednokrokový proces. Žádnou klasifikaci nelze dokončit bez ohodnocení její přesnosti. To je však náplní jiného cvičení. V tomto cvičení jsme se soustředili na tzv. tvrdé klasifikátory. Měkké klasifikátory, které odloží přiřazení třídy každému pixelu, jsou popsány v sadě řešených cvičení Advanced Image Processing, v knize IDRISI Tutorial. 7 Úkoly pro samostatnou práci Metodou neřízené klasifikace proveďte obdobné zpracování jako v řešené části cvičení. Vytvoření shluků však proveďte pomocí modulu ISOCLUST a ISODATA. Výsledky klasifikace porovnejte a s výsledky klasifikace, které jste získali v řešené části tohoto cvičení. Formulujte závěry pro tuto samostatnou část cvičení.
Autor Ing. Tomáš Peňáz, Ph.D. Název Dálkový průzkum Země Vydavatel VŠB-TU Ostrava Rozsah 13 stran Rok 2014 Copyright Tomáš Peňáz, 2014 Zdroj financování Financováno z projektu CZ.1.07/2.2.00/28.0308 Inovace bakalářských a magisterských studijních oborů na Hornicko-geologické fakultě VŠB-TUO, spolufinancovaného Evropským sociálním fondem a státním rozpočtem České republiky