Klassifikation von Landbedeckungen: Anpassung der Klassen
Im letzten Blogpost haben wir uns mit der sogenannten Fernerkundung beschäftigt, welche uns die Untersuchung der Erdoberfläche mit Hilfe von elektromagnetischer Strahlung ermöglicht. Mit der Klassifikation von Landbedeckungen in Satellitendaten mittels maschinellem Lernen haben wir ein Anwendungsbeispiel kennengelernt. Die dabei durchgeführte Klassifikation brachte bereits beeindruckende Ergebnisse zustande. Siedlungsstrukturen, große Verkehrswege und verschiedene Grünflächen wurden erkannt. Doch bei der Prüfung der Klassifikation sind verschiedene Fehlklassifikationen aufgefallen. Um solche Fehlklassifikationen zu verringern, habe ich Änderungen der Klasseneinteilungen vorgeschlagenen. In der darauffolgenden Zeit habe ich die Klassifikation zweimal mit jeweils anderen Klasseneinteilungen neu durchgeführt. Dabei hat sich gezeigt, dass Einteilung der Klassen und der Trainingsgebiete eine entscheidende Rolle beim Ergebnis der Klassifikation spielen.
Erster neuer Durchgang
Im ersten neuen Klassifikationsversuch habe ich die Klasseneinteilung so gestaltet und die Trainingsgebiete entsprechend angepasst, wie ich sie im letzten Blogpost angeregt habe:
- Wasser für Wasserflächen
- Straßen für Verkehrsflächen, Straßen, Parkplätze und andere große Plätze
- Bahn für Bahnanlagen bzw. Bahnschienen
- Wald für Wälder und Baumgruppen
- Gebäude für alle Arten von Gebäuden
- Landwirtschaft für landwirtschaftlich genutzte Flächen
- Grünflächen für Grünflächen, die nicht landwirtschaftlich genutzt werden oder Wälder sind
Mit dieser Klasseneinteilung sind in diesem Durchgang erstaunliche Fehlklassifikationen aufgetreten, die über "Kleinigkeiten" hinausgehen. So werden ganze Strandabschnitte als Gebäude oder Straßen erkannt, wobei eine Fehlklassifikation mangels der Klasse Strand zu erwarten ist. Außerdem werden sehr viele Straßen, insbesondere im innerörtlichen Bereich mit enger Bebauung, als Bahn erkannt. Auch einige landwirtschaftliche Flächen und Flussläufe ereilte das Schicksal, als Bahn oder als Gebäude klassifiziert zu werden. Die Tatsache, dass Hafenanlagen als Gebäude klassifiziert wurden, ist, vor dem Hintergrund der genannten haarsträubenden Fehler, zu verschmerzen. Positiv anzumerken ist, dass die Aufnahme von sedimentreichen Küstengewässern in die Trainingsgebiete der Wasserflächen dafür sorgte, dass nur noch Gewässer mit sehr hohem Sedimentanteil als etwas anderes als Wasser klassifiziert wurden.
Auf Basis dieses Ergebnisses bietet sich an, für weitere Klassifikationen eine eigene Klasse für Strände zu erstellen. Ihre Anzahl und Größe in Schleswig-Holstein legen das nahe, was großflächige Fehlklassifikationen vermeiden würde. Bei den fehlklassifizierten Küstengewässern bietet sich eine Erweiterung der Trainingsgebiete an, um hier eine noch höhere Präzision zu erreichen. Bei den fehlklassifizierten landwirtschaftlichen Flächen könnte eine Ausdehnung der Trainingsgebiete auf einige der betroffenen Flächen in Betracht kommen.
Zweiter neuer Durchgang
Ein weiterer Durchgang fand ohne die Klasse Bahn statt, um zu untersuchen, welchen Einfluss diese Änderung auf die Klassifikation haben wird:
- Wasser für Wasserflächen
- Straßen für Verkehrsflächen, Straßen, Parkplätze und andere große Plätze
- Wald für Wälder und Baumgruppen
- Gebäude für alle Arten von Gebäuden
- Landwirtschaft für landwirtschaftlich genutzte Flächen
- Grünflächen für Grünflächen, die nicht landwirtschaftlich genutzt werden oder Wälder sind
Das Ergebnis war das selbe, wie das eben beschriebene. Die fehlende Klasse Bahn hat allerdings die Auswirkung, dass die Pixel, die vorher als Bahnstrecken (fehl-)klassifiziert wurden, als Gebäude klassifiziert werden.
Fazit
Anhand der bisher durchgeführten Klassifikationen lassen sich weitere Anpassungen der Klassen und der Erstellung der Trainingsgebiete erdenken, um grobe Fehlklassifikationen zu vermeiden und die Präzision zu erhöhen. Ein paar Möglichkeiten dafür wurden oben schon genannt. Als weitere Anpassung wäre eine Klasse Verkehrswege, die sowohl Straßen als auch Bahnenstrecken enthält, denkbar, da beide Klassen tlw. als die jeweils andere Klasse erkannt werden. Bei der Erstellung der Trainingsgebiete sollte mehr darauf geachtet werden, in dicht bebauten Gebieten keine anzulegen, um in den Trainingsgebieten möglichst nur "sortenreine" Pixel einzubeziehen. Eine weitere Verbesserung könnte der Einbezug von Vegetationsindizes bedeuten.
Es zeigt sich, dass die Klassifikation von Landbedeckungen, was nur ein Praxisbeispiel von vielen in der Fernerkundung ist, ein Prozess ist, in dem die einzelnen Arbeitsschritte und (Teil-)Ergebnisse immer wieder überprüft und validiert werden müssen, um zu zufriedenstellenden Ergebnissen zu gelangen. Die Einteilung der Klassen und der Trainingsgebiete müssen immer wieder der Fragen- und Aufgabenstellung angepasst und hinterfragt werden. Fehler können ärgerlich sein, aber bringen einem immer näher zu einem besseren Ergebnis.