Roy, Kaushik; Homayouni, Saeid ORCID: https://orcid.org/0000-0002-0214-5356 et Zhang, Ying
(2025).
Self-Supervised Deep Learning for Urban Land Cover Classification from Very High Resolution Imagery / Apprentissage profond auto-supervisé pour la classification de la couverture terrestre urbaine à partir d’images à très haute résolution spatiale.
Canadian Journal of Remote Sensing
, vol. 51
, nº 1.
p. 253528.
DOI: 10.1080/07038992.2025.2532528.
Prévisualisation |
PDF
- Version publiée
Télécharger (22MB) | Prévisualisation |
Résumé
Une cartographie précise de la couverture et de l’utilisation du territoire à très haute résolution spatiale (THR) est essentielle à l’étude du développement urbain et des interactions entre l’homme et l’environnement. Les techniques d’apprentissage profond, en particulier les modèles de segmentation sémantique, se sont révélées être des outils puissants pour cette tâche. Cependant, leur application généralisée est entravée par le besoin de nombreux jeux de données annotées à THR. Les études existantes ont principalement utilisé des images à basse et moyenne résolution spatiale et un nombre réduit de bandes, ce qui limite leur applicabilité. À notre connaissance, il s’agit de la première étude des zones urbaines au Canada à une telle résolution spatiale à l’aide de techniques d’apprentissage profond auto-supervisé. L’objectif de cette étude est de classifier l’imagerie multispectrale Worldview 3 en huit classes composant le milieu urbain. Les principaux défis étaient la préparation de données pour l’analyse, et une solution au déséquilibre des classes et à la limite du nombre de données étiquetées. Pour y remédier, nous avons introduit un cadre innovant d’apprentissage profond conçu pour améliorer la cohérence spectrale-spatiale, tout en optimisant l’usage des données non étiquetées disponibles pour permettre un apprentissage efficace et faciliter l’application des représentations pré-entraînées dans les étapes subséquentes. Nous avons produit une image en super-résolution par pansharpening à l’aide de l’apprentissage profond. Ensuite nous avons extrait les caractéristiques latentes à l’aide d’un faible nombre de données étiquetées. Le flux de travail proposé a été appliqué à des imagettes Worldview 3 de taille 256 x 256 à une résolution spatiale de 1 m. La méthodologie a été appliquée à deux variantes d’UNet : un UNet simple et un UNet à accès contrôlée composé d’un encodeur ResNet-50. Les résultats montrent que, si l’UNet simple ne pouvait pas saisir toute la complexité des données, contrairement au modèle complexe. Le pré-entraînement auto-supervisé a amélioré la précision globale (PG) de la prédiction dans les deux cas. Pour les UNet simples, la précision est passée de 69 % à 74 %, et pour les UNet complexes, la PG est passée de 80 % à 88 %. En conclusion, nous démontrons l’efficacité de la segmentation sémantique auto-supervisée multi-vues sur des images multispectrales Worldview 3, créant ainsi une carte de la couverture terrestre pour les recherches futures. Le code de l’architecture utilisée dans cette étude est disponible à
https://github.com/kaushikCanada/landcover-ssl
Abstract
Accurate mapping of land cover and land use at very high spatial resolution (VHR) is crucial for studying urban development and human-environment interactions. Deep learning techniques, particularly semantic segmentation models, have emerged as powerful tools for this task. However, their widespread application is hindered by the substantial demand for annotated VHR datasets. Existing studies have primarily employed low- to medium-resolution imagery and a few bands, which limits their downstream applicability. To our knowledge, this is the first attempt to study urban areas in Canada at such spatial resolution using self-supervised deep learning techniques. The objective of this study is to classify Worldview 3 multispectral imagery into eight urban land cover categories. The primary challenges are preparing analysis-ready data, addressing class imbalance, and having a limited amount of labelled data. To address these challenges, we introduce an innovative deep learning framework designed to enhance spectral-spatial consistency while leveraging the wealth of available unlabelled data for more effective learning and easily applying pre-trained representations to downstream tasks. We perform super-resolution using deep learning pansharpening, then latent feature extraction without labels and knowledge distillation using a small amount of labelled data. The proposed workflow is applied to Worldview 3 imagery patches of size 256 x 256 at a 1m spatial resolution. The methodology was applied to two UNet variants: a simple UNet and an attention-gated UNet with a ResNet-50 encoder. The results show that while the simple UNet could not adequately capture the complexity of the data, unlike the complex model. Self-supervised pretraining improved the overall accuracy (OA) of the prediction in both cases. For simple UNet, the accuracy was improved from 69% to 74%, and for complex UNet, the OA improved from 80% to 88%. In conclusion, we demonstrate the effectiveness of multi-view self-supervised semantic segmentation on multispectral Worldview 3 images, creating a land cover product for future research. The code for the proposed architecture is publicly available at https://github.com/kaushikCanada/landcover-ssl.
Type de document: | Article |
---|---|
Mots-clés libres: | urban land cover classification; semantic segmentation; self-supervised learning; very high resolution |
Centre: | Centre Eau Terre Environnement |
Date de dépôt: | 15 sept. 2025 19:45 |
Dernière modification: | 15 sept. 2025 19:45 |
URI: | https://espace.inrs.ca/id/eprint/16606 |
Gestion Actions (Identification requise)
![]() |
Modifier la notice |