Backdoor attacks on large vision-language models.

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Dang, Ba Luan (2025). Backdoor attacks on large vision-language models. Mémoire. Québec, Université du Québec, Institut national de la recherche scientifique, Maitrise en sciences des télécommunications, 61 p.

[thumbnail of Dang-BL-M-Decembre2025-EMBARGO 2026-12-08.pdf]

PDF - Version publiée
Document sous embargo jusqu'à 8 décembre 2026.
Télécharger (2MB)

Résumé

Les attaques par porte dérobée ont été identifiées comme une menace critique pour les mod-èles d’apprentissage profond à l’état de l’art (state-of-the-art - SOTA) dans divers domaines d’application. Des travaux antérieurs ont montré que de telles attaques peuvent entraîner des conséquences graves, notamment la mauvaise classification de panneaux de signalisation dans les systèmes de conduite autonome ou la génération de contenu nuisible ou non souhaité dans les grands modèles de langage (large language models - LLM). Bien que les grands modèles vision-langage (Large Vision-Language Models - LVLM) aient récemment réalisé des avancées notables et soient largement intégrés dans les systèmes d’Intelligence Artificielle, leur vulnérabilité face aux attaques par porte dérobée n’a pas été étudiée de manière approfondie. En raison de leur structure multimodale et de pipelines d’entraînement complexes, les attaques par porte dérobée sur les LVLMs rencontrent des défis spécifiques, tels que la nécessité d’un déclencheur visuel granulaire pour manipuler une compréhension visuelle complexe. Les approches existantes reposent souvent sur des hypothèses irréalistes de type boîte blanche, dans lesquelles les attaquants ont un accès complet aux paramètres, à l’architecture et au processus d’entraînement du modèle cible, afin de renforcer l’injection de la porte dérobée tout en préservant les performances sur les données propres. Bien que plusieurs tentatives aient été faites pour insérer des portes dérobées dans les LVLM en contexte boîte noire, leurs cadres d’optimisation de déclencheurs manquent de considérations dédiées aux tâches vision-langage complexes, conduisant à des déclencheurs visuels à faible signification sémantique. Par conséquent, ces méthodes nécessitent souvent des taux d’empoisonnement élevés pour implanter des portes dérobées ou limitent la généralisation des attaques.

Dans cette thèse, nous présentons BadVLM, un nouveau cadre d’optimisation de déclencheurs permettant des attaques par porte dérobée efficaces et résilientes sur les LVLM en contexte boîte noire. Plus précisément, nous exploitons un modèle de guidage préentraîné sur des objectifs variés afin de relier les modalités visuelle et textuelle, en combinant deux stratégies clés pour optimiser le déclencheur visuel. Premièrement, l’optimisation de l’alignement sémantique apprend un déclencheur visuel qui oriente les images empoisonnées vers le texte cible de la porte dérobée, facilitant ainsi l’entraînement ultérieur du backdoor. Deuxièmement, l’optimisation de découplage sémantique affine le déclencheur afin d’atténuer les conflits de connaissances, tout en préservant l’utilité bénigne du modèle. En concevant des objectifs sophistiqués de type vision-langage, le déclencheur visuel optimisé capture une information sémantique fine, rendant possible la manipulation de raisonnements multimodaux complexes. En conséquence, des expériences approfondies sur deux LVLMs représentatifs montrent que BadVLM atteint des taux de réussite d’attaque supérieurs à 99,0 % tout en préservant les performances sur données propres, avec seulement 0,1 % de données empoisonnées pour les tâches de légendage d’images et de réponse à des questions visuelles, surpassant les approches existantes. De plus, nos attaques démontrent une forte résilience face aux défenses par affinement sur données propres et échappent efficacement au mécanisme de filtrage des données à l’état de l’art, là où les approches existantes échouent. Nous montrons également que les processus d’optimisation et d’empoisonnement se généralisent aux données hors distribution, révélant que les LVLM actuels manquent de mécanismes d’ancrage robustes face à des déclencheurs multimodaux furtifs.

En mettant en évidence ces vulnérabilités, notre travail fournit une base empirique essentielle pour les futures recherches en défense. Les résultats soulignent l’urgence de repenser les stratégies de confiance, d’alignement et de robustesse pour les systèmes multimodaux de nouvelle génération.

Backdoor attacks have been shown as a critical threat to state-of-the-art (SOTA) deep learning models across various application domains. Prior research has demonstrated that such attacks can lead to severe consequences, including misclassification of traffic signs in autonomous driving systems or the generation of harmful or undesired content in large language models (LLMs). While large vision-language models (LVLMs) have recently achieved notable advances and are widely integrated into Artificial Intelligence systems, their vulnerability to backdoor attacks has not been thoroughly investigated. Due to the multimodal structure and complex training pipelines, backdoor attacks on LVLMs face specific challenges, such as requiring a granular visual trigger to manipulate complex visual understanding. Existing approaches often rely on impractical white-box assumptions, under which attackers have full access to the victim model’s parameters, architectures, and training process to strengthen backdoor injection while preserving clean performance. While several attempts have been made to backdoor LVLMs in black-box settings, their trigger-optimization frameworks lack dedicated considerations for complex vision-language tasks, resulting in visual triggers with limited semantic meaning. As a result, they often require high poisoning rates to implant backdoors or limit the generalization of attacks.

In this thesis, we introduce BadVLM, a novel trigger-optimization framework that enables efficient, resilient backdoor attacks on LVLMs in black-box settings. Specifically, we leverage a guidance model well-pretrained on diverse objectives to bridge the vision and language modalities, along with two key strategies to optimize the visual trigger. First, se-mantic alignment optimization learns a visual trigger that steers poisoned images towards the backdoor target text, facilitating the subsequent backdoor training. Second, semantic decoupling optimization refines the trigger to mitigate knowledge conflict, preserving the model’s benign utility. By designing sophisticated vision-language objectives, the optimized visual trigger captures semantically fine-grained information, enabling complex multimodal reason-ing manipulation. As a result, extensive experiments on two representative LVLMs show that BadVLM achieves over 99.0% attack success rates while preserving clean performance, with only 0.1% poisoning rate on image captioning and visual question answering, outperforming existing approaches. Moreover, our attacks demonstrate strong resilience against clean fine-tuning defense and effectively evade the SOTA data filtering mechanism, while existing approaches fail in both. We further show that the optimization and poisoning processes generalize across out-of-distribution data, revealing that current LVLMs lack robust grounding mechanisms against stealthy multimodal triggers.

By demonstrating these vulnerabilities, our work provides a critical empirical foundation for future defense research. The findings underscore the urgent need to redesign trust, alignment, and robustness strategies for next-generation multimodal systems.

Type de document:	Thèse Mémoire
Directeur de mémoire/thèse:	Le, Long Bao
Mots-clés libres:	-
Centre:	Centre Énergie Matériaux Télécommunications
Date de dépôt:	27 mai 2026 14:34
Dernière modification:	27 mai 2026 14:34
URI:	https://espace.inrs.ca/id/eprint/17209

Gestion Actions (Identification requise)

Modifier la notice