← retour aux catégories
MULTIMODAL
(2)2 hack(s).
MULTIMODAL MEDIUM
CrossMPI : une injection de prompt par image seule pilote ce que lisent et voient les VLM
Un papier de l'Université de Xidian publié sur arXiv le 15 mai 2026 introduit CrossMPI : des perturbations d'image imperceptibles modifient la façon dont les modèles vision-langage interprètent à la fois l'image et la requête textuelle de l'utilisateur, avec 66 % de réussite moyenne sur cinq LVLM.
2026-05-28//7 min
MULTIMODAL CRITICAL
AudioHijack : du son imperceptible détourne les agents vocaux (IEEE S&P 2026)
Un papier IEEE S&P du 16 avril 2026 introduit l'injection de prompt auditive : une réverbération adverse cachée dans l'audio pousse 13 modèles audio-langage et les agents vocaux commerciaux (Mistral AI, Microsoft Azure) à exécuter des actions non autorisées avec 79 à 96 % de réussite.
2026-05-26//8 min