> bienvenue dans les bas-fonds

Toutes les façons connues de casser un Large Language Model.

Base de données ouverte de 618 attaques LLM documentées. Jailbreaks, prompt injections, extraction de données, inputs adverses. Mise à jour quotidiennement, depuis arXiv et le terrain.

$ explorer les hacks → C'est quoi ?

~ 618 EXPLOITS DÉTECTÉS ~

618

Hacks documentés

Catégories

2327

Sources citées

Langues

Hack à la une

voir les archives →

INFRASTRUCTURE CRITICAL NEW

RCE non authentifiée dans le backend RPC d'inférence distribuée de llama.cpp

Un contrôle de bornes manquant dans le backend RPC de llama.cpp permet à tout client ayant accès au port du serveur de lire et écrire la mémoire du processus et d'obtenir une exécution de code à distance. Corrigé dans b8492.

2026-07-10 // 6 min

Lire l'analyse complète →

# example prompt — illustrative, defensive

# llama.cpp RPC graph-compute RCE (illustrative, defensive)
# The tensor parser only bounds-checks data when buffer != 0:
if tensor.buffer:              # attacker sets buffer = 0 to skip this
    validate(tensor.data)      # [bounds check lives only here]
result.data = tensor.data      # [payload] taken from the wire unconditionally
# Root cause: reachability == compromise; the RPC protocol has no auth.
# Defense: upgrade to build b8492+, bind ggml-rpc-server to 127.0.0.1,
# never publish port 50052, and tunnel nodes over mTLS/WireGuard.

Récents

tous les hacks (618) →

RESEARCH MEDIUM NEW

Quand un agent red-teame un autre : un graphe de concepts de vulnérabilité pour agents de code

Un article du 13 juillet 2026 montre un agent de recherche qui sonde des agents de code en production, puis stocke ce qu'il apprend sous forme de concepts réutilisables et falsifiables — un artefact durable pour les équipes de sécurité, pas un énième exploit jetable.

2026-07-17//6 min

DEFENSE LOW NEW

DT-Guard : un garde-fou qui raisonne à l'entraînement et reste rapide à l'inférence

Un article de juillet 2026 entraîne un garde-fou de sécurité de contenu sur des traces de raisonnement mais les abandonne à l'inférence — ne produisant que des étiquettes structurées, avec une latence faible et un F1 proche de 0,88.

2026-07-17//6 min

AGENTS MEDIUM NEW

Comment des préférences synchronisées peuvent détourner les outils locaux de Claude Desktop

Pentera a montré qu'un attaquant disposant d'un accès au compte peut cacher des instructions dans les Préférences personnelles synchronisées de Claude Desktop pour pousser ses outils locaux à exécuter ses commandes.

2026-07-17//6 min

PROMPT INJECTION CRITICAL NEW

Injection de prompt « drive-by » : un site pouvait piloter Copilot en silence sur mobile

Microsoft a corrigé le 14 juillet 2026 une faille critique : une page malveillante pouvait faire envoyer par Edge pour Android des prompts cachés à l'application Copilot, sans confirmation ni contrôle d'origine.

2026-07-17//6 min

DEFENSE CRITICAL NEW

Quand les garde-fous des modèles hébergés verrouillent les défenseurs : leçons d'une intrusion agentique

Hugging Face a révélé le 16 juillet 2026 qu'un agent IA autonome avait compromis son infrastructure — et que les garde-fous des modèles commerciaux ont empêché ses propres analystes d'étudier l'attaque.

2026-07-17//6 min

RESEARCH MEDIUM NEW

Pourquoi un seul interrupteur de refus ne distingue pas un pentester d'un attaquant

Un article de juillet 2026 montre que le refus de sûreté d'un LLM n'est pas un interrupteur unique mais un sous-espace réparti sur plusieurs couches — aveugle au domaine, enclin à bloquer le travail de sécurité légitime, et séparable dans les modèles ouverts.

2026-07-17//6 min

> subscribe to /var/log/hacks

Une newsletter hebdo des nouvelles attaques.

Chaque lundi matin. Hacks sélectionnés, papiers clés, techniques de défense. Pas de spam, pas de clickbait. Désinscription en un clic.