Matériel complémentaire à l’article From Zero-Shot to Reward-Aware: Evaluating Prompting and Memory in LLM-Based Cyber Defense Agents

Publié le 03 juin 2026

Les grands modèles de langage (LLMs) émergent comme des candidats prometteurs pour la cyberdéfense autonome (ACD), mais leur fiabilité, et leur capacité d’adaptation, restent incertaines.

Ce travail présente une évaluation systématique d’agents de défense basés sur des LLM dans l’environnement CybORG++. Nous comparons plusieurs modèles et stratégies de prompt à une approche de référence entraînée par renforcement (RL), via Proximal Policy Optimization (PPO), pour des adversaires variés et des topologies de réseau différentes.

Le dépôt fournit le code, les fichiers de configuration, les prompts, et des instructions détaillées, étape par étape, nécessaires pour reproduire les expériences décrites dans l’article From Zero-Shot to Reward-Aware: Evaluating Prompting and Memory in LLM-Based Cyber Defense Agents. Il inclut également des journauxs pour chaque expérience présentée dans l’article, ainsi que le code permettant de reproduire l’analyse statistique.

Matériel complémentaire à l’article From Zero-Shot to Reward-Aware: Evaluating Prompting and Memory in LLM-Based Cyber Defense Agents

Date

Formats

Catégories

Contenu