Qwen2.5 | Nope...

Agents en Production · N°1

Changer de Base : Migrer ses Agents LoRA de Phi-3.5 vers Qwen2.5-3B

Dans la série LoRA Factory, nous avons construit une usine à agents spécialisés sur Phi-3.5-mini-instruct. Trois agents (OPNsense, WireGuard, CrowdSec), trois adapters LoRA, un pipeline d’entraînement automatisé. Tout fonctionnait — jusqu’à ce que les limites du modèle de base se manifestent en production. Ce premier article de la série Agents en Production documente pourquoi et comment nous avons migré vers Qwen2.5-3B-Instruct. Pourquoi changer de modèle de base ? Phi-3.5-mini est un excellent modèle compact.

15 Mar 2026 LoRA

Agents en Production · N°2

Loss Correcte, Vérification à 0% : Le Bug Silencieux du Format de Prompt

C’est le type de bug qu’on ne voit pas venir. L’entraînement se termine normalement. La loss finale est bonne — 0.2532 pour OPNsense, comparable aux runs précédents. Pas d’anomalie dans les courbes. Le modèle a convergé. Puis on lance la vérification fonctionnelle. Et le score tombe à zéro. Score : 0/102 (0%) ❌ ADAPTATEUR NON VALIDÉ L’investigation La première réaction est de chercher un bug dans le script de vérification. On inspecte le chargement du modèle, l’application de l’adapter, le décodage.

15 Mar 2026 LoRA

Agents en Production · N°3

Valider un Agent LoRA : Vérification Fonctionnelle par Injection CAP v1

Après entraînement, la question n’est pas “quelle est la loss ?”, c’est “l’agent appelle-t-il la bonne fonction quand on lui donne une directive réelle ?”. C’est cette distinction qui a motivé la construction d’un système de vérification comportementale, distinct et indépendant du pipeline d’entraînement. Le format CAP v1 Le coordinateur communique avec les agents via un format structuré appelé CAP v1 (Coordinator-Agent Packet). C’est le format de production — ce que reçoit l’agent dans un déploiement réel.

15 Mar 2026 LoRA

Agents en Production · N°4

Trois Agents, Un GPU : Multi-LoRA Dynamique avec vLLM

Les trois agents sont validés à 100%. La question devient : comment les servir simultanément sur un GPU de 12 Go déjà occupé par le coordinateur ? Le problème du multi-agent sur GPU contraint L’architecture cible est simple : Utilisateur │ ▼ Coordinateur (Qwen2.5-3B, port 3001) │ CAP v1 ├──→ OPNsense agent ├──→ WireGuard agent └──→ CrowdSec agent │ ▼ Tool-agent-server (port 3000) Le coordinateur et les agents-outils tournent sur le même GPU — une RTX 4070 Ti avec 12 Go de VRAM réels (11.

15 Mar 2026 LoRA

Articles dans Qwen2.5...

Changer de Base : Migrer ses Agents LoRA de Phi-3.5 vers Qwen2.5-3B

Loss Correcte, Vérification à 0% : Le Bug Silencieux du Format de Prompt

Valider un Agent LoRA : Vérification Fonctionnelle par Injection CAP v1

Trois Agents, Un GPU : Multi-LoRA Dynamique avec vLLM