vLLM | Nope...

Agents en Production · N°1

Changer de Base : Migrer ses Agents LoRA de Phi-3.5 vers Qwen2.5-3B

Dans la série LoRA Factory, nous avons construit une usine à agents spécialisés sur Phi-3.5-mini-instruct. Trois agents (OPNsense, WireGuard, CrowdSec), trois adapters LoRA, un pipeline d’entraînement automatisé. Tout fonctionnait — jusqu’à ce que les limites du modèle de base se manifestent en production. Ce premier article de la série Agents en Production documente pourquoi et comment nous avons migré vers Qwen2.5-3B-Instruct. Pourquoi changer de modèle de base ? Phi-3.5-mini est un excellent modèle compact.

15 Mar 2026 LoRA

Agents en Production · N°4

Trois Agents, Un GPU : Multi-LoRA Dynamique avec vLLM

Les trois agents sont validés à 100%. La question devient : comment les servir simultanément sur un GPU de 12 Go déjà occupé par le coordinateur ? Le problème du multi-agent sur GPU contraint L’architecture cible est simple : Utilisateur │ ▼ Coordinateur (Qwen2.5-3B, port 3001) │ CAP v1 ├──→ OPNsense agent ├──→ WireGuard agent └──→ CrowdSec agent │ ▼ Tool-agent-server (port 3000) Le coordinateur et les agents-outils tournent sur le même GPU — une RTX 4070 Ti avec 12 Go de VRAM réels (11.

15 Mar 2026 LoRA

Articles dans vLLM...

Changer de Base : Migrer ses Agents LoRA de Phi-3.5 vers Qwen2.5-3B

Trois Agents, Un GPU : Multi-LoRA Dynamique avec vLLM