HuggingFace | Nope...

Agents en Production · N°4

Trois Agents, Un GPU : Multi-LoRA Dynamique avec vLLM

Les trois agents sont validés à 100%. La question devient : comment les servir simultanément sur un GPU de 12 Go déjà occupé par le coordinateur ? Le problème du multi-agent sur GPU contraint L’architecture cible est simple : Utilisateur │ ▼ Coordinateur (Qwen2.5-3B, port 3001) │ CAP v1 ├──→ OPNsense agent ├──→ WireGuard agent └──→ CrowdSec agent │ ▼ Tool-agent-server (port 3000) Le coordinateur et les agents-outils tournent sur le même GPU — une RTX 4070 Ti avec 12 Go de VRAM réels (11.

15 Mar 2026 LoRA

Articles dans HuggingFace...

Trois Agents, Un GPU : Multi-LoRA Dynamique avec vLLM