Tester un système agentique, c’est tester du logiciel 8 minutes

Section 3 — Orchestrer

Un agent qui fonctionne une fois n’est pas fiable. Comme tout logiciel, un un système agentique doit être testé, observé et amélioré dans le temps. La différence est qu’un système agentique introduit de la variabilité : il dépend du contexte, des données, des règles et des intégrations et des compétences (skills) qu’il mobilise.

Tester l’agentique exige donc une discipline d’ingénierie claire.

Un système agentique en production doit fonctionner des centaines, des milliers de fois, dans des conditions imparfaites. La question n’est pas « est-ce que ça marche ? » mais « dans quelles conditions ça cesse de marcher, et comment le système réagit ? ».

Un agent, une compétence ou un workflow qui n’est pas testé rigoureusement devient rapidement un risque opérationnel. À l’inverse, un système évalué en continu, couche par couche, devient un composant fiable que l’organisation peut faire évoluer avec confiance.

Dans cet article

01 Ce qu’il faut réellement tester
02 Définir ce que signifie “fonctionner”
03 Tester les skills séparément
04 Tester au-delà du scénario idéal
05 Mesurer la performance, pas seulement la réponse
06 Observer et mesurer en production
07 Améliorer sans repartir de zéro

Ce qu’il faut réellement tester

Une erreur fréquente consiste à croire qu’il suffit de tester l’agent. Dans la pratique, la qualité d’un système agentique dépend de plusieurs couches distinctes qui doivent toutes être validées.

D’abord les compétences (skills). Une compétence doit produire un résultat cohérent lorsqu’elle est utilisée dans différents contextes. Elle doit être testable indépendamment du reste du système.

Ensuite les agents eux-mêmes. Ils doivent démontrer leur capacité à sélectionner les bonnes compétences, prendre les bonnes décisions et atteindre les objectifs qui leur sont confiés.

Puis les workflows agentiques. Plusieurs agents et plusieurs compétences peuvent collaborer pour exécuter un processus complet. C’est souvent à ce niveau que les erreurs les plus coûteuses apparaissent.

Enfin, le système agentique dans son ensemble doit être validé dans son environnement réel : données, intégrations, permissions, règles métier et supervision humaine.

Tester uniquement l’agent revient à tester uniquement l’interface d’une application sans vérifier les services qui l’alimentent.

Définir ce que signifie « fonctionner »

Avant même d’écrire des tests, il faut définir ce que signifie « bon fonctionnement ». Un système agentique n’est pas évalué uniquement sur la qualité d’une réponse, mais sur sa capacité à produire un résultat utile, fiable et cohérent dans un contexte réel.

Cela implique de clarifier :

le résultat attendu ;
les conditions d’acceptation ;
les seuils de performance ;
les cas où le système doit demander validation ou s’arrêter ;
les critères propres aux skills, aux agents et aux workflows.

Cette définition constitue la definition of good Sans elle, il est impossible de juger si un système agentique est prêt pour la production. Un agent peut produire des réponses convaincantes et rester inutilisable s’il ne respecte pas les règles métier, s’il agit au mauvais moment ou s’il crée des incohérences ailleurs dans le processus.

Tester l’agentique, ce n’est pas seulement vérifier que la réponse est correcte. C’est vérifier qu’il agit correctement dans le système dans lequel il s’insère.

[Résumé exécutif]

Apprenez tout ce qu'il faut savoir sur l'IA agentique

Téléchargez le guide exécutif pour vous aider à déployer l’IA agentique dans votre entreprise. Les agents IA ne transformeront pas votre entreprise. Voici comment vous y arriverez.

Tester les skills séparément

Les organisations découvrent rapidement qu’il est beaucoup plus facile de maintenir un système agentique lorsque les skills sont testées indépendamment des agents.

Un skill est généralement évalué selon :

l’exactitude du résultat produit
le respect des règles métier
la stabilité du comportement
la vitesse d’exécution
le coût d’exécution
la capacité à retourner une erreur claire lorsqu’elle ne peut pas accomplir la tâche

Prenons un exemple simple. Un agent de ventes peut utiliser :

une compétence de recherche CRM
une compétence de qualification
une compétence de rédaction
une compétence de génération de proposition

Si la qualité des propositions se dégrade, l’équipe doit pouvoir identifier rapidement quelle compétence est responsable. Tester chaque compétence individuellement permet d’isoler les problèmes, d’accélérer les correctifs, de réduire les régressions et de réutiliser les mêmes compétences dans plusieurs agents.

À grande échelle, les compétences deviennent des composants logiciels réutilisables qui méritent leur propre stratégie de qualité.

Tester au-delà du scénario idéal

Les démonstrations se concentrent souvent sur un scénario idéal. En production, les données sont imparfaites, les cas limites fréquents et les situations inattendues.
Tester un système agentique consiste à :

vérifier son comportement sur des scénarios variés
observer sa réaction aux erreurs et aux données incomplètes
valider sa capacité à respecter les règles et les permissions
mesurer la cohérence de ses décisions dans le temps
vérifier que les bons skills sont appelées au bon moment
valider que les erreurs d’un skill ne compromettent pas tout le workflow.

Les pratiques d’ingénierie logicielle classiques restent pertinentes : tests unitaires, tests de scénarios, tests de régression. La différence est que le système agentique introduit une part de variabilité. Il faut donc tester non seulement ce qu’il fait quand tout va bien, mais aussi ce qu’il fait quand le contexte change.

Un système agentique fiable n’est pas celui qui réussit toujours. C’est celui qui se comporte de manière prévisible lorsqu’il ne peut pas réussir.

Mesurer la performance, pas seulement la réponse

Dans un système agentique, la performance ne se mesure pas seulement à la qualité d’une réponse textuelle. Elle se mesure à l’impact sur le processus.
Un agent peut produire une réponse correcte mais ralentir un flux, déclencher une mauvaise action ou créer un goulot d’étranglement.

Il faut donc définir des indicateurs adaptés :

temps de traitement
taux d’erreur
fréquence des validations humaines
cohérence des décisions
coût par action ou par transaction
taux de réussite par skill
taux de réutilisation des skills
fréquence des escalades vers un humain
points de rupture dans les workflows

Ces indicateurs permettent d’évaluer le système agentique comme un composant opérationnel, pas comme un simple outil de génération de texte. Ils rapprochent l’évaluation des agents des normes d’ingénierie logicielle et de qualité opérationnelle.

Observer et mesurer en production

Le test ne s’arrête pas au déploiement. Un système agentique doit être observé en continu. Il faut pouvoir comprendre ce qu’il fait, pourquoi il le fait et avec quels résultats.

Cela suppose des mécanismes d’observabilité : journaux d’activité (logs), indicateurs de performance, suivi des erreurs et des validations humaines.

Dans un système agentique, l’observabilité doit aussi permettre de comprendre quels skills ont été appelées, dans quel ordre, avec quelles données et avec quels résultats.

Ces informations permettent d’identifier les dérives, d’ajuster les règles et d’améliorer progressivement le système.

L’évaluation des agents en production devient un levier d’optimisation. Les données d’usage réel permettent d’ajuster les instructions, les règles, les intégrations et les skills réutilisables. Elles permettent aussi d’identifier les cas où le système doit gagner en autonomie et ceux où il doit rester encadré.

Un système agentique mature repose sur une boucle continue : observer, mesurer, ajuster.

Améliorer sans repartir de zéro

Les agents évoluent. Les modèles changent, les données se transforment, les règles métier évoluent. Tester régulièrement permet d’ajuster ces éléments sans reconstruire l’ensemble du système.

C’est encore plus vrai lorsque les skills sont conçus comme des composants réutilisables. Un skill bien testée peut être améliorée, remplacée ou réutilisée dans plusieurs agents (et même dans des plateformes différentes) sans devoir reconstruire tout le système.

Cette logique d’amélioration continue transforme l’agentique en composant logiciel durable plutôt qu’en projet ponctuel.

Un agent n’est pas un objet figé. C’est un système vivant qui doit être maintenu, évalué et amélioré comme n’importe quel logiciel critique. Mais dans une architecture agentique mature, ce ne sont pas seulement les agents qui évoluent. Les skills, les workflows, les règles et les intégrations doivent aussi être maintenus dans le temps. L’évaluation n’est pas une étape finale. C’est une capacité permanente de l’organisation.

TL;DR

— Un agent, un skill ou un workflow qui « marche une fois» ne vaut rien en production.
— Un système agentique est un logiciel qui agit dans des processus réels et doit être testé comme tel : définition claire du bon fonctionnement, tests des compétences, tests des agents, tests des workflows, mesure de performance et observabilité continue.
— Les skills doivent être validés séparément, parce qu’ils deviennent des composants réutilisables dans plusieurs agents.
— Sans évaluation rigoureuse, l’agentique devient un risque opérationnel.
— Avec une discipline d’ingénierie et de mesure, il devient un levier fiable et améliorable dans le temps.

Marie-Eve Trempe

Tester un système agentique, c’est tester du logiciel 8 minutes

Ce qu’il faut réellement tester

Définir ce que signifie « fonctionner »

Apprenez tout ce qu'il faut savoir sur l'IA agentique

Tester les skills séparément

Tester au-delà du scénario idéal

Mesurer la performance, pas seulement la réponse

Observer et mesurer en production

Améliorer sans repartir de zéro

Montréal

Toronto

NEW YORK

CompaGNIE

services

ResSources

NOS PARTENAIRES