
Un client m'a posé la question il y a quelques mois, en plein milieu d'un atelier de démo. Son agent venait de traiter trente demandes impeccablement. Il a regardé l'écran, puis il m'a regardée : *"C'est bien. Mais comment je sais si ça marche encore dans six mois ? Et si ça déraille, qui me prévient ?"
Bonne question. La vraie question, même.
Beaucoup d'agences livrent des agents IA qui impressionnent en démonstration. Chez Harakiwi, on livre des agents qu'on peut surveiller, mesurer et auditer en production. La différence est essentielle pour toute PME qui engage un agent IA sur un processus métier réel : traitement des demandes clients, qualification de leads, gestion documentaire.
On a construit notre approche autour de quatre piliers. Parce qu'un agent IA qui tient en prod, ça se construit.
Il parle à vos outils, pas juste aux nôtres
Quand on intègre un agent IA dans votre organisation, la première question est : comment cet agent va-t-il s'interfacer avec ce que vous avez déjà ?
Votre CRM, votre ERP, votre base documentaire, votre messagerie. Ces systèmes existent et ils restent. C'est l'agent qui s'y adapte.
C'est ce que permettent des standards comme MCP (Model Context Protocol) et ACP (Agent Communication Protocol) : des ponts qui permettent à un agent de parler à vos outils de façon structurée, avec des développements stables et maintenables. L'intégration devient reproductible, documentée, durable.
Vous savez ce qu'il fait, à tout moment
Un agent autonome qui prend des décisions dans votre SI, c'est un gain de temps considérable. Et vous méritez de savoir exactement ce qu'il a fait, et comment.
L'observabilité, c'est la capacité à voir : quelles actions l'agent a exécutées, dans quel ordre, avec quelles données, et avec quel résultat. Des logs clairs, des traces exploitables, des métriques lisibles.
On configure des tableaux de bord accessibles à tous : vous pouvez voir en un coup d'œil si l'agent traite 200 ou 20 demandes par jour, si un type de requête génère des anomalies, si une intégration ralentit.
Vous êtes responsable de ce que fait cet agent. Vous avez toutes les clés pour l'expliquer.
On mesure qu'il fait bien son travail
Voir ce que fait l'agent, c'est une chose. Savoir si ce qu'il fait est juste, c'en est une autre.
C'est le rôle des evals : des jeux de tests structurés qui mesurent la performance d'un agent sur des scénarios réels ou simulés. Répond-il correctement à 80 % des cas, 90 %, 95 % ? Sur quels types de cas peut-on encore progresser ?
Concrètement : avant de déployer un agent qui répond aux demandes de vos clients, on le teste sur 200 cas représentatifs de votre activité réelle. On mesure, on ajuste, on redocumente. Et on recommence quand vous faites évoluer le périmètre.
On cherche les failles avant vos clients
Un agent IA peut produire des réponses inattendues : une formulation mal anticipée, une instruction contradictoire, une donnée mal formatée qui perturbe la logique.
Le red teaming consiste à tester volontairement ces limites avant la mise en production. On joue l'adversaire. On cherche les cas où l'agent produit une réponse approximative ou problématique. On documente, on corrige.
C'est une étape que beaucoup d'agences écartent parce qu'elle prend du temps et qu'elle reste invisible en démo. Chez Harakiwi, elle fait partie du livrable.
Ce que ça change concrètement
Quand ces quatre piliers sont en place, vous obtenez un agent que vous pouvez expliquer à votre expert-comptable, présenter à votre client, montrer à votre équipe, en toute confiance.
Ce n'est pas une promesse de perfection. C'est une promesse de transparence : vous savez ce que fait votre agent, vous savez s'il le fait bien, et vous savez qu'on a testé ses limites avant de vous le livrer. C'est ce que tout dirigeant devrait exiger avant de signer.










