KubeCon EU 2026: Solo. io lance Agentevals pour mesurer la qualité des workflows d'agents IA

KubeCon EU 2026 sert de vitrine à une nouvelle préoccupation de l’écosystème cloud-native: rendre les agents IA observables et comparables, au-delà des démonstrations spectaculaires. À cette occasion, Solo. io présente Agentevals, un outil conçu pour rendre mesurables des workflows d’agents, en s’appuyant sur des données de télémétrie et des métriques dédiées. L’annonce s’inscrit dans une tendance plus large: l’industrialisation des usages d’IA générative dans des environnements où la traçabilité, la qualité et le coût deviennent des variables de pilotage, pas des détails techniques.

Le problème est connu des équipes produit et SRE: un agent peut produire une réponse acceptable un jour, se tromper le lendemain, ou consommer soudain plus de ressources parce qu’un prompt a changé, qu’un modèle a été remplacé, ou qu’une dépendance externe est plus lente. Or, dans des chaînes multi-agents, ces écarts se propagent. L’observabilité traditionnelle, centrée sur l’infrastructure et les microservices, voit passer des requêtes et des latences, mais peine à qualifier la qualité d’une décision prise par un agent, ou l’efficacité d’un enchaînement d’actions.

Selon la présentation faite sur place et les éléments communiqués par l’éditeur, Agentevals vise précisément ce chaînon manquant: relier des signaux techniques (traces, métriques, logs) à des signaux métier propres aux agents, pour juger la qualité et l’efficience d’un workflow. Solo. io mise sur une approche hybride: réutiliser la télémétrie existante, y ajouter des métriques spécifiques, puis exposer une lecture exploitable par des équipes qui doivent arbitrer entre performance, coût et fiabilité.

Le lancement intervient dans un contexte où les entreprises demandent des garanties. Les directions numériques tolèrent mal les zones grises: une application qui semble fonctionner ne suffit plus quand elle déclenche des actions, appelle des API, ouvre des tickets, modifie des configurations ou répond à des clients. Dans cette logique, l’observabilité des agents devient un sujet de gouvernance, pas seulement un sujet d’ingénierie.

Agentevals: des métriques dédiées pour qualifier qualité et efficacité

Agentevals est présenté comme un outil d’évaluation destiné à rendre les workflows d’agents plus lisibles. L’idée centrale est de compléter les indicateurs habituels par des métriques orientées agent: qualité de sortie, conformité à une consigne, taux de réussite d’une tâche, ou encore efficacité d’exécution. Solo. io indique s’appuyer sur des métriques propriétaires et sur des données de télémétrie déjà collectées dans les stacks modernes, afin de construire une vue plus fidèle de ce que fait l’agent, étape par étape.

Dans les architectures d’agents, la difficulté n’est pas uniquement d’observer une requête, mais de suivre un raisonnement distribué: un agent planifie, un autre exécute, un troisième vérifie, parfois avec des boucles. À chaque étape, des appels sortants peuvent survenir, des outils peuvent être invoqués, des documents récupérés. Les équipes ont besoin d’un fil d’Ariane: quel sous-système a influencé la réponse, quel outil a été utilisé, et à quel coût en temps et en tokens. Sans cette lecture, la correction se fait à l’aveugle, par essais successifs.

La promesse d’Agentevals est de rendre ces chaînes auditables. Concrètement, l’outil se positionne comme une couche d’évaluation qui produit des scores et des indicateurs reproductibles, utilisables pour comparer deux versions d’un workflow. Cette capacité de comparaison est un pivot: elle permet de traiter les agents comme un logiciel, avec des régressions, des améliorations et des critères d’acceptation. Dans les entreprises, c’est souvent ce qui manque pour passer du prototype à la production.

Le terme qualité reste un terrain miné, parce qu’il dépend du contexte. Solo. io semble répondre par une approche pragmatique: multiplier les signaux, puis laisser les équipes définir ce qui compte. Un agent de support client n’a pas les mêmes critères qu’un agent de sécurité ou qu’un agent de génération de code. L’outil doit donc être paramétrable, sans devenir une usine à gaz. Le pari est que des métriques standardisées, combinées à la télémétrie, peuvent constituer une base commune.

Cette logique rejoint un mouvement observé dans l’industrie: l’évaluation systématique des sorties des modèles (Evals) quitte le périmètre des laboratoires pour entrer dans les chaînes CI/CD. Agentevals se place à l’intersection: ce n’est pas seulement un banc d’essai, c’est une tentative de faire de l’évaluation un composant d’observabilité au quotidien.

La télémétrie comme socle: traces, métriques et logs au service des agents

Solo. io met en avant l’usage de la télémétrie comme matière première. Dans l’écosystème cloud-native, l’observabilité repose sur un triptyque connu: traces, métriques et logs. Les agents, eux, ajoutent une couche sémantique: il faut savoir non seulement combien de temps et combien d’erreurs, mais aussi quelle décision et quel outil ont été mobilisés. Agentevals revendique une capacité à s’appuyer sur ces flux pour reconstruire le déroulé d’un workflow.

Cette approche est cohérente avec la réalité des plateformes: les entreprises ont déjà des pipelines de collecte et des tableaux de bord. Réinventer l’observabilité à zéro serait un frein. En s’adossant à la télémétrie, l’éditeur cherche à réduire le coût d’adoption: si les traces existent, il devient possible de les enrichir, puis de les exploiter. Dans les environnements Kubernetes, c’est un argument, car l’empilement d’outils est déjà dense.

Reste la question de la granularité. Pour qu’un agent soit observable, il faut instrumenter des événements qui n’existent pas dans un microservice classique: début et fin d’une étape de planification, appel à un outil externe, récupération de contexte, validation d’une réponse, ou encore déclenchement d’une action. La valeur d’un outil comme Agentevals dépend de sa capacité à normaliser ces événements, sans imposer une refonte complète des applications.

Dans les discussions techniques, un point revient: l’agent est souvent un assemblage de composants, parfois fournis par des bibliothèques différentes. L’observabilité doit donc couvrir des frontières multiples. Agentevals tente de résoudre ce problème en agrégeant des signaux disparates, puis en les traduisant en métriques de qualité et d’efficacité. Cette traduction est la partie la plus sensible, parce qu’elle conditionne la confiance des équipes: une métrique mal définie peut pousser à optimiser le mauvais objectif.

Au-delà du diagnostic, la télémétrie sert aussi à la prévention. Si un changement de modèle augmente la latence ou le taux d’échec d’une étape, une alerte peut être déclenchée. Si un agent commence à appeler un outil plus souvent qu’avant, le coût peut exploser. L’observabilité des agents devient alors un levier de maîtrise budgétaire autant qu’un filet de sécurité opérationnel.

Pourquoi l’évaluation des agents devient un sujet SRE, produit et conformité

Agentevals arrive à un moment où les agents sortent du champ expérimental. Dans beaucoup d’organisations, les premiers déploiements ont montré une réalité: l’agent n’est pas seulement un modèle, c’est un système. Il a des dépendances, des comportements émergents, et des effets de bord. Les équipes SRE demandent des garanties de stabilité, les équipes produit veulent des indicateurs de valeur, et les fonctions risques cherchent des traces d’audit. L’observabilité devient un langage commun.

Pour les SRE, la question est directe: comment définir un SLO pour un agent? Les métriques d’infrastructure ne suffisent pas si l’agent répond vite mais se trompe, ou s’il répond juste mais à un coût prohibitif. Les organisations cherchent donc des indicateurs composés: taux de réussite d’une tâche, taux d’escalade vers un humain, conformité à des règles, et stabilité des résultats dans le temps. En reliant la télémétrie à des scores d’évaluation, Agentevals vise ce type de pilotage.

Pour les équipes produit, l’enjeu est de comprendre ce qui crée de la valeur. Un agent peut réduire le temps de traitement d’un ticket, mais augmenter le taux de réouverture parce que la réponse manque de précision. Sans mesure, le débat reste subjectif. Un outil d’évaluation peut objectiver les arbitrages: accepter un léger surcoût de latence pour gagner en pertinence, ou au contraire limiter la complexité d’un workflow pour tenir un budget.

La conformité ajoute une contrainte supplémentaire. Quand un agent prend des décisions ou produit des recommandations, les organisations veulent pouvoir expliquer. L’explicabilité complète est souvent hors d’atteinte, mais l’auditabilité progresse: savoir quelles sources ont été consultées, quels outils ont été appelés, et dans quel ordre. La télémétrie, si elle est bien structurée, peut fournir un journal d’exécution. Agentevals se situe dans cette zone, entre observabilité et gouvernance.

Il existe aussi un sujet de sécurité: les agents peuvent être exposés à des injections de prompt ou à des contenus malveillants. Mesurer les comportements anormaux, repérer des schémas d’appels inhabituels, ou détecter des écarts de réponses peut contribuer à la défense. Un outil d’évaluation ne remplace pas des contrôles de sécurité, mais il peut fournir des signaux utiles, surtout quand les workflows deviennent complexes.

Solo. io à KubeCon EU 2026: l’observabilité des agents comme nouveau segment cloud-native

Le choix de KubeCon pour cette annonce n’est pas anodin. La conférence est devenue le baromètre de l’écosystème Kubernetes et, plus largement, des outils qui se greffent sur les stacks d’entreprise. En présentant Agentevals dans ce cadre, Solo. io cherche à positionner l’évaluation des agents comme une extension naturelle de l’observabilité cloud-native, au même titre que la gestion du trafic ou la sécurité des API.

Le marché est en train de se structurer. D’un côté, des outils d’observabilité généralistes tentent d’ajouter des fonctionnalités IA. De l’autre, des outils spécialisés apparaissent pour instrumenter les agents, suivre les appels aux modèles, et évaluer les sorties. Solo. io, connu pour ses briques autour du réseau et de la gestion des environnements distribués, tente de capter cette transition: les agents deviennent des workloads critiques, donc ils appellent des outils de production, pas seulement des notebooks.

Cette stratégie répond à une demande simple des entreprises: éviter la multiplication des consoles. Si l’évaluation des agents peut s’intégrer aux pratiques existantes, elle a plus de chances d’être adoptée. L’éditeur met en avant l’usage de la télémétrie et de métriques dédiées, ce qui suggère une intégration avec des pipelines déjà en place. La réussite dépendra de la capacité à s’insérer sans friction dans des environnements hétérogènes.

Il reste une zone d’incertitude: la standardisation. L’observabilité a progressé grâce à des conventions partagées sur les traces et les métriques. Les agents, eux, n’ont pas encore un langage universel pour décrire une étape de raisonnement, une action, ou un critère de qualité. Agentevals peut accélérer l’émergence de pratiques, mais il peut aussi se heurter à la diversité des frameworks d’agents et des modèles. Dans un secteur où les architectures évoluent vite, l’outil devra prouver qu’il suit le rythme.

Un autre point sera scruté: la capacité à relier les métriques à des décisions opérationnelles. Mesurer est utile si cela permet d’agir: rollback d’un workflow, changement de modèle, ajustement des garde-fous, ou réallocation de budget. Si Agentevals parvient à transformer l’évaluation en levier de pilotage, Solo. io peut occuper une place stratégique dans la chaîne de production des agents, au moment où les entreprises cherchent à passer de l’expérimentation à la maîtrise industrielle.

Questions fréquentes

Qu’est-ce qu’Agentevals présenté par Solo.io à KubeCon EU 2026 ?: Agentevals est un outil d’évaluation et d’observabilité visant à rendre mesurables les workflows d’agents IA, en combinant des données de télémétrie avec des métriques dédiées pour apprécier qualité et efficacité.
Pourquoi l’observabilité des agents IA devient-elle un sujet prioritaire ?: Parce que les agents IA passent en production et doivent être pilotés comme des systèmes : stabilité, coût, taux de réussite, auditabilité et conformité. Sans mesures, les dérives de performance ou de qualité restent difficiles à détecter et à corriger.

Article précédent

Razer setzt alles auf den Sensor: Warum die Viper V4 Pro die Gaming-Maus-Schlacht neu anheizt

Article suivant

Solo.io’s Agentevals Wants to Put AI “Agents” on a Leash—With Real Metrics, Not Demos

Autres articles

KubeCon EU 2026: Solo. io lance Agentevals pour mesurer la qualité des workflows d’agents IA

Agentevals: des métriques dédiées pour qualifier qualité et efficacité

La télémétrie comme socle: traces, métriques et logs au service des agents

Pourquoi l’évaluation des agents devient un sujet SRE, produit et conformité

Solo. io à KubeCon EU 2026: l’observabilité des agents comme nouveau segment cloud-native

Questions fréquentes

Navigation

Top Infos

Aluminium im Dreierpack: Londoner Chemiker bauen einen Katalysator-Kandidaten ohne Edelmetalle

A Tiny Aluminum Triangle Could Help Industry Quit Its Platinum-and-Palladium Habit

Un triangle d’aluminium réactif ouvre la voie à des catalyseurs sans métaux critiques

2 marques, 1 IONIQ V en Chine, stratégie In China, For China, ce lancement inattendu surprend les rivaux locaux

La Corvette revient aux boutons physiques : GM corrige la surenchère tactile dans ses sportives

Coups de cœur

L’hydrogène, prétendu sauveur de l’énergie verte, dévoilé comme un mythe par une étude récente

Prix de l’électricité : La nouvelle augmentation de 10% frappe les foyers français en 2024, les rares abonnés qui y échapperont

Quel véhicule a une durée de vie plus longue : Électrique ou hybride ? analyse des performances pour les conducteurs informés.