Guides pratiques et modèles

Liste de vérification pour l'évaluation des prompts

Ce guide pratique évalue un prompt par ses résultats à travers de nombreuses exécutions, après qu'il a été exécuté, en fonction d'un ensemble fixe d'entrées et d'une grille d'évaluation écrite. C'est le complément post-résultat de la Liste de vérification pour la révision des prompts, qui vérifie un seul prompt avant que vous ne l'envoyiez. Utilisez ceci lorsqu'un prompt alimente un travail réel et que vous devez savoir si une modification l'a amélioré, détérioré ou simplement modifié.

Guide pratiquePromptsÉvaluation

Quand utiliser ceci

Vous avez modifié le libellé d'un prompt qui s'exécute en production et devez savoir si la qualité a augmenté, diminué ou est restée stable.
Vous choisissez entre deux versions de prompt pour le résumé d'exportation des commandes et voulez un chiffre, pas une intuition.
Le même prompt donne une excellente réponse le lundi et une réponse maigre le mardi, donc vous soupçonnez une variance d'exécution plutôt qu'un vrai changement.
Vous êtes sur le point de remplacer le modèle derrière un prompt et voulez détecter toute régression avant que les utilisateurs ne la voient.
Un intervenant demande « le nouveau prompt a-t-il vraiment aidé ? » et vous n'avez aucune preuve au-delà d'une capture d'écran.
Vous avez ajouté une instruction générique à un prompt et voulez confirmer qu'elle n'a pas discrètement brisé un cas qu'il réussissait auparavant.
Vous construisez une évaluation récurrente pour que les futures modifications de prompts soient notées automatiquement au lieu d'être vérifiées manuellement.

Ce que cela aide à clarifier

Si une modification de prompt est une réelle amélioration ou du bruit, en notant les mêmes entrées fixes plusieurs fois et en comparant.
Sur quelles entrées spécifiques le prompt échoue, afin de corriger l'échec plutôt que la moyenne.
Ce que signifie « bon résultat » par écrit, comme une grille que n'importe qui dans l'équipe peut appliquer pour obtenir le même verdict.
Si votre ensemble d'évaluation reflète toujours l'utilisation réelle, ou s'il est devenu obsolète et vous donne des signaux erronés en toute confiance.
Où une correction sur un cas a discrètement brisé un autre, en réexécutant l'ensemble complet au lieu de l'exemple unique que vous examiniez.
Si le gain est suffisamment important pour être mis en production, en séparant un mouvement significatif de la variation aléatoire entre les exécutions.

Pourquoi une moyenne n'est pas une preuve

Maya a un prompt qui résume l'exportation des commandes internes pour l'ingénieur de garde. Dans la fenêtre de chat, il est excellent. Elle modifie une ligne pour rendre les résumés plus concis, les deux suivants qu'elle essaie semblent excellents, et elle livre. Trois jours plus tard, un ingénieur de garde lit un résumé qui liste un total de commande qui n'apparaît nulle part sur la page d'exportation. La formulation plus concise a également supprimé l'instruction qui gardait le modèle fondé, et cela ne se montre que dans le cas de page vide que personne n'ouvre lors d'une démo. C'est ainsi que les prompts échouent. Ils ne se brisent pas bruyamment, ils dérivent, et la dérive se manifeste sous forme de billet.

Le piège est que les changements de prompt semblent sûrs. Vous ajoutez une phrase comme "soyez concis et précis" et supposez que vous avez amélioré les choses. Des recherches publiées en 2026 (l'article When "Better" Prompts Hurt) ont mesuré exactement cela et ont découvert que c'est souvent faux. Ajouter des règles génériques à un prompt utilisateur a fait chuter de manière mesurable la performance augmentée par la récupération d'un modèle, car les instructions plus lâches l'ont poussé à répondre au-delà des sources fournies. Le prompt semblait plus fort sur papier. Il était bien pire en pratique. La seule façon dont quelqu'un a remarqué cela était en évaluant un ensemble fixe d'entrées avant et après le changement. Un changement qui semble être une amélioration évidente est exactement le genre qui nécessite un chiffre, car l'intuition qu'il a aidé est la chose qui est fausse.

C'est le travail de ce guide. C'est la moitié post-résultat de la paire de prompts. La liste de vérification de révision de prompt examine un prompt avant que vous ne l'envoyiez et demande s'il a suffisamment de contexte, de contraintes et d'exemples. Cette liste de vérification commence une fois que les résultats existent et pose une question plus difficile : à travers de nombreuses exécutions, sur des entrées que vous n'avez pas choisies, ce prompt fait-il le travail, et votre dernière modification a-t-elle aidé ou nui ? Les propres directives d'évaluation d'Anthropic encadrent de bonnes évaluations comme la différence entre deviner et savoir, et les directives sont cohérentes dans le domaine. Optimiser un prompt est un processus empirique que vous pouvez mesurer. Vous changez la formulation, vous réévaluez l'ensemble fixe, vous lisez les échecs, vous décidez.

Le coût de l'ignorer est subtil. Un prompt ne se brise pas bruyamment. Il dérive. Une modification améliore le ton et régresse silencieusement le fondement sur un cas limite que personne ne teste lors d'une démo. Un mois plus tard, le cas limite est le rapport de bogue. Un harnais d'évaluation est ce qui l'aurait détecté le jour où vous avez fait le changement, alors que la différence était encore devant vous et que la correction était peu coûteuse.

Comment bien le remplir

Le harnais n'est aussi bon que les trois éléments qui le sous-tendent : l'ensemble d'entrées fixes, la grille d'évaluation et les conditions d'exécution. La plupart des évaluations faibles échouent sur l'un de ces trois, alors passez votre temps ici.

L'ensemble d'entrées fixes. C'est un fichier d'entrées réelles qui ne change pas entre les exécutions. Les directives actuelles d'Anthropic et des outils d'évaluation de prompt convergent vers un petit départ honnête : 20 à 50 cas suffisent pour détecter de vraies régressions, car les tailles d'effet sont grandes au début. Le mélange compte plus que le nombre. Un ensemble solide est échantillonné à partir de la production et de choses qui ont réellement échoué, environ la plupart des cas routiniers, une tranche de cas limites, et quelques échecs passés documentés. Un ensemble faible est vingt entrées que vous avez inventées à votre bureau, que le prompt gère déjà toutes. Contraste travaillé pour l'exportation des commandes de Maya : une entrée forte est "18 pages d'exportation réelles plus 4 cas limites de pages vides plus les 2 pages où il a une fois inventé un total, enregistrées dans un dossier, jamais éditées." Une entrée faible est "quelques pages d'exemple que j'ai tapées qui semblent à peu près correctes." L'ensemble faible rapportera un score confiant et manquera complètement le bogue de la page vide, car ce cas n'y est pas.

La grille d'évaluation. Une grille d'évaluation est la définition écrite d'une bonne sortie plus un seuil de réussite pour chaque dimension. Le test d'une bonne grille d'évaluation est simple. Deux personnes évaluant la même sortie devraient parvenir au même verdict. Commencez par deux ou trois dimensions qui comptent le plus et n'en ajoutez d'autres que lorsqu'elles prouvent qu'elles attrapent quelque chose. Pour un prompt de résumé, ce sont généralement l'exactitude (chaque nombre se rapporte à la source), le fondé (rien n'est inventé), et le format. Une ligne de grille forte lit "Fondé : aucun ordre, statut ou total n'apparaît qui ne soit pas sur la page source, seuil de réussite 100 %." Une ligne de grille faible lit "devrait être précis." La première est vérifiable par une personne ou un évaluateur de modèle. La seconde est une humeur, et deux évaluateurs ne seront pas d'accord dessus, ce qui signifie que vos scores sont du bruit.

Les conditions d'exécution. Fixez la version du modèle, la température et le prompt système, et écrivez-les. Réglez la température à 0 quand vous le pouvez, pour qu'un changement de score provienne du prompt plutôt que du hasard. Ensuite, évaluez chaque entrée plusieurs fois, 3 à 5 exécutions, pas une seule. C'est l'étape que les gens sautent, et c'est celle qui sépare un vrai résultat d'un coup de chance. Une seule exécution qui obtient un bon score pourrait être la seule bonne réponse sur cinq. Évaluer trois à cinq fois fait ressortir la variance pour que vous puissiez voir si le prompt est systématiquement bon ou occasionnellement bon. Conservez chaque score par cas, pas seulement la moyenne, et comparez le nouveau prompt à l'ancien sur les mêmes entrées lors de la même exécution. Le nombre qui décide des choses est la différence par cas entre les versions, car c'est ce qui annule le bruit que partagent les deux versions.

Les pièges et l'utilisation en équipe

La façon la plus courante de sentir qu'une évaluation est terminée alors que le travail ne l'est pas, c'est le jeu de données obsolète. Le jeu a été construit il y a six mois, la formulation en production a évolué depuis, et l'évaluation rapporte maintenant un 0,94 impeccable sur des entrées qui ne ressemblent plus à ce que les utilisateurs envoient réellement. Le score est confiant et erroné. Rafraîchissez le jeu selon un calendrier, intégrez les nouvelles erreurs au fur et à mesure qu'elles surviennent, et traitez le fichier d'entrée comme un actif vivant qui est versionné aussi soigneusement que le prompt qu'il teste.

Le deuxième piège est l'évaluation sur une seule exécution. Une exécution vous donne un échantillon d'une distribution. Elle ne vous dit presque rien sur la fiabilité et fait paraître un prompt bruyant comme stable. La solution est de faire l'évaluation 3 à 5 fois par entrée et de regarder la dispersion, pas seulement la moyenne.

Le troisième est se cacher derrière la moyenne. Un changement de prompt qui fait passer la moyenne de 0,81 à 0,85 peut être un changement qui a aidé vingt cas et en a brisé deux, et l'un des deux cas brisés est une régression de sécurité. Conservez les scores par cas. Traitez toute entrée qui réussissait auparavant un test de sécurité ou de refus et qui échoue maintenant comme un problème bloquant, même pour un seul cas, de la même manière que vous bloqueriez un déploiement sur un test échoué. Et lisez réellement les transcriptions à faible score. Une moyenne ne vous dit jamais pourquoi quelque chose a échoué. Les directives d'évaluation d'Anthropic sont claires à ce sujet : vous ne saurez pas si vos évaluateurs fonctionnent à moins de lire vous-même les transcriptions.

Un quatrième piège, plus discret, est faire confiance aveuglément à l'évaluateur du modèle. Un évaluateur basé sur un modèle est rapide et évolutif, mais il est non déterministe et comporte des biais (il a tendance à récompenser les réponses plus longues et plus confiantes). Avant de lui faire confiance, calibrez-le par rapport à votre propre jugement sur un échantillon et vérifiez que ses étiquettes correspondent aux vôtres. Le domaine considère qu'un accord d'environ 75-90 % entre l'évaluateur du modèle et un humain est le seuil pour l'utiliser à grande échelle. En dessous de cela, l'évaluateur ajoute du bruit, pas de la clarté.

En équipe, l'évaluation devient une infrastructure partagée. Le jeu d'entrées et le barème vivent dans le dépôt à côté du prompt, donc quiconque modifie le prompt relance le même jeu et hérite du même seuil. Le travail récent sur le produit montre combien cela vaut : la fonctionnalité Outcomes d'Anthropic, qui relance une tâche lorsqu'un agent d'évaluation distinct la note en dessous d'un barème, a amélioré la qualité de génération de PowerPoint d'environ 10 % sans changer le modèle du tout. Le barème et la boucle de réévaluation ont fait tout le travail, avec le même modèle. C'est le même levier que cette liste de vérification vous offre. Une fois ici, votre prochaine étape s'enchaîne naturellement : un prompt qui passe l'évaluation et alimente les flux de génération de code dans la Liste de vérification de révision des prompts avant chaque envoi, et tout code que ce prompt produit est intégré dans la Révision sécurisée du code IA dans /docs avant sa fusion. Lors de votre prochaine véritable modification de prompt, faites une petite chose : sauvegardez cinq entrées réelles dans un fichier et évaluez l'ancien et le nouveau prompt sur celles-ci avant de passer en production. Cette simple habitude attrape la régression qu'une moyenne aurait cachée.

La liste de vérification

Travaillez de haut en bas. Les trois premiers éléments construisent le harnais, ceux du milieu l'évaluent, et les deux derniers décident et protègent contre la dérive.

Ensemble d'entrées fixes : Vous avez de 20 à 50 entrées réelles verrouillées dans un fichier, tirées de la production ou d'échecs passés, qui ne changent pas entre les exécutions.
Grille d'évaluation écrite : Chaque dimension qui vous importe (exactitude, ancrage dans le contexte donné, format, ton, sécurité) a une définition écrite et un seuil de réussite, afin que deux personnes évaluent la même sortie de la même manière.
Sortie de référence ou attendue : Pour chaque entrée, vous avez soit une réponse connue comme bonne, soit des critères clairs, afin qu'un évaluateur puisse distinguer la réussite de l'échec sans deviner.
Conditions identiques à chaque exécution : La température, la version du modèle et le prompt système sont fixés et enregistrés, de sorte qu'un changement de score provienne du prompt et non de la configuration.
Exécutions multiples par entrée : Vous évaluez chaque entrée 3 à 5 fois, pas une seule, afin que la variance entre les exécutions soit visible plutôt que cachée derrière une réponse chanceuse.
Scores par cas, pas seulement une moyenne : Vous conservez le score pour chaque entrée, de sorte qu'une correction qui améliore la moyenne tout en brisant un cas ne puisse pas passer inaperçue.
Comparaison honnête avec la référence : L'ancien prompt et le nouveau prompt sont évalués sur les mêmes entrées lors de la même exécution, et vous comparez la différence par cas.
Échecs lus par un humain : Vous lisez réellement les transcriptions à faible score, car une moyenne ne vous dit jamais pourquoi quelque chose a échoué.
Les cas de sécurité ne peuvent pas régresser : Aucune entrée qui passait auparavant un contrôle de sécurité ou de refus ne peut échouer, même une seule fois.
Décision enregistrée : Vous notez livrer, retenir ou revenir en arrière, avec le numéro et la date, afin que la prochaine personne hérite de preuves plutôt que d'une intuition.

Exemple

Exemple concret : Maya évalue un prompt de résumé pour l'exportation des commandes

Prompt à tester : « Résumez cette page d'exportation de commandes internes pour un ingénieur de garde. » Ensemble d'entrées fixes : 24 pages d'exportation réelles enregistrées dans evals/orders/inputs/ (18 routinières, 4 cas limites avec des pages vides, 2 échecs passés où un total de commande a été inventé). Conditions : modèle fixé, température 0, même prompt système, enregistré dans evals/orders/config.txt. Grille d'évaluation (seuil de réussite entre parenthèses) : - Exactitude : chaque nombre dans le résumé apparaît dans la source (doit être 100 %). - Ancrage : aucun ordre, statut ou total qui n'est pas sur la page (doit être 100 %). - Format : 3 puces maximum, commencez par le nombre de commandes échouées (>= 0,9). - Ton : concis, approprié pour un ingénieur de garde, sans remplissage (>= 0,8). Exécution : chacune des 24 entrées évaluée 5 fois par un évaluateur basé sur le modèle, vérifiée par Maya sur les 5 plus basses. Résultat, nouveau prompt vs ancien : - Exactitude : 100 % vs 100 % (stable). - Ancrage : 23/24 vs 24/24. Le nouveau prompt a inventé un total dans le cas de la page vide. Régression. - Format : 0,94 vs 0,79 (mieux). - Ton : 0,86 vs 0,71 (mieux). Décision : RETENIR. Le format et le ton se sont améliorés, mais la régression de l'ancrage sur la page vide est un échec critique. Corrigez la gestion des pages vides, réexécutez l'ensemble complet, puis livrez.

Notes d'utilisation

Construisez d'abord l'ensemble d'entrées à partir du trafic réel et des échecs passés. Un ensemble doré écrit à partir de l'imagination teste les cas auxquels vous avez déjà pensé, pas ceux qui échouent.
Évaluez chaque entrée plusieurs fois. Une seule exécution cache la variance, et les directives d'évaluation d'Anthropic sont claires qu'une moyenne que vous ne lisez jamais n'est pas une preuve.
Commencez avec deux ou trois dimensions de grille d'évaluation et n'en ajoutez d'autres que lorsqu'elles méritent leur place. Une grille à dix dimensions que personne n'applique de manière cohérente est pire que trois que tout le monde évalue de la même manière.
Réexécutez l'ensemble complet à chaque changement de prompt, pas seulement l'exemple que vous déboguiez, car une correction sur un cas brise régulièrement un voisin.
Si vous n'avez pas encore envoyé le prompt, vous voulez plutôt la liste de vérification de révision de prompt. Ce guide commence une fois que les sorties existent. Le guide compagnon Reviewing AI Code Safely dans /docs couvre l'évaluation du code généré, qui est un verdict différent.
Actualisez l'ensemble d'entrées selon un calendrier. La formulation en production dérive, et un ensemble figé cesse lentement de correspondre à l'utilisation réelle tout en continuant à rapporter des scores confiants.

Enregistrement d'évaluation copiable

# Évaluation de prompt Prompt à tester : Date / propriétaire : ## Conditions (fixées) - Modèle + version : - Température : - Prompt système : ## Ensemble d'entrées fixes - Source (production / échecs) : - Nombre (viser 20-50) : - Fichier / emplacement : ## Grille d'évaluation (dimension : définition : seuil de réussite) - Exactitude : - Fondé : - Format : - Ton / autre : ## Méthode - Exécutions par entrée (viser 3-5) : - Évaluateur (code / modèle / humain) : ## Résultats (par dimension, nouveau vs référence) - : - : - : ## Lecture des échecs (cas avec les scores les plus bas) - ## Décision - [ ] Livrer [ ] Retenir [ ] Revenir - Raison + nombre : - Prochaine action :

Version téléchargeable

Une liste de vérification en dix points pour évaluer un prompt par ses résultats à travers de nombreuses exécutions contre un ensemble fixe et une grille d'évaluation.

Aperçu

Construire le harnais

Fixer un ensemble d'entrées de 20 à 50 entrées réelles, tirées de la production et des échecs passés, qui ne changent pas entre les exécutions.
Écrire la grille d'évaluation : chaque dimension (exactitude, fondé, format, ton, sécurité) a une définition et un seuil de réussite.
Joindre une réponse de référence ou des critères de réussite clairs à chaque entrée pour qu'un évaluateur puisse distinguer réussite et échec.
Fixer et enregistrer les conditions : la version du modèle, la température et le prompt système restent les mêmes à chaque exécution.

Exécuter et évaluer

Évaluer chaque entrée 3 à 5 fois, pas une seule, pour que la variance entre les exécutions soit visible.
Conserver le score pour chaque entrée, pas seulement la moyenne, pour qu'une correction qui brise un cas ne puisse pas se cacher.
Évaluer l'ancien prompt et le nouveau prompt sur les mêmes entrées lors de la même exécution, et comparer la différence par cas.
Lire vous-même les transcriptions à faible score, car une moyenne ne vous dit jamais pourquoi quelque chose a échoué.

Décider et protéger

Bloquer tout changement où une entrée qui passait un contrôle de sécurité ou de refus échoue, même une seule fois.
Enregistrer la décision (livrer, retenir ou revenir) avec le nombre et la date pour que la prochaine personne hérite des preuves.

Télécharger le PDF