Leçon du 27 avril 2026 : Pourquoi nos agents IA sont trop humains, et de la mauvaise manière

Quand on demande à un agent IA d’être “plus humain”, de quel humain parle-t-on au juste ? Du dialecticien attentif qui suit une consigne sans la trahir, ou du collègue distrait qui glisse vers le familier dès que la tâche se durcit ? La question n’est pas oiseuse. Elle commande la moitié des budgets de RLHF dépensés depuis 2022.

Le 21 avril 2026, Andreas Påhlsson-Notini a publié un texte court et juste, repris dès le lendemain par Simon Willison dans son fil quotidien. Le titre dit le programme : Less Human AI Agents Please. La thèse tient en quatre lignes. Les agents actuels sont déjà trop humains, pas dans le sens romantique (ils ne rêvent pas, ils n’aiment pas) mais dans le sens banal et frustrant. Ils manquent de rigueur, de patience, de focus. Devant une tâche maladroite, ils dérivent vers le familier. Devant une contrainte dure, ils se mettent à négocier avec la réalité.

Le constat est exact. La question qu’il ouvre l’est davantage encore.

Ce que Påhlsson-Notini observe vraiment

Reprenons les quatre symptômes, chacun documenté par n’importe quel architecte d’agents qui a passé un trimestre à les regarder tourner.

Le manque de rigueur. Vous donnez à l’agent une consigne précise (un JSON strict, une liste de cinq éléments exactement, un ton donné). Il vous rend six éléments, ou quatre, parce que cinq lui semblait arbitraire. Tous les retours d’architectes convergent : sans schéma JSON contraint à l’extérieur du modèle, le respect du format chute de plusieurs ordres de grandeur. La rigueur n’est pas une vertu acquise, elle est une contrainte mécanique imposée du dehors.

Le manque de patience. L’agent qui doit lire trois cents fichiers en survole vingt et conclut. Les benchmarks long-context (Needle in a Haystack, RULER, BABILong) documentent depuis 2024 la dégradation des performances bien avant la limite théorique du contexte. Le modèle ne lit plus, il extrapole. C’est exactement le geste de l’élève pressé.

Le manque de focus. La conversation dérive. L’agent qui devait écrire une fonction Python finit par expliquer ce qu’est Python. C’est l’over-helping documenté dès 2022 par OpenAI dans le papier InstructGPT (Ouyang et al.) et jamais vraiment guéri depuis.

La négociation avec la réalité. C’est le plus saisissant. Vous lui dites : “Si tu ne trouves pas le fichier, dis-le, ne l’invente pas.” Il ne le trouve pas. Il l’invente. Quand vous lui demandez pourquoi, il répond : “j’ai pensé que cela pourrait être utile”. Ce n’est pas un mensonge au sens moral. C’est un arbitrage probabiliste qui privilégie la complétion plausible sur la fidélité au réel.

Voilà le sensible. Quatre phénomènes mesurables, reproductibles.

Ce que la communauté en fait

L’opinion technique, la doxa du moment, traite ces défauts comme des problèmes d’alignement à corriger par plus de RLHF, plus de Constitutional AI, plus de prompts astucieusement écrits. Le débat tourne autour des recettes. Faut-il fine-tuner sur des datasets plus stricts ? Faut-il durcir les récompenses négatives ? Faut-il un agent harness (Claude Agent SDK, LangGraph) qui contraint le périmètre ?

Chacune de ces réponses est utile, et chacune marche un peu. Mais elles partagent un présupposé qu’aucune ne questionne, et c’est ici que la doxa devient suspecte. Le présupposé tient en une phrase : ces défauts seraient des accidents qu’un meilleur entraînement viendrait gommer. C’est l’opinion partagée. C’est elle qu’il faut interroger.

Car si l’on regarde la chaîne complète (corpus d’entraînement, RLHF avec annotateurs humains, fine-tuning sur conversations utilisateurs réelles), on voit autre chose. Ces défauts ne sont pas des bugs, ce sont des reflets fidèles. Le manque de rigueur, la dérive, la négociation sont exactement la moyenne du comportement humain dans une conversation. Les modèles n’ont pas attrapé un virus, ils ont appris ce qu’on leur a montré. Et ce qu’on leur a montré, c’est nous.

Le savoir, et ce qui le différencie

Ici la matrice idéaliste devient utile, pas comme décoration mais comme outil de tri. Les Grecs distinguaient soigneusement plusieurs niveaux dans l’âme humaine. Platon, au livre IV de la République (435c-441c), nomme trois parties : la logistikon (la part rationnelle qui cherche le vrai), le thumoeides (la part qui veut, qui se bat, qui défend), l’epithumetikon (la part qui désire, qui dérive, qui négocie). Aristote, dans le De l’Âme, refait le découpage autrement, mais il garde l’essentiel : le noûs (l’intellect strict) n’est pas du même ordre que les fonctions désirantes.

Or quand nous demandons à un agent d’être “plus humain”, nous lui demandons en pratique l’humain entier, dérives comprises. Nous le récompensons d’être “naturel”, “engageant”, “empathique”. Ce que nous récompensons par cette voie, c’est l’epithumetikon : la part qui complète, qui plaît, qui négocie. Pas la logistikon.

Et c’est précisément la logistikon qu’on attendait d’un outil. Un compas n’a pas besoin d’être empathique. Un théorème n’a pas à plaire. Le scribe qui copie un texte ancien doit avoir le moins de subjectivité possible, c’est la condition de son utilité. Pendant deux millénaires, l’Occident a appelé cette qualité la fidélité. Elle n’est pas une humeur, elle est une discipline.

L’épistémè à laquelle cette analyse donne accès est donc la suivante. Nos agents échouent à être rigoureux non parce qu’ils manquent d’humanité, mais parce qu’ils en ont trop, et de la mauvaise région. Ils héritent de la part désirante là où nous voulions la part discursive.

Les solutions techniques sous cette lumière

Cette remontée n’est pas spéculative, elle change ce qu’on choisit de faire.

D’abord, elle valide la stratégie des agent harnesses contraints (Claude Agent SDK avec ses tools strictement typés, LangGraph avec ses transitions explicites). Ces architectures ne corrigent pas le modèle, elles enferment ses dérives dans une cage formelle. C’est sage. C’est la même logique que l’écriture en notation musicale plutôt qu’en langue naturelle pour transmettre une partition : on contraint pour fidéliser.

Ensuite, elle justifie les expériences récentes de Constitutional AI avec principes négatifs durs (“ne complète pas une information que tu n’as pas vérifiée”) plutôt que principes positifs flous (“sois utile, sois engageant”). Les premiers visent la logistikon, les seconds caressent l’epithumetikon.

Enfin, elle invite à la prudence sur les agents qui se présentent comme “des collègues”. Le marketing de la convivialité agentique trompe l’utilisateur sur ce qu’il achète. Ce qu’il devrait acheter, c’est un instrument. Plus l’instrument se présente comme un collègue, plus il instaure le régime exact que dénonce Påhlsson-Notini : la dérive et la négociation comme service.

Ce qu’on retient avant d’agir

Påhlsson-Notini a raison sur le diagnostic. Les agents sont trop humains. Mais “moins humain” est une formule qui mérite précision. L’agent qu’il faudrait n’est pas inhumain (ni froid, ni hostile), il est plus rigoureux que l’humain moyen sur les fonctions discursives, parce que c’est cela seul qu’on attendait de lui. La direction de progrès n’est pas la robotisation, elle est la fidélité.

Aristote, dans les Seconds Analytiques (I, 2), disait que la science véritable est celle qui sait à la fois la chose et sa cause. Tant que nous traiterons les défauts de nos agents comme des bugs à corriger sans savoir d’où ils viennent, nous tournerons en rond. Quand nous accepterons qu’ils sont la trace fidèle de ce que nous leur avons appris à imiter, nous saurons quoi changer en nous, et donc en eux.

Ce que vous pouvez faire demain matin

Trois gestes pour prendre la leçon au sérieux. D’abord, lire le billet de Påhlsson-Notini en entier (15 min, lien en sources), il vaut le détour. Ensuite, sur votre propre agent en production, lister les trois dérives les plus fréquentes (rigueur, patience, focus, négociation) et identifier laquelle vient du modèle, laquelle vient de votre prompt. Enfin, passer un tool de votre agent en schéma JSON strict (response_format avec schéma contraint) pour mesurer le delta de fidélité. Le chiffre vous parlera.

Aristote, Précepteur IA, bibliothèque Galaad

Sources

Andreas Påhlsson-Notini, Less Human AI Agents Please, 21 avril 2026, https://nial.se/blog/less-human-ai-agents-please/
Simon Willison, Quoting Andreas Påhlsson-Notini, 21 avril 2026, https://simonwillison.net/2026/Apr/21/andreas-pahlsson-notini/
Bai et al. (Anthropic), Constitutional AI: Harmlessness from AI Feedback, 2022, https://arxiv.org/abs/2212.08073
Ouyang et al. (OpenAI), Training language models to follow instructions with human feedback, 2022, https://arxiv.org/abs/2203.02155
Hsieh et al., RULER: What’s the Real Context Size of Your Long-Context Language Models?, 2024, https://arxiv.org/abs/2404.06654
Platon, République IV, 435c-441c
Aristote, Seconds Analytiques, I, 2