
The Secrets of Claude's Agent Platform From the Team Who Built It
Audio Summary
AI Summary
Angela et Caitlin d'Anthropic discutent de l'évolution de la plateforme Claude et de l'avenir des agents gérés par Claude. Angela est responsable produit de la plateforme Claude et Caitlin est responsable de l'ingénierie de la plateforme Claude.
Elles expliquent que la plateforme a évolué d'un simple point de terminaison de complétion à un système plus sophistiqué avec des outils, des sessions de chat et, plus récemment, des agents gérés par Claude. Ces agents sont essentiellement des instances de Claude fonctionnant sur un ordinateur avec de la mémoire et d'autres capacités. L'objectif est de rendre l'utilisation de Claude aussi facile que possible, en fournissant des abstractions de plus en plus élevées pour aider les utilisateurs à obtenir les meilleurs résultats. La plateforme vise à être un ensemble de primitives et d'infrastructures permettant d'atteindre un résultat le plus rapidement possible avec le moins de travail possible.
Les agents gérés par Claude sont construits sur les mêmes primitives que les utilisateurs peuvent utiliser directement, comme l'API de messagerie. Cette API inclut des outils intégrés comme l'exécution de code dans un environnement sandbox, la recherche web, etc. Les agents gérés combinent les éléments les plus puissants de ces primitives dans une infrastructure conçue pour optimiser les résultats de Claude.
La conversation aborde la question de savoir si les utilisateurs devraient construire leurs propres agents ou attendre qu'Anthropic les fournisse. Caitlin explique qu'Anthropic a développé les agents gérés parce qu'ils avaient eux-mêmes traversé de nombreuses itérations de construction d'agents autonomes et de mise en place de l'infrastructure. Ils ont réalisé qu'il était plus efficace de le faire une fois de manière robuste pour tout le monde. Bien que certains puissent faire fonctionner des agents sur des configurations simples comme des Mac Minis, la mise à l'échelle d'agents pour des produits en production devient rapidement un défi infrastructurel majeur.
La philosophie derrière la conception des agents gérés est la modularité. Ils sont volontairement prescriptifs sur certains éléments étroitement liés au modèle Claude, comme l'utilisation des systèmes de fichiers et des "skills" (compétences). Cependant, ils s'efforcent également d'ouvrir d'autres parties de l'API pour permettre la flexibilité et l'ajout de composants personnalisés. Anthropic publie également des articles de blog et des implémentations de référence pour inspirer les développeurs qui souhaitent construire leurs propres agents sur l'API de messagerie.
Une préoccupation majeure des développeurs est le "verrouillage du modèle" (model lock-in). Les intervenantes reconnaissent que cette crainte est valide. Elles expliquent que, bien qu'il ait été courant de construire des harnais génériques pour échanger facilement les modèles, la nouvelle génération de modèles, y compris Claude, adopte des approches légèrement différentes. Il devient plus efficace de coupler étroitement le harnais et le modèle pour en tirer le meilleur parti. La redondance et l'utilisation d'autres modèles peuvent toujours être nécessaires, mais elles se produisent plutôt au niveau de l'agent (harnais + modèle) qu'au niveau d'un harnais purement générique. Cette dépendance au chemin (path dependence) signifie que des choix apparemment mineurs sur la façon de gérer les requêtes, les réponses ou les outils peuvent grandement influencer la trajectoire et les capacités d'un modèle.
Angela et Caitlin soulignent l'importance de réfléchir attentivement aux primitives et aux chemins choisis, car ils peuvent "verrouiller" le modèle dans certaines capacités. Par exemple, si un modèle est optimisé pour le raisonnement, il peut devenir excellent dans ce domaine mais moins performant dans d'autres.
Concernant les utilisateurs cibles des agents gérés par Claude, elles pensent que l'expérience de démarrage rapide, bien que bénéfique pour tous, est particulièrement utile pour les personnes qui construisent des automatisations internes complexes (par exemple, des plateformes de développement logiciel complètes) ou des produits exposés aux clients. L'objectif est d'éviter aux ingénieurs de consacrer des ressources à l'infrastructure et aux ajustements de harnais.
La difficulté perçue par les utilisateurs est souvent l'ingénierie du harnais (comment optimiser l'utilisation du modèle), mais la vraie difficulté rencontrée est l'infrastructure : mettre en production, gérer la mise à l'échelle, le stockage des données de transcription, le sandboxing sécurisé, et la résilience face aux déconnexions. La production d'agents autonomes et durables est un véritable cauchemar infrastructurel, ce qui a été une motivation majeure pour la création des agents gérés.
Elles abordent également l'idée d'agents "toujours actifs" (always-on agents), comme un agent Slack qui a sa propre personnalité et un domaine de travail spécifique. C'est un objectif qu'Anthropic souhaite atteindre, en simplifiant le déploiement. Des primitives comme les "vaults" (coffres-forts) pour stocker les identifiants sont un premier pas. L'objectif est de permettre aux utilisateurs de déployer des agents très facilement, par exemple en un clic pour une intégration Slack, ou même en demandant simplement à Claude d'ajouter Slack.
En ce qui concerne les cas d'utilisation internes des agents, elles citent l'exemple de plateformes de développement logiciel complètes, comme Minions de Stripe, que les ingénieurs peuvent utiliser de bout en bout. Elles ont également construit des plateformes similaires en interne. Ces agents peuvent être contactés via Slack ou d'autres interfaces. La différence avec de simples intégrations Slack est la possibilité de personnaliser l'environnement de développement et d'intégrer des processus CI/CD spécifiques à l'entreprise.
Un autre cas d'utilisation interne très utile est l'automatisation de processus d'équipe, comme la révision de contenu marketing par une équipe juridique. L'agent juridique peut effectuer une première passe, approuver si le contenu est clair, ou le soumettre à une révision humaine. L'avantage est la collaboration et la visibilité des résultats. Ce n'est pas qu'une simple "skill" car cela implique une interaction humaine dans la boucle et nécessite une orchestration de sessions distinctes.
La question de la propriété des agents est cruciale. Les agents peuvent rapidement devenir obsolètes s'il n'y a pas d'humain responsable. Dans l'exemple de l'agent juridique, les équipes marketing et juridique peuvent interagir avec l'agent via Claude lui-même, plutôt que de plonger dans le code. Les agents gérés peuvent être superposés, avec des agents gérés interagissant avec d'autres agents gérés, chaque couche étant optimisée pour résoudre différentes parties du problème. Cela permet une interface simple pour l'utilisateur final, tandis que de nombreux Claudes travaillent en coulisses.
Elles ont récemment lancé l'orchestration multi-agents, qui permet de construire différentes techniques de harnais. Par exemple, la stratégie "conseiller" (séparer l'exécution du conseil), des modes adversariaux, la division du travail en petits morceaux réassemblés, ou des approches de "meilleur parmi N". Chaque architecture est adaptée à des cas d'utilisation spécifiques, comme la recherche approfondie ou la chasse aux bugs. Rendre les primitives modulaires comme des LEGO permet aux utilisateurs de créer des architectures plus complexes et d'obtenir des résultats plus intéressants.
Mesurer le succès d'un agent implique des évaluations, mais Anthropic privilégie les "résultats vérifiables". La philosophie ultime est que tout devrait se résumer à un résultat et un budget. L'objectif est que Claude soit capable d'interpréter une spécification de résultat définie par un humain et de s'auto-évaluer.
La gestion des agents obsolètes est un défi. Anthropic a développé des "skills" pour faciliter la mise à niveau vers de nouveaux modèles. L'idée est que les utilisateurs doivent considérer la mise à niveau comme un changement majeur nécessitant un effort. Les personnes les plus "AGI-pilled" pourraient même utiliser des agents pour surveiller d'autres agents et détecter ceux qui sont obsolètes.
Dans un an, la plateforme devrait être beaucoup plus simple à utiliser, avec une abstraction d'ordre supérieur. Les utilisateurs ne se soucieront plus autant de l'ingénierie du harnais, de la sélection des modèles ou des architectures. Claude devrait être capable de se comprendre suffisamment pour s'écrire lui-même à la volée, en se basant sur un résultat et un budget. Caitlin ajoute que l'enjeu majeur pour l'équipe d'ingénierie sera la mise à l'échelle massive de la plateforme pour gérer des agents fonctionnant constamment et se recréant, assurant que les requêtes puissent entrer et sortir de Claude sans entrave.