
Why Opus 4.8 Pulled Me Back to Claude
Audio Summary
AI Summary
La sortie du modèle Opus 4.8 d'Anthropic est un événement majeur, tellement que l'on pourrait le considérer comme une version 5. L'équipe d'Every, après une semaine de tests internes, partage ses premières impressions. Opus 4.8 est décrit comme un modèle exceptionnel, surpassant les attentes et se plaçant au sommet des classements, notamment par rapport à GPT 4.5.
Historiquement, Anthropic a connu des hauts et des bas. Opus 4.7, par exemple, bien qu'amélioré en termes de benchmarks, était jugé peu utilisable et lent. De nombreux utilisateurs, y compris au sein d'Every, se tournaient alors vers des alternatives comme GPT 4.5 pour le codage et l'écriture. L'application de bureau de Claude était également critiquée pour son manque de fluidité par rapport à des outils comme Codex.
Opus 4.8 change la donne. Sur le benchmark "senior engineer", il obtient un score de 63, soit 30 points de plus qu'Opus 4.7 et un point de plus que GPT 4.5. Il excelle dans l'écriture, produisant des textes expressifs, sans les "tics" habituels de l'IA, surtout avec les réglages de raisonnement les plus élevés. Ses capacités en matière de travail de connaissance sont également impressionnantes. Il a par exemple généré une présentation sur le "compound engineering" avec une profondeur et un style remarquables, une première pour un modèle générant ce type de contenu. La qualité de l'amélioration sur plusieurs dimensions simultanément est soulignée, comme si Anthropic avait trouvé le juste équilibre. Un testeur interne, Kieran Classen, le décrit comme le modèle le plus "humain" avec lequel il ait travaillé.
Cependant, quelques limitations subsistent. Le modèle est très sensible aux réglages de raisonnement : les performances sont excellentes en "extra high reasoning" mais moins bonnes en "high" et "medium". Il est donc recommandé d'utiliser les réglages les plus élevés pour les tâches complexes. De plus, bien que le modèle soit excellent, l'interface de Claude reste un point faible par rapport à l'application Codex, jugée plus rapide, plus simple et plus efficace, notamment grâce à son navigateur intégré. Cela empêche Opus 4.8 de devenir un "daily driver" unique pour certains utilisateurs, qui continuent d'utiliser Codex pour son interface.
Malgré cela, le "reach test" d'Every, qui mesure la fréquence et la facilité avec lesquelles un modèle est utilisé, classe Opus 4.8 comme un modèle "S tier" et "paradigm shifting", le plaçant au plus haut niveau. Les retours des testeurs varient, certains le considérant comme une révolution, d'autres comme une amélioration significative.
En matière de codage, Opus 4.8 est un "powerhouse" avec un raisonnement "extra high". Il se compare très favorablement à GPT 4.5 sur des tâches de réécriture de code à partir de zéro. Sur des benchmarks plus réalistes, comme la construction d'un site e-commerce ou d'un jeu 3D, il produit un code lisible, créatif et riche en détails. Dans la création d'une scène 3D, il est jugé plus vivant et détaillé que GPT 4.5.
Pour l'écriture, il est considéré comme le meilleur modèle testé par Every, surpassant GPT 4.5 en expressivité et en capacité à imiter le style de l'utilisateur. Il est également très doué pour les tâches interpersonnelles, faisant preuve d'une intelligence émotionnelle et d'une capacité à élargir la perspective de l'utilisateur.
En conclusion, Opus 4.8 est un modèle exceptionnel, un véritable "banger". Il est recommandé à tous les utilisateurs de Claude, et fortement conseillé aux utilisateurs de Codex pour enrichir leur arsenal d'outils. Every continuera de publier des mises à jour et des analyses approfondies sur son site.