
Le nouveau Claude est là ! (OPUS 4.8)
Audio Summary
AI Summary
Le nouveau modèle de Claude, Opus 4.8, vient de sortir le 28 mai. Après un Opus 4.6 très apprécié et un 4.7 décevant, l'espoir est grand pour cette nouvelle version. Les benchmarks sont, comme toujours, impressionnants, mais il est crucial de les considérer avec prudence, car l'expérience réelle d'utilisation est ce qui compte le plus.
La question n'est pas seulement la puissance sur le papier, mais la correction des erreurs passées. Le problème principal d'Opus 4.7 n'était pas un manque de puissance, mais un manque de fiabilité. L'IA avait tendance à s'avancer et à inventer des informations, un phénomène connu sous le nom d'hallucination. Opus 4.8 semble avoir corrigé cela en étant capable de reconnaître ses erreurs, ce qui représente une avancée significative. Ce n'est pas un modèle magique, mais il est fiable et suffisamment puissant pour des applications business, générant une réelle valeur pour les entreprises.
Une nouveauté importante d'Opus 4.8, désormais disponible sur la version web, est la gestion du niveau d'effort. Ce réglage permet de contrôler l'intensité avec laquelle le modèle travaille pour répondre à une requête. Il existe plusieurs niveaux d'effort, et il n'est pas toujours optimal d'utiliser le niveau maximal.
Le niveau "Low" (faible) est idéal pour des tâches rapides et économiques, comme le classement de documents, le résumé de textes, ou la gestion de gros volumes de données. Il utilise moins de tokens et est donc plus rentable.
Le niveau "Medium" (moyen) représente un bon compromis entre vitesse, coût et qualité.
Le niveau "High" (élevé) est recommandé par Anthropic pour Opus 4.8 et est la valeur par défaut pour une analyse sérieuse. Il est très puissant et adapté au code.
Les niveaux "Extra High" et "Max" sont réservés aux travaux très longs et autonomes, par exemple pour des agents IA travaillant sur des tâches complexes pendant des dizaines de minutes. Ils sont pertinents pour des systèmes IA autonomes et des processus avancés. Cependant, le niveau "Max" n'est pas toujours le meilleur, car il peut être contre-productif et entraîner une "sur-réflexion" du modèle pour des tâches qui ne le nécessitent pas. La maîtrise de l'outil, y compris le choix du bon niveau de raisonnement, est donc essentielle.
Pour illustrer l'importance de ce réglage, une démonstration est effectuée avec l'analyse d'un devis. Le même prompt est utilisé avec un niveau de raisonnement faible et un niveau maximal. Le modèle en mode faible répond beaucoup plus rapidement (environ 15 secondes) et identifie les points de vigilance principaux (prix correct mais conditions transformant une prestation ponctuelle en un engagement de deux ans). Le modèle en mode maximal prend plus de deux minutes, mais fournit une analyse plus fine et sourcée, incluant des informations sur l'asymétrie des pénalités et des précisions juridiques sur la cession des droits, qui étaient absentes de la première analyse. Cela montre que pour des enjeux importants ou des sujets juridiques complexes, un raisonnement plus avancé peut être très bénéfique. Un playbook complet a été créé pour aider à utiliser ce modèle et ses différents niveaux de raisonnement, incluant des prompts à copier-coller.
Un autre scénario concret est présenté : l'analyse d'un fichier de suivi client (CRM simplifié) via Claude Cowork et ses connecteurs. Les connecteurs permettent d'interagir avec divers outils comme Google Drive, Firecrawl (pour la recherche et le scrapping), Fireflies (pour l'analyse d'appels clients), les emails, les calendriers, ou même YouTube. En connectant Claude à un Google Sheet contenant des données clients, l'IA peut créer un "live artifact", c'est-à-dire un tableau de bord dynamique affichant la liste des clients, leur panier moyen, leur chiffre d'affaires, et des graphiques (chiffre d'affaires par client, répartition par secteur, top 5 des clients). Ce tableau de bord est connecté en temps réel au fichier source. Si une modification est apportée au Google Sheet (par exemple, le chiffre d'affaires d'un client), le tableau de bord de Claude se met à jour instantanément, offrant une vue dynamique et actualisée de l'activité.
Cette capacité à visualiser les données en temps réel, combinée à la possibilité de se connecter à d'autres sources de données (emails, appels clients), offre une puissance considérable aux dirigeants d'entreprise pour piloter leur activité. La mise en place de tels "cockpits de pilotage" n'est pas nécessairement complexe techniquement, mais requiert une bonne compréhension des processus métiers, des connexions appropriées et des prompts bien configurés. Ces systèmes peuvent générer une valeur significative pour les entreprises.
Concernant l'avenir, Anthropic travaille sur un modèle encore plus puissant appelé Mythos Preview. Ce modèle serait si avancé qu'Anthropic hésite à le rendre public, le testant actuellement avec un petit nombre d'organisations partenaires pour des projets de cybersécurité, en raison de risques potentiels pour la sécurité. Bien que certains y voient un argument marketing, Anthropic affirme que des modèles de ce niveau de performance nécessitent des mesures de sécurité renforcées avant une diffusion à grande échelle. Anthropic indique également qu'Opus 4.8 est une "amélioration modeste" et qu'ils travaillent sur le développement de modèles offrant des fonctionnalités similaires mais à un coût bien moindre, ce qui serait intéressant pour la création d'agents IA plus avancés.
Opus 4.8 est proposé au même prix que la version précédente, moins performante et moins fiable. Il s'agit donc davantage d'une correction que d'une révolution, mais il ramène la fiabilité d'Opus 4.6 avec des ajustements supplémentaires, ce qui est très satisfaisant. Il est recommandé de basculer vers ce nouveau modèle, mais surtout de ne pas sous-estimer l'importance des réglages d'effort. Claude Code,