
AI News: Massive Updates From OpenAI and Anthropic
Audio Summary
AI Summary
Cette semaine a été marquée par des avancées significatives dans le domaine de l'IA, avec de nombreuses annonces et mises à jour de modèles.
**OpenAI : GPT 5.5 et ChatGPT Images 2.0**
Le nouveau modèle GPT 5.5 est désormais accessible aux utilisateurs Plus, Pro, Business et Enterprise de Chat GPT et Codex. Ce modèle est conçu pour comprendre plus rapidement les intentions de l'utilisateur et peut prendre en charge une plus grande partie du travail, nécessitant moins d'informations, de détails et de contexte pour fournir des résultats pertinents. Il excelle dans l'écriture et le débogage de code, la recherche en ligne, l'analyse de données, la création de documents et de feuilles de calcul, ainsi que l'utilisation de logiciels et le passage d'un outil à l'autre. Bien que son coût soit doublé par rapport à GPT 5.4 (5 $ par million de jetons d'entrée et 30 $ par million de jetons de sortie), il utilise beaucoup moins de jetons pour accomplir les mêmes tâches, ce qui le rend plus efficace.
Des benchmarks montrent que GPT 5.5 obtient un score de 82,7 % sur Terminal Bench, surpassant GPT 5.4 (75 %) et Claude Opus (69,4 %). Il surpasse même Mythos d'Anthropic (82 %), un modèle jugé trop effrayant pour être commercialisé. Sur l'indice d'intelligence d'analyse artificielle, un score composite agrégeant les performances sur dix critères rigoureux, GPT 5.5 se positionne comme le modèle le plus intelligent, dépassant Opus 4.7, Gemini 3.1 Pro et Gemini 5.4.
L'une des différences majeures remarquées est la capacité de GPT 5.5 à faire plus avec moins d'informations. Une question vague peut générer une réponse très personnalisée, en puisant dans le contexte des conversations précédentes. Par exemple, une demande générique pour un plan de santé a abouti à un programme hautement personnalisé, prenant en compte l'historique nutritionnel et les contraintes de temps de l'utilisateur. De même, un test de génération de site web avec une consigne minimale a montré que GPT 5.5 produisait un design plus interactif et cohérent que GPT 5.4, avec une meilleure compréhension de l'intention confuse.
OpenAI a également déployé ChatGPT Images 2.0, la prochaine évolution de son modèle d'image. Ce modèle s'est considérablement amélioré, notamment pour l'intégration de texte dans les images. Sur LM Arena, une plateforme d'évaluation aveugle, GPT Image 2 est désormais le favori, avec un score de 1500, bien au-delà de Nano Banana (1271) et d'autres modèles. Ses caractéristiques notables incluent la capacité à afficher des textes denses, à produire des images moins "générées par l'IA", une précision multilingue et l'utilisation de connaissances mondiales pour combler les lacunes. Il s'agit du premier modèle d'image d'OpenAI doté de capacités de réflexion, pouvant rechercher des informations en temps réel sur le Web et créer plusieurs images distinctes à partir d'une seule requête. Des exemples impressionnants incluent la génération d'une image d'écran Mac OS X avec des applications ouvertes, une page de magazine complexe avec de nombreux détails spécifiques, et même des codes-barres fonctionnels sur des couvertures de livres.
**Anthropic : Claude Design et Artefacts en direct**
Anthropic a introduit Claude Design, un outil permettant de collaborer avec Claude pour créer des visuels soignés tels que des designs, des prototypes, des diapositives et des fiches de présentation. Utilisant le modèle de vision Opus 4.7, il est disponible pour les abonnés Claude Pro, Max, Team et Enterprise. Parmi les cas d'utilisation, la création d'animations basiques est particulièrement mise en avant. Un exemple a montré la capacité de Claude Design à redessiner un site web entier avec une seule consigne vague, générant un design interactif et animé. Bien que l'esthétique puisse être récurrente, la fonctionnalité d'animation est jugée très utile pour des rendus rapides de type After Effects, comme la création de graphiques animés ou de scènes spécifiques.
Une autre nouveauté d'Anthropic est la fonctionnalité "Artefacts en direct" dans Co-work, qui permet de créer des tableaux de bord et des outils de suivi connectés à des applications et des fichiers. Ces tableaux de bord se mettent à jour avec les données actuelles, par exemple à partir de fichiers Excel ou CSV, offrant une vue dynamique des informations. Bien que l'exploration de cette fonctionnalité soit encore limitée, elle promet une intégration plus poussée de Claude dans les flux de travail quotidiens.
**Autres Modèles et Fonctionnalités**
Plusieurs autres modèles de langage de grande taille ont été lancés cette semaine :
* **Google DeepMind a sorti Deep Research Max**, un agent de recherche autonome excellant dans les tâches de recherche approfondie.
* **Alibaba a lancé Quinn 3.6 Max Preview**, un modèle propriétaire avec des capacités de codage agentique améliorées, une meilleure connaissance du monde et une fiabilité accrue. Ils ont également sorti **Quinn 3.6 27B**, leur dernier modèle open-source, qui surpasse certains modèles de pointe dans le codage agentiel.
* **Kimmy a présenté Kimmy K2.6**, un autre modèle de codage open-source performant pour le développement à long terme et les interfaces riches en animation. Il se distingue par sa capacité à exécuter 300 sous-agents parallèles et surpasse Opus 4.6 et GPT 5.4 dans certains benchmarks importants.
OpenAI a également dévoilé **OpenAI Privacy Filter**, un modèle open-source pour masquer les informations personnelles identifiables (IPI) dans le texte non structuré. Il s'exécute localement, assurant la confidentialité des données. De plus, **ChatGPT pour les cliniciens** a été lancé, offrant une version gratuite de ChatGPT aux cliniciens vérifiés aux États-Unis pour faciliter la documentation et la recherche médicale.
Anthropic a enrichi Claude de **nouveaux connecteurs** pour des services comme AllTrails, Instacart, Audible et Tripadvisor, et Claude est désormais disponible directement dans **Microsoft Word** pour les abonnés Pro ou Max. **Microsoft Copilot** a étendu ses fonctionnalités d'agent dans Word, Excel et PowerPoint, permettant des actions en plusieurs étapes.
**X a lancé les "timelines personnalisées"**, une fonctionnalité qui permet d'épingler des sujets spécifiques à l'onglet d'accueil, alimentée par Grok pour une personnalisation algorithmique.
**HeyGen a déployé HyperFrames**, une fonctionnalité qui utilise le code Claude pour générer des animations sous forme de fichiers MP4, offrant une alternative simple pour des animations de type After Effects.
Enfin, **Ideogram** a introduit la possibilité d'utiliser des **modèles personnalisés**, permettant aux utilisateurs d'entraîner leur propre modèle sur leurs images pour que chaque nouvelle génération suive une direction artistique spécifique.
La semaine a également été marquée par la controverse autour de **Mythos d'Anthropic**, un modèle jugé trop puissant pour être commercialisé, mais qui a apparemment été consulté par des utilisateurs non autorisés. Sam Altman a critiqué cette stratégie marketing, la qualifiant d'incroyable pour attirer l'attention.
En Chine, un **semi-marathon de robots** a vu quatre robots franchir la ligne d'arrivée en moins d'une heure, certains affichant des vitesses impressionnantes.
En somme, cette semaine a été riche en innovations et en mises à jour, témoignant de l'évolution rapide et constante du paysage de l'intelligence artificielle.