
AI News: Huge Updates From Anthropic, OpenAI and Google
AI Summary
Voici un résumé des points clés de la semaine dans le monde de l'intelligence artificielle, basé uniquement sur la transcription fournie :
**Mises à jour majeures des interfaces utilisateur et évolution vers des "super applications" :**
La semaine a été marquée par d'importantes mises à jour d'interfaces utilisateur de la part de plusieurs acteurs majeurs de l'IA, notamment OpenAI, Anthropic et Google. Ces mises à jour suggèrent une tendance vers la consolidation des fonctionnalités en une seule plateforme, une sorte de "super application".
* **OpenAI et Codex :** L'application Codex d'OpenAI a reçu des mises à jour significatives qui la rapprochent de cette idée de super application. Elle peut désormais fonctionner sur votre ordinateur en parallèle de votre propre travail, générer des images directement dans l'application (en utilisant GPT Image 1.5), se souvenir de vos préférences, apprendre de vos actions passées et prendre en charge des tâches répétitives. Elle étend ses capacités au-delà du codage, permettant par exemple de commenter directement une page web et de demander des modifications visuelles. La possibilité de faire travailler plusieurs agents en parallèle sans interférer avec le travail de l'utilisateur est une avancée notable par rapport aux expériences précédentes comme Claude Co-work. Codex intègre également un navigateur web et peut effectuer des actions sur des applications, comme la génération d'une maquette de site web pour des planches de surf et des tacos, puis la création du site lui-même. Il peut même générer une image de fond personnalisée pour une section du site. De plus, Codex peut désormais créer des applications de bureau locales, comme une version de Connect 4 pour Mac, et même tester l'expérience utilisateur de ces applications en jouant contre l'IA intégrée. L'auteur exprime une appréciation croissante pour Codex, le trouvant de plus en plus simple et utile.
* **Anthropic et Claude Code :** Anthropic a également mis à jour Claude Code, introduisant la capacité de lancer des sessions de travail en parallèle. Cela permet aux utilisateurs de travailler sur plusieurs dépôts de code simultanément et de passer de l'un à l'autre au fur et à mesure que les résultats arrivent. L'interface a été légèrement redessinée. Les nouvelles fonctionnalités incluent un terminal intégré, un éditeur de fichiers dans l'application, un visualiseur de différences plus rapide et une prévisualisation étendue (pour les fichiers HTML, PDF, et les serveurs locaux). L'objectif est de permettre aux développeurs de réaliser la quasi-totalité de leurs tâches de codage directement dans l'application Claude Code, sans avoir besoin de passer par la ligne de commande.
* **Google et Gemini :** Google a rendu son application de bureau Gemini disponible pour les utilisateurs Windows dans le monde entier. L'application offre un accès direct à Google Search et au mode IA de Google. Pour les utilisateurs de Mac, l'application Gemini est désormais disponible, permettant de réaliser toutes les actions possibles dans la version navigateur, y compris la génération d'images avec Nano Banana, de vidéos avec VO, et d'autres fonctionnalités comme la recherche approfondie et l'apprentissage guidé. Une mise à jour notable de Chrome introduit des "commandes slash" (slash commands), permettant de transformer des invites IA réutilisables en outils en un clic. Ces compétences peuvent être enregistrées et exécutées sur la page en cours ou sur d'autres onglets sélectionnés. L'auteur compare cette fonctionnalité à Comet de Perplexity.
**Nouveaux modèles et améliorations des modèles de langage :**
* **Claude Opus 4.7 :** Le modèle le plus discuté de la semaine est Claude Opus 4.7 d'Anthropic. Bien que des benchmarks montrent une amélioration significative, notamment dans le domaine du codage (Agentic Coding et SWEBench Pro), Anthropic a proposé une version intermédiaire du modèle "Mythos preview", jugé trop puissant pour un accès général. Opus 4.7 se situe entre la version précédente (Opus 4.6) et le modèle "Mythos preview", montrant des gains notables pour les développeurs. Pour les utilisateurs généraux, la différence pourrait être moins perceptible, sauf peut-être dans une meilleure compréhension des instructions et une amélioration du support multimodal. L'objectif est de réduire le besoin d'une ingénierie d'invite complexe.
* **Modèles Open Source :**
* **MiniAX M2.7 :** Ce modèle est désormais open source. Il affiche des performances de pointe sur SWEBench Pro, surpassant Opus 4.6 et Gemini, mais étant légèrement derrière le nouveau Opus 4.7. Bien que ses poids soient publics, la licence interdit l'utilisation commerciale.
* **Quinn 3.6 35B A3B :** Un nouveau modèle open source d'Alibaba. Bien qu'il ne soit pas au niveau des modèles les plus performants, il est open source et sa taille (35 milliards de paramètres) pourrait permettre une exécution locale sur des GPU décents.
* **Google Gemini 3.1 Flash TTS :** Un nouveau modèle de synthèse vocale de Google, disponible dans Vertex AI, Google Vids et Google AI Studio. Sa caractéristique principale est la capacité de contrôler finement le ton et le style de la voix (excité, murmuré, paniqué, etc.), y compris la possibilité de faire rire le modèle. Il permet également de créer des dialogues entre deux voix, imitant un style podcast.
* **Google Nano Banana (avec contexte personnel) :** La capacité de Nano Banana à générer des images s'étend désormais à l'utilisation d'informations personnelles issues du compte Google de l'utilisateur (calendrier, Drive, e-mails, photos). Cela permet une personnalisation accrue des images générées. L'auteur note que les résultats dépendent fortement de la quantité d'informations personnelles liées au compte.
* **OpenAI GPT Rosalind :** Un nouveau modèle de raisonnement destiné à la recherche en sciences de la vie (biologie, découverte de médicaments, médecine translationnelle). Il est optimisé pour les flux de travail scientifiques, combinant une meilleure utilisation des outils avec une compréhension approfondie de la chimie, de l'ingénierie des protéines et de la génomique. L'accès est restreint aux scientifiques et chercheurs qui en font la demande.
**Nouvelles fonctionnalités et services :**
* **Perplexity Personal Computer :** Cette nouvelle fonctionnalité étend les capacités de Perplexity Computer à votre propre machine. Elle permet de travailler sur des fichiers locaux, des applications natives et le web pour réaliser des flux de travail complexes et continus. Contrairement à Perplexity Computer qui fonctionne dans le cloud, Personal Computer s'exécute sur votre appareil, intégrant vos fichiers et applications locaux dans un système d'orchestration. Il peut agir sur votre liste de tâches en utilisant vos fichiers locaux, iMessage, e-mails, applications connectées et le web. L'inférence des modèles reste sur les serveurs de Perplexity, mais l'interaction avec les données locales est la clé. L'auteur prévoit un test approfondi de cette fonctionnalité, notamment sur un Mac Mini fourni par Perplexity.
* **Canva AI 2.0 (à venir) :** Canva prépare des fonctionnalités IA qui permettront de générer du contenu à partir de simples invites textuelles, en se connectant à des outils comme Slack et Notion. L'IA apprendra du style de l'utilisateur pour adapter ses créations. Elle pourra générer des graphiques, de l'audio et de la 3D directement dans l'éditeur. Des versions hors ligne et des ressources pédagogiques basées sur l'IA sont également prévues.
* **Microsoft MAI Image 2 Efficient :** Une version plus rapide et moins chère du modèle de génération d'images de Microsoft. Elle excelle dans la génération de textes courts comme des titres et des étiquettes, mais pour des textes plus longs ou complexes, le modèle MAI Image 2 original est recommandé.
* **Midjourney V8.1 :** Nouvelle version du modèle de génération d'images de Midjourney, promettant une esthétique iconique retrouvée, un rendu HD 2K natif, et une vitesse et un coût triplés par rapport à la version précédente.
* **DaVinci Resolve 21 :** De nouvelles fonctionnalités IA ont été ajoutées, dont "AI Intellisearch" pour rechercher instantanément des personnes et du contenu dans les médias vidéo en analysant les dialogues et en identifiant des objets ou des visages spécifiques. Un outil "AI Face Age Transformer" permet d'ajuster l'âge d'un visage dans une vidéo.
* **Changement de stratégie d'Allbirds :** La société de chaussures Allbirds se transforme en société d'IA, rebaptisée "New Bird AI", et acquiert des actifs GPU haute performance. Cette annonce a entraîné une forte hausse de son action, illustrant potentiellement une bulle spéculative.
* **Robot de Boston Dynamics :** Une vidéo montre un robot exécutant une liste de tâches écrite sur un tableau blanc, démontrant une capacité à lire et interpréter des instructions pour accomplir des actions physiques (ranger des chaussures, recycler des canettes, mettre des vêtements au panier à linge).
**Autres points notables :**
* **Crusoe Managed Inference :** Sponsor de la vidéo, ce service est présenté comme une solution pour surmonter le fossé entre le prototypage d'applications IA et leur mise à l'échelle. Il offre une infrastructure optimisée pour l'inférence IA, promettant un débit supérieur aux fournisseurs cloud standard et une technologie (Memory Alloy) pour maintenir la vitesse même avec de longs contextes.
* **Vidéo personnelle de l'auteur :** L'auteur mentionne une vidéo qu'il a publiée sur le fonctionnement de sa chaîne, ses processus de création, son studio, ses revenus, et ses réflexions sur l'IA et les créateurs. Il prévoit de faire ce type de vidéo mensuellement pour répondre aux questions de son audience.
En résumé, la semaine a été extrêmement dense en annonces, avec un accent particulier sur l'amélioration des interfaces utilisateur, la consolidation des fonctionnalités dans des applications plus intégrées, et des avancées continues dans les modèles de langage et de génération d'images. La tendance vers des agents IA plus autonomes et capables d'interagir avec l'environnement numérique et physique de l'utilisateur est de plus en plus marquée.