
Google's Push for AI Dominance & More AI News You Can Use
Audio Summary
AI Summary
Bienvenue dans cette nouvelle édition d'AI News You Can Use, votre rendez-vous hebdomadaire pour décrypter les dernières innovations en intelligence artificielle. Cette semaine, le paysage de l'IA a été particulièrement animé, avec des annonces majeures de Google, des avancées impressionnantes d'Anthropic, et l'émergence de modèles open-source de pointe en provenance de Chine.
Commençons par la nouvelle qui a fait le plus de bruit : Claude Mythos, le modèle phare d'Anthropic, jugé trop dangereux pour une diffusion publique. Bien que cette annonce puisse être perçue comme une stratégie de communication, les benchmarks préliminaires sont extrêmement prometteurs. Mon analyse penche vers l'idée que ce modèle tiendra ses promesses, compte tenu du passé d'Anthropic dans la création de modèles d'IA de haute qualité. Ce qui a particulièrement retenu mon attention, ce sont les conséquences potentielles, à court et long terme, de l'arrivée d'un modèle d'IA qui surpasserait largement les capacités actuelles. Nous en reparlerons plus en détail dès sa sortie.
Anthropic a également pris des mesures concernant l'accès à ses modèles. Dimanche dernier, ils ont restreint l'utilisation de l'abonnement Claude avec des agents tiers comme OpenClaude. Concrètement, les utilisateurs qui payaient auparavant 200 dollars par mois pour expérimenter ces systèmes, doivent désormais débourser entre 1000 et 3000 dollars par mois, selon l'usage. Pour la majorité des utilisateurs, ce coût n'est plus justifié. Cependant, pour des créateurs de contenu comme moi, qui développent et testent activement des applications basées sur ces modèles, même le prix révisé reste un investissement rentable compte tenu des cas d'usage concrets et créatifs qu'ils permettent.
Je souhaite également corriger une information erronée de la semaine dernière. Il s'agissait de la fuite du code source de Claude Code. J'avais initialement rapporté qu'il s'agissait d'une blague d'avril, ce qui est incorrect. La fuite était bien réelle et a permis de découvrir des aspects intéressants du fonctionnement de Claude Code, bien que rien de révolutionnaire. Un élément particulièrement notable découvert dans le code de Claude Code, le produit d'IA générative d'Anthropic, est une fonctionnalité de "rêve". Ce mécanisme permettait au modèle de stocker ses expériences quotidiennes dans des fichiers spécifiques, qu'il pouvait ensuite rappeler, simulant ainsi un processus de mémoire similaire à celui de l'humain pendant le sommeil. Cette idée d'une mémoire inter-sessions, permettant au modèle de se souvenir de ce sur quoi il travaillait la veille, est une avancée fantastique. Il est fascinant de constater qu'en quelques jours seulement, OpenClaude, le concurrent open-source de Claude Code, a intégré une fonctionnalité similaire de "rêve". Cette dynamique est révélatrice de l'écosystème actuel : une entreprise développe un système propriétaire et fermé, une fuite se produit, et une alternative open-source implémente rapidement l'une de ses fonctionnalités clés. On peut s'attendre à voir ce schéma se répéter fréquemment.
Passons maintenant aux annonces de Google, qui a également été très actif cette semaine. Bien que je n'aie pas encore accès à certaines de ces nouveautés, elles sont disponibles pour les utilisateurs aux États-Unis dans le cadre de certains plans. Premièrement, l'AI Inbox de Gmail. Il s'agit de la tentative de Google de créer un assistant d'email intelligent capable de vous informer automatiquement. Une vidéo de démonstration montre une fonctionnalité que 90% des utilisateurs souhaiteraient avoir : un agent IA capable de gérer votre boîte de réception en comprenant le contexte et les interactions précédentes. D'après ce que j'ai pu observer, cette fonctionnalité ne vise pas à répondre aux emails, mais plutôt à prioriser les messages et à générer des résumés personnalisés quotidiens. Il ne s'agit que d'une première étape ; le déploiement est progressif, commençant par les clients les plus haut de gamme, et devrait être accessible à tous dans les six mois sur des plans abordables. Des versions plus proactives de cet assistant sont également prévues, pouvant même interagir avec d'autres assistants pour synchroniser les agendas et faciliter les rencontres.
Ensuite, nous avons Google Vids, une application qui est passée relativement inaperçue. Il s'agit d'un logiciel de montage vidéo simple, mais surtout, il sert de plateforme d'intégration pour diverses applications d'IA que nous avons vues émerger ces derniers mois : génération de vidéo, génération de musique, etc. Par exemple, il est possible de créer un avatar IA pour sa vidéo directement dans Google Vids. Bien que la génération d'avatars IA ne soit pas le sujet le plus tendance actuellement, cela illustre parfaitement la stratégie de Google de regrouper ses différentes applications d'IA dans des expériences unifiées. Si vous possédez un compte Google Workspace, vous pouvez créer des vidéos avec des avatars IA de manière très intuitive. Une astuce : vous pouvez commencer avec un diaporama existant, y ajouter une voix off et une musique générée par IA. Il est également possible de créer des avatars personnalisés, bien que pour l'instant, l'IA ne reproduise pas parfaitement l'âge de la personne sur la photo, mais cela ne saurait tarder. La voix sélectionnée déterminera la voix de la vidéo. Vous pouvez intégrer d'autres vidéos, générées par IA ou non.
Concernant les avatars, deux autres sorties cette semaine méritent d'être mentionnées. La première est P-Collapse, qui propose un produit censé permettre à des agents IA de rejoindre vos appels Zoom pour interagir avec vous. Bien que cela puisse sembler étrange, cette technologie est en phase bêta mais est open-source. Elle fonctionne avec l'API Pika. La seconde est Runway Characters, que j'ai eu l'occasion de tester. Il s'agit d'un chat IA avec une voix féminine, capable de raconter des histoires ou de critiquer. Le principe est de l'essayer gratuitement pour voir ses capacités.
Abordons maintenant Seat Dance 2.0, un modèle de génération vidéo qui avait fait le buzz lors de sa sortie, mais dont l'accès était très limité. Il est désormais disponible sur les plateformes majeures. Les exemples que nous avons pu observer sont impressionnants, notamment en ce qui concerne le mouvement de caméra et le rendu de l'eau, qui est généralement un défi pour ces modèles. Seat Dance 2.0 se positionne en tête de plusieurs classements de génération vidéo IA.
Une autre idée intéressante, bien que pas immédiatement utilisable, est le concept de "LLM wiki" d'Andreï Karpathy. Il propose d'utiliser des LLM pour construire des bases de connaissances personnelles sur des sujets de recherche spécifiques. L'idée est de créer des fichiers texte sur un sujet donné et de laisser un agent IA rechercher dans ces fichiers. Cela s'apparente à un wiki personnel. Des tests préliminaires, bien que non totalement vérifiés, suggèrent que cette approche pourrait être jusqu'à 70 fois plus efficace que les workflows traditionnels de récupération d'informations comme RAG (Retrieval Augmented Generation). Pour rappel, RAG implique le stockage des données dans une base de données vectorielle, suivi d'un processus de récupération. L'approche de Karpathy consiste simplement à stocker des fichiers texte et à laisser l'agent les parcourir. Cette méthode est d'ailleurs déjà utilisée par des outils comme Claude Code. L'idée a suscité un engouement considérable, atteignant 19 millions de vues sur Twitter, et a conduit à la création de diverses versions exploitant ce concept. Il est important de noter que ces innovations sont souvent générées par des utilisateurs réels. Pour les utilisateurs plus avancés, j'ai intégré cette approche dans mon propre flux de travail avec Obsidian et Open Claude. J'ai créé une page dédiée à mon apprentissage, qui sert de wiki personnel, enregistrant mes méthodes de travail et les modèles que je suis, afin que mon agent IA puisse en tenir compte pour une collaboration plus fluide. Bien que cela diffère de l'approche de Karpathy axée sur la recherche, cela démontre le potentiel de ces systèmes comme de véritables systèmes d'exploitation pour notre travail.
Pour conclure sur les grandes annonces de la semaine, mentionnons GLM 5.1, un modèle de langage de pointe développé en Chine. Ce modèle est particulièrement imposant, avec 754 milliards de paramètres, et ne peut être exécuté sur des ordinateurs personnels. Cependant, il rivalise avec des modèles comme Opus 4.6 sur de nombreux benchmarks, notamment pour le codage. Il peut également gérer des tâches agentiques sur une période de 8 heures. Ce qui est remarquable, c'est que ce modèle est entièrement open-source et accessible, à condition de disposer de l'infrastructure matérielle nécessaire. C'est l'exact opposé des modèles plus petits de Google, comme Gemma 4, conçus pour fonctionner sur des téléphones. GLM 5.1 est un exemple de puissance brute, tandis que Gemma 4 représente la miniaturisation et l'accessibilité. Les deux sont open-source et démontrent des capacités impressionnantes pour leur catégorie.
Enfin, un bref suivi concernant Suno 5.5, dont nous avions parlé la semaine dernière. Une mise à jour récente, selon mon collègue Daniel, améliorerait considérablement les performances. Nous avons également produit plusieurs jingles d'IA News You Can Use que vous entendrez désormais à la fin de ces vidéos. Microsoft a également lancé trois modèles internes, marquant une concurrence directe avec OpenAI : un modèle de transcription, un modèle vocal et un modèle d'image nommé MAI (Microsoft AI).
C'est tout pour cette semaine. J'espère que ces informations vous ont été utiles. N'hésitez pas à me faire part dans les commentaires des sujets sur lesquels vous souhaiteriez que j'approfondisse. Je lis tous vos commentaires chaque semaine. Je vous souhaite une excellente semaine et à très bientôt.