
AI News: The Scariest AI Model Ever!
Audio Summary
AI Summary
Voici un résumé des informations clés de la semaine dans le domaine de l'intelligence artificielle, basé sur le transcript fourni :
**Claude Mythos et le Projet Glasswing : Un Saut Quantique en Cybersécurité IA**
L'événement majeur de la semaine, qui a suscité de vives réactions, concerne le modèle Claude Mythos d'Anthropic. Ce modèle de pointe, décrit comme un modèle généraliste encore non publié, a démontré des capacités de codage exceptionnelles, dépassant même les experts humains les plus qualifiés dans la recherche et l'exploitation de vulnérabilités logicielles.
Mythos a déjà identifié des milliers de vulnérabilités critiques, y compris dans des systèmes d'exploitation majeurs et des navigateurs web. Les benchmarks présentés montrent une amélioration spectaculaire par rapport aux modèles précédents, notamment pour la reproduction de vulnérabilités en cybersécurité (83,1% pour Mythos contre 66,6% pour Opus 4.6). Sur les benchmarks de génie logiciel comme Sweebench Pro et Terminal Bench, Mythos a surpassé Opus 4.6 de manière significative. Sa capacité en compréhension multimodale est également doublée.
Anthropic a publié une carte système de 245 pages pour Claude Mythos, détaillant ses puissantes compétences en cybersécurité, utilisables à des fins défensives comme offensives. C'est précisément en raison de ces capacités que l'entreprise a décidé de ne pas rendre Mythos accessible au grand public. Les implications sont sérieuses pour l'économie, la sécurité publique et la sécurité nationale, car des acteurs malveillants pourraient exploiter ces capacités.
Mythos a découvert des vulnérabilités anciennes, comme une faille de 27 ans dans OpenBSD et une de 16 ans dans FFMPEG. Il a même réussi à enchaîner plusieurs vulnérabilités dans le noyau Linux. Face à ce potentiel, Anthropic a lancé le projet Glasswing. Plutôt qu'une diffusion générale, ils accordent un accès limité à Mythos à des spécialistes de la cybersécurité au sein d'entreprises partenaires. L'objectif est de permettre à ces entreprises de découvrir et de corriger les vulnérabilités avant que des modèles similaires, voire plus puissants, ne soient largement disponibles. Anthropic souligne que les modèles futurs seront encore plus performants, rendant cruciale cette approche proactive.
Il est intéressant de noter que cette capacité de cybersécurité n'était pas un objectif d'entraînement direct, mais un effet secondaire de l'excellence du modèle en codage. Cela soulève une préoccupation quant à l'évolution exponentielle et imprévue des IA.
Ce scénario rappelle la non-publication de GPT-2 par OpenAI en 2019, pour des raisons de sécurité. À l'époque, les titres alarmistes parlaient d'IA "armes de destruction massive" ou "trop effrayante pour être libérée". Si une part de ces annonces peut être perçue comme une stratégie marketing pour susciter l'intérêt et lever des fonds, l'auteur estime que, dans le cas de Mythos, les inquiétudes d'Anthropic sont légitimes. L'entreprise semble sincèrement préoccupée par la diffusion incontrôlée d'un tel modèle.
**Nouveaux Modèles de Langage Majeurs : Meta et ZAI**
Deux nouvelles sorties majeures de modèles de langage ont marqué la semaine :
1. **MuseSpark de Meta :** C'est le premier modèle significatif du nouveau Meta Super Intelligence Labs. Contrairement aux modèles Llama précédents, MuseSpark n'est pas open source. Ses performances sont impressionnantes, surpassant les modèles d'état de l'art comme GPT 5.4 et Gemini 3.1 dans la compréhension des figures. Cependant, il se situe dans la moyenne pour la compréhension multimodale et n'est pas destiné à remplacer les modèles de codage actuels, se plaçant en deçà d'Opus et Gemini sur les benchmarks de codage. Il excelle cependant dans les requêtes de santé complexes (HealthBench). L'indice d'intelligence artificielle d'Artificial Analysis le place en quatrième position, juste derrière les grands acteurs. Un avantage notable est son efficacité en termes de tokens, le rendant potentiellement moins coûteux à exploiter. Une API privée devrait être bientôt disponible.
2. **GLM 5.1 de ZAI :** Ce modèle open source sous licence MIT est particulièrement excitant. Il atteint des performances de codage de pointe, rivalisant avec GPT 5.4 et Opus 4.6. Ses benchmarks sur SWE Bench Pro le placent au-dessus de GPT 5.4 et Opus 4.6. Bien qu'il soit légèrement derrière GPT 5.4 et Opus 4.6 sur les tâches de terminales réelles ou le codage agentique, il est en deuxième position. Ses performances en mathématiques sont également très bonnes, proches de l'état de l'art. La capacité de télécharger, d'affiner et d'exécuter localement un modèle aussi performant est considérée comme révolutionnaire. L'auteur exprime son étonnement quant à la rapidité de progression des modèles ouverts et au manque d'attention médiatique portée à GLM 5.1. Il lance un appel pour collaborer à la création de benchmarks "grand public" pour tester ces modèles.
**Mises à Jour Google Gemini et IA Vidéo**
Google continue d'enrichir son offre Gemini :
* **Simulations Interactives :** Gemini peut désormais générer des simulations et des modèles interactifs, similaires à ce que proposent OpenAI et Anthropic. Ces visualisations permettent d'ajuster des paramètres en temps réel, comme illustré par la visualisation de l'intérêt composé.
* **Fonctionnalité "Notebooks" :** Inspirée des "Projets" de Claude et ChatGPT, cette fonctionnalité offre un espace dédié pour organiser les conversations, les fichiers et les instructions personnalisées. Elle se synchronise avec Notebook LM pour des flux de travail plus efficaces. Cette fonctionnalité est actuellement réservée aux utilisateurs payants.
**C-Dance 2.0 : L'IA Vidéo Arrive aux États-Unis**
Le modèle d'IA vidéo C-Dance, très attendu, est enfin disponible aux États-Unis, notamment via l'application Runway et CapCut. Bien que certaines fonctionnalités virales initiales (comme la génération de contenu sous copyright ou de célébrités) aient été restreintes, le modèle reste très performant. Il est décrit comme plus rapide que Kling 3.0 et représente actuellement le meilleur modèle vidéo accessible.
**HeyGen Avatar 5 : Clonage d'Identité Rapide**
La société HeyGen a lancé son modèle Avatar 5, capable de capturer une identité en seulement 15 secondes d'enregistrement vidéo. Bien que la voix et la synchronisation labiale ne soient pas encore parfaites, la technologie progresse rapidement. L'outil permet de générer différentes versions visuelles de soi-même et de créer du contenu personnalisé.
**Nouvelles Rapides et Mises à Jour :**
* **OpenAI :** Ajout d'un nouveau palier d'abonnement "Pro" à 100$/mois, offrant plus d'utilisation de Codex. L'utilisation de Codex a également été augmentée temporairement pour les abonnés Plus.
* **Anthropic :** Lancement d'une fonctionnalité d'agents gérés ("Managed Agents") permettant de lier les agents à des outils externes comme Notion ou Slack. Cependant, les abonnements Claude ne couvriront plus l'utilisation via des outils tiers comme OpenClaw à partir d'avril, ce qui a suscité de la frustration chez les utilisateurs.
* **Perplexity :** Intégration avec Plaid pour connecter les données financières des utilisateurs, offrant une vue consolidée et personnalisée des finances.
* **Factory AI :** Lancement d'une application de bureau pour faciliter l'utilisation de ses agents.
* **Cursor :** Mise à jour permettant de contrôler l'application depuis n'importe quelle machine, y compris via un téléphone.
* **XAI :** Ajout de fonctionnalités d'édition d'images par texte sur iOS et Android.
* **GPT Image 2 (rumeur) :** Des fuites suggèrent une sortie prochaine d'un nouveau modèle d'image d'OpenAI.
* **Arena AI :** Nouveaux modèles d'image (Masking Tape Alpha, Gaffer Tape Alpha, Packing Tape Alpha) démontrant de bonnes performances, notamment pour les infographies.
* **Happy Horse 1.0 (Alibaba ?) :** Un modèle vidéo mystérieux, potentiellement d'Alibaba, a pris la tête des classements, surpassant C-Dance 2.0.
* **Google AI Edge :** Une application de dictée pour iOS fonctionnant hors ligne grâce au modèle Gemma.
* **Spotify :** Extension des playlists générées par IA aux podcasts, permettant de trouver des épisodes sur des thèmes spécifiques.
L'auteur conclut en soulignant l'accélération constante du domaine de l'IA, l'importance de filtrer le bruit et de se concentrer sur les informations essentielles, et son objectif de simplifier cette tâche pour son audience via des résumés hebdomadaires.