
L'IA vient de commencer à se construire elle-même (et tout accélère)
Audio Summary
AI Summary
En seulement sept jours, le monde de l'IA a connu une avalanche de développements majeurs. OpenAI a rendu son meilleur modèle gratuit, Google a révélé les progrès d'Alpha Evolve et accéléré GMA 4, tandis qu'OpenAI a également lancé des modèles vocaux capables de raisonner et de traduire en temps réel. Des chercheurs ont créé des objets 3D comprenant la physique, et une startup franco-américaine a présenté un robot cuisinier et pianiste. Jack Clark, cofondateur d'Anthropic, estime à 60% la probabilité que l'IA s'auto-construise d'ici 2028. Ces annonces, prises ensemble, brossent un tableau vertigineux de l'évolution de l'IA.
La nouvelle la plus accessible est que tous les comptes ChatGPT gratuits fonctionnent désormais avec le modèle GPT 5.5, le même que la version payante. Ce changement est massif : le modèle hallucine 52,5% moins sur les sujets sensibles (médecine, droit, finance) et réduit de 37,3% les erreurs factuelles signalées. En mathématiques (score M2026), il passe de 65,4% à 81,2%. Les réponses sont 30% plus courtes et plus concises. Pour les 900 millions d'utilisateurs hebdomadaires d'OpenAI, la différence sera palpable. Les comptes payants bénéficient d'une meilleure intégration des conversations passées, des fichiers et de Gmail, avec une "Memory source" indiquant l'origine des informations, transformant ChatGPT en un assistant qui vous connaît vraiment. Le conseil est d'utiliser GPT 5.5 en mode standard pour les tâches quotidiennes.
Au-delà de l'intelligence accrue, Google a démontré la capacité d'Alpha Evolve à améliorer le monde réel. Alpha Evolve, un agent IA de code propulsé par Gemini, invente de meilleurs algorithmes, les teste, garde les meilleurs et les améliore en continu. Il y a un an, il avait optimisé Borg, le logiciel interne de Google gérant des millions de serveurs, récupérant 0,7% des ressources de calcul mondiales de Google, ce qui représente des centaines de millions, voire des milliards de dollars d'économies. Il avait également battu l'algorithme de Strassen pour la multiplication de matrices 4x4, un record datant de 1969.
Cette semaine, Google a publié un bilan complet des réalisations d'Alpha Evolve en un an. En génomique, il a réduit de 30% les erreurs de détection dans le séquençage ADN, permettant d'identifier des mutations pathogènes. En optimisation de réseau électrique, le taux de solutions viables est passé de 14% à plus de 88%. Pour la prédiction de catastrophes naturelles, il a amélioré la précision globale de 5% sur 20 catégories de risques, ce qui se traduit par des vies sauvées. En physique quantique, il a trouvé des circuits avec 10 fois moins d'erreurs. En interne chez Google, il a accéléré un kernel critique de l'architecture Gemini de 23%, réduisant le temps d'entraînement du modèle de 1%, et a contribué à concevoir les TPU de nouvelle génération. L'IA a donc conçu les puces qui entraînent l'IA. L'API Alpha Evolve Service est désormais accessible en accès anticipé via Google Cloud, et des entreprises l'utilisent déjà pour la découverte de médicaments. L'optimisation algorithmique automatisée quitte les laboratoires pour entrer dans l'économie réelle.
Google a également amélioré GMA 4, son modèle open source. Le goulot d'étranglement des modèles de langage n'est pas la puissance de calcul, mais la mémoire. Chaque token généré nécessite au GPU d'aller chercher des milliards de paramètres. Google a ajouté un petit modèle léger qui prédit plusieurs tokens à l'avance. Le modèle principal vérifie ensuite ce brouillon en une seule passe, validant la séquence d'un coup. Cela rend GMA 4 jusqu'à trois fois plus rapide, sans compromettre la qualité. Par exemple, GMA 4 31B passe de 14 à 24 tokens par seconde. Google a publié quatre variantes de GMA 4, y compris des modèles Edge pour téléphones portables, le tout en open source. Avec plus de 60 millions de téléchargements, c'est une avancée majeure pour l'utilisation locale de l'IA.
Côté voix, OpenAI a lancé trois nouveaux modèles en temps réel le 9 mai. GPT Real Time 2 est le premier modèle vocal à intégrer un raisonnement de classe ChatGPT 5 avec une fenêtre de contexte de 128 000 tokens. Il peut suivre des conversations complexes, appeler plusieurs outils en parallèle et indique quand il réfléchit ("Laissez-moi vérifier"). GPT Real Time Translate offre une traduction simultanée de plus de 70 langues vers 13 langues. Real Time Whisper propose une transcription en streaming. Ces fonctionnalités sont actuellement disponibles via l'API, mais devraient bientôt être intégrées à ChatGPT, permettant des conversations téléphoniques avec l'IA plus réalistes et fluides, sans les pauses actuelles.
Si l'IA s'améliore seule (Alpha Evolve), s'accélère (GMA 4 MTP), devient accessible (GPT 5.5 gratuit) et parle en temps réel (nouveaux modèles vocaux), il lui manquait la dimension physique. C'est là qu'intervient Fiz Forge, un nouveau papier de recherche qui génère des objets 3D avec des propriétés physiques intégrées (matériaux, masses, articulations). Un modèle vision-langage crée un plan détaillé de l'interaction des pièces, puis un modèle de diffusion le transforme en un asset 3D haute fidélité. Entraîné sur 150 000 objets annotés, le code est disponible sur GitHub. Cela permet de générer des environnements 3D où la physique fonctionne réellement, un élément crucial pour l'apprentissage des robots.
Ceci nous amène à la démo robotique la plus impressionnante de l'année. Genesis AI, une startup franco-américaine, a présenté Gen 26.5, un modèle fondation pour la robotique couplé à une main robotique à l'échelle humaine. Les démos incluent un robot cassant un œuf d'une main, coupant des tomates, préparant un repas complet en 20 étapes, manipulant une pipette avec précision, chargeant une centrifugeuse, résolvant un Rubik's Cube et jouant du piano. La main humaine est l'une des machines les plus complexes, et la reproduire sur un robot est un défi majeur. Genesis a développé un gant de collecte de données tactiles 100 fois moins cher et 5 fois plus efficace, permettant de transformer les gestes humains en données d'entraînement. La startup a levé 105 millions de dollars en amorçage, ciblant l'automobile, la pharmacie, l'électronique et la logistique.
En résumé, Alpha Evolve invente des algorithmes, GMA 4 MTP accélère l'inférence, Fiz Forge génère des environnements physiques réalistes, et Gen 26.5 donne des mains quasi-humaines aux robots. L'IA optimise le logiciel, l'accélère, comprend la physique et contrôle des corps. La question est de savoir quand