
Le big bang de l'IA physique a commencé (cette semaine)
Audio Summary
AI Summary
La semaine a été particulièrement riche en annonces majeures concernant l'évolution de l'intelligence artificielle (IA), démontrant des capacités inédites et inarrêtables. Le fil rouge de ces développements est la capacité de l'IA à sortir du simple traitement textuel pour appréhender et interagir avec le monde physique, le reconstruire en 3D, le simuler et agir en son sein. Jensen Huang, PDG de Nvidia, a nommé cette ère "physical AI", marquant un changement majeur pour l'humanité.
Dans le domaine de la recherche scientifique, une percée significative a été annoncée avec "Autoscientist" de Harvard. Contrairement aux systèmes précédents, Autoscientist organise une équipe décentralisée d'agents IA travaillant en parallèle. Chaque agent peut lire l'état actuel du projet, analyser les succès et les échecs, et proposer de nouvelles hypothèses. Ce système fonctionne comme un laboratoire miniature opérant 24h/24, gérant le chaos inhérent à la recherche scientifique grâce à un état partagé, une sorte de journal d'expériences ou de forum de discussion, enregistrant les impasses pour éviter de les retraiter. Sur le benchmark Bio ML Bench, Autoscientist surpasse les autres systèmes d'agents IA. Notamment, il a été utilisé pour prédire la liaison de la protéine Spike du virus SARS-CoV-2 avec le récepteur ACE2, une amélioration de 12,5 % par rapport aux méthodes existantes, un saut considérable dans un domaine déjà très étudié. Le code est open source, offrant un avantage aux petits laboratoires disposant de moins de ressources de calcul.
Dans l'écosystème Nvidia, le modèle "Locate Anything" (Locate Anything) a été présenté. Il s'agit d'un modèle vision-langage capable de localiser précisément des objets dans des images ou des vidéos à partir de descriptions en langage naturel, même dans des scènes encombrées. Ses applications vont de la localisation de colis endommagés dans un entrepôt à la détection de personnes avec un objet spécifique dans des flux de vidéosurveillance, en passant par la localisation de boutons dans des captures d'écran d'applications. Sa polyvalence réside dans sa capacité à comprendre non seulement les photos classiques, mais aussi les interfaces, les documents et les textes intégrés aux images. Il est considéré comme une brique fondamentale pour la robotique, permettant aux robots de comprendre des consignes spatiales précises. Contrairement aux modèles précédents qui généraient les coordonnées des boîtes englobantes token par token, "Locate Anything" utilise le "parallel box decoding" pour prédire la boîte entière en une seule étape, le rendant plus rapide et géométriquement plus cohérent. Entraîné sur un dataset massif, il ne compte que 3 milliards de paramètres, le rendant accessible sur la plupart des cartes graphiques grand public.
Pour améliorer la qualité visuelle des générations, Nvidia a introduit "PID" (Pixel Diffusion Decoder). Ce modèle résout le problème de la génération d'images en basse résolution suivie d'une étape d'agrandissement séparée. PID utilise un unique décodeur qui transforme directement la représentation compressée de l'IA en une image haute résolution (jusqu'à 2K voire 4K) en une seule passe, le rendant jusqu'à six fois plus rapide que les outils d'upscaling actuels avec une qualité supérieure. Le modèle est open source, compatible avec des outils comme ComfyUI, et supporte divers modèles de génération d'images. Nvidia a également publié de nouveaux checkpoints pour SDXL et recent images, incluant un correctif pour un problème de dérive de couleur.
Le passage à la 3D est marqué par "Gen Recon", un système qui reconstruit une scène 3D complète à partir d'une vidéo filmée au smartphone ou d'un simple jeu de photos. Il génère un mèche 3D complet avec des matériaux physiquement réalistes, permettant de modifier l'éclairage, la couleur des murs ou de déplacer des meubles, des tâches auparavant réservées aux scans professionnels. Gen Recon découpe la scène en blocs 3D qui se chevauchent légèrement et les génère ensemble pour assurer la cohérence. Il s'appuie sur le modèle génératif 3D "Trilist 2". Lorsque des angles manquent, Gen Recon complète les zones manquantes de manière réaliste, surpassant les méthodes actuelles de reconstruction de 16 %. Bien que le code ne soit pas encore disponible, le papier technique est en ligne, et un workshop dédié à CVPR 2026 témoigne de l'importance croissante de ce domaine.
Dans le domaine des jeux vidéo, "Scope" est un modèle monde génératif conçu pour les jeux de tir à la première personne (FPS). Il génère une vidéo répondant à des actions de manette (déplacement, visée, tir, etc.) à partir d'une image de départ. Bien que la qualité ne soit pas parfaite, il est l'un des premiers modèles à répondre à autant de signaux de contrôle simultanément. Entraîné sur un dataset massif de clips de 7 jeux FPS différents, il apprend des patterns d'action inter-jeux, surpassant des générateurs récents sur les benchmarks. Le code et le dataset sont disponibles gratuitement.
Le lien entre tous ces outils est établi par "Cosmos 3", un modèle IA Fondation open source de Nvidia pour la "physical AI". Cosmos 3 intègre la compréhension du texte, des images, la génération d'environnements 3D réalistes, et la prédiction d'actions physiques. Il a été entraîné sur 20 milliards de tokens multimodo, incluant images, vidéos, données d'action de robots et humains. Deux versions sont disponibles : nano (8 milliards de paramètres) et super (32 milliards de paramètres), avec des poids et scripts d'entraînement accessibles gratuitement, favorisant le développement de robots et simplifiant leur programmation. Jensen Huang a qualifié cette avancée de "big bang de l'IA physique".
"TriSplat" aborde la reconstruction 3D en utilisant directement des primitives triangulaires au lieu des points 3D (Gaussian Splats), permettant une conversion immédiate en objet 3D utilisable dans des moteurs comme Blender ou Unreal Engine, en moins d'une seconde. Chaque modèle ne pèse que 4 Go et le code est disponible.
Enfin, "Gamma World", fruit d'une collaboration entre Nvidia et des universités, est un modèle monde génératif capable de créer un monde virtuel cohérent à partir d'une image ou de texte, et de simuler la suite des événements en fonction des contrôles utilisateurs. Contrairement aux modèles précédents limités à un seul joueur, Gamma World peut générer un monde partagé où plusieurs joueurs ou entités robotiques agissent indépendamment et simultanément, tout en maintenant la cohérence visuelle. Il a été entraîné avec deux joueurs mais généralise à quatre. Cette capacité s'étend au-delà des jeux vidéo, permettant de simuler des interactions entre bras robotiques sur une table réelle, offrant une alternative précieuse pour la collecte de données d'interaction robotique, coûteuse et limitée dans le monde réel. Cela crée un cercle vertueux où de meilleures simulations mènent à de meilleures politiques de contrôle et à de meilleures données d'entraînement.
En résumé, l'IA progresse rapidement, passant de la génération de contenu simple à la création de mondes virtuels qui obéissent aux lois de notre réalité. Ces modèles mondes deviennent concrets, constituant un prérequis essentiel pour la robotique humanoïde. L'accès rapide à ces outils et leur compréhension est crucial pour ceux qui souhaitent les intégrer dans leur travail ou leur vie personnelle. Le programme d'apprentissage mentionné propose une formation complète sur l'IA, y compris l'automatisation par