
L'IA vient de basculer cette semaine (et personne n'en parle)
Audio Summary
AI Summary
Cette semaine, l'intelligence artificielle (IA) a démontré des avancées spectaculaires et multifacettes, allant de la recherche scientifique à la robotique physique.
Google DeepMind a présenté un système multi-agent capable de mener des recherches scientifiques de manière autonome. Contrairement aux IA qui résument des articles, ce système génère des hypothèses, explore la littérature, identifie des lacunes, critique ses propres idées et propose des expériences de laboratoire. Ce processus collaboratif, où plusieurs agents IA débattent et s'affinent, a permis de formuler une hypothèse sur une molécule anticancéreuse, qui a ensuite été testée et confirmée expérimentalement en collaboration avec l'université de Yale. Cette prouesse, publiée dans Nature, marque une étape importante dans la découverte de médicaments, promettant d'accélérer considérablement l'identification de nouvelles molécules. Ce domaine, l'IA scientifique, est en pleine expansion, avec des entreprises comme Lila Science et Medraai levant des fonds importants.
Dans la foulée, Alibaba a lancé son modèle "Qwen 3.7 Max", conçu pour l'action autonome et non pour le dialogue. Doté d'une fenêtre de contexte d'un million de tokens et d'un mode de raisonnement étendu, il est capable d'exécuter des tâches complexes sur de longues périodes sans intervention humaine, comme des missions de codage ou des chaînes d'appels d'outils. Ses performances sur divers benchmarks, y compris des tâches de codage, surpassent des modèles de référence. L'intégration de la vision permet à ce modèle de naviguer en temps réel dans des environnements inconnus, ouvrant la voie à des applications robotiques avancées.
Parallèlement, Hugging Face a publié "Carbon", une famille de modèles IA fondamentaux pour la génomique. Entraînés sur des milliards de tokens de séquences ADN avec des techniques similaires à celles des grands modèles de langage, ces modèles peuvent compléter des séquences génétiques et prédire la structure 3D des protéines. La prouesse réside dans leur capacité à traiter le génome humain complet en moins de deux jours sur un seul GPU, rendant la modélisation ADN accessible à des équipes sans accès à des supercalculateurs. Ce modèle est open source, démocratisant ainsi l'étude du "code source du vivant".
Sur le front de la génération d'environnements, PanoWorld, un nouveau modèle génératif, crée des visites virtuelles complètes et cohérentes de maisons en 3D. À partir d'un plan d'étage et d'un style de référence, il génère des vues panoramiques connectées, maintenant la cohérence des meubles, des matériaux et de l'éclairage entre les pièces. Contrairement aux générateurs d'images classiques, il met à jour sa "mémoire" à chaque nouveau point de vue généré, résolvant ainsi le problème de la reconfiguration de la scène.
La création d'environnements cohérents ouvre la porte à des personnages autonomes. Le modèle "Reactive GWM" introduit des PNJ (personnages non-joueurs) dotés de stratégies propres dans les mondes de jeu vidéo simulés. En séparant les actions du joueur de celles des PNJ, ce modèle génère des combats réalistes, comme dans un jeu de type Street Fighter, où les PNJ réagissent selon leur stratégie assignée, sans aucune programmation préexistante. Le code est disponible sur GitHub, et le modèle tourne sur des GPU milieu de gamme.
Les avancées concernent également les humains virtuels. "VLOGGER Avatar 1.5" de Make-A-Video permet de générer des vidéos de personnes prononçant un texte donné, avec des mouvements de lèvres naturels et des expressions faciales cohérentes, à partir d'une photo et d'un fichier audio. Cette version améliorée assure une synchronisation labiale précise, gère les vidéos longues sans dégradation et supporte les conversations multi-personnages. Le modèle est entièrement open source.
Dans le domaine de la mode virtuelle, "Fashion Chameleon" d'Alibaba propose un essayage virtuel en vidéo en temps réel. Ce système, fonctionnant sur un seul GPU, permet d'habiller un mannequin en mouvement avec différents vêtements sans rupture de mouvement ni incohérence visuelle, offrant des performances considérablement améliorées par rapport aux méthodes existantes.
Enfin, la robotique physique a fait un bond en avant avec le robot humanoïde géant d'Unitree Robotics, désormais contrôlable par commande vocale en temps réel. La démo montre le robot exécutant diverses instructions, comme sauter, pivoter ou faire des squats, avec des mouvements générés en direct par IA, prouvant ainsi la nature dynamique de son contrôle. Cette avancée intervient alors qu'Unitree se prépare à une introduction en bourse, avec une croissance exponentielle de ses revenus issus des robots humanoïdes.
En résumé, cette semaine a vu l'IA passer du statut d'outil passif à celui d'agent autonome, révolutionnant la recherche scientifique, la planification, la création de mondes, l'animation de personnages, la génération d'avatars, la mode virtuelle et le contrôle robotique physique. Ces développements simultanés soulignent une transformation profonde qui offre un avantage considérable à ceux qui comprennent et intègrent ces dynamiques.