
L'IA vient de s'auto-accélérer (cette semaine tout s'emballe)
Audio Summary
AI Summary
Cette semaine, plusieurs avancées majeures en intelligence artificielle ont été annoncées, marquant une évolution significative de ses capacités et de son accessibilité. Ces innovations touchent à la mémoire des IA, à la génération d'images et de vidéos, à la capture de mouvement, à la musique interactive, aux modèles multimodaux locaux et même à la conception de matériel quantique et à la robotique humanoïde.
Concernant la mémoire des IA, OpenAI a déployé Dreaming V3, la troisième génération de son système de mémoire pour ChatGPT. Contrairement aux versions précédentes qui stockaient des faits isolés dans une liste statique, Dreaming V3 synthétise en permanence les informations des conversations pour mettre à jour un modèle de mémoire dynamique. L'IA comprend ainsi l'évolution des besoins de l'utilisateur sans intervention manuelle. Par exemple, si un utilisateur planifie un voyage à New York et que ce voyage est terminé, l'IA ne suggérera plus de restaurants à New York mais proposera des options près du domicile de l'utilisateur. Cette amélioration double le rappel factuel et réduit le coût de calcul par cinq, rendant la technologie accessible gratuitement. Cependant, une étude a soulevé le "paradoxe personnalisation-vie privée", les utilisateurs appréciant la personnalisation mais se sentant mal à l'aise face à l'étendue des informations inférées par l'IA sur eux.
Dans le domaine de la génération d'images, Rêve 2, un nouveau modèle de laboratoire de Palo Alto, se classe au sommet. Il résout le problème du manque de contrôle sur la composition des images générées par IA. Avant de générer une image, Rêve 2 crée un plan structuré (layout) modifiable, permettant de déplacer des objets, de changer des couleurs ou de corriger du texte sans altérer le reste de l'image. Bien que classé deuxième derrière ChatGPT Image 2 sur LM Arena Text to Image, il surpasse des concurrents comme Nano Banana 2 de Google, malgré un entraînement avec dix fois moins de GPU. La vision à long terme est de traiter la génération d'images comme de la synthèse de programme, où l'image deviendrait du code. Le coût API est très bas, le rendant attractif pour la production de masse.
La capture de mouvement a également connu une avancée avec Mama, un système de motion capture sans capteur développé par le Max Planck Institute. Ce système, présenté à CVPR 2026, permet de reconstruire des mouvements 3D complets à partir de simples vidéos multi-angles, sans marqueurs ni capteurs. Il rivalise avec des systèmes professionnels coûteux et résout le défi de la capture multipersonne grâce à un réseau Transformer entraîné sur un vaste dataset. Mama peut fonctionner avec quatre smartphones, rendant la motion capture de qualité professionnelle accessible aux créateurs indépendants à moindre coût.
Pour l'édition vidéo, Bernini, un système IA open source de Baidu, se distingue par son architecture en deux étapes. Un planificateur sémantique analyse le prompt, puis un générateur crée les images. Bernini permet de modifier des vidéos existantes en langage naturel, comme ajouter des personnages ou changer des arrière-plans, sans artefacts visuels. Il excelle dans l'utilisation de références, permettant d'injecter des images pour modifier des éléments, changer de style artistique ou recréer des personnages de manière cohérente. Des plugins pour des logiciels de production sont déjà disponibles, avec des versions compressées rendant l'expérimentation accessible même avec une configuration matérielle limitée.
En ce qui concerne la musique, Google a publié Magenta Real Time 2, un instrument IA contrôlable en temps réel via MIDI, audio ou texte. Avec une latence de 200 millisecondes, il permet une interaction musicale crédible, le rendant utilisable comme un instrument supplémentaire pour les musiciens. Le modèle, bien que de taille modeste, est disponible gratuitement avec des plugins et applications pour Mac OS, permettant une utilisation commerciale. L'objectif est de faire de l'IA musicale un outil d'assistance plutôt qu'un substitut.
La tendance à l'exécution locale des IA se confirme avec GMA 4 12B de Google. Ce modèle multimodal de 12 milliards de paramètres traite texte, images, audio et vidéo sur un PC portable avec 16 Go de RAM. Son innovation réside dans son architecture encodeur-décodeur, remplaçant les encodeurs séparés coûteux en ressources par une multiplication matricielle légère. Cela lui permet d'atteindre des performances proches de modèles plus grands, avec une grande fenêtre de contexte, et de fonctionner hors ligne. Il est conçu pour des workflows agentiques, capable d'enchaîner des tâches complexes sans envoyer de données externes.
Au-delà des ordinateurs, l'IA accélère la conception de matériel physique. Microsoft a présenté Majorana 2, une puce de calcul quantique développée avec l'aide de sa plateforme IA Discovery. Les agents IA ont analysé des décennies de données de recherche pour accélérer le développement, résultant en une percée où les qubits maintiennent leur état quantique pendant 20 secondes, voire jusqu'à une minute, un facteur 1000 par rapport aux générations précédentes. Cette avancée anticipe la sortie d'un ordinateur quantique Microsoft pour 2029.
Enfin, la robotique humanoïde grand public prend son envol avec les robots U1 d'Uptech. Ces robots humanoïdes taille réelle, hyper réalistes, destinés au grand public, intègrent des modèles émotionnels cryptés localement et une personnalisation poussée. Les précommandes dépassent déjà les 2000 unités, indiquant un marché significatif pour ces robots, dont le prix est estimé comparable à une voiture de milieu de gamme en Chine.
Ces avancées démontrent une IA qui sort du cadre du simple chatbot pour s'intégrer dans les studios, ateliers, laboratoires et potentiellement les salons. La distance entre les capacités de l'IA et leur utilisation concrète s'effondre. Pour ceux qui souhaitent comprendre et utiliser ces outils, des programmes d'apprentissage existent, couvrant l'intégration des modèles d'IA dans la vie quotidienne, le travail et les projets, y compris l'automatisation via la création d'agents IA. L'accès à ces programmes inclut les futures évolutions sans surcoût.