
L'IA vient de briser sa plus grosse limite (cette semaine)
Audio Summary
AI Summary
L'intelligence artificielle (IA) continue de progresser à un rythme effréné, avec des innovations majeures introduites chaque semaine. Des avancées significatives ont été réalisées, notamment en matière de traduction en temps réel, de génération de vidéos longues, d'entraînement de robots dans des mondes virtuels et de production de texte accélérée. La plupart de ces outils sont déjà disponibles en open source, gratuitement et accessibles à tous.
Google a lancé Gemini 3.5 Live Translate, un modèle de traduction vocale en temps réel supportant plus de 70 langues. Contrairement aux traducteurs traditionnels qui fonctionnent au tour par tour, Gemini 3.5 traduit en continu pendant que l'utilisateur parle, préservant l'intonation, le rythme et le ton de la voix. Cette technologie est basée sur leur IA Gemini 3 Pro, capable de suivre de longues instructions sans perdre le fil. Déjà utilisée par des entreprises comme Grab en Asie du Sud-Est pour faciliter la communication entre chauffeurs et passagers, cette fonctionnalité sera bientôt déployée mondialement sur l'application Google Translate pour Android et iOS.
Dans le domaine de la recherche scientifique, Microsoft Research, en collaboration avec l'université Redmin de Chine, a développé Harbor, un système de recherche autonome. Contrairement aux agents de recherche classiques qui oublient les hypothèses échouées, Harbor construit un "arbre d'hypothèses". Chaque idée testée devient un nœud avec ses résultats et ses leçons. Les enseignements des branches réussies remontent pour améliorer les hypothèses futures. Son architecture élégante comprend un coordinateur global et des exécuteurs éphémères. Harbor surpasse les autres modèles sur les benchmarks, atteignant 86% en animédal. Il est également disponible en tant qu'agent skill suite, intégrable dans des outils existants, et sous licence Apache 2.0, autorisant l'utilisation commerciale.
Le problème de la mémoire courte des IA dans la génération vidéo, où les modèles actuels produisent des clips de quelques secondes avec des incohérences au-delà de 30 secondes, est en voie de résolution. Le MIT a introduit Milivide, une nouvelle architecture basée sur un auto-encodeur hiérarchique. Ce système représente chaque image à plusieurs niveaux de détail, du plus grossier (structure globale) au plus fin (textures). La vidéo est générée du général au particulier, assurant une cohérence géométrique sur des centaines d'images sans modules de mémoire externe. Bien que toujours en recherche pure, Milivide pose les bases pour des vidéos IA de plusieurs minutes.
Alibaba a présenté Stream Character, un système qui génère en temps réel une vidéo d'un personnage parlant à partir d'un texte (prompt ou transcript), avec un contrôle précis des mouvements et de la gestuelle. Le résultat est cohérent même sur des vidéos de plus de 5 minutes, car le sujet et le décor restent fixes. Le système fonctionne en temps réel sur un seul GPU H100, et des démonstrations montrent la possibilité de parler en direct, le personnage s'adaptant à la conversation.
Zipu AI a lancé Scale 2, un outil open source pour transférer le mouvement d'une vidéo à une autre. Contrairement aux systèmes classiques qui extraient un squelette du personnage source, Scale 2 alimente directement le modèle avec la vidéo source, éliminant l'étape intermédiaire fragile d'extraction de pose. Cela permet de gérer des mouvements complexes, plusieurs personnages, des animaux et des proportions non standard. Le modèle complet pèse 81 Go, mais des versions optimisées sont attendues.
Dans le domaine de la robotique, Oscar est un "modèle monde" qui simule les actions d'un robot. Il utilise un squelette 2D comme signal de contrôle universel, permettant de transférer des mouvements entre différents types de robots (bras industriels, humanoïdes) sans réentraînement. La corrélation entre les évaluations virtuelles et réelles est très bonne, ce qui est crucial étant donné le manque de données vidéo du monde réel pour entraîner les robots. Oscar est également sous licence Apache 2.0.
Idéogramme 4, un nouveau modèle open source de génération d'images, se distingue par son contrôle de composition. Fondé par d'anciens chercheurs de Google Imagen, ce modèle de 9,3 milliards de paramètres permet de fournir un prompt structuré en JSON, définissant des zones précises pour le texte, les personnages et les couleurs. Il passe du prompt conversationnel au prompt architectural, idéal pour le design de posters, packaging et bannières. Son OCR atteint 0,97% de précision et il tourne sur un seul GPU grand public. Idéogramme 4 est numéro 1 parmi les modèles open source sur le leaderboard Design Arena, mais sa licence est non commerciale pour l'instant.
Enfin, Google Deepmind a introduit Diffusion GMA, un changement de paradigme fondamental dans la génération de texte. Alors que les modèles actuels génèrent du texte mot par mot, Diffusion GMA part d'un bloc de 256 tokens rempli de bruit et les affine en parallèle en plusieurs passes, comme les modèles de diffusion pour les images. Ce processus est quatre fois plus rapide que les modèles autorégressifs comparables, atteignant plus de 1000 tokens par seconde sur une H100. Il tient dans des GPU de 18 Go de VRAM. Pour démontrer son potentiel, Google a publié un fine-tune sur le Sudoku, où le modèle de base échouait mais la version fine-tunée atteint 80% de résolution grâce à l'attention bidirectionnelle sur tout le bloc, permettant une autocorrection. Diffusion GMA concrétise l'idée d'un modèle qui remplit un écran entier de texte d'un coup, offrant une vitesse d'inférence locale qui ouvre de nouvelles possibilités.
Ces huit annonces en une semaine montrent que l'IA ne cesse d'évoluer, avec des outils qui deviennent rapidement disponibles en open source. L'avantage concurrentiel ne réside plus dans l'accès à la technologie, mais dans la capacité à l'utiliser, à comprendre quels outils existent, comment les combiner et les intégrer pour produire des résultats concrets. Face à cette évolution rapide, une veille structurée et une formation adaptée sont essentielles pour passer de spectateur à utilisateur efficace de l'IA.