
L'open source vient de BATTRE ChatGPT et Claude : c'est un SÉISME
Audio Summary
AI Summary
Cette semaine a été marquée par des avancées significatives dans le monde de l'intelligence artificielle. Pour la première fois, un modèle open source, GLM 5.1 de ZII, a surpassé des modèles fermés sur un benchmark de code respecté, le SWE Bench Pro, avec un score de 58,4%, dépassant ainsi Chat GPT 5.4 et Cloud Opus 4.3. Ce modèle, sous licence MIT, est gratuit, modifiable et utilisable sans restriction. Il est conçu pour des tâches de longue durée, pouvant travailler jusqu'à 8 heures en autonomie. Lors de tests, GLM 5.1 a atteint 21 500 requêtes par seconde, six fois le record précédent, et a pu construire un bureau Linux complet avec plus de 50 applications fonctionnelles en 8 heures. Son architecture MoE (Mixture of Experts) utilise 744 milliards de paramètres au total, mais seulement 40 milliards sont activés par inférence, ce qui le rend efficace malgré sa taille. Un point notable est que ce modèle a été entièrement entraîné sur des puces Huawei, défiant l'hypothèse que la Chine ne pourrait pas produire de modèles IA de pointe sans Nvidia.
Dans la même veine, Dipsic, un autre laboratoire d'IA, prépare la sortie de Dipsic V4, qui devrait également fonctionner sur des puces Huawei, notamment les Ascend 950 PR. Ce modèle, qui pourrait atteindre 1000 milliards de paramètres en architecture MoE, avec un contexte allant jusqu'à 1 million de tokens, est attendu dans les prochaines semaines. Dipsic a délibérément refusé l'accès anticipé à Nvidia, privilégiant les fabricants de puces chinois. Des géants chinois comme Alibaba, Bidance et Tincent ont déjà commandé massivement des puces Huawei pour héberger Dipsic V4 via leurs services cloud, entraînant une hausse de 20% des prix de ces puces. Ces développements indiquent que l'écosystème IA chinois est en train de construire une infrastructure complète, indépendante de la Silicon Valley, ce qui pourrait redistribuer les cartes des outils IA dans les prochains mois.
La domination chinoise s'étend également à la génération vidéo par IA. ByDance a rendu son modèle Site Dance 2.0 accessible mondialement via son API. Ce modèle, qui avait déjà fait sensation en Chine par sa qualité de génération vidéo et audio synchronisée en un seul passage, a dû faire face à des problèmes de droits d'auteur, notamment de la part de Disney, avant son lancement international. Il accepte le texte, l'image, la vidéo et l'audio dans une seule requête, se positionnant comme un concurrent direct de Google VO3.
Cependant, un nouveau venu, Happy Horse 1.0, développé par l'unité AH AI Innovation d'Alibaba et dirigé par Zang D, ancien architecte en chef de Kling, a créé la surprise. Lancé anonymement sur un benchmark, Happy Horse 1.0 a écrasé la concurrence en texte-vers-vidéo et image-vers-vidéo, surpassant Site Dance 2.0. Ce modèle utilise un transformeur unifié de 40 couches qui traite simultanément les tokens de texte, d'images, de vidéos et d'audio. Alibaba a confirmé qu'il serait entièrement open source, avec une publication des poids et du code prévue prochainement, et un accès API pour le 30 avril. Ainsi, les trois premiers modèles mondiaux de génération vidéo IA sont désormais chinois : Happy Horse d'Alibaba, Site Dance 2.0 de ByDance et Kling 3.0 de Kuishu.
Face à cette émergence chinoise, Meta a dévoilé M Spark le 8 avril, son premier modèle IA de l'unité Meta Super Intelligence Lab. Après l'échec de Lama 4, Marc Zuckerberg a investi 14,3 milliards de dollars dans Scale AI et recruté Alexander Wang pour diriger ce nouveau laboratoire. M Spark obtient un score de 52 sur l'intelligence index, se plaçant dans le top 5 mondial, derrière G Mini 3.1, GPT 5.4 et Claude Opus 4.6. Il excelle notamment dans les questions médicales complexes (Els Bench Hard) et la compréhension de graphiques scientifiques (Cartive). Le modèle propose différents modes (instant, thinking, contemplation). Cependant, M Spark est propriétaire et fermé, en rupture avec la philosophie open source de Lama. Meta mise sur sa distribution massive (3,2 milliards d'utilisateurs quotidiens sur Facebook, Instagram, WhatsApp et Messenger) pour alimenter son assistant Meta AI. Malgré des investissements massifs, l'efficacité des laboratoires chinois à produire des modèles de pointe avec des ressources potentiellement plus limitées est frappante.
L'open source progresse également dans la génération vidéo avec LTX 2.3 de Lightrix, un modèle de 22 milliards de paramètres qui génère audio et vidéo synchronisés en un seul passage. Il permet de créer des vidéos jusqu'à 1080p à 50 images par seconde, avec un éditeur vidéo desktop gratuit et open source, fonctionnant entièrement en local. Une carte graphique de 12 Go de VRAM est suffisante pour le faire tourner. Près de 5 millions de personnes ont téléchargé LTX2, et la communauté a développé des optimisations.
En résumé, cette semaine marque un tournant où l'open source a rattrapé, voire dépassé, les modèles fermés. Les outils IA les plus puissants deviennent accessibles à tous. L'avantage concurrentiel ne réside plus dans l'accès à la technologie, mais dans la capacité à l'utiliser, à comprendre les outils disponibles, à les combiner et à les intégrer dans des flux de travail efficaces. Pour ceux qui souhaitent maîtriser ces outils, un programme d'apprentissage unique, Vision IA, est proposé, couvrant les modèles d'IA et leur intégration concrète dans la vie quotidienne et professionnelle. Ce programme, qui a récemment reçu une mise à jour majeure sur l'automatisation par IA et la création d'agents IA, est accessible à vie avec un paiement unique et ne nécessite pas de compétences techniques préalables.