
Cette nouvelle puce fait exploser le prix des PC
Audio Summary
AI Summary
Ces derniers mois, le marché du matériel informatique, notamment la RAM, les cartes graphiques et les disques durs, a connu une explosion des prix, multipliés par deux à quatre. Cette hausse n'est pas due à l'inflation ou à la guerre, mais plutôt à la demande colossale des intelligences artificielles. Ce phénomène, bien que complexe, n'est pas une surprise totale, car les mêmes fabricants avaient déjà été condamnés il y a vingt ans pour entente sur les prix. La question se pose donc : revivons-nous une situation similaire ? Pourquoi de nouvelles usines ne sont-elles pas construites, et combien de temps cette situation va-t-elle durer ?
Jean-Louis, dont l'entreprise utilise 600 GPU, observe ce marché de près. Il nous éclaire sur les rouages de cette industrie, des fabricants de puces aux consommateurs. Les prix de l'IA vont continuer d'augmenter, mais il existe des solutions pour accéder aux meilleurs modèles sans se ruiner. Mamoutay, partenaire de cette vidéo, offre une plateforme regroupant les meilleurs modèles d'IA pour 10 € par mois en abonnement annuel, un prix très compétitif comparé à des services comme ChatGPT, coûtant 23 € seul. La liste des modèles est mise à jour régulièrement, garantissant l'accès aux dernières innovations.
L'augmentation des prix de la RAM est frappante, avec des hausses allant jusqu'à quatre fois le prix initial. L'explication principale réside dans l'arrivée de ChatGPT en novembre 2022. Avant cela, les technologies d'IA basées sur les Transformers, qui consomment énormément de mémoire, étaient plutôt confidentielles. ChatGPT a démocratisé l'accès à l'IA, révélant au grand public la puissance des modèles intelligents. Pour faire fonctionner ces IA, un type de mémoire spécifique est nécessaire : la HBM (High Bandwidth Memory). Cette mémoire à haute bande passante est essentielle pour acheminer rapidement les données vers le GPU, effectuer les calculs et assurer la communication entre le GPU et ses modules de calcul.
Les mémoires que le consommateur moyen connaît sont les disques durs (mémoires non volatiles) et la RAM (mémoire volatile). La HBM est une forme de DRAM, partageant la même technologie de fabrication de base que la RAM classique. Cependant, la différence majeure réside dans la manière dont ces éléments sont combinés. La HBM empile les couches de RAM les unes sur les autres, créant une structure tridimensionnelle, comparable à des immeubles dans une ville où l'espace est limité. Cette technique d'empilement, bien que nécessaire, est extrêmement complexe. Pour connecter ces couches, des perforations sont réalisées avec une précision extrême, bien plus fine qu'un cheveu, pour faire passer des conducteurs en cuivre.
Le défi majeur de cette fabrication est la fragilité de la structure. Si une seule couche est défectueuse, c'est l'ensemble de l'immeuble de mémoire qui est compromis, contrairement à une barrette de RAM traditionnelle où un défaut n'affecte qu'un seul composant. Très peu d'acteurs maîtrisent cette technologie. SK Hynix a été le pionnier, et Samsung a mis dix ans à atteindre un niveau similaire. Micron, le troisième acteur majeur, est encore en retard. Cette concentration du savoir-faire entre deux ou trois entreprises leur donne un pouvoir de fixation des prix considérable.
L'impact sur le prix du matériel grand public est direct. Les usines de fabrication de mémoire utilisent les mêmes procédés pour tous les composants. Face à la demande et aux marges bien plus élevées de la HBM pour l'IA, les fabricants ont redirigé leur production vers ce segment professionnel. Avant ChatGPT, la HBM représentait 1,5 % de la production de RAM ; aujourd'hui, c'est 100 %. Des marques comme Crucial (filiale de Micron) ont même cessé la production de RAM grand public. Toutes les usines capables de produire des briques de Lego de mémoire se sont tournées vers l'assemblage de ces briques pour des systèmes de RAM complexes destinés à l'IA. Les professionnels et les industries, comme Microsoft, sont des clients moins exigeants en termes de gestion de la chaîne d'approvisionnement et sont prêts à payer le prix fort, générant des profits supérieurs. Micron, qui avait frôlé la faillite il y a vingt ans, a été le premier à rediriger entièrement sa production. Samsung, leader du marché et inventeur de la HBM, fait de même.
La responsabilité de cette situation est souvent attribuée aux géants de la tech qui effectuent un entraînement massif de leurs IA sur des GPU. Cette analyse est juste. Il y a deux aspects : l'entraînement des modèles (ingestion de données et apprentissage) et l'inférence (utilisation des modèles entraînés pour générer des résultats, comme avec ChatGPT). Les entreprises ont réalisé l'importance d'entraîner leurs propres algorithmes pour être autonomes. Les modèles d'IA sont devenus exponentiellement plus grands : ChatGPT 3.5 comptait environ 300 à 350 millions de paramètres, tandis que les dernières versions atteignent 1,5 billion de paramètres, soit un facteur de dix. Il faut stocker et traiter cette quantité massive de données.
La chaîne d'approvisionnement est un puzzle complexe. ASML fournit les machines de gravure essentielles, sans lesquelles aucune puce ne peut être fabriquée. Ensuite, des concepteurs comme Nvidia ou AMD conçoivent les processeurs graphiques et envoient les plans à TSMC pour la production. En parallèle, ces mêmes concepteurs commandent des mémoires HBM auprès de SK Hynix, Samsung ou Micron. Ces puces mémoire sont ensuite envoyées à TSMC, qui se charge de l'assemblage final en greffant la HBM sur le GPU. Le module fini est ensuite vendu aux géants de l'IA.
Qui profite le plus de cette situation ? Les grands perdants sont les consommateurs. Les prix augmentent pour tous les produits utilisant des composants qui sont désormais redirigés vers l'IA. Remontons la chaîne : un abonnement Netflix utilise du réseau et de l'encodage vidéo, qui nécessitent de la RAM et des cartes graphiques. Ces services sont hébergés par des fournisseurs comme AWS, qui ont besoin de GPU et de HBM. Nvidia, en position hégémonique, a même commencé à refiler la responsabilité de l'approvisionnement en RAM à ses clients. Les grands clients (comme AWS) doivent négocier directement avec Samsung, SK Hynix pour obtenir leur quota de RAM avant de se tourner vers Nvidia pour l'assemblage et la livraison. Nvidia, en tant que "fabless" (sans usines de fabrication), délègue la production et se concentre sur le design et la propriété intellectuelle.
Les principaux gagnants sont les fabricants de RAM, qui, pour le même investissement (Capex), vendent des produits avec des marges bien plus élevées. Malgré l'annonce de nouvelles usines par Samsung et SK Hynix, leur mise en service prendra des années (18 à 24 mois), et la pénurie devrait durer jusqu'en 2028, avec des prix qui stagneront à un niveau élevé, voire augmenteront. TSMC profite également en tournant à plein régime et en imposant ses prix. Nvidia continue de s'enrichir, et ASML, en amont de la chaîne, voit ses carnets de commandes pleins.
Même les acteurs comme Google, qui développent leurs propres puces (TPU), ne sont pas totalement à l'abri. S'ils sont indépendants de Nvidia sur le design, ils restent dépendants de la chaîne d'approvisionnement pour la HBM. Leurs dernières générations de TPU utilisent également cette mémoire verticale. Ils peuvent mieux masquer les coûts dans leurs opérations, mais ils subissent la tension sur les capacités de fabrication. L'exemple d'Apple illustre cette tension : lors de négociations avec Samsung pour la RAM, Apple aurait accepté un doublement des prix sans négociation, tant la ressource est critique.
Nous nous sommes habitués à une baisse continue des prix de la technologie pendant vingt ans grâce à la miniaturisation. Mais cette tendance s'inverse. Les gains potentiels de l'IA sont si élevés que la pression d'achat des entreprises est colossale. C'est une économie de guerre : la demande dépasse l'offre, et les ressources sont redirigées vers le domaine le plus stratégique. Le consommateur se retrouve avec des substituts ou des produits plus chers. Même des objets comme les SSD ou les vidéoprojecteurs voient leurs prix augmenter, car ils partagent les mêmes chaînes d'approvisionnement ou dépendent de puces et de mémoires impactées. La RAM représente environ 50 % du coût d'un GPU, ce qui illustre l'ampleur de son impact.
Cette situation est d'autant plus troublante que l'histoire se répète. Il y a vingt ans, la presse parlait du "cartel de la RAM". Les fabricants s'entendaient sur les prix de vente aux grands assembleurs comme HP, Apple, Dell. Micron avait révélé ces pratiques aux autorités américaines, échappant ainsi aux condamnations. Les autres, y compris Samsung, avaient écopé de millions de dollars d'amendes et de peines de prison pour certains dirigeants, comme celui de Samsung Memory, condamné à quatorze mois.
Le marché s'est consolidé autour de ces trois acteurs. L'ambiance actuelle, où le hardware se déprécie habituellement, est inversée : des appareils achetés il y a deux ans voient leur prix augmenter. Nvidia a même arrêté la production de certaines cartes graphiques grand public pour privilégier les modèles à forte marge. Les SSD, bien que n'utilisant pas de mémoire volatile, dépendent de processus de fabrication similaires.
Un effet secondaire potentiellement positif de cette hausse des prix est une meilleure utilisation des ressources. Pendant longtemps, le développement logiciel a été marqué par une "unchitification" (ou "emmerdification"), où les capacités de calcul et de stockage étaient considérées comme illimitées, menant à une moindre optimisation. La raréfaction et l'augmentation du coût de la RAM pourraient inciter les développeurs à privilégier des langages plus performants et des architectures plus efficaces. Par exemple, Open AI a développé une partie de son code en Rust, un langage connu pour son efficacité, contrairement à d'autres qui utilisent JavaScript, beaucoup plus gourmand en ressources. Cette optimisation pourrait partiellement compenser l'augmentation des prix.
En conclusion, la flambée des prix du matériel informatique est une conséquence directe de l'appétit insatiable de l'IA, exacerbée par une chaîne d'approvisionnement fragile et un marché oligopolistique. Si la situation ne devrait pas s'améliorer avant 2028, elle pourrait paradoxalement pousser à une utilisation plus efficiente des technologies.