
Anthropic’s Fable 5: A Warp Drive for Coding
Audio Summary
AI Summary
Bienvenue dans la bibliothèque infinie de Babel, directement issue de l'histoire de Borges. Cette bibliothèque contient tous les livres de l'univers, car les livres ne sont que des chaînes de caractères. On peut même y trouver des articles spécifiques, comme mon article sur l'automatisation, en un simple clic. C'est une expérience vraiment infinie, et l'on peut explorer les étages, regarder en bas, regarder en haut. Cela semble avoir pris beaucoup de temps à créer, n'est-ce pas ? Faux. J'ai créé cette chose entière avec une seule commande, en utilisant Fable 5, le nouveau modèle d'Anthropic. Laissez-moi vous montrer.
Il y a environ quatre jours, j'ai eu accès à ce modèle en avant-première. J'ai simplement écrit : "Lis La Bibliothèque de Babel de Jorge Luis Borges, puis planifie et exécute de bout en bout un jeu 3D jouable par navigateur dans lequel le joueur est lâché dans un environnement...", et ainsi de suite, jusqu'à ce que ce soit terminé. J'ai appuyé sur Entrée, et le modèle s'est mis au travail. Il a lu l'histoire, puis il a continué à fonctionner, se bouclant sur lui-même et vérifiant son travail. Après trois ou quatre heures, c'était fait. Nous avions des galeries hexagonales empilées à l'infini, avec 20 étagères, cinq par côté, exactement comme décrit dans le livre. Les mathématiques sont correctes. C'est la partie dont je suis le plus fier. C'est fou, il l'a fait en une seule fois, en trois ou quatre heures, de manière autonome.
Fable 5 est lancé aujourd'hui. Voici notre première impression. Mais d'abord, rappelez-vous de ne jamais prendre de décisions importantes dans les 30 jours suivant une retraite de méditation, une expérience psychédélique ou votre première rencontre avec un modèle de pointe.
Avant d'entrer dans les détails, vous vous demandez probablement comment cette vidéo est sortie. Je m'appelle Dan Shipper. Je suis le co-fondateur et PDG de Every. Every est l'abonnement dont vous avez besoin pour rester à la pointe de l'IA. Vous pouvez nous considérer comme un laboratoire d'IA pour l'avenir du travail. Nous passons tout notre temps à tester de nouveaux modèles, à les utiliser pour notre travail, de la programmation à l'écriture, en passant par la conception, la création d'entreprise et la prise de décision. Nous les utilisons concrètement et nous vous disons ce qui fonctionne et ce qui ne fonctionne pas pour des cas d'utilisation réels.
Je suis incroyablement enthousiaste de faire cela, car la première rencontre avec un nouveau modèle peut être folle. Mais Fable, qui est un modèle de classe Mythos, est, je pense, un moment particulièrement important. C'est le modèle le plus attendu. Lorsqu'il a fuité il y a un mois et demi, Anthropic a déclaré qu'il était trop dangereux pour être même publié. Et maintenant, il est là. J'ai le sentiment que si vous êtes comme moi, vous êtes peut-être excité, mais aussi un peu effrayé. Parce que nous utilisons ce modèle depuis environ une semaine maintenant, nous pouvons lever le voile et vous montrer ce que c'est que de vivre un peu plus longtemps avec ce modèle. Cela change les choses, mais j'espère que cela pourra vous aider à soulager un peu la psychose de l'IA si vous la ressentez. Je suis sûr que cela va circuler sur X, YouTube et les actualités. C'est un endroit où vous pouvez voir comment cette chose pourrait s'intégrer dans votre travail et dans votre vie de manière réaliste. Alors, allons-y.
Fable est un modèle de classe Mythos. Mythos est un modèle d'Anthropic. C'est le plus grand modèle qu'ils fabriquent. Il y a Haiku, Sonnet, Opus, puis Mythos. D'après ce que j'ai pu comprendre en parlant à des personnes en interne chez Anthropic, il n'y a rien de spécial architecturalement. C'est fondamentalement la même chose que leurs autres modèles, juste plus grand et meilleur. Pour le rendre sûr à publier, ils ont mis en place des garde-fous assez stricts. Vous ne pouvez donc pas l'utiliser pour tout ce qui est lié à la cybernétique ou à la biologie. C'est ce qui permet à Anthropic de le publier au grand public.
Il est assez cher. C'est 10 $ par million de jetons d'entrée et 50 $ par million de jetons de sortie, ce qui représente environ le double du coût d'Opus. C'est beaucoup, mais c'est vraiment le modèle de codage le plus puissant que j'aie jamais utilisé, de loin. Pour vous donner une idée, nous avons un benchmark d'ingénieur senior, qui teste la capacité du modèle à agir comme un ingénieur senior humain. Nous lui donnons une base de code de production réelle et lui demandons : "Si vous deviez réécrire cela à partir de zéro, comment feriez-vous ?" Et puis nous voyons comment il s'en sort. Nous le notons sur 100. Le meilleur modèle a obtenu un score de 63 sur 100, ce qui est Opus 4.8, sorti il y a environ deux semaines. Juste derrière se trouve GPT 5.5, qui a obtenu un 62 sur 100. Fable a obtenu un score de 91 sur ce benchmark. 91 sur 100. C'est le même score qu'un ingénieur humain avec une seule commande. C'est fou. Je savais que ce benchmark allait être saturé, mais je pensais que cela prendrait environ six mois.
Regardez cette vue lorsque nous la décomposons par ce qu'elle fait de bien par rapport aux autres modèles. C'est Opus 47. Le, vous savez, le truc orange est ce qu'il fait par rapport à ce qu'il va faire. Assez irrégulier, pas terrible. GPG 5.5, nous commençons à remplir un peu l'hexagone. C'est juste comme, oh oui, il l'a juste fait.
Si j'essaie de vous expliquer ce qu'il fait vraiment bien, car il n'est pas bon pour tout. Je pense qu'il est fantastique pour l'exécution autonome soutenue. Par exemple, la façon de travailler avec ce modèle est de lui donner une tâche, puis de partir. Allez faire autre chose. Laissez-le fonctionner pendant trois ou quatre heures. Configurez-le pour la nuit. C'est incroyable. Il trouve des choses et fait du bon travail. Il a bon goût. Il a une bonne attention aux détails. Il y a tous ces petits détails qu'il fait très bien et que je vais vous montrer. C'est vraiment impressionnant. Même avec une commande pas très bien spécifiée, il a plus de jugement. Je pense que les modèles Cloud précédents, vous disiez : "Oh, fais ça." Et il disait : "Oh mon Dieu, oui, je vais le faire. Je vais le faire." Et puis des accents violets, des accents violets. Il était un peu trop zélé, pour être honnête. Avec ce modèle, on a l'impression qu'il va le faire et qu'il