
Ce prix Nobel vient de prononcer le mot tabou de l'IA
Audio Summary
AI Summary
Google a récemment bouleversé le monde de l'IA lors de sa conférence Google I/O, où le PDG de Google DeepMind, lauréat du prix Nobel de chimie, a évoqué la "singularité". Après cinq mois de silence, Google a dévoilé des innovations majeures, notamment Gemini 3.5 Flash, qui devrait transformer notre interaction avec Internet.
Sundar Pichai a souligné l'ampleur de l'utilisation de Google, avec 900 millions d'utilisateurs actifs sur Gemini et un volume de données traitées multiplié par sept en un an. Toutes les nouvelles présentations s'appuient sur Gemini 3.5 Flash, la première version de la famille 3.5. Bien qu'il s'agisse d'un modèle "Flash" (généralement une version économique), celui-ci surpasse Gemini 1.5 Pro, le modèle premium de la génération précédente, dans la plupart des benchmarks, y compris le codage et l'utilisation d'outils externes. Artificial Analysis, une référence indépendante, le classe à 55 sur son index d'intelligence, devant Grok 1.5 et Claude 3.5. De plus, son taux d'hallucination a été réduit de 31% par rapport à la version Flash précédente, améliorant considérablement sa fiabilité.
La véritable révolution de Gemini 3.5 Flash réside dans sa vitesse : 280 tokens par seconde en sortie, soit quatre fois plus rapide que GPT-4o (environ 60 tokens/seconde) et Claude Opus 3.5 (environ 70 tokens/seconde), tout en offrant un niveau d'intelligence comparable. Cette rapidité change radicalement les possibilités offertes par les modèles d'IA. Traditionnellement, l'IA était contrainte par un "triangle" intelligence-prix-vitesse, où il fallait choisir deux des trois facteurs. Google a brisé cette règle en offrant à la fois rapidité et intelligence.
Le prix de Gemini 3.5 Flash est de 1,50 dollar par million de tokens en entrée et 9 dollars en sortie, soit trois fois plus cher que le Flash précédent, mais deux à trois fois moins cher que GPT-4o ou Claude Opus 3.5 pour des performances comparables. Google ne vend plus de la vitesse à bas prix, mais de l'intelligence à une vitesse qui rend possibles des usages inédits.
Ces avancées se traduisent par des applications concrètes dans les produits Google. Le moteur de recherche a été repensé pour la première fois en 25 ans. Pour les questions complexes, le modèle Flash génère du code en direct pour créer une page de réponse sur mesure, une forme de "vibe coding" en temps réel. Si un tel processus prenait trois minutes, il serait inutilisable ; en cinq secondes, cela devient la nouvelle norme. Sur YouTube, la fonction "Ask YouTube" permet de poser des questions en langage naturel. L'IA analyse les transcriptions des vidéos pour trouver les informations pertinentes et redirige l'utilisateur directement au moment précis de la vidéo. Cette fonction est actuellement réservée aux abonnés premium aux États-Unis. Pour les créateurs, cela remet en question les modèles économiques basés sur la rétention et le temps de visionnage, car les utilisateurs peuvent désormais accéder directement au contenu qui les intéresse.
Cette même vitesse alimente également les nouveaux modèles vidéo de Google, baptisés Omni. La première version, OmniFlash, combine le raisonnement de Gemini avec le moteur de génération de DeepMind (Nano Banana, Veo 3, Gen-2), permettant de générer des vidéos à partir de n'importe quelle entrée (texte, image, audio, vidéo). Bien que la qualité des pixels ne soit pas encore au niveau de concurrents comme Sora, l'objectif d'OmniFlash est de comprendre la physique, la gravité, la cinétique et le comportement des objets dans le monde réel. Il est possible d'éditer des éléments spécifiques de la vidéo directement dans la conversation, sans affecter le reste, à l'instar de Nano Banana pour les images. Google a délibérément bloqué l'édition audio dans les vidéos générées pour prévenir les abus.
Cependant, le point culminant de la conférence était Spark, un agent IA personnel de Google. Contrairement à un chatbot, Spark est un agent IA autonome qui fonctionne 24h/24 sur une machine virtuelle dédiée dans les serveurs de Google Cloud. Il peut être contacté par message, voix ou e-mail (il dispose de sa propre adresse Gmail dédiée) et a un accès natif à l'écosystème Google (Gmail, Calendar, Docs, Sheets) sans configuration ni API. Par exemple, Spark peut surveiller les e-mails de l'école des enfants pour extraire les dates importantes, analyser les relevés bancaires pour détecter les abonnements indésirables, ou décomposer plusieurs tâches vocales en sous-tâches gérables. L'interface de Spark organise les échanges en fils de conversation distincts, résolvant un problème courant des agents IA noyés dans un flux unique de messages.
Google a également revu sa grille tarifaire pour l'IA. Le plan Ultra, qui incluait l'accès à Spark, est passé de 250 dollars à 100 dollars par mois, rendant l'agent accessible à un public beaucoup plus large. La logique de limitation a également changé, abandonnant les quotas rigides de prompts quotidiens au profit d'une mesure de la complexité de calcul de chaque requête, ce qui est plus intelligent et élimine la frustration des blocages.
Contrairement à OpenAI et Anthropic qui mettent en avant des outils de codage pour développeurs, Google a choisi de positionner Spark, un agent IA personnel pour le grand public, au centre de son événement. Google parie que c'est cet usage qui va connaître une explosion massive, en permettant à des personnes non techniques de déléguer des tâches à leur agent.
Spark sera déployé progressivement : d'abord pour un petit groupe de bêta-testeurs cette semaine, puis pour les abonnés Ultra aux États-Unis la semaine prochaine, et enfin en Europe plus tard.
En conclusion de la conférence, Demis Hassabis, PDG de Google DeepMind, a déclaré : "Nous sommes au pied de la singularité." Il a précisé que ce choix de mots était délibéré et qu'il entendait par singularité l'atteinte d'une intelligence artificielle générale. Hassabis estime que des machines d'intelligence comparable à l'humain pourraient voir le jour dès 2030, soit dans quatre ans. En perspective, il y a quatre ans (2020), l'IA générative telle que nous la connaissons aujourd'hui n'existait pas pour le grand public. Le rythme des avancées est tel que la prédiction de Hassabis n'est pas exagérée. Lorsque le dirigeant du laboratoire d'IA le plus avancé au monde, lauréat d'un prix Nobel, prononce de tels mots lors du plus grand événement technologique de l'année, ce n'est plus de la rhétorique marketing. Google a montré un modèle qui détruit le compromis entre vitesse et intelligence, un agent