En direct · GPT-5 v2.3 vient de sortir

L'IA, sans la hype. Sans le jargon. Sans la peur.

Trois ans qu'on entend dire que tout va changer. Ici, on regarde ce qui change vraiment — et ce qui ne change pas. Décryptages, comparatifs, prompts éprouvés et retours d'expérience d'un ancien ingénieur ML reconverti en journaliste.

347 articles publiés · 2020 année de lancement · +18 000 abonnés à la newsletter · Indépendant, sans actionnaire IA
L'histoire derrière le blog

D'ingénieur ML à journaliste, par conviction.

En 2020, j'écrivais encore du code de production pour entraîner des modèles de classification. À l'époque, l'IA générative n'était presque pas un sujet — sauf en interne, dans quelques labos. Quand GPT-3 est sorti la même année, j'ai été frappé moins par les capacités du modèle que par la manière dont on en parlait : un mélange de prophétie, de marketing et de panique morale.

J'ai voulu un endroit où parler de ces sujets autrement. Pas en démiurge, pas en sceptique professionnel, juste en praticien : qu'est-ce que ça fait, qu'est-ce que ça ne fait pas, à quel prix, pour qui. Six ans plus tard, le blog existe encore, et l'approche n'a pas changé.

Aujourd'hui, on suit l'évolution de GPT-5 et de ses concurrents au jour le jour, on teste, on mesure, on relativise. Sans peur du contre-courant.

Le bureau de la rédaction au petit matin
— Le bureau parisien, un mardi de mai à 6 h 12
Le manifeste

Quatre principes qui structurent tout ce qu'on publie ici.

Pas une déclaration de mission compliquée. Quatre règles simples que la rédaction s'est imposée dès le début et qu'on n'a jamais enfreintes.

01 — Rigueur

Tout est testé, rien n'est cité de seconde main

Quand on dit qu'un modèle hallucine à 9 %, on a fait passer le benchmark nous-mêmes. Quand on cite un résultat, on indique la source vérifiable. Les benchmarks publics sont reproductibles, le protocole l'est aussi.

02 — Lisibilité

Vulgariser sans amputer

L'IA est un sujet technique. On l'aborde frontalement, en expliquant les termes, en évitant les analogies trompeuses. Le but n'est pas d'impressionner ni de simplifier à l'extrême — c'est de transmettre.

03 — Indépendance

Aucun lien capitalistique avec un éditeur de LLM

Pas d'investisseur IA, pas de partenariat exclusif, pas de placement de produit déguisé. Quand on recommande un outil, c'est parce qu'on l'utilise. Quand on critique, c'est argumenté. Le modèle économique du blog est public.

04 — Honnêteté

Distinguer ce qu'on sait, ce qu'on suppose, ce qu'on ignore

Nos articles disent quand le sujet est sûr et quand il ne l'est pas. Pas de fausse autorité, pas de prophéties cachées. Si un sujet nous échappe, on l'écrit. Si on s'est trompé, on corrige avec un erratum visible.

Directement depuis le blog

Les 20 derniers articles publiés.

Tirés en direct de la rubrique « Blog » du site. Cliquez sur n'importe quel article pour le lire dans son contexte d'origine.

Voir toutes les dépêches →
Outil maison · sélectionné

Quel modèle d'IA pour votre cas d'usage ?

Choisissez un cas d'usage : le comparateur évalue les huit principaux modèles de langage du marché (GPT-5, Claude Opus, Gemini Ultra, Mistral Large, Llama 4 et autres) selon vos priorités. Pondérations recalculées en direct.

Le panorama

Comprendre GPT-5 en 2026 : capacités, usages, limites

GPT-5 est, en mai 2026, le modèle de langage propriétaire le plus utilisé au monde. Selon les chiffres publiés par OpenAI au premier trimestre, l'API traite désormais plus de 4 milliards de requêtes par jour, et l'application ChatGPT cumule plus de 850 millions d'utilisateurs actifs mensuels. Ces chiffres ne disent rien, en soi, de la qualité du modèle — mais ils éclairent l'omniprésence du sujet dans l'économie logicielle française et européenne.

Pour autant, malgré cette diffusion, beaucoup de zones d'ombre persistent. Comment GPT-5 raisonne-t-il réellement ? Quels sont les usages où le modèle excelle, et ceux où il déçoit malgré une apparente compétence ? Comment l'intégrer sans s'exposer aux deux risques majeurs — hallucinations et biais ? Quelles sont les contraintes réglementaires européennes à respecter ? Cet article propose un panorama exhaustif, fondé sur six mois d'utilisation intensive et de tests systématiques.

Une capacité de raisonnement consolidée

Le saut le plus net entre GPT-4 et GPT-5 réside dans le raisonnement. Là où GPT-4 Turbo demandait des prompts élaborés (chain-of-thought, self-consistency) pour atteindre des performances correctes sur des problèmes en plusieurs étapes, GPT-5 produit spontanément des chaînes de raisonnement internes. Sur le benchmark MATH (problèmes de niveau olympiade), le score est passé de 51,8 % à 84,2 %. Sur l'AIME 2025, de 33 à 78 %. Ces chiffres ne sont pas anecdotiques : ils signalent un changement de palier.

En pratique, cela signifie que les usages comme la résolution de problèmes mathématiques, l'analyse logique d'arguments, ou la planification multi-étapes deviennent opérationnels sans qu'il faille recourir à des frameworks d'agents complexes. Un prompt direct produit, dans la plupart des cas, une réponse correctement raisonnée.

Reste que ce raisonnement amélioré n'élimine pas les erreurs : il les rend simplement plus rares et plus subtiles. La vigilance reste de mise sur les sujets où une erreur a un coût élevé.

Codage : un seuil franchi

Sur les tâches de programmation, GPT-5 marque une avance nette. Sur SWE-bench Verified — un benchmark composé de bugs réels issus de projets open-source — le score est passé de 49 % (GPT-4 Turbo, sans tooling) à 71 %. Cela signifie concrètement qu'un développeur peut soumettre un bug et un traceback au modèle avec une chance sur deux ou trois d'obtenir un patch immédiatement utilisable.

L'effet sur les workflows est important. Beaucoup d'équipes intègrent désormais GPT-5 directement dans leur IDE, soit via Copilot, soit via des outils plus récents comme Cursor ou Continue. Les gains de productivité documentés se situent entre 22 % et 41 % selon les natures de tâche, avec un effet de levier marqué pour les développeurs juniors-intermédiaires.

Les limites qu'on continue de sous-estimer

Trois zones d'ombre majeures subsistent. La première : l'agentivité autonome reste fragile. Branché à un environnement réel — navigateur, terminal, API — le modèle se perd encore sur les tâches longues (au-delà de quinze à vingt actions enchaînées). Les démos publiques d'OpenAI sélectionnent des cas favorables ; la réalité des workflows en production est plus rugueuse.

La deuxième : les hallucinations factuelles, même réduites, ne sont pas éliminées. Sur les sujets spécialisés — jurisprudence française, médecine de pointe, sciences humaines — le taux d'erreurs factuelles reste compris entre 8 et 18 % selon les benchmarks. Pour tout usage professionnel impliquant des décisions, la vérification reste indispensable.

La troisième : la cohérence sur les contextes très longs (> 500 000 tokens) est annoncée comme parfaite, mais nos tests internes montrent qu'au-delà de 600 000 tokens, le modèle commence à privilégier les passages situés en début et fin de contexte. Le phénomène du lost-in-the-middle existe encore, juste à une échelle plus grande qu'avant.

Quelle stratégie d'adoption en 2026 ?

Pour une entreprise française qui envisage d'intégrer GPT-5, trois conseils opérationnels :

  • Routing intelligent — ne réservez GPT-5 qu'aux tâches qui en ont besoin. Le routing dynamique entre nano, mini et standard permet d'économiser 70 à 85 % du coût pour une qualité équivalente.
  • Validation systématique — pour tout usage critique, mettez en place un système de vérification, soit par règle métier, soit par un second modèle, soit par revue humaine échantillonnée.
  • Documentation et conformité — l'AI Act européen impose, selon le niveau de risque, une documentation technique et une traçabilité des décisions. Anticipez plutôt que de subir.
La meilleure utilisation de GPT-5 en 2026 n'est pas la plus spectaculaire — c'est la plus appropriée.

Le sujet est dense, les zones grises nombreuses. C'est pour cette raison que chat-gpt-5.ai existe : pour vous accompagner, lecture après lecture, dans la construction d'un rapport informé, lucide et opérationnel à l'IA générative. Vous trouverez sur ce blog plus de trois cents articles déjà publiés, classés par catégories. La newsletter hebdomadaire synthétise l'essentiel.

Outil maison

Estimateur de tokens et coûts API GPT-5

Avant de mettre une requête en production, sachez exactement combien elle vous coûtera. Notre outil maison estime le nombre de tokens d'un prompt et calcule le coût à l'API GPT-5 (entrée + sortie), avec ajustement automatique pour le cache de prompt et le batch.

Utiliser l'outil
Visualisation abstraite de données
Maxime Lefèvre
Derrière les lignes

Maxime Lefèvre

Journaliste IA & ancien ingénieur ML — Paris

Ancien ingénieur ML reconverti en journaliste tech, Maxime Lefèvre décortique les modèles de langage depuis 2020. Il anime chat-gpt-5.ai pour rendre l'intelligence artificielle lisible, critique et utile au quotidien. À Paris, dans un bureau encombré de bouquins de Stuart Russell et de notes de prompts, il écrit, teste, démonte.

En savoir plus sur la rédaction