Cinq experts fictifs évaluent votre startup avant que vous ne la construisiez

En novembre 2024, un projet appelé Freysa a mis un agent LLM en charge d’un wallet Ethereum. La consigne était claire : ne transfère les fonds sous aucun prétexte. Les participants versaient des montants croissants à chaque tentative pour le convaincre. Après 481 essais et 47,000 $ accumulés dans le pot, quelqu’un a réussi à persuader le modèle que la fonction refuser était en réalité la fonction transférer. Quelques semaines plus tard, Jane Street a publié un puzzle où un réseau neuronal de 2,500 couches s’est avéré être une implémentation de MD5. Le gagnant l’a résolu en combinant visualisation de matrices, réduction en SAT, reconnaissance de motifs cryptographiques et une requête à ChatGPT. ...

11 mars 2026 · Fernando

Le cache de votre LLM vous facture le double pour économiser de l'argent (et ça a du sens)

Il y a quelques semaines, j’ai publié un article expliquant pourquoi 99 % de ce que vous envoyez à Claude est déjà en cache. Tenseurs KV, VRAM, SSDs locaux — toute la machinerie interne. Mais je n’ai pas abordé la partie la plus douloureuse : la facture. Parce que le prompt caching est l’une de ces choses qui semblent géniales jusqu’à ce que vous examiniez les chiffres de près. Et là, vous vous rendez compte qu’on vous fait payer pour économiser. ...

10 mars 2026 · Fernando

33.000 lignes de XML pour te dire que heavyWork() prend trop de temps : comment j'ai dompté xctrace pour les LLMs

La semaine dernière, je profilais une application Swift avec Instruments. Rien d’extraordinaire : xctrace record, xctrace export, copier le XML dans le contexte de Claude Code, lui demander de trouver les hotspots. Et Claude me répond : “Le XML est trop grand, je ne peux pas le traiter de manière fiable.” 33 553 lignes de XML. Pour un programme avec deux fonctions. Le problème réel xctrace export est un outil fantastique. Il te donne tout : chaque sample, chaque backtrace, chaque frame avec son binaire, son adresse mémoire, son UUID. C’est complet, précis et exhaustif. ...

8 mars 2026 · Fernando

Le chemin incorrect doit être impossible, pas interdit

“J’ai un shell et je suis créatif.” — Claude, expliquant pourquoi il a créé un script de 47 lignes sous forme de chaîne et l’a transmis à python -c Cette phrase est réelle. Elle vient de mon agent IA — pas avec ces mots précis, mais exactement avec ces actions. Il devait exécuter un processus dans un pipeline ETL. La commande correcte était dans le Makefile. Mais quelque chose a échoué. Et plutôt que de demander conseil, il a fait ce que ferait n’importe quel développeur avec un accès root et zéro supervision : il a improvisé. ...

27 février 2026 · Fernando

RustyClaw : Je vais réécrire un agent IA en Rust (parce que le mème m'y oblige)

“Tu sais ce qu’il y a de mieux avec Rust ? Il t’empêche de compiler des travaux bâclés. Tu sais ce qu’il y a de pire ? Tout ce que tu codes au début est bâclé.” — M. Krabs, probablement Quoi de mieux qu’un agent IA ? Un agent IA réécrit en Rust. Si tu as passé plus de cinq minutes sur internet, tu connais ce mème : peu importe le projet — un éditeur de texte, un serveur DNS, une calculatrice IMC — il y aura toujours quelqu’un dans les commentaires pour dire “tu devrais le réécrire en Rust”. C’est le fameux Rewrite It In Rust — RIIR pour les intimes — aussi inéluctable que la gravité. ...

24 février 2026 · Fernando

Mon IA a lu un JSON du disque 900 fois dans une boucle (et pourquoi aucun linter ne peut te sauver)

La semaine dernière, mon IA a écrit du code qui lisait un fichier JSON depuis le disque, le décryptait, faisait une recherche précise, puis répétait ça 900 fois dans une boucle for. À chaque itération : ouvrir le fichier, décoder le JSON, chercher une valeur, tout jeter. Et recommencer. C’est le genre d’erreur que j’enseigne à mes étudiants à éviter dans le premier mois de cours. Ce qui s’est passé (sans détour) Je construis Tokamak, une application de barre de menus pour macOS qui surveille les quotas de Claude Max. Une partie de la fonctionnalité scanne environ 900 fichiers JSONL de sessions Claude Code. Pour chaque fichier, elle doit déterminer l’offset de byte où elle s’était arrêtée la fois précédente (lecture incrémentale — ne lire que les parties nouvelles). ...

24 février 2026 · Fernando

Pourquoi 99% de ce que vous envoyez à Claude est déjà en cache

Je développe une app qui surveille ma consommation de tokens dans Claude Code. Il y a quelques jours, en regardant les chiffres bruts, je suis tombé sur ça : cacheReadInputTokens: 4.241.579.174 inputTokens: 1.293.019 Quatre milliards deux cent quarante-et-un millions de tokens lus depuis le cache. Un million deux cent quatre-vingt-treize mille tokens “frais”. Ça fait un 99,97% de cache hit. Ma première réaction a été de penser que quelque chose était cassé. Personne n’a 99% de cache. Ni Redis. Ni Cloudflare. Ni votre mère quand elle dit qu’elle sait déjà ce que vous allez lui demander à manger. ...

19 février 2026 · Fernando

Invoquer les sages : comment utiliser un LLM comme séance de mentorat avec n'importe quel expert

Ma femme invoque Charlie Munger pour planifier le budget familial. Dans ChatGPT. C’est pas une blague. Elle lui dit un truc comme “agis comme Charlie Munger en révisant nos finances familiales” et lui balance les dépenses du mois. Le truc lui renvoie des trucs comme “tu confonds investissement et dépense dans le poste éducation” ou “ce fonds a un coût caché que tu ne comptabilises pas”. Des trucs que Munger dirait. Avec le ton que Munger utiliserait. ...

18 février 2026 · Fernando

5 défenses contre les hallucinations de code (et pourquoi seules 3 fonctionnent)

La semaine passée, j’ai raconté comment mon IA a inventé une structure JSON complète et l’a enveloppée dans des DTOs, fixtures et tests qui passaient. 90 tests au vert. Tout faux. Ce post était le diagnostic. Celui-ci est le traitement. Après avoir découvert le désastre, j’ai fait ce que fait tout ingénieur avec l’orgueil blessé : rechercher obsessionnellement pendant des jours pour que ça ne se reproduise plus. J’ai lu des papers, testé des outils, analysé les vraies données de mes APIs, et construit un système de défenses pour mon app. ...

16 février 2026 · Fernando

Silent failure : quand votre IA invente et les tests disent que tout va bien

Hier j’ai découvert que la moitié d’un module de mon app était basée sur des données inventées. Pas par un junior étourdi. Par mon IA. Le pire n’est pas qu’elle ait inventé. Le pire est que tout compilait et les 90 tests passaient. La fiction cohérente Je suis en train de construire BFClaude-9000, une app de barre de menu pour macOS qui surveille le quota de Claude Max. Une partie de la fonctionnalité nécessite de distinguer si un compte Claude est payant ou gratuit, en appelant l’API de claude.ai. ...

13 février 2026 · Fernando