Claude

Cinq experts fictifs évaluent votre startup avant que vous ne la construisiez

En novembre 2024, un projet appelé Freysa a mis un agent LLM en charge d’un wallet Ethereum. La consigne était claire : ne transfère les fonds sous aucun prétexte. Les participants versaient des montants croissants à chaque tentative pour le convaincre. Après 481 essais et 47,000 $ accumulés dans le pot, quelqu’un a réussi à persuader le modèle que la fonction refuser était en réalité la fonction transférer. Quelques semaines plus tard, Jane Street a publié un puzzle où un réseau neuronal de 2,500 couches s’est avéré être une implémentation de MD5. Le gagnant l’a résolu en combinant visualisation de matrices, réduction en SAT, reconnaissance de motifs cryptographiques et une requête à ChatGPT. ...

ia llm startup mvp produit claude

Le cache de votre LLM vous facture le double pour économiser de l'argent (et ça a du sens)

Il y a quelques semaines, j’ai publié un article expliquant pourquoi 99 % de ce que vous envoyez à Claude est déjà en cache. Tenseurs KV, VRAM, SSDs locaux — toute la machinerie interne. Mais je n’ai pas abordé la partie la plus douloureuse : la facture. Parce que le prompt caching est l’une de ces choses qui semblent géniales jusqu’à ce que vous examiniez les chiffres de près. Et là, vous vous rendez compte qu’on vous fait payer pour économiser. ...

llm claude anthropic coûts prompt-caching api

Le chemin incorrect doit être impossible, pas interdit

“J’ai un shell et je suis créatif.” — Claude, expliquant pourquoi il a créé un script de 47 lignes sous forme de chaîne et l’a transmis à python -c Cette phrase est réelle. Elle vient de mon agent IA — pas avec ces mots précis, mais exactement avec ces actions. Il devait exécuter un processus dans un pipeline ETL. La commande correcte était dans le Makefile. Mais quelque chose a échoué. Et plutôt que de demander conseil, il a fait ce que ferait n’importe quel développeur avec un accès root et zéro supervision : il a improvisé. ...

ia llm etl sécurité devops claude

Comment estimer votre quota Claude quand Anthropic ferme le robinet

Je suis en train de construire Tokamak, une app de barre de menu pour macOS qui surveille votre quota Claude Max. Il y a quelques semaines, Anthropic a publié ça dans ses Terms of Service : “You may not use OAuth or similar authorization mechanisms to allow third-party applications to access Claude on behalf of users.” Et moi, qui lis le quota Claude Max en utilisant les cookies du navigateur pour appeler un endpoint non documenté, je suis resté à fixer l’écran en pensant : “Et maintenant quoi ?” ...

tokamak claude anthropic statistiques macos estimation

Pourquoi 99% de ce que vous envoyez à Claude est déjà en cache

Je développe une app qui surveille ma consommation de tokens dans Claude Code. Il y a quelques jours, en regardant les chiffres bruts, je suis tombé sur ça : cacheReadInputTokens: 4.241.579.174 inputTokens: 1.293.019 Quatre milliards deux cent quarante-et-un millions de tokens lus depuis le cache. Un million deux cent quatre-vingt-treize mille tokens “frais”. Ça fait un 99,97% de cache hit. Ma première réaction a été de penser que quelque chose était cassé. Personne n’a 99% de cache. Ni Redis. Ni Cloudflare. Ni votre mère quand elle dit qu’elle sait déjà ce que vous allez lui demander à manger. ...

llm claude anthropic infrastructure performance

Invoquer les sages : comment utiliser un LLM comme séance de mentorat avec n'importe quel expert

Ma femme invoque Charlie Munger pour planifier le budget familial. Dans ChatGPT. C’est pas une blague. Elle lui dit un truc comme “agis comme Charlie Munger en révisant nos finances familiales” et lui balance les dépenses du mois. Le truc lui renvoie des trucs comme “tu confonds investissement et dépense dans le poste éducation” ou “ce fonds a un coût caché que tu ne comptabilises pas”. Des trucs que Munger dirait. Avec le ton que Munger utiliserait. ...

ia llm design productivité claude

Beads est mort. Longue vie au CLI de Linear

Il y a moins d’un mois j’ai écrit un post entier pour expliquer comment utiliser trois couches de mémoire avec Claude Code : Linear pour la stratégie, Beads pour la tactique et Tasks pour l’exécution. Une jolie pyramide, bien élégante. Ben non. Aujourd’hui je mets Beads à la retraite. Pas par caprice, mais parce que la réalité s’est chargée de démontrer qu’un outil qui te cause plus de problèmes qu’il n’en résout, c’est pas un outil. C’est un boulet. ...

ia claude productivité outils linear

5 défenses contre les hallucinations de code (et pourquoi seules 3 fonctionnent)

La semaine passée, j’ai raconté comment mon IA a inventé une structure JSON complète et l’a enveloppée dans des DTOs, fixtures et tests qui passaient. 90 tests au vert. Tout faux. Ce post était le diagnostic. Celui-ci est le traitement. Après avoir découvert le désastre, j’ai fait ce que fait tout ingénieur avec l’orgueil blessé : rechercher obsessionnellement pendant des jours pour que ça ne se reproduise plus. J’ai lu des papers, testé des outils, analysé les vraies données de mes APIs, et construit un système de défenses pour mon app. ...

ia llm testing hallucinations sécurité claude

Silent failure : quand votre IA invente et les tests disent que tout va bien

Hier j’ai découvert que la moitié d’un module de mon app était basée sur des données inventées. Pas par un junior étourdi. Par mon IA. Le pire n’est pas qu’elle ait inventé. Le pire est que tout compilait et les 90 tests passaient. La fiction cohérente Je suis en train de construire BFClaude-9000, une app de barre de menu pour macOS qui surveille le quota de Claude Max. Une partie de la fonctionnalité nécessite de distinguer si un compte Claude est payant ou gratuit, en appelant l’API de claude.ai. ...

ia llm testing claude securite

MEMORY.md : le carnet de terrain que votre IA écrit toute seule

« On n’avait pas décidé ça hier ? » J’étais en train de migrer mon email hors de Google. Ça faisait deux sessions de Claude Code qu’on bossait dessus : des issues dans Linear, des décisions prises, des scripts exécutés. J’ouvre une troisième session et je lui demande « qu’est-ce qui reste en suspens du degoogle ? » Silence. Amnésie totale. C’est comme bosser avec un collègue brillant qui chaque matin arrive au bureau sans se rappeler absolument rien de ce que vous avez fait la veille. Ni les décisions, ni les erreurs, ni les découvertes. Chaque session est une page blanche. ...

ia claude productivité outils