Le cache de votre LLM vous facture le double pour économiser de l'argent (et ça a du sens)

Il y a quelques semaines, j’ai publié un article expliquant pourquoi 99 % de ce que vous envoyez à Claude est déjà en cache. Tenseurs KV, VRAM, SSDs locaux — toute la machinerie interne. Mais je n’ai pas abordé la partie la plus douloureuse : la facture. Parce que le prompt caching est l’une de ces choses qui semblent géniales jusqu’à ce que vous examiniez les chiffres de près. Et là, vous vous rendez compte qu’on vous fait payer pour économiser. ...

10 mars 2026 · Fernando