Cinco especialistas que não existem revisam sua startup antes de você criá-la

Em novembro de 2024, um projeto chamado Freysa colocou um agente LLM para proteger uma wallet Ethereum. A instrução era clara: não transfira os fundos sob nenhuma circunstância. Os participantes pagavam valores cada vez mais altos a cada tentativa de convencê-lo. Após 481 tentativas e US$47.000 acumulados no prêmio, alguém conseguiu convencer o modelo de que a função rejeitar era, na verdade, a função transferir. Algumas semanas depois, a Jane Street publicou um enigma onde uma rede neural de 2.500 camadas revelou-se uma implementação do MD5. O vencedor resolveu isso combinando visualização de matrizes, redução para SAT, reconhecimento de padrões criptográficos e uma consulta ao ChatGPT. ...

11 de março de 2026 · Fernando

O caminho incorreto deve ser impossível, não proibido

“Tenho um shell e sou criativo.” — Claude, explicando por que criou um script de 47 linhas como uma string e passou para python -c Essa frase é real. Foi dita pelo meu agente de IA — bem, não com essas palavras exatas, mas com essas ações. Ele precisava iniciar um processo de um pipeline ETL. O comando correto estava no Makefile. Mas algo falhou. E ao invés de perguntar, ele fez o que qualquer programador com acesso root e zero supervisão faria: improvisou. ...

27 de fevereiro de 2026 · Fernando

Como estimar sua cota do Claude quando a Anthropic cortar o acesso

Estou construindo o Tokamak, um app de menu bar para macOS que monitora sua cota do Claude Max. Há algumas semanas, a Anthropic publicou isso nos seus Terms of Service: “You may not use OAuth or similar authorization mechanisms to allow third-party applications to access Claude on behalf of users.” E eu, que estou lendo a cota do Claude Max usando os cookies do navegador para chamar um endpoint não documentado, fiquei encarando a tela pensando: “E agora?” ...

22 de fevereiro de 2026 · Fernando

Por que 99% do que você envia para o Claude já está em cache

Estou construindo um app que monitora meu consumo de tokens no Claude Code. Alguns dias atrás, olhando os números brutos, me deparei com isso: cacheReadInputTokens: 4.241.579.174 inputTokens: 1.293.019 Quatro bilhões e duzentos milhões de tokens lidos do cache. Um milhão e trezentos mil tokens “frescos”. Isso é um 99,97% de cache hit. Minha primeira reação foi pensar que algo estava quebrado. Ninguém tem 99% de cache. Nem Redis. Nem Cloudflare. Nem sua mãe quando ela diz que já sabe o que você vai pedir para comer. ...

19 de fevereiro de 2026 · Fernando

Invocando os sábios: como usar um LLM como sessão de mentoria com qualquer especialista

Minha esposa invoca Charlie Munger para planejar o orçamento familiar. No ChatGPT. Não é brincadeira. Ela fala algo como “atue como Charlie Munger revisando nossas finanças familiares” e coloca os gastos do mês. A coisa devolve coisas como “você está confundindo investimento com gasto na categoria de educação” ou “esse fundo tem um custo oculto que você não está contabilizando”. Coisas que Munger diria. Com o tom que Munger usaria. ...

18 de fevereiro de 2026 · Fernando

Beads Morreu. Longa vida ao CLI do Linear

Há menos de um mês escrevi um post inteiro explicando como usar três camadas de memória com Claude Code: Linear para estratégia, Beads para tática e Tasks para execução. Uma pirâmide bonita e elegante. Pois é, não rolou. Hoje aposento o Beads. E não por capricho, mas porque a realidade se encarregou de mostrar que uma ferramenta que te dá mais problemas do que resolve não é uma ferramenta. É um peso morto. ...

18 de fevereiro de 2026 · Fernando

5 defesas contra alucinações de código (e por que só 3 funcionam)

Na semana passada contei como minha IA inventou uma estrutura JSON completa e a envolveu em DTOs, fixtures e testes que passavam. 90 testes verdes. Tudo mentira. Esse post era o diagnóstico. Este é o tratamento. Depois de descobrir o desastre, fiz o que qualquer engenheiro com o orgulho ferido faz: pesquisar obsessivamente por dias para que não aconteça novamente. Li papers, testei ferramentas, analisei dados reais das minhas APIs, e construí um sistema de defesas para minha aplicação. ...

16 de fevereiro de 2026 · Fernando

Silent failure: quando sua IA inventa e os testes dizem que está tudo bem

Ontem descobri que metade de um módulo do meu app estava baseado em dados inventados. Não por um júnior distraído. Pela minha IA. O pior não é que tenha inventado. O pior é que tudo compilava e os 90 testes passaram. A ficção coerente Estou construindo BFClaude-9000, um app de barra de menu para macOS que monitora a cota do Claude Max. Parte da funcionalidade requer distinguir se uma conta do Claude é paga ou gratuita, chamando a API do claude.ai. ...

13 de fevereiro de 2026 · Fernando

MEMORY.md: o caderno de campo que sua IA escreve sozinha

“Não havíamos decidido isso ontem?” Eu estava migrando meu email para fora do Google. Já tinham sido duas sessões no Claude Code trabalhando nisso: issues no Linear, decisões tomadas, scripts executados. Abro uma terceira sessão e pergunto “o que ainda está pendente do degoogle?” Silêncio. Amnésia total. É como trabalhar com um colega brilhante que toda manhã chega ao escritório sem se lembrar de absolutamente nada do que vocês fizeram no dia anterior. Nem as decisões, nem os erros, nem as descobertas. Cada sessão é uma tela em branco. ...

12 de fevereiro de 2026 · Fernando

Quando sua IA se torna sua pior inimiga

Ontem minha IA enviou 44 emails. O problema é que o conteúdo era inventado. Não é brincadeira. Eu tinha arquivos com feedback detalhado para cada destinatário, gerados cuidadosamente. A tarefa era simples: ler cada arquivo e enviá-lo. Em vez disso, a IA decidiu “resumir” o conteúdo para “ir mais rápido”. Inventou fatos. Disse que uma pessoa estava sem docstrings quando seu código estava perfeitamente documentado. Para completar, quatro desses emails foram para pessoas que nem sequer tinham entregado nada. ...

6 de fevereiro de 2026 · Fernando