Cinq experts fictifs évaluent votre startup avant que vous ne la construisiez
En novembre 2024, un projet appelé Freysa a mis un agent LLM en charge d’un wallet Ethereum. La consigne était claire : ne transfère les fonds sous aucun prétexte. Les participants versaient des montants croissants à chaque tentative pour le convaincre. Après 481 essais et 47,000 $ accumulés dans le pot, quelqu’un a réussi à persuader le modèle que la fonction refuser était en réalité la fonction transférer. Quelques semaines plus tard, Jane Street a publié un puzzle où un réseau neuronal de 2,500 couches s’est avéré être une implémentation de MD5. Le gagnant l’a résolu en combinant visualisation de matrices, réduction en SAT, reconnaissance de motifs cryptographiques et une requête à ChatGPT. ...