RLVR: eine Belohnung, die man prüfen kann

RLVR steht für Reinforcement Learning with Verifiable Rewards: Statt zu raten, was eine gute Antwort ist, prüft ein Programm, ob sie stimmt. Lass hier ein Sprachmodell mehrere Lösungswege ausdenken, einen Prüfer nachrechnen – und sieh, wie genau dieses Signal das Modell besser macht.

Oben denkt sich ein Sprachmodell die Lösungswege aus, ein winziges Stück Code prüft sie nach, und ein Mini-Reinforcement-Learning verstärkt das Geprüfte – alles live in deinem Browser. Buchstabenzählen ist dabei der anschauliche Stellvertreter für Mathe oder Code.

Mehr dazu