RLHF: Lernen aus menschlichem Feedback

RLHF steht für Reinforcement Learning from Human Feedback: Eine KI lernt aus menschlichen Bewertungen, was eine gute Antwort ausmacht. Bring hier einem Belohnungsmodell mit ein paar Klicks deinen Geschmack bei – danach bewertet es neue Antworten von selbst, und du entdeckst, wo es sich austricksen lässt.

Oben trainiert aus deinen Vergleichen ein Belohnungsmodell – dieselbe Bradley-Terry-Methode wie in grossen RLHF-Systemen, nur mit ablesbaren Stil-Merkmalen statt eines riesigen Netzes. Lernen, Verallgemeinern und Austricksen passieren live in deinem Browser.

Mehr dazu