Skip to main content

RLHF

RLHF (Reinforcement Learning from Human Feedback) ist eine Trainingsmethode, bei der menschliche Bewertungen ein KI-Modell auf hilfreiche und sichere Antworten ausrichten. Sie machte Modelle wie ChatGPT alltagstauglich.

Bei RLHF bewerten Menschen verschiedene Modellantworten, und aus diesen Praeferenzen wird ein Belohnungsmodell gelernt. Das Sprachmodell wird anschliessend mit Reinforcement Learning so optimiert, dass es bevorzugte Antworten erzeugt. Dadurch werden Modelle hilfreicher, hoeflicher und sicherer im Sinne menschlicher Erwartungen. RLHF war ein Schluesselschritt, der rohe Sprachmodelle in nuetzliche Assistenten verwandelte.

Verwandte Begriffe

Vom Begriff zur Praxis

Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.

Kostenlos starten