Bei RLHF bewerten Menschen verschiedene Modellantworten, und aus diesen Praeferenzen wird ein Belohnungsmodell gelernt. Das Sprachmodell wird anschliessend mit Reinforcement Learning so optimiert, dass es bevorzugte Antworten erzeugt. Dadurch werden Modelle hilfreicher, hoeflicher und sicherer im Sinne menschlicher Erwartungen. RLHF war ein Schluesselschritt, der rohe Sprachmodelle in nuetzliche Assistenten verwandelte.
RLHF
RLHF (Reinforcement Learning from Human Feedback) ist eine Trainingsmethode, bei der menschliche Bewertungen ein KI-Modell auf hilfreiche und sichere Antworten ausrichten. Sie machte Modelle wie ChatGPT alltagstauglich.
Verwandte Begriffe
Vom Begriff zur Praxis
Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.
Kostenlos starten