失效链接处理 |
大模型(LLMsQ强化学?mdash;— PPO ?PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
一、大语言模型RLHF中的PPO主要分哪些步骤?
大语a模型RLHF中的PPO 分ؓQ?/span>
对应的实现逻辑如下Q?/span>
二、D例描qC?大语a模型?/strong>RLHFQ?/strong>
大语a模型?/strong>RLHFQ实际上是模型先试错再学?fn)的q程?/span>
大语a模型?/span>RLHF 好比是:老师与学生的角色
• 我们扮演着老师的角Ԍl出有趣的问题。模型则会像学生一P不断试l出{案?/span>
• 模型会根据我们给出的问题Q写出它觉得正确的答案,但是q些{案不一定是真的{案Q需要我们结合正?/span>
{案q行打分。如果它表现得好Q就会给予它高声赞扬Q如果它表现不佳Q我们则会给予它耐心的指导和?/span>
馈,帮助它不断改q,直到辑ֈ令h满意的水q?/span>
|