失效链接处理 |
大模型(LLMsQ强化学习面 PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
1 单介l强化学习?
强化学习Q(Reinforcement LearningQ一U机器学习的Ҏ(gu)Q?/span>通过从外部获得激励来校正学习方向从而获得一
U自适应的学习能?/strong>?/span>
2 单介l一?/strong> RLHFQ?/strong>
Z人工反馈的强化学习(Reinforcement Learning from Human FeedbackQ?/span>RLHFQ:构徏人类反馈数据集,
训练一个激励模型,模仿人类偏好对结果打?/strong>Q这?/span>GPT-3后时代大语言模型来像人类对话核心技术?/span>
3. 奖励模型需要和基础模型一致吗Q?/strong>
不同实现方式g限制不同。(待实늡认)colossal-ai?/span>coati中需要模型有相同?/span>tokenizerQ所以选模型只?/span>
从同pd中找。在ppo法实现方式上据?/span>trlx是最W合论文的?/span>
4. RLHF 在实践过E中存在哪些不Q?/strong>
1. 不?/span>1Qh工生的偏好数据集成本较高,很难量Q?/span>
2. 不?/span>2Q三个阶D늚训练Q?/span>SFT->RM->PPOQ过E较长,更新q代较慢Q?/span>
3. 不?/span>3Q?/span>PPO 的训l过E同时存?/span>4个模型(2训练Q?/span>2推理Q,对计资源的要求较高?/span>
5. 如何解决 人工产生的偏好数据集成本较高Q很N产问题?
该方法的核心在于通过AI 模型监督其他 AI 模型Q即?/strong>SFT阶段Q从初始模型中采P然后生成自我批评和修
正,然后Ҏ(gu)修正后的反应微调原始模型??/span> RL 阶段Q从微调模型中采P使用一个模型来评估生成的样本,
|