失效链接处理 |
大模型(LLMsQ强化学?mdash;—RLHF及其变种?nbsp; PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong> 一、介l一?/strong> LLM的经兔R训练PipelineQ?/strong>
目前ZTransformer decoder?/span>LLMQ比?/span>ChatGPT?/span>LLaMA?/span>baichuan{,通常都会有基于预训练?/span>base?/span>
型和?/span>base模型臛_使用RLHF微调?/span>Chat模型Q?/span>Chat模型的训l一般都包括如下三个步骤Q预训练Q有监督?/span>
调和寚w?/span>
1. 在预训练阶段Q模型会从大量无标注文本数据集中学习通用知识Q?/span>
2. 使用「有监督微调」(SFTQ优化模型以更好地遵守特定指令;
3. 使用寚w技术LLM可以更有用且更安全地响应用户提示?/span>
二、预训练Q?/strong>Pre-trainingQ篇
2.1 具体介绍一?预训l(Pre-trainingQ?
预训l(Pre-trainingQ:利用数十亿到C亿个token的庞大文本语料库 Ҏ(gu)型l?预训l,?模型 能够 Ҏ(gu)
提供的文本来预测「下一个单词」?/span>
三、有监督微调Q?/strong>Supervised TinetuningQ篇
3.1 具体介绍一?有监督微调(Supervised TinetuningQ?
有监督微调(Supervised TinetuningQ?/span>:虽然 SFT 训练目标?预训l(Pre-trainingQ类|也是 需要模?预测
「下一个单词」,但是需要h工标注的指o数据集,其中模型的输入是一个指令(Ҏ(gu)d的不同,也可能包?/span>
一D输入文本)Q输Zؓ模型的预期回复内?/span>
|