失效链接处理 |
大模型(LLMsQLLM生成SFT数据Ҏ(gu)?nbsp; PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
一?/strong>SFT数据集如何生成?
SFT数据集构建通常有两U方法:(x)人工标注和?/span>LLMQ比?/span>GPT-4Q来生成的,人工标注对于?/span>
建垂直领域比较合适,可以减少有偏数据Q但是成本略高;使用LLM生成Q可以在短时间内生成?/span>
量数据?/span>
二?/strong>Self-Instruct ?/strong>
2.1 什么是 Self-Instruct Q?/strong>
一个通过预训l语a模型自己引导自己来提?的指令遵循能力的框架?/span>
2.2 Self-Instruct 处理思\Q?/strong>
• 步骤1Q作者从 175个种子Q务中随机抽取 8 条自然语a指o(h)作ؓ(f)CZQƈ提示InstructGPT?/span>
成更多的d指o(h)?/span>
• 步骤2Q作者确定步?/span>1中生成的指o(h)是否是一个分cMQ务。如果是Q他们要?/span> InstructGPT ?/span>
据给定的指o(h)出生成所有可能的选项Qƈ随机选择特定的输出类别,提示 InstructGPT ?/span>
成相应的“输入”内容。对于不属于分类d的指令,应该有无数的“输出”选项。作者提Z“?/span>
入优?/span>”{略Q首先提C?/span> InstructGPTҎ(gu)l定?/span>“指o(h)”生成“输入”Q然后根?/span>“指o(h)”和生成的“?/span>
?/span>”生成“输出”?/span>
• 步骤3Q基于第 2 步的l果Q作者?/span> InstructGPT 生成相应指o(h)d?/span>“输入”?/span>“输出”Q采?/span>
“输出优先”?/span>“输入优先”的策略?/span>
• 步骤4Q作者对生成的指令Q务进行了后处?/span>(例如Q过滤类似指令,去除输入输出的重复数
?/span>)Q最l得?/span>52K条英文指?/span>
|