失效链接处理 |
增量预训l(PretrainQ样本拼接篇 PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
一?/strong>Pretrain阶段Qؓ(f)什么需要拼接拼接?
Z(jin)提高pretrain效率、拓?/span>LLM最大长度,随机若q条短文本进行拼接是pretrain阶段常见?/span>
Dc(din)?/span>
二、有哪些 拼接方式Q?/strong>
2.1 拼接方式一Q?/strong>Random Concatenate
随机短文本 {examples_i} 拼接?/span> {examples_k} 以打?/span>maxLen?/span>pretrain的常见手D,该方法不
仅能够降?/span>padding占比、提高训l效率,q能?/span>LLM具备更好的长文本处理能力?/span>
但笔者认为,l大多数情况下构?/span> Example 的多?/span> examples 彼此互不相关Q无法提供有效的?/span>
下文信息Q?/span>LLM自然也无法从拓宽的窗口中获得反馈。甚臻I在语料较?yu)、分布比较集中时Q?/span>LLM
很有可能从多ơ、偶然的Q因拼接D的)(j)噪音q中拟合到错误的特征。当?dng)如果语料_
多、分布够广Q?/span>LLM仍能通过_?/span>contrastiveQ逐渐聚焦?/span> examples 本n而非其他无关
examples 。此外,也有一些?/span>specialToken?/span> examples q行软隔ȝҎ(gu)Q但没有额外的正
则手D|Q?/span>specialTokenq行隔离或许只是鸡生蛋、蛋生鸡的死循环?/span>
|