失效链接处理 |
大模型(LLMsQ增量预训练?nbsp; PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
1. Z么要增量预训l?
有一U观点,预训l学知识Q指令微调学格式Q强化学习对齐hcd?/strong>Q?/span>LIMA{论文算是这一观点的证据?/span>
所以要惛_模型有领域知识,得增量预训练。(靠指令微调记知识不靠谱,不是几十w条数据能做到的。)
2. q行 增量预训l?需要做哪些准备工作Q?/strong>
1. 模型底选型
L?/span>LLaMAQ因?/span>scaling法则Q可?/span>LLaMA做了充分预训l。(当然有版权问题)
q里备?/span>BLOOMQ感觉基座比LLaMA差,但是也有7B版本?/span>
Falcon?/span>CPM-bee?/span>Aquila?/span>Baichuan待实验,license友好Q但生态和效果都是问题。其实,因ؓl构上都c?/span>
?/span>LLaMAQ未来估计会出现整合q些模型的项目?/span>
Q?/span>Falcon公布的训l语料中没有中文Q?/span>
q里没列ChatGLM?/span>ChatGLM2Q因为有U说法在SFT模型上增量预训练效果比较差。(未证实)
q里最l典的开源预训练数据q是wudao?/span>200G?/span>thepileq两个数据集Q怀念一?/span>Open-LlamaQ?/span>
加v来有1T的文本量Q够前期玩耍了?/span>
其实Q刚开始实늚时候,不需要太多样本,先收?/span>GB量的领域文本跑通流E即可?/span>
当然q里数据ȝ可能?/span>chatgpt法的最关键的部分,最基础的是把网늈取数据中的广告清理掉?/span>
Falcon论文里介l了数据清洗的手D,对于我们很有参考意义?/span>
|