失效链接处理 |
大模型(LLMsQ基面试?nbsp; PDF 下蝲
相关截图Q?/strong>
![]()
主要内容Q?/strong>
4涌现能力是啥原因? Ҏ(gu)前h分析和论文ȝQ大致是2个猜?·d的评h标不够^? ·复杂dvs子Q务,q个其实好理解,比如我们假设某个dT?个子dSub-T构成Q每个sub-T随着模型增长Q指标从40%提升?0%Q但是最lQ务的指标只从1.1%提升C7%Q也是说宏观上看到了涌现现象,但是了Q务效果其实是qx增长的?/span>
5Z现在的大模型大部分是Decoder onlyl构? 因ؓdecoder-onlyl构模型在没有Q何微调数据的情况下,zeroshot的表现能力最好。而encoder-decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最x能?/span> 目前的Large LM的训l范式还是在大规模语料shang做自监督学习Q很昄zero-hot性能更好的decoder-only架构才能更好的利用这些无标主的数据?/span> 大模型用decoder-only架构除了训练效率和工E实C的优势外Q在理论上因为Encoder的双向注意力会存在低U的问题Q这可能会削弱模型的表达能力。就生成d而言Q引入双向注意力q无实质的好处。而Encoder-decoder模型架构之所以能够在某些场景下表现更好,大概是因为它多了一倍参数。所以在同等参数量、同{推理成本下QDecoder-only架构是最优的选择了?/span>
|