失效链接处理 |
LLMs 损失函数?PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
三?/strong>KL 散度与交叉熵的区别?
KL散度指的是相对熵Q?/span>KL散度是两个概率分?/span>P?/span>Q差别的非对称性的度量?/span>KL散度小表示两个分布接q?/span>
也就是说KL散度是不对称的,?/span>KL散度的值是非负数。(也就是熵和交叉熵的差Q?/span>
• 交叉熉|失函数是二分c问题中最常用的损失函敎ͼ׃其定义出于信息学的角度,可以泛化到多分类问题
中?/span>
• KL散度是一U用于衡量两个分布之间差异的指标Q交叉熵损失函数?/span>KL散度的一U特DŞ式。在二分c问?/span>
中,交叉熵函数只有一,而在多分c问题中有多V?/span>
四、多d学习?/strong>loss差异q大怎样处理Q?/strong>
多Q务学习中Q如果各d的损失差异过大,可以通过动态调整损失权重、用Q务特定的损失函数、改变模?/span>
架构或引入正则化{方法来处理。目标是q各Q务的贡献Q以便更好地训练模型
|