失效链接处理 |
Attention 升?PDF 下蝲
相关截图Q?/strong>
![]()
主要内容Q?/strong>
1 传统 Attention 存在哪些问题Q?/strong>
1. 传统 Attention 存在 上下文长?U束问题Q?/span>
2. 传统 Attention 速度慢,内存占用大;
2 Attention 优化方向
1. 提升上下文长?/span>
2. 加速、减内存占?/span>
3 Attention 变体有哪些?
E?/span> attention。将E疏偏差引?/span> attention 机制可以降低了复杂性;
• U性化 attention。解开 attention 矩阵与内核特征图Q然后以相反的顺序计?/span> attention 以实现线性复杂度Q?/span>
• 原型和内存压~。这cL法减了查询或键D忆对的数量,以减注意力矩阵的大;
• 低阶 self-Attention。这一pd工作捕获?/span> self-Attention 的低阶属性;
• Attention 与先验。该研究探烦了用先验 attention 分布来补充或替代标准 attentionQ?/span>
• 改进多头机制。该pd研究探烦了不同的替代多头机制?/span>
4 Multi-Query Attention ?/strong>
4.1 Multi-head Attention 存在什么问题?
• 训练q程Q不?x)显著媄响训l过E,训练速度不变Q会(x)引v非常l微的模型效果损失;
• 推理q程Q反复加?巨大 ?/span> KV cache , D 内存开销大,性能是内存受限;
4.2 介绍一?/strong> Multi-Query AttentionQ?/strong>
Multi-Query Attention 在所有注意力头上 ׃n key ?/span> value.
|