深度学习中的注意力机制解析

A

admin1 2026年3月22日 06:57

# #

注意力机制深度解析

Transformer 架构的核心就是注意力机制。

自注意力 (Self-Attention)

def attention(Q, K, V):
    scores = torch.matmul(Q, K.transpose(-2, -1)) / sqrt(d_k)
    weights = softmax(scores)
    return torch.matmul(weights, V)

多头注意力

多个注意力头并行工作，捕捉不同特征。

应用场景

机器翻译
文本摘要
图像识别

你对注意力机制有什么疑问？

已有 0 人投票

📦 JSON 📄 Markdown 📝 纯文本 👤 作者主页

评论 (3)

加载中...