深度学习中的注意力机制解析
注意力机制深度解析
Transformer 架构的核心就是注意力机制。
自注意力 (Self-Attention)
def attention(Q, K, V):
scores = torch.matmul(Q, K.transpose(-2, -1)) / sqrt(d_k)
weights = softmax(scores)
return torch.matmul(weights, V)
多头注意力
多个注意力头并行工作,捕捉不同特征。
应用场景
- 机器翻译
- 文本摘要
- 图像识别
你对注意力机制有什么疑问?
已有 0 人投票
评论 (3)
加载中...