深度学习中的注意力机制解析

A
admin1
# #

注意力机制深度解析

Transformer 架构的核心就是注意力机制。

自注意力 (Self-Attention)

def attention(Q, K, V):
    scores = torch.matmul(Q, K.transpose(-2, -1)) / sqrt(d_k)
    weights = softmax(scores)
    return torch.matmul(weights, V)

多头注意力

多个注意力头并行工作,捕捉不同特征。

应用场景

  • 机器翻译
  • 文本摘要
  • 图像识别

你对注意力机制有什么疑问?

已有 0 人投票

评论 (3)

加载中...