您的当前位置：首页大模型之自注意力机制Self-Attention（二）

大模型之自注意力机制Self-Attention（二）

来源：爱够旅游网

大模型之自注意力机制Self-Attention

LlaMA 3 系列博客

大模型之自注意力机制Self-Attention（二）

当在第5个编码器（栈顶编码器）中编码单词“it”时，注意力机制的一部分专注于“the animal”，并将其中一部分表示融入到“it”的编码中。

请查看，在那里你可以加载一个Transformer模型，并使用这个交互式可视化来检查它。

自注意力的详细说明

让我们首先看看如何使用向量计算自注意力，然后继续看看它实际上是如何实现的——使用矩阵。

计算自注意力的第一步是从编码器的每个输入向量（在这种情况下，每个单词的嵌入）创建三个向量。因此，对于每个单词，我们创建一个Query向量、一个Key向量和一个Value向量。这些向量是通过将嵌入乘以我们在训练过程中训练的三个矩阵来创建的。

请注意，这些新向量的维度比嵌入向量小。它们的维度是，而嵌入和编码器输入/输出向量的维度是512。它们不必是更小的，这是一种架构选择，使多头注意力的计算（大部分）保持不变。

“查询”、“键”和“值”向量是什么？

它们是用于计算和思考注意力的有用抽象。一旦你继续阅读下面关于注意力是如何计算的，你将几乎了解这些向量各自扮演的所有角色。

计算自注意力的第二步是计算分数。假设我们正在计算这个例子中第一个单词“Thinking”的自注意力。我们需要对输入句子中的每个单词进行评分。分数决定了在对某个位置的单词进行编码时，要对输入句子的其他部分给予多少关注。

分数是通过取查询向量与相应单词的键向量的点积来计算的。所以，如果我们正在处理位置#1的单词的自注意力，第一个分数将是q1和k1的点积。第二个分数将是q1和k2的点积。

第三步和第四步是将分数除以8（在论文中使用的键向量的维度的平方根——。这有助于拥有更稳定的梯度。这里可能还有其他可能的值，但默认值是键向量的维度的平方根），然后将结果通过softmax操作。Softmax将分数标准化，使它们都是正数，并且加起来等于1。

这个softmax分数决定了在该位置将表达多少每个单词。显然，该位置的单词将具有最高的softmax分数，但有时关注与当前单词相关的另一个单词也是有用的。

第五步是将每个值向量乘以softmax分数（准备将它们相加）。这里的直觉是保持我们想要关注的单词的值不变，并掩码不相关的单词（例如，通过将它们乘以0.001等小数字）。

第六步是将加权值向量相加。这产生了自注意力层在该位置的输出（对于第一个单词）。

这结束了自注意力计算。结果向量是我们可以发送到前馈神经网络的向量。然而，在实际实现中，这些计算是以矩阵形式完成的，以加快处理速度。现在我们已经在单词级别上看到了计算的直觉，让我们看看矩阵形式的计算。

矩阵计算自注意力

第一步是计算Query、Key和Value矩阵。我们通过将嵌入生成矩阵X，并将其乘以我们训练的权重矩阵（WQ、WK、WV）来实现这一点。

最后，由于我们处理的是矩阵，我们可以将步骤二到六压缩成一个公式，以计算自注意力层的输出。

多头注意力

论文通过添加一种称为“多头”注意力的机制，进一步完善了自注意力层。这以两种方式提高了注意力层的性能：

如果按照上述自注意力计算的相同步骤，只是用不同的权重矩阵进行八次不同的计算，我们最终会得到八个不同的Z矩阵

这给我们留下了一点挑战。前馈层并不期望得到八个矩阵——它期望得到一个单一的矩阵（每个单词的一个向量）。因此，我们需要一种方法将这八个矩阵压缩成一个矩阵。

我们如何做到这一点？我们连接矩阵，然后乘以一个额外的权重矩阵WO。

这基本上就是多头自注意力的全部内容。这是相当多的矩阵。将它们全部放在一个图，这样我们可以在一个地方查看它们。

现在我们已经接触了注意力头，让我们重新审视我们之前的例子，看看在编码我们示例句子中的单词“it”时，不同的注意力头关注在哪里：

当我们编码单词“it”时，一个注意力头最关注“the animal”，而另一个关注“tired”——从某种意义上说，模型对单词“it”的表示融入了“animal”和“tired”的表示的一部分。

如果我们将所有的注意力头都添加到图片中，事情可能会更难解释：

使用位置编码表示序列的顺序

到目前为止我们描述的模型中缺少的一点是，一种解释输入序列中单词顺序的方法。

为了解决这个问题，Transformer为每个输入嵌入添加了一个向量。这些向量遵循模型学习的特定模式，这有助于它确定每个单词的位置，或者序列中不同单词之间的距离。这里的直觉是，将这些值添加到嵌入中，在它们被投影到Q/K/V向量并在点积注意力期间，提供了嵌入向量之间的有意义距离。

为了给模型一种单词顺序的感觉，我们添加了位置编码向量——其值遵循特定的模式。

如果我们假设嵌入的维度是4，实际的位置编码将看起来像这样：

在下图中，每一行对应一个向量的位置编码。因此，第一行将是我们将添加到输入序列中第一个单词的嵌入向量的向量。每一行包含512个值——每个值都在1到-1之间。我们已经按颜色编码，以便模式可见。

对于20个单词（行）和嵌入大小为512（列）的位置编码的示例。你可以看到它在中心看起来是分开的。那是因为左半边的值由一个函数（使用正弦）生成，右半边由另一个函数（使用余弦）生成。然后它们被连接起来形成每个位置编码向量。

位置编码的公式在论文的第3.5节中描述。你可以查询

大模型技术分享

《企业级生成式人工智能LLM大模型技术、算法及案例实战》线上高级研修讲座

模块一：Generative AI 原理本质、技术内核及工程实践周期详解
模块二：工业级 Prompting 技术内幕及端到端的基于LLM 的会议助理实战
模块三：三大 Llama 2 模型详解及实战构建安全可靠的智能对话系统
模块四：生产环境下 GenAI/LLMs 的五大核心问题及构建健壮的应用实战
模块五：大模型应用开发技术：Agentic-based 应用技术及案例实战
模块六：LLM 大模型微调及模型 Quantization 技术及案例实战
模块七：大模型高效微调 PEFT 算法、技术、流程及代码实战进阶
模块八：LLM 模型对齐技术、流程及进行文本Toxicity 分析实战
模块九：构建安全的 GenAI/LLMs 核心技术Red Teaming 解密实战
模块十：构建可信赖的企业私有安全大模型Responsible AI 实战

Llama3关键技术深度解析与构建Responsible AI、算法及开发落地实战

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。他们将详细了解Llama 3的五大技术分支及工具，以及如何在AWS上实战Llama指令微调的案例。
2、解密Llama 3 Foundation Model模型结构特色技术及代码实现：深入了解Llama 3中的各种技术，比如Tiktokenizer、KV Cache、Grouped Multi-Query Attention等。通过项目二逐行剖析Llama 3的源码，加深对技术的理解。
3、解密Llama 3 Foundation Model模型结构核心技术及代码实现：SwiGLU Activation Function、FeedForward Block、Encoder Block等。通过项目三学习Llama 3的推理及Inferencing代码，加强对技术的实践理解。
4、基于LangGraph on Llama 3构建Responsible AI实战体验：通过项目四在Llama 3上实战基于LangGraph的Responsible AI项目。他们将了解到LangGraph的三大核心组件、运行机制和流程步骤，从而加强对Responsible AI的实践能力。
5、Llama模型家族构建技术构建安全可信赖企业级AI应用内幕详解：深入了解构建安全可靠的企业级AI应用所需的关键技术，比如Code Llama、Llama Guard等。项目五实战构建安全可靠的对话智能项目升级版，加强对安全性的实践理解。
6、Llama模型家族Fine-tuning技术与算法实战：学员将学习Fine-tuning技术与算法，比如Supervised Fine-Tuning(SFT)、Reward Model技术、PPO算法、DPO算法等。项目六动手实现PPO及DPO算法，加强对算法的理解和应用能力。
7、Llama模型家族基于AI反馈的强化学习技术解密：深入学习Llama模型家族基于AI反馈的强化学习技术，比如RLAIF和RLHF。项目七实战基于RLAIF的Constitutional AI。
8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。
9、Llama模型家族Safety设计与实现：在这个模块中，学员将学习Llama模型家族的Safety设计与实现，比如Safety in Pretraining、Safety Fine-Tuning等。构建安全可靠的GenAI/LLMs项目开发。
10、Llama 3构建可信赖的企业私有安全大模型Responsible AI系统：构建可信赖的企业私有安全大模型Responsible AI系统，掌握Llama 3的Constitutional AI、Red Teaming。

解码Sora架构、技术及应用

一、为何Sora通往AGI道路的里程碑？
1，探索从大规模语言模型(LLM)到大规模视觉模型(LVM)的关键转变，揭示其在实现通用人工智能(AGI)中的作用。
2，展示Visual Data和Text Data结合的成功案例，解析Sora在此过程中扮演的关键角色。
3，详细介绍Sora如何依据文本指令生成具有三维一致性(3D consistency)的视频内容。 4，解析Sora如何根据图像或视频生成高保真内容的技术路径。
5，探讨Sora在不同应用场景中的实践价值及其面临的挑战和局限性。

二、解码Sora架构原理
1，DiT (Diffusion Transformer)架构详解
2，DiT是如何帮助Sora实现Consistent、Realistic、Imaginative视频内容的？
3，探讨为何选用Transformer作为Diffusion的核心网络，而非技术如U-Net。
4，DiT的Patchification原理及流程，揭示其在处理视频和图像数据中的重要性。
5，Conditional Diffusion过程详解，及其在内容生成过程中的作用。
三、解码Sora关键技术解密
1，Sora如何利用Transformer和Diffusion技术理解物体间的互动，及其对模拟复杂互动场景的重要性。
2，为何说Space-time patches是Sora技术的核心，及其对视频生成能力的提升作用。
3，Spacetime latent patches详解，探讨其在视频压缩和生成中的关键角色。
4，Sora Simulator如何利用Space-time patches构建digital和physical世界，及其对模拟真实世界变化的能力。
5，Sora如何实现faithfully按照用户输入文本而生成内容，探讨背后的技术与创新。
6，Sora为何依据abstract concept而不是依据具体的pixels进行内容生成，及其对模型生成质量与多样性的影响。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文