transformer大模型_transformer算法厉害在哪里-营销方案网

2024-11-2705:56:20创业资讯1

在深度学习的研究中，越来越深的网络通常能够带来更强的特征表达能力，尤其是在计算机视觉和文本分类等任务中，已经取得了显著的成功。在机器翻译领域，目前广泛使用的标准Transformer模型只有6层，尽管其性能在一些任务中表现出色，但如何进一步提升其翻译质量，依然是一个值得探讨的问题。最近，一项名为《VeryDeepTransformersforNeuralMachineTranslation》的研究提出了一个新思路，作者通过将Transformer模型的编码器部分扩展到60层，部分则扩展到12层，取得了相较于基线模型更为优异的效果，并在WMT14英法和英德翻译任务上实现了当前最先进的性能。

这篇论文的详细内容可以通过以下链接查阅：论文地址，项目地址：GitHub链接。

1. 背景知识

Transformer模型的基本结构包括多个层级（N层Transformer层），每个层包含两个主要模块：多头自注意力机制（Multi-Head Attention, MHA）和位置前馈网络（Position-wise Feed-Forward Network, FFN）。根据论文中的定义，Transformer的运算可以分为以下两步：

多头自注意力机制（MHA）

前馈网络（FFN）

MHA层和FFN层之间，以及FFN层之后，都包含残差连接和层归一化（Layer Normalization, LN）操作，具体的公式可参见文献1。上述的两种公式可以统一表示为：

其中，表示注意力层（Attention Layer）和前馈网络层（Feed-Forward Network），i为层数的下标。

2. 方法

虽然网络加深往往能提高模型的表现，但也带来了训练上的挑战，尤其是梯度消失的问题。尽管层归一化（Layer Normalization）在一定程度上缓解了这一问题，但深层网络依然面临梯度难以有效传递的问题，尤其是在和编码器底层之间，梯度流动的缺失成为了一个突出问题。为了解决这一问题，文献2提出了一种方法，改变了层归一化的位置，先进行层归一化，再进行自注意力或前馈网络操作（即Pre-LN），公式如下所示：

Pre-LN：

Post-LN：

这种方法的主要不同在于，它在每一层的输入前先进行归一化操作，而不是在计算完MHA和FFN之后再进行归一化，这一调整大大改进了梯度的流动，提升了训练的稳定性。事实上，GPT-3的96层模型也采用了这种结构。

为了进一步提升训练效果，研究者们引入了一种新的初始化方法——Admin初始化。该方法涉及对模型的权重初始化一个与输入相同维度的向量，通过这种方式来确保网络在训练初期的稳定性，避免梯度或消失的问题。在训练过程中，模型会首先计算每一层的方差，然后通过调整这些参数来优化模型，训练完成后还可以对模型进行再参数化，以进一步提高其性能。

3. 实验

在英法和英德两个机器翻译任务中，作者对模型进行了实验。实验结果显示，当Transformer的编码器增加到60层、增加到12层时，如果不使用Admin初始化方法，模型将无法收敛。但使用Admin方法后，模型不仅能够顺利收敛，而且在EU评分上相比标准的Transformer模型提高了2.5分，这证明了加深Transformer并进行合理初始化的可行性和有效性。

在一些领先的机器翻译模型中，Admin深层Transformer模型在上述两个数据集上的表现也达到了最先进的水平。以下的表格和图形进一步展示了实验结果：

图表：图(a)显示了模型在训练过程中的损失曲线，表明使用Admin初始化方法后，深层Transformer模型能够有效克服不收敛的问题。

图(b)：展示了不同层数下，Admin + Transformer模型在验证集上的困惑度（Perplexity）变化，结果表明，随着模型层数的加深，困惑度显著下降，验证了深层模型的有效性。

4. 结论

本文验证了通过加深Transformer模型层数来提升机器翻译性能是可行的，并且使用Admin初始化方法成功地将Transformer模型的编码器扩展到60层，扩展到12层，在英法和英德两个数据集上，模型的EU分数提高了约2个点。