在深度学习的研究中,越来越深的网络通常能够带来更强的特征表达能力,尤其是在计算机视觉和文本分类等任务中,已经取得了显著的成功。在机器翻译领域,目前广泛使用的标准Transformer模型只有6层,尽管其性能在一些任务中表现出色,但如何进一步提升其翻译质量,依然是一个值得探讨的问题。最近,一项名为《VeryDeepTransformersforNeuralMachineTranslation》的研究提出了一个新思路,作者通过将Transformer模型的编码器部分扩展到60层,部分则扩展到12层,取得了相较于基线模型更为优异的效果,并在WMT14英法和英德翻译任务上实现了当前最先进的性能。
这篇论文的详细内容可以通过以下链接查阅:论文地址,项目地址:GitHub链接。
1. 背景知识
Transformer模型的基本结构包括多个层级(N层Transformer层),每个层包含两个主要模块:多头自注意力机制(Multi-Head Attention, MHA)和位置前馈网络(Position-wise Feed-Forward Network, FFN)。根据论文中的定义,Transformer的运算可以分为以下两步:
多头自注意力机制(MHA)
前馈网络(FFN)
MHA层和FFN层之间,以及FFN层之后,都包含残差连接和层归一化(Layer Normalization, LN)操作,具体的公式可参见文献1。上述的两种公式可以统一表示为:
其中,表示注意力层(Attention Layer)和前馈网络层(Feed-Forward Network),i为层数的下标。
2. 方法
虽然网络加深往往能提高模型的表现,但也带来了训练上的挑战,尤其是梯度消失的问题。尽管层归一化(Layer Normalization)在一定程度上缓解了这一问题,但深层网络依然面临梯度难以有效传递的问题,尤其是在和编码器底层之间,梯度流动的缺失成为了一个突出问题。为了解决这一问题,文献2提出了一种方法,改变了层归一化的位置,先进行层归一化,再进行自注意力或前馈网络操作(即Pre-LN),公式如下所示:
Pre-LN:
Post-LN:
这种方法的主要不同在于,它在每一层的输入前先进行归一化操作,而不是在计算完MHA和FFN之后再进行归一化,这一调整大大改进了梯度的流动,提升了训练的稳定性。事实上,GPT-3的96层模型也采用了这种结构。
为了进一步提升训练效果,研究者们引入了一种新的初始化方法——Admin初始化。该方法涉及对模型的权重初始化一个与输入相同维度的向量,通过这种方式来确保网络在训练初期的稳定性,避免梯度或消失的问题。在训练过程中,模型会首先计算每一层的方差,然后通过调整这些参数来优化模型,训练完成后还可以对模型进行再参数化,以进一步提高其性能。
3. 实验
在英法和英德两个机器翻译任务中,作者对模型进行了实验。实验结果显示,当Transformer的编码器增加到60层、增加到12层时,如果不使用Admin初始化方法,模型将无法收敛。但使用Admin方法后,模型不仅能够顺利收敛,而且在EU评分上相比标准的Transformer模型提高了2.5分,这证明了加深Transformer并进行合理初始化的可行性和有效性。
在一些领先的机器翻译模型中,Admin深层Transformer模型在上述两个数据集上的表现也达到了最先进的水平。以下的表格和图形进一步展示了实验结果:
图表:图(a)显示了模型在训练过程中的损失曲线,表明使用Admin初始化方法后,深层Transformer模型能够有效克服不收敛的问题。
图(b):展示了不同层数下,Admin + Transformer模型在验证集上的困惑度(Perplexity)变化,结果表明,随着模型层数的加深,困惑度显著下降,验证了深层模型的有效性。
4. 结论
本文验证了通过加深Transformer模型层数来提升机器翻译性能是可行的,并且使用Admin初始化方法成功地将Transformer模型的编码器扩展到60层,扩展到12层,在英法和英德两个数据集上,模型的EU分数提高了约2个点。