自然语言处理领域的重大进步——大模型中的预训练语言模型解析
在自然语言处理(NLP)领域,预训练语言模型(PLM)的进步可谓是举足轻重。其中,Feature-based approaches与Fine-Tuning approaches是两大主流技术路径。Perplexity(常简称为PPL)困惑度作为一个关键的评估指标,对于评价语言模型性能具有不可忽视的作用。接下来,让我们深入探讨这两大方法和PPL困惑度的详细内容。
一、关于Feature-based approaches(基于特征的方法)
概述:此方法利用预训练模型所提取的特征作为特定任务模型的输入。预训练模型常作为特征提取器,其输出被视为后续任务的特征输入。
代表模型:早期,Word2Vec凭借其词向量的分布式表示增强了NLP任务的性能。基于循环网络(RNN)的预训练模型也是这一方法的重要代表。
二、关于Fine-Tuning approaches(微调方法)
概述:微调方法是在预训练模型的基础上,针对特定任务的数据进行进一步的训练,使模型更好地适应新任务。这通常涉及对模型部分或全部参数的调整。
代表模型:BERT与GPT系列模型就是微调方法的典型实例。BERT通过在大规模无标签语料上的预训练,学习到了通用且上下文感知的单词表示。而GPT系列则采用了生成式架构,能够生成连贯的文本。
微调方式的详解:
1. 资源高效型微调:仅更新输出层,保持其余预训练参数不变。这种方式较为节省资源,但可能在性能上有所妥协。
2. 资源密集型微调:对预训练模型的所有层进行微调,以追求更好的性能。这需要更多的计算资源,但通常能获得卓越的建模效果。
3. 参数高效微调技术:包括蒸馏、适配器训练和渐进收缩等技术。这些技术通过训练小模型或添加小型网络来模仿大模型的行为,从而降低计算成本。
三、PPL困惑度的解读
定义:对于语言模型而言,困惑度是评估其预测样本能力的一种标准,表示序列的以e为底的平均负对数似然。
计算方式:通过计算模型在测试集上的负对数似然值的平均数,并进行指数化处理来得到困惑度。
意义:较低的困惑度表明模型对其预测具有较高的确定性,即模型能更准确地预测输入序列的下一个单词。困惑度是衡量语言模型性能的重要尺度之一,有助于了解模型的当前性能并指明改进方向。