时序数据处理的重要性与策略
尽管现今传感器技术和网络发展迅速,但在获取真实时序数据时,由于人为操作失误或设备故障等原因,仍会存在大量的缺失值、噪音等异常数据。这些“脏数据”为算法模型的训练带来了不小的挑战。时序数据预处理成为了一个必要的环节。
时序数据预处理的主要目的是对各种“脏数据”进行处理,使其变得干净、标准和连续,从而达到数据质量评价的标准,为数据挖掘和预测等任务提供支持。整个预处理过程可以细分为以下几个主要步骤:时序数据清洗、时序数据整合、时序数据规约和时序数据变换。
时序数据清洗
时序数据清洗的核心理念是解决由缺失、异常和噪声造成的数据不准确和不一致问题。原始时序数据中的异常具有误导性,会妨碍信息的提取并导致错误的时序预测结果。需要在预处理阶段采取措施解决这些异常。例如,学者们通过数据相关性补全后,结合改进的模糊C-均值聚类完成物联网时序大数据的异常检测。
时序数据集成
时序数据集成是将多个传感器中的时序数据合并存放到同一数据存储的过程。由于行业繁多,获取到的时序数据多源且无序,因此时序数据集成显得尤为重要。有的学者采用时空聚类的多源异构时序数据集成方法,对不同步的混乱数据进行协调处理,实现时序数据的同步集成。
时序数据归约
在海量时序数据进行数据分析时,不必要的数据规模会造成资源的浪费。时序数据规约的目的就是在保证有用信息不减少的情况下,尽可能地减少数据分析量,同时又不影响分析结果。比如,有的学者采用离散余弦变换进行维归约,还有的采用基于Shap的方法对风电功率特征变量进行降维分析。
时序数据变换
时序数据变换的主要作用是将时序数据转换为适合分析的形式,其中最关键的是非平稳时间序列的变换。例如,可以将时间序列转换为数据序列并计算其全局统计属性,专门用于非平稳时间序列的分析。
在时间序列数据的增强方法中,几何变换是一种简单常用的方法。它包括翻转、缩放、窗口规整等操作。虽然这些方法相对简单直观,易于结合具体任务分析操作的合理性,但它们往往只对单个序列进行操作,未考虑整个数据集的分布特点。
在频率域也可以实现类似的数据增强操作。例如在信号的对数梅尔频谱上进行时间规整或掩蔽操作等。这些方法生成的效率更高,且能利用序列本身的性质进行操作。不过同样地,它们也未充分考虑数据集的整体分布特性。
至于其他的增强方法如添加噪声等也是常见的手段。例如在数值型序列数据中添加高斯噪声被认为是可以防止机器学习模型过拟合的有效措施。还有诸如SpecAugment等方法是在时间-频率域上进行的数据增强操作,它们在语音识别任务上已经证明了其有效性。