检查完数据质量问题,就要对发现的必要问题进行处理了。其中最重要的问题就是数据缺失或异常。
对于发现的数据缺失或异常,如果其样本量不大,而且可以利用时间和空间关系进行插补的话,那么还算比较好的情况,也是我们比较期望出现并能解决的情况。如果数据缺失或异常的样本量比较大,或者其它原因导致无法进行合理插补以弥补此类数据质量问题,那么我们很可能要被迫放弃这些数据,其后果是可能导致后续工作受到严重限制甚至无法进行,这是我们最头疼的清醒,但愿不要出现。
在处理完数据质量问题之后,我们要做的工作就是对数据进行必要的转换,也就是进一步信息化,以便后续的模型构建和训练工作。因此,这一步要做的工作是非常重要的,如果没有做好必要的、合理的数据转换工作,后续工作可能就无法取得比较理想的结果。
以天气预报信息为例,风向(东南西北风)可以转换为数字标号或者360度,风力(微风、3-4级)可以转换为数字标号或者特定风速数值m/s,天气现象(晴、多云、阴、雨雪等等)则通常转换为0、1标签(0表示没出现,1表示有出现)。这些是原始信息的基本转换工作。
还有一部分转换工作在于从专业角度分析影响结果的哪些特征可以被提取出来。以我们现在的空气质量预报来说,天气条件不仅仅是当时的数值,天气的变化信息反而更为重要,这就需要我们把他们从原始数据中萃取出来。比如,24小时的气温和气压变化、一天当中气温的日较差、风向的变化等等,它们对于空气质量来说,都可能是重要的影响的因素。换句话说,空气质量这样或者那样,伴随着的是这样或者那样的天气特征。因此,这一部分工作,就是机器学习中所说的特征工程。