机器学习与环境气象:空气质量预报:3建模、训练和评估

July 2017 · 1 minute read

Python有很多机器学习方面的软件包(scikit-learn、TensorFlow、Keras等),对于我们应用于构建和训练模型都是非常方便的,官方文档就是很好的示例。工具都有了,剩下的问题就是具体问题具体分析,从理论角度选取合适的模型和方案,然后尝试训练和评估模型的表现,最后获得可以用于日常生产的模型和方案。

拿我们现在的空气质量预报问题来说,对于某一种污染物或者空气质量指数AQI,其伴随的天气特征是多元的,其关系可以是线性的也可以是非线性的。从适用的模型上来说,人工神经网络模型、基于统计学的广义线性模型、基于决策树的集合方法,都可以尝试。从适用的方案上来说,不同时空(不同地区、不同季节)匹配的条件下,空气质量与天气条件的关系也会不同,因此,对于不同地区、不同季节,应当分别进行建模、训练和评估。

在实际运用于生产业务的时候,气象上还通常采用滚动预报的方法,比如每天用之前一段时间的数据进行建模并用于未来若干天的预报。

预报效果怎么样,模型和方案的评估就很重要。评估的对象取决于所关注的目标。一般,通过统计分析正确率、漏报率、空报率、均方根误差(RMSE)、平均绝对误差(MAE)等特征,可以做出较为全面的评估。