基于机器学习的组合方法的气候预测

1. 气候预测的关键科学问题和方法

- 关键科学问题
    - 气候系统：复杂的、高度非线性的、开放的巨系统
    - 气候系统的可预报性：外部强迫和内部过程
- 预测方法
    - 统计学：统计气候学
    - 数值模式：气候系统物理模型的数学描述和计算机应用
    - 动力统计：数值模式 + 统计学
    - 机器学习额
        - 机器学习是让计算机程序随着经验积累自动提高性能
        - 机器学习与统计学的联系和区别

2. 机器学习 Vs 统计学

- 统计学和机器学习的文化差异和本质区别
    - 统计学更关心模型的可解释性
        更多是关于问题本质的一个个检验，
        目标是建立一个可以解释的问题的模型，
        然而很多问题的复杂性使得严谨的统计模型无法被构建出来。
    - 机器学习更关心模型的预测能力
        目标是搭建一套高效可靠的系统，
        能够持续的预测未来并且稳定的工作，
        即使这种预测缺乏完美的解释。
- 机器学习与统计学是互补的吗？
    - http://synchuman.baijia.baidu.com/article/283931

3. 机器学习的组合方法

- 组合的目的
    - 将若干基于某种算法的估计结合起来，从而提高泛化能力
- 组合方法的分类和举例
    - 均值法（Averaging methods）
        - 装袋（Bagging）
        - 随机森林（Forests of randomized trees）
    - 提升法（Boosting methods）
        - 自适应提升（AdaBoost）
        - 梯度树提升（Gradient Tree Boosting）

4. 中国降水的气候预测试验

- 基础数据
    - 中国 160 个国际气候交换站 1951 年 1 月至今逐月降水量
    - 百项气候系统指数集：88 项大气环流指数、26 项海温指数、16 项其他指数
- 关键技术：以夏季（JJA）降水量预测为例
    - 设定预测目标
        - 以各站当年夏季降水量为原始目标
        - 以 1981-2010 为气候基准期，计算历年夏季降水量距平百分率
        - 以某种标准将降水量划分为若干等级作为预测目标 Y
    - 预测因子筛选
        - 以前一年 7 月至当年 4 月各项气候系统指数为候选因子
        - 计算 Pearson 相关系数和 Spearman 相关系数，并进行显著性检验
        - 通过显著性检验的因子构成预测因子 X
    - 组合方法和交叉验证
        - 构建组合分类器
            - 均值法：Bagging, RandomForest, ExtraTrees
            - 提升法：AdaBoost, GradientBoosting
        - 交叉验证（分类器性能评价）
            - 样本时段：1951-2010 共 60 年
            - 迭代器：采用 Stratified k-fold
            - 计算交叉验证得分 S
            - S 减去气候概率，即为预测技巧得分
    - 业务化方案
        - 每年年初开始自动发布当年夏季降水量预测
        - 单站预测和区域分布图均可自动化制作
        - 组合方法同时可以预测出单站各降水等级出现的概率