1. 气候预测的关键科学问题和方法
- 关键科学问题
- 气候系统:复杂的、高度非线性的、开放的巨系统
- 气候系统的可预报性:外部强迫和内部过程
- 预测方法
- 统计学:统计气候学
- 数值模式:气候系统物理模型的数学描述和计算机应用
- 动力统计:数值模式 + 统计学
- 机器学习额
- 机器学习是让计算机程序随着经验积累自动提高性能
- 机器学习与统计学的联系和区别
2. 机器学习 Vs 统计学
- 统计学和机器学习的文化差异和本质区别
- 统计学更关心模型的可解释性
更多是关于问题本质的一个个检验,
目标是建立一个可以解释的问题的模型,
然而很多问题的复杂性使得严谨的统计模型无法被构建出来。
- 机器学习更关心模型的预测能力
目标是搭建一套高效可靠的系统,
能够持续的预测未来并且稳定的工作,
即使这种预测缺乏完美的解释。
- 机器学习与统计学是互补的吗?
- http://synchuman.baijia.baidu.com/article/283931
3. 机器学习的组合方法
- 组合的目的
- 将若干基于某种算法的估计结合起来,从而提高泛化能力
- 组合方法的分类和举例
- 均值法(Averaging methods)
- 装袋(Bagging)
- 随机森林(Forests of randomized trees)
- 提升法(Boosting methods)
- 自适应提升(AdaBoost)
- 梯度树提升(Gradient Tree Boosting)
4. 中国降水的气候预测试验
- 基础数据
- 中国 160 个国际气候交换站 1951 年 1 月至今逐月降水量
- 百项气候系统指数集:88 项大气环流指数、26 项海温指数、16 项其他指数
- 关键技术:以夏季(JJA)降水量预测为例
- 设定预测目标
- 以各站当年夏季降水量为原始目标
- 以 1981-2010 为气候基准期,计算历年夏季降水量距平百分率
- 以某种标准将降水量划分为若干等级作为预测目标 Y
- 预测因子筛选
- 以前一年 7 月至当年 4 月各项气候系统指数为候选因子
- 计算 Pearson 相关系数和 Spearman 相关系数,并进行显著性检验
- 通过显著性检验的因子构成预测因子 X
- 组合方法和交叉验证
- 构建组合分类器
- 均值法:Bagging, RandomForest, ExtraTrees
- 提升法:AdaBoost, GradientBoosting
- 交叉验证(分类器性能评价)
- 样本时段:1951-2010 共 60 年
- 迭代器:采用 Stratified k-fold
- 计算交叉验证得分 S
- S 减去气候概率,即为预测技巧得分
- 业务化方案
- 每年年初开始自动发布当年夏季降水量预测
- 单站预测和区域分布图均可自动化制作
- 组合方法同时可以预测出单站各降水等级出现的概率