2025-03-24 09:57:14 +08:00

2.4 KiB
Raw Blame History

预测建模

北京市空气质量指数预测推荐难度系数10

这个数据集是北京市2022年11月1日至2023年10月31日期间空气质量相关数据。 根据这个数据集,回答以下问题:

1研究单日内空气质量指数与各项指标的变化趋势这种趋势是否具有周期性

2简述各项指标间的相互关系。

3令2022年11月1日至2023年9月30日的空气质量数据为训练集剩余数据为测试集。基于训练集尝试使用两种不同的方法构建空气质量指数预测模型并在测试集上测试。比较所选模型的预测效果。

题目(1)

  1. 数据预处理将数据按小时分组计算每个小时各指标AQI、CO、NO2等的平均值。
  2. 可视化分析:绘制各指标小时均值的折线图,观察是否存在规律性波动(如早晚高峰)。
  3. 周期性检验:
    • 自相关函数ACF对AQI和各指标的时间序列计算ACF检查24小时或数据采样间隔的周期如每3小时一次则周期为8附近的峰值。

题目(2)

  1. 计算所有变量的Pearson/Spearman相关系数矩阵绘制热图。
  2. 关注污染物之间如PM2.5与CO、NO2的正相关性以及气象因素如风速Ff与PM2.5)的负相关性。
  3. 主成分分析PCA提取主成分分析哪些变量贡献最大揭示潜在关联。

题目(3)

  1. 数据划分:
    • 训练集2022-11-01至2023-09-30。
    • 测试集2023-10-01至2023-10-31。
  2. 特征工程
    • 时间特征:小时、星期几、月份。
    • 滞后特征如前1小时AQI需确保无未来数据泄漏
  3. 模型选择:
    1. 方法1SARIMA季节性ARIMA

      仅使用AQI历史数据参数通过ACF/PACF确定例如SARIMA(1,1,1)(1,1,1,8)假设每日8个时间点。 模型结构SARIMA是传统时间序列模型ARIMA的扩展通过引入季节性参数P, D, Q, s来捕捉数据的季节性规律。

    2. 方法2 XGBOOST 基于决策树的集成学习算法,通过梯度提升框架迭代优化多个弱分类器(树模型),最终组合成强预测模型。 使用多参数,能建模非线性关系

  4. 评估指标: MAE平均绝对误差、RMSE均方根误差、R²拟合优度
  5. 结果比较:
    • 对比两模型在测试集上的误差指标,分析优劣。
    • 可视化预测值与真实值的时间序列对比图。