Beijing_air_quality_prediction/研究思路.md

# 预测建模
北京市空气质量指数预测（推荐难度系数10）

这个数据集是北京市2022年11月1日至2023年10月31日期间空气质量相关数据。
根据这个数据集，回答以下问题：

（1）研究单日内空气质量指数与各项指标的变化趋势，这种趋势是否具有周期性？

（2）简述各项指标间的相互关系。

（3）令2022年11月1日至2023年9月30日的空气质量数据为训练集，剩余数据为测试集。基于训练集，尝试使用两种不同的方法构建空气质量指数预测模型，并在测试集上测试。比较所选模型的预测效果。
## 题目(1)
1. 数据预处理：将数据按小时分组，计算每个小时各指标（AQI、CO、NO2等）的平均值。
2. 可视化分析：绘制各指标小时均值的折线图，观察是否存在规律性波动（如早晚高峰）。
3. 周期性检验：
   - 自相关函数（ACF）：对AQI和各指标的时间序列计算ACF，检查24小时（或数据采样间隔的周期，如每3小时一次则周期为8）附近的峰值。
## 题目(2)
1. 计算所有变量的Pearson/Spearman相关系数矩阵，绘制热图。
2. 关注污染物之间（如PM2.5与CO、NO2）的正相关性，以及气象因素（如风速Ff与PM2.5）的负相关性。
3. 主成分分析（PCA）：提取主成分，分析哪些变量贡献最大，揭示潜在关联。
## 题目(3)
1. 数据划分：
   - 训练集：2022-11-01至2023-09-30。
   - 测试集：2023-10-01至2023-10-31。
2. 特征工程
   - 时间特征：小时、星期几、月份。
   - 滞后特征：如前1小时AQI（需确保无未来数据泄漏）。
3. 模型选择：
   1) 方法1：SARIMA（季节性ARIMA）
   
      仅使用AQI历史数据，参数通过ACF/PACF确定，例如SARIMA(1,1,1)(1,1,1,8)（假设每日8个时间点）。
      模型结构：SARIMA是传统时间序列模型ARIMA的扩展，通过引入季节性参数（P, D, Q, s）来捕捉数据的季节性规律。
   2) 方法2： XGBOOST
      基于决策树的集成学习算法，通过梯度提升框架迭代优化多个弱分类器（树模型），最终组合成强预测模型。
      使用多参数，能建模非线性关系
4. 评估指标：
MAE（平均绝对误差）、RMSE（均方根误差）、R²（拟合优度）。
5. 结果比较：
   - 对比两模型在测试集上的误差指标，分析优劣。
   - 可视化预测值与真实值的时间序列对比图。