diff --git a/readme.md b/readme.md index 1aafdc1..88d4e85 100644 --- a/readme.md +++ b/readme.md @@ -1,3 +1,7 @@ +# 北京市空气质量预测数据分析 +该文档部分解读了建模结果,完整的分析报告请见[附件](./汇报文件/统计软件大作业论文-喻健凯,粟宇扬,姚熙.pdf)。 +主代码文件为 `Beijing_air_quality_prediction.ipynb`,数据文件为 `Beijing_air_quality_data.csv`。 +其余.py文件作为数据处理、分析、可视化等辅助函数文件。 ## 题目1 ### 结果分析: #### 折线图 diff --git a/readme.txt b/task.txt similarity index 100% rename from readme.txt rename to task.txt diff --git a/25春统计分析软件大作业-v1.0.docx b/汇报文档/25春统计分析软件大作业-v1.0.docx similarity index 100% rename from 25春统计分析软件大作业-v1.0.docx rename to 汇报文档/25春统计分析软件大作业-v1.0.docx diff --git a/汇报文档/air_quality_prediction.html b/汇报文档/air_quality_prediction.html new file mode 100644 index 0000000..59830f1 --- /dev/null +++ b/汇报文档/air_quality_prediction.html @@ -0,0 +1,9031 @@ + + + + + +air_quality_prediction + + + + + + + + + + + + +
+
+ +
+ +
+ + +
+
+ +
+ + +
+ + +
+ + +
+
+ +
+ + +
+ + +
+
+ +
+ +
+
+ +
+ + +
+
+ +
+ +
+ + +
+ + +
+ + +
+
+ + diff --git a/汇报文档/北京市空气质量指数预测分析.pptx b/汇报文档/北京市空气质量指数预测分析.pptx new file mode 100644 index 0000000..6205012 Binary files /dev/null and b/汇报文档/北京市空气质量指数预测分析.pptx differ diff --git a/汇报文档/统计软件大作业论文-喻健凯,粟宇扬,姚熙.pdf b/汇报文档/统计软件大作业论文-喻健凯,粟宇扬,姚熙.pdf new file mode 100644 index 0000000..9386380 Binary files /dev/null and b/汇报文档/统计软件大作业论文-喻健凯,粟宇扬,姚熙.pdf differ diff --git a/研究思路.md b/研究思路.md deleted file mode 100644 index a9f05b9..0000000 --- a/研究思路.md +++ /dev/null @@ -1,40 +0,0 @@ -# 预测建模 -北京市空气质量指数预测(推荐难度系数10) - -这个数据集是北京市2022年11月1日至2023年10月31日期间空气质量相关数据。 -根据这个数据集,回答以下问题: - -(1)研究单日内空气质量指数与各项指标的变化趋势,这种趋势是否具有周期性? - -(2)简述各项指标间的相互关系。 - -(3)令2022年11月1日至2023年9月30日的空气质量数据为训练集,剩余数据为测试集。基于训练集,尝试使用两种不同的方法构建空气质量指数预测模型,并在测试集上测试。比较所选模型的预测效果。 -## 题目(1) -1. 数据预处理:将数据按小时分组,计算每个小时各指标(AQI、CO、NO2等)的平均值。 -2. 可视化分析:绘制各指标小时均值的折线图,观察是否存在规律性波动(如早晚高峰)。 -3. 周期性检验: - - 自相关函数(ACF):对AQI和各指标的时间序列计算ACF,检查24小时(或数据采样间隔的周期,如每3小时一次则周期为8)附近的峰值。 -## 题目(2) -1. 计算所有变量的Pearson/Spearman相关系数矩阵,绘制热图。 -2. 关注污染物之间(如PM2.5与CO、NO2)的正相关性,以及气象因素(如风速Ff与PM2.5)的负相关性。 -3. 主成分分析(PCA):提取主成分,分析哪些变量贡献最大,揭示潜在关联。 -## 题目(3) -1. 数据划分: - - 训练集:2022-11-01至2023-09-30。 - - 测试集:2023-10-01至2023-10-31。 -2. 特征工程 - - 时间特征:小时、星期几、月份。 - - 滞后特征:如前1小时AQI(需确保无未来数据泄漏)。 -3. 模型选择: - 1) 方法1:SARIMA(季节性ARIMA) - - 仅使用AQI历史数据,参数通过ACF/PACF确定,例如SARIMA(1,1,1)(1,1,1,8)(假设每日8个时间点)。 - 模型结构:SARIMA是传统时间序列模型ARIMA的扩展,通过引入季节性参数(P, D, Q, s)来捕捉数据的季节性规律。 - 2) 方法2: XGBOOST - 基于决策树的集成学习算法,通过梯度提升框架迭代优化多个弱分类器(树模型),最终组合成强预测模型。 - 使用多参数,能建模非线性关系 -4. 评估指标: -MAE(平均绝对误差)、RMSE(均方根误差)、R²(拟合优度)。 -5. 结果比较: - - 对比两模型在测试集上的误差指标,分析优劣。 - - 可视化预测值与真实值的时间序列对比图。 \ No newline at end of file