## 开源协议 本项目采用 Apache License 2.0 开源协议,允许: - 商业使用 - 修改代码 - 专利授权 - 私有使用 完整协议内容请查看 [LICENSE](LICENSE) 文件。 ## 使用指南 ### 环境准备 需要预先安装以下Python第三方库: - 网络请求库 requests - 网页解析库 beautifulsoup4 - 随机请求头生成库 fake-useragent - CSV处理库 csvkit ### 数据采集流程 1. 在项目主目录创建名为`targets.txt`的文本文件 2. 将需要采集的B站视频BV号逐行填入该文件(示例格式参考工程内示例) 3. 启动主程序文件开始自动采集 4. 程序运行完成后,在data目录下查看结构化存储结果 ### 结果查看 采集完成后的数据存储路径结构示例: ``` 数据根目录 └─ 视频分区类别 ├─ 全分区视频信息汇总表 └─ 视频BV号专属文件夹 ├─ 含播放量的视频元数据文件 ├─ 弹幕数据文件 └─ 评论数据文件 ``` ### 个性化设置 如需采集需要登录才能访问的视频内容,可在程序初始化时传入有效的网站身份凭证参数。采集间隔时间等参数可直接在源代码中调整相关配置项。 ### 致谢 感谢[bilibili-API](https://github.com/SocialSisterYi/bilibili-API-collect)项目提供的API接口,使得本项目的开发更加简单。