2025-03-24 10:16:13 +08:00
2025-03-19 09:30:30 +08:00
2025-03-23 22:32:02 +08:00
2025-03-18 19:13:56 +08:00
2025-03-24 10:16:13 +08:00
2025-03-18 19:21:10 +08:00
2025-03-23 22:32:02 +08:00
2025-03-23 22:32:02 +08:00
2025-03-19 09:30:30 +08:00

开源协议

本项目采用 Apache License 2.0 开源协议,允许:

  • 商业使用
  • 修改代码
  • 专利授权
  • 私有使用

完整协议内容请查看 LICENSE 文件。

使用指南

环境准备

需要预先安装以下Python第三方库

  • 网络请求库 requests
  • 网页解析库 beautifulsoup4
  • 随机请求头生成库 fake-useragent
  • CSV处理库 csvkit

数据采集流程

  1. 在项目主目录创建名为targets.txt的文本文件
  2. 将需要采集的B站视频BV号逐行填入该文件示例格式参考工程内示例
  3. 启动主程序文件开始自动采集
  4. 程序运行完成后在data目录下查看结构化存储结果

结果查看

采集完成后的数据存储路径结构示例:

数据根目录
  └─ 视频分区类别
     ├─ 全分区视频信息汇总表
     └─ 视频BV号专属文件夹
        ├─ 含播放量的视频元数据文件
        ├─ 弹幕数据文件
        └─ 评论数据文件

个性化设置

如需采集需要登录才能访问的视频内容,可在程序初始化时传入有效的网站身份凭证参数。采集间隔时间等参数可直接在源代码中调整相关配置项。

致谢

感谢bilibili-API项目提供的API接口使得本项目的开发更加简单。

Description
A spider for bilibili
Readme 126 KiB
Languages
Python 100%