SAM-bilibili/readme.md

41 lines
1.4 KiB
Markdown
Raw Normal View History

2025-03-18 19:13:56 +08:00
## 开源协议
本项目采用 Apache License 2.0 开源协议,允许:
- 商业使用
- 修改代码
- 专利授权
- 私有使用
完整协议内容请查看 [LICENSE](LICENSE) 文件。
## 使用指南
### 环境准备
需要预先安装以下Python第三方库
- 网络请求库 requests
- 网页解析库 beautifulsoup4
- 随机请求头生成库 fake-useragent
- CSV处理库 csvkit
### 数据采集流程
1. 在项目主目录创建名为`targets.txt`的文本文件
2. 将需要采集的B站视频BV号逐行填入该文件示例格式参考工程内示例
3. 启动主程序文件开始自动采集
4. 程序运行完成后在data目录下查看结构化存储结果
### 结果查看
采集完成后的数据存储路径结构示例:
2025-03-18 19:17:36 +08:00
```
数据根目录
└─ 视频分区类别
2025-03-18 19:13:56 +08:00
├─ 全分区视频信息汇总表
└─ 视频BV号专属文件夹
├─ 含播放量的视频元数据文件
├─ 弹幕数据文件
└─ 评论数据文件
2025-03-18 19:17:36 +08:00
```
2025-03-18 19:13:56 +08:00
### 个性化设置
如需采集需要登录才能访问的视频内容,可在程序初始化时传入有效的网站身份凭证参数。采集间隔时间等参数可直接在源代码中调整相关配置项。
### 致谢
感谢[bilibili-API](https://github.com/SocialSisterYi/bilibili-API)项目提供的API接口使得本项目的开发更加简单。