32 lines
1.1 KiB
Markdown
32 lines
1.1 KiB
Markdown
![]() |
# 数据处理
|
|||
|
|
|||
|
3月26日 20:07 | 355字
|
|||
|
|
|||
|
- 合并数据文件
|
|||
|
- 合并热门数据
|
|||
|
- 数据文件
|
|||
|
- 视频: hot_data/分区/info
|
|||
|
- up: hot_data/分区/up_info
|
|||
|
- 弹幕/评论: hot_data/分区/BV号/...
|
|||
|
- 单分区处理
|
|||
|
- 按bv号匹配视频对应up指标,添加到info.csv
|
|||
|
- 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列“affective_scores”到info.csv
|
|||
|
- 合并: 遍历分区info文件创建总文件,并给“视频荣誉”改名成“是否热门”并赋值为1
|
|||
|
- 合并非热数据
|
|||
|
- 同上,并赋值为0
|
|||
|
- 合并两个文件
|
|||
|
- 根据URL获取封面
|
|||
|
- 按发布时间排序
|
|||
|
- 文本数据合并
|
|||
|
- 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本
|
|||
|
- 标签合并 (放一起整一个txt即可,拉个词云了事)
|
|||
|
- 简介合并 (同上)
|
|||
|
- 数据预处理
|
|||
|
- 是否为系列 (标题关键词分析)
|
|||
|
- 数据量化
|
|||
|
- 大小分区名给一下,映射到大分区
|
|||
|
- 视频分辨率: 360、720、1080、2k、4k、8k
|
|||
|
- 封面处理并量化
|
|||
|
- 删除不用指标
|
|||
|
- up主uid、bv号
|
|||
|
- 视频简介、标签
|