32 lines
1.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 数据处理
3月26日 20:07 | 355字
- 合并数据文件
- 合并热门数据
- 数据文件
- 视频: hot_data/分区/info
- up: hot_data/分区/up_info
- 弹幕/评论: hot_data/分区/BV号/...
- 单分区处理
- 按bv号匹配视频对应up指标添加到info.csv
- 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列“affective_scores”到info.csv
- 合并: 遍历分区info文件创建总文件并给“视频荣誉”改名成“是否热门”并赋值为1
- 合并非热数据
- 同上并赋值为0
- 合并两个文件
- 根据URL获取封面
- 按发布时间排序
- 文本数据合并
- 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本
- 标签合并 (放一起整一个txt即可拉个词云了事)
- 简介合并 (同上)
- 数据预处理
- 是否为系列 (标题关键词分析)
- 数据量化
- 大小分区名给一下,映射到大分区
- 视频分辨率: 360、720、1080、2k、4k、8k
- 封面处理并量化
- 删除不用指标
- up主uid、bv号
- 视频简介、标签