2025-03-30 16:17:45 +08:00
2025-03-30 16:17:45 +08:00
2025-03-30 16:17:45 +08:00
2025-03-29 22:45:36 +08:00
2025-03-29 22:45:36 +08:00
2025-03-30 12:06:31 +08:00
2025-03-30 16:17:45 +08:00
2025-03-30 16:17:45 +08:00
2025-03-30 16:17:45 +08:00
2025-03-30 12:41:12 +08:00
2025-03-29 22:45:36 +08:00
2025-03-30 16:17:45 +08:00
2025-03-29 22:45:36 +08:00
2025-03-29 15:46:52 +08:00

数据处理

3月26日 20:07 | 355字

  • 合并数据文件
    • 合并热门数据
      • 数据文件
        • 视频: hot_data/分区/info
        • up: hot_data/分区/up_info
        • 弹幕/评论: hot_data/分区/BV号/...
      • 单分区处理
        • 按bv号匹配视频对应up指标添加到info.csv
        • 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列“affective_scores”到info.csv
        • 合并: 遍历分区info文件创建总文件并给“视频荣誉”改名成“是否热门”并赋值为1
    • 合并非热数据
      • 同上并赋值为0
    • 合并两个文件
      • 根据URL获取封面
      • 按发布时间排序
    • 文本数据合并
      • 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本
      • 标签合并 (放一起整一个txt即可拉个词云了事)
      • 简介合并 (同上)
  • 数据预处理
    • 是否为系列 (标题关键词分析)
  • 数据量化
    • 大小分区名给一下,映射到大分区
    • 视频分辨率: 360、720、1080、2k、4k、8k
    • 封面处理并量化
  • 删除不用指标
    • up主uid、bv号
    • 视频简介、标签
Description
No description provided
Readme 62 MiB
Languages
Python 100%