2025-04-01 19:46:25 +08:00
2025-03-30 16:17:45 +08:00
2025-04-01 12:10:19 +08:00
2025-03-31 21:05:07 +08:00
2025-04-01 11:20:27 +08:00
2025-03-31 16:31:27 +08:00
2025-03-30 12:06:31 +08:00
2025-04-01 19:46:25 +08:00
2025-04-01 11:20:27 +08:00
2025-03-30 16:17:45 +08:00
2025-04-01 11:20:27 +08:00
2025-04-01 12:10:19 +08:00
2025-03-29 22:45:36 +08:00
2025-03-29 15:46:52 +08:00

数据处理

合并数据文件

1. 合并热门数据

  • 数据文件
    • 视频: hot_data/分区/info
    • up: hot_data/分区/up_info
    • 弹幕/评论: hot_data/分区/BV号/...
  • 单分区处理
    • 按bv号匹配视频对应up指标添加到info.csv
    • 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列到info.csv
    • 合并: 遍历.分区info文件创建总文件并给“视频荣誉”改名成“是否热门”并赋值为1

2. 合并非热数据

  • 同上并赋值为0

3. 合并两个文件

  • 根据URL获取封面
  • 按发布时间排序

4. 文本数据合并

  • 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本
  • 标签合并 (放一起整一个txt即可拉个词云了事)
  • 简介合并 (同上)

数据预处理

原合并文件+量化后文件两个文件

单独处理

  • 是否为系列 (标题关键词分析)(excel使用find函数即可)否0是1
  • 封面处理并量化

数据量化可以用excel实现)

  • up主uid输出uid位数越小表示号越老
  • up主性别 男0女1保密2
  • 播放量对数转换, 输出logV
  • 发布时间: 区分为0-6点6-12点12-18点18-24点四个时段依次赋值为1-4
  • 小分区映射到大分区,具体命名规则见文件
  • 是否为联投: 否0是1
  • 视频方向竖屏0横屏1
  • 视频分辨率: 360、720、1080、2k、4k、8k(近似匹配赋值为1-6
  • 视频类型搬运0自制1
  • 字幕: 无字幕为0剩下为1
  • 视频总时长输出小于60的之间的和大于600的赋值为123方便后续描述性分析
  • 弹幕情感评分=0.8snowNLP+0.2RoBERTa

删除不用指标

  • 发布时间等上述被处理过的指标(原播放量要保留)
  • 视频简介、标签
  • 调整顺序(基础信息放前面,其次是连续型变量,最后是分类变量)

数据清洗

  • 筛选极端弹幕情感评分,筛选出两种差值>0.3的人工检查
  • 缺失值处理(按总平均填入)
  • 去除异常值
Description
No description provided
Readme 62 MiB
Languages
Python 100%