statistics_model2025/dataDeal.md
2025-03-30 16:17:45 +08:00

42 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 数据处理
## 合并数据文件
### 1. 合并热门数据
- 数据文件
- 视频: hot_data/分区/info
- up: hot_data/分区/up_info
- 弹幕/评论: hot_data/分区/BV号/...
- 单分区处理
- 按bv号匹配视频对应up指标添加到info.csv
- 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列到info.csv
- 合并: 遍历分区info文件创建总文件并给“视频荣誉”改名成“是否热门”并赋值为1
### 2. 合并非热数据
- 同上并赋值为0
### 3. 合并两个文件
- 根据URL获取封面
- 按发布时间排序
### 4. 文本数据合并
- 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本
- 标签合并 (放一起整一个txt即可拉个词云了事)
- 简介合并 (同上)
## 数据预处理
原合并文件+量化后文件两个文件
### 单独处理
- 是否为系列 (标题关键词分析)(excel使用find函数即可)否0是1
- 封面处理并量化
### 数据量化可以用excel实现)
- up主uid输出uid位数越小表示号越老
- up主性别 男0女1保密2
- 播放量对数转换, 输出logV
- 发布时间: 区分为0-6点6-12点12-18点18-24点四个时段依次赋值为1-4
- 小分区映射到大分区,具体命名规则见[文件](FSR.xlsx)
- 是否为联投: 否0是1
- 视频方向竖屏0横屏1
- 视频分辨率: 360、720、1080、2k、4k、8k(近似匹配赋值为1-6
- 视频类型搬运0自制1
- 字幕: 无字幕为0剩下为1
- 视频总时长输出小于60的之间的和大于600的赋值为123方便后续描述性分析
### 删除不用指标
- 发布时间等上述被处理过的指标(原播放量要保留)
- 视频简介、标签
- 调整顺序(基础信息放前面,其次是连续型变量,最后是分类变量)