add:添加了完整数据处理方案

This commit is contained in:
Bairly 2025-03-30 15:39:22 +08:00
parent fe45cddb8c
commit 3425c8e8ba
4 changed files with 41 additions and 31 deletions

BIN
FSR.xlsx

Binary file not shown.

View File

@ -1,2 +1,2 @@
BV号,title,up主名称,up主UID,播放量,弹幕量,点赞量,投币量,收藏量,分享量,评论量,发布时间的timestamp,视频荣誉,发布时间,分区,标签,是否为联合投稿,视频方向,视频最高分辨率,视频类型,视频分p数,视频字幕,视频总时长,视频封面URL,简介,弹幕情感评分snowNLP
BV1ajXMYUE6S,“你心中的完美武器是?”,DirschH_,279763427,577793,273,23534,1219,6122,3654,1377,1742212105,[],2025-03-17 19:48:25,GMV,"['推荐宝藏游戏', '怪物猎人', '单机游戏', '怪物猎人荒野', '动作游戏', 'steam游戏']",False,横屏,2160x2160,自制,1,"[{'语言': '中文(自动翻译)', '字幕数量': [], '字幕URL': ''}]",44,http://i1.hdslb.com/bfs/archive/4ab46e0ea1710fb7aa0217a58558cda409990013.jpg,,0.5488210181959721
BV号,title,up主名称,up主UID,播放量,弹幕量,点赞量,投币量,收藏量,分享量,评论量,发布时间的timestamp,视频荣誉,发布时间,分区,标签,是否为联合投稿,视频方向,视频最高分辨率,视频类型,视频分p数,视频字幕,视频总时长,视频封面URL,简介,弹幕情感评分snowNLP,弹幕情感评分RoBERTa
BV1ajXMYUE6S,“你心中的完美武器是?”,DirschH_,279763427,577793,273,23534,1219,6122,3654,1377,1742212105,[],2025-03-17 19:48:25,GMV,"['推荐宝藏游戏', '怪物猎人', '单机游戏', '怪物猎人荒野', '动作游戏', 'steam游戏']",False,横屏,2160x2160,自制,1,"[{'语言': '中文(自动翻译)', '字幕数量': [], '字幕URL': ''}]",44,http://i1.hdslb.com/bfs/archive/4ab46e0ea1710fb7aa0217a58558cda409990013.jpg,,0.5488210181959721,0.5

1 BV号 title up主名称 up主UID 播放量 弹幕量 点赞量 投币量 收藏量 分享量 评论量 发布时间的timestamp 视频荣誉 发布时间 分区 标签 是否为联合投稿 视频方向 视频最高分辨率 视频类型 视频分p数 视频字幕 视频总时长 视频封面URL 简介 弹幕情感评分snowNLP 弹幕情感评分RoBERTa
2 BV1ajXMYUE6S “你心中的完美武器是?” DirschH_ 279763427 577793 273 23534 1219 6122 3654 1377 1742212105 [] 2025-03-17 19:48:25 GMV ['推荐宝藏游戏', '怪物猎人', '单机游戏', '怪物猎人荒野', '动作游戏', 'steam游戏'] False 横屏 2160x2160 自制 1 [{'语言': '中文(自动翻译)', '字幕数量': [], '字幕URL': ''}] 44 http://i1.hdslb.com/bfs/archive/4ab46e0ea1710fb7aa0217a58558cda409990013.jpg 0.5488210181959721 0.5

View File

@ -1,32 +1,42 @@
# 数据处理
3月26日 20:07 | 355字
- 合并数据文件
- 合并热门数据
- 数据文件
- 视频: hot_data/分区/info
- up: hot_data/分区/up_info
- 弹幕/评论: hot_data/分区/BV号/...
- 单分区处理
- 按bv号匹配视频对应up指标添加到info.csv
- 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列“affective_scores”到info.csv
- 合并: 遍历分区info文件创建总文件并给“视频荣誉”改名成“是否热门”并赋值为1
- 合并非热数据
- 同上并赋值为0
- 合并两个文件
- 根据URL获取封面
- 按发布时间排序
- 文本数据合并
- 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本
- 标签合并 (放一起整一个txt即可拉个词云了事)
- 简介合并 (同上)
- 数据预处理
- 是否为系列 (标题关键词分析)
- 数据量化
- 大小分区名给一下,映射到大分区
- 视频分辨率: 360、720、1080、2k、4k、8k
## 合并数据文件
### 1. 合并热门数据
- 数据文件
- 视频: hot_data/分区/info
- up: hot_data/分区/up_info
- 弹幕/评论: hot_data/分区/BV号/...
- 单分区处理
- 按bv号匹配视频对应up指标添加到info.csv
- 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列到info.csv
- 合并: 遍历分区info文件创建总文件并给“视频荣誉”改名成“是否热门”并赋值为1
### 2. 合并非热数据
- 同上并赋值为0
### 3. 合并两个文件
- 根据URL获取封面
- 按发布时间排序
### 4. 文本数据合并
- 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本
- 标签合并 (放一起整一个txt即可拉个词云了事)
- 简介合并 (同上)
## 数据预处理
原合并文件+量化后文件两个文件
### 单独处理
- 是否为系列 (标题关键词分析)(excel使用find函数即可)否0是1
- 封面处理并量化
- 删除不用指标
- up主uid、bv号
- 视频简介、标签
### 数据量化可以用excel实现)
- up主uid输出uid位数越小表示号越老
- up主性别 男0女1保密2
- 播放量对数转换, 输出logV
- 发布时间: 区分为0-6点6-12点12-18点18-24点四个时段依次赋值为1-4
- 小分区映射到大分区,具体命名规则见[文件](FSR.xlsx)
- 是否为联投: 否0是1
- 视频方向竖屏0横屏1
- 视频分辨率: 360、720、1080、2k、4k、8k(近似匹配赋值为1-6
- 视频类型搬运0自制1
- 字幕: 无字幕为0剩下为1
- 视频总时长输出小于60的之间的和大于600的赋值为123方便后续描述性分析
### 删除不用指标
- 发布时间等上述被处理过的指标(原播放量要保留)
- 视频简介、标签
- 调整顺序(基础信息放前面,其次是连续型变量,最后是分类变量)

Binary file not shown.