diff --git a/FSR.xlsx b/FSR.xlsx index d0c8389..38139f6 100644 Binary files a/FSR.xlsx and b/FSR.xlsx differ diff --git a/hot_data/GMV/info.csv b/hot_data/GMV/info.csv index 85e1767..0ea1674 100644 --- a/hot_data/GMV/info.csv +++ b/hot_data/GMV/info.csv @@ -1,2 +1,2 @@ -BV号,title,up主名称,up主UID,播放量,弹幕量,点赞量,投币量,收藏量,分享量,评论量,发布时间的timestamp,视频荣誉,发布时间,分区,标签,是否为联合投稿,视频方向,视频最高分辨率,视频类型,视频分p数,视频字幕,视频总时长,视频封面URL,简介,弹幕情感评分snowNLP -BV1ajXMYUE6S,“你心中的完美武器是?”,DirschH_,279763427,577793,273,23534,1219,6122,3654,1377,1742212105,[],2025-03-17 19:48:25,GMV,"['推荐宝藏游戏', '怪物猎人', '单机游戏', '怪物猎人荒野', '动作游戏', 'steam游戏']",False,横屏,2160x2160,自制,1,"[{'语言': '中文(自动翻译)', '字幕数量': [], '字幕URL': ''}]",44,http://i1.hdslb.com/bfs/archive/4ab46e0ea1710fb7aa0217a58558cda409990013.jpg,,0.5488210181959721 +BV号,title,up主名称,up主UID,播放量,弹幕量,点赞量,投币量,收藏量,分享量,评论量,发布时间的timestamp,视频荣誉,发布时间,分区,标签,是否为联合投稿,视频方向,视频最高分辨率,视频类型,视频分p数,视频字幕,视频总时长,视频封面URL,简介,弹幕情感评分snowNLP,弹幕情感评分RoBERTa +BV1ajXMYUE6S,“你心中的完美武器是?”,DirschH_,279763427,577793,273,23534,1219,6122,3654,1377,1742212105,[],2025-03-17 19:48:25,GMV,"['推荐宝藏游戏', '怪物猎人', '单机游戏', '怪物猎人荒野', '动作游戏', 'steam游戏']",False,横屏,2160x2160,自制,1,"[{'语言': '中文(自动翻译)', '字幕数量': [], '字幕URL': ''}]",44,http://i1.hdslb.com/bfs/archive/4ab46e0ea1710fb7aa0217a58558cda409990013.jpg,,0.5488210181959721,0.5 diff --git a/readme.md b/readme.md index 63a8d62..33b5dc2 100644 --- a/readme.md +++ b/readme.md @@ -1,32 +1,42 @@ # 数据处理 -3月26日 20:07 | 355字 - -- 合并数据文件 - - 合并热门数据 - - 数据文件 - - 视频: hot_data/分区/info - - up: hot_data/分区/up_info - - 弹幕/评论: hot_data/分区/BV号/... - - 单分区处理 - - 按bv号匹配视频对应up指标,添加到info.csv - - 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列“affective_scores”到info.csv - - 合并: 遍历分区info文件创建总文件,并给“视频荣誉”改名成“是否热门”并赋值为1 - - 合并非热数据 - - 同上,并赋值为0 - - 合并两个文件 - - 根据URL获取封面 - - 按发布时间排序 - - 文本数据合并 - - 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本 - - 标签合并 (放一起整一个txt即可,拉个词云了事) - - 简介合并 (同上) -- 数据预处理 - - 是否为系列 (标题关键词分析) -- 数据量化 - - 大小分区名给一下,映射到大分区 - - 视频分辨率: 360、720、1080、2k、4k、8k +## 合并数据文件 +### 1. 合并热门数据 +- 数据文件 + - 视频: hot_data/分区/info + - up: hot_data/分区/up_info + - 弹幕/评论: hot_data/分区/BV号/... +- 单分区处理 + - 按bv号匹配视频对应up指标,添加到info.csv + - 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列到info.csv + - 合并: 遍历分区info文件创建总文件,并给“视频荣誉”改名成“是否热门”并赋值为1 +### 2. 合并非热数据 +- 同上,并赋值为0 +### 3. 合并两个文件 +- 根据URL获取封面 +- 按发布时间排序 +### 4. 文本数据合并 +- 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本 +- 标签合并 (放一起整一个txt即可,拉个词云了事) +- 简介合并 (同上) +## 数据预处理 +原合并文件+量化后文件两个文件 +### 单独处理 + - 是否为系列 (标题关键词分析)(excel使用find函数即可)(否0是1) - 封面处理并量化 -- 删除不用指标 - - up主uid、bv号 - - 视频简介、标签 \ No newline at end of file +### 数据量化(可以用excel实现) + - up主uid:输出uid位数(越小表示号越老) + - up主性别: 男0,女1,保密2 + - 播放量对数转换, 输出logV + - 发布时间: 区分为0-6点,6-12点,12-18点,18-24点四个时段,依次赋值为1-4 + - 小分区映射到大分区,具体命名规则见[文件](FSR.xlsx) + - 是否为联投: 否0,是1 + - 视频方向:竖屏0,横屏1 + - 视频分辨率: 360、720、1080、2k、4k、8k(近似匹配),赋值为1-6 + - 视频类型:搬运0,自制1 + - 字幕: 无字幕为0,剩下为1 + - 视频总时长:输出小于60的,之间的,和大于600的,赋值为1,2,3,方便后续描述性分析 +### 删除不用指标 + - 发布时间等上述被处理过的指标(原播放量要保留) + - 视频简介、标签 + - 调整顺序(基础信息放前面,其次是连续型变量,最后是分类变量) \ No newline at end of file diff --git a/~$FSR.xlsx b/~$FSR.xlsx deleted file mode 100644 index cdc26a9..0000000 Binary files a/~$FSR.xlsx and /dev/null differ