# 数据处理 ## 合并数据文件 ### 1. 合并热门数据 - 数据文件 - 视频: hot_data/分区/info - up: hot_data/分区/up_info - 弹幕/评论: hot_data/分区/BV号/... - 单分区处理 - 按bv号匹配视频对应up指标,添加到info.csv - 依序读取弹幕输出情感评分,(如果顺序没变的话) 直接添加一列到info.csv - 合并: 遍历.分区info文件创建总文件,并给“视频荣誉”改名成“是否热门”并赋值为1 ### 2. 合并非热数据 - 同上,并赋值为0 ### 3. 合并两个文件 - 根据URL获取封面 - 按发布时间排序 ### 4. 文本数据合并 - 评论文本 (仅热门): 直接合并成列,人工筛选高质量文本 - 标签合并 (放一起整一个txt即可,拉个词云了事) - 简介合并 (同上) ## 数据预处理 原合并文件+量化后文件两个文件 ### 单独处理 - 是否为系列 (标题关键词分析)(excel使用find函数即可)(否0是1) - 封面处理并量化 ### 数据量化(可以用excel实现) - up主uid:输出uid位数(越小表示号越老) - up主性别: 男0,女1,保密2 - 播放量对数转换, 输出logV - 发布时间: 区分为0-6点,6-12点,12-18点,18-24点四个时段,依次赋值为1-4 - 小分区映射到大分区,具体命名规则见[文件](FSR.xlsx) - 是否为联投: 否0,是1 - 视频方向:竖屏0,横屏1 - 视频分辨率: 360、720、1080、2k、4k、8k(近似匹配),赋值为1-6 - 视频类型:搬运0,自制1 - 字幕: 无字幕为0,剩下为1 - 视频总时长:输出小于60的,之间的,和大于600的,赋值为1,2,3,方便后续描述性分析 - 弹幕情感评分=0.8*snowNLP+0.2*RoBERTa ### 删除不用指标 - 发布时间等上述被处理过的指标(原播放量要保留) - 视频简介、标签 - 调整顺序(基础信息放前面,其次是连续型变量,最后是分类变量) ### 数据清洗 - 筛选极端弹幕情感评分,筛选出两种差值>0.3的人工检查 - 缺失值处理(按总平均填入) - 去除异常值