## 外在属性指标 ### 1.基础流量指标 需要视频BV号。 - [x] 播放量 - [x] 点赞量 - [x] 投币量 - [x] 收藏量 - [x] 分享量 - [x] 评论数 - [x] 弹幕数 ### 2.up画像指标 需要up主UID。 - [x] 粉丝数 - [x] 总获赞数 - [x] 投稿数 - [ ] 近一个月投稿数 ### 3.衍生指标 - [x] 点赞率=点赞量/播放量 - [x] 互动率=(点赞量+投币量+收藏量+分享量+评论数+弹幕数)/播放量 - [x] 外溢系数=分享量/收藏量(反映内容外溢性) ## 内在属性指标 ### 1.内容属性指标 - [x] 时长 - [x] 发布时间 - [x] 标题 - [x] 分区 - [x] 标签 - [x] 最高清晰度 ### 2.内容结构指标 - [ ] 是否分章节 - [x] 是否分P - [ ] 是否有字幕 ## 特殊指标(可能无法直接爬取,需特殊处理) 同时需要人工智能和能工智人。 ### 1.较易处理 - [x] 是否为联合投稿(Sy:这个可以直接获取,没这么麻烦) - [ ] 是否为系列作品(标题关键词分析) - [x] 原创or搬运(只能投一个币为搬运)(Sy:这个也可以直接获取,没这么麻烦) - [x] 横屏or竖屏(Sy:这个还是可以直接获取,没这么麻烦) - [ ] 是否进入热门(作为机器学习的预测目标) ### 2.较难处理 产生较大数据量。 - [ ] 标题原创性(见DS代码) - [ ] 标签区分度(见DS代码) - [ ] 弹幕情感倾向得分(单独处理) - [ ] 封面(图片分析可以单独写一章了) ## 展望(即做不了的) 鉴于标题吸引力、剪辑质量、音频质量、封面设计、BGM体验等因素涉及主观判断, 平均播放时长这种B站几年没做外显(没法算完播率)无法直接获取, 领域垂直度等指标很难算, 点击率等指标爬不到, 我们希望后来者能克服这些困难进一步分析(如利用问卷等), 也可以考虑时间序列等因素构建更复杂的模型。 (总之我们不做)