2.0 KiB
2.0 KiB
外在属性指标
1.基础流量指标
需要视频BV号。
- 播放量
- 点赞量
- 投币量
- 收藏量
- 分享量
- 评论数
- 弹幕数
2.up画像指标
需要up主UID。
- 粉丝数
- 总获赞数
- 投稿数
- 近一个月投稿数
3.衍生指标
- 点赞率=点赞量/播放量
- 互动率=(点赞量+投币量+收藏量+分享量+评论数+弹幕数)/播放量
- 外溢系数=分享量/收藏量(反映内容外溢性)
内在属性指标
1.内容属性指标
- 时长
- 发布时间
- 标题
- 分区
- 标签
- 最高清晰度
2.内容结构指标
- 是否分章节
- 是否分P
- 是否有字幕
特殊指标(可能无法直接爬取,需特殊处理)
同时需要人工智能和能工智人。
1.较易处理
- 是否为联合投稿(Sy:这个可以直接获取,没这么麻烦)
- 是否为系列作品(标题关键词分析)
- 原创or搬运(只能投一个币为搬运)(Sy:这个也可以直接获取,没这么麻烦)
- 横屏or竖屏(Sy:这个还是可以直接获取,没这么麻烦)
- 是否进入热门(作为机器学习的预测目标)
2.较难处理
产生较大数据量。
- 标题原创性(见DS代码)
- 标签区分度(见DS代码)
- 弹幕情感倾向得分(单独处理)
- 封面(图片分析可以单独写一章了)
展望(即做不了的)
鉴于标题吸引力、剪辑质量、音频质量、封面设计、BGM体验等因素涉及主观判断, 平均播放时长这种B站几年没做外显(没法算完播率)无法直接获取, 领域垂直度等指标很难算, 点击率等指标爬不到, 我们希望后来者能克服这些困难进一步分析(如利用问卷等), 也可以考虑时间序列等因素构建更复杂的模型。
(总之我们不做)