SAM-bilibili/指标体系构建.md
2025-03-19 09:30:30 +08:00

2.0 KiB
Raw Blame History

外在属性指标

1.基础流量指标

需要视频BV号。

  • 播放量
  • 点赞量
  • 投币量
  • 收藏量
  • 分享量
  • 评论数
  • 弹幕数

2.up画像指标

需要up主UID。

  • 粉丝数
  • 总获赞数
  • 投稿数
  • 近一个月投稿数

3.衍生指标

  • 点赞率=点赞量/播放量
  • 互动率=(点赞量+投币量+收藏量+分享量+评论数+弹幕数)/播放量
  • 外溢系数=分享量/收藏量(反映内容外溢性)

内在属性指标

1.内容属性指标

  • 时长
  • 发布时间
  • 标题
  • 分区
  • 标签
  • 最高清晰度

2.内容结构指标

  • 是否分章节
  • 是否分P
  • 是否有字幕

特殊指标(可能无法直接爬取,需特殊处理)

同时需要人工智能和能工智人。

1.较易处理

  • 是否为联合投稿Sy这个可以直接获取没这么麻烦
  • 是否为系列作品(标题关键词分析)
  • 原创or搬运只能投一个币为搬运Sy这个也可以直接获取没这么麻烦
  • 横屏or竖屏Sy这个还是可以直接获取没这么麻烦
  • 是否进入热门(作为机器学习的预测目标)

2.较难处理

产生较大数据量。

  • 标题原创性见DS代码
  • 标签区分度见DS代码
  • 弹幕情感倾向得分(单独处理)
  • 封面(图片分析可以单独写一章了)

展望(即做不了的)

鉴于标题吸引力、剪辑质量、音频质量、封面设计、BGM体验等因素涉及主观判断 平均播放时长这种B站几年没做外显没法算完播率无法直接获取 领域垂直度等指标很难算, 点击率等指标爬不到, 我们希望后来者能克服这些困难进一步分析(如利用问卷等), 也可以考虑时间序列等因素构建更复杂的模型。

(总之我们不做)