SAM-bilibili/指标体系构建.md

56 lines
2.0 KiB
Markdown
Raw Normal View History

2025-03-19 09:30:30 +08:00
## 外在属性指标
### 1.基础流量指标
需要视频BV号。
- [x] 播放量
- [x] 点赞量
- [x] 投币量
- [x] 收藏量
- [x] 分享量
- [x] 评论数
- [x] 弹幕数
### 2.up画像指标
需要up主UID。
- [x] 粉丝数
- [x] 总获赞数
- [x] 投稿数
- [ ] 近一个月投稿数
### 3.衍生指标
- [x] 点赞率=点赞量/播放量
- [x] 互动率=(点赞量+投币量+收藏量+分享量+评论数+弹幕数)/播放量
- [x] 外溢系数=分享量/收藏量(反映内容外溢性)
## 内在属性指标
### 1.内容属性指标
- [x] 时长
- [x] 发布时间
- [x] 标题
- [x] 分区
- [x] 标签
- [x] 最高清晰度
### 2.内容结构指标
- [ ] 是否分章节
- [x] 是否分P
- [ ] 是否有字幕
## 特殊指标(可能无法直接爬取,需特殊处理)
同时需要人工智能和能工智人。
### 1.较易处理
- [x] 是否为联合投稿Sy这个可以直接获取没这么麻烦
- [ ] 是否为系列作品(标题关键词分析)
- [x] 原创or搬运只能投一个币为搬运Sy这个也可以直接获取没这么麻烦
- [x] 横屏or竖屏Sy这个还是可以直接获取没这么麻烦
- [ ] <mark>是否进入热门</mark>(作为机器学习的预测目标)
### 2.较难处理
产生较大数据量。
- [ ] 标题原创性见DS代码
- [ ] 标签区分度见DS代码
- [ ] 弹幕情感倾向得分(单独处理)
- [ ] 封面(图片分析可以单独写一章了)
## 展望(即做不了的)
鉴于标题吸引力、剪辑质量、音频质量、封面设计、BGM体验等因素涉及主观判断
平均播放时长这种B站几年没做外显没法算完播率无法直接获取
领域垂直度等指标很难算,
点击率等指标爬不到,
我们希望后来者能克服这些困难进一步分析(如利用问卷等),
也可以考虑时间序列等因素构建更复杂的模型。
(总之我们不做)