SAM-bilibili/指标体系构建.md
2025-03-19 09:30:30 +08:00

56 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

## 外在属性指标
### 1.基础流量指标
需要视频BV号。
- [x] 播放量
- [x] 点赞量
- [x] 投币量
- [x] 收藏量
- [x] 分享量
- [x] 评论数
- [x] 弹幕数
### 2.up画像指标
需要up主UID。
- [x] 粉丝数
- [x] 总获赞数
- [x] 投稿数
- [ ] 近一个月投稿数
### 3.衍生指标
- [x] 点赞率=点赞量/播放量
- [x] 互动率=(点赞量+投币量+收藏量+分享量+评论数+弹幕数)/播放量
- [x] 外溢系数=分享量/收藏量(反映内容外溢性)
## 内在属性指标
### 1.内容属性指标
- [x] 时长
- [x] 发布时间
- [x] 标题
- [x] 分区
- [x] 标签
- [x] 最高清晰度
### 2.内容结构指标
- [ ] 是否分章节
- [x] 是否分P
- [ ] 是否有字幕
## 特殊指标(可能无法直接爬取,需特殊处理)
同时需要人工智能和能工智人。
### 1.较易处理
- [x] 是否为联合投稿Sy这个可以直接获取没这么麻烦
- [ ] 是否为系列作品(标题关键词分析)
- [x] 原创or搬运只能投一个币为搬运Sy这个也可以直接获取没这么麻烦
- [x] 横屏or竖屏Sy这个还是可以直接获取没这么麻烦
- [ ] <mark>是否进入热门</mark>(作为机器学习的预测目标)
### 2.较难处理
产生较大数据量。
- [ ] 标题原创性见DS代码
- [ ] 标签区分度见DS代码
- [ ] 弹幕情感倾向得分(单独处理)
- [ ] 封面(图片分析可以单独写一章了)
## 展望(即做不了的)
鉴于标题吸引力、剪辑质量、音频质量、封面设计、BGM体验等因素涉及主观判断
平均播放时长这种B站几年没做外显没法算完播率无法直接获取
领域垂直度等指标很难算,
点击率等指标爬不到,
我们希望后来者能克服这些困难进一步分析(如利用问卷等),
也可以考虑时间序列等因素构建更复杂的模型。
(总之我们不做)