56 lines
2.0 KiB
Markdown
56 lines
2.0 KiB
Markdown
## 外在属性指标
|
||
### 1.基础流量指标
|
||
需要视频BV号。
|
||
- [x] 播放量
|
||
- [x] 点赞量
|
||
- [x] 投币量
|
||
- [x] 收藏量
|
||
- [x] 分享量
|
||
- [x] 评论数
|
||
- [x] 弹幕数
|
||
### 2.up画像指标
|
||
需要up主UID。
|
||
- [x] 粉丝数
|
||
- [x] 总获赞数
|
||
- [x] 投稿数
|
||
- [ ] 近一个月投稿数
|
||
### 3.衍生指标
|
||
- [x] 点赞率=点赞量/播放量
|
||
- [x] 互动率=(点赞量+投币量+收藏量+分享量+评论数+弹幕数)/播放量
|
||
- [x] 外溢系数=分享量/收藏量(反映内容外溢性)
|
||
## 内在属性指标
|
||
### 1.内容属性指标
|
||
- [x] 时长
|
||
- [x] 发布时间
|
||
- [x] 标题
|
||
- [x] 分区
|
||
- [x] 标签
|
||
- [x] 最高清晰度
|
||
### 2.内容结构指标
|
||
- [ ] 是否分章节
|
||
- [x] 是否分P
|
||
- [ ] 是否有字幕
|
||
## 特殊指标(可能无法直接爬取,需特殊处理)
|
||
同时需要人工智能和能工智人。
|
||
### 1.较易处理
|
||
- [x] 是否为联合投稿(Sy:这个可以直接获取,没这么麻烦)
|
||
- [ ] 是否为系列作品(标题关键词分析)
|
||
- [x] 原创or搬运(只能投一个币为搬运)(Sy:这个也可以直接获取,没这么麻烦)
|
||
- [x] 横屏or竖屏(Sy:这个还是可以直接获取,没这么麻烦)
|
||
- [ ] <mark>是否进入热门</mark>(作为机器学习的预测目标)
|
||
### 2.较难处理
|
||
产生较大数据量。
|
||
- [ ] 标题原创性(见DS代码)
|
||
- [ ] 标签区分度(见DS代码)
|
||
- [ ] 弹幕情感倾向得分(单独处理)
|
||
- [ ] 封面(图片分析可以单独写一章了)
|
||
|
||
## 展望(即做不了的)
|
||
鉴于标题吸引力、剪辑质量、音频质量、封面设计、BGM体验等因素涉及主观判断,
|
||
平均播放时长这种B站几年没做外显(没法算完播率)无法直接获取,
|
||
领域垂直度等指标很难算,
|
||
点击率等指标爬不到,
|
||
我们希望后来者能克服这些困难进一步分析(如利用问卷等),
|
||
也可以考虑时间序列等因素构建更复杂的模型。
|
||
|
||
(总之我们不做) |