在 b 站看视频的时候,比如当前在看 '三国志蜀书先主传 1',下面的推荐播放列表就会有推送当前 up 主制作的相关视频 '三国志蜀书先主传 2'。
这俩视频是完全独立的两个视频,系统是如何得知 先主传 1 和 先主传 2 之间是上下集顺序关系的。
当然,也不是每次推荐的都准确,有遇到过 xxxx1 下方推荐 xxxx3 的
1
runze 2021-07-06 10:51:09 +08:00 2
不需要知道两个视频之间的关系,只需要知道很多看过 1 的也会去看 2 就够了
|
2
AoEiuV020 2021-07-06 10:52:30 +08:00
就是简单通过名字和热度判断吧,
名字比如听歌经常容易推荐同一首歌或者同一原作的二创, 热度比如下一话刚出没热度的时候是不会被上一话推荐的, 整体感觉 b 站的推荐不如 ytb, |
3
AoEiuV020 2021-07-06 10:54:04 +08:00
@runze 应该没有这方面的考虑,比如只有 1234 话,4 大概率会推荐 3,实际上应该没多少人看完 4 去看 3 的,
|
5
jdandelion573 2021-07-06 14:18:15 +08:00 1
涉及推荐系统中的 embedding 内容 例如用户行为序列的相似性来分析视频的相关性 还有补充策略层 文本标题 embedding 后相似匹配和把同个 up 主视频权重加大等
|
6
imn1 2021-07-06 14:42:23 +08:00 1
我其实没搞清楚你想问什么
如果就是字面意思的话,很简单啊,我自己写视频管理时,就加了个"series"字段,权游 1 、权游 2 、权游 3……这个字段值都是权游,判断很难么?配合 season 的序号就行了 imdb 的 TV Series 不同的 season 都是用同一个 id 的(以前是分开的,现在统一了,豆瓣也在逐步合并) 就是数据库 select 一下而已,不要想太深奥 |
7
LxExExl 2021-07-06 14:45:38 +08:00
基于行为的 Collaborative filtering
基于内容的 Content embedding |
8
imn1 2021-07-06 14:51:42 +08:00
或者 tag
select * from videos where instr(tag, "爱情动作片") and similiar(title, "三国志蜀书先主传 1"); 至于准确性,就要结合数据统计了,例如#1 所说的 |
9
proxychains OP |