1
jdhao 2021-02-20 11:12:54 +08:00 via Android
什么叫“工程化计算准召率”?和通常定义的准召率有区别?
|
3
jdhao 2021-02-20 11:16:31 +08:00 via Android
没有人工,ground truth 不好判断
|
6
p2pCoder 2021-02-20 12:22:57 +08:00 1
核心是把日志串起来
在线的话直接把召回结果落盘,看覆盖和分布,然后召回结果与最终点击曝光的正负样本进行 join,进行分析 |
7
movistar 2021-02-20 12:49:15 +08:00 1
抽样加人工标注
不过这样也就是评估一下准确率,召回率不好评估。 在非给定集合内(用户生成的自然结果)去评估召回率,这个暂时没有什么好的评估方式。 一般论文的准召率都是在给定候选集下评估出来的,什么 query 应该有什么结果是固定的,直接 diff 一下就知道效果。 |
8
czfy 2021-02-20 13:04:37 +08:00 1
理论上人工是无法完全排除的,只能转移,例如从供给方转移到使用方
例如在搜索结果之后给个量表,让用户从 1 分到 5 分评价本次搜索结果的质量,当然不保证回收率 |
9
LukeChien 2021-02-20 16:49:02 +08:00 1
https://www.douban.com/note/727142741/,我们现在用 SBS 和 DCG 为主
|
10
TimePPT 2021-02-20 17:04:26 +08:00 via Android 1
准召评测离不开人的,如果假定一段时间 Query 需求分布变化不大,可以只用一个高质量验证集打下效果就行。
|