如何工程化计算搜索准确率和召回率?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1794 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在调研工程化计算搜索准召率相关的东西,无奈相关资料太少,目前只了解到人工标记以及 A/B test 的方式

网上搜了一番后知道阿里有个搜索问题排查平台,但不知道具体是什么样的功能和实现

有了解这方面的大佬指点一下吗

10 条回复 • 2021-02-20 17:04:26 +08:00

jdhao

2021 年 2 月 20 日 via Android

什么叫“工程化计算准召率”？和通常定义的准召率有区别？

yongzhong

2021 年 2 月 20 日

@jdhao #1 自动化,平台化,少人工介入的

jdhao

2021 年 2 月 20 日 via Android

没有人工，ground truth 不好判断

yongzhong

2021 年 2 月 20 日

@jdhao 大佬一般用什么方法?

jdhao

2021 年 2 月 20 日 via Android

@yongzhong 没搞过自动化的，一般是抽样标注。然后再测试。😂

p2pCoder

2021 年 2 月 20 日

核心是把日志串起来
在线的话直接把召回结果落盘，看覆盖和分布，然后召回结果与最终点击曝光的正负样本进行 join，进行分析

movistar

2021 年 2 月 20 日

抽样加人工标注
不过这样也就是评估一下准确率，召回率不好评估。
在非给定集合内（用户生成的自然结果）去评估召回率，这个暂时没有什么好的评估方式。
一般论文的准召率都是在给定候选集下评估出来的，什么 query 应该有什么结果是固定的，直接 diff 一下就知道效果。

jr55475f112iz2tu

2021 年 2 月 20 日

理论上人工是无法完全排除的，只能转移，例如从供给方转移到使用方
例如在搜索结果之后给个量表，让用户从 1 分到 5 分评价本次搜索结果的质量，当然不保证回收率

LukeChien

2021 年 2 月 20 日

TimePPT

PRO

2021 年 2 月 20 日 via Android

准召评测离不开人的，如果假定一段时间 Query 需求分布变化不大，可以只用一个高质量验证集打下效果就行。