V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yongzhong
V2EX  ›  问与答

如何工程化计算搜索准确率和召回率?

  •  
  •   yongzhong · 2021-02-20 11:10:32 +08:00 · 1075 次点击
    这是一个创建于 1153 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在调研工程化计算搜索准召率相关的东西,无奈相关资料太少,目前只了解到人工标记以及 A/B test 的方式

    网上搜了一番后知道阿里有个搜索问题排查平台,但不知道具体是什么样的功能和实现

    有了解这方面的大佬指点一下吗
    10 条回复    2021-02-20 17:04:26 +08:00
    jdhao
        1
    jdhao  
       2021-02-20 11:12:54 +08:00 via Android
    什么叫“工程化计算准召率”?和通常定义的准召率有区别?
    yongzhong
        2
    yongzhong  
    OP
       2021-02-20 11:14:08 +08:00
    @jdhao #1 自动化,平台化,少人工介入的
    jdhao
        3
    jdhao  
       2021-02-20 11:16:31 +08:00 via Android
    没有人工,ground truth 不好判断
    yongzhong
        4
    yongzhong  
    OP
       2021-02-20 11:53:00 +08:00
    @jdhao 大佬一般用什么方法?
    jdhao
        5
    jdhao  
       2021-02-20 12:07:59 +08:00 via Android   ❤️ 1
    @yongzhong 没搞过自动化的,一般是抽样标注。然后再测试。😂
    p2pCoder
        6
    p2pCoder  
       2021-02-20 12:22:57 +08:00   ❤️ 1
    核心是把日志串起来
    在线的话直接把召回结果落盘,看覆盖和分布,然后召回结果与最终点击曝光的正负样本进行 join,进行分析
    movistar
        7
    movistar  
       2021-02-20 12:49:15 +08:00   ❤️ 1
    抽样加人工标注
    不过这样也就是评估一下准确率,召回率不好评估。
    在非给定集合内(用户生成的自然结果)去评估召回率,这个暂时没有什么好的评估方式。
    一般论文的准召率都是在给定候选集下评估出来的,什么 query 应该有什么结果是固定的,直接 diff 一下就知道效果。
    czfy
        8
    czfy  
       2021-02-20 13:04:37 +08:00   ❤️ 1
    理论上人工是无法完全排除的,只能转移,例如从供给方转移到使用方
    例如在搜索结果之后给个量表,让用户从 1 分到 5 分评价本次搜索结果的质量,当然不保证回收率
    LukeChien
        9
    LukeChien  
       2021-02-20 16:49:02 +08:00   ❤️ 1
    TimePPT
        10
    TimePPT  
       2021-02-20 17:04:26 +08:00 via Android   ❤️ 1
    准召评测离不开人的,如果假定一段时间 Query 需求分布变化不大,可以只用一个高质量验证集打下效果就行。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1298 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 23:33 · PVG 07:33 · LAX 16:33 · JFK 19:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.