V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
foolever
V2EX  ›  程序员

关于定期 APP 昵称存量过审的技术问题

  •  
  •   foolever · 2023-09-12 18:38:50 +08:00 · 2272 次点击
    这是一个创建于 424 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我司为了应对网络安全的审查,每隔一段时间就要对全站所有存量用户的昵称重新过一遍智能审核,因为随着时间和法律法规的变化可能会出现不一样的审核策略,几个亿的用户数据每次处理起来需要耗费不少时间和金钱,个人感觉很不友好但是又没有什么其他好的办法,想问下大家伙儿公司针对这种情况是怎么处理的呢,难道只有我司这么做么

    39 条回复    2023-09-13 21:42:39 +08:00
    RiverMud
        1
    RiverMud  
       2023-09-12 18:46:41 +08:00 via iPhone
    看业务是否与昵称强相关,相关度低直接把所有昵称全随机了,以后新注册的用户也随机昵称,类似平安好车主 App 那种策略,完事。

    强相关不知道。
    hidemyself
        2
    hidemyself  
       2023-09-12 18:47:57 +08:00
    个人感觉可以 记一下改昵称的时间吧
    或者,把审核放在改昵称的时候,立即校验
    yuningWang8
        3
    yuningWang8  
       2023-09-12 18:50:41 +08:00
    用户修改或者用到的时候再审核呗。后者只审核活跃用户。
    sadfQED2
        4
    sadfQED2  
       2023-09-12 18:51:05 +08:00
    我司,给所有用户的昵称都隐藏了。统一改成打码手机号
    yuningWang8
        5
    yuningWang8  
       2023-09-12 18:51:12 +08:00
    或者只审核活跃用户。
    helone
        6
    helone  
       2023-09-12 18:55:36 +08:00   ❤️ 1
    @hidemyself 这个跟时间无关,举个例子,比如同志这个词,几十年前很正常,现在就...有很多类似的新敏感词,以前昵称叫这个没问题,但是现在叫这个就不行,所以过段时间需要全量在过一遍
    foolever
        7
    foolever  
    OP
       2023-09-12 18:57:29 +08:00
    @RiverMud 这种方案不可能被通过,我们是做社交的,自定义昵称是业务的必需元素
    foolever
        8
    foolever  
    OP
       2023-09-12 18:58:45 +08:00
    @hidemyself 改昵称每次都会审核的,现在说的是存量的昵称,因为有可能审核的策略更新了导致了以前通过的现在通不过了
    foolever
        9
    foolever  
    OP
       2023-09-12 18:59:51 +08:00
    @yuningWang8 我们有些推荐的算法会将一些不活跃的用户也会曝光出去
    foolever
        10
    foolever  
    OP
       2023-09-12 19:00:57 +08:00
    @helone 是的是的就是这个道理,但是每次全量过一来时间比较长,二来费用也不小(用的第三方智能审核)
    kkk9
        11
    kkk9  
       2023-09-12 19:16:33 +08:00
    按活跃度排序,建立一个过审池,推荐算法从池里拿。

    增加改名卡,收费改名,一年免费改一次。
    fanyingmao
        12
    fanyingmao  
       2023-09-12 19:17:04 +08:00
    存量的问题无解,我司处理是要定期跑一遍全库,还有就是每次登录都检查昵称。
    me1onsoda
        13
    me1onsoda  
       2023-09-12 19:31:49 +08:00
    全量审查必然时间间隔长,那在这段时间间隔内的漏网之鱼怎么办呢,放着不管?这个方案有点骗自己的意思
    lDqe4OE6iOEUQNM7
        14
    lDqe4OE6iOEUQNM7  
       2023-09-12 19:32:23 +08:00
    人工智能与人工审核结合
    lDqe4OE6iOEUQNM7
        15
    lDqe4OE6iOEUQNM7  
       2023-09-12 19:32:36 +08:00
    审查
    user9121
        16
    user9121  
       2023-09-12 19:38:40 +08:00
    个人感觉可行的方法就是把第三方的改成自己的.我不太了解,但是感觉这个东西会有很高深的东西吗?不就是敏感词库吗?
    tutudou
        17
    tutudou  
       2023-09-12 20:45:52 +08:00   ❤️ 1
    给审核策略一个版本号,比如为 1 ,以后每次策略更新就+1 。然后给用户数据库增加一个字段 is_check ,值为审核策略的版本号。这样每次登录的时候就检测两者是否相等,不相等的对用户的昵称过一遍智能审核。如果非要活跃用户和不活跃用户都得重新审核的话,除了全库,没别的办法。
    gransh
        18
    gransh  
       2023-09-12 20:50:47 +08:00
    很好奇这种法律法规的变化又不会明着规定,是怎么限制到你们企业的?违规了是会罚款吗?不管让他们警告了再整改行不行。。
    jsq2627
        19
    jsq2627  
       2023-09-12 20:58:04 +08:00 via iPhone
    既然是做社交的,那肯定不止昵称吧,存量内容也要定期全量重审吧
    每次全量重审的成本费用很高,所以现在普遍选择按时间一刀切,几个月前的内容全部隐藏。
    jsq2627
        20
    jsq2627  
       2023-09-12 21:02:03 +08:00 via iPhone
    @gransh 约谈,罚款,整改,关停。按照严重程度和累犯情况有不一样的处罚。
    在不同时期有不一样的执法力度
    很多企业会用注册墙、付费墙等规避执法(很普遍)
    jsq2627
        21
    jsq2627  
       2023-09-12 21:06:48 +08:00 via iPhone
    @ashe900501 现在一般是敏感词库+AI 模型双管齐下。维护词库和模型需要数据积累和人力投入,互联网大厂自建这套体系还行,普通企业想自建成本就比较高了,一般都是买服务。
    jsq2627
        22
    jsq2627  
       2023-09-12 21:09:07 +08:00 via iPhone
    @ashe900501 敏感词库维护有时候也不容易,太严格了会导致很多正常内容发不出来。所以具体执行还有很多细分策略,必要时人工审核介入。
    jsq2627
        23
    jsq2627  
       2023-09-12 21:14:15 +08:00 via iPhone   ❤️ 1
    我觉得一种可行的方案:存量数据要先区分冷热,例如访问频次、重要程度等。热数据每次都全量跑审核,冷数据采用 lazy evaluate 策略,即每次向用户展示时再调用审核接口,缓存结果。
    user9121
        24
    user9121  
       2023-09-12 21:46:12 +08:00
    @jsq2627 这个要看应用场景,我觉得昵称这个场景敏感词库就可以搞定了.
    你说的 AI 的如果说是语音,图片识别,或者大段内容识别.
    我们之前应对网络安全审查就是直接网上下载的敏感词库,然后过滤一下.放数据库就完事了.
    网络安全审查是审查你有没有这个机制,你有就可以了,即便偶尔出现一个问题,那也只是没有及时更新,也不是啥大事.

    个人观点哈,仅供参考
    dddd1919
        25
    dddd1919  
       2023-09-12 21:48:56 +08:00
    找智能审核的公司买断一套本地化部署?
    jsq2627
        26
    jsq2627  
       2023-09-12 21:55:23 +08:00 via iPhone
    @ashe900501 我是作为公司代表参加过 wxb 约谈的,我的感受是,又没有这些机制、整改方式都是次要的,能创造罚没收入才是他们最大的政绩
    jsq2627
        27
    jsq2627  
       2023-09-12 21:59:33 +08:00 via iPhone
    @ashe900501 而且当时还是广州 wxb ,属于执法相对文明的地方。

    话说回来,网上随便就能搞到的词库,质量还是太差了,跟不上时代的变化。

    对于昵称场景,敏感词库确实足够了,前提是文本要做预处理
    coreki
        28
    coreki  
       2023-09-12 23:24:03 +08:00
    所有用户的昵称,展示的时候,才检测一下是否合规。检测过的加个 lastCheckTime 作为标识。
    micate
        29
    micate  
       2023-09-12 23:28:22 +08:00
    考虑昵称曝光时增加数据统计,定期审核只针对指定时间内曝光的昵称进行处理;未曝光的昵称也没有审核的必要。
    毕竟几个亿应该不是日活吧 。。。
    murmur
        30
    murmur  
       2023-09-13 08:16:41 +08:00
    几个亿的用户怎么会来 V 站问你,顺便提醒你一下,就是人工审核,原神的昵称更改之后不会立刻生效,包括家园布局,所有可能 UGC 的地方都是先审再生效。
    user9121
        31
    user9121  
       2023-09-13 09:06:46 +08:00
    @jsq2627 我的看法是这些东西没有标准,且根据个人意志转移.
    举个例子:"鲍鱼",这是敏感词不,有的人觉得是,有的人觉得不是.那么觉得是的人就是龌龊.
    他如果说你什么关键词没做好.那就让他出标准,你告诉我啥是敏感词.如果你不能告知,那我们也没办法.
    我玩个页游,角色昵称是系统自动生成的,然后点击创建,告诉我有敏感词.我才知道,现在"翠"已经成了敏感词了.哈哈
    proxychains
        32
    proxychains  
       2023-09-13 10:36:07 +08:00
    @jsq2627 请教下 `注册墙、付费墙` 是指?
    dode
        33
    dode  
       2023-09-13 12:40:15 +08:00 via Android
    单独把昵称拿出来,放在 kafka 里面定期检查,顺序 IO 很快的
    dode
        34
    dode  
       2023-09-13 12:41:32 +08:00 via Android
    客户端做一些基础的昵称检查
    654656413245
        35
    654656413245  
       2023-09-13 12:56:11 +08:00 via iPhone
    增加开关,默认开启
    开关开启时,昵称仅个人可见,其他人只能看到映射后的字符串
    开关可以被用户关闭,关闭时触发审核
    yolee599
        36
    yolee599  
       2023-09-13 16:27:54 +08:00
    参考百度贴吧,把之前没审过的数据全部清除 [doge]
    fruitmonster
        37
    fruitmonster  
       2023-09-13 16:33:03 +08:00
    @RiverMud 你这··· 昵称的意义是啥啊,你给随机了,不就失去了昵称的意义么
    fruitmonster
        38
    fruitmonster  
       2023-09-13 16:36:42 +08:00
    @foolever
    1 、那就在用户登录的时候根据规则检查
    2 、或者在曝光昵称的地方增加审核,反正曝光了昵称就检查是否合法
    deorth
        39
    deorth  
       2023-09-13 21:42:39 +08:00 via Android
    特色
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2590 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 02:39 · PVG 10:39 · LAX 18:39 · JFK 21:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.