V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zh584728
V2EX  ›  程序员

吐槽贴:现在用中文搜索出正确的答案太难了

  •  5
     
  •   zh584728 · 2020-11-20 14:56:11 +08:00 · 12430 次点击
    这是一个创建于 1462 天前的主题,其中的信息可能已经有所发展或是发生改变。

    感觉中文搜索环境太差了,搜索出正确的结果太难了。

    排在前面的永远都是 csdn 、博客园、简书、百度知道、百家号、

    要么是转来转去的文章,要么是自己瞎 jer 写的笔记,要么就是得先关注、先注册、先登录才能看。

    这还只是搜索的技术性文章

    如果是搜索社会科普、新闻、医院、疾病....,感觉像是掉进了粪坑

    132 条回复    2024-01-08 15:48:50 +08:00
    1  2  
    nnikooih
        101
    nnikooih  
       2020-11-20 22:32:58 +08:00
    翻页

    中文内容在整个互联网内容上占比本身就偏低,只有个位数,远低于英文内容。
    现在各大平台公司进行内容管控本身就导致缺失了很多内容。
    另外彼此还进行内容封闭,互相封锁禁止采集,加剧了这种荒漠化。
    再者还有大量的低质内容相互洗稿刷量,更是增加了内容污染。
    tkl
        102
    tkl  
       2020-11-20 22:38:19 +08:00
    @tommyZZM 那你说什么语言好
    veike
        103
    veike  
       2020-11-20 22:55:43 +08:00
    @linux40 你想表达什么? 中文是腐败的语言?
    linux40
        104
    linux40  
       2020-11-20 23:03:07 +08:00
    @veike 自己不会看链接?我附上文章的意思就是搜索质量差不是纯技术导致的,也不是技术问题不适合用中文搜索,而在于由语言腐败带来的交流能力的丧失。搜索引擎通过语言对文字进行检索也算是受到了交流能力丧失的影响。
    v2esand
        105
    v2esand  
       2020-11-20 23:09:28 +08:00 via Android
    以前真的不是这样的 16 年前好得多
    xiaochong0302
        106
    xiaochong0302  
       2020-11-20 23:31:18 +08:00 via iPhone
    垃圾内容,重复采集转载太多
    no1xsyzy
        107
    no1xsyzy  
       2020-11-20 23:48:44 +08:00   ❤️ 1
    @johnsonshu 3 )上靠谱的论坛,比如 v2ex,痛骂 X 工具垃圾做不到 Y,然后就会有一堆人告诉你怎么用 X 来做到 Y 。这就叫莫非定律(迅速实践
    no1xsyzy
        108
    no1xsyzy  
       2020-11-20 23:59:38 +08:00
    @linux40 13 年到现在,好家伙,没改
    EminemW
        109
    EminemW  
       2020-11-21 00:10:44 +08:00
    的确越来越烂了,前几个月还能搜到点东西,现在基本搜出来的都是垃圾
    dswyzx
        110
    dswyzx  
       2020-11-21 00:19:54 +08:00 via iPhone
    比如今天突然发现要搞个 winpe,然后我就 winpe site:v2ex.com
    但究根结底就是互联网使用门槛越来越低,互联网获取优质内容门槛越来越高
    user8341
        111
    user8341  
       2020-11-21 00:29:55 +08:00   ❤️ 1
    英文的质量好很多。但是也有下降趋势,以前都是比较权威的学术的高端的,现在也越来越普及化。geeksforgeeks,medium 有些质量也不高,但是排名也靠前。
    Lemeng
        112
    Lemeng  
       2020-11-21 01:22:30 +08:00
    以前有个感觉,百度找不到用谷歌,谷歌找不到用百度,现在明显觉得有时候,两个都不满意
    huangsen365
        113
    huangsen365  
       2020-11-21 03:12:06 +08:00
    I use Google and English hahahahaa
    dartabe
        114
    dartabe  
       2020-11-21 05:18:57 +08:00
    英文搜出来的结果质量也很差

    质量好的几乎都是个人博客 或者 github
    feikaras
        115
    feikaras  
       2020-11-21 07:32:24 +08:00
    1 是另外 9 亿人上网了。
    当年只有 1-3 亿人上网的时候,互联网蓝天白云青山绿水。
    2 是搜索引擎搜不到东西了,各种付费才能进入。写博客欲望低下,越来越多人改笔记软件去了。
    3 是如知识付费、公众号、直播、短视频。
    4 是知乎这种热心平台的智能增删改查。任何想热心分享知识的人都会不说话。任何机器人和公众号写手和软文写手大开杀戒。
    feikaras
        116
    feikaras  
       2020-11-21 07:33:50 +08:00
    这不是你们换什么搜索引擎,什么语言去搜的问题,这是全世界共同的问题。
    libasten
        117
    libasten  
       2020-11-21 08:01:31 +08:00 via Android
    @veike 很多内容平台不让百度收录,百度也没办法,比如公众号,知乎专栏,写的不错的内容,百度收录不了,各家自我封闭。
    S179276SP
        118
    S179276SP  
       2020-11-21 08:03:12 +08:00
    相当一部分可以算是“暗网”,没法抓到。
    2379920898
        119
    2379920898  
       2020-11-21 08:58:27 +08:00
    建议面向 google 编程。。
    Cloutain
        120
    Cloutain  
       2020-11-21 09:13:09 +08:00
    还能往汉语言上面怼? 有些人连祖宗是谁都忘了。
    zhuangku556
        121
    zhuangku556  
       2020-11-21 09:35:49 +08:00
    因为互联网能赚钱了,我打赌以后网上搜不到有用的内容了,都是付费咨询的广告。
    gqfBzoLVY3Wl4Tng
        122
    gqfBzoLVY3Wl4Tng  
       2020-11-21 09:46:33 +08:00
    @tommyZZM #4
    @tommyZZM #9 建议尽快忘记中文
    gqfBzoLVY3Wl4Tng
        123
    gqfBzoLVY3Wl4Tng  
       2020-11-21 09:49:52 +08:00
    @tommyZZM #4
    @tommyZZM #9 建议尽快忘记中文
    @wanacry #87 那你还用中文打字?
    @cmdOptionKana #14 你的世界只有技术?
    jedicxl
        124
    jedicxl  
       2020-11-21 10:19:12 +08:00   ❤️ 1
    @Cloutain
    @pierrec 建议补充点语言学的知识
    Cloutain
        125
    Cloutain  
       2020-11-21 11:28:03 +08:00
    @jedicxl 先发给感谢给你,然后请你查查宗谱,别忘了自己的祖宗。
    参与到互联网的人越来越多,信息也呈爆炸增长的趋势,垃圾信息增多也是必然。
    语言各有优缺,但中国人还是要有民族自信、民族自尊。
    ncepuzs
        126
    ncepuzs  
       2020-11-21 11:38:32 +08:00
    用英文其实也有很多重复低质的内容,只不过因为其在互联网上的比重大(巨大),找出正确答案相对容易很多。
    weitch
        127
    weitch  
       2020-11-21 11:41:03 +08:00   ❤️ 1
    有思考能提供原创内容的人,要么聚集在封闭的小圈子,要么已经闭嘴了。
    互联网开放内容剩下的都是机器人或者垃圾人、营销号产生的垃圾内容。

    垃圾内容太多,爬虫和处理信息的成本抬升,要从无数的垃圾信息中提出有价值的内容需要耗费大是的算力,于是就要求搜索引擎加大设备、人力的投入,进而要求搜索引擎必须商业化来维持收入,但是商业化另一方面又纵容了垃圾内容的产生,于是陷入死亡螺旋。
    DongTu
        128
    DongTu  
       2020-11-21 12:09:51 +08:00
    搜一搜就想找到有价值的信息,做梦。
    huoxingren
        129
    huoxingren  
       2020-11-21 14:50:49 +08:00
    @zh584728 混着用,自己做了个聚合搜索。https://www.black-line.top/search/
    leido
        130
    leido  
       2020-11-22 00:38:50 +08:00 via Android
    @Rossweisse doge 搜索中文肯定比 duck 好,因为 duck 中文用户太少了
    zhdsuperm
        131
    zhdsuperm  
       2020-12-02 17:37:36 +08:00
    用 google,同时屏蔽一些 site 效果好很多
    tommyZZM
        132
    tommyZZM  
       318 天前
    收回我上面说过的话。之前的回复是 2020 年的。实际上已经是黎明的前夜了。

    为什么很长一段时间搜索数据或者答案难?

    对于这个问题,我现在确实更倾向于以往的搜索引擎技术是由于像谷歌这样的大公司基于英语的文化环境和技术发展的优势造成的。这并不是某个语言的属性导致的。

    这里是 2023 年,随着像多模态大模型这样的技术发展,会极大地缓解甚至最终在大部分文化语言环境下解决这个问题。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2659 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:23 · PVG 08:23 · LAX 16:23 · JFK 19:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.