V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bigtang
V2EX  ›  互联网

做了一个比百度谷歌更流畅更丝滑的搜索引擎,欢迎大家提建议

  •  
  •   bigtang · 2023-06-20 08:56:56 +08:00 · 3475 次点击
    这是一个创建于 522 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家习惯了百度谷歌的用法,以为已经到了极致,其实还可以更快。
    大家也习惯了使用 ElasticSearch, 无论大中小公司都在使用。

    很难想象一个极度需要性能的业务居然从底层都是基于 java 开发的,大家来对比一下我们基于 c++开发的搜索引擎:
    tanglib.com , 从搜索体验上,是否有一些超出。

    tanglib.com 目前运行在单机上,接近 1T 的文本,从后台看响应基本在几毫秒内,即是做成集群,聚合搜索结果一般也不会超过十毫秒,人类根本感觉不到。

    v2ex 上曾经有几个小搜索引擎,例如 magi.com , 不过看起来最终都没有做起来。

    这项技术如何发展,我没有想好,恳求大家发表建议,集思广益一下,谢谢。
    25 条回复    2023-06-21 00:32:31 +08:00
    shinession
        1
    shinession  
       2023-06-20 09:01:07 +08:00
    试了几次, 还不错, 收藏支持一下
    zhangxiuyan
        2
    zhangxiuyan  
       2023-06-20 09:07:55 +08:00
    好像崩了
    SkYouth
        3
    SkYouth  
       2023-06-20 09:12:25 +08:00
    查询失败,Request failed with status code 502
    bigtang
        4
    bigtang  
    OP
       2023-06-20 09:12:39 +08:00
    #2, 确实, 启动要等 5 分钟。。。
    GeekSuPro
        5
    GeekSuPro  
       2023-06-20 09:12:49 +08:00
    查询失败,Request failed with status code 502

    可以先保证可用性嘛?
    centralpark
        6
    centralpark  
       2023-06-20 09:22:06 +08:00
    代码块至少用个 <pre /> 标签吧
    jasonhui512
        7
    jasonhui512  
       2023-06-20 09:35:04 +08:00
    1T 的文本都是 github 的代码?
    bigtang
        8
    bigtang  
    OP
       2023-06-20 09:36:17 +08:00
    #7 , 关于 里面有详细介绍
    Martin123123
        9
    Martin123123  
       2023-06-20 10:59:21 +08:00
    本质上现有的搜索引擎都不是单纯的搜索引擎,关键的话还是数据源,还包含很多其他的功能,比如说自然语言的处理,不管是百度、Google 、Bing 搜索「笑米手机」实际上搜出来的结果是小米手机,还有基于用户的搜索历史和浏览行为的推荐算法之类的很多功能
    sadfQED2
        10
    sadfQED2  
       2023-06-20 11:02:21 +08:00 via Android
    你这是推销业务还是推销技术引擎?业务的话这 ui 交互也太差了吧?推销技术框架的话,也没见技术细节和性能功能对比呀
    MuSeCanYang
        11
    MuSeCanYang  
       2023-06-20 11:14:52 +08:00
    502
    stonepy
        12
    stonepy  
       2023-06-20 11:17:06 +08:00
    每次输入字符就触发查询,不可能不崩吧,建议先做个防抖和节流
    bigtang
        13
    bigtang  
    OP
       2023-06-20 11:24:29 +08:00
    #11 修改了一下,可以了;#10 ,都不完善,拿出来讨论总是可以的吧;#9 ,完整搜索引擎当然是超级复杂,目前是希望大家帮找到亮点和可能性吧,如果都做成功了就不需要讨论了
    bigtang
        14
    bigtang  
    OP
       2023-06-20 11:26:51 +08:00
    #12 防抖和节流现在就有,崩是刚才有人在做极限测试,改好了。
    wateryessence
        15
    wateryessence  
       2023-06-20 11:43:42 +08:00
    全文搜索就和 es meilisearch algolia 做 benchmark ,标题取得太唬人了
    cherryas
        16
    cherryas  
       2023-06-20 11:45:29 +08:00
    亮点速度快
    原理分析:最多也只能返回 30 个结果所以速度快
    bjzhush
        17
    bjzhush  
       2023-06-20 11:48:43 +08:00
    优点:非常快,可以说是实时
    缺点:没有太落地的场景,发挥不出什么价值
    hellodigua
        18
    hellodigua  
       2023-06-20 11:54:54 +08:00
    流畅丝滑可能是因为内容太少了,搜啥都搜不到……

    等数据量到 PB 级别的时候,再来对比一下速度
    bigtang
        19
    bigtang  
    OP
       2023-06-20 12:03:25 +08:00
    #16 ,返回 2000 条还是一样快的,返回 20 万条可能会慢,但谁会需要 20 万条结果呢?
    #18 ,PB 级数据就有集群了,还是一样的快
    olaloong
        20
    olaloong  
       2023-06-20 15:38:22 +08:00
    踩一脚 ElasticSearch 大可不必吧,ES 真正强大的不是各种查询语法吗,你这能支持多少呢
    inhzus
        21
    inhzus  
       2023-06-20 15:45:16 +08:00
    对比 sphinx, meilisearch, vespa 这些呢... 一对比就来活了
    c2const
        22
    c2const  
       2023-06-20 16:57:40 +08:00
    感觉数据量不够,还是习惯谷歌的结果
    C603H6r18Q1mSP9N
        23
    C603H6r18Q1mSP9N  
       2023-06-20 18:13:12 +08:00
    让我想起来一个笑话:
    请问 168 乘以 861 等于多少?没任何思考 回答 82128

    只保证快,没说答案对
    bigtang
        24
    bigtang  
    OP
       2023-06-20 19:26:45 +08:00
    #22 #23 应该是非技术人员,本帖本意是说比较搜索体验,不是代替百度谷歌。
    tanglib.com 只是源代码搜索,只能搜源代码。
    当然如果真有百度谷歌那么多内容,加上 pagerank ,是可以超越百度谷歌的。
    tntin
        25
    tntin  
       2023-06-21 00:32:31 +08:00 via Android
    标题党 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2465 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 01:07 · PVG 09:07 · LAX 17:07 · JFK 20:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.