V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
testcaoy7
V2EX  ›  程序员

自己搭建了 searX 搜索引擎

  •  
  •   testcaoy7 · 2019-01-29 08:36:57 +08:00 · 11924 次点击
    这是一个创建于 2124 天前的主题,其中的信息可能已经有所发展或是发生改变。
    自己搭建了 searX 搜索引擎,感觉还是搜英文的好一些,中文搜索质量一般般
    吃灰的日本 VPS 终于有用武之地
    24 条回复    2019-02-03 14:41:40 +08:00
    ericgui
        1
    ericgui  
       2019-01-29 08:40:01 +08:00
    这干啥的?搜索 X 片的?
    MC
        2
    MC  
       2019-01-29 08:48:47 +08:00
    虽然搜索来源来自于各大其他搜索引擎,但因为不搜集你个人信息,当然不会给你“优化”搜索内容啊,自然看上去搜索质量一般般。
    testcaoy7
        3
    testcaoy7  
    OP
       2019-01-29 08:55:02 +08:00
    @MC 有道理,应该就是这个原因
    tianlianjie
        4
    tianlianjie  
       2019-01-29 09:16:19 +08:00 via iPhone
    优质的种子能搜吗
    testcaoy7
        5
    testcaoy7  
    OP
       2019-01-29 09:19:51 +08:00
    @tianlianjie 不知道,searX 是 Meta-Search Engine,是抓取的其他搜索引擎(比如谷歌和必应)的搜索结果。
    这里有个公开的实例(这个实例不是我搭的): https://searx.me
    你可以试试
    ioven
        6
    ioven  
       2019-01-29 09:41:09 +08:00
    验证码怎么破?
    buhuipao
        7
    buhuipao  
       2019-01-29 10:07:49 +08:00 via iPhone   ❤️ 1
    支持,但建议大家使用 duckduckgo
    真正的匿名搜索
    cc55555
        8
    cc55555  
       2019-01-29 10:34:34 +08:00
    @buhuipao 鸭鸭早就被墙了
    lcdxiangzi
        9
    lcdxiangzi  
       2019-01-29 13:15:28 +08:00   ❤️ 1
    为什么我上来就看到 sex。。。
    anyi
        10
    anyi  
       2019-01-29 18:11:01 +08:00
    之前设想过,但是感觉它的爬虫不能爬取独立网站的元数据~
    honglongmen
        11
    honglongmen  
       2019-01-31 22:32:59 +08:00
    @testcaoy7 我也搭建了一个, 但是如何修改 app 的 host 为 0.0.0.0 从而允许外部访问? 在哪个文件中修改?
    另外这个搜索是直接调用谷歌(举例)的搜索,还是全部缓存到本地来搜索?如果是前者大规模的关键词输入和调用会被谷歌判为作弊?
    testcaoy7
        12
    testcaoy7  
    OP
       2019-02-01 03:49:18 +08:00 via Android
    @honglongmen 我用的 docker,监听本地 127.0.0.1:8888,然后用 caddy 反代从而实现外部访问。等今天下午我把搭建过程发这个帖子上~
    honglongmen
        13
    honglongmen  
       2019-02-01 03:51:42 +08:00
    docker 这几天坏了, 你看看 issue 里面都提到了。 你说的反代肯定没问题,不过 wsgi 这个跑的话怎么解决外部可以访问? settings.yml 的 ip 设置为网卡的是可以的,但是否可以设置为 0.0.0.0 呢
    honglongmen
        14
    honglongmen  
       2019-02-01 03:52:07 +08:00
    另外看了 issue 对百度好像支持不足够。
    testcaoy7
        15
    testcaoy7  
    OP
       2019-02-01 04:10:29 +08:00 via Android
    @honglongmen dockerfile 只要修改一下就好了,如何修改 issue 里面有。其实官方已经修好了只是还没 merge 到 master 而已
    testcaoy7
        16
    testcaoy7  
    OP
       2019-02-01 04:11:51 +08:00 via Android
    @honglongmen 可以 0.0.0.0
    honglongmen
        17
    honglongmen  
       2019-02-01 09:20:46 +08:00
    @testcaoy7 谢谢, 有个问题,不知道是否可以通过 searx 来输入相关关键词,然后密集点击来提高对应网站排名,这个需要测试才知道,当然做好各种特征码掩藏。
    testcaoy7
        18
    testcaoy7  
    OP
       2019-02-01 14:07:32 +08:00
    自建过程:
    #首先安装 Docker

    #获取代码
    git clone https://github.com/asciimoo/searx.git

    #修改 Dockerfile
    将“&& pip install --no-cache -r requirements.txt ”
    修改为“&& pip install --no-cache --no-use-pep517 -r requirements.txt ”

    #构建镜像
    cd searx
    docker build -t searx .

    #运行镜像
    docker run -d --name searx -p 127.0.0.1:8888:8888 -e IMAGE_PROXY=True searx

    然后用 caddy 反代本地运行的 searX Docker 镜像即可
    honglongmen
        19
    honglongmen  
       2019-02-01 22:49:19 +08:00
    @testcaoy7 把 settings.yml 中的 bind_address : "127.0.0.1" 改为 0.0.0.0 不行, 只能是机器的 ip 才可以.

    我用 Nginx 反代了 https://find.amotic.com/ 看起来还不错.
    honglongmen
        20
    honglongmen  
       2019-02-01 23:40:57 +08:00
    @testcaoy7 想请教下,这个搜索是在运行 searx 的实例上,还是说直接展现了搜索引擎的结果?
    testcaoy7
        21
    testcaoy7  
    OP
       2019-02-02 08:36:25 +08:00
    @honglongmen 我看到 DockerFile 的最后一句是“ RUN sed -i "s/127.0.0.1/0.0.0.0/g" searx/settings.yml ”,按理说 0.0.0.0 应该是可以的,不知为什么不行了。还有这个搜索引擎其实是个“元”搜索引擎,所谓元搜索引擎就是将要查询的东西提交谷歌必应雅虎等真搜索引擎搜索,再展现它们的搜索结果,也就是说 searx 本身其实没有搜索能力的,它其实就是个搜索代理
    honglongmen
        22
    honglongmen  
       2019-02-02 11:11:58 +08:00
    @testcaoy7 所以在 searx 点击目标站实际上是在各大搜索引擎点击?
    testcaoy7
        23
    testcaoy7  
    OP
       2019-02-03 14:12:50 +08:00
    @honglongmen 这个我也不太清楚
    honglongmen
        24
    honglongmen  
       2019-02-03 14:41:40 +08:00
    @testcaoy7 我也在做试验来确定到底是关键词是从 searx 上还是从搜索引擎上出去的. 还没有头绪.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2785 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:12 · PVG 22:12 · LAX 06:12 · JFK 09:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.