V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
just1
V2EX  ›  程序员

有没有办法不让搜索引擎收录

  •  
  •   just1 · 2015-11-11 22:43:22 +08:00 via Android · 7113 次点击
    这是一个创建于 3300 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有个自己用的域名不想被收录,但是居然被收录了。。。 Google 和百度都有。可以防止被收录吗。 robots.txt 只是'由于此网站的 robots.txt ,系统未提供关于该结果的说明 - 了解详情。'

    第 1 条附言  ·  2015-11-12 12:27:11 +08:00
    自己的一些工具,各种特殊权限。被爬虫抓不太好。很感谢大家的回复,我选择了蜘蛛返回 404 。
    第 2 条附言  ·  2015-11-14 00:28:02 +08:00
    其实看到很多人说 robots ,我不是在主题里就说了吗,没有用地
    56 条回复    2015-11-14 00:55:50 +08:00
    Liang
        1
    Liang  
       2015-11-11 22:45:41 +08:00
    user-agent 来自蜘蛛就 404 ,这样可以吗?
    miyuki
        2
    miyuki  
       2015-11-11 23:14:55 +08:00
    不用 Chrome
    kuzhan
        3
    kuzhan  
       2015-11-11 23:18:09 +08:00
    不解析域名 自己访问设置 host
    dphdjy
        4
    dphdjy  
       2015-11-11 23:21:35 +08:00
    那么这个网站干嘛的~~
    imn1
        5
    imn1  
       2015-11-12 00:20:18 +08:00
    你应该开到暗网里面
    congeec
        6
    congeec  
       2015-11-12 00:41:31 +08:00 via iPhone
    @kuzhan 裸 IP ,没域名也能被爬....
    Robots.txt 只能问人家愿不愿意爬你... 暗网是个好主意 噗哈哈。
    Hello1995
        7
    Hello1995  
       2015-11-12 00:53:02 +08:00 via Android
    我干过这么中二的事情。
    方法一: robots.txt 。但是可能有些蜘蛛不遵守…
    方法二:屏蔽蜘蛛 IP 。 但是工程量大…
    方法三:屏蔽 UA 。 简单屏蔽 spider 和 bot 关键字…
    aluo1
        8
    aluo1  
       2015-11-12 05:56:44 +08:00
    是不是用 cgi 写的网页不会被爬?
    求指教 :-)
    sivacohan
        9
    sivacohan  
       2015-11-12 06:53:15 +08:00 via Android   ❤️ 1
    全站 flash
    kindjeff
        10
    kindjeff  
       2015-11-12 08:54:08 +08:00
    AJAX 返回数据,不会被搜素引擎爬取
    franticonion
        11
    franticonion  
       2015-11-12 09:09:19 +08:00
    那就写个脚本刷 server 的 access log 了 屏蔽所有 spider 的 user agent 或者 ip
    mcone
        12
    mcone  
       2015-11-12 09:12:01 +08:00
    你就是裸 ip 不绑域名照样能被爬到,更何况你已经有域名指过去了……

    @Hello1995 说的方法貌似还可以,但是还得加上一条,不许任何人使用 chrome/360 浏览器访问你的网站(搜狗有没有我还不知道,但是,我觉得吧…………),这俩浏览器都会根据你输入的网址去爬的

    多说一句,以上两个浏览器都是我当年测试过的,不保证现在还是这样,有兴趣的话你可以弄个很奇葩的 N 级域名指过去,指到一个随机生成文字的静态页面上测一测。
    wizardoz
        13
    wizardoz  
       2015-11-12 09:17:08 +08:00
    @aluo1 cgi 接口只是服务器端内部的交互方式,从访问者来看无法区分。
    crazycen
        14
    crazycen  
       2015-11-12 09:19:34 +08:00 via Android
    网站不要监听 80 443 端口
    imlinhanchao
        15
    imlinhanchao  
       2015-11-12 09:20:46 +08:00
    <meta name="robots" content="noindex, nofollow, nosnippet, noarchive">
    frozenshadow
        16
    frozenshadow  
       2015-11-12 09:23:38 +08:00
    检测一下访问者的 8080 80 3306 。。。这种奇怪的端口有没有开
    datocp
        17
    datocp  
       2015-11-12 09:23:46 +08:00 via Android
    qq 空间就因为有个人做了一个爬行网站,不得不加密码。现在自己的 blog 架在网上方便浏览,做了登录密码限制只允许自己看。
    fengyqf
        18
    fengyqf  
       2015-11-12 09:36:04 +08:00
    检查某个 cookie ,如缺失或非法就返回 404 (或其它异常状态)
    然后自己做个隐秘的地址生成该 cookie ,或在浏览器里手工设置 cookie-其实也算是暗网了。
    deadEgg
        19
    deadEgg  
       2015-11-12 09:40:06 +08:00
    robot.txt
    not allow : /;

    好像是这么写的 可以看看 http 权威指南
    raptor
        20
    raptor  
       2015-11-12 09:43:33 +08:00
    简单加一个 basic auth 即可
    ChanneW
        21
    ChanneW  
       2015-11-12 09:45:43 +08:00
    全部 js 生成 动态 dom
    quericy
        22
    quericy  
       2015-11-12 09:53:22 +08:00
    自己访问 host 绑域名
    站点设置只有自己本地绑的那个域名才能访问
    wubaiqing
        23
    wubaiqing  
       2015-11-12 09:55:55 +08:00
    robots.txt
    ```
    User-agent: *
    Disallow: /
    ```
    aluo1
        24
    aluo1  
       2015-11-12 10:10:15 +08:00
    @wizardoz 哦哦,谢谢 :-)
    之前看到一篇文章说到 cgi 写的网页不能被搜索引擎搜到,也不太明白
    realpg
        25
    realpg  
       2015-11-12 10:13:20 +08:00
    做一个 http basic auth ,认证提示是 密码是 123 ,密码是 123 即可
    zhanlucky
        26
    zhanlucky  
       2015-11-12 10:22:07 +08:00
    所有页面的<head>里加上 noindex 标签:
    <meta name="robots" content="noindex">
    不过注意,网站的 robots.txt 不能屏蔽搜索引擎,不然爬虫永远抓不到这个标签
    ajan
        27
    ajan  
       2015-11-12 10:25:09 +08:00
    int64ago
        28
    int64ago  
       2015-11-12 10:26:27 +08:00
    AngularJS

    or

    页面直接生成 SVG ,体验其实也很好
    gimp
        29
    gimp  
       2015-11-12 10:27:57 +08:00
    后台生成图片,返回。
    dphdjy
        30
    dphdjy  
       2015-11-12 10:29:08 +08:00
    想起来台湾那边那个 PPT 论坛。。。绝对不会被抓取~
    sneezry
        31
    sneezry  
       2015-11-12 10:29:42 +08:00   ❤️ 4
    penjianfeng
        32
    penjianfeng  
       2015-11-12 10:38:22 +08:00
    @sneezry 好主意,赞一个!
    hei1000
        33
    hei1000  
       2015-11-12 10:44:42 +08:00
    存在本地吧
    learnshare
        34
    learnshare  
       2015-11-12 10:56:03 +08:00
    Robot 规则
    caixiexin
        35
    caixiexin  
       2015-11-12 11:04:22 +08:00
    放点能被 GFW 认证的信息,然后国内各大搜索引擎就屏蔽了。
    再放点 18x 的东西,谷歌搜索默认也不显示了
    =。=
    lenovo
        36
    lenovo  
       2015-11-12 12:08:40 +08:00
    leavic
        37
    leavic  
       2015-11-12 12:10:54 +08:00
    内容全部用 javascript 呈现
    Tink
        38
    Tink  
       2015-11-12 12:19:29 +08:00 via iPhone
    全站 ajax 可以
    blahgeek
        39
    blahgeek  
       2015-11-12 12:38:18 +08:00 via iPhone
    为什么没有人说验证码呢?
    hqs123
        40
    hqs123  
       2015-11-12 12:57:18 +08:00
    这个很难做到把...
    WenJimmy
        41
    WenJimmy  
       2015-11-12 13:03:39 +08:00
    @caixiexin 哈哈哈
    bk201
        42
    bk201  
       2015-11-12 13:07:30 +08:00
    既然你自己的限制 ip 访问好了
    Shunix
        43
    Shunix  
       2015-11-12 13:49:39 +08:00
    @fengyqf 又碰见老熟人了
    Felldeadbird
        44
    Felldeadbird  
       2015-11-12 13:54:31 +08:00
    @kindjeff ajax 返回数据,谷歌照样抓。 太小看现在的技术了
    Smilecc
        45
    Smilecc  
       2015-11-12 14:33:45 +08:00
    @leavic Google 现在的技术已经可以爬到这种站点了
    ilililili
        46
    ilililili  
       2015-11-12 16:07:49 +08:00
    @dphdjy 这么有意思,啥网站
    dphdjy
        47
    dphdjy  
       2015-11-12 16:18:05 +08:00
    icon
        48
    icon  
       2015-11-12 16:24:27 +08:00
    @sneezry 这个看起来挺简单 这个方法有用吗
    hantsy
        49
    hantsy  
       2015-11-12 16:25:47 +08:00
    添加 robox 在 HTTP Server 。。。
    hantsy
        50
    hantsy  
       2015-11-12 16:28:01 +08:00
    @int64ago AngularJS 就我的经验看,只有百度蠢,解析不了指令,做 SEO 需要额外的步骤。其它的 Google , Yahoo , Bing 不需要任何设置都一样爬得出来。
    hantsy
        51
    hantsy  
       2015-11-12 16:30:12 +08:00
    @kindjeff 现在针对 Ajax , SPA 程序的专门 SEO 优化的项目大把。 Google 默认好像就根本不需要优化就可以爬 AngularJS 等。
    vmebeh
        52
    vmebeh  
       2015-11-12 16:31:21 +08:00 via Android
    主页用 js 跳转一下
    flowfire
        53
    flowfire  
       2015-11-12 16:46:35 +08:00
    除了 ban ip 之外,其他的都是防君子不防小人的做法。
    伪装 UA 又不是什么很难的事
    fengyqf
        54
    fengyqf  
       2015-11-12 18:05:03 +08:00
    @Shunix 圈子太小,逃走。。。
    ericls
        55
    ericls  
       2015-11-13 01:22:56 +08:00
    放到 tor 里
    lenovo
        56
    lenovo  
       2015-11-14 00:55:50 +08:00
    昨天把 36l 的.htaccess 换成这样貌似也可以阻止爬虫, Serf 是 pagespeed 的 UA

    Options -Indexes

    SetEnvIf User-Agent "^Mozilla" good_UA
    SetEnvIf User-Agent "^Serf" good_UA

    <Limit GET HEAD POST>
    order deny,allow
    allow from env=good_UA
    deny from all
    </Limit>
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1206 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:21 · PVG 02:21 · LAX 10:21 · JFK 13:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.