V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gzdaijie
V2EX  ›  程序员

独立博客被各种聚合网站爬,好心累。

  •  
  •   gzdaijie ·
    geektutu · 2019-06-29 12:23:19 +08:00 · 19194 次点击
    这是一个创建于 1974 天前的主题,其中的信息可能已经有所发展或是发生改变。

    博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

    删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

    百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

    最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

    但是,但是,但是。

    最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

    甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

    无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

    如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

    https://geektutu.com

    第 1 条附言  ·  2019-07-01 17:01:21 +08:00
    主题 Github 地址: [geektutu 极速加载的 hexo 主题]( https://github.com/geektutu/hexo-theme-geektutu)
    156 条回复    2019-07-02 11:39:18 +08:00
    1  2  
    1981
        101
    1981  
       2019-06-30 08:35:24 +08:00
    想打赏,但是图片不显示....
    1981
        102
    1981  
       2019-06-30 08:37:43 +08:00
    另外评论模块我
    Google Chrome 已是最新版本
    版本 75.0.3770.100 (正式版本) ( 64 位)
    点击无效,,头大
    gzdaijie
        103
    gzdaijie  
    OP
       2019-06-30 08:56:12 +08:00
    @1981 #102 我的浏览器也是 75.0.3770.100 (正式版本)( 64 位),估计是网络问题,有东西没加载完,你可以微信扫一扫,在微信里试一试?微信里能评论,长按二维码能打赏。兼容性的问题,当时考虑了 IE11, Chrome,Safari 和 Firefox。
    gzdaijie
        104
    gzdaijie  
    OP
       2019-06-30 08:58:16 +08:00
    @GTim #99 哈哈,我原来也不写心得,现在也开始写感悟了,博客折腾记。有时觉得比技术文章更有价值,总结后自己也学到了不少。
    mfu
        105
    mfu  
       2019-06-30 09:05:29 +08:00
    被采说明干货多质量高啊,挺不错的。像我的博客,全是湿货水货,每天访问量:0。:(
    RadishWind
        106
    RadishWind  
       2019-06-30 09:59:20 +08:00
    我一般在 github 的 issue 里面写 blog 还不错 没人爬 就自己和 g 友看
    gzdaijie
        107
    gzdaijie  
    OP
       2019-06-30 10:22:45 +08:00
    @RadishWind #106 其实满建议用 github 的 pages 的,issue 搜索不够友好,然后展示也受限。随便找个 静态框架,markdown 扔进去,一把生成了往主干一推了事~
    gzdaijie
        108
    gzdaijie  
    OP
       2019-06-30 10:25:27 +08:00   ❤️ 1
    @mfu #105 我觉得你的博客也蛮有意思的~ 我觉得只要是原创的,肯定能吸引兴趣相似的人来看,至少真实呀,背后是一个真实在思考问题,在做总结的人。
    1981
        109
    1981  
       2019-06-30 11:23:40 +08:00
    @gzdaijie ae01.alicdn.com/kf/HTB1d.7leCSD3KVjSZFK76210VXaG.png
    f*q 出去了还是不行,可以试试把图片托管到第三方,,GitHub 我这里 10kb 的加载速度 着实让人着急
    storypanda
        110
    storypanda  
       2019-06-30 11:33:24 +08:00 via Android
    这么看幸好我的博客很乱,生活日记、设计分享、技术笔记等,我都不关心是否有人转载..
    JamesMackerel
        111
    JamesMackerel  
       2019-06-30 13:36:38 +08:00 via iPhone
    照这个思路,是不是也可以举报一把那些机翻 stackoverflow 的网站。
    BFDZ
        112
    BFDZ  
       2019-06-30 13:59:54 +08:00
    如果你博客在国外的话,可以时不时写些违禁内容,盗版、擦边色情、非法信息,他们采集了然后就去工信部举报
    opengps
        113
    opengps  
       2019-06-30 14:26:56 +08:00
    @BFDZ 666
    RiESA
        114
    RiESA  
       2019-06-30 15:25:12 +08:00
    这边负责的网站也时常被这种聚合网站爬,而且爬过去的内容各种水印乱加,这倒是其次,我心疼 https 请求数钱
    t2win
        115
    t2win  
       2019-06-30 16:02:10 +08:00
    支持原创!
    大神们加油!
    有您们付出世界才会文明起来😉
    那怕一丁点~
    但一人一丁点就是大海了

    祈祷 DDT 的出现🛐
    exceloo
        116
    exceloo  
       2019-06-30 16:35:45 +08:00
    都是干货啊, 楼主不考虑搞个公众号嘛
    liuzhiyong
        117
    liuzhiyong  
       2019-06-30 17:07:52 +08:00 via Android
    @BFDZ 这个办法不错,哈哈。
    LZSZ
        118
    LZSZ  
       2019-06-30 17:23:53 +08:00
    @gzdaijie 快版权维权服务你了解一下看看,我今天浏览网页的时候发现别人文章最后有这么一段话:“本文章作者已签约快版权维权服务,转载请经过授权,侵权必究。”。
    jorneyr
        119
    jorneyr  
       2019-06-30 17:28:08 +08:00   ❤️ 1
    有点矫情了,总共才 14 篇文章呢,不过大家现在知道你的博客了,推广效果不错。
    rudyyuan
        120
    rudyyuan  
       2019-06-30 17:53:05 +08:00 via Android
    怕被爬,还在各种网站上留自己的博客鸭,这是…
    skiy
        121
    skiy  
       2019-06-30 18:01:58 +08:00 via Android
    @gzdaijie 加 google map
    gzdaijie
        122
    gzdaijie  
    OP
       2019-06-30 19:22:02 +08:00
    @jorneyr #119 我说了,我写了两年了,之前被爬走几十篇全删了,这个月又才写了几篇。大家探讨,可以少走弯路。比如反爬,水印,sitemap,spam report,全文爬的头条平台,等等。两年前知道这些,也不至于现在才从头开始摸索。我分享了我的经历,大家能够从中看到自己能用上的方法,目的就达到了。
    gzdaijie
        123
    gzdaijie  
    OP
       2019-06-30 19:35:00 +08:00
    @rudyyuan #120 觉得爬不好针对的是采集的人,留自己的博客是给觉得文章有用的人看,我觉得没什么矛盾的。

    谴责、沟通、举报,我没有说半个怕字,我说的是我维权的经历和效果,大家觉得对自己建站有用,那就可以用。而且大部分评论都分享了很多自己的方法。这个帖子收藏量是评论量的 5 倍左右,大部分博主是有共鸣的。
    gzdaijie
        124
    gzdaijie  
    OP
       2019-06-30 19:37:11 +08:00
    @RiESA #114 哈哈,心疼请求数钱,估计你的图片和视频比较多,我的基本是文字,对象存储,一个月还花不了几个 G。
    gzdaijie
        125
    gzdaijie  
    OP
       2019-06-30 19:38:49 +08:00
    @JamesMackerel #111 允许翻译的内容,怎么翻译都是不侵权的。主要是机翻的内容,还被各种采集,就蛋疼了。真正好好翻译的内容,估计就沉了。机翻数量大,也成体系。
    gzdaijie
        126
    gzdaijie  
    OP
       2019-06-30 19:40:36 +08:00
    @exceloo #116 感谢你的认可~ 暂时就不分心了。先琢磨着怎么把原创内容搞起来,让谷歌对我友好一点。
    gzdaijie
        127
    gzdaijie  
    OP
       2019-06-30 19:42:41 +08:00
    @LZSZ #118 我注册了,杭州的一家公司提供的服务,不过用不用再考察下,因为被爬对利益倒是没啥损失,主要是心累。推荐给全职写文的童鞋试一试~
    gzdaijie
        128
    gzdaijie  
    OP
       2019-06-30 19:44:43 +08:00
    @skiy #121 你说的应该是 sitemap 吧,我现在发了后,第一时间到 Google Search Console 刷新,有一次十分钟就被爬了,冒了点冷汗。
    gzdaijie
        129
    gzdaijie  
    OP
       2019-06-30 19:48:18 +08:00
    @1981 #109,谢谢你的建议,刚刚花时间优化了这一部分,二维码不放图片了,传入链接动态生成。这样一个页面又少了 40Kb 的大小。Git 评论 js 插件,放到七牛云上去了,原来 unpkg 确实慢了点,不过评论调用 Github 的接口,这个速度不太可控,偶尔快,偶尔慢的,自己电脑也是。
    JamesMackerel
        130
    JamesMackerel  
       2019-06-30 20:08:29 +08:00
    @gzdaijie 主要是这些网站机翻的质量实在太差,我还不如读英语,而且最蠢的是他机翻之后还不给原文的链接。我感觉非常的难受。
    zkqiang
        131
    zkqiang  
       2019-06-30 22:57:56 +08:00
    他们这些聚合网站都是一些通用爬虫,你多做一些反爬和 Ajax 就可以恶心死他们
    ggicci
        132
    ggicci  
       2019-07-01 01:40:19 +08:00
    robots.txt 管用不。。。
    HangoX
        133
    HangoX  
       2019-07-01 09:42:38 +08:00
    @BFDZ 你这个操作很骚
    HangoX
        134
    HangoX  
       2019-07-01 09:43:23 +08:00
    我现在搜索都是加上-csdn 的,不然东西没法看
    ylsc633
        135
    ylsc633  
       2019-07-01 09:46:30 +08:00
    可以用 js 渲染的前端页面!

    这样 不过 国内搜索引擎可能收录不到!

    不过不影响谷歌等收录!
    myhot21
        136
    myhot21  
       2019-07-01 09:51:49 +08:00
    网上有原创内容版权交易平台,找一下他们,看下能不能帮忙维权。
    gzdaijie
        137
    gzdaijie  
    OP
       2019-07-01 09:59:07 +08:00
    @ggicci #132 robots.txt 是爬虫的君子协定,约束搜索引擎的行为的。爬虫站长不会管这些的。
    gzdaijie
        138
    gzdaijie  
    OP
       2019-07-01 10:02:13 +08:00
    @ylsc633 #135 嗯,这个暂时是谷歌的私有协议,还没被广泛使用,估计也没有直接渲染的效果好。不然大家也不用想尽办法,做 Server Sider Render 了。React/Vue 这些框架对 SSR 都支持得挺好的。
    gzdaijie
        139
    gzdaijie  
    OP
       2019-07-01 10:03:34 +08:00
    @BFDZ #112 我默默背起了社会主义核心价值观。
    gzdaijie
        140
    gzdaijie  
    OP
       2019-07-01 10:06:02 +08:00
    @HangoX #134 我最近发现 bing 也是提交后,也是即时收录的。不过 bing 的份额太小了,估计注册的站长也少。CSDN 实在是没法看了。权重再高,给个五条显示不就好了,非要占据 10 页 10 页 10 页。
    gzdaijie
        141
    gzdaijie  
    OP
       2019-07-01 10:09:16 +08:00
    @myhot21 #136 写博客不指望有啥收益,目前主要是心累,站点之前被谷歌认定为抄袭站了。所以只要保证我的搜索结果在前面,就 OK 了。不过以后写得多了,可以考虑下版权平台,毕竟没有那么多精力天天举报。
    tt67wq
        142
    tt67wq  
       2019-07-01 10:11:22 +08:00
    我的垃圾博客都没人爬
    kokdemo
        143
    kokdemo  
       2019-07-01 11:19:20 +08:00
    申请加你友链了
    Youngxj
        144
    Youngxj  
       2019-07-01 11:34:13 +08:00
    我的辣鸡博客被某些教学网盗版的干干净净的
    ylsc633
        145
    ylsc633  
       2019-07-01 11:44:08 +08:00
    我有突然想到一条, 可以试试 针对爬虫,走正常渲染页面! 如果普通用户进来, 加个密码访问,密码就放在页面!

    除非这些乱爬的网站是人工的,不然我感觉应该没有这么智能吧!

    虽然有点复杂!

    这样别人一样能搜索到,就是访问的时候 需要填个密码而已!
    ggicci
        146
    ggicci  
       2019-07-01 12:43:31 +08:00
    @gzdaijie 主要还是版权维护不够狠,作恶成本低,我从来不看中文博客就是从 csdn 这种垃圾平台开始的。
    gzdaijie
        147
    gzdaijie  
    OP
       2019-07-01 12:57:18 +08:00
    @tt67wq #142 你写的文章也蛮多的,github issue 的方式天生反爬虫了。整理成一篇文章,多蛋疼。
    gzdaijie
        148
    gzdaijie  
    OP
       2019-07-01 13:17:15 +08:00
    @kokdemo #143,好哒,看到了,晚上回家链上,到时给你回复~
    gzdaijie
        149
    gzdaijie  
    OP
       2019-07-01 13:20:47 +08:00
    @Youngxj #144 看了你的站点,大佬谦虚了,质量都很高,肯定投入了很大精力的。
    gzdaijie
        150
    gzdaijie  
    OP
       2019-07-01 13:22:02 +08:00
    @ylsc633 #145,这个自损 800 了,这个月迁移到静态博客+对象存储了,原来折腾服务器,维护起来太累,所以后端能做的比较少。
    rudyyuan
        151
    rudyyuan  
       2019-07-01 16:56:46 +08:00 via Android
    @gzdaijie 我的博客快七年了,早就被抄袭得不成样子了,理解你的感受的
    gzdaijie
        152
    gzdaijie  
    OP
       2019-07-01 17:05:42 +08:00
    @rudyyuan #151 看到了你一直维护的网站,佩服你的坚持。另外,vimjc 这个域名很赞。
    ahaxzh
        153
    ahaxzh  
       2019-07-01 23:38:11 +08:00
    好奇的问一下:
    1,可否像 BBS 一样加一些隐藏字符呢?就是背景色文字,很多论坛都有这种处理,感觉乱码占了大概 20% - 40%
    2,配图,是否可以设定好不能外链只能本站使用呢?

    以上,突然冒出来的想法,但是我觉得可能都有点洁癖,有这些设置(包括我看到你图片伤的 logo )实在会让自己有点不舒服。
    gzdaijie
        154
    gzdaijie  
    OP
       2019-07-02 09:21:18 +08:00
    @ahaxzh #153 是这样的,加隐藏字符和背景色文字无效的,因为爬取的是 html 内容,样式是可以设定的。如果内容直接乱码的话,技术文章,估计就没法看了。不太好联想。第二个问题,爬虫爬取,连图片都爬的,上载到他自己的服务器了,链接不会指向原站的。

    图片加可见 logo,是最后能看到我域名的地方了。可能我的 logo 位置不太统一,颜色上也比较突兀,下次我会注意一点,尽量风格统一,不影响视觉。

    非常感谢你的提醒了~
    wednesdayco
        155
    wednesdayco  
       2019-07-02 11:20:32 +08:00
    字体映射了解一下,不用全部映射,只需要做个别字符的映射即可,这样它爬到到东西就是:“王八坨子前端工程师”。实际显示文字:“我是一名前端工程师”
    pflhm2005
        156
    pflhm2005  
       2019-07-02 11:39:18 +08:00
    我的垃圾博客都有人爬,csdn 的杂种。。。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2792 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 13:16 · PVG 21:16 · LAX 05:16 · JFK 08:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.