V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
foreverfuck
V2EX  ›  程序员

写个爬虫爬取值得买的商品和文本会被安排进去吗?

  •  
  •   foreverfuck · 2020-04-22 17:11:56 +08:00 · 3040 次点击
    这是一个创建于 1674 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,有点急,在线等

    14 条回复    2020-04-23 19:52:53 +08:00
    youngs
        1
    youngs  
       2020-04-22 17:13:11 +08:00
    你都这么问了,说明你自己都知道有安排进去的风险的
    Cmdhelp
        2
    Cmdhelp  
       2020-04-22 17:14:42 +08:00
    你倒是说什么网站啊, 淘宝京东这么你就大胆爬,就你那点流量人家不 care
    easonHHH
        3
    easonHHH  
       2020-04-22 17:16:45 +08:00
    @Cmdhelp #2 标题不是说了吗,什么值得买
    radiocontroller
        4
    radiocontroller  
       2020-04-22 17:17:22 +08:00
    里面个个都是人才,说话又好听,超喜欢里面的感觉
    nellace
        5
    nellace  
       2020-04-22 17:19:52 +08:00 via iPhone
    值得买的数据不也是爬的嘛,进去了的话前后脚把他也拉进去呗
    Cmdhelp
        6
    Cmdhelp  
       2020-04-22 17:20:30 +08:00
    去吧 */p/ allow
    magicdu
        7
    magicdu  
       2020-04-22 17:21:15 +08:00
    打工是不可能打工的
    magicdu
        8
    magicdu  
       2020-04-22 17:21:49 +08:00
    @magicdu 遵循 robots 协议
    foreverfuck
        9
    foreverfuck  
    OP
       2020-04-22 17:23:35 +08:00
    User-agent: *
    Disallow: /fenlei/3cjiadian
    Disallow: /fenlei/jujiashenghuo
    Disallow: /fenlei/shishangyundong
    Disallow: /tag/%E4%BB%80%E4%B9%88%E5%80%BC%E5%BE%97%E4%B9%B0
    Disallow: /contact-us
    Disallow: /baoliao/
    Disallow: /*?*
    Disallow: /*=*
    Disallow: /jingxuan/xuan*


    Sitemap: http://www.smzdm.com/sitemap/smzdm_sitemap.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_youhui.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag1.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag2.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag3.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag4.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag5.xml
    EricCartmann
        10
    EricCartmann  
       2020-04-22 17:47:30 +08:00 via iPhone
    爬人家吃饭的老本是不是有点过分。
    annielong
        11
    annielong  
       2020-04-22 17:51:16 +08:00
    流量不大,频率不高一般都没事
    zictos
        12
    zictos  
       2020-04-22 18:01:39 +08:00
    @nellace 部分可能是手动发的吧?现在不止官方的人可以发,用户也可以发布优惠商品。反正他们不数据来源不单一,所以就比单一来源的爬虫更能为自己开脱
    Stain5
        13
    Stain5  
       2020-04-22 18:03:07 +08:00
    爬虫所带来风险主要体现在以下 3 个方面:违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;爬虫干扰了被访问网站的正常运营;爬虫抓取了受到法律保护的特定类型的数据或信息。那么作为爬虫开发者,如何在使用爬虫时避免进局子的厄运呢?严格遵守网站设置的 robots 协议;在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

    作者:freedomer.yu
    链接: https://www.zhihu.com/question/291554395/answer/476074383
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    tanxiaoluo
        14
    tanxiaoluo  
       2020-04-23 19:52:53 +08:00
    去星罗好货调一把 API 呗,张大妈旗下平台
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1035 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:28 · PVG 06:28 · LAX 14:28 · JFK 17:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.