V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  greatghoul  ›  全部回复第 66 页 / 共 114 页
回复总数  2273
1 ... 62  63  64  65  66  67  68  69  70  71 ... 114  
2016-10-05 15:10:02 +08:00
回复了 peneazy 创建的主题 JavaScript 各位前端,大家现在用的是 gulp 还是 grunt
gulp, grunt, rollup 都已经过时了,现在流行 sucks
2016-10-04 21:31:53 +08:00
回复了 guoker 创建的主题 随想 遇到各种傻 x
现场接一坨大便,扔出去糊在对方前挡风玻璃上面 。。。
2016-09-30 17:10:37 +08:00
回复了 otamoe 创建的主题 酷工作 [远程]成都初创公司,宅萌科技招人前往二次元混战。
二次元不错。
2016-09-30 16:08:24 +08:00
回复了 alay9999 创建的主题 Minecraft MineCraft PE 领域服, 10 人,建筑生存向,招居民
怎么加呀?
2016-09-30 09:53:15 +08:00
回复了 liuyq 创建的主题 程序员 十一的话,有什么地方适合带孩子去的。(孩子刚百天)
小区里面转转就好。
2016-09-28 21:35:25 +08:00
回复了 doubleflower 创建的主题 奇思妙想 最近在写爬虫,发现一个干死 99.9999%爬虫的办法
@yanzixuan 这个真没有研究过,以后用 firefox 作浏览器的时候,是可以多开的,彼此也可以隔离, phantomjs 应该也能做到彼此独立吧。
抬头看了也不顶用,还不如继续埋头工作。
远程支教志愿者招募
http://yizaoyiwan.com/discussions/982

楼主快去吧。
2016-09-18 13:19:46 +08:00
回复了 miaobug 创建的主题 程序员 最近在做一个要求从 IE6 开始兼容的项目...求老司机指点
推荐 table 布局,妥妥的
2016-09-17 21:36:55 +08:00
回复了 miaoxu9999 创建的主题 Python 想要自学爬虫
我就是一边学写爬虫,一边学习 py 的语法,相比干学知识点和语法,在用中学才是最棒的。
2016-09-17 09:58:54 +08:00
回复了 jybox 创建的主题 职场话题 关于刷月饼事件我来唱点反调
本来写了一堆回复,但想了想,作者的价值观和我的不符嘛,那还说个什么,干脆 block 了。
2016-09-15 18:33:00 +08:00
回复了 wl879 创建的主题 分享发现 给质疑有阅读障碍,分享一款好用的 chrome 插件
开源的吗?正在写一个类似的,不过明显你这个更好。
2016-09-15 18:03:26 +08:00
回复了 doubleflower 创建的主题 奇思妙想 最近在写爬虫,发现一个干死 99.9999%爬虫的办法
现在很多网站都是 js 动态渲染的,传统的发 request 的爬虫根本占不到 90.99999%,现在好多爬虫都是直接跑的 phantomjs ,还有跑在 Chrome Extension 上面的,那些弱鸡的规则压根不顶用,甚至还有直接截屏 ocr 的。。。

楼主你还停留在上个时代。
2016-09-15 17:56:07 +08:00
回复了 doubleflower 创建的主题 奇思妙想 最近在写爬虫,发现一个干死 99.9999%爬虫的办法
@doubleflower 那处理无限 header 呢?这总不能 stream 了吧。

都不用处理

httplib.IncompleteRead: IncompleteRead(0 bytes read)

curl 都会很快中断,还别说专门写爬虫了。
2016-09-15 17:45:30 +08:00
回复了 doubleflower 创建的主题 奇思妙想 最近在写爬虫,发现一个干死 99.9999%爬虫的办法
@doubleflower 你这规则也太简单了
2016-09-15 17:38:07 +08:00
回复了 whahuzhihao 创建的主题 程序员 freelancer 凭空扣了我的钱
2016-09-15 17:29:52 +08:00
回复了 doubleflower 创建的主题 奇思妙想 最近在写爬虫,发现一个干死 99.9999%爬虫的办法
kill 掉爬虫非常简单呀

https://gist.github.com/greatghoul/7352ba71134cf9079eb5e049c235cd64

楼主你写的爬虫太烂了。。

另外你的链接不可见,总要写在源码里面吧,人家分析你网站的时候要是觉察不出来那还写的什么爬虫,就算你随机返回,人家爬虫多测试几次就知道了,针对你的伎俩,分分钟就有应对策略了。

还什么超大响应,你不知道有 chunk 和 stream 这种东西吗?你以为那些抓取电影资源的爬虫都是把整部电影读进内存里面吗?
2016-09-15 16:48:26 +08:00
回复了 doubleflower 创建的主题 奇思妙想 最近在写爬虫,发现一个干死 99.9999%爬虫的办法
> 在网站的页面里随机插入坏链接

牺牲用户体验

> 或在检测到是爬虫时,返回无限大响应的请求

一般写爬虫超时,或者超量,就有机制自动 kill 掉了

最寂寞的就是写了一堆反爬虫的策略,发现都没有生效过,没人来爬。。。
1 ... 62  63  64  65  66  67  68  69  70  71 ... 114  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1065 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 40ms · UTC 19:26 · PVG 03:26 · LAX 11:26 · JFK 14:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.