V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sohoer  ›  全部回复第 6 页 / 共 35 页
回复总数  696
1 ... 2  3  4  5  6  7  8  9  10  11 ... 35  
2016 年 4 月 11 日
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
2016 年 4 月 11 日
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@leehon 一直都是一个人开发

有时候想想都觉得自己很强大,坚持这么久做一件事情
无数次编译,数不清的重构,每一次重构都很痛苦
刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器
后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS )
基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持
目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度,
谁让我想吃免费的蛋糕呢!

最后大家都能有免费蛋糕吃
2016 年 4 月 11 日
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode
被墙的资源如 GAE 请使用 linode(海外节点)访问
2016 年 4 月 11 日
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@FanError 请切换到海外节点,在 LOGO 边上
2016 年 4 月 11 日
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@kukat 还没有,之前准备用 BWG 做 DOCKER 弄了好久发现不支持,后续会加上

不有安装脚本也还方便吧


@mew7wo 有任何意见,建议请给我留言,重构太多目前应该还有不少 BUG
2016 年 4 月 11 日
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@rubyvector 可以实现基于代理池的网页抓取插件,也可以是独立于采集器的多线 ADSL+ROS 解决方案
其实我的终极目标是基于鸟巢采集器做爬虫共享

多谢各位的友情支持
2016 年 4 月 8 日
回复了 jack2code 创建的主题 分享发现 一键出书, O'Reilly 出版,童叟无欺,你也可以!
2016 年 4 月 7 日
回复了 odirus 创建的主题 问与答 爬虫请教,请问如何爬 "http://www.kuaidaili.com/" 的数据
更正一下,看了半天源码发现有 API
Status >= 400 时可以通过 HttpURLConnection getErrorStream() 获取 InputStream;
2016 年 4 月 7 日
回复了 odirus 创建的主题 问与答 爬虫请教,请问如何爬 "http://www.kuaidaili.com/" 的数据
JAVA API HttpURLConnection 还不支持 521 拿不到那段源码
2016 年 4 月 7 日
回复了 odirus 创建的主题 问与答 爬虫请教,请问如何爬 "http://www.kuaidaili.com/" 的数据
521 不是标准的 http status code ,是他自定义的,
浏览器会把他当成 200 解析

还是 Fiddler 好, chrome 、 ie 都看不到那段 js 加密跳转代码
2016 年 3 月 31 日
回复了 gkiwi 创建的主题 程序员 爬虫挑战。。求支援
CSS 与 PNG 图片是一一对应的,只能通过 CSS 位置再切字符图片做 OCR 处理
这个 OCR 已经很简单了,转成位图多少个字符做多少个模板,(还可以使用相似度匹配算法,基本上 100%正确)
对字符做 OCR 后可以得到一张 CLASS 对应字符的表
2016 年 2 月 22 日
回复了 wangleineo 创建的主题 问与答 怎样设计一个分布式的爬虫服务?
一个 Crawler 负责任务调度,将需要采集网址通过负载均衡的方式分发给其它 Crawler
2016 年 2 月 22 日
回复了 kelos 创建的主题 问与答 想写个爬虫程序,用什么技术好,谁能帮我呢
2016 年 1 月 28 日
回复了 himacat 创建的主题 问与答 求一个 http 代理服务器部署及管理系统。
docker ?
2016 年 1 月 20 日
回复了 Neagle 创建的主题 Python 怎么维护 爬虫代理池谢谢
淘宝买 的那些代理维护成本太高不建议用
ROS+多路 ADSL 是不错的多 IP 方案
也可以看看这个
https://luminati.io/
2016 年 1 月 14 日
回复了 xiyangyang 创建的主题 问与答 要做采集系统,怎么设计采集系统的架构最好
跟我合作吧,完全满足

https://coding.net/u/speed/p/newcrawler/paas
test
test
2016 年 1 月 1 日
回复了 alertpic 创建的主题 职场话题 大龄程序员生存攻略......
当没有房贷没有压力的时候,生活就会过得比较安逸,只有压力大的时候才会想着法子去赚钱。
仔细想想有压力的人创业与没压力的人创业肯定不一样,创业真不应该给自己留退路,这样至少成功的希望会大些
2015 年 12 月 7 日
回复了 valjean 创建的主题 问与答 各位关于买春节票有什么高招吗?
准备明天开三台阿里云服务器刷,安装抢票软件的镜像已经备好,
抢到了我再来回复
2015 年 12 月 2 日
回复了 88250 创建的主题 分享创造 Java 开源博客 Solo 1.2.0 发布 - 一键启动
内嵌 JRE 太大了是吧,最好还是用脚本一键安装
2015 年 11 月 19 日
回复了 tinywenwen 创建的主题 深圳 求合租,桃园地铁站附近。预算 900。求好心 V 友收留。
楼主是妹子没人收留
1 ... 2  3  4  5  6  7  8  9  10  11 ... 35  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1282 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 17:32 · PVG 01:32 · LAX 09:32 · JFK 12:32
♥ Do have faith in what you're doing.