1
jasya 2013 年 8 月 10 日
_(:3」∠)_来写写练练手可以吗
|
2
kenneth 2013 年 8 月 10 日
@Ariagle 我可以提供全套的抓取解决方案,范例:www.mvmap.com
|
3
chengyuhui 2013 年 8 月 10 日 喵w
|
4
davepkxxx 2013 年 8 月 10 日
惊现圆长
|
5
Ariagle OP |
8
kenneth 2013 年 8 月 10 日
@Ariagle 爬的同时,可以帮你把图片生成各种尺寸,按路径规则保存,等比例缩略+水印。爬虫全自动,无人值守,自动更新。mvmap就是全自动更新,不需要维护的。
|
11
jasya 2013 年 8 月 10 日
来了个高端人士...匿了..(´・ω・`)
|
16
kenneth 2013 年 8 月 10 日 @gullon 我会各种各样的爬虫,各种各样的语言的爬虫方案。Scrapy只是一个方案,mvmap用的不是这个方案。爬虫的难点在于,分布式,异步,并发,队列,数据管道,数据持久化等,考虑的点有很多。但是灵活的用。
|
17
fetchcoin 2013 年 8 月 10 日
不就一定向采集吗?为啥不用火车头,耗费人力物力自己写?
|
20
gullon 2013 年 8 月 10 日
@kenneth 多谢指教。
但分布式,异步,并发,队列,数据管道,数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧?对普通的数据采集需要考虑这么多因素么? |
22
lewisc402 2013 年 8 月 11 日
@kenneth 问个问题:假设我想用爬虫访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 一般有哪几种方案可以解决这个问题??
|
24
chengyuhui 2013 年 8 月 12 日
@binux 一般的站点用jsdom甚至更简单的一些HTML Parser就能搞定
最蛋疼的就是那些各种AJAX的Web App..... |
25
binux 2013 年 8 月 12 日
@chengyuhui 我指的是,对不同的网站“自动”提取结构化数据
|
28
F0ur 2013 年 8 月 12 日
搬凳子听讲课。。平时爬虫接触的真心不多
|
29
emohacker 2013 年 8 月 24 日
用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作,server端用jQuery操作dom获取指定内容,极大降低了门槛,不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
请问楼主选择node是否处于这方面的考虑? |
30
Ariagle OP @emohacker 是的,若原本就懂类JQuery的选择器操作,那会有天然的优势。另外就是相对诸如Python等其他后端语言,我们对JS更熟一些。
|
31
xieren58 2013 年 8 月 25 日
用上node的cheerio,我和我的小伙伴们都惊呆了 ~~
|
32
gdzdb 2013 年 8 月 29 日
我也来推荐一个node的爬虫模块:https://github.com/cgiffard/node-simplecrawler
|
33
ling0322 2013 年 8 月 29 日
咱报个名呢> <
|
34
jinwyp 2013 年 8 月 30 日
没人用phamtomjs? 和node phamtom
|
35
martinbruce 2013 年 8 月 30 日
@kenneth 这方面的高手啊! 求携带,最近一直在研究crawler
|
36
kenneth 2013 年 8 月 30 日
@martinbruce 欢迎来我网站和我交流mvmap.com,或者直接加我QQ:50009371
|
37
kenneth 2013 年 8 月 30 日
|
38
clowwindy 2013 年 8 月 30 日
@kenneth 非定向抓取去重是个难题,我们以前的搜索项目也遇到了,没有很好的解决。比如爬淘宝,如何发现商品,如果顺着链接忙爬,会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的,结果条目也大量重复。我们虽然尝试用一些模型去学习和预测,但效果很差。最后只能单纯限制抓取深度。
|
40
TimePower 2013 年 8 月 31 日
你们服务器被墙了~?
|