四周以来,几个小伙伴在做云爬虫易用性上下了很多功夫,功能和交互上都保持了每周两次 push 的节奏,不足还很多,现在问题是,大家对爬虫的应用场景有什么看法,我们下一步想要做定制,开放 api 。
想想很欣慰,四周以前我们还是一团糟,现在已经基本功能比较清楚了,关于云爬虫的前景,应用场景,需求,希望大家都来聊聊。嘿嘿。 欢迎合作
1
wyntergreg 2016-12-06 14:13:12 +08:00 1
把标换了吧,弄个纵泰的标好么...
另外,爬虫为什么要做云... |
2
GrahamCloud OP 想做个好用的通用爬虫嘛,顺便解决数据量大硬盘不够的问题,哈哈
|
3
jccg90 2016-12-06 16:15:40 +08:00 1
之前用这个爬虫试了一下监控链家每日成交价。。。确实很方便,只用了几分钟就搞定了每天定时监控。。。但是。。。一周后过去看数据,结果发现竟然只保存了最近几次的结果,爬了一周的数据竟然没有保存,每天的邮件推送里面也没把数据推送过来,只是给个链接让自己过去取数据。。。虽然是免费服务吧,但是感觉数据应该按量计费而不是按次计费
|
4
akira 2016-12-06 16:25:35 +08:00 1
已抓取数据免费保存 1 周,付费用户保存 30 天。。。
唔。。这样的计费模式如何 |
5
Mizzi 2016-12-06 17:06:38 +08:00 1
爬取直接转 rss/atom
|
6
GreatMartial 2016-12-06 21:04:41 +08:00 1
额,好奇你们这“使用范例”,是怎么根据用户的浏览器历史自动生成的吗?
|
7
alexapollo 2016-12-06 22:29:12 +08:00 1
感觉这行越来越泛滥了。。技术倒都是前几年的
|
8
firefox12 2016-12-07 08:34:40 +08:00 via iPhone 1
你能把淘宝的各种商品爬下来吗?
|
9
bzzhou 2016-12-07 09:26:20 +08:00 1
做这块的太多了,做好了,分一杯羹是可以的;但是市场规模估计玄乎。
|
10
jyf 2016-12-07 10:20:53 +08:00 1
@wyntergreg 做雲好處是可以 cache 住對目標站點的壓力 這跟某些大博主提倡大家用 rss 訂閱一個道理 不過我覺得這個服務目前做得還是很一般
|
11
GrahamCloud OP @jccg90 这个稍微有点苦衷,之前邮件出了点问题,现在这样是过渡一下。
按理说一周的数据是保存了的,我在后台再看一下。 |
12
GrahamCloud OP @akira 还是只能按量收费,时间不是主要问题。
|
13
GrahamCloud OP @GreatMartial 对,不一样地点不一样。
|
14
GrahamCloud OP @alexapollo 第四周忙东忙西的,技术上好多还没上。
|
15
GrahamCloud OP @jyf 关键就是应用场景,我觉得应用场景还需要思考。
|
16
jyf 2016-12-07 12:10:05 +08:00 1
@GrahamCloud 应用场景思考这个不能闭门造车 最好的办法就是产品好用 前期免费给大家随便用 从用户的行为中去分析大众需求
|
17
GrahamCloud OP @jyf 说得对,现在定制个人服务免费,网站功能是全免费的目前。
|
18
GrahamCloud OP @jyf 啊,说错了,定制个人服务收费,网站功能全免费。
|
19
GrahamCloud OP @jccg90 感觉怪不好意思的,求加微信 Zaoshuio
|
20
jccg90 2016-12-07 13:41:36 +08:00 1
@GrahamCloud 哈。。。没事,当时就是随手测试一下,也不是真的需要抓数据。。。感觉这种服务还是挺方便的,如果我要用的话,一般就是用这种服务做简单的页面监控用,比如就监控某个页面的某几个数据,每天定时抓下来,并保存下来。 再高级点的功能就是,把每次抓到的数据聚合一下,出个表格之类的。但是只能保存最近 10 次的结果,这个就不太友好了,可以把限制改一下,比如限制保存的记录行数或者空间占用之类的。。。毕竟我每天抓几次数据,每次就存几个数,多存一些也不会额外占用资源吧
我用这种服务的话,一般都在抓很简单的,数据量很小东西的时候。。。复杂的需求或者规模大的需求,一般也不会用这种服务了 |
21
GrahamCloud OP @jccg90 其实是没有删掉还在服务器上,之前出了个问题,就是定时任务邮件无法取消的 bug ,所以先这样过渡,实在不好意思。
|
23
GrahamCloud OP @lslqtz 谢谢支持,哈哈,欢迎探讨
|
25
KgM4gLtF0shViDH3 2016-12-08 17:00:49 +08:00 via Android 1
即刻?
|
26
GrahamCloud OP @bestkayle 不是,就随便讨论
|
27
warjiang 2016-12-08 17:22:57 +08:00 1
这东西开源么?对爬虫也比较感兴趣
|
28
em70 2016-12-09 11:40:22 +08:00 1
建议商业模式:
工具和储存都免费开放给大家,让人用你们的工具去抓取有价值数据,然后提供一个市场来交易数据,你们从中抽成 |
29
stcasshern 2016-12-09 11:42:26 +08:00 1
试用了一下,首先觉得邮件注册的确很友好,但是可能不能限制用户使用...同样比较赞同按使用量计费
|
30
KenGe 2016-12-09 11:54:06 +08:00 1
这个字体 我能吐槽吗?
|
31
GrahamCloud OP @warjiang 目前不开源
|
32
GrahamCloud OP @em70 想法好棒!
|
33
GrahamCloud OP @KenGe 谢谢您的时间和耐心,谢谢。
|
34
changwei 2016-12-12 23:24:13 +08:00 1
使用了一下,前端做的还是很不错的,不过之前在 v2 也看到很多人在做了,持续观望 ing
|
35
SlipStupig 2016-12-13 02:22:21 +08:00 1
功能还是太弱了,还不能接入 sdk ,抓取速度真的好一般,如果是给一些互联网公司运营和编辑用还可以,如果想给开发者用的话,还是先开源吧
|
36
SlipStupig 2016-12-13 02:26:57 +08:00
@em70 数据堂就在做这些事情,卖数据、抽取规则还有数据 API 接口
|
37
wangxiaoer 2016-12-13 10:56:52 +08:00 1
春风得意,自我感觉良好,真是呵呵哒。
试用了一下,就感觉是个玩具。 不说其他,就说神箭手云爬虫,你们跟别人差的也不是一点半点 |
38
GrahamCloud OP @SlipStupig 给不会编程的做一点简单的应用可以, api 定制是将来的方向。
|
39
GrahamCloud OP @wangxiaoer 刚开始一个多月,肯定有差距啦。
|
40
GrahamCloud OP @wangxiaoer 有建议直接提,这本来也是个讨论帖,也欢迎提 bug 。
|
41
phantom1124 2016-12-13 12:14:23 +08:00 1
只能爬取当前页吗?如果我想爬取所有分页的数据怎么做?
|
42
xycool 2016-12-13 12:49:58 +08:00 1
分页的数据没办法爬,我就放弃了。还是继续做神箭手的付费用户吧。。还有什么云爬虫,求推荐。
|
43
iannil 2016-12-13 13:37:53 +08:00 1
|
44
hanbing135 2016-12-13 13:45:53 +08:00 1
能不能特定的检测某个数据变化呢 比如 epub.sipo.gov.cn 我想追踪每天发明专利公开和授权的数量变化 设定了这个网页抓取不到数据啊
|
45
iannil 2016-12-13 13:46:55 +08:00 1
|
46
GrahamCloud OP @phantom1124 爬取分页在你的工作台里设置规则可以做。
|
47
GrahamCloud OP @hanbing135 我们可以把现在的 bug 修复以后专门帮你自定义。
|
48
GrahamCloud OP @xycool 分页现在其实是完全可以爬的,在你的控制台的设置规则里。
|
49
GrahamCloud OP @iannil 很强大,感谢。
|
50
imn1 2016-12-13 14:59:27 +08:00 1
爬虫这个问题,和 ad block 工具某些方面有点类似,其目的都是帮助用户舍弃“无效信息”,直接获取“有效信息”
但争议性非常大,建议还是低调,盈利以服务性质为主,而不能以内容作为衡量 做得好,还可美其名为“聚合”,做不好、做大了还是难免成为被告的 |
51
GrahamCloud OP @imn1 是啊,说得有道理。
|
52
graetdk 2016-12-13 15:29:34 +08:00 1
为啥页数只能是 1-100 ?
|
53
GrahamCloud OP @graetdk url 总量不能太大,目前
|
54
xycool 2016-12-13 16:01:50 +08:00
@GrahamCloud 不能用正则匹配吧?是不是需要复制所有的分页 Url 。
|
55
xycool 2016-12-13 16:04:40 +08:00 1
@GrahamCloud 哦哦。昨天那个设置页码的页面没有弹出来,我以为不能设置分页。现在可以弹出来了。。如果有文档就好了。
|
56
GrahamCloud OP @xycool 分页现在除了总量有限制,要改进的看来还有很多。
|
57
tikazyq 2016-12-26 21:01:20 +08:00 1
神箭手
|
58
hcymk2 2016-12-29 14:06:50 +08:00 1
支持需要登录后才能爬取的页面么?
|
59
GrahamCloud OP @hcymk2 现在还不支持。
|
60
GrahamCloud OP |
61
orzcc 2017-01-04 23:47:19 +08:00 1
基础服务肯定要稳定: ip 库(可分价格档)、自动打码、允许小号模拟登录、 api 导出、 api 种子导入。
最最关键当然还是稳定!稳定!稳定!不要动不动就服务宕掉、莫名的卡顿、代理 ip 全线被禁等。 |
62
GrahamCloud OP 前三个月功能迭代上心血很多,稳定性上确实……只能说逐步改进,这周马上又要出一个更好的新版了。
如果还愿意赏脸。吼吼 |
63
GrahamCloud OP @orzcc 求加微信 Zaoshuio
|
64
GrahamCloud OP @orzcc 求给您发红包
|
65
zjw60320 2017-01-05 16:57:02 +08:00 1
404 啦
|
66
GrahamCloud OP @zjw60320 现在还 404 么
|
67
zjw60320 2017-01-06 13:36:42 +08:00
@GrahamCloud 我这还是 404 哎。。
|
68
hoocok 2017-01-10 13:15:50 +08:00 1
今天还是 404
|
69
GrahamCloud OP @hoocok 求问哪个,我这边测了好多个都正常运行
|
70
alexnone 2017-01-10 16:16:27 +08:00 1
@GrahamCloud 低级错误 超链接变成了 https://www.v2ex.com/t/www.zaoshu.io ...
|