关于云爬虫用户场景和需求的讨论帖

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3289 天前的主题，其中的信息可能已经有所发展或是发生改变。

四周以来，几个小伙伴在做云爬虫易用性上下了很多功夫，功能和交互上都保持了每周两次 push 的节奏，不足还很多，现在问题是，大家对爬虫的应用场景有什么看法，我们下一步想要做定制，开放 api 。

想做到最好的造数，主页在这里 zaoshu.io

想想很欣慰，四周以前我们还是一团糟，现在已经基本功能比较清楚了，关于云爬虫的前景，应用场景，需求，希望大家都来聊聊。嘿嘿。欢迎合作

第 1 条附言 · 2016-12-07 11:32:39 +08:00

希望大家能一起探讨爬虫的应用场景和商业模式，欢迎加微信 Zaoshuio 。

第 2 条附言 · 2016-12-12 11:28:16 +08:00

这周又上了全新的 ui ，撒花，耶！

第 3 条附言 · 2017-01-10 17:04:24 +08:00

链接失效了，地址在这里：
www.zaoshu.io

场景

造数

虫

API

70 条回复 • 2017-01-10 16:16:27 +08:00

wyntergreg

2016-12-06 14:13:12 +08:00

把标换了吧，弄个纵泰的标好么...

另外，爬虫为什么要做云...

GrahamCloud

2016-12-06 14:22:54 +08:00

想做个好用的通用爬虫嘛，顺便解决数据量大硬盘不够的问题，哈哈

jccg90

2016-12-06 16:15:40 +08:00

之前用这个爬虫试了一下监控链家每日成交价。。。确实很方便，只用了几分钟就搞定了每天定时监控。。。但是。。。一周后过去看数据，结果发现竟然只保存了最近几次的结果，爬了一周的数据竟然没有保存，每天的邮件推送里面也没把数据推送过来，只是给个链接让自己过去取数据。。。虽然是免费服务吧，但是感觉数据应该按量计费而不是按次计费

akira

2016-12-06 16:25:35 +08:00

已抓取数据免费保存 1 周，付费用户保存 30 天。。。

唔。。这样的计费模式如何

Mizzi

2016-12-06 17:06:38 +08:00

爬取直接转 rss/atom

GreatMartial

2016-12-06 21:04:41 +08:00

额，好奇你们这“使用范例”，是怎么根据用户的浏览器历史自动生成的吗？

alexapollo

2016-12-06 22:29:12 +08:00

感觉这行越来越泛滥了。。技术倒都是前几年的

firefox12

2016-12-07 08:34:40 +08:00 via iPhone

你能把淘宝的各种商品爬下来吗？

bzzhou

2016-12-07 09:26:20 +08:00

做这块的太多了，做好了，分一杯羹是可以的；但是市场规模估计玄乎。

jyf

2016-12-07 10:20:53 +08:00

@wyntergreg 做雲好處是可以 cache 住對目標站點的壓力這跟某些大博主提倡大家用 rss 訂閱一個道理不過我覺得這個服務目前做得還是很一般

GrahamCloud

2016-12-07 11:28:56 +08:00

@jccg90 这个稍微有点苦衷，之前邮件出了点问题，现在这样是过渡一下。
按理说一周的数据是保存了的，我在后台再看一下。

GrahamCloud

2016-12-07 11:29:23 +08:00

@akira 还是只能按量收费，时间不是主要问题。

GrahamCloud

2016-12-07 11:30:12 +08:00

@GreatMartial 对，不一样地点不一样。

GrahamCloud

2016-12-07 11:30:39 +08:00

@alexapollo 第四周忙东忙西的，技术上好多还没上。

GrahamCloud

2016-12-07 11:31:02 +08:00

@jyf 关键就是应用场景，我觉得应用场景还需要思考。

jyf

2016-12-07 12:10:05 +08:00

@GrahamCloud 应用场景思考这个不能闭门造车最好的办法就是产品好用前期免费给大家随便用从用户的行为中去分析大众需求

GrahamCloud

2016-12-07 12:11:28 +08:00

@jyf 说得对，现在定制个人服务免费，网站功能是全免费的目前。

GrahamCloud

2016-12-07 12:12:15 +08:00

@jyf 啊，说错了，定制个人服务收费，网站功能全免费。

GrahamCloud

2016-12-07 12:13:07 +08:00

@jccg90 感觉怪不好意思的，求加微信 Zaoshuio

jccg90

2016-12-07 13:41:36 +08:00

@GrahamCloud 哈。。。没事，当时就是随手测试一下，也不是真的需要抓数据。。。感觉这种服务还是挺方便的，如果我要用的话，一般就是用这种服务做简单的页面监控用，比如就监控某个页面的某几个数据，每天定时抓下来，并保存下来。再高级点的功能就是，把每次抓到的数据聚合一下，出个表格之类的。但是只能保存最近 10 次的结果，这个就不太友好了，可以把限制改一下，比如限制保存的记录行数或者空间占用之类的。。。毕竟我每天抓几次数据，每次就存几个数，多存一些也不会额外占用资源吧

我用这种服务的话，一般都在抓很简单的，数据量很小东西的时候。。。复杂的需求或者规模大的需求，一般也不会用这种服务了

GrahamCloud

2016-12-07 14:06:21 +08:00

@jccg90 其实是没有删掉还在服务器上，之前出了个问题，就是定时任务邮件无法取消的 bug ，所以先这样过渡，实在不好意思。

lslqtz

2016-12-08 00:56:35 +08:00

@firefox12 我用着还行。。

GrahamCloud

2016-12-08 11:11:07 +08:00

@lslqtz 谢谢支持，哈哈，欢迎探讨

JoyNeop

2016-12-08 11:49:45 +08:00

@jccg90

KgM4gLtF0shViDH3

2016-12-08 17:00:49 +08:00 via Android

即刻？

GrahamCloud

2016-12-08 17:06:32 +08:00

@bestkayle 不是，就随便讨论

warjiang

2016-12-08 17:22:57 +08:00

这东西开源么？对爬虫也比较感兴趣

em70

2016-12-09 11:40:22 +08:00

建议商业模式:

工具和储存都免费开放给大家,让人用你们的工具去抓取有价值数据,然后提供一个市场来交易数据,你们从中抽成

stcasshern

2016-12-09 11:42:26 +08:00

试用了一下，首先觉得邮件注册的确很友好，但是可能不能限制用户使用...同样比较赞同按使用量计费

KenGe

2016-12-09 11:54:06 +08:00

这个字体我能吐槽吗？

GrahamCloud

2016-12-09 17:19:55 +08:00

@warjiang 目前不开源

GrahamCloud

2016-12-09 17:20:13 +08:00

@em70 想法好棒！

GrahamCloud

2016-12-09 17:20:53 +08:00

@KenGe 谢谢您的时间和耐心，谢谢。

changwei

2016-12-12 23:24:13 +08:00

使用了一下，前端做的还是很不错的，不过之前在 v2 也看到很多人在做了，持续观望 ing

SlipStupig

2016-12-13 02:22:21 +08:00

功能还是太弱了，还不能接入 sdk ，抓取速度真的好一般，如果是给一些互联网公司运营和编辑用还可以，如果想给开发者用的话，还是先开源吧

SlipStupig

2016-12-13 02:26:57 +08:00

@em70 数据堂就在做这些事情，卖数据、抽取规则还有数据 API 接口

wangxiaoer

2016-12-13 10:56:52 +08:00

春风得意，自我感觉良好，真是呵呵哒。
试用了一下，就感觉是个玩具。
不说其他，就说神箭手云爬虫，你们跟别人差的也不是一点半点

GrahamCloud

2016-12-13 11:22:21 +08:00

@SlipStupig 给不会编程的做一点简单的应用可以， api 定制是将来的方向。

GrahamCloud

2016-12-13 11:22:46 +08:00

@wangxiaoer 刚开始一个多月，肯定有差距啦。

GrahamCloud

2016-12-13 11:46:22 +08:00

@wangxiaoer 有建议直接提，这本来也是个讨论帖，也欢迎提 bug 。

phantom1124

2016-12-13 12:14:23 +08:00

只能爬取当前页吗？如果我想爬取所有分页的数据怎么做？

xycool

2016-12-13 12:49:58 +08:00

分页的数据没办法爬，我就放弃了。还是继续做神箭手的付费用户吧。。还有什么云爬虫，求推荐。

iannil

2016-12-13 13:37:53 +08:00

http://www.gamersky.com/handbook/201507/618347_5.shtml

什么元素都选不了。

hanbing135

2016-12-13 13:45:53 +08:00

能不能特定的检测某个数据变化呢比如 epub.sipo.gov.cn 我想追踪每天发明专利公开和授权的数量变化设定了这个网页抓取不到数据啊

iannil

2016-12-13 13:46:55 +08:00

桌面版的开源程序： https://github.com/ferventdesert/Hawk

和造数功能接近，很好用，可以参考。

GrahamCloud

2016-12-13 14:28:31 +08:00

@phantom1124 爬取分页在你的工作台里设置规则可以做。

GrahamCloud

2016-12-13 14:29:07 +08:00

@hanbing135 我们可以把现在的 bug 修复以后专门帮你自定义。

GrahamCloud

2016-12-13 14:29:41 +08:00

@xycool 分页现在其实是完全可以爬的，在你的控制台的设置规则里。

GrahamCloud

2016-12-13 14:41:20 +08:00

@iannil 很强大，感谢。

imn1

2016-12-13 14:59:27 +08:00

爬虫这个问题，和 ad block 工具某些方面有点类似，其目的都是帮助用户舍弃“无效信息”，直接获取“有效信息”
但争议性非常大，建议还是低调，盈利以服务性质为主，而不能以内容作为衡量
做得好，还可美其名为“聚合”，做不好、做大了还是难免成为被告的

GrahamCloud

2016-12-13 15:09:44 +08:00

@imn1 是啊，说得有道理。

graetdk

2016-12-13 15:29:34 +08:00

为啥页数只能是 1-100 ？

GrahamCloud

2016-12-13 15:33:52 +08:00

@graetdk url 总量不能太大，目前

xycool

2016-12-13 16:01:50 +08:00

@GrahamCloud 不能用正则匹配吧？是不是需要复制所有的分页 Url 。

xycool

2016-12-13 16:04:40 +08:00

@GrahamCloud 哦哦。昨天那个设置页码的页面没有弹出来，我以为不能设置分页。现在可以弹出来了。。如果有文档就好了。

GrahamCloud

2016-12-14 11:18:22 +08:00

@xycool 分页现在除了总量有限制，要改进的看来还有很多。

tikazyq

2016-12-26 21:01:20 +08:00

神箭手

hcymk2

2016-12-29 14:06:50 +08:00

支持需要登录后才能爬取的页面么?

GrahamCloud

2016-12-29 14:09:01 +08:00

@hcymk2 现在还不支持。

GrahamCloud

2017-01-04 11:23:39 +08:00

@hcymk2
@xycool
@graetdk 新的界面要出来了，谢谢大家的意见。

orzcc

2017-01-04 23:47:19 +08:00

基础服务肯定要稳定： ip 库（可分价格档）、自动打码、允许小号模拟登录、 api 导出、 api 种子导入。

最最关键当然还是稳定！稳定！稳定！不要动不动就服务宕掉、莫名的卡顿、代理 ip 全线被禁等。

GrahamCloud

2017-01-05 11:49:45 +08:00

前三个月功能迭代上心血很多，稳定性上确实……只能说逐步改进，这周马上又要出一个更好的新版了。
如果还愿意赏脸。吼吼

GrahamCloud

2017-01-05 11:50:53 +08:00

@orzcc 求加微信 Zaoshuio

GrahamCloud

2017-01-05 11:51:20 +08:00

@orzcc 求给您发红包

zjw60320

2017-01-05 16:57:02 +08:00

404 啦

GrahamCloud

2017-01-05 20:31:39 +08:00

@zjw60320 现在还 404 么

zjw60320

2017-01-06 13:36:42 +08:00

@GrahamCloud 我这还是 404 哎。。

hoocok

2017-01-10 13:15:50 +08:00

今天还是 404

GrahamCloud

2017-01-10 15:15:02 +08:00

@hoocok 求问哪个，我这边测了好多个都正常运行

alexnone

2017-01-10 16:16:27 +08:00

@GrahamCloud 低级错误超链接变成了 https://www.v2ex.com/t/www.zaoshu.io ...