搜了一圈,基本都是用 colly 这样的框架写的爬虫,有没有不用框架写的爬虫 example?
最好有以下功能: 基本的频率控制, 基本的调度控制, seesion 的维护, xpath 的使用, 主流的 http 客户端的使用(不要像 java,python 那样多个 http 客户端 api,然后专门挑了个难用的出来)。
当然,功能不全也没关系,我可以自己加上。
1
raaaaaar 2021-01-09 17:50:27 +08:00 via Android
自己造一个
|
3
ArJun 2021-01-09 18:03:52 +08:00
很多啊
|
4
wangbenjun5 2021-01-09 18:05:27 +08:00
你去写一个,发现写完不就是另一个 colly 框架么?爬虫不就是那点东西,咋写都一样
|
5
Nillouise OP @wangbenjun5 代码量不一样呀,example 200 行代码,一个文件就搞定,我改也容易改呀
|
6
wangbenjun5 2021-01-09 21:59:23 +08:00
@Nillouise 200 行哪能实现你说的那些功能。。。开玩笑
|
7
SingeeKing 2021-01-09 22:20:40 +08:00
之前完全从 0 写过一个,除了没有用 xpath 而是用的 css 选择器外 lz 写的都实现了。看了下代码行数
------------------------------------------------------------------------------- Language files blank comment code ------------------------------------------------------------------------------- Go 471 19567 15804 158022 Assembly 47 563 763 4605 Markdown 29 855 0 2411 Bourne Shell 8 108 349 676 YAML 13 45 18 455 XML 6 0 0 280 TOML 4 32 4 102 make 3 31 2 83 C 2 14 30 44 Dockerfile 1 1 0 10 JSON 1 0 0 8 ------------------------------------------------------------------------------- SUM: 585 21216 16970 166696 ------------------------------------------------------------------------------- |
8
SingeeKing 2021-01-09 22:22:00 +08:00
抱歉发出来感觉不对看了下默认把 vendor 算进去了,排除掉是
------------------------------------------------------------------------------- Language files blank comment code ------------------------------------------------------------------------------- Go 47 641 244 2461 XML 6 0 0 280 Markdown 1 82 0 133 Bourne Shell 2 19 0 60 ------------------------------------------------------------------------------- SUM: 56 742 244 2934 ------------------------------------------------------------------------------- |
9
Zhancha 2021-01-10 08:18:29 +08:00 1
我一直都是自己写的,用的是 fasthttp 还有解析库,遇到动态绑定的就使用 selenium 实现。
|
10
Nillouise OP @SingeeKing 你是实现了啥牛逼反爬功能?这代码量感觉跟基本的业务爬虫的量差好多
|
11
maocili 2021-01-11 18:30:50 +08:00 1
https://github.com/maocili/Proxy/tree/master/spiderProject 自己之前练习写的,不知道算不算
|
12
necodba 2021-03-04 23:14:14 +08:00 via iPhone
@Nillouise 最近在不同的地方用不同的,现在做的相对久一点的还是 chromedp,此外还有一个 chromedp 的改良版 rod,但是有些封装没有你说的这么全,不知道是不是都是直接拿 net 包搞的干活,只能自己造了,手动狗头
|
13
lowkey 2021-03-16 12:19:16 +08:00
github.com/go-rod/rod
这款还不错 |