想学习一下爬虫,爬点公众号的文章,大佬们有什么建议吗,只需要大概的可行的方向就行,剩下的自己去研究。
网上搜到的方法都是比较老的信息,一般都不能用了
1
kof21411 2020-09-28 19:27:03 +08:00 1
爬虫写得好,坐牢坐得早,别惹南山必胜客!
|
2
pandait 2020-09-28 19:37:29 +08:00 via Android
搜狗的微信搜索,有入口。
|
3
crclz 2020-09-28 21:51:07 +08:00
几个月之前爬过,方法是用 pc 微信客户端,打开某个公众号,然后人工用鼠标往下滚动,然后右键-查看源代码,然后保存为文件,用 python 解析 dom,就可以找出地址列表。有时候请求多了,会封禁那个入口 24 小时,换个号就行了。
搜狗的微信搜索能够搜索到的极其有限。 |
4
mlhadoop 2020-09-28 23:32:27 +08:00
@crclz
``` try { const maxScroll = Number.MAX_SAFE_INTEGER; let lastScroll = 0; const interval = setInterval(() => { window.scrollBy(0, 100); const scrollTop = document.documentElement.scrollTop; if (scrollTop === maxScroll || scrollTop === lastScroll) { clearInterval(interval); //resolve(); } else { lastScroll = scrollTop; } }, 1000); } catch (err) { console.log(err); //reject(err.toString()); } ``` 不用手滑 |
5
wangyzj 2020-09-28 23:56:57 +08:00
最好的办法是逆向
其次用 appium |
6
0o0O0o0O0o 2020-09-29 00:49:32 +08:00
|
7
locoz 2020-09-29 01:35:01 +08:00 via Android
要么自动化测试,要么逆向。如果只是玩玩,那就自动化测试一把梭就行,最多十分钟就完事了。
|
9
zsdroid 2020-09-29 09:07:18 +08:00
公众号都凉透了。。。
|
11
Achiii 2020-09-29 09:38:49 +08:00
曾经想分析一个公众号里面的投票数据,先在 pc 上面滚轮加载完他的页面,保存 html 再正则。算是比较低效的方法吧
|
12
qsnow6 2020-09-29 09:41:03 +08:00
@0o0O0o0O0o #6 牛逼,真手动扒
|
13
gongfuxiongmao OP 看了大家的回复,我估计要放弃了
|