想学习爬虫,能不能推荐一个小项目并说一下思路? 比如爬随便一家公司的财务报表?
1
prasanta 2018-05-16 08:30:20 +08:00 via Android
中国商标局网的所有商标数据
|
2
nulIptr 2018-05-16 09:47:25 +08:00
所有主流直播网站的直播间(斗鱼熊猫虎牙战旗啥的)。。。然后搞出一个类似于导航网站的东西展示数据。。。
|
4
colincat 2018-05-16 11:29:40 +08:00
LZ,推荐你新闻类网站吧,基本没什么难度,挺好
|
5
chesterzzy 2018-05-16 11:34:03 +08:00
爬虫这个东西,只要是公开的、合法的数据,都可以爬来练手,当然,要注意节制
关键还是解析页面和存储数据 实在不行,爬图呗,相信许多大兄弟都是从这一步开始爬虫的(是的我也是) |
6
samding123 2018-05-16 11:49:59 +08:00
|
7
opengps 2018-05-16 13:23:43 +08:00
注意爬大站,别爬小站,小站本来资源有限,爬虫来了直接系统挂了,小心被站长发现揪出来吊打
|
9
sjmcefc2 OP @chesterzzy 有没有国外的可以爬的?
|
12
chesterzzy 2018-05-16 17:03:49 +08:00
@sjmcefc2 国外的网络不稳定,有的甚至要上代理。
还是有点不理解楼主的意思,是想要一步到位搞个大工程?还是先随便练练手? 要是随便练练手的话,随便搞个新闻聚合啊,降价提醒啊,论文爬取啊,壁纸爬取啊,妹子图爬取啊什么的都可以啊。 要想搞个大工程,那考虑的东西就多了。cookie 啊,登录啊,验证码啊,ip 代理啊,反爬虫策略啊,分布式啊等等。 好了我牛逼吹完了。。。 |
13
sjmcefc2 OP @chesterzzy 能具体说说有哪些国外的可以爬吗?金融相关的有吗
|
15
sjmcefc2 OP @chesterzzy 怎么节制?如果用 selenium 貌似不用节制吧,速度和人工差不多
|
16
whoami9894 2018-05-16 21:17:15 +08:00 via Android
难道标准的练手项目不是煎蛋吗
|
17
981764793 2018-05-17 20:42:21 +08:00 via Android
练手的话可以看看逼乎,比如爬个关注关系网,爬一下某个钓鱼问题下的所有图片,以及所有回答者的回答或提问下的回答的图
|
18
yy461530593 2018-05-18 09:18:40 +08:00
@sjmcefc2 国外的电商网站: https://www.endclothing.com/ ,爬商品列表跟商品详情试试
|
19
xiaoke0718 2018-07-02 22:21:17 +08:00 via iPhone
@opengps 你这句话确实?
|