背景
自己在一次简单的教学中,给学生讲解并手撸的项目,感觉不错,分享给大家。
项目
实现简单的爬虫系统,可创建多个爬虫,然后写对应的规则,爬取对应的内容,然后导入数据库。 类似火车头、蓝天采集等爬虫系统,目前只是基础版本。当然,轮子已经做好了,后面就根据自己的需求添加功能即可。
开源
码云: https://gitee.com/Cherry_toto/a_simple_php_crawler_system (如果觉得不错,点个 star❤)
演示
有任何问题可以在码云里留言给我!
希望对有需要的人一点帮助!
1
wework 2020-04-20 18:08:40 +08:00
谢谢分享 ,我也分享两个 PHP 采集类项目
https://github.com/jae-jae/QueryList https://github.com/cubiclesoft/ultimate-web-scraper |
2
keepeye 2020-04-20 18:09:51 +08:00
兄弟 你这代码 不考虑安全的吗?
|
4
xiaotuzi OP @wework 看过第一个 querylist,很不错的 html dom,写爬虫很简单。第二个不明觉厉,哈哈,英文不太好。我的是比较简单的吧,适合爬取一些简单的东西,如果要添加 header 这些,还需要增加一些功能,以及处理函数。其实都是比较简单的二次开发啦。
|
6
tikazyq 2020-04-21 16:23:21 +08:00
很类似 crawlab 的可配置爬虫
|