之前发布了两个主题
聚合浏览网页的 PHP 源码或者软件有吗 www.v2ex.com/t/680814
Python 爬虫 请教能实现我的这两点吗? www.v2ex.com/t/681172
都不太理想.可能是我表达问题的方式不对.
要求如下
1-10 网站 自己写采集规则 采集到标题 跟链接 入库 方便自己索引
采集到的 标题跟 url 按照抓取到的更新时间排序
可以选择查看 1-10 某个网站所采集的全部文章(不需要内容 只需要标题 跟 url)
应该 php 能够实现 我的需求.请指点学习方向
1
Luoyuanlong 2020-06-15 21:21:46 +08:00
我之前做过 Java 论坛爬虫,多个论坛的信息抽取规则我将其分别写成一条类选择( document.select())语句,然后作为相应论坛的模板属性,爬取论坛的时候,使用 JEXL 执行此语句,得到执行结果,就是需要抽取的论坛信息。
|