有什么办法吧一个网站上的文章都爬取下来吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1654 天前的主题，其中的信息可能已经有所发展或是发生改变。

我想把一个网站上的文章爬取下来，有没有办法可以自动触发 chrome 插件（简悦），他可以重新排版，保存的日记中。但是怎么批量的去做这件事情呢？大家有什么 idea ？

悦读

排版

Chrome

文章

18 条回复

6J73U552K5UVij4R

2021 年 7 月 13 日

用 selenium ？然后加载的时候把 chrome 插件 load 进去，再用 xpath 操作？

hackingwu

2021 年 7 月 13 日

@2G 我们可以去触发插件的按钮吗

itechify

PRO

2021 年 7 月 13 日

爬虫爬得好

ingdawn

2021 年 7 月 13 日

坐牢坐到老

seamonster

2021 年 7 月 13 日

真刑啊，日子越来越有判头了

zelentre

2021 年 7 月 13 日

很刑.

HankLu

2021 年 7 月 13 日

很简单

ztcaoll222

2021 年 7 月 13 日

先这样

HashV2

2021 年 7 月 13 日

再这样

tojike

2021 年 7 月 13 日

进去进得早

yunyuyuan

2021 年 7 月 13 日

然后再这样

nepiedg

2021 年 7 月 13 日

最后在这样

jingcoco

2021 年 7 月 13 日

有个网联网记忆的工具，初衷是解决有些网站过了几年下线了没法看的问题。

kasusa

2021 年 7 月 13 日

python 写，selenium 库，模拟点击按钮，用 xpath 定位下一篇按钮，刷新再来。
就这么个流程吧。
不过我感觉网上还是垃圾信息多。都爬下来有什么用呢？

caicaiwoshishui

2021 年 7 月 13 日 via iPhone

楼上队形笑死我

6J73U552K5UVij4R

2021 年 7 月 14 日

@hackingwu 可以的，用 js dom 就可以，xpath 估计也可以。

solopython

2021 年 7 月 14 日

试试 Newspaper3k

muzuiget

2021 年 7 月 14 日

写个浏览器扩展就可以了，专事专办。