wget 是阅读软件项目文档的好帮手

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1595 天前的主题，其中的信息可能已经有所发展或是发生改变。

例如，想全面搜索.coverage，如果用谷歌的话，实际上效果并不好，只要带点符号就会出问题，更不用说使用正则或者布尔表达式搜索。

最好的办法就是将这些文档全部下载到本地，本来以为这会很麻烦，没想到 wget 自带这个功能，例如下载poetry的文档，用wget -r -np -nc -k -c 'http://python-poetry.org/docs'。

对于很多没有自带 pdf 文档下载服务的项目很有用。

第 1 条附言 · 2021 年 9 月 21 日

由于下载完成之后还需要进行转换，所以如果没有完全下载完，那么你会发现网页中的样式和图片好像都有些问题不过不用担心，全部完成之后这些问题都会解决。

wget

文档

下载

poetry

11 条回复 • 2021-09-22 01:02:10 +08:00

yuhangch

2021 年 9 月 21 日

谢谢分享，内网机真挺需要的

thetbw

2021 年 9 月 21 日

浏览器上 ctrl+s 保存网页这种？

AndyAO

2021 年 9 月 21 日

(⊙o⊙)…
thetbw 这位老兄看来是将俺当做傻子了，自己试试不就知道了

delectate

2021 年 9 月 21 日

楼主的方法，具有特异性，也就是说只有纯文本且易被 wget 爬取的网站才能这样操作。

如果网站目录很深，或者很庞大，或者有很多图，本地要爆炸，不如写个爬虫爬下来存数据库。

sleeepyy

2021 年 9 月 21 日

@delectate 楼主限定的 “阅读软件项目文档” 的场景，应该来说问题还是不大的

stephCurry

2021 年 9 月 21 日

直接 `wget -r 'url'` 不行吗？

youxiachai

2021 年 9 月 21 日

wget 不是有镜像下载功能吗。。

kkocdko

2021 年 9 月 21 日

@delectate 确实，这种爬取方式对很多网站，特别是花里胡哨的前端框架文档都不适用。
我习惯于从 GitHub 上直接获取 Docs 文档，比如这样： https://github.com/vuejs/docs-next-zh-cn/tree/gh-pages

kkocdko

2021 年 9 月 21 日

@kkocdko 直链： https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/master.zip
这样就能直接下载构建好的文档了。不过这显然也不是通用的方案。。。

learningman

2021 年 9 月 21 日 via Android

@kkocdko 你下 master 还得 npm 编译吧。。。

kkocdko

2021 年 9 月 22 日

@learningman 诶，这似乎是 GitHub 的 Bug ？切换分支后下载按钮依然是 master 的链接？
更正： https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/gh-pages.zip