例如,想全面搜索.coverage
,如果用谷歌的话,实际上效果并不好,只要带点符号就会出问题,更不用说使用正则或者布尔表达式搜索。
最好的办法就是将这些文档全部下载到本地,本来以为这会很麻烦,没想到 wget 自带这个功能,例如下载poetry
的文档,用wget -r -np -nc -k -c 'http://python-poetry.org/docs'
。
对于很多没有自带 pdf 文档下载服务的项目很有用。
1
yuhangch 2021-09-21 11:26:12 +08:00
谢谢分享,内网机真挺需要的
|
2
thetbw 2021-09-21 15:51:46 +08:00
浏览器上 ctrl+s 保存网页这种?
|
3
AndyAO OP (⊙o⊙)…
thetbw 这位老兄看来是将俺当做傻子了,自己试试不就知道了 |
4
delectate 2021-09-21 17:57:16 +08:00
楼主的方法,具有特异性,也就是说只有纯文本且易被 wget 爬取的网站才能这样操作。
如果网站目录很深,或者很庞大,或者有很多图,本地要爆炸,不如写个爬虫爬下来存数据库。 |
6
stephCurry 2021-09-21 19:29:04 +08:00
直接 `wget -r 'url'` 不行吗?
|
7
youxiachai 2021-09-21 22:31:01 +08:00
wget 不是有镜像下载功能吗。。
|
8
kkocdko 2021-09-21 23:02:04 +08:00
@delectate 确实,这种爬取方式对很多网站,特别是花里胡哨的前端框架文档都不适用。
我习惯于从 GitHub 上直接获取 Docs 文档,比如这样: https://github.com/vuejs/docs-next-zh-cn/tree/gh-pages |
9
kkocdko 2021-09-21 23:03:46 +08:00
@kkocdko 直链: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/master.zip
这样就能直接下载构建好的文档了。不过这显然也不是通用的方案。。。 |
10
learningman 2021-09-21 23:13:08 +08:00 via Android
@kkocdko 你下 master 还得 npm 编译吧。。。
|
11
kkocdko 2021-09-22 01:02:10 +08:00
@learningman 诶,这似乎是 GitHub 的 Bug ?切换分支后下载按钮依然是 master 的链接?
更正: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/gh-pages.zip |