1. 下载方面
我是在
https://omahaproxy.appspot.com/ 这里查找最新的 stable 版本, 然后在
https://commondatastorage.googleapis.com/chromium-browser-snapshots/index.html 这里找到特定的版本, 六位数字的那个不确定是分支号还是什么号. 每次 stable 版本都找不到, 是因为 stable 版本都变成 Chrome 了吗?
之所以要下 Linux 编译好的通用版本, 主要还是更新比较方便, 直接 unzip 就可以用了, Chrome 的话安装起来不如这种绿色版简单. 因为机器数量不一定, 没法一个个安装, 所以目前是通过挂 NAS 共享盘的方式来启动 Chromium 的
2. 虚拟内存方面
Chromium 内存已经比较可控了, 平时写爬虫单 Tab 物理内存最少 50 MB 左右, 多的时候 100 出头(屏蔽了图片, css, 视频). 然而虚拟内存直接飙升到几十 GB. 88 版本以前处理一些页面逻辑比较多的(Facebook 登录后) 虚拟内存能到 20GB+, 然而 89 版本以后, 直接 40GB+ 虚拟内存了, 这个用了各种命令行参数都没成功降下来
主要是跑在 Hadoop Streaming 上面的一些爬虫, 物理虚拟内存比例已经调整到 1:20 了, 还是不靠谱, 也不敢完全放开内存限制.