谷歌的蜘蛛要爬那么多国家语言和地区的网页，可以做到识别网页编码方式 100%准确吗？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2954 天前的主题，其中的信息可能已经有所发展或是发生改变。

写的爬虫程序经常会遇到编码错误，想想谷歌蜘蛛要爬那么多国家语言的网页，是怎么保证网页编码的正确呢？

自己用的方法就是用 Nchardet 这样的工具先检测下，再者解析 ContentType，最后是强制 utf-8 解析下，搞不定就 pass。做不到 100%的可靠。

毕竟中文网页常用的就那么几个编码方式，谷歌爬虫要解析那么多国家语言的网页，可以做到 100%准确识别网页编码方式吗？

7 条回复 • 2017-11-29 14:45:45 +08:00

1

yu099

2017-11-29 11:46:16 +08:00 via Android

你网页打开是怎么识别编码的？别人可是有搞 chrome 的。

2

ynyounuo

2017-11-29 11:53:50 +08:00 via iPhone

@yu099 刚想说

3

fiht

2017-11-29 12:18:22 +08:00

哪啥...试试 tika...
我觉得应该是都可以识别的...

4

billion

2017-11-29 12:36:46 +08:00 via iPhone

Google 的工程师来自全球各个国家。而你只是一个中国人。

5

imn1

2017-11-29 12:57:16 +08:00

其实这个问题如果预设错误就显得很“无知”“幼稚”了
怎么能把 google 的爬虫预设跟一般人写的爬虫一样呢？

如果用中国大陆境内的服务器，爬境内的网站，简繁英以外的编码占比多少？需要所有编码逐个试一遍么？
除了 GeoIP 外，优化的方法还有很多

6

binux

2017-11-29 13:24:20 +08:00 via Android

1

直接用 chrome 就好了，如果爬虫看到的是乱码，用户看到的也是。那还爬它做什么？

7

rogwan

2017-11-29 14:45:45 +08:00 via Android

谷歌没有楼主想像的那么完美，Chrome 对没有设定 charset 的页面，一样会解出乱码。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 5135 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 06:13 · PVG 14:13 · LAX 22:13 · JFK 01:13
♥ Do have faith in what you're doing.