如何用 PHP 搞定中文字符编码问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3987 天前的主题，其中的信息可能已经有所发展或是发生改变。

主要功能是从压缩包中读取文本文件的部分内容

现在用PHP自带的函数已经可以做到从rar及zip压缩包中直接读取文件信息，也可以直接用zip_entry_read或fread读文本的内容，现在的问题是utf-8的页面读gbk文件，读出来也无法做任何转换可能了吧，试了些转换函数，无解。

所以唯一的办法还是把文件拿出来，整个都转了以后，读内容，然后再把文件删除这种办法了么

求解！

读取

函数

搞定

31 条回复 • 2015-11-12 10:32:59 +08:00

b821025551b

2015 年 3 月 5 日

mb_convert_encoding($file, 'utf-8', 'gbk');

Jack

2015 年 3 月 5 日

@b821025551b 所以还是要转整个文件了？

lincanbin

2015 年 3 月 5 日

@Jack PHP里的编码转换函数大多数是输入一个string，而不是handle。

lk09364

2015 年 3 月 5 日

你需要 iconv ?
https://gist.github.com/applelam/16d4aa12efd27b8876ef

iyaozhen

2015 年 3 月 5 日

读出的文件内容就是字符串吧。
然后用mb_convert_encoding或iconv转换、输出不就行了。哪儿有问题？

msg7086

2015 年 3 月 5 日 via iPhone

不就是读gbk的字幕么？
拿到文字以后iconv一下就好啊

Jack

2015 年 3 月 5 日

@lincanbin
@lk09364
@iyaozhen

用
mb_convert_encoding($content,'utf-8', array('Unicode','ASCII','GB2312','GBK','UTF-8'));
转换成功了大部分，但是还是有字符的编码PHP也检测不出来是啥编码，而且这文件在mac里还能正常看到。。。但是utf8页面浏览是乱码。。。mac不是UTF-8么

lk09364

2015 年 3 月 5 日

@Jack 有例子吗？

kankana

2015 年 3 月 5 日

编码问题真心麻烦啊.

php根本没法准确地判断出用户提供的源文件内容是啥编码字符集.

试了n种方法,还是没法完美解决. 仍然有些字符呈现 black diamond with question mark, 不过好歹保存时, mongo不报错了.

现在客户提到了这个问号问题, 我都不知道怎么解决... 你让他们文件保存时,编码选择utf-8, 能听懂吗??

lz要是解决了, 麻烦提供下方案. 我目前的方法.

$encoding = mb_detect_encoding($str, "auto");
mb_substitute_character("none");
mb_convert_encoding($str, 'UTF-8', $encoding);

kankana

2015 年 3 月 5 日

我这里提供个文件供大家测试下.

http://expirebox.com/download/0b36bb0e05e52ceb66c8fc70a0eb12b0.html

看看有没有人能用php检测出这个zip的txt文件的编码字符集

kankana

2015 年 3 月 5 日

或者直接转换成utf-8不报错

zado

2015 年 3 月 5 日

先做一个高频字列表,然后把要转的字串各种可能的编码都转一遍,最后结果字串中高频字出现得多的就假定他是正确的.这是我想到的一个方法,没有实践过啊.

Jack

2015 年 3 月 5 日

@kankana 你这么写还是有问题，我那段能搞定的你这段不行

Jack

2015 年 3 月 5 日

@lk09364
http://expirebox.com/download/a6f9ca61560a889e2ebd4e47dbd5c356.html
试试这个，mac里面能打开，file_get_contents到页面中是乱码

kankana

2015 年 3 月 5 日

@Jack 额.... 可能我们两的问题不太一样.

我那边的客户都是idiot, 上传的文件编码都是不同的, 但是我还是得把内容转换成utf-8...

所以, 你的方法也不行.

convert everything to utf-8

Jack

2015 年 3 月 5 日

@kankana 我跟你的问题一样，我这边也是因为不知道上传文件的编码，每个人传的都不一样，才会来提问的。

我那个方法确实不是100%，但是能覆盖我这边90%的文件了，也搞定了你的代码搞不定的部分文件

typcn

2015 年 3 月 5 日

https://github.com/php/php-src/search?l=c&q=zip&utf8=%E2%9C%93

kankana

2015 年 3 月 5 日

@Jack

我用你的方法

mb_convert_encoding($content,'utf-8', array('Unicode','ASCII','GB2312','GBK','UTF-8'));

处理我之前给的链接的那个zip里面的txt, 还是失败了 mb_convert_encoding(): Unable to detect character encoding

我那个是txt是windows 1252编码, 你又没包含进去, 怎么能行呢? 哈哈,难道我人品问题

kankana

2015 年 3 月 5 日

再试试你的birdman文件, 你我的方法, 都是卡在 mb_convert_encoding(): Illegal character encoding specified

看样子, 咱用的php版本可能不同, 我5.6

算了,不折腾了. 洗洗睡了. 明天国外问问, 其实也不抱太大希望... 遇到这类问题的很多..

lk09364

2015 年 3 月 5 日

@Jack 这东西是UTF-16LE……OTL

http://php.net/manual/en/function.mb-detect-order.php
> For UTF-16, UTF-32, UCS2 and UCS4, encoding detection will fail always.

为什么呢… 我不知道……
我发现在我的环境里 mb_detect_encoding 不能正常分辨 UTF-8，UTF-16LE，BIG5 。

在网上东拼西拼拼出了这个东西，可以正常阅读你给出的文档。
https://gist.github.com/applelam/0497b2ce31d9784f32db

不过如果遇到UTF-16 without BOM 的话依然会出问题，
文字处理真的很麻烦呢……

@kankana 我连windows 1252 也未听说过——

Jack

2015 年 3 月 5 日

@kankana 同理。。你的代码搞不定我的搞定的，这函数还是有问题，我就是auto试过了不行才尝试的直接列出编码

Jack

2015 年 3 月 5 日

@lk09364 能否直接贴出来代码，github 100次有99次读不出来

lk09364

2015 年 3 月 5 日

@Jack http://expirebox.com/download/5c5f881dd48f6031961f6fc51d0abdf5.html

river1007

2015 年 3 月 6 日

页面中乱码？设置下meta 的content charset？

Jack

2015 年 3 月 6 日

@lk09364 感谢技术大神！小范围测试貌似没问题！

Jack

2015 年 3 月 6 日

@lk09364 经测试还是有些问题，比如UTF8的“繁体”两个字会被判断成CP936然后直接就给转成乱码了。。。为何呢

lk09364

2015 年 3 月 6 日

@Jack 对，字符数目不够的话容易出错。
比较长的字符，例如：『您好！繁体中文UTF-8 测试。都是M$的错，检测字符真的非常麻烦。』就没有问题。

所以这对于你来说问题应该不大。

Jack

2015 年 3 月 6 日

@lk09364 我测试了下。。。这还不是长度问题，不知道方便与否加下我的QQ，在个人资料里有，我这儿10行的中英文混合UTF8字符串依旧认成了别的。无解啊

lk09364

2015 年 3 月 6 日

@Jack 嗯……我说明的不太精确，应该是长字符比较容易出现高频词，所以容易辨别字符集。
不过这不代表短字符就不能判断，例如『检查』二字。

抱歉我很久没用QQ，请问有其他沟通的方法吗？例如 telegram @lk09364

Jack

2015 年 3 月 7 日

@lk09364 跟你打招呼了不知是否收到？~ telegram @JackZhang

elvba

2015 年 11 月 12 日

@lk09364
@kankana
@Jack
谢谢你们的讨论，碰到了同样的问题， mb_detect_encoding 这个函数不靠谱啊……
现在在用 @lk09364 给出最终方案，至少 UTF 系列的编码识别没问题了