导入一个 sas 文件到 R 里,好多内容是类似\U3e38623c\U3e66643c\U3e30643c\U3e32633c\U3e37633c\U3e38663c 这样的编码,用 iconv 转换了一圈都不对,不知道是哪种编码
\U3e61633c\U3e30643cֱϽ\U3e66633c\U3e37653c
\U3e64623c\U3e35663c\U3e64623c\U3e64613c\U3e37633c\U3e38663c
\U3e65633c\U3e34653c\U3e61623c\U3e65653c\U3e37633c\U3e38663c
\U3e64623c\U3e30663cţ\U3e37633c\U3e38663c
\U3e34623c\U3e33663c\U3e32643c\U3e38643c\U3e66633c\U3e38643c
\U3e36623c\U3e63623c\U3e64623c\U3e64613c\U3e31643c\U3e66643c\U3e61633c\U3e30643c
\U3e31633c\U3e61663c\U3e62623c\U3e61613c\U3e30643c\U3e32633c\U3e37633c\U3e38663c
1
oxoxoxox 2016-03-07 20:38:10 +08:00 via iPhone
也许是 utf32
|
3
dangyuluo 2016-03-07 21:18:23 +08:00
表白暗语
|
5
ipconfiger 2016-03-07 21:31:36 +08:00
unicode 编码
|
6
liemehoc OP @ipconfiger
Python 2.7.9 (default, Mar 1 2015, 12:57:24) [GCC 4.9.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> u"\U3e38623c" File "<stdin>", line 1 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-9: illegal Unicode character |
7
ipconfiger 2016-03-07 22:17:34 +08:00
@liemehoc 你把\后面的大写的 U 都改成小写就行了
|
8
v1024 2016-03-07 22:23:52 +08:00
8 位 hex 肯定不会是什么文字编码,这估计都可以把外太空的文字含进来了……
楼主发的内容开头结尾很相似,所以考虑是显示错误或者程序自创的东西。 |
9
congeec 2016-03-07 22:57:12 +08:00
|
10
ipconfiger 2016-03-07 23:08:21 +08:00
@congeec 试过, oc 里就是大写的 U, 经常这么干
|
11
congeec 2016-03-07 23:28:33 +08:00 via iPad
@ipconfiger 我说你现在能不能把搂住的字符串 decode 出来
|
12
zxy 2016-03-07 23:35:24 +08:00 via iPhone
要不要试试 4 位一转?/Uxxxxxxxx 转为 /uxxxx /uxxxx 手机就不实验了
|
13
hx1997 2016-03-07 23:39:19 +08:00
开头和结尾的 3e 、 3c 都一样,中间是纯数字而没有字母,不知道能否说明什么。
另外当成 ASCII 码解出来是: >ac<>0d<>fc<>7e< >db<>5f<>db<>da<>7c<>8f< >ec<>4e<>ab<>ee<>7c<>8f< >db<>0f<>7c<>8f< >4b<>3f<>2d<>8d<>fc<>8d< >6b<>cb<>db<>da<>1d<>fd<>ac<>0d< >1c<>af<>bb<>aa<>0d<>2c<>7c<>8f< |
14
ipconfiger 2016-03-07 23:43:59 +08:00
In [1]: print u"""\u3e61633c\u3e30643cֱϽ\u3e66633c\u3e37653c
...: \u3e64623c\u3e35663c\u3e64623c\u3e64613c\u3e37633c\u3e38663c ...: \u3e65633c\u3e34653c\u3e61623c\u3e65653c\u3e37633c\u3e38663c ...: \u3e64623c\u3e30663cţ\u3e37633c\u3e38663c ...: \u3e34623c\u3e33663c\u3e32643c\u3e38643c\u3e66633c\u3e38643c ...: \u3e36623c\u3e63623c\u3e64623c\u3e64613c\u3e31643c\u3e66643c\u3e61633c\u3e30643c ...: \u3e31633c\u3e61663c\u3e62623c\u3e61613c\u3e30643c\u3e32633c\u3e37633c\u3e38663c""" 㹡633c㸰643cֱϽ㹦633c㸷653c 㹤623c㸵663c㹤623c㹤613c㸷633c㸸663c 㹥633c㸴653c㹡623c㹥653c㸷633c㸸663c 㹤623c㸰663cţ㸷633c㸸663c 㸴623c㸳663c㸲643c㸸643c㹦633c㸸643c 㸶623c㹣623c㹤623c㹤613c㸱643c㹦643c㹡633c㸰643c 㸱633c㹡663c㹢623c㹡613c㸰643c㸲633c㸷633c㸸663c |
15
zhujinliang 2016-03-07 23:49:53 +08:00 1
估计是误被当作 unicode 解释了,实际内容就是二进制的
看十六进制数值, 3e 开头, 3c 结尾,中间差不多在一个范围内浮动,像是采集来的原始数据 |
16
liemehoc OP |
17
Esec 2016-03-08 00:15:30 +08:00 via Android
替换 c\U3e 为空格之后当作 10 进制处理依旧得到了一堆不明方块...然后密文贴进 v2 编辑框的时候好像有 2 个字符莫名被转义了,不知道有没有可能拼凑一些其他的字符来绕过这里的防御 [x http://r12a.github.io/apps/conversion/
|
18
liemehoc OP @congeec
@v1024 @zhujinliang @hx1997 @zxy 谢谢大家关注,这是其中一个字段的原始数据,从 R 导出的 http://paste.ubuntu.com/15321788/ sha1sum xx.txt 9af8f13920275ac60fe509b20dd19534de555286 xx.txt md5sum xx.txt aae22b19e54267328ec79b61688bb6c2 xx.txt |
19
liemehoc OP @Esec 我把原始数据导出了 http://paste.ubuntu.com/15321788/
|
20
liemehoc OP echo "QlpoNjFBWSZTWTIu7UgAH4d7/9AQAQBAAX+AACBgsR5gBUdFYA0/+38X6sfPAkQATGANvl8AAAAAAAAAAAAAAAAABqpsRD1ANGg2iAAAAA0AAAADmE0BoDRowjQYjTEyYmgwjQMgGTA5hNAaA0aMI0GI0xMmJoMI0DIBkwOYTQGgNGjCNBiNMTJiaDCNAyAZMBJKAiYh6nqZoIADI0DACGgAA00epgpKJKCp6npMgPUAAyGgAMgPUA0eob1NM1SIkmQyohgAU94JIHkDGMlSQgGQkhIBJmAQCB0nPM2m60WtNfTownzSouEbzkDijY0XXGxjHKRZQGORZJRMFIm5KG4cCCuFwwEBBFWEMhkx0osRX7tUh9yqo2wSq+8Iv2gmEXAiwE6IuZSHec5VUcULoJwT+AVL7YqwFX2xEvuAnQnQq4CrAqwq6IuihhUuCYUOBQworgqwq2BNUrYTKVhNVGzCLVVGwTCbKqNVGE0RJdFXBOCroRcqIlOCiuBSjCeCr2BPZUhgi4BVwRYRL2iJYKuCrAnAocFS7UU5yqOAq4qQ5uQVcEwUOhQwJgq4E6FWAmEqugTBVwFI6JT/GqlQnRFzzVC1VGFDggcCrwVLgqosFDonROCdEk5Cd1Ud0STVUcqhcqCjgRdBOCiuVESnBQ6JgqXBOCJbvRFqkOVGAmEXQE8UQUMIIdCrCJeCrCUwhRx5UhypVNxRTVC1UrbmE5UbtRqo0Jzgq6FWFDonAnQlVhFwVYUOgnQJ0TlR3QRaopwSnQi+7VQvcKsEp7QVaE1VK1UbCKnvEXROClK4JT3idFDgngqwoYRLBVgBNUh4CrcEDAJwTBJMCrBQwE8BPfUKE9tVQqe4TAJgE93KjVK2CcAmqQwq4oKNUhvfUrned7CU6Jqqo4JgTgq8AKl/4E/0FD9L3Aq94T8gFI+QRcCcCrAnBInROAToi4CrAnRVhVgRbaqNUYVUXAlNFXdVUcqOVSt0ToTgRcFWE4IlwVfgCL/gT8Aq/3FXRKfQKv8xPAE/CJ9Qq+wEqv/QVfOKvxCh9AT5agj8oRfZFXBUsEwmCYTChglVhUsEXAocE4FDlREpgnBFwFWEwqquChhAwTCpfQE+sT4BV/WKHtCfD6qlapDfAUPxVIfIif5Qi1SGCLCpYTao0SmqNUqJhNVFVhMCrBNUpbVFNhFhFhFgJoST56oqtVRzAmqhYJJqjAnOVRwJsE1RhUtgq/T4E+wIvnFXgoYJhNUhwSnAEwIuiroVYJVYE4KHzgq9gi4EXoBMKUehVglVueBFqjilapW3RF6Aq9CrlSl6CVWwodCB0UOCL0Il6E8FXBVgqXoTwIvqBPYKvmFDwJ7BQ9gi9gE4E9CeBFwQo9onoBOihwCeCdCYUPQi4Kl56wT1Uhu1FO8qjnKkPXKo755Uh2qleVHnO1UrgE3aj131UrvVIedUFHgmFDztVR52pXaqN5VHcqjvlR5lKXd2qqOeqqVgmqjVUdaqF3VHr1gTaqPWCeVFMoXEKvAlVhMBV4CrgnBRXoTVVCpwUj0JTlR4FXBVsCao8VRtqqjvITwFXBEsE6BMEwnKj0CaJ0CdBMFXgqwEwgdFDgkTYKtVUYJE0Ku1K9CreCdqA9CehVwCdCYRL3hPlE+UTglOBV9oRdCVXxKKlUfviqn2hKf/Ch8RQ7VUfSEwlPBVgEwQMBPwhKrCJcCYJVfEUPqFDon1Ch4KHxFDAnzCh80+FRToKthF7BMEWFDCkrBMIgwmfGqNVH4+cqSOVHRQ4IRgVfICr6RVwRLoAmEwoYRYKqYVYJVapVMJ8OVRVcCqmEpgJgTCoV7BPgE6EXRSMKuicCL6RMIuirJSjuATaqJNULVJC1VGAn4xVqgPfqoS+vRJPbUh2qqOCSc1Qu1K0UUvYCYFWFWqghYEwIvs1IcCU4E+ITgVcEpgE9wVYFXydqUGqjQnAQMKpMFWAn8QVcFX9QToTgSmiU9aqjVC4FI4KRgoYQo/OCLAIuCLAmFWCdCVX1hFyFXxE0KvcJlKS//F3JFOFCQMi7tSAA==" | base64 -d | tar -jxv
md5sum xxx.txt 011bb699ddb1bbbea243bdc7b2e12e6f xxx.txt sha1sum xxx.txt 50f24c727c9592e708e1515d30c24c34ed159dc2 xxx.txt 重新整理了一下,原始数据以此为准 @Esec @zhujinliang @ipconfiger @hx1997 @zxy @congeec @v1024 |
21
Esec 2016-03-08 19:58:55 +08:00
@liemehoc ww3.sinaimg.cn/large/5b46d601gw1f1pp3dzgt6j20sg0lcai9.jpg 手残直接 sort|uniq 了一下得到两个 gb2312 编码的地名和一列相同编码的单个汉字,百度搜索出一些有关快递单的结果...然后用 cygwin 处理才会有这种奇怪的效果...
|