正在学习爬虫,然后发现页面上看上去比较正常的数字,原来暗藏玄机。
右键选择后,就发现了奇怪的现象,浏览器菜单根本识别不出来这是什么东西。
然后查看源代码发现,好像是一种自定义的字体。
<span class="dzfoYFxr">
𘟭𘟪𘟪𘟲𘟫𘟪
</span>
<cite>万字</cite>
而且,每次刷新都是不一样的。
刷新后是这样的:
<span class="xVHrzwwr">
𘢦𘢤𘢤𘢠𘢧𘢤
</span>
<cite>万字</cite>
查看元素可以发现真的是字体。
那么,请问,这种情况该如何解决?
1
ccino 2018-04-14 16:44:34 +08:00
等高手吧,我没想出来办法。。。。。。。。
|
2
whileFalse 2018-04-14 16:53:42 +08:00
ocr 啊。
|
3
Hzzone 2018-04-14 16:57:30 +08:00 via iPhone
截图 ocr
|
4
takato 2018-04-14 16:59:07 +08:00
1.OCR
2.可以考虑实现一个模型 train 一下看看 class 的值和&#后的数字有没有线性或非线性关系。 |
5
xzc0001 2018-04-14 16:59:35 +08:00
直接映射?是不是每个数字只用了一个或者几个对应字体里的字符?可以单独写个函数去转这个数字。
|
6
LeungJZ OP |
7
m939594960 2018-04-14 17:14:03 +08:00
解析字体文件啊?
|
8
xujialiang 2018-04-14 17:25:53 +08:00 via iPhone
找 js 里的方法,看它们怎么解析的,抄过来
|
9
sujin190 2018-04-14 17:32:19 +08:00
自定义字体,这个加密牛逼啊,有想法,但是每次生成字体文件应该挺耗资源的吧,那么就不可能有太多份才是,写个脚本刷新试试,看看会不会遇到重复的
|
10
crab 2018-04-14 17:39:05 +08:00
|
11
EPr2hh6LADQWqRVH 2018-04-14 17:42:15 +08:00
这个思路 nice 啊,学习一个
|
12
LeungJZ OP @xujialiang
没有 js 操作,完全的 ssr。在 console 里面打开 diabled javascirpt 一样能渲染出来的。 |
13
LeungJZ OP @sujin190
应该不是每次都生成,但是可能有大量已经生成好的字体文件,已经分散在 cdn 上了。每次输出只要随便取一个就可以了。 |
14
LeungJZ OP @crab
确实,猫眼的也是这样的,但是,很容易就破了,因为他每次引入的字体文件都是一样的,字体都是 stonefont。而这里却每刷新一次就有新的文件。 |
15
boboliu 2018-04-14 18:15:58 +08:00 via Android
可以同时直接解析 TTF 然后比对字形识别
|
16
l0ng 2018-04-14 23:59:34 +08:00
我发现网易云音乐网页版的歌名加入了特殊字符
<b title="不为谁而作的歌">不为<div class="soil">蝜蟊挏</div>谁而作的歌</b> |
18
projectzoo 2018-04-15 11:18:55 +08:00
我的第一想法就是设置得是字体,毕竟 浏览器 可以无痛解析。
|