大概去年底就开始了,群里别人发的豆瓣 url,无论是小组帖子还是日记广播,点开都会在一秒内跳转到豆瓣首页。
最开始,我以为是豆瓣因整改不给我看了。可是一来整改也不会那么久,二来别人既然发这个 url 说明他是能打开的。
然后我试验了一番,发现无论是否登录豆瓣帐号,无论电脑还是平板,浏览器打开都会跳转首页。有一个别人发的豆瓣社死组的热帖,我直接点开会跳首页,在社死组帖子列表里找到点开却可以正常浏览。在平板上如果不选择 Edge 打开而是用豆瓣 App 打开,也是可以正常浏览的。
看起来像我被豆瓣当成爬虫了?我有哪些可能被当成爬虫的地方?虽然我没做错什么,但我还是被迫进行了一番反思:
是因为我最近折腾平板与浏览器,在不同环境下多次登录豆瓣帐号吗?可是我不登录帐号时也会跳转首页啊。
是因为我的 UserAgent 不常见吗?我的电脑 UA 是 Linux/FireFox,我的平板 UA 是 Linux/Edge (不是 Android ),Linux UA 低人一等?我不懂反爬,但是我相信每一个写爬虫的人都懂得伪造 UA,如果根据 UA 判断是否为爬虫,除了恶心正常的 Linux 用户没有别的意义。
我突然想到,跳转首页这一行为并不是在服务端通过重定向完成的,我是先打开这个 URL,能正常看到里面的内容,然后一秒种内跳转到首页,这种跳转似乎并不能防御爬虫。
这么说不是因为反爬?我又拿了个豆瓣 url 发给 tg 群友,问问他们能不能打开。tg 的爬虫正确预览了 url 的内容,截至发帖,有两名群友表示会跳转首页,还有一名群友表示不会。
1
0o0O0o0O0o 2022-01-12 10:27:03 +08:00 via iPhone 1
|
2
czfy 2022-01-12 10:32:16 +08:00 1
这也是我最近遇到的情况之一
另外一个情况是,我有一天在 PC 浏览器登录,然后说帐号异常要 app 扫码才行 于是用工具把帐号上的书影音记录导出 csv 放到 notion ,至此之后我就放弃登录豆瓣了 |
3
delectate 2022-01-12 16:38:24 +08:00 2
我比较刚,彻底放弃豆瓣、知乎。
又不是必须看的,不看又不会死。 就像 baidu ,不用也就不用了,因为有更好的。 没有贴吧用 reddit ,没有豆瓣用 reddit ,没有知乎就不用,没有代替品也没关系。 做减法,少看简中垃圾。 |