V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sue6080
V2EX  ›  搜索引擎优化

百度等其他搜寻引擎爬虫爬取的网页原始码是?

  •  
  •   Sue6080 · 2022-11-16 15:56:29 +08:00 · 1071 次点击
    这是一个创建于 738 天前的主题,其中的信息可能已经有所发展或是发生改变。

    拿大家最常用的 chrome 浏览器来看,网页查看原始码方式有二种 1.键盘 Ctrl+U 查看源代码:就是别人服务器发送到浏览器的原封不动的代码,也就是最原始的代码 2.键盘 F12 检查元素:看到的就是最终的 html 代码。即:源代码 + 网页 js 渲染 有些网页是 Javascript 渲染的技术建置,所以会有 Ctrl+U 查不到文字,而 F12 查的到内文 因此想问大家,百度爬虫的话,是爬取 Ctrl+U 还是 F12 的原始码?

    4 条回复    2022-11-17 12:28:54 +08:00
    TimePPT
        1
    TimePPT  
       2022-11-16 16:12:32 +08:00   ❤️ 1
    好多年没做这块了。
    我了解的情况是:
    首先看站方想让爬虫怎么爬。有些站点(比如过去的知乎,现在不清楚)给 spider 的内容是静态化过的,给用户的是 js 动态渲染的。
    另外,动态渲染的页面早在十几年前搜索引擎就能做了,但百度一直做的不好。现在啥情况不清楚。
    TimePPT
        2
    TimePPT  
       2022-11-16 16:15:38 +08:00
    还有就是,如果站点想让搜索引擎收录并有排名,肯定是搜索引擎爬虫怎么方便怎么来。一般都会做对应优化。这是所谓 SEO 优化的一部分。
    以及,有些家的爬虫也不讲武德。经常无视 robot.txt 的协议,且非增量爬取。过去有搜索引擎 spider 把站点爬瘫痪的笑话发生。
    Sue6080
        3
    Sue6080  
    OP
       2022-11-16 17:30:29 +08:00
    To TimePPT:
    这样感觉搜寻引擎爬虫比较方便是
    抓還沒渲染文字的 Javascript?也就是 Ctrl+U
    Sue6080
        4
    Sue6080  
    OP
       2022-11-17 12:28:54 +08:00
    @TimePPT 这样感觉搜寻引擎爬虫比较方便是
    抓還沒渲染文字的 Javascript?也就是 Ctrl+U
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2794 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 00:09 · PVG 08:09 · LAX 16:09 · JFK 19:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.