网上那些爬虫框架都是怎么个爬取逻辑？比如爬一下 V 站的所有主题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2373 天前的主题，其中的信息可能已经有所发展或是发生改变。

现状 /前提 /假设

V 站没有任何一个页面 /接口以不变的排序(分页)展示了所有主题的列表
主题页面要么 200，要么 404 了（ 404 包括被禁的以及未创建的）
主题页面的链接是规则的(数值递增)

我先来，不使用爬虫框架，伪逻辑如下

while(true){
    if (first) {
        // 比如开 100 个线程获取 1-100 的主题，https://www.v2ex.com/t/1 到 https://www.v2ex.com/t/100
    } else {
        // part 1
        // 对 404 的主题做重试，因为万一程序跑太快了或者 V 站停更 1 个月就会出现 200 的帖子被错误记录为 404
        // 比如对 404 的主题重试个 5 天，5 天后还是 404 就大概率是 404 了
        // 当然 part1 的逻辑不是最严谨的，还是可能出错

        // part2
        // 视情况是否获取下 100 条主题。（比如上 100 条都是 404 可能就是程序跑太快了）
    }
    // 等待 100 线程结束
    // 视情况限制循环的间隔时间
}

一遍下来存的主题 ID 连续的，不会有跳跃 /间断