V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
scuxhy
V2EX  ›  问与答

有一个 Archive 的想法(坑)

  •  
  •   scuxhy · 2018-07-19 17:26:54 +08:00 · 1257 次点击
    这是一个创建于 2320 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天下午又看了看 deepin 的 CTO 王勇离职的帖子,然后就去简书看了人家的心路历程,突然萌发了个想法:互联网企业总有兴衰,网络上的东西保质期都不长,经常可以看到论坛中 7,8 年的链接 404 了;前几天“荒野无灯”的 github 也被删了,所以觉得自己数据真的应该自己掌握。于是想把一些很不错的文章爬下来,存到自己的本地硬盘里,视频太大了占硬盘太多就算了。

    目前想到了一点需要的技术:

    1. Python 的网络爬虫,针对不同网站爬不同文章。
    2. 数据库的支持,后期文章多了难免检索困难。
    3. 搞一个独立 ip,弄个小网站方便自己随时看之类的。
    4. 大概还需要一个检索能力比较好的开源搜索引擎?

    还请 v 友评价一下这个想法,如果可行的话,还欠缺什么技术。现在本科大二,时间充足,啥都能学。

    lostvincent
        1
    lostvincent  
       2018-07-19 21:39:54 +08:00
    这网站不知道是不是你想要的 http://web.archive.org/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   922 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:16 · PVG 06:16 · LAX 14:16 · JFK 17:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.