V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Trim21
V2EX  ›  分享创造

sci-hub on P2P!

  •  4
     
  •   Trim21 ·
    Trim21 · 2021-08-01 16:47:54 +08:00 · 3599 次点击
    这是一个创建于 1210 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前提到的 sci-hub on p2p 的想法已经实现了

    https://sci-hub-p2p.readthedocs.io/en/latest/zh/简介

    感谢 reddit 上一位好心人的帮助,生成了全部的索引。

    现在从 BT 网络获取数据的功能完全可用

    也可以使用同一份数据,同时在 IPFS 的 P2P 网络中做种,在 IPFS 网络中提供的是可以用 CID 获取的原始数据文件,而不是整个 ZIP 文件。也就是说是可以直接通过普通的 IPFS 网关下载论文的。(在 BT 网络中做种还是需要其他的 BT 客户端,没有必要重复造轮子了)

    目前 Reddit 上的 ipfs 基本上都是直接添加的 zip 文件,基本上相当于死数据。。。

    在本地测试了一下,用官方的 ipfs desktop 成功了 pin 了 10 个 G 的 pdf 文件。

    (急需有人帮忙写一下英文文档)

    29 条回复    2021-08-06 18:07:34 +08:00
    shadows
        1
    shadows  
       2021-08-01 20:47:15 +08:00
    期待易用的工具,之前想要获取论文是需要下载所有文件吗?
    v2tudnew
        2
    v2tudnew  
       2021-08-01 20:55:23 +08:00
    @shadows #1 至少需要下载一个种子的压缩包,10-100GB 不等.....
    hertzry
        3
    hertzry  
       2021-08-01 21:34:01 +08:00 via Android
    这个厉害了。
    hertzry
        4
    hertzry  
       2021-08-01 21:43:50 +08:00 via Android
    英文文档看上去不是写得差不多了吗?机翻再人工修订一下会不会快一点。想尝试翻译一下,奈何心有余而力不足。
    Trim21
        5
    Trim21  
    OP
       2021-08-01 22:39:36 +08:00 via Android
    @shadows 之前需要下载大概 1gb 的压缩包
    Trim21
        6
    Trim21  
    OP
       2021-08-01 22:49:02 +08:00 via Android
    @hertzry 之前的英文文档差不多就是我半机翻的…
    lovestudykid
        7
    lovestudykid  
       2021-08-02 07:54:40 +08:00
    索引文件就够大了,还是需要中心化的网站提供支持吧
    Trim21
        8
    Trim21  
    OP
       2021-08-02 08:25:47 +08:00 via Android
    @lovestudykid 索引文件压缩后才 3g 大
    fiht
        9
    fiht  
       2021-08-02 09:52:24 +08:00
    期待中心化的网络提供支持+1
    等你的 WebUI !
    Trim21
        10
    Trim21  
    OP
       2021-08-02 10:05:39 +08:00 via Android
    @fiht Web ui 找别人写了()
    Trim21
        11
    Trim21  
    OP
       2021-08-02 10:07:27 +08:00 via Android
    @fiht 而且中心化的网络继续用 scihub 的网站不就好了= =
    fiht
        12
    fiht  
       2021-08-02 12:45:35 +08:00
    @Trim21 中心化的 WebUI 负责托管 10GB+的索引文件,然后从 P2P 网站做拉取呀。
    哪天 scihub 挂掉了,你的这套随便找一台机器就能 run 起来,就很厉害
    Trim21
        13
    Trim21  
    OP
       2021-08-02 13:04:55 +08:00 via Android
    @fiht 索引文件在网上需要传输的尺寸只有 3g 大…现在是用 bt 分发的
    Trim21
        14
    Trim21  
    OP
       2021-08-02 13:07:42 +08:00 via Android
    @fiht 20gb 是索引写到 bolt 数据库的硬盘占用
    lovestudykid
        15
    lovestudykid  
       2021-08-02 22:02:22 +08:00
    @Trim21 就是为了下这些文献,额外占用 20GB 硬盘空间,大部分人应该不会接受啊
    Trim21
        16
    Trim21  
    OP
       2021-08-03 02:18:02 +08:00 via Android
    @lovestudykid 大部分人继续用网站不就好了…
    Trim21
        17
    Trim21  
    OP
       2021-08-03 02:27:06 +08:00 via Android
    不过这个 20g 的尺寸应该是可以优化的,bolt 直接写完所有的索引应该还是有很多空洞,暂时还没精力做这个
    lovestudykid
        18
    lovestudykid  
       2021-08-03 02:40:37 +08:00
    @Trim21 我以为你是想取代 scihub...反正现在也没更新了,用一个更去中心化的服务取代也挺好的
    Trim21
        19
    Trim21  
    OP
       2021-08-03 03:05:53 +08:00 via Android
    @lovestudykid 我是懒得扒新论文然后打包传到 p2p 网络里去,那肯定是取代不了的…
    Trim21
        20
    Trim21  
    OP
       2021-08-03 03:10:49 +08:00 via Android
    @Trim21 额 或者说现阶段还取代不了

    添加新论文之类的我现在虽然有想法,但是具体怎么实现我也没想好,主要我自己也不想当扒论文的人,这个工作太枯燥了…
    lovestudykid
        21
    lovestudykid  
       2021-08-03 03:18:06 +08:00
    @Trim21 额,误会了。现有的 scihub 也说不定什么时候会被强制关掉,我是说能提供现有的这些就挺好了,P2P 加简单的前端,人人都可以部署。至于新的,有一个叫文献互助的平台,不公开提供论文,有人上传后只能求助者下载,这样风险小一些
    Trim21
        22
    Trim21  
    OP
       2021-08-03 03:25:15 +08:00 via Android
    @lovestudykid 稍微阴暗一点说,真被关了,就算硬盘占用 20g 不是还得用吗。(单纯开个玩笑)

    不过原因是我现阶段没什么精力优化各种东西,感觉各方面能优化的东西还很多。现在纯粹是把各种工具糊在了一起提供了我最一开始我想做的东西。
    micevan
        23
    micevan  
       2021-08-03 16:35:09 +08:00
    楼主,你好。非常感谢你的分享,我用 mac 试用了下,命令行下载的方式挺方便的。

    想请教个问题,在导入索引之后,硬盘占了 20GB 左右,我不知它具体存放到哪,请问有办法删除吗?(笔记本空间比较小)
    Trim21
        24
    Trim21  
    OP
       2021-08-03 16:37:20 +08:00 via Android
    @micevan 在~/.sci-hub-p2p 文件夹里面
    micevan
        25
    micevan  
       2021-08-03 16:45:34 +08:00
    @Trim21 找到了,感谢解答
    longbow0
        26
    longbow0  
       2021-08-04 12:14:41 +08:00
    @Trim21 确实是非常有用的工具。
    是否考虑添加一个指定 sci-hub-p2p 目录位置的选项,而不是固定在 ~/.sci-hub-p2p/?
    Trim21
        27
    Trim21  
    OP
       2021-08-04 15:15:32 +08:00
    @longbow0 #26 加了个`APP_HOME`的环境变量
    yesqu
        28
    yesqu  
       2021-08-05 09:04:03 +08:00
    话说现在 scimag 的论文库还在更新么?
    Trim21
        29
    Trim21  
    OP
       2021-08-06 18:07:34 +08:00 via Android
    @yesqu 好像是没有了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2829 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 13:36 · PVG 21:36 · LAX 05:36 · JFK 08:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.