V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xiaozizayang
V2EX  ›  分享创造

owllook - 一个网络小说搜索网站 - https://www.owllook.net/

  •  1
     
  •   xiaozizayang ·
    howie6879 · 2017-04-29 20:50:42 +08:00 · 21119 次点击
    这是一个创建于 2767 天前的主题,其中的信息可能已经有所发展或是发生改变。

    chapter

    1.说明

    网络小说搜索引擎( novels-search )—— owllook 网址:https://www.owllook.net/

    owllook是一个基于其他网站的垂直小说搜索引擎,至于为什么写这个,一个是想利用sanic尽量做成异步服务,二是想就此练习下推荐系统,顺便作为毕业设计。

    开源在 github,https://github.com/howie6879/novels-search

    本项目纯属共享学习之用,不得用于商业!

    • sanic:基于 Python 3.5+的异步 web 服务器
    • sanic_session:sanic 的持续会话插件
    • vloop:sanic 默认使用 uvloop,替代 asyncio 本身的 loop
    • motor:异步的 mongodb 驱动
    • aiohttp:异步请求
    • aiocache:异步缓存,本项目改用了其中的 decorator 部分,缓存数据库使用 redis
    • caddy:基于 go 的 web 服务器

    对于用户信息,利用 mongodb 进行存储。

    某些必要的缓存,利用 redis 进行缓存处理,注意,对于限制数据:都将在 24 小时删除。

    对于不同网站的小说,页面规则都不尽相同,我希望能够在代码解析后再统一展示出来,这样方便且美观,而不是仅仅跳转到对应网站就完事,清新简洁的阅读体验才是最重要的。

    目前采用的是直接在百度上进行结果检索(现在发现百度不行,又加了 360,谷歌的也写了一个,部分数据准备开始用爬虫获取),也不是不能做的更大更全,只是觉得没什么意义,目前的检索结果已经很足够。

    我尽量写少量的规则来完成解析,具体见规则定义,遇到自己喜欢的小说网站,你也可以自己添加解析。

    BTW,sanic 写界面确实不是很方便。

    详细介绍owllook -- 一个简洁的网络小说搜索引擎

    运行:

    python server.py

    或者

    gunicorn --bind 127.0.0.1:8001 --worker-class sanic_gunicorn.Worker server:app

    2.demo

    下面是一些截图展示,具体效果图请看这里

    目录解析页:

    demo

    阅读:

    content

    书架:

    books

    3.关于

    0.1.0:

    • 小说的基本搜索解析功能
    • 搜索记录
    • 缓存
    • 书架
    • 书签
    • 登录(暂时不开放注册,可与我申请体验)
    • 初步兼容手机(后续跟进)

    TODO:

    • [x] 注册

    • [x] 上次阅读

    • [ ] 阅读书单

    • [ ] 推荐

    • [ ] 排行榜

    License

    novels-search is offered under the Apache 2 license.

    78 条回复    2017-05-23 17:35:22 +08:00
    LaudOak
        1
    LaudOak  
       2017-04-29 21:03:06 +08:00
    不错,资瓷
    Travers
        2
    Travers  
       2017-04-29 21:19:26 +08:00 via Android
    任意章节都是 404 will found …
    xiaozizayang
        3
    xiaozizayang  
    OP
       2017-04-29 21:20:51 +08:00
    @Travers 不会吧,你搜索的什么?
    hljjhb
        4
    hljjhb  
       2017-04-29 21:28:09 +08:00
    内容页居然没有上 /下一章
    Travers
        5
    Travers  
       2017-04-29 21:28:57 +08:00 via Android
    发现 dns 的问题,换了一个 DNS 就正常了。移动自带的 DNS 有点坑啊。 @xiaozizayang
    xiaozizayang
        6
    xiaozizayang  
    OP
       2017-04-29 21:30:09 +08:00
    @hljjhb 还在写~~全部在线解析这块有点难搞,毕竟东西都不在数据库
    xiaozizayang
        7
    xiaozizayang  
    OP
       2017-04-29 21:30:37 +08:00
    @Travers 那就好,吓我一跳
    qcloud
        8
    qcloud  
       2017-04-29 21:44:49 +08:00
    贼 6
    mozutaba
        9
    mozutaba  
       2017-04-29 21:57:39 +08:00
    给力
    liangguan5
        10
    liangguan5  
       2017-04-29 21:57:41 +08:00 via iPhone
    赞,刚刚搜索昆仑试了下,解析后的排版看着比原网页舒服太多
    zhuoziyu
        11
    zhuoziyu  
       2017-04-29 21:59:01 +08:00
    目录页和正文我是智能匹配的
    目录页 API: https://zhuishu.me/api/chapters?url=目录页 url
    正文提取我用 golang 实现了 Readability 算法,https://zhuishu.me/api/chapter?url=http://www.qu.la/book/22441/8382743.html

    更多 API 请参看 https://www.zhuishuapi.com/swagger/

    生活艰难,准备赚些外块。目前正在做追书 APP,自己不运营,打算卖程序,相信会有站长感兴趣
    xiaozizayang
        12
    xiaozizayang  
    OP
       2017-04-29 22:01:00 +08:00
    @liangguan5 哈哈 有帮助就好
    zhuoziyu
        13
    zhuoziyu  
       2017-04-29 22:03:06 +08:00
    demo: https://zhuishu.me 后台管理功能已经完备了,商业授权功能都有了,就是前端比较简陋
    xiaozizayang
        14
    xiaozizayang  
    OP
       2017-04-29 22:06:12 +08:00
    @zhuoziyu 只敢做解析,不敢做爬取,太侵权了
    zhuoziyu
        15
    zhuoziyu  
       2017-04-29 22:19:10 +08:00
    @xiaozizayang 我只是用算法解析目录页,一样的。可能我的 url 看起来不那么合法
    目前只是仅供 app 测试,没打算运营呢
    感觉目前都是移动端会有转码阅读功能,pc 端这样估计会有风险
    defunct9
        16
    defunct9  
       2017-04-29 22:20:11 +08:00 via iPhone
    www.booksky.org 一样么?
    xiaozizayang
        17
    xiaozizayang  
    OP
       2017-04-29 22:21:12 +08:00
    @zhuoziyu 目录页用什么算法解析?我现在也在做移动端
    xiaozizayang
        18
    xiaozizayang  
    OP
       2017-04-29 22:23:52 +08:00
    @defunct9 不一样,主动与被动的关系,我这个可以说是元搜索引擎,你说的这个是综合收集载查询的那种,比那个也多了解析
    366204135
        19
    366204135  
       2017-04-29 22:32:59 +08:00
    我之前想做一个抓取豆瓣的数据的。可是没做 做了一个别的 https://www.ewmzc.com 生成二维码的
    thedog
        20
    thedog  
       2017-04-29 23:58:04 +08:00
    赞一个,一直都想做一个类似的
    owlsec
        21
    owlsec  
       2017-04-30 00:36:00 +08:00
    很强啊
    RaymondYip
        22
    RaymondYip  
       2017-04-30 00:59:41 +08:00
    太棒了 666
    xiaozizayang
        23
    xiaozizayang  
    OP
       2017-04-30 07:26:51 +08:00
    @thedog 反正是开源的 可以按照你的想法来~
    xiaozizayang
        24
    xiaozizayang  
    OP
       2017-04-30 07:29:46 +08:00
    @owlsec 谢谢支持~~
    xiaozizayang
        25
    xiaozizayang  
    OP
       2017-04-30 08:33:16 +08:00
    @RaymondYip 可以注册账号内测 书架追更比较好
    flystar
        26
    flystar  
       2017-04-30 08:49:51 +08:00
    非常不错,赞一个
    页面的设置按钮功能目前没做么?另外求注册体验~
    licheng527
        27
    licheng527  
       2017-04-30 09:10:31 +08:00
    挺不错的,收藏了,希望可以解析更多收费小说,哈哈
    xiaozizayang
        28
    xiaozizayang  
    OP
       2017-04-30 09:29:48 +08:00
    @licheng527 哈哈
    xiaozizayang
        29
    xiaozizayang  
    OP
       2017-04-30 09:30:21 +08:00
    @flystar 591460519 内测群 我来帮你注册
    Norma
        30
    Norma  
       2017-04-30 09:41:00 +08:00
    @zhuoziyu 想要这个,提供修改吗?
    Artists
        31
    Artists  
       2017-04-30 09:44:52 +08:00
    点开解析过的小说章节 404,不知道是不是个例
    xiaozizayang
        32
    xiaozizayang  
    OP
       2017-04-30 09:46:50 +08:00
    @Artists ?链接发我看看
    Artists
        33
    Artists  
       2017-04-30 09:53:11 +08:00
    lany
        35
    lany  
       2017-04-30 11:14:31 +08:00
    @xiaozizayang 你的某些页面就是这样的。全部是 404
    xiaozizayang
        38
    xiaozizayang  
    OP
       2017-04-30 11:23:23 +08:00
    @lany 你如果不能打开 全部是 404 的话 会不会是跟楼上一样 DNS 的问题 我这边都打开正常
    kn007
        39
    kn007  
       2017-04-30 11:24:51 +08:00
    xiaozizayang
        40
    xiaozizayang  
    OP
       2017-04-30 11:54:22 +08:00
    @kn007 老哥也稳
    Domains
        41
    Domains  
       2017-04-30 12:57:02 +08:00
    刚好有朋友想看豪娶天价新妻,
    搜索了一下,出来的都是死链接、广告链接,特别都是让你下载不知什么东西的安卓 App
    xiaozizayang
        42
    xiaozizayang  
    OP
       2017-04-30 13:12:15 +08:00
    @Domains 那个出来的网站都是没有解析的~~因为这个在其他搜索引擎没有资源~我这里也没有
    tkisme
        43
    tkisme  
       2017-04-30 13:18:41 +08:00
    @xiaozizayang [email protected] 现在不能注册么
    xiaozizayang
        44
    xiaozizayang  
    OP
       2017-04-30 13:31:05 +08:00
    @tkisme2013 还在内测中 你加群 我给你开个
    RaymondYip
        45
    RaymondYip  
       2017-04-30 14:16:52 +08:00
    @xiaozizayang 好的谢谢拉 哈 我去注册个
    xiaozizayang
        46
    xiaozizayang  
    OP
       2017-04-30 14:55:06 +08:00
    @RaymondYip 咋没见你加群来注册
    tSQghkfhTtQt9mtd
        47
    tSQghkfhTtQt9mtd  
       2017-04-30 15:21:02 +08:00
    不担心版权风险么?
    tkisme
        48
    tkisme  
       2017-04-30 15:44:02 +08:00
    @xiaozizayang 找回密码也没做
    xiaozizayang
        49
    xiaozizayang  
    OP
       2017-04-30 15:46:27 +08:00
    @tkisme2013 注册都还没开放~~这个做个很快
    xiaozizayang
        50
    xiaozizayang  
    OP
       2017-04-30 15:47:01 +08:00
    @liwanglin12 开源不要紧吧 只是检索+缓存 百度不也这样?
    world666
        51
    world666  
       2017-04-30 16:04:41 +08:00
    - -写正则解析啥的太麻烦了吧,私信我,给你开个 API.万能解析,只要是文章类的通杀。
    xiaozizayang
        52
    xiaozizayang  
    OP
       2017-04-30 16:08:59 +08:00
    @world666 啊哈哈,我这样写有这样写的用处 目前的 api 也在写通用获取
    world666
        53
    world666  
       2017-04-30 16:10:52 +08:00
    @xiaozizayang 啊,其实我想加你好友,取取经。。。哈哈哈哈。。。
    xiaozizayang
        54
    xiaozizayang  
    OP
       2017-04-30 16:13:37 +08:00
    @world666 进群交流吧 哈哈
    zhuoziyu
        55
    zhuoziyu  
       2017-04-30 19:50:11 +08:00
    @xiaozizayang 比较 URL 相似度
    @Norma 目前主要做追书 APP,可以加微信 donkey QQ: 303200888
    xiaozizayang
        56
    xiaozizayang  
    OP
       2017-04-30 19:57:07 +08:00
    @zhuoziyu 写个余弦相似度就解决了
    Icemic
        57
    Icemic  
       2017-05-01 14:04:05 +08:00
    厉害啊,给同在研究推荐系统的我不少启发,star 了
    xiaozizayang
        58
    xiaozizayang  
    OP
       2017-05-01 21:29:02 +08:00
    @Icemic 然而推荐系统部分却还没写哈哈
    guonning
        59
    guonning  
       2017-05-01 23:30:53 +08:00 via iPhone
    爱这样得,看书,找书有去处了
    xiaozizayang
        60
    xiaozizayang  
    OP
       2017-05-02 06:19:18 +08:00
    @guonning 谢谢支持
    Izual_Yang
        61
    Izual_Yang  
       2017-05-02 12:10:49 +08:00
    很好,我只有一个问题:翻页 tm 在哪儿?不论是翻页链接还是热键,还是滚动到底部自动加载下一页,我全都没找到
    xiaozizayang
        62
    xiaozizayang  
    OP
       2017-05-02 12:53:58 +08:00
    @Izual_Yang 这是个好问题 哭脸~~ 就是还没做下一页
    Izual_Yang
        63
    Izual_Yang  
       2017-05-02 17:20:24 +08:00
    @xiaozizayang
    其实在电脑上问题不大,甚至可以键盘操作( ctrl+w 关掉当前章节,然后目录上按 tab 跳到下一章链接,回车)
    在手机上就让我不太适应,因为已经被 uc 浏览器养懒了。
    虽然我在电脑浏览器上也习惯了通过油猴子( https://greasyfork.org/scripts/292-my-novel-reader/ 或者
    https://greasyfork.org/scripts/293-super-preloaderplus-one 自己添加规则)自动加载下一章
    solobat
        64
    solobat  
       2017-05-02 18:02:50 +08:00
    看着不错,收藏了
    junred
        65
    junred  
       2017-05-03 09:13:35 +08:00
    解析后的网页布局比原网页还要漂亮~
    xiaozizayang
        66
    xiaozizayang  
    OP
       2017-05-03 14:01:08 +08:00
    @junred 不比原来漂亮解析干嘛~
    junred
        67
    junred  
       2017-05-04 08:42:37 +08:00
    @xiaozizayang 你这解析是针对每个网站写一个特定解析?
    xiaozizayang
        68
    xiaozizayang  
    OP
       2017-05-04 11:11:54 +08:00
    @junred 一个网站一个规则
    ruter8
        69
    ruter8  
       2017-05-04 13:02:59 +08:00
    惊现宇哥。
    xiaozizayang
        70
    xiaozizayang  
    OP
       2017-05-04 17:39:01 +08:00
    @ruter8 我类个去 缘分~~
    shunia
        71
    shunia  
       2017-05-05 14:06:46 +08:00
    求推荐无限流网文,把你知道的都说出来,看看哪些没看过,我去关注一下.
    xiaozizayang
        72
    xiaozizayang  
    OP
       2017-05-10 10:45:11 +08:00
    @Izual_Yang 已经做了翻页了
    ifaii
        73
    ifaii  
       2017-05-21 19:00:06 +08:00
    @xiaozizayang 想知道设置不能用是怎么回事,没法设置黑白页面
    xiaozizayang
        74
    xiaozizayang  
    OP
       2017-05-23 13:47:42 +08:00
    @ifaii 设置的功能还没写
    licheng7475
        75
    licheng7475  
       2017-05-23 15:20:31 +08:00
    搜到大部分没解析。。。
    xiaozizayang
        76
    xiaozizayang  
    OP
       2017-05-23 15:53:53 +08:00
    @licheng7475 看源 你是搜索哪本小说?
    licheng7475
        77
    licheng7475  
       2017-05-23 17:01:41 +08:00
    @xiaozizayang 随便搜的,包括你案列的雪中悍刀行
    xiaozizayang
        78
    xiaozizayang  
    OP
       2017-05-23 17:35:22 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1462 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 17:15 · PVG 01:15 · LAX 09:15 · JFK 12:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.