网络小说搜索引擎( novels-search )—— owllook 网址:https://www.owllook.net/
owllook
是一个基于其他网站的垂直小说搜索引擎,至于为什么写这个,一个是想利用sanic
尽量做成异步服务,二是想就此练习下推荐系统,顺便作为毕业设计。
开源在 github,https://github.com/howie6879/novels-search
本项目纯属共享学习之用,不得用于商业!
对于用户信息,利用 mongodb 进行存储。
某些必要的缓存,利用 redis 进行缓存处理,注意,对于限制数据:都将在 24 小时删除。
对于不同网站的小说,页面规则都不尽相同,我希望能够在代码解析后再统一展示出来,这样方便且美观,而不是仅仅跳转到对应网站就完事,清新简洁的阅读体验才是最重要的。
目前采用的是直接在百度上进行结果检索(现在发现百度不行,又加了 360,谷歌的也写了一个,部分数据准备开始用爬虫获取),也不是不能做的更大更全,只是觉得没什么意义,目前的检索结果已经很足够。
我尽量写少量的规则来完成解析,具体见规则定义,遇到自己喜欢的小说网站,你也可以自己添加解析。
BTW,sanic 写界面确实不是很方便。
运行:
python server.py
或者
gunicorn --bind 127.0.0.1:8001 --worker-class sanic_gunicorn.Worker server:app
下面是一些截图展示,具体效果图请看这里:
目录解析页:
阅读:
书架:
0.1.0:
TODO:
[x] 注册
[x] 上次阅读
[ ] 阅读书单
[ ] 推荐
[ ] 排行榜
novels-search
is offered under the Apache 2 license.
1
LaudOak 2017-04-29 21:03:06 +08:00
不错,资瓷
|
2
Travers 2017-04-29 21:19:26 +08:00 via Android
任意章节都是 404 will found …
|
3
xiaozizayang OP @Travers 不会吧,你搜索的什么?
|
4
hljjhb 2017-04-29 21:28:09 +08:00
内容页居然没有上 /下一章
|
5
Travers 2017-04-29 21:28:57 +08:00 via Android
发现 dns 的问题,换了一个 DNS 就正常了。移动自带的 DNS 有点坑啊。 @xiaozizayang
|
6
xiaozizayang OP @hljjhb 还在写~~全部在线解析这块有点难搞,毕竟东西都不在数据库
|
7
xiaozizayang OP @Travers 那就好,吓我一跳
|
8
qcloud 2017-04-29 21:44:49 +08:00
贼 6
|
9
mozutaba 2017-04-29 21:57:39 +08:00
给力
|
10
liangguan5 2017-04-29 21:57:41 +08:00 via iPhone
赞,刚刚搜索昆仑试了下,解析后的排版看着比原网页舒服太多
|
11
zhuoziyu 2017-04-29 21:59:01 +08:00
目录页和正文我是智能匹配的
目录页 API: https://zhuishu.me/api/chapters?url=目录页 url 正文提取我用 golang 实现了 Readability 算法,https://zhuishu.me/api/chapter?url=http://www.qu.la/book/22441/8382743.html 更多 API 请参看 https://www.zhuishuapi.com/swagger/ 生活艰难,准备赚些外块。目前正在做追书 APP,自己不运营,打算卖程序,相信会有站长感兴趣 |
12
xiaozizayang OP @liangguan5 哈哈 有帮助就好
|
13
zhuoziyu 2017-04-29 22:03:06 +08:00
demo: https://zhuishu.me 后台管理功能已经完备了,商业授权功能都有了,就是前端比较简陋
|
14
xiaozizayang OP @zhuoziyu 只敢做解析,不敢做爬取,太侵权了
|
15
zhuoziyu 2017-04-29 22:19:10 +08:00
|
16
defunct9 2017-04-29 22:20:11 +08:00 via iPhone
跟 www.booksky.org 一样么?
|
17
xiaozizayang OP @zhuoziyu 目录页用什么算法解析?我现在也在做移动端
|
18
xiaozizayang OP @defunct9 不一样,主动与被动的关系,我这个可以说是元搜索引擎,你说的这个是综合收集载查询的那种,比那个也多了解析
|
19
366204135 2017-04-29 22:32:59 +08:00
我之前想做一个抓取豆瓣的数据的。可是没做 做了一个别的 https://www.ewmzc.com 生成二维码的
|
20
thedog 2017-04-29 23:58:04 +08:00
赞一个,一直都想做一个类似的
|
21
owlsec 2017-04-30 00:36:00 +08:00
很强啊
|
22
RaymondYip 2017-04-30 00:59:41 +08:00
太棒了 666
|
23
xiaozizayang OP @thedog 反正是开源的 可以按照你的想法来~
|
24
xiaozizayang OP @owlsec 谢谢支持~~
|
25
xiaozizayang OP @RaymondYip 可以注册账号内测 书架追更比较好
|
26
flystar 2017-04-30 08:49:51 +08:00
非常不错,赞一个
页面的设置按钮功能目前没做么?另外求注册体验~ |
27
licheng527 2017-04-30 09:10:31 +08:00
挺不错的,收藏了,希望可以解析更多收费小说,哈哈
|
28
xiaozizayang OP @licheng527 哈哈
|
29
xiaozizayang OP @flystar 591460519 内测群 我来帮你注册
|
31
Artists 2017-04-30 09:44:52 +08:00
点开解析过的小说章节 404,不知道是不是个例
|
32
xiaozizayang OP @Artists ?链接发我看看
|
33
Artists 2017-04-30 09:53:11 +08:00
|
34
xiaozizayang OP |
35
lany 2017-04-30 11:14:31 +08:00
@xiaozizayang 你的某些页面就是这样的。全部是 404
|
36
lany 2017-04-30 11:16:53 +08:00
|
37
xiaozizayang OP |
38
xiaozizayang OP @lany 你如果不能打开 全部是 404 的话 会不会是跟楼上一样 DNS 的问题 我这边都打开正常
|
39
kn007 2017-04-30 11:24:51 +08:00
稳
|
40
xiaozizayang OP @kn007 老哥也稳
|
41
Domains 2017-04-30 12:57:02 +08:00
刚好有朋友想看豪娶天价新妻,
搜索了一下,出来的都是死链接、广告链接,特别都是让你下载不知什么东西的安卓 App |
42
xiaozizayang OP @Domains 那个出来的网站都是没有解析的~~因为这个在其他搜索引擎没有资源~我这里也没有
|
43
tkisme 2017-04-30 13:18:41 +08:00
@xiaozizayang [email protected] 现在不能注册么
|
44
xiaozizayang OP @tkisme2013 还在内测中 你加群 我给你开个
|
45
RaymondYip 2017-04-30 14:16:52 +08:00
@xiaozizayang 好的谢谢拉 哈 我去注册个
|
46
xiaozizayang OP @RaymondYip 咋没见你加群来注册
|
47
tSQghkfhTtQt9mtd 2017-04-30 15:21:02 +08:00
不担心版权风险么?
|
48
tkisme 2017-04-30 15:44:02 +08:00
@xiaozizayang 找回密码也没做
|
49
xiaozizayang OP @tkisme2013 注册都还没开放~~这个做个很快
|
50
xiaozizayang OP @liwanglin12 开源不要紧吧 只是检索+缓存 百度不也这样?
|
51
world666 2017-04-30 16:04:41 +08:00
- -写正则解析啥的太麻烦了吧,私信我,给你开个 API.万能解析,只要是文章类的通杀。
|
52
xiaozizayang OP @world666 啊哈哈,我这样写有这样写的用处 目前的 api 也在写通用获取
|
53
world666 2017-04-30 16:10:52 +08:00
@xiaozizayang 啊,其实我想加你好友,取取经。。。哈哈哈哈。。。
|
54
xiaozizayang OP @world666 进群交流吧 哈哈
|
55
zhuoziyu 2017-04-30 19:50:11 +08:00
|
56
xiaozizayang OP @zhuoziyu 写个余弦相似度就解决了
|
57
Icemic 2017-05-01 14:04:05 +08:00
厉害啊,给同在研究推荐系统的我不少启发,star 了
|
58
xiaozizayang OP @Icemic 然而推荐系统部分却还没写哈哈
|
59
guonning 2017-05-01 23:30:53 +08:00 via iPhone
爱这样得,看书,找书有去处了
|
60
xiaozizayang OP @guonning 谢谢支持
|
61
Izual_Yang 2017-05-02 12:10:49 +08:00
很好,我只有一个问题:翻页 tm 在哪儿?不论是翻页链接还是热键,还是滚动到底部自动加载下一页,我全都没找到
|
62
xiaozizayang OP @Izual_Yang 这是个好问题 哭脸~~ 就是还没做下一页
|
63
Izual_Yang 2017-05-02 17:20:24 +08:00
@xiaozizayang
其实在电脑上问题不大,甚至可以键盘操作( ctrl+w 关掉当前章节,然后目录上按 tab 跳到下一章链接,回车) 在手机上就让我不太适应,因为已经被 uc 浏览器养懒了。 虽然我在电脑浏览器上也习惯了通过油猴子( https://greasyfork.org/scripts/292-my-novel-reader/ 或者 https://greasyfork.org/scripts/293-super-preloaderplus-one 自己添加规则)自动加载下一章 |
64
solobat 2017-05-02 18:02:50 +08:00
看着不错,收藏了
|
65
junred 2017-05-03 09:13:35 +08:00
解析后的网页布局比原网页还要漂亮~
|
66
xiaozizayang OP @junred 不比原来漂亮解析干嘛~
|
67
junred 2017-05-04 08:42:37 +08:00
@xiaozizayang 你这解析是针对每个网站写一个特定解析?
|
68
xiaozizayang OP @junred 一个网站一个规则
|
69
ruter8 2017-05-04 13:02:59 +08:00
惊现宇哥。
|
70
xiaozizayang OP @ruter8 我类个去 缘分~~
|
71
shunia 2017-05-05 14:06:46 +08:00
求推荐无限流网文,把你知道的都说出来,看看哪些没看过,我去关注一下.
|
72
xiaozizayang OP @Izual_Yang 已经做了翻页了
|
73
ifaii 2017-05-21 19:00:06 +08:00
@xiaozizayang 想知道设置不能用是怎么回事,没法设置黑白页面
|
74
xiaozizayang OP @ifaii 设置的功能还没写
|
75
licheng7475 2017-05-23 15:20:31 +08:00
搜到大部分没解析。。。
|
76
xiaozizayang OP @licheng7475 看源 你是搜索哪本小说?
|
77
licheng7475 2017-05-23 17:01:41 +08:00
@xiaozizayang 随便搜的,包括你案列的雪中悍刀行
|
78
xiaozizayang OP @licheng7475 不是你网络问题就是这个项目部署的服务器抽风了 http://oe7yjec8x.bkt.clouddn.com/howie/2017-05-23-093334.jpg
![刚搜索的]( http://oe7yjec8x.bkt.clouddn.com/howie/2017-05-23-093334.jpg) |