http://anynb.com 是开源 ourjs 的一个 DEMO 网站,原来只爬了一些知名的博客,后来发现还是有些人访问的。
现在加入了三大门的网站股票频道新闻,为了避免法律风险只爬了标题和链接,内容指向原文
最新开源代码在 0.1.1 的分支 https://github.com/newghost/ourjs/tree/0.1.1 可能不稳定
稳定简单版的代码可查看默认分支 https://github.com/newghost/ourjs/tree/0.1.x
1
yh7gdiaYW 2016 年 1 月 18 日
时间字体太难看了啊
|
3
figofuture 2016 年 1 月 18 日
只是爬爬新闻还好,先马克下。
|
4
GhostEX 2016 年 1 月 18 日
有意思啊,整站花了多久做出来的?
|
5
master13 2016 年 1 月 18 日
所以,你认为只要把内容指向原文就能“避免法律风险”吗?
|
8
fising 2016 年 1 月 18 日
有什么意义吗。
|
10
Andy00 2016 年 1 月 18 日
想求教一下题主是如何保证抓取每个页面都能拿到标题?是统一用 h1 标签抓取的吗?
|
13
Andy00 2016 年 1 月 18 日
还是不太懂,求教题主细说一下
我之前的做法都是把整个页面拿下来然后用用正则表达式提取,所以需要去找每个网站的页面 html 代码然后写对应的正则,感觉这种做法效率太低了,求教更高效的做法 |
14
onion83 2016 年 1 月 18 日
那个进度条对于视频网站才有意义,一般的文字网站我觉得太晃眼了。
|
15
newghost OP @Andy00
anynb 全部使用 JavaScript(DOM),用 JavaScript 操作DOM再简单不过了。你可以参考以下技术 https://github.com/atom/electron https://github.com/nwjs/nw.js http://phantomjs.org/ 有空我会整理一篇文章出来…… |
17
Andy00 2016 年 1 月 18 日
学习了学习了!
我之前都是用 java 写,感觉入了个坑。。。决定转投 js 了 |
18
magicdawn 2016 年 1 月 18 日
可以直接从 chrome devtools 复制出 selector, 放到 cheerio 的 selector 里...完美
其他语言, BeautifulSoup / CsQuery / goquery 应该也可以, 估计要改改... 这个 node 的 cheerio 真是无敌了 |
20
cheneydog 2016 年 1 月 18 日
下一步添加市场情绪分析吧。
|
21
magicdawn 2016 年 1 月 19 日
@newghost 那这个 DOM 动态渲染你是咋做的~
我觉得 DOM 动态渲染分两种, 一种是 ajax 接口然后去渲染, 一种是淘宝那样, 内嵌 js 数据, 去渲染 前面一种直接用它接口就好, 后面估计要去找 js |
24
magicdawn 2016 年 1 月 19 日
|
28
kelaodo 2016 年 1 月 20 日
赞一个
|