1
newbier 2018-02-24 13:02:42 +08:00
小白,看得一脸盲,呵呵。在我眼里你就是大神了。
|
3
liudanking 2018-02-24 14:00:12 +08:00 via iPhone
研究一下 推酷?
|
4
pheyer 2018-02-24 14:13:59 +08:00
想 copy 一个头条吗,感觉没那么容易啊
lz 文章排版不错,是用 Evernote 内部的编辑器排版的吗? |
5
linhanqiu OP @liudanking
听过,可以试试 |
9
w0000 2018-02-24 15:56:23 +08:00
不知道楼主的 数据源 多不多哈,爬虫采集的话,200w+ 量不是很大,有需要登录或者动态渲染的页面要抓的吗?如果有的通用爬虫都搞不定,nutch 感觉不好用,可能爬虫用 python 会开发起来好一些,数据清洗之后可能不需要关系数据库存,我这边也是公司在做类似的东西,金融舆情监控系统,跟你写的这个有一些相似的地方,有机会可以交流下
|
11
Xrong 2018-02-24 16:03:06 +08:00
文档 404 ???
|
12
linhanqiu OP @w0000 数据源是挺多的,大概有三四万左右,需要登陆和动态的网站确实都是交给我们自己开发的 python 框架来解决,通用的 nutch 来解决大部分市政的新闻网站,因为他们确实没有太多反爬,哈哈。数据存储的话,之后打算放在 HBase 来做,看来我们确实有挺多相似的地方,舆情的话我们也是打算在做,做新闻舆情的东西,不过本质是差不多的哈哈,
|
13
linhanqiu OP |
14
linhanqiu OP |
15
ZSeptember 2018-02-24 16:42:39 +08:00
感觉什么都没说啊。。
以前做过类似的吧,资讯基本可以用正文抽取解决。复杂点的也可以很容易的用配置解决。 需要登录的就每个都有单独做了,这个反爬太容易了。 用 kafka 做流处理,还是很不错的。 |
16
linhanqiu OP @ZSeptember 多谢大神指教
|
17
linhanqiu OP @ZSeptember 还想问一下,资讯正文提取可以,反爬太容易了是指什么,kafka 做流处理是在什么部分做比较上,是在新闻上传业务场景的时候吗
|
18
ZSeptember 2018-02-24 17:16:49 +08:00
@linhanqiu。渣渣一个。只是我觉得你的那个文档只涉及到技术选型而已,还没有到什么架构这个程度。
需要登录的当然别人想做反爬就可以做,你换 IP 都没用啊,现在很多需要手机号,如果会封号,成本很高的。 Kafka 在这种业务中可以作为架构基础,解耦爬虫,清洗,统计分析业务,爬虫就只管爬数据,把爬取到的数据打到 Kafka 就不用管了,后续的什么服务都可以很方便的接入。 |
19
linhanqiu OP @ZSeptember 哦哦,懂了,这个方面打算用微服务来做,每个模块做成服务
|