V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  nicoljiang  ›  全部回复第 57 页 / 共 57 页
回复总数  1134
1 ... 48  49  50  51  52  53  54  55  56  57  
千万级左右的 PV 还不至于要特别设计架构,普通的 lnmp 就可以了。何况你这还是浏览型网站,功能简单。
另外既然内容版权不差钱,那服务器数量、 CDN 什么的应该也不是问题。
再加上现在云服务这么多,分这么细~更没问题
建议你多把精力放在业务逻辑的实现和交互、视觉的设计上。
2016-11-07 19:06:03 +08:00
回复了 EarlGrey 创建的主题 程序员 国内公有云大幅降价后,首份一手云计算产品评测报告
收藏。
2016-10-13 11:37:03 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
2016-10-13 11:23:48 +08:00
回复了 zhangyueru 创建的主题 分享创造 我撸的网盘搜索引擎 www.vgeili.cn 数据体量已经到 6000 万
@zhangyueru 这个难度不应该是你解决了才放出来吗。。。没解决你就抓 6kw 数据,这。。。

另外: http://www.vgeili.cn/s/w/%E7%8E%8B%E8%80%85%E4%B9%8B%E5%89%91%E7%94%B5%E5%BD%B1
随便看一下, spam 真的太多了,感觉没有任何实用价值。
可能是搜狗的 spider 呢
2016-10-13 11:18:48 +08:00
回复了 wlee1991 创建的主题 正则表达式 怎么用正则去匹配尖括号之外的所有空格?
比较严禁的处理思路大概是类似这样的吧:

第一种方案:
1. 最小匹配所有的<.*?>,把每个匹配出来的段落存到 hash 中,并把他们替换成相应 key 作为代号;
2. 去所有空格;
3. 把所有在第一步中替换成的 key 代号变回相应的<.*?>中。

第二种方案:
1. 最小匹配所有的<.*?>,并把匹配内容的空格替换成某个代号;
2. 把全文所有空格去掉;
3. 再把第一步中的代号替换回空格。

这样执行效率可能略低,但比较准确。
2016-06-12 19:26:08 +08:00
回复了 haoqiangim 创建的主题 分享创造 Oh 生活 - 简洁,高效的在线日记
2010-11-16 19:36:36 +08:00
回复了 napoleonu 创建的主题 Google Chrome地址栏不显示"http://"之后应该再不显示"www."
很多时候想说...好的理念不是跟风跟出来的,有http和www的网址我觉得很漂亮~

我认为chrome这样做,至少在用户细节体验方面并不是一个进步的表现,至少它在做出一个史无前例的“改进”的时候没有给用户一个可选择的缓冲方案(例如:当鼠标激活地址栏的时候,自动显示并同时选择上协议名,或者给个设置让用户自己选择)。

当然,这是协议,它不属于这个“域名”本身,所以去掉协议并没有侵犯到这个“域名本身的主权”。

但是www不一样,它属于一个主机名,属于这个域名本身,自动去掉www就跟自动去掉news、mail、bbs主机名一样了~不仅会侵犯到这个域名的主权,还会给用户带来很大的不便。
2010-11-16 19:29:52 +08:00
回复了 napoleonu 创建的主题 Google Chrome地址栏不显示"http://"之后应该再不显示"www."
这个说法有点奇怪,如果你觉得实在丑的话,你不要打www不就行了~

别的浏览器也没自动给你加上个www是不是?

其实chrome省掉http之后,我就觉得很不喜欢了~

因为理论上http和https所访问出来的内容都会不一样。

这样做有点“强制”的感觉。
1 ... 48  49  50  51  52  53  54  55  56  57  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1006 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 19:45 · PVG 03:45 · LAX 11:45 · JFK 14:45
Developed with CodeLauncher
♥ Do have faith in what you're doing.