V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  xuanwu  ›  全部回复第 31 页 / 共 34 页
回复总数  671
1 ... 23  24  25  26  27  28  29  30  31  32 ... 34  
@whileFalse 第一, 把最常用的索引数据本地化(并且按时同步). 比如说, 假设全网万分之一(或者十万分之一, 取决于索引大小和用户能负担的空余硬盘空间)的内容可以应付最常用的 60%的搜索. 那么就把这万分之一的索引数据本地化. 这样 60%的搜索就可以在本地进行.

第二, 针对个人感兴趣的主题和搜索历史, 提前获取相应的索引部分到本地, 进一步减少实时对其他节点 /主节点的搜索请求压力. 假设这可以应付剩下 40%的 60%. 还剩 16%. 一二两步都有额外的同步开销, 但因为是以大块的索引数据形式同步, 应该远小于省去的远程搜索开销.

第三, 每次搜索并不需要全网信息. 只需返回排序最靠前的 10 个即可(应该也是主流搜索引擎预先缓存的). 而排序靠后的可以在第一次搜索之后按照第二条进行预获取(在用户浏览前十个搜索结果时).

另外, "每次搜索需要 100 个请求,这一次搜索多久能完成,用户等不等得起?" 这个应该是主流搜索引擎解决了的问题吧, 毕竟不需要等候所有请求都返回.
@ antileech https://www.v2ex.com/t/487957?p=2#r_6154772 在这里回复.
> 太理想化了,倒不是技术问题,而是国内政治风险太大。如果不做审查,负责人很快就会被约谈;如果审查,投入的人力成本又不是社区负担得起的。

审查是无论国内外搜索引擎都需要处理的. 社区是广泛的搜索引擎使用者社区, 而非它的开发者社区. 还需要一套开放的举报和审核机制.
@yoyohaha 应该是持续投入吧?考虑主站服务器投入等等。
2018-09-11 05:05:51 +08:00
回复了 kaichao5 创建的主题 程序员 再次对百度出来的搜索结果感到无比失望
@kersbal 嗯, 短期内很可能. 不过排位算法在刚出现的时候也是被不停钻空子的(这个帖子的问题说不定也是被钻了空子). 个人认为 SEO vs. 排位(算法+人工)类似于加 /解密的关系. 哪里看到过的说法是, 闭源的加密算法往往比开源的不安全.
2018-09-11 02:11:00 +08:00
回复了 kaichao5 创建的主题 程序员 再次对百度出来的搜索结果感到无比失望
@kersbal duckduckgo 并不是分布式的吧? 而且它搜索算法应该不开源吧? 我的设想是这样的: [支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?]( https://www.v2ex.com/t/488032)
2018-09-11 01:16:35 +08:00
回复了 kaichao5 创建的主题 程序员 再次对百度出来的搜索结果感到无比失望
这么多年了 有没有试过靠志愿力量维护一个分布式+社区监督维护的开源搜索引擎? 感觉技术人力和计算资源都不是问题啊
2018-09-10 15:07:36 +08:00
回复了 xuanwu 创建的主题 奇思妙想 有没有针对源代码的在线翻译服务?
"使用现有在线翻译服务进行代码翻译的体验": https://zhuanlan.zhihu.com/p/44169542
用两个小例程测试了楼上的 4 个翻译服务. 最后有初步的需求分析.
2018-09-10 13:50:44 +08:00
回复了 xuanwu 创建的主题 奇思妙想 有没有针对源代码的在线翻译服务?
发帖时写的一个浏览器插件实现 GitHub 代码翻译原型演示: https://zhuanlan.zhihu.com/p/43304088
正写篇调研文, 在几个在线文本翻译服务(gg, 搜狗, 百度, 有道等等)中尝试翻译源码, 看看效果.
可以料想的是它们都不具备语法高亮功能. 主要关注点在于代码可读性和格式保全等问题.
2018-09-08 13:46:16 +08:00
回复了 vveexx 创建的主题 程序员 撸了个变量命名的工具,求大佬们给点意见
@vveexx 哦, 了解. 之前打算做的一个项目是相反, 把英文术语中文化: https://github.com/program-in-chinese/overview/issues/85
像"积分"这样的非 IT 业务相关用语, 如果形成字典的话大概更接近普通汉英词典吧?
越是和业务领域相关的命名可以考虑直接中文命名. 这里搜集了一些 v2 上的中文命名实践: https://www.v2ex.com/t/477109
2018-09-08 12:55:26 +08:00
回复了 vveexx 创建的主题 程序员 撸了个变量命名的工具,求大佬们给点意见
不大明白具体功能, 可否详述?
另外, 刚做的 Java 英汉词典 API 接口已发布到 Maven: https://zhuanlan.zhihu.com/p/43977821

英汉词典.查词("lend")

返回:

{
英文: lend
音标: lend
英文释义: v. bestow a quality on
v. give temporarily; let have for a limited time
v. have certain characteristics of qualities for something; be open or vulnerable to

中文释义: vt. 借, 贷款给, 增添, 提供, 出租
vi. 贷款

词语位置:
柯林斯星级: 3
为牛津三千核心词: true
标签: zk gk
英国国家语料库词频顺序: 2740
当代语料库词频顺序: 3548
变形: 过去式:lent; 第三人称单数:lends; 过去分词:lent; 现在分词:lending;
详细:
在线读音音频:
}
2018-09-07 06:12:12 +08:00
回复了 lcdxiangzi 创建的主题 程序员 刚刚把自己蠢哭了
有好用的 UI 工具可以生成吗? 感觉即使多一步上传服务器, 也比全手动好吧.
2018-09-07 05:58:50 +08:00
回复了 KevinOfNeu 创建的主题 程序员 手拉手一起来实现一门运行在 JVM 上的语言
支持. 小建议: 不妨采用中文关键词. 源代码使用中文命名更好.
之前的一点个人尝试:
- Antlr4+ Java 实现中文语法的简单编程语言(开头) https://www.v2ex.com/t/482717
- Antlr4+JavaScript 实现中文语法的 LOGO 语言子集, 带在线演示 https://www.v2ex.com/t/482519
2018-09-06 15:47:23 +08:00
回复了 xuanwu 创建的主题 奇思妙想 有没有 Maven 可用的 Java 库实现英汉词典功能的?
已发布:
<dependency>
<groupId>com.codeinchinese</groupId>
<artifactId>english-chinese-dictionary</artifactId>
<version>0.0.1</version>
</dependency>
源码库在: https://github.com/program-in-chinese/english-chinese-dictionary
2018-09-06 14:35:30 +08:00
回复了 xuanwu 创建的主题 奇思妙想 有没有 Maven 可用的 Java 库实现英汉词典功能的?
@linshuang 你是说用 ECDICT 下的 Python 脚本吗? 比如 https://github.com/skywind3000/ECDICT/blob/master/stardict.py ?
做这个的一个目的是用在 https://www.v2ex.com/t/484895#r_6131734, 而代码语法分析和生成的部分打算用 Java 做, 所以打算直接用 Java 封装一下英汉词典数据.
2018-09-06 08:12:15 +08:00
回复了 xuanwu 创建的主题 奇思妙想 有没有针对源代码的在线翻译服务?
@youngxhui 多谢. 之前在 GG 翻译也测试过. 看起来搜狗结果没有考虑到代码语法. GG 的好像考虑了, 但翻译效果欠佳.
这些翻译接口都不免费, 而且长期来看不可能有永久免费的(像之前的有道).
现在正在实现一个英汉词典 API: https://www.v2ex.com/t/485481
之后再着手这个原型. 大概思路在 https://github.com/program-in-chinese/overview/issues/86

```
#这是我的购物清单
shoplist = ['apple','mango','胡萝卜','香蕉']

打印('我有',len (商店列表),'要购买的商品。')

print ('这些项目是:',end ='')
对于商店列表中的项目:
print ( item,end ='')

打印('\ n 我还要买米饭。')
shoplist.append ( '大米')
打印('我的购物清单现在',店铺列表)

打印('我现在将对我的列表进行排序')
shoplist.sort ()
print ('Sorted shopping list is',shoplist )

print ('我要买的第一件商品是',shoplist [0])
olditem = shoplist [0]
del shoplist [0]
打印('我买了',olditem )
打印('我的购物清单现在',店铺列表)
```
2018-09-05 07:14:11 +08:00
回复了 xuanwu 创建的主题 分享创造 中文代码示例之 Spring Boot 集成 H2 内存数据库系列
@K1W1 之前有些关于输入效率的探讨. 小结在知乎专栏文章"对在代码中使用中文命名的质疑与回应"( https://zhuanlan.zhihu.com/p/30529835 ), "中文输入太慢, 降低开发效率"一节
2018-09-04 14:33:57 +08:00
回复了 xuanwu 创建的主题 奇思妙想 有没有 Maven 可用的 Java 库实现英汉词典功能的?
初步实现, 变形部分有些改进:
```
{英文: collocate
音标: 'kɒlәkeit
英文释义: v. have a strong tendency to occur side by sidenv. group or chunk together in a certain order or place side by side
中文释义: vt. 布置, 使成搭配, 排列
词语位置:
柯林斯星级: 0
为牛津三千核心词: false
标签:
英国国家语料库词频顺序: 0
当代语料库词频顺序: 0
变形: 名词复数形式:collocates; 第三人称单数:collocates; 现在分词:collocating; 过去式:collocated; 过去分词:collocated;
详细:
在线读音音频:
}
```
接下去是释义部分的分隔, 比如:
```
{英文: anamorphosis
音标: .ænә'mɒ:fәsis
英文释义: n. the evolution of one type of organism from another by a long series of gradual changes\nn. a distorted projection or perspective; especially an image distorted in such a way that it becomes visible only when viewed in a special manner
中文释义: n. 歪像, 失真图像, 畸形发育, 渐变体\n[化] 变形; 失真
词语位置:
柯林斯星级: 0
为牛津三千核心词: false
标签:
英国国家语料库词频顺序: 0
当代语料库词频顺序: 0
变形:
详细:
在线读音音频:
}
```
2018-09-03 13:21:17 +08:00
回复了 xuanwu 创建的主题 奇思妙想 有没有针对源代码的在线翻译服务?
看来是没有这样的工具 /服务。
如认为有价值的但不便现身的不妨点感谢。
无论如何都会尽量实现, 但估计会是长期项目。会在此帖报告进展。
2018-09-03 09:09:14 +08:00
回复了 xuanwu 创建的主题 分享创造 中文代码示例之 Spring Boot 集成 H2 内存数据库系列
@airfling 还没有碰到在语言 /框架支持时, 由于使用中文命名出现的问题. 如果发现, 欢迎到 https://github.com/program-in-chinese/overview/issues 提.
2018-09-01 18:20:14 +08:00
回复了 tinyuu 创建的主题 Java 满屏中文的 Java 类
以后业务部分用中文命名会越来越多, 保守估计 5 年之内会常态化, 市面上会出现使用中文命名的编程教程。
在这种大趋势下, 现在就在一家中文命名的公司是幸运的。好处包括:
- 可以更快掌握业务逻辑(开始信息量大会有点累)
- 可以跳过不少编码问题的坑, 积累技术经验
- 在这样工作环境里可以大胆尝试在各种语言 /框架里的中文命名, 以后迟早有用

除了重构之外, 可以对命名 /编码等进行进一步规范并形成文档。至今没有看到公开的中文命名规范。在讨论组里有一个专题帖: https://github.com/program-in-chinese/overview/issues/45
欢迎一同探讨。
1 ... 23  24  25  26  27  28  29  30  31  32 ... 34  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   897 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 21:07 · PVG 05:07 · LAX 13:07 · JFK 16:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.