大家对 solr 的多语言处理有什么好的建议吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3841 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前在公司一直在搞solr的多语言处理，发现针对多种语言多个field的做法，其方式和效率简直无法忍受。自己也为此写了一个plugin（ https://github.com/smalldirector/solr-multilangs-analyzer ）来进行优化，但是一直不确定这种方法是不是其他的公司也实践过，最近为这个问题是相当的苦恼啊，所以想求v2exer给点好的建议。（最好是已经实践过了的^_^）

solr

plugin

语言

4 条回复 • 2014-06-13 00:46:24 +08:00

andyhu

2014-06-13 00:12:49 +08:00

不太清楚楼主要做什么，意思是说要把包含多语言语种的文字区别开语言，不同语言用不同分词规律来分词吗？没研究过solr，之前也研究过elasticsearch的多语言处理问题。以前看到过一个商业产品
http://www.basistech.com/text-analytics/rosette/language-identifier/
就是价格奇贵

andyhu

2014-06-13 00:30:59 +08:00

http://www.basistech.com/solutions/search/rosette-for-lucene-solr/
这东西也不错，据说以前Google都用过他家的解决方案

andyhu

2014-06-13 00:31:24 +08:00

我下过一个elasticsearch版本的，可以用反编译软件查看到它的源码

smalldirector

2014-06-13 00:46:24 +08:00

@andyhu 非常感谢你意见，我要好好研究下你给的链接内容。

对于我的需求，就是系统环境可能包含各种语言的邮件内容，甚至是各种语言的混合内容，然后我想找一种合适的解决方案来对这些多语言文本进行很好的处理。最开始的思路就是一种语言对应solr一个字段，然后搜索的时候就去搜索所有的字段，这样子效率太不好了，如果我要支持10种语言，那么就需要10个字段，这样子太暴力了，所以才想着怎么去解决这个问题。这也是我最后没找到合适的方案，才去尝试的修改solr的analyzer，tokenizer以及语言检测的逻辑的。