1
andyhu 2014-06-13 00:12:49 +08:00
不太清楚楼主要做什么,意思是说要把包含多语言语种的文字区别开语言,不同语言用不同分词规律来分词吗?没研究过solr,之前也研究过elasticsearch的多语言处理问题。以前看到过一个商业产品
http://www.basistech.com/text-analytics/rosette/language-identifier/ 就是价格奇贵 |
2
andyhu 2014-06-13 00:30:59 +08:00
http://www.basistech.com/solutions/search/rosette-for-lucene-solr/
这东西也不错,据说以前Google都用过他家的解决方案 |
3
andyhu 2014-06-13 00:31:24 +08:00
我下过一个elasticsearch版本的,可以用反编译软件查看到它的源码
|
4
smalldirector OP @andyhu 非常感谢你意见,我要好好研究下你给的链接内容。
对于我的需求,就是系统环境可能包含各种语言的邮件内容,甚至是各种语言的混合内容,然后我想找一种合适的解决方案来对这些多语言文本进行很好的处理。最开始的思路就是一种语言对应solr一个字段,然后搜索的时候就去搜索所有的字段,这样子效率太不好了,如果我要支持10种语言,那么就需要10个字段,这样子太暴力了,所以才想着怎么去解决这个问题。这也是我最后没找到合适的方案,才去尝试的修改solr的analyzer,tokenizer以及语言检测的逻辑的。 |