V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
The Go Programming Language
http://golang.org/
Go Playground
Go Projects
Revel Web Framework
vway
V2EX  ›  Go 编程语言

Gse v0.10.0 发布了, Go 高性能分词

  •  
  •   vway ·
    vcaesar · 2018-04-27 19:57:05 +08:00 · 1839 次点击
    这是一个创建于 2401 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Go 语言高效分词, 支持英文、中文、日文等

    词典用双数组 trie ( Double-Array Trie )实现, 分词器算法为基于词频的最短路径加动态规划。

    支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。

    项目地址: https://github.com/go-ego/gse

    package main
    
    import (
    	"fmt"
    
    	"github.com/go-ego/gse"
    )
    
    func main() {
    	var seg gse.Segmenter
    	seg.LoadDict("zh,testdata/test_dict.txt,testdata/test_dict1.txt")
    
    	text1 := []byte("你好世界, Hello world")
    
    	segments := seg.Segment(text1)
    	fmt.Println(gse.ToString(segments, false))
    }
    

    Danube River

    Add

    • [NEW] 增加加载词典错误行检测
    • [NEW] 增加不同语言词典缩写
    • [NEW] 增加模式分词方法
    • [NEW] 增加自定义字典你在
    • [NEW] 更多测试
    • [NEW] 更新测试工具

    Update

    • [NEW] 更新 tool 和 benchmark 代码
    • [NEW] 更新 cedar 代码
    • [NEW] 简化代码 name
    • [NEW] 更新 README.md
    • [NEW] 细分代码方法
    • [NEW] 更新版本并使用 dep 管理包
    • [NEW] 优化字典加载
    • [NEW] 更新 log print 和文件名

    Fix

    • [FIX] Format some code and fix godoc
    6 条回复    2018-04-28 15:57:45 +08:00
    ilylx2008
        1
    ilylx2008  
       2018-04-27 20:22:15 +08:00 via Android
    dbpe
        2
    dbpe  
       2018-04-27 20:26:29 +08:00 via Android
    定一个。。今天拿 go 写了一个小程序感觉还行
    GreatMartial
        3
    GreatMartial  
       2018-04-27 21:10:41 +08:00 via Android
    关注
    vway
        4
    vway  
    OP
       2018-04-27 21:30:51 +08:00
    @ilylx2008 🤝, 感谢
    vway
        5
    vway  
    OP
       2018-04-27 21:31:07 +08:00
    @dbpe
    @GreatMartial 感谢关注
    whyw
        6
    whyw  
       2018-04-28 15:57:45 +08:00
    mark
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2861 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:02 · PVG 17:02 · LAX 01:02 · JFK 04:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.