V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
seanlee97
V2EX  ›  Python

xmnlp — 轻量级中文 nlp 工具

  •  
  •   seanlee97 ·
    SeanLee97 · 2018-02-28 20:51:42 +08:00 · 3150 次点击
    这是一个创建于 2466 天前的主题,其中的信息可能已经有所发展或是发生改变。

    为了方便工作学习,于是乎借鉴了一些项目并结合自己想法写了个 nlp 工具包。

    小明 nlp 目前支持:

    • 中文分词,词性标注
    • 文本纠错
    • 情感分析
    • 文本转拼音

    中文分词主要基于词典,算法采用了与结巴分词类似的 DAG 图,采用了 HMM+Viterbi 新词识别, 支持自定义词典

    文本纠错采用了 bigram + levenshtein 距离实现,文本纠错我主要用在 chatbot 和智能硬件中

    项目地址:xmnlp

    3 条回复    2018-03-01 11:13:00 +08:00
    nciyuan
        1
    nciyuan  
       2018-03-01 01:11:33 +08:00 via Android
    先生?
    northisland
        2
    northisland  
       2018-03-01 08:14:10 +08:00
    厉害了
    yuewolf
        3
    yuewolf  
       2018-03-01 11:13:00 +08:00
    一直用结巴的 STAR 一下。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2904 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 02:39 · PVG 10:39 · LAX 18:39 · JFK 21:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.