V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
YUCOAT
V2EX  ›  程序员

如何获取一个句子的拼音

  •  
  •   YUCOAT · 2013-08-23 12:03:51 +08:00 · 4195 次点击
    这是一个创建于 4112 天前的主题,其中的信息可能已经有所发展或是发生改变。
    情况是这样的:

    这里有一个大小约0.5个G的一个纯文本文件。
    该纯文本文件每一行保存的都是一句话,并且该文件中无重复的话。一句话内部只有简体汉字,无标点符号、无空格、无英文、无繁体字等等


    现在我需要为这个文件里面每一句话弄一行拼音,并且将拼音存入另外一个文件中,行号一一对应,请问我该怎么做?

    拼音是全拼,且无声调,无空格,需要考虑多音字。

    比如:zheyihangdiquebuxing(这一行的确不行)
    10 条回复    1970-01-01 08:00:00 +08:00
    levon
        1
    levon  
       2013-08-23 12:10:59 +08:00
    http://www.microsoft.com/zh-cn/download/details.aspx?id=18970
    这有一个,是.net的类库

    汉字有很多多音字,要完全准确感觉挺难
    qdvictory
        2
    qdvictory  
       2013-08-23 12:19:58 +08:00
    通常都是扒一码表,然后跑一下

    https://gist.github.com/qdvictory/6315510
    qdvictory
        3
    qdvictory  
       2013-08-23 12:21:23 +08:00
    汗,我理解错了,sorry- -
    leiz
        5
    leiz  
       2013-08-23 12:45:29 +08:00
    python有中文文字转拼音的库,不过效率不清楚
    200
        6
    200  
       2013-08-23 12:56:06 +08:00
    要做准确的话 就要分词 不然多音字会有问题
    felix021
        7
    felix021  
       2013-08-23 13:32:53 +08:00
    顶@200 。汉字转拼音的数据和代码很多,但是搞不定多音字,前面的那些回答都没啥用。要解决多音字,必须从语义层面入手。分词是一个比较好的方法,但是最终的实现还是需要一个"词语->拼音"的数据库,这个貌似不太好找。
    wuxqing
        8
    wuxqing  
       2013-08-23 13:53:50 +08:00
    @felix021 对,关键是“词语->拼音”的数据库
    kittenll
        9
    kittenll  
       2013-08-23 14:56:30 +08:00   ❤️ 1
    利用自然语言统计模型处理,可以很好的处理多音字的问题。比如HMM(隐马尔土科夫模型)。如果计算资源足够的话,可以使用n>2,不然使用n=2就可以了。
    YUCOAT
        10
    YUCOAT  
    OP
       2013-08-23 15:25:13 +08:00
    @kittenll 你提出的想法是最有用的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3576 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:14 · PVG 19:14 · LAX 03:14 · JFK 06:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.