按照“刘政怡, 吴建国 and 刘慧婷, 2008. 音节切分歧义方法研究. 计算机技术与发展, 18(8), pp.35-38.”论文,用 C++17 实现了一个拼音分割算法。
https://github.com/fantasticfears/pinyin-syllable-segmentation
算法只有一个 syllable_segmentation.hpp
,syllable_list.csv
是一个音节的文件。SyllableIndex
存了音节的信息。SyllableSegmentor
实现了 AppendPhone
、GetSyllableList
和 PopLastPhone
,分别可以添加音符、获得分割好的音符字符串和删除最后一个字符。
现在已经没有多少研究去做音节分割了。搜狗可能做得比研究都好了。
1
lotem 2019-04-12 06:14:14 +08:00
恭喜
|
2
fantasticfears OP @lotem 谢谢,写它的契机其实是落格输入法可以用上。其他能用上的地方就只有生成 slug 了。输入法这样顶尖的应用有能降低心智的负担,但重要的点还是在于数据的分析。能提高一个量级的水平。还是商业化好做到这个目标吧
|
4
0312birdzhang 2019-04-12 08:29:12 +08:00
第一次离大佬们这么近(一直没静下心来研究一下 rime😂
|
5
faywong8888 82 天前
先赞后读。
|
6
faywong8888 81 天前
请教下,这个库支持侦测拼写错误吗?比如 "jiabg" 的拼写错误在 'b' 这里。
|
7
fantasticfears OP @faywong8888 论文里的算法没考虑过这个问题。所以我也没想过实现这个功能。理论上可以改进
|