现在又一个十几万个基因的名字,需要在一段文字中找到这些基因 Gene Symbol,然后从这个 Gene Symbol 两边切一刀,把这段文字切成 list
但是这个 pattern 就会操集长,想到用 re.split 来弄,但是 pattern 太长了,效率低
1
layorlayor 2018 年 4 月 24 日
手写个 AC 自动机?
|
2
neosfung 2018 年 4 月 24 日 via iPhone
FlashText 了解一下?
|
3
bantao 2018 年 4 月 24 日
flashtext 中文好用吗,是不是要先分个词
|
4
laqow 2018 年 4 月 25 日 via Android
re 按行操作的话不会很长,python 自己的函数处理文字非常慢,按二进制读文字做匹配速度会快很多
|