lz 这方面是个小白,现在一个项目有 1 万条数据,举个例子,地址:浙江省杭州市拱墅区天翼路等。我想把所有地址含有拱墅区这三个字的记录筛选出来。我原来是很傻地用一个 list 装,一个个找。现在想着,数据量大了,用数据库存然后找会不会更快?我试了下,用 list 一个个找约有 6ms,但是对数据库不大熟,有经验地老哥指点下怎么存怎么找快一点?
1
ch2 2021 年 4 月 9 日
elasticsearch 了解一下
|
2
codehz 2021 年 4 月 9 日 via Android
(如果只是匹配字符串的话,可以先分词,然后做词向量的方法处理。。。
但是考虑到这里似乎和地理位置相关,这个方法可能不太够用 |
4
a5X77vajGRyLA2aF 2021 年 4 月 9 日
kmp 算法,ac 自动机; 根据自己需求,选择 NFA 算法或 DFA 算法
|
5
xarthur 2021 年 4 月 9 日 via iPhone
这个数量才多少点……算你一条 15 个字,用 UTF-8 编码,汉字三个字节。一万条数据才 439.45KB……
|
7
HeavyWhale 2021 年 4 月 9 日
boyer-morre
|
9
coreki 2021 年 4 月 9 日 via Android
DFA 算法
|
10
aec4d 2021 年 4 月 9 日 via iPhone
最容易,最好理解的方法是 n-gram,空间换时间,比如 abc 分成 abc,ab,bc,a,b,c 放到字典里面,查询效率是 O(1)
|
11
IsaacYoung 2021 年 4 月 9 日
巧了 前几天正好看到 kmp 算法
|
12
dawangyezi 2021 年 4 月 9 日
先分词,建立倒排索引,然后再找就快了。和检索引擎一个原理。也可以直接用数据库的全文检索插件做
|
13
Ballmer 2021 年 4 月 9 日
最简单的 fulltext index 全文索引这种效果咋样
|
14
billlee 2021 年 4 月 9 日
1 万条数据,如果在意的是延迟,用数据库显然是不行的,一个网络 RTT 都要几毫秒了。
这种这是多个字符串搜索单个词,没有什么太好的优化方法了。要优化应该要从内存访问方面着手了,比如把链表改成连续内存。 |