几万条数据中找所有带某个字符串的记录怎么找比较快? - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1761 天前的主题，其中的信息可能已经有所发展或是发生改变。

lz 这方面是个小白，现在一个项目有 1 万条数据，举个例子，地址：浙江省杭州市拱墅区天翼路等。我想把所有地址含有拱墅区这三个字的记录筛选出来。我原来是很傻地用一个 list 装，一个个找。现在想着，数据量大了，用数据库存然后找会不会更快？我试了下，用 list 一个个找约有 6ms，但是对数据库不大熟，有经验地老哥指点下怎么存怎么找快一点?

14 条回复 • 2021-04-09 23:37:28 +08:00

1

ch2

2021 年 4 月 9 日

elasticsearch 了解一下

2

codehz

2021 年 4 月 9 日 via Android

（如果只是匹配字符串的话，可以先分词，然后做词向量的方法处理。。。
但是考虑到这里似乎和地理位置相关，这个方法可能不太够用

3

samohyes

OP

2021 年 4 月 9 日

@ch2 好嘞，我去了解下

4

a5X77vajGRyLA2aF

2021 年 4 月 9 日

kmp 算法，ac 自动机; 根据自己需求，选择 NFA 算法或 DFA 算法

5

xarthur

2021 年 4 月 9 日 via iPhone

这个数量才多少点……算你一条 15 个字，用 UTF-8 编码，汉字三个字节。一万条数据才 439.45KB……

6

samohyes

OP

2021 年 4 月 9 日

@xarthur 我这情况比较特殊，6ms 对我来说已经占了我所用的一次整个流程的一半了。。。我得把这个时间再缩短下。。

7

HeavyWhale

2021 年 4 月 9 日

boyer-morre

8

xarthur

2021 年 4 月 9 日

@samohyes 6ms 占了流程的一半……你整个流程才 12ms 啊。如果只是偶尔调用也不慢啊。

9

coreki

2021 年 4 月 9 日 via Android

DFA 算法

10

aec4d

2021 年 4 月 9 日 via iPhone

最容易，最好理解的方法是 n-gram，空间换时间，比如 abc 分成 abc,ab,bc,a,b,c 放到字典里面，查询效率是 O(1)

11

IsaacYoung

2021 年 4 月 9 日

巧了前几天正好看到 kmp 算法

12

dawangyezi

2021 年 4 月 9 日

先分词，建立倒排索引，然后再找就快了。和检索引擎一个原理。也可以直接用数据库的全文检索插件做

13

Ballmer

2021 年 4 月 9 日

最简单的 fulltext index 全文索引这种效果咋样

14

billlee

2021 年 4 月 9 日

1 万条数据，如果在意的是延迟，用数据库显然是不行的，一个网络 RTT 都要几毫秒了。
这种这是多个字符串搜索单个词，没有什么太好的优化方法了。要优化应该要从内存访问方面着手了，比如把链表改成连续内存。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 2307 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 26ms · UTC 14:51 · PVG 22:51 · LAX 06:51 · JFK 09:51
♥ Do have faith in what you're doing.