向量数据库对中文模糊检索的支持如何

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 492 天前的主题，其中的信息可能已经有所发展或是发生改变。

试过国内的一些大模型产品，文心、通义等，对原理不熟悉，按照我粗浅的理解，这些 AGI 的输出就是根据之前的输出 token 预测下一个输出 token ，最终形成完整的输出。

另外，也看到一些文章（ https://zhuanlan.zhihu.com/p/633671394 ），基于大模型+专业知识库构建简单的专业模型，一般做法是把专业知识库转成向量，扔到向量数据库。用户使用的时候，先把用户输入转成向量，并在知识库向量种搜索相似向量，再把用户原始输入和匹配的知识库扔给大模型，使得输出的内容和知识库紧密相关。

这里的核心是在向量数据库里面搜索和输入相近的知识库，按照传统做法，如果想做全文检索，常规方式是 lucene ES 等方式，在我搜到的向量检索方面，很少再提到中文分词了。

这是啥情况？向量数据库支持中文模糊检索吗？

向量数据库

模糊检索

中文

3 条回复

Kite6

2024 年 9 月 27 日 via Android

向量检索不需要分词，本身就是语义匹配

TimePPT

PRO

2024 年 9 月 27 日

因为 ES 检索是文本检索，所以需要考虑字/词/词组的权重，比如经典的 TF-IDF/BM25
语义向量检索其实是通过 Embedding 做了语义嵌入，context 的互信息形成一个多维向量值。再比较目标间的向量相似度。其实这个也需要分词，但分词阶段是放在了 Embedding 模型训练时候去做词表。

wangxiaoer

2024 年 9 月 27 日 via iPhone

@TimePPT

1 Embedding 阶段的分词需要传统不同语言的词库做支撑吗？
2 不考虑大模型，普通的向量数据库如 pg 的 pgvector 插件支持中文 embdding 吗？