说话人分割用什么模型比较好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 621 天前的主题，其中的信息可能已经有所发展或是发生改变。

小规模会议场景（小于 10 人）下的说话人分割，希望能流式处理，请问什么模型延迟和准确性比较好呢？

提前感谢大佬回复！

（目前试过 funasr 的 cam++，分割效果不太好）

模型

延迟

准确性

13 条回复 • 2024-12-04 11:31:39 +08:00

jr55475f112iz2tu

2024 年 5 月 6 日

https://github.com/fighting41love/funNLP?tab=readme-ov-file#语音处理

这里找找看

q0000001

2024 年 5 月 6 日 via Android

多嘴问问，funasr 可以流式识别说话人？

BMPixel

2024 年 5 月 7 日

我之前自己试了几个，WhisperX 效果是最好的，不过好像不能流式。

Leon6868

2024 年 5 月 7 日

@q0000001 #2 readme 中有 cam++

Leon6868

2024 年 5 月 7 日

@czfy #1 好文档，不过没怎么提到说话人分割

q0000001

2024 年 5 月 7 日

@Leon6868 我也看到有，但是基本上都是非实时语音识别才有加载 cam++，看到 issue 里面说流式没有，所以一直没看到。
能再问问你是用 paraformer-zh-streaming 这个，再加载 cam++吗？

roding

2024 年 5 月 7 日

为什么要分割人😱

Leon6868

2024 年 5 月 7 日

@q0000001 #6 我描述得确实不太准确，当时是采用滑窗方式分割说话人的，类似 3s 历史+2s(未处理）这样（迫真流式）。我也没找到近期实时说话人识别/分割的工作，如果见到类似的工作欢迎多交流🙏

q0000001

2024 年 5 月 7 日 via iPhone

@Leon6868 明白明白。
没问题，最近都在搞这个，突然看到眼前一亮。哈哈。
大概原理懂了。嗯嗯，多交流。

Leon6868

2024 年 5 月 23 日

@q0000001 #9 最近尝试了一个非常好的项目，sherpa onnx ，在 asr 和说话人分割/识别方面基本能满足我的需求，你可以试一下

johnabyss

2024 年 6 月 5 日

@Leon6868
劳烦问一下，sherpa onnx 有说话人日志（ speaker-diarization ）的预训练模型么？我只找到了说话人确认的

Leon6868

2024 年 6 月 6 日

@johnabyss #11 vad speaker recognition 组合一下不就是了？

5gmobiler

2024 年 12 月 4 日

@Leon6868 请问下，sherpa onnx 支持实时/流式语音识别过程中的多说话人识别？谢谢！