PC 端哪个 speech-to-text 模型比较好

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 53 天前的主题，其中的信息可能已经有所发展或是发生改变。

各位佬，最近想内部开发个小工具，在 Windows 或者 Mac 上实现语音转文本，目前有哪个模型可以比较好支持中、英文识别，模型要开源的，识别率尽量高，而且对于资源的占用不是很高。是否有哪位佬整个，推荐一个比较合适的模型。先谢过各位大佬了！

3 条回复 • 2025-12-08 11:03:51 +08:00

565656

2025 年 12 月 8 日

apple windows 都自带把

xtreme1

2025 年 12 月 8 日

我在 pc + nvidia 上用这个看视频生成字幕, 中英文都没啥问题, 你可以不同规模都试试
https://huggingface.co/ggerganov/whisper.cpp/tree/main

Meteora626

2025 年 12 月 8 日

开源绕不开阿里，funasr 找个最新的模型就行了