前言

最近上了个网课，由于是直播课，没有字幕，感觉不太爽，调研了一下目前没有基于本地 whisper 的实时字幕软件.. 于是自己手搓了一个~ 欢迎 star

传送门： https://github.com/Relsoul/whisper-win-gui

支持功能

实时语音识别
实时语音识别结果展示
实时语音识别结果 websocket 推送
系统音频监听(windows)
网页 video websocket 推送及字幕功能

研究网页捕捉 audio 流花了一点点时间~ audiocontext 获取的有点点问题~ 改捕捉 video 流 filter audio 了~

对 gui 开发不太熟~ 本来想用 webview 的，但是又没透明效果还好有 flet~

更多简介 github 已经列出来了~ 这里就不再重复列出了，希望能帮到有需要的人

whisper

实时语音识别

字幕

5 条回复 • 2024-09-21 14:18:30 +08:00

lekai63

2024 年 9 月 21 日 via iPhone

楼主你这项目拿来看 av 应该不错

relsoul

2024 年 9 月 21 日

@lekai63 模型其实自带了翻译功能但是我没用过（狗头

fonlan

2024 年 9 月 21 日 via Android

star 为敬，希望能支持对识别出的语音实时翻译，跟老外开会比较有用

relsoul

2024 年 9 月 21 日

@fonlan 其实有 task:"translate" 但是我没用过，不知道效果咋样

```
result = pipe(sample, return_timestamps=True, generate_kwargs={"language": "french", "task": "translate"})
print(result["chunks"])

```

ruobingm

2024 年 9 月 21 日

@lekai63 一下眼界就开阔了~

基于 whisper 的实时语音识别 网页和桌面客户端

前言

支持功能

基于 whisper 的实时语音识别网页和桌面客户端