V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
relsoul
V2EX  ›  分享创造

基于 whisper 的实时语音识别 网页和桌面客户端

  •  
  •   relsoul · 64 天前 · 1608 次点击
    这是一个创建于 64 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    最近上了个网课,由于是直播课,没有字幕,感觉不太爽,调研了一下 目前没有基于本地 whisper 的实时字幕软件.. 于是自己手搓了一个~ 欢迎 star

    传送门: https://github.com/Relsoul/whisper-win-gui

    支持功能

    • 实时语音识别
    • 实时语音识别结果展示
    • 实时语音识别结果 websocket 推送
    • 系统音频监听(windows)
    • 网页 video websocket 推送及字幕功能

    研究网页捕捉 audio 流花了一点点时间~ audiocontext 获取的有点点问题~ 改捕捉 video 流 filter audio 了~

    对 gui 开发不太熟~ 本来想用 webview 的,但是又没透明效果 还好有 flet~

    更多简介 github 已经列出来了~ 这里就不再重复列出了,希望能帮到有需要的人

    5 条回复    2024-09-21 14:18:30 +08:00
    lekai63
        1
    lekai63  
       64 天前 via iPhone
    楼主 你这项目 拿来看 av 应该不错
    relsoul
        2
    relsoul  
    OP
       64 天前
    @lekai63 模型其实自带了翻译功能 但是我没用过(狗头
    fonlan
        3
    fonlan  
       64 天前 via Android
    star 为敬,希望能支持对识别出的语音实时翻译,跟老外开会比较有用
    relsoul
        4
    relsoul  
    OP
       64 天前
    @fonlan 其实有 task:"translate" 但是我没用过,不知道效果咋样

    ```
    result = pipe(sample, return_timestamps=True, generate_kwargs={"language": "french", "task": "translate"})
    print(result["chunks"])

    ```
    ruobingm
        5
    ruobingm  
       63 天前
    @lekai63 一下眼界就开阔了~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2413 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 00:04 · PVG 08:04 · LAX 16:04 · JFK 19:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.