V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Zorro825
V2EX  ›  程序员

公司想开发个录音笔产品,配套语音转文字,请教解决方案。

  •  
  •   Zorro825 · 2023-09-12 23:45:48 +08:00 · 1775 次点击
    这是一个创建于 437 天前的主题,其中的信息可能已经有所发展或是发生改变。

    录音转文字 APP ,应该怎么做,有什么现成方案吗? 如果用阿里云这些,成本太高了,有没有什么开源好用的,请教大家。

    11 条回复    2023-09-13 17:27:49 +08:00
    xuAN111
        1
    xuAN111  
       2023-09-12 23:52:44 +08:00
    DeepSpeech
    rsy
        2
    rsy  
       2023-09-13 00:11:31 +08:00
    AppJun
        3
    AppJun  
       2023-09-13 00:17:03 +08:00
    iOS SDK 有 SFSpeechRecognizer ,如果想用 Whisper 有 whisper.cpp 。

    Whisper 的模型大小对中文识别有一定影响,但是影响也有限,新的 iPhone 可以跑得动一些比较大的模型,老的 iPhone 就不一定有足够内存了。

    另外但是因为训练集是字幕,导致中文容易出现一些预期外的文字,比如“字幕制作:某某”“谢谢观看”之类的幻想结果。
    Zorro825
        4
    Zorro825  
    OP
       2023-09-13 01:16:41 +08:00
    @AppJun 谢谢
    Zorro825
        5
    Zorro825  
    OP
       2023-09-13 01:16:48 +08:00
    @rsy 谢谢
    Zorro825
        6
    Zorro825  
    OP
       2023-09-13 01:16:56 +08:00
    @xuAN111 谢谢
    Zorro825
        7
    Zorro825  
    OP
       2023-09-13 01:17:36 +08:00
    @AppJun 安卓不能用吗
    Zorro825
        8
    Zorro825  
    OP
       2023-09-13 01:22:06 +08:00
    @rsy 这个是云端解决方案吗,用户上传文件,服务器翻译,然后返回结果
    rsy
        9
    rsy  
       2023-09-13 12:46:40 +08:00
    @Zorro825 Whisper 可以直接下载到自己电脑上使用,无需联网,也不需要调 API 花钱
    EatIce
        10
    EatIce  
       2023-09-13 16:40:46 +08:00
    得和科大讯飞的产品对比一下,有自己的市场竞争力再做
    iorilu
        11
    iorilu  
       2023-09-13 17:27:49 +08:00
    你想实时识别本地性能可能不够把
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2812 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 14:33 · PVG 22:33 · LAX 06:33 · JFK 09:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.