有日语识别准确率类似 sonix.ai 的转写服务吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1131 天前的主题，其中的信息可能已经有所发展或是发生改变。

google 那个是真的垃圾，一大段一大段地漏
sonix 这个准确率还不错就是太贵了（真不是广告，开了好多年的美国公司，google 搜索结果前 10 个全测下来就这个能用），开每月 22 刀的会员后每小时还要 5 刀，随便转 20 小时音频就要 122 刀了
虽然可以通过临时邮箱注册来无限白嫖但感觉这样做不好

准确率

白嫖

sonix

日语

9 条回复 • 2022-12-23 14:06:26 +08:00

zcf0508

2022 年 12 月 20 日

https://github.com/openai/whisper

whisper japanese.wav --language Japanese

edis0n0

2022 年 12 月 20 日

@zcf0508 #1 测试了一下这个识别率连 google 的 60%都没有

edis0n0

2022 年 12 月 20 日

@zcf0508 #1 google 能准确识别的一段话它识别成了这样

kuantingchen

2022 年 12 月 21 日

https://www.notta.ai/en
试试看

edis0n0

2022 年 12 月 21 日

@kuantingchen #4 和 google 那个识别率差不多，和 sonix 这个差的还是有点远

js8510

2022 年 12 月 21 日

我自己尝试在 AWS 上搭建了一个类似的服务。后来由于成本太高，准确率太差，没有盈利的可能。并没有投入运营。我用脱口秀大会口音比较重的一些选手做输入，准确率只有~70%。如果是用 CCTV 的节目专业播音员的视频，准确率也就能到 95%。

很好奇，你觉得怎样的收费算合理呢？另外，我知道 https://www.descript.com/pricing 做的很好用，他们收费很低了。反正我觉得全跑在 AWS 上我做不到这么低的价格又这么多功能

edis0n0

2022 年 12 月 22 日

@js8510 我觉得能在存在公共场所背景杂音时保持 75%识别率，收费 1~2 美元 /小时比较合理，但我实测即使是 sonix 这个日语+存在公共场所背景杂音准确率也只有 65%左右，远比不上人工

js8510

2022 年 12 月 23 日

@edis0n0 1-2 美元确实目前很难做到。。AWS transcribe 大概是$1.5 一小时的收费。阿里云是$1/h 。另外处理视频 S3 的开销还有做 audio file encoding/decoding 的 cost, domain name 还有 stripe 的抽成，信用卡抽成，最终成本至少 3 到$5

edis0n0

2022 年 12 月 23 日

@js8510 #8 我说的就是每小时 1-2 美元，就是目前这些服务准确率都实在太低了