V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
iceriver99
V2EX  ›  问与答

有没有能识别多人声音的 AI 工具呢

  •  
  •   iceriver99 · 4 天前 · 721 次点击

    就是我现在有一个视频,这个视频中有三个人在对话,我想通过语音识别来分别识别出这三个人都谁说了哪句话,并且把它导出成文本标记出来。然后方便我去做翻译。。。

    14 条回复    2025-01-14 11:35:58 +08:00
    kirieievk
        1
    kirieievk  
       4 天前
    关注!
    Perry
        2
    Perry  
       4 天前 via iPhone
    有很多 Podcast 生产力工具支持这样的,Perplexity 搜下试试看?
    vopin
        3
    vopin  
       4 天前 via iPhone
    同样需求,一年多前调查的时候暂时没找到一步到位的工具。whisper 虽然很厉害了但是分辩人不行,一些经典机器学习方法也不完美。
    现在不知道怎样了
    NOneKnowYeah
        4
    NOneKnowYeah  
       4 天前
    通义听悟
    gpt5
        5
    gpt5  
       4 天前
    我记得当年学 svm 的时候,老师给过一个例子,用 1 行 matlab 代码(非工具箱)就实现了区分不同人的声音。
    JayZXu
        6
    JayZXu  
       4 天前
    飞书个人版的妙记
    直接上传视频,会自动生成字幕而且匹配发音人
    可能会识别出多个发音人,改下标注就行了
    而且还能切换各种语言翻译的结果
    mfy
        7
    mfy  
       4 天前
    sherpa-onnx ,FunASR
    这两个都可以。测试下来,感觉 sherpa-onnx 识别的准确度稍高一些;使用上 FunASR 简单一些。
    evan1
        8
    evan1  
       4 天前 via iPhone
    钉钉会议可以实现,用过一两次。识别准确率估计 80%-90%左右。
    evan1
        9
    evan1  
       4 天前 via iPhone
    @evan1 是会议还是直播忘记了。

    当时看到这个功能大受震撼。
    evan1
        10
    evan1  
       4 天前 via iPhone
    @evan1 没注意是已有视频。这样的话可以看看转录行不行。
    dzdh
        11
    dzdh  
       4 天前
    阿里的语音识别 API 可。
    jiobanma
        12
    jiobanma  
       4 天前
    阿里的通义听悟
    Daybyedream
        13
    Daybyedream  
       4 天前
    飞书那个 一直可以 讯飞妙计
    Tuuure
        14
    Tuuure  
       4 天前
    我没办法给出具体的解决方案,但这种需求一般被叫做“鸡尾酒会问题”,可以用这个作为关键词去搜索一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3012 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:45 · PVG 14:45 · LAX 22:45 · JFK 01:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.