V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
vinxu
V2EX  ›  分享创造

我做了一个能“演戏”的 AI 阅读器,支持多角色情感配音 + 自动生成人物关系图,求 V 友狠喷/建议

  •  
  •   vinxu · 4 天前 · 853 次点击

    Hi V2EX 的朋友们,

    我是 CastReader 的独立开发者。今天想向大家介绍一下我最近折腾的一个产品,顺便求一波内测反馈。

    1. 为什么做这个?(The Why) 我自己是个重度播客和有声书用户,但一直有个痛点:现有的 TTS (文本转语音)工具要么声音太机械(听久了想睡),要么就是单纯的“朗读”,没有任何画面感。 特别是读一些大部头小说(比如《三体》或《冰与火之歌》)或者复杂的 PDF 文档时,听着听着就容易走神,而且经常搞不清“这句话是谁说的”或者“这人是谁”。

    于是我就想:能不能用 LLM 把书“重构”一下,让它不仅能被“听”,还能被“看”?

    1. CastReader 是什么?(The What) 简单来说,它是一个可视化的 AI 阅读器。 网址: https://castreader.ai (无需绑卡,Web 端直接可用)

    它和传统 TTS 的区别在于:

    🎭 它是“演”出来的: 不是单纯的音频流,而是会生成带有动画人物的视频。你可以看到角色在屏幕上对口型“说话”,增强沉浸感。

    🗣️ 智能分角 (Speaker Diarization): 利用 LLM 分析上下文,识别当前是谁在说话,并自动分配符合人设的声音(比如给反派分配低沉的嗓音,给主角分配激昂的嗓音)。

    🕸️ 自动人物关系图 (Entity Extraction): (这是我个人最喜欢的功能) 读长篇小说时,AI 会实时分析并生成人物关系图谱。再也不用担心读到一半忘记“这人是谁的二大爷”了。

    1. 技术实现 (The How)目前后端主要用了 [Python/Next.js]主要还是用 vibe coding ,通过 LLM 做文本的语义分析和实体提取,然后对接了 kokoro 的语音生成的 pipeline ,最后通过 banana pro 渲染动画层。 目前的难点主要在于由文字转动画的口型同步率,还在持续优化中。

    2. 现状与不足 目前产品还是 MVP 阶段:

    动画的流畅度可能还不够完美。

    有时候 LLM 对情绪的判断会有点偏差。

    目前主要支持 PDF 和 EPUB 。

    非常期待大家的反馈,无论是由于 Bug 还是对功能的吐槽,我都照单全收! 感谢!🙏

    2 条回复    2025-12-03 16:51:21 +08:00
    greatghoul
        1
    greatghoul  
       4 天前
    看起来很酷,之前在番茄小说体验过类似的。
    pheyer
        2
    pheyer  
       4 天前
    有点意思,支持英语小说吗?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2678 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:58 · PVG 20:58 · LAX 04:58 · JFK 07:58
    ♥ Do have faith in what you're doing.