我做了一个能“演戏”的 AI 阅读器，支持多角色情感配音 + 自动生成人物关系图，求 V 友狠喷/建议

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 47 天前的主题，其中的信息可能已经有所发展或是发生改变。

Hi V2EX 的朋友们，

我是 CastReader 的独立开发者。今天想向大家介绍一下我最近折腾的一个产品，顺便求一波内测反馈。

为什么做这个？(The Why) 我自己是个重度播客和有声书用户，但一直有个痛点：现有的 TTS （文本转语音）工具要么声音太机械（听久了想睡），要么就是单纯的“朗读”，没有任何画面感。特别是读一些大部头小说（比如《三体》或《冰与火之歌》）或者复杂的 PDF 文档时，听着听着就容易走神，而且经常搞不清“这句话是谁说的”或者“这人是谁”。

于是我就想：能不能用 LLM 把书“重构”一下，让它不仅能被“听”，还能被“看”？

CastReader 是什么？(The What) 简单来说，它是一个可视化的 AI 阅读器。网址： https://castreader.ai (无需绑卡，Web 端直接可用)

它和传统 TTS 的区别在于：

🎭 它是“演”出来的：不是单纯的音频流，而是会生成带有动画人物的视频。你可以看到角色在屏幕上对口型“说话”，增强沉浸感。

🗣️ 智能分角 (Speaker Diarization)：利用 LLM 分析上下文，识别当前是谁在说话，并自动分配符合人设的声音（比如给反派分配低沉的嗓音，给主角分配激昂的嗓音）。

🕸️ 自动人物关系图 (Entity Extraction)：（这是我个人最喜欢的功能）读长篇小说时，AI 会实时分析并生成人物关系图谱。再也不用担心读到一半忘记“这人是谁的二大爷”了。

技术实现 (The How)目前后端主要用了 [Python/Next.js]主要还是用 vibe coding ，通过 LLM 做文本的语义分析和实体提取，然后对接了 kokoro 的语音生成的 pipeline ，最后通过 banana pro 渲染动画层。目前的难点主要在于由文字转动画的口型同步率，还在持续优化中。
现状与不足目前产品还是 MVP 阶段：

动画的流畅度可能还不够完美。

有时候 LLM 对情绪的判断会有点偏差。

目前主要支持 PDF 和 EPUB 。

非常期待大家的反馈，无论是由于 Bug 还是对功能的吐槽，我都照单全收！感谢！🙏

2 条回复 • 2025-12-03 16:51:21 +08:00

greatghoul

2025 年 12 月 3 日

看起来很酷，之前在番茄小说体验过类似的。

pheyer

2025 年 12 月 3 日

有点意思，支持英语小说吗？