Hi V2EX 的朋友们,
我是 CastReader 的独立开发者。今天想向大家介绍一下我最近折腾的一个产品,顺便求一波内测反馈。
于是我就想:能不能用 LLM 把书“重构”一下,让它不仅能被“听”,还能被“看”?
它和传统 TTS 的区别在于:
🎭 它是“演”出来的: 不是单纯的音频流,而是会生成带有动画人物的视频。你可以看到角色在屏幕上对口型“说话”,增强沉浸感。
🗣️ 智能分角 (Speaker Diarization): 利用 LLM 分析上下文,识别当前是谁在说话,并自动分配符合人设的声音(比如给反派分配低沉的嗓音,给主角分配激昂的嗓音)。
🕸️ 自动人物关系图 (Entity Extraction): (这是我个人最喜欢的功能) 读长篇小说时,AI 会实时分析并生成人物关系图谱。再也不用担心读到一半忘记“这人是谁的二大爷”了。
技术实现 (The How)目前后端主要用了 [Python/Next.js]主要还是用 vibe coding ,通过 LLM 做文本的语义分析和实体提取,然后对接了 kokoro 的语音生成的 pipeline ,最后通过 banana pro 渲染动画层。 目前的难点主要在于由文字转动画的口型同步率,还在持续优化中。
现状与不足 目前产品还是 MVP 阶段:
动画的流畅度可能还不够完美。
有时候 LLM 对情绪的判断会有点偏差。
目前主要支持 PDF 和 EPUB 。
非常期待大家的反馈,无论是由于 Bug 还是对功能的吐槽,我都照单全收! 感谢!🙏
1
greatghoul 4 天前
看起来很酷,之前在番茄小说体验过类似的。
|
2
pheyer 4 天前
有点意思,支持英语小说吗?
|