Simon95 最近的时间轴更新

Simon95

V2EX 第 511891 号会员，加入于 2020-10-10 14:43:43 +08:00

今日活跃度排名 16205

Simon95 提问技术话题好玩工作信息交易信息城市相关

中文 AI 播客大家觉得有前途吗？分享一个正在做的 AI 播客项目，媲美真人播报

分享创造 • Simon95 • 2025 年 3 月 7 日 • 最后回复来自 Simon95

[开源]一个超轻量化语音 chatbot--木几萌

分享创造 • Simon95 • 2024 年 10 月 7 日 • 最后回复来自 OnlineParty

中文自然语音生成技术的更新和近况

分享创造 • Simon95 • 2024 年 1 月 9 日 • 最后回复来自 jifengg

做了一个自然语音生成的 AI 模型，大家提点意见

分享创造 • Simon95 • 2024 年 3 月 14 日 • 最后回复来自 xljiulong2031

» Simon95 创建的更多主题

Simon95 最近回复了

2025 年 12 月 4 日

回复了 Peiiii 创建的主题 › 分享创造 › 爆肝 3 个晚上，开发了这个让小白 20 秒一键部署 Gemini3（Ai Studio）生成应用的产品，附带几个我自己用 AI Studio 开发的玩具项目的链接。目前只是 MVP 版本，欢迎大家试用

@lazydog V 站也要搞水军？离谱

2025 年 10 月 17 日

回复了 diyer22 创建的主题 › 分享创造 › 我发明的算法，登上了 Hacker News 日榜第二！

@diyer22 DDN 和 RVQ （ Residual vector Quantization ）我觉得结合 GPT 在训练时候可能都有一个问题，就是第一层的码本（对应着 DDN 第一个 level ）的重建都相当好，但其余码本的效果就比较差。
因为 DDN 好像不同 level 之间也类似于的“残差”？但是在样本空间，而不是在 latent space 。
我就是做语音的，在图像领域最新的论文（ Diffusion Transformers with Representation Autoencoders ）好像也表示不压缩效果更好。但用 CFM 去做生成的话，好像利用样本空间的分布直接生成的效果不是很好，而用 latent space 的分布更好，我感觉 DDN 的分布更接近于样本空间？
不知道训练的效率怎么样，我找个时间在更大的数据集上跑跑试试。

2025 年 10 月 16 日

回复了 diyer22 创建的主题 › 分享创造 › 我发明的算法，登上了 Hacker News 日榜第二！

哇，大佬一个人创新算法，膜拜。还有请教下最近做的工作感觉，FSQ codebook usage 能到 1 ，大佬觉得 VQ-VAE codebook collapse 还是问题吗？

2025 年 10 月 16 日

回复了 diyer22 创建的主题 › 分享创造 › 我发明的算法，登上了 Hacker News 日榜第二！

支持，x 关注了，github 星星了。我简单看了下，感觉有点像 RVQ ？

2025 年 3 月 7 日

回复了 Simon95 创建的主题 › 分享创造 › 中文 AI 播客大家觉得有前途吗？分享一个正在做的 AI 播客项目，媲美真人播报

大家意见挺好，我自己也没想好有什么用，做来玩玩。真人录音的付费意愿都很低，AI 现在更平淡。

2025 年 3 月 7 日

回复了 Simon95 创建的主题 › 分享创造 › 中文 AI 播客大家觉得有前途吗？分享一个正在做的 AI 播客项目，媲美真人播报

@midpoint 架构没什么创新的地方就是用播客数据微调的