Simon95 最近的时间轴更新
Simon95
ONLINE

Simon95

V2EX 第 511891 号会员,加入于 2020-10-10 14:43:43 +08:00
今日活跃度排名 7436
Simon95 最近回复了
@lazydog V 站也要搞水军?离谱
@diyer22 DDN 和 RVQ ( Residual vector Quantization )我觉得结合 GPT 在训练时候可能都有一个问题,就是第一层的码本(对应着 DDN 第一个 level )的重建都相当好,但其余码本的效果就比较差。
因为 DDN 好像不同 level 之间也类似于的“残差”?但是在样本空间,而不是在 latent space 。
我就是做语音的,在图像领域最新的论文( Diffusion Transformers with Representation Autoencoders )好像也表示不压缩效果更好。但用 CFM 去做生成的话,好像利用样本空间的分布直接生成的效果不是很好,而用 latent space 的分布更好,我感觉 DDN 的分布更接近于样本空间?
不知道训练的效率怎么样,我找个时间在更大的数据集上跑跑试试。
哇,大佬一个人创新算法,膜拜。还有请教下最近做的工作感觉,FSQ codebook usage 能到 1 ,大佬觉得 VQ-VAE codebook collapse 还是问题吗?
支持,x 关注了,github 星星了。我简单看了下,感觉有点像 RVQ ?
大家意见挺好,我自己也没想好有什么用,做来玩玩。真人录音的付费意愿都很低,AI 现在更平淡。
@midpoint 架构没什么创新的地方就是用播客数据微调的
@metalvest 可以的在点进官网就可以用
2024-01-08 18:20:07 +08:00
回复了 Simon95 创建的主题 分享创造 做了一个自然语音生成的 AI 模型,大家提点意见
@Miller5991 已经更新了,有兴趣可以试试
2023-10-26 09:53:02 +08:00
回复了 Simon95 创建的主题 分享创造 做了一个自然语音生成的 AI 模型,大家提点意见
@sanebow 这是不同的技术分支,起源是 AudioLM 为代表的一系列论文
@jiayouzl whitenoise 看一下
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5215 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 01:27 · PVG 09:27 · LAX 17:27 · JFK 20:27
♥ Do have faith in what you're doing.