最近学术圈和工业界都玩变形金刚和注意力都很开心,时不时的还搞个不大不小的新闻。不过说到具体真的用起来,不是所有的 transformer 都能直接应用到所有场合。Topic Models 也有很久了,其实结果很惊艳的。只是大家都去做深度学习,没有太多实用化的推进。之前也看过腾讯内部有改进主题模型,不过那个算是企业内部模型,不开源,接触到的人很少。
前几天发现了一个叫做 TopSBM 的模型,2018 年发表的。将网络分析和主题模型结合在一起,彻底抛去了那个奇怪的 Dirichlet 先验分布,所以拟合出来的主题效果很好。在公司的数据上跑了一下,好到惊艳。下面总结一下自己使用主题模型的经验。
虽然说 TopSBM 是一个特别好的模型,但是也是一个主题模型,纯 CPU 计算,数据量一上来就特别特别慢。在大概 11K 文档上跑了接近 9 个小时才跑出来结果。