有没有机器学习大佬能解释一下现在网站的用户聚类是怎么实现的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1632 天前的主题，其中的信息可能已经有所发展或是发生改变。

我是单纯做互联网开发的，不懂这方面，想要拓展一下知识面。有没有大佬能用自然语言大概描述一下现在主流使用的用户聚类有的大概过程，让我有个大概概念就行。

我目前能理解的原教旨主义聚类是，收集用户的数据各项数据，比如登录时长，使用时长，给一些典型的有标记的视频点赞之类的这些数据，然后收集了 n 个特征之后，这 n 个特征就是一个 n 维数据。然后我知道机器学习里面有些算法可以给高维数据降维，比如降到三维的话放到空间坐标系里就能比较直观地观察。然后可以使用一些简单的聚类算法，比如我知道二维里面有各种聚类算法（以前看过效果图），可以让空间距离更近的一些点被划分成一类。

不过感觉这套逻辑很原始，似乎并不能应用在目前的互联网网站中。

具体来说，我很好奇两个问题： 1 、我很好奇谷歌分析，能分析出网站用户是男是女，关注什么话题。我比较好奇这是怎么做到的，因为用户没有填写这些信息。 2 、视频网站中看到一个视频后会推荐同类视频，说明视频之间也有一个类的关系，我也挺好奇是怎么实现的。

有没有大佬讲一下，谢谢

聚类

好奇

算法

机器学习

5 条回复 • 2021-08-05 11:59:33 +08:00

garvan

2021 年 8 月 4 日

你这里描述的应该是两个领域，一种是静态的用户行为分析，也就是收集大量历史数据然后归纳特征进行数据挖掘，这个很早就有了，相关流程包括流量分析、特征构建、模型回归等，可视化、PCA 降维和聚类技术只是一些的具体处理技术而已，类似技术还包括 SVD 、决策树、贝叶斯分类器、支持向量机等等；另一种则是动态的在线关联学习或者是推荐学习，应该属于最近较火的神经网络领域，这个领域则涉及感知机、激活函数、参数优化、学习和推理等，对数据的依赖较小，对计算的要求较高，而具体的就不展开了，感兴趣的可以自己了解一下

ipwx

2021 年 8 月 4 日

https://www.google.com/search?q=collaborative+filtering

p2pCoder

2021 年 8 月 4 日

年龄、性别、职业，这种基础特征，在任何推荐、广告、搜索平台都有模型来做，简单来说，我知道海量用户中其中一些用户的真实年龄、性别、职业，那么我可以把这些当作样本，把用户的海量行为及其他基础数据当作特征，用来训练一个模型，有了这个模型，就可以用用户各种行为序列（可能包括搜索记录、点击记录、下载记录、付费记录，浏览记录），基础特征，得到用户的年龄、职业、性别，当然模型推测出来的，准确率肯定不会达到 100%。
至于同类视频推荐，从内容理解的观点来讲，可以用视频的图像、asr 、ocr 生成多模 embedding，本质上就是一个向量，既然有了向量，那么就可以用向量距离来表示相关性，这种一般由向量检索来做，想了解的话，可以搜索下 ANN 。
另外一类，是从推荐、广告、搜索的用户行为序列来看，可以用协同过滤以及衍生的各种算法，来达到一个相关性计算，比如如果两个视频出现在一个用户的观看记录里，我们就认为其相关，然后，可以根据这种在同一个用户的观看列表中出现的频次，来评判其相关性。
我是做工程的，对于算法的细节不能讲的很清楚，但是大体的数据流程差不多是这样

Richard14

2021 年 8 月 4 日

@p2pCoder 请问关于你说的“把用户的海量行为及其他基础数据当作特征，用来训练一个模型”这个应该是核心步骤吧。关于这个的具体逻辑，不知道我理解的对不对，按我的理解是利用这些有标记数据（这个标记量需要很大），然后利用它训练出一个，输入用户特征向量，输出判断结果的模型。

不过这么考虑的话，谷歌是从哪里收集到这些用户数据的呢，可能它需要向社会普遍地推送调查填表，就是关于你是什么性别，什么职业，年龄等等地这些，我从来没收到过。

p2pCoder

2021 年 8 月 5 日

@Richard14 标记的话，有些业务是会拿到很多可以认为是有标记的数据的，比如需要实名注册的很多账号体系，不需要完全就是身份证体系的数据，只要保证准确率高过一个阈值就行