请教一下 Spark 中如何将多个 Spark ml 模型应用到单个 Dataset/DataFrame 的每个分区中，实现一次运行训练多个模型?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1605 天前的主题，其中的信息可能已经有所发展或是发生改变。

类似于如下的操作，根据 key 分组，对每个分组应用 mllib 里的算法训练一个模型

val input = spark.read.load(..)
val models = input
  .groupByKey(x => x.age)
  .mapGroups{
    (k, v) => 
      val subset = v.toList.toDS
      someModel.fit(subset)
  }

mllib 的算法好像需要接收 rdd 类型数据，但分组后的数据是 Iterable ？

目前尚无回复

val subset mllib 分组