最近疫情在家研究了一下机器学习，有个疑问想请算法大佬们帮忙解答一下

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1683 天前的主题，其中的信息可能已经有所发展或是发生改变。

用图片识别和 TensorFlow 举例吧

假设我有一堆图片数据，质量呢类似 sklearn 那种自带的测试数据吧，也不需要做什么处理

那我的下一步工作搭建 CNN

[None, 32, 32, 3] input->conv->relu->pool->conv->relu->pool->conv->relu->pool->fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)->output [10, 1]

搭完了，训练完了，模型出来了

然后搭建 TensorFlow serving，服务也做好了，功能也实现了，简单的工程化也做完了，算是已经可以上线用了

假设准确率有 90%

那我作为一个算法工程师，我下一步应该干嘛？

所有里面的数学公式都基本算是固定的，我不敢改，跟数学家比也没那个能力，感觉图像识别模型貌似也相对固定。

还有炼丹，超参数优化。除了这些呢？

扩充一下

如果这是一个推荐模型，那我又需要做什么？

萌新有所疑惑，上述描述肯定有缺陷，大佬们也轻喷

9 条回复 • 2020-04-01 10:43:29 +08:00

Jooooooooo

2020-03-31 14:45:28 +08:00

所以是调参工程师, 洗数据工程师, 特征提取工程师, 规则工程师啊

你能自己想出新模型那就是另外一回事了

qwertqwert12345

2020-03-31 15:19:07 +08:00

工程上一般是水多加面，面多加水（指训练数据），然后考虑一下可不可以降低模型复杂度，或者加入新的结构去提高准确率

或者考虑一下安全性方面

研究深度学习，再学一下各种有名的通用模型咯，RNN，GNN，LSTM，GAN 啥的

sleeepyy

2020-03-31 15:19:31 +08:00

看你的目的是什么了，如果只是学一下相关背景，这样就已经足够了。
如果是要应用到真实场景，
准确率方面：
考虑从 raw data 清洗成可以用于训练、预测的数据（更好的数据增强、特征提取方式）
考虑训练集和测试集之间的 out-of-distribution 的问题
etc.
效率方面：
针对特定硬件的优化
针对特定场景（数据特征（比如 sparse 的数据））的优化
计算图的简化
etc.
以及是否要做集成模型，是否要 online learning 等问题