1
iConnect 2020-12-10 06:27:54 +08:00 via Android
1 复杂图片不好定义,是指图片大?还是图片模糊?还是图片上物体多?人眼觉得复杂机器不一定,看起来复杂,如果学习特征明显,机器也可以很容易。“复杂”没有准确定义,自然没有“复杂”度相关的理论,可以说虚拟模型都是特事特办,人工调参。如果有对应的理论,也就是可以实现机器调参了。
2 大厂也靠“蒙”参数。蒙对了就纳入模型,梦错了下次去掉,修正模型。 |
2
hello2060 2020-12-10 06:31:06 +08:00 1
第一个是有的,我没实际经验只是上过 coursera,一方面是样本多少,一方面是特征集的大小。样本太多会形成过拟合,相当于电脑记住了每个样本的结果所以在训练集上完美,但是在真实世界不行,这种情况下样本继续增多样本已经没用了。吴恩达的课说了好几个指标。可以判断你是样本不够还是特征集不够
|
3
huzhikuizainali OP @iConnect 谢谢回复。
关于 2 、也就是说增加哦“有效”指标的数量对于分类效果必定有提升。这个看法是成立的? |
4
gimp 2020-12-10 08:45:46 +08:00
借楼请教个问题,我用指纹捺印训练后的模型(训练集的图片大概 1/10 A4 纸大小),在识别 A4 扫描后的电子档上的指纹时识别不到,需要裁剪后才能识别。
我想到的解决方案如下,不知道靠不靠谱,还有没有什么好的方式,我想做的事儿是判断扫描件上有没有指纹 1,调整训练集数据,让其跟真实的要识别的图像尺寸贴近。(暂时还没有这样的训练集样本) 2,识别前对电子档图片进行裁剪(不太确定指纹具体位置,这样的话可能需要裁剪成多份小图,识别后再计算相对坐标,似乎也不太好) |
5
mcone 2020-12-10 08:47:08 +08:00 1
1. 复杂的多类问题确实需要训练数据多,逻辑是多分类问题->参数少的模型难以拟合->增加模型复杂度->需要训练数据增加,但是识别黑白两色图像的数据,不一定比彩色图少,不少模型为了省事都是 RGB 转灰度再丢进去的。
需要的数据量靠经验估+根据模型验证集性能自己调,理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数 2. 是的,但是也可能会下降到 4 分,就像孟德尔的豌豆一样。 人肉测,人肉调参,无他。不然大厂雇一群人一年写出来一个模型,不需要更新了,那这群人还继续养着干啥,都开了呗还省钱。 |
6
huzhikuizainali OP @mcone 谢谢回复!
“理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数” ---------请问这个理论是否有中文名称?有没有哪本书对这个理论有比较深入浅出地介绍? |
8
mcone 2020-12-10 10:31:17 +08:00
|