1
rming 2022-06-13 13:42:00 +08:00
1. 逻辑代码和参数(保存模型也可以选择只保存参数,下次跑的时候,加载逻辑代码,读取保存的参数)
2. 学习过程就是计算最优参数,需要多次重复计算评估(通过计算训练集的损失率和准确率) 找个教程系统的学习下就知道了,机器学习新手,不对请指正 |
2
MingHime 2022-06-13 14:32:37 +08:00 1
y=kx ,k (狗头)
|
3
neteroster 2022-06-13 14:37:43 +08:00
|
4
ufan0 2022-06-13 15:06:52 +08:00
宏观上看就是暴力数学归纳,哈哈哈
|
5
LxExExl 2022-06-13 15:09:58 +08:00
二楼正解,就是 y=ax+b ,1 是求 a 和 b ,2 是给 x 算 y 。部署在哪里取决于要算多少个 x 。
|
6
zzgo88 2022-06-13 15:18:37 +08:00 1
1. 模型可理解为一个函数,给他一个输入(例如一张图片),他会给你一个输出(例如图片的标签或分类),这个函数可以由向量及其他一些数据(如模型架构)表示,例如 3 层 CNN 为架构,但是有无数个 3 层 cnn ,里面有很多参数,都是向量。所有向量都确定后可确定唯一的一个模型或函数。例子,函数 y=wx+b ,x 是输入 y 是输出,wx+b 就是这个函数 /模型的架构(一个负责放缩的参数 w 和一个负责 bias 的 b ),wb 就是参数,在 w ,b 不确定的情况下,y=wx+b 有无数个选择,但如果指定 w 和 b 的值,那么 y=wx+b 就是一个确定的模型或函数。
2. 模型的训练阶段可理解为从一堆函数中,根据一定的目标(即损失函数)及数据,选择你认为最好的函数。训练过程是一个逐渐获取最终结果的过程(俗称炼丹),包含多个迭代,其中每个迭代包括正向传播(计算损失)以及反向传播(计算梯度)两个阶段,每个阶段通常表示为矩阵乘来提升计算速度;这里使用 gpu 计算。 而在这个模型的使用阶段(称为推断或 inference ),相比于训练阶段只需要一个迭代,并且只需要正向传播一次,因此在不需要训练模型的时候(比如部署在你手机上),计算量远远小于训练。例子,模型训练后得到 y=2x+1 ,给定一个输入 x=2 ,只需要计算一次 2*2+1 即可。 |
7
agagega 2022-06-13 15:18:53 +08:00
最最最简单的情况:
一个班的学生考试成绩出了,但公布的分数被老师改过。现在你有一批原始分数和改后的分数,你可以把这批分数遍历一遍,算出这些学生实际分数和公开分数差值的平均值。现在你有另外一些学生的公开分数,通过前面的平均数,你可以估计这些学生的实际分数。 在这个情景里,那个差值平均数就是模型,训练模型就需要遍历数据集计算,而使用模型只需要在新数据上加上这个平均数就好了,所以计算量小很多。这样好理解了吧? |
8
xilou31 2022-06-13 16:11:26 +08:00
函数和向量应该都是答案。
用函数表示就是 y = kx+b 。训练过程就是找出这个 k 和 b 。而使用就是把 x 代入,得出 y 。 用向量表示就是,训练过程就是找出[k,b]向量,使用就是使用[x]向量与[k,b]向量进行向量相乘,得出[y]向量。 |
9
xilou31 2022-06-13 16:12:58 +08:00
说错了那个向量乘法应该是矩阵乘法。
|
10
GrayXu 2022-06-13 19:43:37 +08:00
1 前面答完了。
2 训练需要大量计算的一个点是因为进行了**多次**迭代计算优化,包括前向和反向。对于使用者来说,只有**一次**前向计算过程。不过直接部署在移动终端上还有对 memory 的占用问题,这就是做量化、蒸馏等策略来压缩模型(参数)大小的地方。 |
11
ttgo 2022-06-13 19:49:50 +08:00
y=ax+b 没有包含非线性!可能会出现些许误导。
|
12
afutureus 2022-06-14 01:39:40 +08:00 via iPhone
概率空间的一个解。
|
13
xidianwubo12138 2022-07-15 15:06:23 +08:00
一个大字典
|
14
Yuhyeong 2022-10-18 21:47:27 +08:00
1.最抽象的答案是:y=kx+b
因为实际上存的就是极多个权重,共同构成一个“函数”。说白就是存储了一堆“k”,你可以设想多少个"k"(假设为 float32 )才能占用到 GB 级别 2.因为很多不同结构的模型也可以得到一样的输出 比如,y=k1x+b, 存在一个函数使 k1 在某个区间恒为 1 ,则可以将"k1"直接等价为 1 ,这样就可以一定程度上减少空间占用,迁移到其他平台。 |
15
isSamle 360 天前
数学模型吧,本质上可能是个 N 元 N 次方程组
|