1
hamhamham 2021 年 11 月 16 日
1. 不会对最终模型精度有影响
2. 我的理解:没用到的层不是计算图的一部分。就算你把他的参数加入 optimizer 里面,也会因为梯度全部为 0 无法更新参数,相当于不参加反向传播。 |
2
Xs0ul 2021 年 11 月 16 日
目测是新加的层影响了随机的初始化
|
3
flyaway 2021 年 11 月 16 日
1 楼+1 没参与到 computation graph 不应该有影响
|