p.tatapa.org

p.tatapa.org

機械学習の際、参考となるモデルを使うことで学習を効率化する手法についての論文。

https://arxiv.org/abs/2505.06699

学習中モデルの損失関数から、参考モデルの損失関数を引いたものを使って学習する。

直感的には、参照モデルでは上手く扱える(損失関数が小さい)が、学習中のモデルで上手く扱えない(損失関数が大きい)ようなデータを重点的に学習することで学習を効率化する。

知識蒸留とは違い、参照モデルよりも良い性能を出せる可能性がある。また、参照モデルとアーキテクチャが異なっていてもよい。

手法自体は以前から知られていて、学習データの絞り込みや重み付けに使われていたが、本論文では数学的な分析をしていて、学習データの絞り込みや重み付けをしなくても損失関数の入れ替えだけで効率化できることを示している。

理論的には、学習後の危険関数の上界の式に「最適なモデルの損失関数の分散」が通常は含まれるのに対し、これが「(最適なモデルの損失関数 - 参照モデルの損失関数)の分散」となることで、参照モデルが最適なモデルに十分近ければ上界がその分小さくなる、ということらしい。

コード的には、パラメータを更新する式に勾配∇avg(exp(損失関数))が含まれるので、損失関数が大きい部分は勾配も大きくなるということっぽい?

replies
0
announces
0
likes
0