これ、完全に統制されたデータセットで事前学習したのとモデルが小さいせいで、汎用的な推論能力を獲得できていないという可能性はないだろうか。なんか形式論理とか代数とかの問題を事前学習に加えたら向上したりしない? 一般のLLMの場合、パラメータ数や事前学習データ量を増やしたときに、途中まではあまり性能が上らないけどある時点でいっきに上がるとか、プログラムのソースコードを読ませたら一般的な能力が向上するとかあったはず。
- replies
- 0
- announces
- 0
- likes
- 2
これ、完全に統制されたデータセットで事前学習したのとモデルが小さいせいで、汎用的な推論能力を獲得できていないという可能性はないだろうか。なんか形式論理とか代数とかの問題を事前学習に加えたら向上したりしない? 一般のLLMの場合、パラメータ数や事前学習データ量を増やしたときに、途中まではあまり性能が上らないけどある時点でいっきに上がるとか、プログラムのソースコードを読ませたら一般的な能力が向上するとかあったはず。