「LLMは推論ができない」というのを示すのは難しくて、例えばAppleの論文に対するコメントとして、「そもそも問題が数学的に解けないケースが混ざっていた」「出力トークン数の限界で解けないケースが混ざっていた」といった指摘がある。
https://arxiv.org/abs/2506.09250v2
また、前記コメントでも触れられているけど、LLMは出力トークン数限界に余裕がある段階でも話をまとめてしまう場合がある。これはおそらく出力トークン数限界で回答が途中で止まった場合、強化学習で低い点数が付いてしまうため、少な目にしている可能性がある(私見)。
さらに、出力トークン数限界が原理的には足りていたとしても、内部で表現できるデータ構造の複雑さの限界に達している可能性がある。デコーダオンリーモデルの場合、前のトークンに関する内部状態は後ろにトークンを追加しても変化しない。そのため、「推論の結果矛盾が導かれたので『あの仮定』は間違いであった」などの情報を表現する場合、「後ろのトークンの内部状態に仮定に関する情報も含めて全て詰め込む」か「仮定部分へのポインタを埋め込み、それを辿っていく」かのどちらかになる。しかし、ポインタを辿るにはその分トランスフォーマーのレイヤが必要となる。そのため、解くのに失敗した問題であっても、内部のベクトル長を伸ばすかレイヤ数を増やせば問題が解けるようになる可能性はある。
なので、本質的にLLMは推論ができないのか、単にリソースが足りていないだけなのかは簡単には言えないはず。
- replies
- 0
- announces
- 0
- likes
- 1