目次:
- 導入
- テスト時スケーリングとは
- 性能評価
- テスト時スケーリングの限界
- まとめ
1.導入
2025年2月3日、スタンフォード大学とワシントン大学の研究者たちが、新たなLLMのトレーニング手法を提案し、それを用いた新しいモデル「s1」を発表しました。この手法の核となるのは「テスト時スケーリング(Test-Time Scaling)」であり、OpenAIのChat GPT o1が採用しているものの、その具体的な方法論は公開されていません。
本研究では、シンプルなアプローチでテスト時スケーリングを実現し、優れた推論性能を達成しました。この記事では、最小限のデータで推論能力を高めた最新モデル「s1」を紹介します。
2.テスト時スケーリングとは
今までの言語モデルの性能向上の手法は大規模な自己教師あり事前学習によるものが一般的でしたが、この研究での手法はテスト時に追加の計算リソースを追加することで性能を向上させるという新しいアプローチです。
(1)s1Kデータセット
この研究で使用されたデータセットは「s1K」と呼ばれ、16の異なるデータソースから59,029件の問題を収集し、そこから1,000件に厳選 されたものです。
データセットの特徴:
数学、物理、経済学、生物学などの多様な分野をカバー
低品質なデータを排除
基盤モデル(Qwen2.5-7B/32B)で容易に解ける問題を除外
分野間のバランスを考慮し、均質な構成に調整
(2)Budget Forcing(予算強制)によるテスト時スケーリング
「Budget Forcing」はモデルの思考時間を制御する手法で、思考が無限ループに陥らないように推論プロセスを強制終了させたり、モデルが「wait」を追加し自問自答するよう誘導し、再評価を促したりします。
この手法を適用したs1-32BはAIME24の評価で基盤モデル(Qwen2.5-7B/32B)に比べて7%の向上が見られました。
3.性能評価
以下の表はs1モデルと既存モデルのベンチマーク評価と推論強化に使用されたデータ量を比較したものです。
o1-previewとQwen-32Bはデータ量がわかりませんが、低コストで話題になったDeepseek R1が80万件ですからそれ以上と考えてよいでしょう。s1は1000件という圧倒的に少ないデータ量でo1-previewやDeepseek R1と同等かそれ以上のパフォーマンスを発揮していることになります。この手法のサンプル効率の高さが示されていますね。
4.テスト時スケーリングの限界
テスト時スケーリングは強力な手法ですが、以下の課題が指摘されています。
・長時間のスケーリングの限界: 6回以上の自己修正を適用すると、ループが発生する可能性がある。
・コンテキストウィンドウの制約: 計算資源を増やしても、ウィンドウサイズが制約となり推論の最適化が難しい。
論文では、以下の解決策が提案されています。
・「Wait」以外のトークン(例:「rethink」)を導入し、多様な思考過程を誘導
・多数決やツリー検索などの並列スケーリング手法の活用
5.まとめ
本記事では、「テスト時スケーリング」 というLLMの推論精度向上の新たなアプローチを紹介しました。s1モデルは、最小限のデータ(1,000件)とシンプルなテスト時手法(Budget Forcing)を用いることで、商用モデルに匹敵する性能を発揮 しています。
今後、強化学習(RL)などの他の手法との組み合わせにより、さらなる最適化が期待されます。また、s1モデルはオープンソースとして公開されており、研究者や開発者にとって貴重なリソースとなるでしょう。(https://github.com/simplescaling/s1)
参考文献: