Tülu 3:オープンウェイトモデルの学習手法を完全公開!!

2025年1月30日(米国時間)、Ai2(Allen Institute for Artificial Intelligence)はオープンウェイトの大規模言語モデル「Tülu 3」を発表しました。Ai2はシアトルに拠点を置く非営利のAI研究機関です。Ai2の代表的なモデルとしては、OLMoやMolmoがあります。この記事では、最新のモデル「Tülu 3」についてご紹介していきます。

Molmoに関する記事はこちら

 

目次
  1. はじめに
  2. Tülu 3とは?
  3. Tülu 3の開発手法
  4. まとめ

 

1.はじめに

言語モデルの事後学習(Post-training)とは?

近年の大規模言語モデルの開発において、事後学習(Post-training)は、モデルの性能向上に必要不可欠なプロセスとなっています。事前学習(Pre-training)で膨大なテキストデータから言語の文法や語彙、知識を学習したモデルであっても、事後学習を行わないと、人間の意図に沿った応答を生成することは困難です。例えば、プログラム言語に最適化したLLMを設計するのであれば、人間が視覚的にわかりやすいように学習したり、あるいは日本語に最適化したLLMを設計するのであれば、日本語のデータを増やして追加学習したりします。このように、LLM開発における事後学習は、タスクや領域に最適化していくために非常に重要なステップなのです。

 事後学習技術の課題

これまでのLLMの事後学習の研究では、初期のInstructGPTなどのモデルが確立した「指示チューニング」や「嗜好ファインチューニング」といった手法が主流となっていました。その後、モデルの進化とともに事後学習の手法も洗練されてきました。このような進歩により、GPT-4やClaude 3.5などの商用モデルは大きな飛躍を遂げたものの、事後学習の手法(データや学習手法など)を非公開としているのです。一方で、オープンソースのLLMに対しては、事後学習の手法がシンプルすぎるといった問題があります。

Tülu 3の登場

Ai2が発表したTülu 3は、オープンソースなMeta社のLlama 3.1をベースとして、事後学習(Post Training)を強化したモデルです。本モデルはこれまでの先進的なモデルと異なり、データや学習手順、コード、インフラ、評価フレームワークといった事後学習手法を完全に公開しており、これにより事後学習の最前線を押し広げることを目的としているのです。また、手法を公開するだけでなく、オープンソースでもクローズドな最先端モデルに匹敵する性能を獲得できるように、再現性を確保することも目標としています。

 

2.Tülu 3とは?

Tülu 3は、Meta社のLlama 3.1を基盤として、事後学習のプロセスを公開することを目的とした大規模言語モデルです。先述した通り、これまでのオープンなLLMは、指示チューニング(Instruction tuning)を適用するだけのシンプルなものが多く、クローズドな商用モデルと比較すると性能に大きな差が生じてしまうことが問題でした。対して、Tülu 3は教師ありファインチューニング(SFT)、嗜好最適化(DPO)、強化学習(RLVR)を組み合わせた高度な事後学習手法を提案しています。

モデルの名称にもなっている「Tülu」とは、バクトリアンラクダとドロメダリー(ヒトコブラクダの一種)の交配種の名称に由来しています。この名称は、異なる技術を融合させることで、より優れたモデルを作るというコンセプトを象徴しています。

Tülu 3には次のような特徴があります。

  • 事後学習手法を完全に公開している!
  • 新しい強化学習手法(RLVR)の導入
  • クローズドな商用モデルに匹敵する性能

これらの特徴について、詳しく解説していきます。

 

3.Tülu 3の開発手法

Tülu 3の開発手法は、主にデータ収集と4段階の学習フレームワークに基づいて構成されています。

 

データの準備

効果的に事後学習を進めていくにあたり、各過程に必要なデータを収集します。データ収集の際には、以下のようなポイントを重視することで、データの品質を高めています。

  • 包括的なデータのカバー
  • 透明性と再現性の確保
  • 高度なデータフィルタリング

一つ目の広範なデータのカバーについては、モデルの様々なスキル(推論、数学、プログラミングなど)を強化するために行われます。また、データの透明性と再現性を確保することで、誰でも同じデータでモデルを再現できるようにしています。加えて、評価データセットとのデータの重複やデータの汚染を避けるために、適切にフィルタリングやクレンジングを行います。

 

このモデルの開発に当たっては、3つの事後学習プロセスが採用されており、各過程にあったデータを収集します。

  • 教師あり学習データ:一般的な会話、推論、数学、安全性、知識の想起などを含む。
  • 嗜好最適化データ:出力の好ましさを学習するためのデータセット
  • 強化学習データ:数学やプログラミングのような明確な正解があるタスクのデータセット

事後学習に利用されるデータに加えて、モデルの評価に利用されるデータも準備されます。

 

教師ありファインチューニング(SFT)

次に、準備したデータを使用して、教師ありファインチューニング(Supervised Fine-tuning/SFT)を行っていきます。事前学習済みモデルは汎用性の高い情報を持っている一方で、特定の分野に特化できていないことがあります。このプロセスでは、数学やプログラミング、安全性、知識の想起などのタスクに特化させています。

教師ありファインチューニング(SFT)のプロセスで利用されるデータには、人間の書いた応答やGPT-4oが生成した合成データが含まれていました。また、モデルが特定のスキルを習得するために必要なデータを組み合わせた、データミックスという手法も取り入れられています。データミックスによるモデルパフォーマンスの平均的なパフォーマンスの変化は以下のグラフのようになりました。

データミックスによるパフォーマンスの比較

この図からは、データミックスを徐々に調整していくことで、モデルのパフォーマンスが向上していくことが確認できます。このように、教師ありファインチューニング(SFT)においては、融合するデータを調整していくデータミックスというプロセスが大きな効果を発揮しているのです。

 

嗜好最適化(DPO/Direct Preference Optimization)

続いての事後学習は「嗜好最適化」あるいは「直接選好最適化」と呼ばれる過程になります。この過程は、LLMが生成するテキストの品質を向上させるための教師あり学習の一環です。特に、生成されるテキストが人間の好みや特定の基準に沿うように調整することを目的として行われます。

具体的には、選好データ(preference data)を利用します。この選好データは、プロンプトとそれに対する2種類の応答(好ましい応答とそうでない応答)の組み合わせで構成されます。この研究では自身が生成したデータ(on-policyデータ)と他のモデルが生成したデータ(off-policyデータ)の組み合わせによって、モデルの最適化を行っていきます。これらのデータは、モデルが生成したデータの選好度をGPT-4が評価したデータセットとなっています。

研究結果によると、on-policyデータとoff-policyデータに組み合わせによってモデルの応答精度に違いがあり、特に両方のデータによって最適化したときが最も高い精度となりました(パラメータ数8Bの場合)。

これらのデータセットの他にも、UltraFeedback、Persona、IF-Augmentedなどのデータセットの利用についても言及されています。

  • UltraFeedback:複数の既存のデータセットを組み合わせて、高品質なフィードバックデータを作成したもの
  • Persona:ペルソナ(特定の役割や人格)を設定し、LLMに合成データを生成させる方法を用いて作成されたデータ
  • IF-Augmented:SFTで使用したデータに対して、制約条件を付加して作成したデータセット

 

RLVR(Reinforcement Learning with Verifiable Rewards)

最後の事後学習として、RLVR(Reinforcement Learning with Verifiable Rewards)を行います。この手法はこれまでにはない新しい強化学習の手法です。従来の強化学習手法(Reinforcement Learning from Human Feedback/RLHF)では、複雑な報酬モデルと呼ばれるAIモデルを用いていたのに対して、RLVRではより直接的なアプローチでLLMのお能力を向上させています。この強化学習は明確な解答が存在するタスクに適用されます。具体的には、モデルが生成した応答に対して、正しい回答をした場合は正の報酬を与えることで、モデルを最適化していきます。

この強化学習により、数学的な推論能力を測るベンチマーク(GSM8KやMATH)において、モデルの正答率が向上しました。また、IFEval(制約をどれだけ厳密に守れるかというベンチマーク)においても、モデルの性能が向上しました。

 

事後学習によるモデルの性能評価

以上の事後学習を経て、Tülu 3の性能がどのように変化していったか見ていきましょう。

パラメータ数405Bにおける評価

上の表を見ると、事後学習を施すことで、モデルの平均的なパフォーマンスは段階的に向上していることが確認できます。また、最終的なモデルTülu 3 405B RLVRは、Deepseek V3やGPT-4oの性能に匹敵する性能を持つことも示されました。最先端のモデルと比較しても、Tülu 3はGSM8Kという数学のベンチマークでは、最も高い精度を示しました。

 

4.まとめ

この記事では、Ai2が開発したTülu 3モデルと、最先端の事後学習手法(Post-training)をご紹介しました。この記事のポイントは次のようにまとめられます。

  • Tülu 3はLlama 3.1をベースに開発されたLLM
  • 4050億パラメータを持ち、最先端モデルに匹敵する性能を持つ
  • 画期的な事後学習手法が完全に公開されている!

今後もAIの学習手法について取り上げていきますので、注目していてください!

 

【参考文献】

Tülu 3: Pushing Frontiers in Open Language Model Post-Training