OpenAIは9月12日に、従来のモデルよりも思考力を向上した「o1」モデルシリーズを発表しました。今回の発表では、「o1-preview」と「o1-mini」を公開しています。この記事では、最新モデル「o1-preview」と「o1-mini」の最新情報をご紹介します。
目次
- 最新モデルの特徴
- 利用方法
- 活用事例
- まとめ
1.最新モデルの特徴
最新モデルは、「o1-preview」「o1-mini」に共通して、従来のモデルよりも回答までの推論時間が長いのが特徴です。学習を通じて思考プロセスを洗練しており、複雑なタスクや科学、コーディング、数学などのタスクに高い水準で対応しています。ここからはそれぞれのモデルについて見ていきましょう。
〈o1-preview〉
o1-previewは、難しい問題を解決するために開発された最初のモデル「o1」のプレビュー版となっています。公式サイトによると、o1はアメリカ数学オリンピック(AIME)の予選で、アメリカの上位500に入り、物理学や生物学、化学の問題のベンチマーク(GPQA)では人間の博士課程の精度を超える性能を持つことが確認されたそうです。下の図は、AIMEや競技コーディングでの成績とGPQAの成績を示したものです。GPT-4oがAIMEで13.4%の正答率であったのに対し、o1は83.3%の精度を達成したことからも、最新モデルの高い推論能力が見て取れます。また、図の右にあるように、GPT-4oは科学系のベンチマークでは専門家レベルに10ポイント程度及びませんでしたが、最新モデルはその壁を越えたことが確認できます。
[出典:”Learning to Reasoning with LLMs”; https://openai.com/index/learning-to-reason-with-llms/]
最新モデルでは安全性も一層高まっています。安全性のテストとして知られている「脱獄(Jailbreak)テスト」では、モデルがどれだけ規則に従い続けられるかをテストします。StrongRejectと呼ばれるAIモデルの脱獄テストに関するベンチマークにおいて、GPT-4oは22点を獲得しましたが、o1-previewはそれを大きく上回る84点を獲得し、安全性の高さを強調しました。
〈o1-mini〉
o1-miniはコーディングに特に効果的な、高速で安価なモデルとなっています。料金ではo1モデルより80%も安く利用することができます。高度な推論が必要な場面でのコストパフォーマンスの高い応用が期待できます。
2.利用方法
ChatGPTでの利用方法と利用上の注意、またAPIについてもご紹介します。
最新モデル「o1-preview」と「o1-mini」は、ChatGPT PlusおよびTeamユーザーに向けて公開されます。利用方法はこれまでと同様に、手動でモデルを選択することで変更できます。さらに、ChatGPTの無料ユーザーにもo1-miniの公開を検討しているとのことです。
これらのモデルは非常に高い推論能力を備えているため、日常的な業務での利用というよりは、科学やコーディング、数学などの分野で複雑な問題に取り組むような場面での活用が想定されます。
〈利用上の注意〉
最新モデルの利用にあたってはいくつかの注意が必要です。
-
モデルの利用制限
リリース時のモデル制限として、o1-previewの場合は1週間あたり30メッセージ、o1-miniの場合は1週間あたり50メッセージまでとなります。(モデル制限については最新の情報をご確認ください。)
-
入力形式の制限
最新モデルにはGPT-4oなどのように、あらゆる形式のファイルを入力する機能は搭載されていません。そのため、それほど高度な推論が必要でない場合や、様々な形式のファイルをアップロードしたい場合は、これまで通りGPT-4oなどの利用が推奨されます。
最新モデルはChatGPTで公開されているとともに、APIでの提供も開始しています。OpenAIの公式サイトによると、o1-previewとo1-miniのどちらもAPIが提供されており、料金体系は次の通りです。
o1-preview
- $15.00 / 1M input tokens
- $60.00 / 1M output tokens
o1-mini
- $3.00 / 1M input tokens
- $12.00 / 1M output tokens
GPT-4oに比べるとo1-previewは3~4倍ほど高価になっています。そのため、APIの導入には性能面とコスト面からの総合的な判断が必要です。
3.活用事例
公式サイトでは、実際の先進的な研究現場での活用事例として、遺伝学者や量子物理学者、経済学者などの研究活動の手助けをしている様子が紹介されています。
また、別の公式サイトでは”Chain of Thought”あるいは「思考の連鎖」と呼ばれる機能の改善を強調するプロンプトの例も紹介されています。人間がものごとを考えるときに、細かいステップに分割して解決を試みる「思考の連鎖」を磨くとともに、上手くいかないアプローチの誤りを認め、別の解決策を試すという手法を強化しています。
[出典:”Learning to Reasoning with LLMs”; https://openai.com/index/learning-to-reason-with-llms/]
上の図は、推論のステップが多く、比較的難易度の高い化学の濃度に関する計算の例です。この例では、GPT-4oは誤答し、o1-previewは正答にたどり着くことができました。
4.まとめ
この記事では、OpenAIの最新モデル「o1-preview」と「o1-mini」について紹介しました。最新モデルの特徴をまとめると次のようになります。
- o1-previewは複雑な推論に強く、科学や数学、コーディングで高い性能を発揮している
- o1-previewは高水準な推論能力だけでなく、高い安全性を持つ
- o1-miniはコーディングに特化した、高速でコスト効率の高いモデル
- 最新モデルはメッセージ数や入力形式に制限はあるが、高度な推論技術は最先端の研究でも活躍!