2024年7月18日、OpenAIは最もコスト効率の高いインテリジェントなモデルとして「GPT-4o mini」を発表しました。このモデルは、GPT-4oと同等の性能を維持しながら、より安価で高速かつ、省エネ設計を実現しています。これにより、APIの利用コストを大幅に削減できる点が大きな魅力です。実際、APIの価格はGPT-4oと比較して97%も安く利用することが可能です。
例えば、GPT-4o miniを用いることで、スタートアップ企業は限られた予算内で高度なシステムを構築することが可能です。また、大規模なデータ解析が必要な研究機関でも、GPT-4o miniの高性能と低コストを活用することで、より多くのリソースを他の重要な研究に振り向けることができます。
GPT-4o Miniの魅力とは?
小型でも卓越したパフォーマンスと多言語対応
GPT-4o miniは、128Kのコンテキストウィンドウを備えており、大規模なテキスト処理を容易にこなします。小型ながら、その性能は驚異的であり、MMLUスコアで82.0%、数学的推論(MGSM)で87.0%、コーディングタスク(HumanEval)で87.2%という高性能を示しています。また、GPT-4oと同じ範囲の言語をカバーしているため、日本語を含む多くの言語で活用可能です。
7月24日現在、最先端モデルであるGPT-4oと比較すると、MMLUなどの8分野すべてでやや下回っているものの、コード性能を示すHumanEvalではわずか3%の差しかありません。すべての分野での差は10%以内に収まっており、実用的な運用において十分な性能を発揮します。
一方、従来のモデルであるGPT-3.5 Turboと比較しても、8分野すべてで大きく性能に差をつけています。同じ小型モデルであるGemini FlashやClaude Haikuと比較しても、すべての分野で性能を上回っており、小規模言語モデル(SLM)の中でも非常に高い性能を誇るモデルであることが分かります。
圧倒的なコストパフォーマンス: GPT-4o MiniのAPI価格
GPT-4o miniは、その圧倒的なコストパフォーマンスで注目されています。以下は、2024年7月24日現在のAPI利用料金です。
- GPT-4o mini:
- 入力トークン: $0.150 / 1M
- 出力トークン: $0.600 / 1M
- GPT-4o:
- 入力トークン: $5.00 / 1M
- 出力トークン: $15.00 / 1M
このように、GPT-4o miniはGPT-4oと比べて、入力トークンが約96%、出力トークンが約97%安い価格で提供されています。GPT-4oの高いパフォーマンスを維持しながら、圧倒的なコストパフォーマンスを実現している点が大きな魅力です。
スタートアップや研究機関に最適なコストパフォーマンス
GPT-4o miniの価格設定は、特に大規模な研究、開発環境を持たない企業や、限られた予算で運営するスタートアップにとって理想的です。また、膨大なデータを扱う際にも、GPT-4o miniのコストパフォーマンスは非常に高く、コストを抑えながら高い性能を使うことができます。
他のAIモデル(SLLM)との比較
次にclaude3 Haikuと比較します。Claude 3 Haikuは、Claudeシリーズの中で特にコスト効率を追求したモデルです。以下は、API利用料金の比較です。(7月24日現在)
- 入力トークン: $0.250 / 1M
- 出力トークン: $1.250 / 1M
これに対し、GPT-4o miniはHaikuより低価格で提供されており、総合的に優れた選択肢となっています。Claude 3 Haikuは200Kのコンテキストウィンドウを持ちGPT-4o miniの128Kを上回っています。しかし、上記の表からもわかるように、性能面ではGPT-4o miniの方が多くの分野で優れた結果を示しています。特にMMMUなどの評価基準において、GPT-4o miniは一貫して高いスコアを記録しています。
GPT-4o miniは、2024年7月23日に発表された高性能な小規模言語モデル(SLM)であるLlama 3.1と比較すると、いくつかの点で優れています。特に、Llama 3.1の7Bモデルよりも高い性能を誇りますが、Llama 3.1の80Bモデルには劣ります。しかし、2024年7月24日現在、Llama 3.1は日本語対応しておらず、マルチモーダル機能も提供されていません。
そのため、より幅広い範囲で活用可能で、日本語も使える性能とコストパフォーマンスに優れたモデルとして、現時点ではGPT-4o miniが最適な選択肢となります。
マルチモーダル対応と将来の可能性
現在、GPT-4o miniはテキストと画像処理に対応しています。将来的にはビデオや音声にも対応予定です。このマルチモーダル対応により、カスタマーサポートの自動化や高度なデータ解析など、さまざまな用途での利用が期待されます。例えば、ビジュアルデータの解析や音声認識を必要とするアプリケーションにおいても、GPT-4o miniは非常に有用です。
このように、GPT-4o miniは現在の高性能モデルの中で、特に多言語対応やマルチモーダル機能が求められるシナリオで非常に優れた選択肢となっています。日本語対応と将来的な機能拡張により、さらに多くの分野での活用が期待されます。
まとめ
-
128Kのコンテキストウィンドウ
-
テキストと画像のマルチモーダルモデル
-
ビデオと音声のマルチモーダル機能を開発中
-
日本語を含む多言語に対応
-
従来モデルよりも96%安い、圧倒的コストパフォーマンス
参考文献
1)https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
2) https://platform.openai.com/docs/models
3) https://openai.com/api/pricing/