GPT-4o: 無料開放とマルチモーダル入力で実現する新たなAI体験

2024年5月14日、OpenAIは最新のフラッグシップモデル「GPT-4o」を発表しました。この「o」は「omni」を意味し、ラテン語で「すべて、全て」を指します。

GPT-4oの注目すべき点について考えていきます。

一つ目は、全てのユーザーに無料で利用可能となった点です。これまでのChatGPTにおいては、GPT-4 Turboは有料サブスクリプションを登録しているユーザーのみが利用可能で、無料ユーザーはGPT-3.5までしか利用できませんでした。しかし、GPT-4oでは有料サブスクリプションに登録する必要がなく、無料ユーザーも利用できます。

二つ目は、マルチモーダル入力に対応している点です。音声、画像、テキストといったマルチモーダル入力が可能となり、ユーザーは様々な方法でGPT-4oを活用することができます。

ここからは、GPT-4o特に注目すべき、

無料ユーザーへの開放
マルチモーダル入力

に触れながらのGPT-4oの特徴や進化について詳しく掘り下げていきます。

「GPT-4oの登場と進化」

GPT-4oは前代モデルのGPT-4 Turboの次世代モデルとして登場しました。GPT-4oは、現行最新モデルのGPT-4 Turboと比べて、以下の点で機能が大幅に向上しています。

１．マルチモーダル入力

GPT-4oの大きな特徴は、マルチモーダル入力に対応している点です。ユーザーは音声、画像、テキストといった多様な入力方法を用いることができるようになりました。オーディオやビジョン（視覚）からそれぞれのモードでリアルタイムに最適な応答を得ることができます。

音声入力

GPT-4oは、音声入力にも対応しています。最小232ミリ秒、平均320ミリ秒で返答することができ、ほとんど人間と同じ速度の対話が可能です。

以前は音声認識に3つのモデル(音声からテキストにするモデル、テキストを分析・出力するモデル、テキストから音声にするモデル)を使用していましたが、GPT-4oでは1つのモデルで音声を認識できるようになりました。それにより、音調、複数の話者、雑音などを、より高度に分析でき、さらに笑い声や歌、感情を表現することも可能となりました。

画像入力からの分析

GPT-4oでは画像入力による分析ができます。画像入力を通じて数式やグラフ、表などを読み取り解析することが可能です。これにより、AIを用いた専門的な計算や分析がより簡単に行えるようになります。

リアルタイム翻訳や対話

GPT-4oは、日本語やドイツ語を含め50以上の言語に対応しており、音声入力を用いてリアルタイムで翻訳することができます。モデルの一元化により音声認識能力の向上でミスが少なくなり、国際的なコミュニケーションが円滑に行えます。これにより、国際会議や海外旅行、教育などの多くの場面での活躍が期待されます。

また、音声、画像の二つの入力を組み合わせることで対話が可能となりました。画像認識により、表情から感情を読み取り、リアルタイムな音声認識により、まるで人のような自然な対話が可能です。

pdf、csvのファイルのアップロードと分析

マルチモーダル入力により、pdfファイルから表やグラフなどの情報を読み取り分析することが可能となりました。これにより、専門的な文章やデータの解析が容易に行えるようになります。

２．無料ユーザーへ開放

これまでのChatGPTシリーズは、有料サブスクリプションを持つユーザーのみが最新のモデルを利用できるという制限がありました。以前は、無料ユーザーがGPT-3.5までしか使えなかったのに対し、GPT-4oは限定的ではあるものの、無料ユーザーでも使うことができます！

ここからは無料ユーザーができるようになったことについて紹介していきます。

GPT-3.5からアップデートされたGPT-4oの利用

GPT-3.5からGPT-4oは性能が大幅に向上しています。より高速で正確な最新AIを無料で利用できるようになりました。

ウェブブラウジング

GPT-3.5ではウェブブラウジングができなかったため、古い情報しか利用できませんでした。しかし、GPT-4oを搭載したChatGPTでは無料ユーザーにもウェブブラウジング機能が提供されるようになりました。これにより、最新の情報をリアルタイムでインターネットから取得し、「今日の天気は？」などの質問にも迅速に対応できるようになりました。

しかし、メッセージの制限があり、一定量のプロンプトを超えてしまうと、無量ユーザーはGPT-4oが使えなくなり、自動的にGPT-3.5に変更されてしまいます。

そこで、有料サブスクリプションChatGPT Plusに登録することで以下のGPT-4oの機能が使用できます。

音声、画像入力

有料サブスクリプションにより、マルチモーダル入力が可能となります。GPT-4oの大きな魅力の一つである音声入力や画像入力により対話や翻訳、分析などの機能が使えるようになります。

メッセージの制限

無料版は、一定量のプロンプトしか使えず、それを超えると自動的にGPT-3.5に切り替わってしまいます。しかし、ChatGPT Plusはメッセージ制限が無料版の５倍あり、より多くの使用が可能です。

GPTsの作成

ChatGPT Plusでは、GPTsの作成が可能であり、独自のチャットボットを作成したり、カスタマイズしたりできます。

音声対話、リアルタイム翻訳、画像生成

画像入力や音声入力により、対話やリアルタイム翻訳が可能になります。

３．性能の向上

GPT-4oは性能が大幅にアップデートされています。

処理速度の向上

GPT-4 Turboと比較して、GPT-4oは処理速度が2倍高速になりました。これにより、高負荷な入力に対してもより高速に応答できるようになりました。

API価格の削減

GPT-4oのAPI価格は50％安くなりました。これにより、開発者はより低コストで利用できるようになりました。

レートリミットの拡張

レートリミットは5倍に拡張されました。つまり、より多くのリクエストを処理することが可能になり、効率的な利用ができます。

性能の向上により、GPT-4oは高負荷な入力でもより安く、かつ高速に効率よく応答することが可能です。

下記のグラフは、従来モデルGPT-4 Turboを含め他社のフラッグシップモデルと比較しています。GPT-4oはほかの生成AIよりも高い性能を示していることがわかります。この優れた性能を無料版で利用できるのは革命的です！

下記二つのグラフは、音声認識性能と音声翻訳性能を示しています。

GPT-4oが音声認識、翻訳で優れた性能があることがわかります。より良いリアルタイム翻訳や対話ができることが裏付けされています。

以下のグラフは画像認識の評価の結果です。他社や従来のモデルと比べても各項目で最も精度が高いことがわかります。これにより、画像認識によるマルチモーダル入力で高いパフォーマンスを発揮していることがわかります。

４．まとめ

無料ユーザーでも限定的に使用可能！
テキスト、音声、画像のマルチモーダル入力ができる
リアルタイム翻訳、豊かな対話、数式解析が可能

GPT-4oのリリースにより、ChatGPT上で誰もが高性能なAIを無料で利用できるようになりました。マルチモーダル入力によりリアルタイム翻訳や対話が可能となり、より優れたユーザーユーティリティーを提供するGPT-4oの使用体験を、近日中にアップロードする予定です。お楽しみにしてください。

参考文献・画像出典

「Hello GPT-4o:Open AI」

Tokkyo.Ai機能のご案内

GPT-4o: 無料開放とマルチモーダル入力で実現する新たなAI体験

無料ユーザーへの開放

マルチモーダル入力

「GPT-4oの登場と進化」

１．マルチモーダル入力

音声入力

画像入力からの分析

リアルタイム翻訳や対話

pdf、csvのファイルのアップロードと分析

２．無料ユーザーへ開放

GPT-3.5からアップデートされたGPT-4oの利用

ウェブブラウジング

音声、画像入力

メッセージの制限

GPTsの作成

音声対話、リアルタイム翻訳、画像生成

３．性能の向上

処理速度の向上

API価格の削減

レートリミットの拡張

４．まとめ

無料ユーザーでも限定的に使用可能！

テキスト、音声、画像のマルチモーダル入力ができる

リアルタイム翻訳、豊かな対話、数式解析が可能

参考文献・画像出典