1.はじめに
この記事では、Inflection AIが開発した最新のLLMである「Inflection-2.5」を紹介します。企業名のInflectionとは、言語学の用語で「語形変化」のことを表します。Inflection-2.5が開発されるまでに、いくつかのモデルが開発されています。そこで、Inflection AIの沿革を簡単に紹介します。
- 2022年 Mustafa SuleymanとReid Hoffmanによって創設
- 2023年5月 AIチャットサービス「Pi」を公開
- 2023年6月 Inflection-1を公開、「Pi」に搭載
- 2023年11月 Inflection-2を公開、「Pi」に搭載
- 2024年3月 Inflection-2.5を公開、「Pi」に搭載
現在までに3つのモデルのLLMと、1つのAIチャットサービスを提供しています。
2.AIチャットサービス「Pi」とは
Inflection AIが開発したパーソナルAIチャットサービス「Pi」は、人間が自分の考えを自由に表現したり、新しいアイデアを探求したりする新たな方法を提供するために作られました。他社のAIチャットサービスが、情報検索や質問の回答などといった生産性の向上がメインであるのに対し、「Pi」は人間との会話を優先しています。Inflection AIは「Pi」の持つ特徴のことを、『非常に高い「心の知能指数(EQ)」を持っている』と表現しています。こうしたEQの高いAIを提供するために、独自のLLMを開発しています。
それでは、Inflection AIが開発したLLMを紹介していきます。まずは、Inflection AIの最新LLMを知るために、初期モデルから見ていくことにしましょう。
3.Inflection-1の登場
Inflection AIは、創業から約1年でAIチャットサービス「Pi」を公開し、さらにInflection-1という基盤モデルを開発しました。その初期のPiに搭載されていた基盤モデル「Inflection-1」を紹介します。Inflection-1は、モデルの学習方法やアーキテクチャ、学習に使用したデータなどを一切公開しておりません。そのため、パラメータ数で比較するといったことは困難です。しかし、FLOPsという浮動小数点演算の指標の比較により、モデルの効率性を比較することはできます。これは後ほどの「Inflection-2.5」にて解説します。
Inflection-1の性能を見ていきましょう。はじめに同程度の計算量のモデルと比較してみます。
[出典:Inflection-1: Pi’s Best-in-Class LLM;https://inflection.ai/inflection-1]
比較対象は、「GPT-3.5」と「LLaMA(65B)」としています。同程度の計算量のモデル間の比較では、Inflection-1は高性能なモデルであると言えそうです。この他にも技術レポートには、各分野におけるベンチマークが記載されていますので、ぜひ参考にしてみてください。
●Inflection-1のまとめ
- Inflection AIが開発した基盤モデル
- 同程度の計算量のモデル内では、高水準な性能を持つ
AIチャットサービス「Pi」には、安全で快適に使用できるように、Inflection-1を最適化したモデルが搭載されています。
4.Inflection-2の開発
Inflection AIが次に開発したLLMが「Inflection-2」というモデルです。基盤モデルの「Inflection-1」の公開から約半年で新たなモデルを公開するという、非常にハイペースな開発を行っています。Inflection-1と比べて大きく改善した点は、知識の正確さ、口語的か文語的かなどの文体の調節、推理・推論能力の主に3つです。
Inflection-1のときと全く同じ組み合わせではないですが、6つのベンチマークによる比較を以下に示します。モデルの計算量がほとんど同じであるとされているInflection-2とPaLM2、最初に開発されたモデルInflection-1の3つのモデルを比較しています。
[出典:Inflection-2: The Next Step Up:https://inflection.ai/inflection-2]
Inflection-1の性能はPaLM2よりも下回っていたのに対し、Inflection-2では多くのベンチマークでPaLM2を上回りました。Inflection-1と比較してInflection-2が著しく成長した分野の一つが数学です。小学生レベルの算数の問題によるデータセットであるGSM8kでは、Inflection-1から20ポイント程度、精度が向上しています。また、MMLUでは72.7から79.6まで精度を向上させており、PaLM2の78.3を上回ることができました。
その他のLLMにおけるMMLUベンチマークの結果は以下のようになりました。
[出典:Inflection-2: The Next Step Up:https://inflection.ai/inflection-2]
やはり、GPT-4が最先端の記録を維持していますが、これまでに開発されてきた有名なモデルと比較しても、Inflection-2は上位の性能を持つことがわかります。
さらに、数学や算数におけるモデルの性能も見ていきましょう。
[出典:Inflection-2: The Next Step Up:https://inflection.ai/inflection-2]
左端にモデル名、上端にベンチマーク名が書かれています。左側の2つはプログラミングのコードなどに関するベンチマークとなっており、右側の2つが算数、数学に関するベンチマークとなっています。一つ目の注目すべき点は、Inflection-1からどれくらい進化したか、という点です。もう一つの注目すべき点は、PaLM2 S*というモデルとInflection-2におけるコーディング性能の比較です。PaLM2 S*は、PaLM2をコーディング用にファインチューニングした、いわば専門家モデルです。そのPaLM2 S*と比較してもInflection-2のコーディング能力の方が優れているという点は、非常に驚くべき事実です。
●Inflection-2まとめ
Inflection-2はInflection AIが開発したLLMの第二世代であり、次のような特徴がありました。
- MMLUで79.6というスコアを記録し、Inflection-1から6.9ポイントの改善
- コーディングや数学のタスクの性能も向上
Inflection-2はInflection-1に代わって、同社のAIチャットサービス「Pi」の内部で作動するモデルとなりました。
5.遂に登場した最新モデル ~Inflection-2.5~
2024年3月に発表されたInflection-2.5は、Inflection AIが開発したLLMの第三世代のモデルです。第二世代のInflection-2はGPT-4などの最先端モデルと比較すると劣っている点がいくつも見られましたが、最新モデルのInflection-2.5はGPT-4の性能に大きく近づきました。ここからは、そんな最新モデルの紹介に入っていきます。
Inflection-2の発表から、およそ4か月での最新モデルの発表となりました。Inflection-2の発表と同様に、非常に速いスピードでLLM開発を進めていることが伺えます。以前のモデルと比較して、最新モデルの主な改善点は「リアルタイムWeb検索機能の追加」です。この機能追加により、より最新の情報にアクセスし、正確な回答を生成することができるようになります。
では公式ブログで公開されているInflection-2.5の技術的な評価を見ていきます。
Inflection-1との比較では数学とコーディングの性能が大きく向上していますが、これはInflection-2と比較すると、それほど大きな進化ではありません。MMLUのスコアはInflection-2からInflection-2.5にかけて5.9ポイント向上し、85.5というハイスコアを記録しました。また、「Beyond the Imitation Game Benchmark Hard」の頭文字をとってできる「BIG Bench Hard」という23種類に難易度の高いタスクからなるベンチマークでは、Inflection-1の69.9から10ポイント以上改善し、Inflection-2.5は82.2というハイスコアを記録しました。同じベンチマークでGPT-4は83.1だったので、Inflection-2.5はGPT-4に引けを取らない結果となっていることがわかります。さらに推論のベンチマークであるHellaSwagとARC-C(ARCベンチマークの難易度が高い方のデータセット)における結果は以下の表に示します。
[出典:Inflection-2.5: meet the world’s best personal AI;https://inflection.ai/inflection-2-5]
基盤モデルのInflection-1でもGPT-4に匹敵する推論能力を持っていることが確認できますが、最新モデルではさらにスコアを向上させています。
その他の主要なベンチマークについては、公式ブログを参考にしてみてください。
最後に、Inflection-1で触れた「FLOPs」という浮動小数点演算の指標により、モデルの効率性を比較します。「Training FLOPs」という、モデルの学習をする際に必要な計算量をGPT-4と比較します。Inflection-1はGPT-4の約4%、Inflection-2.5のTraining FLOPsはGPT-4の約40%でした。しかしながら、Inflection-2.5はGPT-4の平均パフォーマンスの94%以上を達成したと報告されています。このことからも、Inflection-2.5は学習効率の高いモデルであると言えます。
●Inflection-2.5のまとめ
ここまで紹介してきたInflection-2.5の特徴は次の通りです。
- リアルタイムWeb検索機能の追加
- 最先端モデル(GPT-4など)に引けを取らない推論能力を持つ
- 学習効率と高性能を両立
そして現在はInflection-2に代わって、Inflection-2.5が「Pi」に搭載されています。
6.まとめ
Inflection AIは、「Pi」のサービス改善の目的でLLMの開発を進めてきました。前述の通り、「Pi」はAIチャットサービスの中でもEQ(心の知能指数)の高さを重視してきました。今回の最新モデルInflection-2.5が「Pi」に搭載されることで、EQだけではなくIQ(知能指数)も向上させました。これにより、パーソナルAIとしての日常的な会話の相手としての利用だけでなく、ChatGPTのように情報検索やアイデアの創出といった業務の効率化の目的など、幅広い領域での活用が期待できます。
ぜひ「Pi」との会話を楽しんでみてはいかがでしょうか。