Claude 3.5 Sonnet:遂に登場!GPT-4oを上回るAnthropicの最新LLM

この記事では、Anthropicの最新のLLMである「Claude 3.5 Sonnet」を紹介していきます。

AnthropicはこれまでにもClaudeシリーズとして、Claude 1、Claude 2、Claude3などを開発し、発表してきました。Claude 3ファミリーを2024年3月に発表してからおよそ3か月で、Claude 3.5ファミリーのとして最初のモデルである、「Claude 3.5 Sonnet」を発表したことになります。

以前のClaude 3ファミリーには、「Haiku」「Sonnet」「Opus」の3つのモデルが用意されており、「Opus」が最も高性能なモデルとして注目されていました。Anthropicは『Claude 3.5 SonnetはClaude 3 Opusよりも多くの指標において優れたモデルである』と公表しています。

 

1.Claude 3.5 Sonnetの特徴

Claude 3.5 Sonnetの大規模言語モデルとしての主な特徴を3つ紹介します。

  1. 業界最高水準の推論能力
  2. スピードとコストパフォーマンス
  3. 高いコーディング能力

ではひとつずつ見ていきましょう。

 

①業界最高水準の推論能力

公式ブログでは、Claude 3.5 Sonnetの各ベンチマーク評価が公開されています。公開されているスコアについては以下の表をご確認ください。

大学院レベルの推論のベンチマーク(GPQA)や、コーディングのベンチマーク(HumanEval)などで、最先端の記録を更新しました。以前の記事で、Claude 3 OpusとGPT-4oを比較しましたが、そのときはほとんどのベンチマークでGPT-4oの方が上回っていましたが、Claude 3.5 Sonnetは性能面でGPT-4oやGemini 1.5 Proなどに劣ることはないようです。中でも大きな飛躍を遂げたのがGPQAベンチマークで、このことからも推論能力が向上したことがわかります。

[出典:Claude 3.5 Sonnet; https://www.anthropic.com/news/claude-3-5-sonnet]

 

②スピードとコストパフォーマンス

Claude 3.5 SonnetはClaude 3 Opusよりも高性能なモデルであるにもかかわらず、Claude 3 Opusよりも2倍の速さで作動することができるとされています。Claude 3ファミリー内での作動の速さは、Claude 3 SonnetがClaude 3 Opusよりも約2倍速いとされています。要するに、Claude 3.5 Sonnetは、Claude 3 Opusよりも性能が高いモデルでありながら、Claude 3 Sonnetと同様のスピードで作動することができるモデルということになります。

さらに、Claude 3.5 Sonnetの利用価格はClaude 3 Sonnetと同等で、100万トークンあたりの入力で3ドル、100万トークンあたりの出力で15ドルとなっています。性能が向上しても価格が変わらない点からも、非常にコストパフォーマンスの良いモデルであると言えます。

 

③高いコーディング能力

各ベンチマークスコアでもコーディングの性能の高さは確認できましたが、ここではもう少し詳しく見ていきましょう。Anthropicによると、Claude 3 Opusが38%の正答率であったコーディングのテストにおいて、Claude 3.5 Sonnetは64%の問題を正しく解決することができました。このテストは単にコーディング能力を測るのではなく、自然言語で記述された条件に沿って、コードのバグを修正したり、機能を追加したりするタスクによって評価しています。したがって、Claude 3.5 Sonnetはユーザーからの指示を受け、関連するツールを提示されると、高い推論能力とトラブル解決能力を駆使して、独立してコードの生成、編集、実行を行うことができます。

 

2.視覚タスクの改善

Claude 3ファミリーに引き続き、Claude 3.5 Sonnetもマルチモーダル入力に対応しています。そのため、画像の入力から写真や図、グラフなどの解析などを行うことができます。視覚に関するベンチマークでは、Claude 3 Opusを上回る性能を示しました。その結果は以下の表の通りです。

[出典:Claude 3.5 Sonnet; https://www.anthropic.com/news/claude-3-5-sonnet]

これらのベンチマークは視覚的情報を読み取り、それに関連する質問に答える形式となっていますが、テーマがそれぞれ異なっています。

  • Visual Math Reasoning:図やグラフを用いて数学的推論を行うタスク
  • Science Diagrams:科学的な図表を理解し、質問に答えるタスク
  • Visual Question Answering:画像や図表に基づいた質問に答えるタスク
  • Chart Q&A:図やグラフ(人口統計や売上データを含む)に基づく質問に答えるタスク
  • Document Visual Q&A:文書内の視覚情報に基づく質問に答えるタスク

 

画像内の図表の理解に加えて、Claude 3.5 Sonnetは不完全な画像からテキスト部分を正確に抽出、転写することができます。こうした視覚情報の理解力の高さから、様々な分野でのAIの活用が可能になると考えられます

 

3.利用方法

現在はclaude.aiというClaudeのWebサイトから、制限付きではありますが、無料でClaude 3.5 Sonnetを利用することができます。さらに利用したい場合は、Claude Proにアップグレードすることで、無料版よりも多くの対話が可能になります。

またClaude 3.5 Sonnetに関連して、claude.ai上では「Artifacts」という新機能が導入されました。「Artifacts」とは、Claudeとの対話を通してコードなどを出力させた際に、対話とは別のウィンドウでそのコードの実行結果を見ることができるという、非常に画期的なツールです。このツールを使用すれば、実際の実行結果を見ながら「もっとこの部分をこのように変更したい」という要望をすぐに送ることができるため、作業効率が向上すると考えられます。

 

4.今後の展開

Anthropicの今後の展開としては、Claude 3ファミリーのように、Claude 3.5 HaikuとClaude 3.5 Opusを公開する予定であるとしています。また、新しいモダリティ(さらなるマルチモーダル性)や機能の開発に取り組んでいます。さらに、より個人に最適化した体験を提供するための「Memory」という機能も探索しており、これによりClaudeはユーザーの好みに合わせて対話をすることができるようになる可能性があります。

 

5.Artifactsの利用体験

Claude 3.5 Sonnetはclaude.ai上での利用が無料なので、Artifactsの機能も含めて体験してみました。

今回はHTMLやCSS、Javascriptを使用したWebサイト作成を行ってみます。

プロンプトは簡単に以下のように入力しました。

次のようなテーマや条件で、html形式でwebサイトを作成したい。cssやjavascriptも使用して良い。

テーマ:令和を生き抜くための生成AI

メニューバー:LLM、画像生成AI、動画生成AI、その他

サイドバー:不要

ボタンの実装:次のページへ、前のページへ

サイトマップの実装

 

この結果、コードが出力されましたが、途中でウィンドウが切り替わり、次のようなWebサイトが出力されました。

これだけでも、Webサイトの基本構成としては問題なさそうです。さらに、メニューバーとボタンにさらに変更を加えてみます。

メニューバーの上にカーソルを当てると、項目が表示されるような設定に変更してみました。このような単純なプロンプトでも、簡単にWebサイトの骨組みを作ることができました。改めて「Artifacts」の革新性が見て取れます。

 

6.まとめ

Claude 3.5 Sonnetの要点をまとめると以下のようになります。

  • Claude 3.5 Sonnetは最新のLLMと比較しても優れた推論能力を持つ
  • 作動速度とコストパフォーマンスの向上
  • 高いコーディング能力でバグの修正や機能追加をサポート
  • 視覚情報の認識能力が向上した
  • claude.ai上での無料利用と「Artifacts」機能の導入による作業効率向上

他のLLMでもコードの出力はできますが、その場で結果を出力してくれるツールはClaudeの「Artifacts」以外にありません

ぜひ、この機会にClaudeを試してみてはいかがでしょうか。

 

【参考文献】

Claude 3.5 Sonnet