2024年10月23日、Anthropic社からClaude 3.5 SonnetとClaude 3.5 Haikuの新機能が発表されました。従来のClaude 3.5 Sonnetと比較して、Claude 3.5 Sonnet Newは性能が飛躍的に向上し、特にコーディング性能や推論タスクにおいて大幅な性能向上を示しており、業界最高水準のLLM(大規模言語モデル)です。一方で、Claude 3.5 Haikuは、低コストと高速処理を兼ね備えたモデルとして登場しました。この最新モデルは、性能面においてもChatGPT-4oを上回る結果を示しているだけでなく、革新的なコンピュータの使用機能(Computer Use)や分析ツール(analysis tool)などの新機能も搭載しています。さらに、200Kのコンテキスト長を持ち、より大規模なデータ処理にも対応可能です。以下でClaudeの最新アップデートの詳細について詳しく伝えます。
また、従来のClaudeの性能評価については以下をご覧ください。
https://allai.jp/claude-3-5-sonnet/
Claude 3.5 Sonnet: GPT-4oを超えた業界最高水準のパフォーマンスを誇るLLM
まず、アップデートされたClaude 3.5 Sonnetの性能について説明します。Claude 3.5 Sonnet Newでは、従来のモデルと比較して、特にMath性能が71.1%から78.3%、コーディング性能が33.4%から49.0%に向上し、数学やコーディング、視覚情報処理において大幅な進化を遂げました。さらに、Chat GPT-4oと比較しても、GQA(Graduate-level Question Answering)など6つの主要分野すべてでClaude 3.5 Sonnetが上回る性能を示しており、非常に高い性能を発揮しています。
また、GPT-4oやGemini Proなどの他の主要モデルと比較すると、9つの評価分野のうち8分野でClaude 3.5 Sonnetが最も優れた性能を示しており、現行の大規模言語モデル(LLM)の中でも最高レベルの性能を誇ることが分かります。
Claude 3.5 Haiku:コストと速度を両立するAIモデル
次にClaude 3.5 Haikuについて説明します。Claude Haikuは、低コストと高速処理に特化したモデルであり、従来のモデルと比較しても大幅に成長しています。特に、GPT-4o miniと比較した場合、GQAやコーディング性能などの3つの評価分野のうち2つでHaikuが上回る結果を示しており、優れたコストパフォーマンスと実行速度を兼ね備えています。
このように、Claude 3.5シリーズは他社のLLMと比較しても非常に優れた性能を持ち、特にコーディング性能やGQAといった一般常識推論、そして画像認識において突出しています。
出典:https://www.anthropic.com/news/3-5-models-and-computer-use
AIがPCを操作する?Computer Use 機能の可能性と使い方
Claude 3.5モデルには、最新の機能であるComputer Useが搭載されています。この機能により、AIが画面を認識し、カーソルを操作したり、ボタンをクリックしたり、テキストを入力するなど、人間と同じようにコンピュータを使用することが可能になります。このAPIを使用することで、開発者はClaudeに特定の指示(例:「オンラインのデータを使ってこのフォームに入力してください」)を与え、その指示がコンピュータ操作(例:スプレッドシートの確認、Webブラウザの操作、Webページからのデータ抽出など)に変換される仕組みが構築されています。
このComputer Use機能は、特に複雑な操作や繰り返しの多い作業をAIが代行することで、業務効率化に寄与します。たとえば、データ入力やウェブページのナビゲーション、アプリケーションの操作などが自動化されるため、ユーザーはより重要なタスクに集中できます。
この機能は現在パブリックベータ版として提供されており、フィードバックをもとに今後さらに改善される予定です。なお、APIを使用するためにはAnthropic社のAPIキーを取得する必要があります。具体的なユースケースや実装方法については、今後の記事で詳しく解説しますのでご期待ください。
課題と今後の展望
現時点でのClaudeのコンピュータ操作能力はまだ発展途上です。たとえば、スクロールやドラッグ、ズームなどの基本的な操作は、人間にとって簡単ですが、Claudeにとってはまだ課題があります。また、機密情報へのアクセスについても、AIが自動的に操作することでセキュリティ上のリスクが発生する可能性があるため、重要な判断は最終的に人間が行うことが推奨されます。
ユースケース
- データ入力の自動化
企業のバックオフィスでは、多くの時間がデータ入力に費やされています。例えば、販売管理システム(CRM)やエクセルスプレッドシートに手作業でデータを入力する作業は非効率です。Claude 3.5のComputer Use機能を使うことで、AIが自動的にスクリーン上の情報を取得し、必要なデータを正確に入力することができます。これにより、データの入力ミスを減らし、時間を大幅に短縮することができます。
例:「今年の営業利益をエクセルにまとめて」と指示すると、Claudeが必要な情報を収集し、自動でエクセルに入力します。
- ウェブブラウザ上でのタスク実行
カスタマーサポートでは、複数のウェブサイトを巡回し、顧客の情報を探す作業が日常的に行われます。例えば、顧客の過去の注文履歴やサポートリクエストを複数のシステムから収集する場合、AIがウェブブラウザを自動で操作してこれらの情報を探し出し、適切な場所にデータを入力・統合することができます
例:「Amazonでドライヤーをカートに入れてください」と指示すると、ClaudeがAmazonを開き、ドライヤーを検索し、自動でカートに追加します。これにより、検索や購入の手間を大幅に削減できます。
- プログラムの開発・デバッグ
開発者は、プログラムのコードを何度も書き直し、デバッグする必要があります。Claude 3.5 Sonnetは、コードエディタやIDE(統合開発環境)を自律的に操作して、プログラムを記述し、実行することができます。さらに、バグが発生した場合、AIがスクリーン上でエラーメッセージを確認し、修正を加え、再度プログラムを実行することでデバッグを完了することができます。特にコーディングタスクにおいて49.0%の成功率を記録しており、業界の他のモデルを上回る性能を発揮しています。
例:「Visual Studio Codeでアプリ開発を開き、エラーを修正して」といった指示により、Claudeが自動でアプリを開き、問題を解決します。
- フォームの自動入力
カスタマーサポートや営業部門では、しばしば顧客情報をフォームに入力する作業が必要です。この作業をAIが代行することで、複数の顧客データベースやスプレッドシートから必要な情報を自動的に収集し、正しいフォームに入力して提出することが可能です。これは、特に大量の顧客情報を扱う場合に大きなメリットとなります。
例:「パソコンから情報を取得し、メールのフォームに回答して送信してください」と指示すると、Claudeがメールを開き、必要な情報を収集してフォームを記入し、送信まで行います。
詳細は、以下のリンクで確認できます:
https://www.anthropic.com/news/developing-computer-use
分析ツールでデータ活用が変わる!Claude 3.5の分析力
Analysisツールを導入することで、ClaudeはJavaScriptコードを記述し、実行できるようになりました。これにより、データ処理やリアルタイム分析、分析結果の生成が可能となり、データから正確で検証可能な回答を得るための強力なツールとなります。Claudeは実際のデータアナリストのように機能し、単に抽象的な分析に頼るだけでなく、データのクリーニング、調査、分析を段階的に行い、結果に基づいた洞察を提供します。この「コードサンドボックス」機能により、より高度で体系的なデータ処理が可能です。
ユースケース
- ビジネスインテリジェンス:
- 企業はAnalysisツールを使用して市場データや顧客データを分析し、トレンドを把握できます。これにより、マーケティング戦略や製品開発においてデータに基づいた意思決定が可能になります。
例: 「顧客データのCSVを読み込んでマーケティング分析をして」と指示すれば、AIは色付きのグラフを生成し、Artifacts機能を使って詳細な分析を行います。
- 企業はAnalysisツールを使用して市場データや顧客データを分析し、トレンドを把握できます。これにより、マーケティング戦略や製品開発においてデータに基づいた意思決定が可能になります。
- 学術研究:
- 研究者はデータセットを用いて実験結果を検証したり、新たな知見を発見したりできます。AIによる自動データ処理により、複雑な計算や統計分析が迅速に行われます。
例: 「実験結果から相関関係を考察して」と指示すれば、Claudeはグラフや図を生成し、詳細なレポートを自動でまとめます。
- 研究者はデータセットを用いて実験結果を検証したり、新たな知見を発見したりできます。AIによる自動データ処理により、複雑な計算や統計分析が迅速に行われます。
- データ可視化:
- Analysisツールは、分析結果をグラフやチャートで視覚的に表現する機能も備えており、データの傾向を直感的に理解することができます。これにより、プレゼンテーションや報告書作成が簡単に行えます。
例: 「データを可視化して」と指示するだけで、入力データをさまざまなグラフ形式で表示し、考察が可能です。
- Analysisツールは、分析結果をグラフやチャートで視覚的に表現する機能も備えており、データの傾向を直感的に理解することができます。これにより、プレゼンテーションや報告書作成が簡単に行えます。
詳細な情報については、公式リンクをご覧ください:
https://www.anthropic.com/news/analysis-tool
API価格(2024年10月25日現在)
現在のAPI価格は以下の通りです。
- Claude 3.5 Sonnet:
- 入力トークン価格: $3 per million tokens
- 出力トークン価格: $15 per million tokens
- Claude 3.5 Haiku:
- 入力トークン価格: $0.25 per million tokens
- 出力トークン価格: $1.25 per million tokens
これらの価格は、ChatGPTのAPI価格と比較すると若干高めですが、Claude 3.5 SonnetとHaikuは業界最高水準の性能を提供しています。特に、複雑なコーディングや高度な分析を必要とするタスクには、価格に見合うだけの価値があります。どちらのモデルを選ぶかは、ユーザーのユースケースや予算によって異なるでしょう。
ChatGPTに関する詳細な記事については、以下のリンクをご覧ください。
まとめ
- Claude 3.5 Sonnet: 業界最高性能を誇るLLMが発表。
- Claude 3.5 Haiku: GPT-4o miniを凌駕する軽量かつ高速なモデル。
- Computer Use機能により、インターフェースを超えて全自動化が可能に。
- Analysis Toolで、Artifactsを利用したグラフや図の自動生成・分析が可能。
今回のアップデートでは、従来の性能を大幅に超えた革新的な機能が追加され、ChatGPTの最高性能をも超えるLLMが登場しました。これからは、AIを適切に使い分けることが重要な時代に入っています。
今後、Claudeの最新機能の詳細や、実際に使ってみた結果、さらにはChatGPTとの比較に関する記事も順次公開予定です。ぜひチェックしてください!
参考文献
- https://openai.com/api/pricing/
- https://www.anthropic.com/pricing
- https://www.anthropic.com/news/developing-computer-use