近年、OpenAIのo3‐miniやDeepseekなど、生成AIをはじめとした大規模言語モデル(LLM)の性能は飛躍的に向上し、その活用が急速に普及しています。しかしその一方で、社内データや最新ニュースなど、学習済みデータに含まれていない情報に対してLLMに質問しても、誤った回答が返される「ハルシネーション問題」が顕在化しています。
そこで、LLMとWeb上の情報を連携することで、LLMに知らない情報を自動的にリサーチさせる手法が生み出されました。しかし、Web上には信頼性にばらつきがあり、正確なデータが得られない場合も多く、さらにハルシネーションが発生する原因となっていました。
DataGemmaとは? ーGoogleによるハルシネーション問題の解決ー
こうした背景を受け、正確な情報を確実に回答できるようにハルシネーションを抑制する取り組みとして、GoogleはDataGemmaを発表しました。DataGemmaは、信頼性の高い公的データが集約されたData Commonsというオープンデータプラットフォームから情報を収集し、最新かつ正確なデータに基づいた回答を生成する仕組みです。さらに、2025年2月2日には最新のGemini AIが搭載され、DataGemmaの性能が一層向上しました。今回は、信頼性の高いAIとしてDataGemmaの内部仕組みやその使用方法について解説します。
Data Commonsとは? ー信頼できるオープンデータプラットフォームー
Data Commonsは、Googleによるオープンソースデータプラットフォームであり、国連やWHO、各国政府機関といった信頼性の高い公的機関が提供する最新かつ正確なデータプラットフォームです。これにより、従来のWeb上の情報を参照する際の真偽不明なデータ取り込みといった問題がなく、統計データやファクトに基づいた正確な情報を解答することができます。
LLMからData Commonsというデータプラットフォームにアクセスするために、RIGとRAGという二つの外部データアクセス手法を用いています。これにより、自然言語によるAIデータ活用が可能になり、ハルシネーションを削減しています。さらに、DataGemmaはApache2.0ライセンスの下でオープンソースとして公開されているため、誰でも無料で利用でき、さらに商用利用も可能な点が大きな魅力となっています。
RIG・RAGによるデータプラットフォームアクセス
LLMとデータプラットフォームをつなげるデータ活用の手法である外部アクセスのRAG、RIGについて説明していきます。
まず、通常のLLM(AI)の場合、「世界の再生可能エネルギーの利用は増えていますか?」という問いに対し、LLMは外部情報に頼らず自らの学習データだけに基づいて回答するため、回答に根拠となるデータや出典が示されません。そのため、ハルシネーションといった嘘の情報を解答してしまうことがあります。
一方、DataGemmaのRIG(Retrieval Interleaved Generation、検索交互生成)モデルでは、(基盤はオープンソースモデルGemma2)応答生成の過程でData Commonsに逐次問い合わせしていきます。例えば、「世界の再生可能エネルギーの利用は増えていますか?」という質問に対して、まずLLMが初期回答を生成します。(例:はい、世界の再生可能エネルギーの利用は著しく増加しています。)初期回答の根拠を確認するために、データプラットフォームであるData Commonsに質問を送信します。(例: 世界のエネルギーに占める再生可能エネルギーの割合は?)そして、初期回答と取得したデータを組み込み、解答の信頼性を強化しています。(例:はい、世界では再生可能エネルギーの利用が大幅に増加しています。再生可能エネルギーは現在、世界のエネルギー消費の12.5%を占めており、2000年の6.5%から増加しています。)
このプロセスにより、DataGemmaは回答生成中にData Commonsに問い合わせを行い、逐次的な裏付け、根拠の確認を実施することで、正確な数値や統計情報に基づいた回答を提供できるようになります。最初のLLMの初期回答により、必要な情報に的を絞ってデータを取得するため、計算コストを抑えられる点が特徴です。しかし、もし初期回答自体が誤っていると、Data Commonsに正確な問い合わせができず、全体の精度が低下する可能性もあります。
また、RAG(Retrieval Augmented Generation、検索拡張生成)では、ユーザーの質問に先立ってData Commonsへ問い合わせを行います。ユーザーの質問を分析して多角的に幅広い検索を送信します。(例:世界の国々の再生可能エネルギー消費量は?、世界の国々の再生可能エネルギー消費量は時間とともにどのように変化してきたか?)といった。そして、取得された情報をGemini1.5 ProのAPIを通じて統合し、最終的な回答を生成します。つまり、RAGはユーザーの質問に対して回答を生成する前に、必要な情報を外部データソースから事前に入手し、解答を生成します。これにより、テキストだけでなく、図や表としての可視化が可能となる点が魅力です。(例:世界の最終エネルギー消費における再生可能エネルギーのシェアは、2000年には18.7%でした(表3参照)。このシェアは2021年には18.67%となり(表3参照)、2000年よりもわずかに高い数値です。したがって、世界では再生可能エネルギーの利用が増加しています。)ユーザーの質問を分析し、事前に十分なデータを取得するため、詳細な回答ができる一方、データの収集範囲が広いため、計算コストが高くなる場合があります。
企業データの未来:安全かつ効果的なAIデータ活用
DataGemmaは、信頼できる公的データを活用することで、LLMのハルシネーションを抑制する革新的な手法です。一方、企業においては、公的データだけでなく、自社の機密情報や独自の知財データを活用するニーズも高まっています。そのため、機密情報を安全に活用できるAIプラットフォームが求められています。
AI孔明は、各企業のデータプラットフォームとAIを統合し、セキュアな環境でAIを活用できるソリューションを提供します。近年のDeepseekをはじめとするAIは、入力されたデータを継続的に学習し、進化を続けています。しかし、企業の機密情報がAIに学習されるリスクを防ぐためには、安全なデータ活用基盤が不可欠です。
AI孔明は、機密情報を学習させることなく、安全にデータを活用できるAIプラットフォームです。データプラットフォームとAIを組み合わせ、企業の社内データや知財データを安全に管理・活用できる環境を提供します。機密情報を守りながらAIの力を最大限に活用できる未来を目指しています。セキュアなデータ活用でDXを加速しませんか?
お問い合わせはこちら:AI孔明 お問い合わせプラットフォーム
まとめ
DataGemmaは、RAG、RIGを用いてData Commonsを活用することで、LLMによる不確実な情報の生成を抑え、より正確な回答を提供します。これにより、企業の意思決定支援や研究機関のデータ分析など、信頼性の高い情報が求められる分野でのAI活用が可能になります。