RAGの二面性：便利な機能の裏に潜む、生成AIの落とし穴

１．はじめに

みなさんは「RAG」という技術をご存じでしょうか？「RAG」は、近年のChatGPTやPerplexity aiなどをはじめとした大規模言語モデル（LLM）と大きく関わる技術なのです。この記事ではRAGという技術と、それに関する興味深い研究論文をご紹介します。RAGの二面性を理解した上で、私たちは生成AIとどのように向き合っていく必要があるのかを考えていきたいと思います。

２．RAGとは？

みなさんが普段から利用しているLLMの多くは、最新の情報にアクセスして、それに沿った回答をしてくれます。例えば、ChatGPTに「明日の天気は？」と聞けば、従来の検索エンジンで得られるような根拠に基づく回答が返ってくるはずです。しかしながら、開発当初のLLMは、事前学習したデータに基づく回答しかできませんでした。このように、LLMの事前学習データに含まれないような内容にも答えられるようにした技術が、「RAG」なのです。

RAGとは、”Retrieval Augmented Generation”の略称であり、「検索結果を活用して、より正確で情報に富んだ文章を生成する技術」と言うことができます。これにより、事前学習データに含まれていない内容だけでなく、事前学習時から更新された最新情報などにもアクセスし、ユーザーの望む回答を生成できるようになりました。これは生成AIの大きな課題のひとつである「ハルシネーション（幻覚）」の対策としても注目されています。

３．RAGに関する興味深い研究の紹介

ここまではRAGの技術がハルシネーションの低減や最新情報の提供を可能にするなどの、RAGの強みを見てきました。その一方で、RAGによって取得した情報とLLMが事前学習した情報に乖離があったときには、モデルはどのように回答を生成しているのでしょうか。取得した情報が間違っている場合、モデルはその内容を無視できるのか、それとも誤りを出力してしまうのか、あるいは、モデルのはじめの回答が間違っていた場合、常に検索情報をもとに修正することができるのか、間違った回答に固執してしまうのか、という疑問が生じてくるでしょう。そんな疑問を解決しようと試みた研究がありますので、簡単にご紹介します。

3.1. 研究の概要と手法

【研究の概要】

はじめに研究の概要を紹介します。この研究ではある条件下での「事前学習情報」と「RAGによって取得した情報」の選好度を定量的に評価しています。ある条件とは、「モデルが間違っていて、取得した文脈が正しい」あるいは、「モデルが正しく、取得した文脈が間違っている」という条件です。このような条件を実現するために、６つの異なる分野の1294個の質問と回答のペアからなるデータセットを作成します。データセットには意図的に間違いを含んでおきます。これに対してモデルでテストを実施することで、事前学習情報あるいは文脈のどちらを選好するかという確率と、以下の２つの数値を測定します。

モデルの事前学習情報に対する確信度
取得した文脈が事実からどのくらい逸脱しているか

【研究の手法】

具体的なデータセットの内容としては、「薬の投与量」「ニュース」「スポーツの記録」「日付」「名称」「場所」という６つの分野に分かれています。さらに、これらの情報に体系的に誤りを仕組んでおきます。例えば、薬の投与量では、正解の値を0.1倍、0.2倍、0.4倍、0.8倍、1.2倍、1.5倍、2倍、3倍、5倍、10倍までの10パターンで修正します。名称や場所に関しては、「わずかに」「大幅に」「コミカルに」という３つの度合いで修正します。

3.2. 研究結果

【結果１】

文脈と事前学習情報のいずれかが正しいという条件下での各モデルの正確性、事前バイアス、文脈バイアスを測定しました。正確性は「正しい文脈のときには文脈に沿った回答をし、事前学習情報が正しいときには事前学習情報に沿った回答をする割合」です。また、事前バイアスとは、「文脈は正しいが事前学習情報に依った回答を生成すること」であり、文脈バイアスとは、「事前学習情報は正しいが文脈に依った回答を生成してしまうこと」を言います。この研究結果の主な特徴をまとめました。

GPT-3.5やLLaMA-3の正確性は約50％で、モデルの中で最も低い精度となった。
最も精度の高かったモデルはClaude Opusで、74.3％の正確性となった。
驚くべきことに、GPT-4oは約60％の精度で、文脈バイアスはGPT-3.5の2番目に高かった（文脈依存性が比較的高い）。
LLaMA-3は、文脈と事前学習情報のどちらにも依存しない回答を生成する確率が比較的高かった。

【結果２】

次に、文脈の変更度合いと文脈選好率の関係を見ていきます。全体的な特徴として「文脈の変更度合いと文脈選好率には負の相関がある」ということがわかりました（下図参照）。これは、文脈の内容が事実から離れるほど、モデルはその文脈を参照しにくくなるということです。しかし、負の相関の大きさはモデルごとに違いがありました。例えば、同程度の文脈の変更度合いに対して、GPT-4o はClaude Opusはよりも約30％高い割合で間違った文脈の方を選択してしまうことも報告されています。この実験でも、Claude Opusは文脈の変更に対して強い耐性を持っていることが確認されました。

[出典：ClashEval: Quantifying the tug-of-war between and LLM’s internal prior and external evidence；https://arxiv.org/pdf/2404.10198]

【結果３】

最後に文脈選好率と事前学習情報の確信度の関係を見ていきます。【結果２】と同様に全体的な特徴として、確信度と文脈選好率には負の相関が見られました（下図参照）。これは、事前学習情報に確信があればあるほど、間違った文脈を選択しにくくなるという傾向を表しています。

[出典：ClashEval: Quantifying the tug-of-war between and LLM’s internal prior and external evidence；https://arxiv.org/pdf/2404.10198]

3.3. 研究結果のまとめ

今回の研究を次のようにまとめることができます。

今回の研究手法では、RAGによる取得情報と事前学習情報に乖離があったときのモデルのふるまいを評価することができる。
GPT-4oのような最新のモデルであっても、強い文脈依存性があり、取得情報に間違いがあった場合の60％以上の割合で、事前学習情報を無視する傾向にある。
しかし、この割合は事実からの逸脱の度合いにより変化することも確認された。
文脈の変動幅が同じ状況でも、モデルによって間違った文脈の選好率は異なり、GPT-4oはClaude Opusよりも30％も高い確率で間違った文脈に従ってしまうことが確認された。

あくまで特定の条件下でも研究結果ではありますが、知識ベースのベンチマークで高い評価を受けていても、RAGの設定においても高性能なモデルとは限らないということが言えるのではないでしょうか。

４．まとめ

この記事では、RAGとその関連研究を１つご紹介しました。近年の大規模言語モデル（LLM）の急速な発展により、私たちの日常生活は大きく変わりつつあります。翻訳、文書作成、情報検索など、様々な場面でAIの恩恵を受けられるようになりました。この進化の背景には、Retrieval-Augmented Generation（RAG）技術の貢献が大きいと言えます。

その一方で、RAG技術の抱える課題も見えてきました。特に、事前学習された情報と新たに取得した情報との間の食い違いにより、誤った情報や矛盾した回答が生成されてしまうという課題があります。

今後、RAG技術の改善が必要であるだけでなく、LLMなどの生成AIを使用する私たちのリテラシーの向上がさらに重要になってくるでしょう。AIの出力を適切に評価・検証する能力が、AI時代を生きる私たちに求められているのではないでしょうか。

【参考文献】

Quantifying the tug-of-war between an LLM’s internal prior and external evidence

Tokkyo.Ai機能のご案内