LaMDA:人工知能との会話をもっと自然に

この記事ではGoogleが2021年に発表したLaMDAを紹介していきます。

【GoogleのLaMDAとは】

LaMDA(Language Models for Dialog Applications)は2021年にGoogleが開発した大規模言語モデル(LLM)であり、対話型の自然言語処理モデルです。LaMDAには後継のモデルLaMDA2があります。LaMDAは、2023年3月21日にアメリカとイギリスで一般公開された「Bard」の初期モデルとして使用されました。

 

【開発の目的】

LaMDAは日本語では「対話アプリケーション用言語モデル」と表現することができます。つまり、LaMDAの開発目的は対話に特化した言語モデルを生成するためであると考えられます。技術レポートではLaMDAの性能を評価する指標をいくつか定めています。はじめにその指標を紹介します。

 

◎Quality(品質)

これはさらに3つの指標の平均から算出されるとしています。

  1. Sensibleness     :返答が文脈に即しているか、および、以前に述べた内容と矛盾しないか
  2. Specificity        :与えられた文脈に対して具体的な返答になっているか
  3. Interestingness :好奇心をそそるような興味深い内容になっているか→クラウドワーカーが0または1で判断する

 

◎Safety(安全性)

Google’s AI Principles(Google AI原則)に基づいて、害を生んだり、不公平な偏見を生み出したり、あるいは強めたりしうる結果を避けるようになっているかを判断する指標です。

 

◎Groundedness(造語的に訳すと、根拠的)

その時点で可能な限り、既知の情報源に基づいて返答を生成しているか、という指標です。また、この根拠の裏付けのために2つの指標を導入しています。

  1. Informativeness:「情報量」;全回答に占める、既知の情報源によって裏付けられる外界に関する情報を持つ回答の割合
  2. Citing Accuracy:「引用の正確性」;よく知られた事実(「馬には4本の足がある」など)に関する主張を除いた、外界に関する明示的な主張を含むすべての回答に占める、出典のURLを引用したモデル回答の割合

大きく分けて、Quality、Safety、Groundednessの3つを導入しましたが、これでは対話に特化したモデルの性能を評価する指標としては不十分であるため、さらに2つの指標を導入します。

  1. Helpfulness(有用性):モデルの応答が、ユーザーが情報検索システムで独自に調査した正しい情報を含んでおり、ユーザーが役に立ったと考える場合に、役に立ったと評価される。
  2. Role Consistency(役割の一貫性):LaMDAの演じている役割が、その役割やキャラクターと合っているか、という一貫性のこと。これは過去の対話との一貫性のことではないことに注意。

以上の指標を用いて、LaMDAの性能を評価しました。

 

【学習方法】

以前のLLMと同様に、モデルの学習は「事前学習」「ファインチューニング」の2段階で行われます。

 

◎事前学習

これまでの対話特化型言語モデルは、対話データだけで事前学習をしていましたが、LaMDAは対話データに加えて公的な文書も用いて事前学習をしました。事前学習に用いたデータは次の通りです。

29億7000万の文書、11.2億の対話データ、113.9億の発話による対話データの、合計で1.56兆の単語からなるデータセット。

 

◎ファインチューニング

ここでは、2段階に分けてファインチューニングをしています。

はじめに、QualityとSafetyを高めるように調整します。具体性や安全性を保って会話をすることができるようになります。しかし、これでは事前学習で得た情報からの回答を作成するだけで、最新の情報を取り込んで回答することができません。例えば、有名人の年齢などは時間とともに変化しますから、その都度新しい情報を取り込む必要があるのです。そこで、外部の情報やツールセットを参照したGroundednessのファインチューニングを行います。

 

【性能の評価】

[出典:LaMDA: Language Models for Dialog Applications;https://arxiv.org/pdf/2201.08239v1.pdf

論文のFigure4に示されるように、PT(事前学習済みモデル)とLaMDA(ファインチューニング済みモデル)を比較すると、LaMDAの方がより高い性能を持つことがわかります。また、図の”Human”はこの実験に参加したクラウドワーカーのうち、情報検索ツールを利用できる人で、”Human w/o IR”は情報検索ツールを利用できないクラウドワーカーのことを指します。総じて、モデルサイズが大きくなるほど、性能が向上することが確認できます。

 

【LaMDAの特徴】

LaMDAの特徴はやはり、人間のように自然な会話ができる点でしょう。事前学習の段階で対話データを用いているため、単に質問に対応するだけではなく、機知に富んだ返答をしてくれるのがLaMDAの強みです。この特徴を活かして、対話型AIサービスであるGoogleの「Bard」の基盤モデルとして使われました。

また、LaMDAの後継モデルであるLaMDA2は2022年5月11日に公開されました。具体的にどこが改善したかについては言及されていませんが、LaMDAと同様に人間とのスムーズな会話ができるところは変わっていません。一方で、不適切あるいは暴力的な内容の返答をしてしまうというエラーは残っていました。

 

【まとめ】

この記事ではLaMDAについて紹介しました。要点をまとめると次のようになります。

  • LaMDAは対話型アプリケーション用言語モデルであり、GoogleのBardの基盤モデルとしても利用された。
  • LaMDAは多くの対話データと公的文書で事前学習しており、さらにファインチューニングをすることで、多くの指標でモデルの性能の向上が認められた。
  • 外部の情報を参照するというファインチューニングによって、事前学習データだけでは答えられなかった質問にも対応できるようになった。
  • 後継モデルであるLaMDA2でも不適切な内容を書くというエラーが確認されている。

 

【参考文献】

LaMDA: Language Models for Dialog Applications