GoogleやYahoo検索など、日常的によく使う検索ツールですが、年々性能が上がっている気がしませんか?名前を知らなかったり思い出せなかったりする音楽やお店や映画も、三つくらいのキーワードでスパっと検索できてしまった経験は、誰でも持っていると思います。
では、どうして今ほど検索エンジンの性能が上がってきたのでしょうか。
性能向上の秘密はAIテクノロジー
その秘密は、AIテクノロジーにあるのです。現在多くの人に使われている検索エンジンはほとんどが人工知能を活用しています。
例えばGoogle。Googleは「会話を求めるアルゴリズム」を検索の際の基盤にしています。具体的には
- セマンティック検索
- エンティティ検索
- RankBrain
というディープラーニングを活用した三つの検索アルゴリズムが軸となっています。それぞれについて詳しく見ていきましょう。
Googleが主軸とする検索アルゴリズム
セマンティック検索
まずはセマンティック検索から。そもそも「セマンティック」とは、一般的に「意味」や「意味論」に関することを指す語で、IT界ではコンピューターに情報の「意味」を解釈させることを表します。
つまりセマンティック検索は、文脈上の意味を通して、検索者の意図を理解するアルゴリズムです。概念(メタデータ)の一致や類義語によって意味を関連付け、検索結果として提示します。セマンティック検索を利用すると、検索者の意図を深く理解し、パーソラナイズされた結果を表示できるようになります。
エンティティ検索
セマンティック検索と並ぶ代表的なアルゴリズムのもう一つがエンティティ検索です。「エンティティ」とは存在、実体を指す語で、一つの物事を表すひとまとまりのデータの集合を意味します。
つまりエンティティ検索は、検索者の関心物に関するデータをあらかじめまとめ、ラベル付けを行い、構造化しておく検索システムです。検索されたワードが分類されているカテゴリーに関連した結果が表示されるようになります。
RankBrain
RankBrainは入力した語句とコンテンツとの関連性を判断し、Webページにランク付けAIベースの検索アルゴリズムです。コンピューターが自然言語を自動的に理解できるようにしたもので、類似性のある単語を含めて人工知能が解釈し、関連性の高い検索結果を返すのが特徴です。Googleの検索エンジンにおいてもかなり重きが置かれているようです。
Googleは、「よりつながれた世界」、つまりより多くのデータが集まり、スパムが減り、ユーザーの意図に対する理解が深まり、自然言語による検索が拡大する環境を目指しています。世界のデータコンテンツを理解することで、よりよい検索結果を得られることにつながっていきます。
一方で、世界のデータは急激に増加しており、ビッグデータの対策が必要になっています。そうした中で、数々のビッグデータを処理するためには上記の検索アルゴリズムにAI技術を活用することが必須です。
AIを用いた今後の検索技術
AIベースのRankBrainに加え、セマンティック検索、エンティティ検索の中でAIを活用することで具体的にどういった効果があるのでしょうか。
エンティティ検索にAIを用いることで、毎日処理される膨大なデータをエンティティとして分類することができます。さらにそうして構造化されたデータを、セマンティック検索により意味を解釈して関連付けることができます。
2020年10月には、Googleが検索エンジンに多数の機能を追加したことを発表しています。その多くはAIに重点を置いていて、新たなアルゴリズムを利用しているものが多いです。具体的には下記のとおりです。
Google検索には、スペルミスを検知し自動的に修正する「もしかして」の機能がありますが、上記のアップデートにおいてAIと深層ニューラルネットワークによるアルゴリズムでこの機能をアップデートしています。また画像認識と自然言語理解テクノロジーを利用してビデオ形式で提供されるコンテンツに関する質問にも回答することができたり、Googleレンズで本の写真の一部分をどんな言語で書かれていても読み上げることが可能となりました。
このように、Google検索はディープラーニングを活用することで世界の膨大なデータを処理し検索の精度を上げるだけではなく、音声理解や画像認識などの技術を用いてテキストにとらわれない幅広い手段による検索を可能としてきました。
まとめ
今回は検索エンジンとして世界で最も高いシェアを誇るGoogleの検索システムにフォーカスしましたが、一般的に検索アルゴリズムは上で説明した「セマンティック検索」「エンティティ検索」の構造を用いており、人工知能の活用が必須であることが分かったのではないでしょうか。今後のより高い検索精度だけでなく、さらなる便利な機能の登場に期待です。