AIにおける画像認識

本記事では、AIにおける画像認識についてご紹介します。画像認識とは、画像や動画から、その画像が何を意味しているのかを理解できるように処理する技術です。

画像認識の身近な活用事例としては、スマートフォンや店舗先での顔認証システムが挙げられます。顔認証システムは、検出された顔から特徴量を抽出し、あらかじめ登録された顔画像から該当するものを検索し、照合します。

このように、今や私たちの生活にも浸透し始めている画像認識ですが、その歴史や仕組みについてはあまり知られていないのではないでしょうか。

本記事では、AIにおける画像認識の歴史や仕組み、活用事例などについてご説明しています。

*AIについて詳しく知りたい方は、↓の参考記事をご参照ください。

画像認識の歴史

画像認識の歴史は意外と古く、その研究が始まったのは1960年代からと言われています。ただ、AIによる画像認識が注目され始めたのは、2012年頃にディープラーニングが登場してからです。

*ディープラーニングについて詳しく知りたい方は、↓の参考記事をご参照ください。

特に、 GoogleのAIが数千枚の画像の中から猫を認識できたことと、 画像認識コンテスト「ILSVRC」にて、カナダのトロント大学がディープラーニング技術を用いて認識エラー率16%という圧倒的な結果を出したことがきっかけとなりました。

後者については、年を重ねるごとに加速度的に精度が向上しており、2017年にはエラー率2.3%という驚異的な数字を記録しています。一般的に人間の画像認識エラー率は約5.1%とされており、既に画像認識分野ではAIが人間を上回っていると言えます。

画像認識の仕組み

AIによる画像認識は、主に「画像処理・抽出」⇒「物体認識」という流れで行われます。

まず「画像処理・抽出」のプロセスでは、対象物の画像データを取得したのち、画像のノイズを除去したり対象とする物体とそれ以外の背景とを分離させたりすることによって、対象物を機械的に読み取りやすい状態にします。

そして、次の「物体認識」のプロセスで、対象物が何に当たるのかを認識します。

通常の機械学習の場合、対象物が何であるかをAIが認識するためには、あらかじめ用意されたデータの中から人間が特徴量を設定する必要があります。

*機械学習について詳しく知りたい方は、↓の参考記事をご参照ください。

これに対してディープラーニングの場合は、人間が特徴量を設定しなくても、AIが学習する中で自ら特徴量を抽出し、物体を認識できるようになります。

また、ディープラーニングを基にしたAIによる画像認識では、以下の二つの仕組みを用いて大量のデータ解析を行っており、数を重ねるごとに精度の高い画像認識を行うことが可能となっています。

1. 畳み込みニューラルネットワーク(CNN)

畳み込みニューラルネットワーク(Convolutional Neural Network、通称:CNN)は、ニューラルネットワークの中間層において、畳み込み層と呼ばれる特徴検出の分野とプーリング層と呼ばれる圧縮分野を文字通り畳み込む(交互に構成する)ことでデータを情報化する仕組みです。

2. 敵対的生成ネットワーク(GAN)

敵対的生成ネットワーク(Generative Adversarial Network、通称:GAN)は、偽物の画像を作るニューラルネットワークとそれを検出するニューラルネットワークで構成されており、それらを競い合わせることによって画像認識の精度を向上させる仕組みです。

*敵対的生成ネットワークについて詳しく知りたい方は、↓の参考記事をご参照ください。

画像認識の種類

AIによる画像認識と一口に言っても、実際には様々な種類が存在します。

1. 画像分類

まず、AIによる画像認識のうち、最も基礎的な技術として挙げられるのが「画像分類」です。画像分類とは、蓄積された過去のデータを基に、物体がもつ様々な特徴からその物体が何であるかを導き出すプロセスのことを指します。

例えば、何らかの画像自体もしくは画像中の物体が猫なのか犬なのか、はたまた兎なのか、といったカテゴリ分けをする工程です。画像分類は、工場における不良品の選別などに使用されています。

2. 物体検出

次に、実現されたのが「物体検出」です。物体検出では、先述した画像分類の技術を基に、画像中に存在する物体を判別し、その位置までを認識します

例えば、自動運転において不可欠な、歩行者や車の位置の認識のために使用されています。

以下は、YOLO(You Only Look Once)と呼ばれるアルゴリズムによる物体の検出例です。

出典:YOLO( https://pjreddie.com/darknet/yolov1/)

3. 自然言語生成

さらに新たな応用として、画像に合わせてその画像が何の意味を持つのかを説明をする自然言語を生成できるようになりました。

ディープラーニングの基本技術となっているのはニューラルネットワークですが、画像認識用のニューラルネットワークであるCNNによって画像の特徴を抽出し、さらに自然言語処理に利用されるニューラルネットワークである回帰型ニューラルネットワーク(Recurrent Neural Network、通称:RNN)を使うことで、その画像に対する説明文を自動作成することができます。

画像認識の活用事例

1. 製造業における不良品検知

先述したように、工場における不良品検知では画像認識が活用されています。具体的には、画像分類の技術を用いて、良品と比べて異なる特徴量を持つ製品を検出し、不良品を認識します。

2. 自動運転

近年注目されている自動運転については、その中で最も重要とされるプロセス“認知”の部分でディープラーニングによる画像認識が活用されています。具体的には、標識や障害物、歩行者がどこにいるかを認識する物体検出の技術が用いられています。

3. がん細胞の検出

がん細胞の検出については、ディープラーニングを基にした画像認識技術が活用されています。具体的には、通常の細胞とがん細胞に関する大量のデータを解析し、通常の細胞と比べて異なる特徴を持つ細胞を検出し、がん細胞を認識します。

まとめ

今回はAIによる画像認識についてご紹介しました。2012年のディープラーニングの登場により最初に技術が確立された画像認識は、自動運転や犯罪防止、無人店舗など、将来的に様々な分野で活用できると期待されています。今後もAIによる画像認識の動向に注目しましょう。