ディープラーニングの始まりにおいてお話をしたように、一番最初に利用されたのは画像認識の分野でした。画像認識とは、画像や動画から、その画像が何を意味するのかを理解できるように処理を行う技術です。
2012年の画像認識コンテスト「ILSVRC」では、カナダのトロント大学では、圧倒的な強さで認識エラー率を16%にまでなったことがニュースとなりましたが、2015年には5%以下となり、人間の認識性能は5.1%と言われており、人間を超える段階までとなりました。
そして、AIによる画像認識においてできる分野にも進化の過程がありました。
1、画像分類
まず最初に実現されたのが、画像分類です。
画像分類とは、予め与えられた画像がどこのカテゴリーに属するのかを識別する技術です。
工場においては、不良品の選別などにも使われています。
2、物体検出
次に実現されたのが、物体検出です。
物体検出では、画像中に存在する物体を判別し、その位置を認識します。
自動運転では不可欠な、歩行者や車の位置を正確に認識して、操作を行うことができるようになります。
以下の例は、YOLO(You Only Look Onve)と呼ばれるアルゴリズムによる物体の検出例です。
出典)YOLO
https://pjreddie.com/darknet/yolov1/
3、自然言語生成
さらに新たな応用として、画像にあわせてその画像が何の意味を持つのか説明をする自然言語を生成することもできるようになっています。
ディープラーニングの基本技術となっているのはニューラルネットワークであるとお話をしましたが、画像認識用のニューラルネットワークであるCNN(Convolutional Neural network)により、画像の特徴を抽出します。そして、自然言語処理に利用されるニューラルネットワークであるRNN(recurrent Neural Network)を使うことで、説明文を自動生成することができます。
こうした連携を行うことで、様々なサービスへの展開を図ることができるようになります。
著しい進化を遂げており、特に自動運転の分野での活用が期待をされています。
allAi.jpでは画像分野での情報も発信してまいりますのでよろしくお願いいたします。