教師なし学習とは

教師なし学習は機械学習の一つです。機械学習とは、人間の学習の仕組みを模したモデルであり、機械が自らデータの中から規則性や特徴を学習し、それを新たなデータに当てはめることにより、予測や識別を行うものです。 教師なし学習は、前述した「機械が自らデータの中から規則性や特徴を学習」するという過程において、データに正解ラベルを付ける作業の必要がない学習法です。

機械学習には、教師なし学習以外にも、教師あり学習と強化学習という手法が存在します。これらの関係を整理したのが下の図です。

教師あり学習・強化学習とのちがい

教師なし学習を理解するためには、教師あり学習とセットで考えることが重要となります。

まず、教師あり学習は、データに正解のラベルを付して学習させます。例えば、果物の中からリンゴを見つけるAIを作る際には、果物の画像1つ1つに、「これはリンゴである」、「これはリンゴではない」というラベルを付し、学習させていきます。このように教師あり学習では、分類を行ったり、株価予測などの連続値データの予測(回帰といいます。)を行うことが可能です。

一方、教師なし学習はデータにラベルを貼らずに学習させます。つまり、リンゴがリンゴであるという情報を与えずに学習させていきます。ゆえに、こうして作られたAIは、リンゴを見た際に「これはリンゴである」ということはわかりませんが、ほかの果物と識別することはできます。ただ、上述した分類や回帰といった用途では使うことができません。

また、強化学習との違いは、使用するデータそのものにあります。教師なし学習では、データを人間が用意する必要がありますが、強化学習においては、AIがトライ&エラーを繰り返すこと自体が学習データとなり、その行動に報酬を与えるというプロセスを繰り返すことで、何が良い行動なのかを学習させていきます。

*強化学習について詳しく知りたい方は、↓の参考記事をご参照ください。

教師なし学習の用途

教師なし学習はどのような用途で使われているのでしょうか。主な用途としては、「クラスタリング」や「次元削減」、「敵対的生成ネットワーク(GAN)」が挙げられます。

クラスタリング

クラスタリングとは、最近流行りのクラスターという言葉の派生語で、集まりを意味します。その言葉の通り、様々なものの中から似ているもの同士を集まりに分けることができます。

「クラスタリングは教師あり学習における分類と何がちがうのか」と疑問に思う方も多いでしょう。具体例を用いて説明します。

例えば、果物を識別するという作業の際に、分類では「これはリンゴである」、「これはミカンである」という風に学習していきますが、もしブドウにラベリングを行っていないと、このAIはブドウを認識することができません。

一方、クラスタリングでは、「リンゴのようなもの」、「ミカンのようなもの」、「ブドウのようなもの」という風に認識するため、ブドウも識別することが可能です。クラスタリングは、ラベリングの手間が省け、予想外の知見が得られるという魅力があります。

次元削減

次元削減とは、データの次元(説明変数の数)を減らすことにより、データの特徴を炙り出すという手法です。例えば、「年収・年齢・資産・負債額」という4次元のデータを削減し、「信用度」という新たな指標を抽出してローンの与信審査に活用したりします。

敵対的生成ネットワーク(GAN)

敵対的生成ネットワーク(Generative Adversarial Networks。以下、GAN)とは、データから特徴を学習することで、実在しないデータを生成する技術のことです。近年問題となっている「ディープフェイク」にもこの技術が利用されています。この技術を活用すれば、実在しない人の顔を生み出したり、手書きの絵をリアルに表現したりすることが可能です。

*敵対的生成ネットワーク(GAN)について詳しく知りたい方は、↓の参考記事をご参照ください。

ディープラーニングとの関係

ディープラーニングとは、ニューラルネットワークを多層に用いて行う機械学習のことで、教師あり学習、教師なし学習、強化学習のいずれにも活用することができます。ディープラーニングを活用すれば、より強力に学習と分析を行うことができます。一方で、ディープラーニングを使用するとAIがどのようにして結論を導き出したということがわからない「ブラックボックス問題」が発生する可能性があります。

まとめ

教師なし学習のメリットをまとめると、ラベリングの必要がない、想像もしていなかった知見が得られる、正解と不正解が不明瞭な場合でも効果を発揮する、存在しないデータを新たに生み出すという4つがあります。