今日世間にすっかり浸透した人工知能(AI)。実はAIの開発には、アノテーションという作業が不可欠です。この「アノテーション」という言葉自体は耳にしたことがあるかもしれませんが、その具体的な中身についてはよく分からないという方も多いかと思います。
本記事では、アノテーションとは何か、なぜアノテーションが重要なのか、またアノテーションの種類などについてわかりやすく解説します。
アノテーションとは
アノテーションとは、AIに学習させるデータにタグやメタデータと呼ばれる情報を付加することをいいます。例えば、犬の写真のデータに「これは犬である」というタグを付ける作業がこれに当たります。アノテーションは教師データの作成とも呼ばれ、AI開発においてAIの精度を左右する重要な役割を担っています。
AI開発におけるアノテーションの重要性
現在のAI開発の中核には、機械学習と呼ばれる技術があります。機械学習とは、人工知能のプログラムに大量のデータを学習させることで、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術です。
機械学習のうち、あらかじめ人間によって正解ラベルをつけられたデータ(教師データ)を用いて学習させることを「教師あり学習」と言います。教師あり学習に欠かせない教師データはアノテーションによって作成されるため、アノテーションはAI開発において重要な工程となるのです。
アノテーションの種類
アノテーションの種類には様々なものがありますが、その対象は主に「画像・映像」「テキスト」「音声」の3つに分類できます。以下ではこの分類に従って、アノテーションの具体的な内容をご説明します。
画像・映像
画像・映像のアノテーションには以下の4つの手法があります。
1. 物体検出を行うバウンディングボックスアノテーション
バウンディングボックスアノテーションとは、画像や映像に映っている物体の境界を長方形(バウンディングボックス)で囲んだうえで、その物体のカテゴリをタグ付けするという手法です。
バウンディングボックスアノテーションは二次元だけでなく三次元でも行われ、その場合はX座標・Y座標に加えてZ座標も物体の座標として登録されます。これによって画像・映像中の物体を検出し、分類します。
長方形単位で物体を検出するため、物体の検出や位置の精度は次に紹介するセマンティックセグメンテーションには劣りますが、その分アノテーションの作業コストや学習に要する時間を抑えられるため、コストパフォーマンスに優れた手法と言えます。
2. 領域抽出を行うセマンティックセグメンテーション
セマンティックセグメーションとは、特定の物体の領域をピクセル単位で抽出し、タグ付けを行う手法です。例えばドライブレコーダーの映像では、道路や標識、通行人、自動車、建物、白線のそれぞれの物体の領域をピクセル単位で塗分けたうえでタグ付けします。
物体の種類や位置だけでなく、領域まで精密に識別できるため、映っているものをすべて識別する必要がある自動運転や、細かい領域の識別が必要な製品の傷検出などで使用されます。
3. 画像を点により識別するランドマークアノテーション
ランドマークアノテーションとは、顔認識や人体・動植物の骨格検出、姿勢推定に利用されているアノテーションです。顔の目、鼻、口、眉、輪郭などのパーツを点で指定することで顔の表情や感情を特定できます。また、画像内の人物の関節などに点を振ることで姿勢推定を行うことも可能です。
4. 画像の分類
画像1枚に対してタグ付けを行う手法です。例えば猫の画像について、「猫かどうか」、「何色か」などのタグを付けます。この教師データをAIに学習させることによって、画像・映像を効率的に分類することが可能となり、また、映像から特定のシーンを検出することもできるようになります。
テキスト
テキストアノテーションとは、テキストデータを人が解釈して文章の全体もしくは一部分にタグ付けを行うことを言います。事前に決めた分類に従ってタグ付けを行うことで、ニュース記事をカテゴリ別に分類したり、膨大なデータの中から見込み顧客のデータのみを抽出したりできます。また、「嬉しい」といった感情を表す単語や攻撃的なキーワードにタグ付けをすることで、文章中の感情を分析したり、不適切なコンテンツを摘出したりするAIを開発することも可能となります。
音声
音声アノテーションでは、音声データにその音声をテキスト化したものを付与します。AIは、このアノテーション済みの音声データの学習や、正解テキストのついてない音声データをテキスト化する際に出た誤認識箇所の修正などを経て、音声認識機能を会得します。Siriなどの音声アシスタントやスマートスピーカー、コールセンターなどの業務での品質向上に用いられています。