開発担当必見!データ不足でもAI開発を成功させるには

AIブームから数年が経ち、AIがビジネスに実装されるようになりました。しかし、このようなケースは限定的であり、導入が進んでいない企業の方が多いのが現状です。その理由に学習用データの確保が起因していることが多いのです。独立行政法人情報処理推進機構(2018「AI社会実装推進調査報告書 ) 」によると、「学習データの整備が困難である」と回答した企業が19.3%、「学習データを保有・蓄積していない」と回答した企業は18.5%と学習データの確保に課題を抱えている企業が多いことが分かります。けれども、質の高いアウトプットを行うAIを構築するには高品質なデータが欠かせません。大量のデータが必要となるのは当然ですが、重複したデータや誤ったデータ、無関係なデータをほんの少し使用しただけで、思うような結果を得られなくなるのです。ところが、高品質で偏りのないデータを大量に用意するには莫大な費用と時間がかかるため、大量のデータを保有していても活用できていない企業が多いのです。そこで今回はAI開発で学習データの確保に困ったときの解決策をいくつか紹介したいと思います。

なぜデータが不足するのか

学習データが不足する原因は主に3つあるといわれています。 一つ目は企業がAI開発をよく理解していないこと、二つ目はデータの収集やラベル付けが難しいこと、三つめは企業の保守的なデータ管理にあります。では、ここからこれらの解決方法をそれぞれ紹介したいと思います。

AI開発をよく理解していない

AI開発においてデータが不足する企業の多くは、AI開発およびAI自体をよく理解していないことが多いです。例えば、どのようなデータが必要なのか理解していなかったり、必要なデータ量やデータ収集にかかる時間を低く見積もっている場合があります。高品質なデータを用意するためには、まず高品質なデータが何なのかを理解する必要があり、そのためにはAI自体をよく理解しておかなければなりません。弊サイトでは、AIに関する情報をわかりやすく解説しておりますのでぜひ参考にしてみてください。

*AIについて詳しく知りたい方は、↓の参考記事をご参照ください。

データの収集やラベル付けが難しい

アルゴリズムの中には、構築するのが難しい特殊なデータセットが必要となるものがあります。対策としては転移学習という手法があげられます。これは学習済みのモデルを他のAIモデルに転用することによりデータ収集の手間を大幅に削減してくれます。また、学習データへのラベリングのような作業は膨大な人手と時間を要するため、開発のネックとなることがあります。この解決策となるのが、アノテーションサービスです。学習データへのラベリング、アノテーションを外注することにより、リソースやノウハウがなくても高品質かつ低コストでアノテーションを行うことができます。

*アノテーションについて詳しく知りたい方は、↓の参考記事をご参照ください。

保守的なデータ管理

情報機密性の観点からデータの取り扱いには様々な制約があり、他社だけでなく他部署・チームのデータさえ利用できないというケースが多いのです。この解決策として注目されているのが、秘密分散学習です。秘密分散学習とはデータの秘匿性を保持したまま処理が可能な手法です。人間はデータの内容を確認することができず、出力結果のみを確認できるので、他社や他部署のデータであっても使用することが可能になります。

データの集め方

上述したようなデータ確保の方法以外にもデータを手に入れる手段はあります。

オープンデータ

オープンデータとは二次利用が可能な無償のデータのことです。各国政府が積極的にオープンデータの公開を推進しており、豊富なデータをカタログサイトから手に入れることができます。ただ、著作権やプライバシー権の問題で利用が制限される場合もあるので注意が必要です。

データ購入

データセットを有料で販売している企業があるので、そのような所からデータを手に入れるのも一つの手です。

スクレイピング

上記の方法でも必要なデータが手に入らないときにはスクレイピングという手法も考えられます。スクレイピングとはウェブサイトからデータ収集することです。ただし、やり方によってはウェブサイトのサーバーに負荷がかかり、違法となる場合があるので注意が必要です。

合成データ

合成データ(シンセティックデータ)とは現実世界から集められた「本物」のデータとは異なり、AI(GANなど)により人工的に生成された「偽」のデータのことです。偽のデータではありますが、実際のデータを基にAIが作り出したデータなので、統計的にはなんら問題なく、教師データとして使うことができます。少量のデータから大量のデータを生み出すことができるので注目を集めています。

*合成データ(シンセティックデータ)について詳しく知りたい方は、↓の参考記事をご参照ください。

紙のデータを活用するには

データは十分にあるがデジタル化されていないというケースも見られます。紙のデータを複合機でスキャンしてもAIが判読できるデータとして使うことはできません。しかし、手動で紙のデータをパソコンに打ち込んでいては膨大な時間と費用を要することになります。このような時に役に立つのがOCRサービスです。OCRとは画像データのテキスト部分を認識し、文字データに変換する機能のことをいいます。紙データを電子化することにより、AI]が判読できるデータに加工するのが大幅に楽になります。

*OCRについて詳しく知りたい方は、↓の参考記事をご参照ください。

まとめ

ここまで紹介したデータ不足を解決する方法の中で貴社にマッチする方法を選択、時には組み合わせていくことが大切だと言えます。