シンセティックデータ(合成データ)とは

シンセティックデータ(合成データ)とは、現実の事例から収集された「本物」のデータとは異なり、AI(GANなど)により人工的に生成された「偽」のデータのことを指します。

偽のデータとはいえ、シンセティックデータは実際のデータに基づいて生成されるため、統計的には同じであり、実際のデータを使って学習させた場合と同じクオリティの結論を得ることができると言われています。

*GANについて詳しく知りたい方は、↓の参考記事をご参照ください。

メリット

シンセティックデータの活用には、以下の3つのメリットがあります。

1.プライバシー侵害の回避

現実のデータを収集・活用するためには、暗号化や匿名化を行い、プライバシーを保護する必要があります。しかし、暗号化や匿名化には、これらよってデータが歪み、機械学習に悪影響を及ぼすリスクがあります。

そこで、シンセティックデータを活用すれば、データの構造や特性を維持したままプライバシーを保護することができます。ゆえに、プライバシー性が高いために使用不可能であったり、使用するにしても膨大な申請が必要となるデータについても、シンセティックデータに置き換えることで、活用の途が広がります。

2.取得コストの削減

既存のデータでは得られない特定の条件を満たすデータを作り出すことができる点もメリットの一つとして挙げられます。例えば、自動運転車の場合、事故などの特殊な条件のデータを実際に入手するには大きなコストがかかりますが、シンセティックデータを活用すれば、そのコストを抑えることができます。

3.開発時間の短縮

シンセティックデータを使用することにより、機械学習/深層学習モデルの開発を高速化することができます。通常であれば、AIに学習させるための十分な量のデータを準備するのに数週間以上かかってしまうことも珍しくはありません。しかし、シンセティックデータを活用すれば、その時間を大幅に短縮することが可能となります。

シンセティックデータの未来

特に日本においてはシンセティックデータの果たす役割は非常に大きなものとなるでしょう。なぜなら、日本ではAIの活用を見据えたデータ収集が遅れているためです。また、データの量だけでなく、質も不十分だと言われています。

一方で、欧米や中国の大企業は、10数年前から世界中で大規模にデータを収集しており、一朝一夕では追いつけない状況となっています。しかし、シンセティックデータを活用すれば、日本が追いつき、逆転することができるかもしれません。

さらに、シンセティックデータは、国単位ではなく、企業単位でもゲームチェンジャーになりえます。シンセティックデータを活用することにより、資金力や過去に積み上げてきたデータ量で大企業に劣るベンチャー企業でも、優れたAIの開発が可能となるためです。