株式会社日立製作所(以下、日立)は、ダークデータと呼ばれる企業に蓄積されたビッグデータの1種であるが、分析が困難であるため未使用のまま残され有効に活用されていないでいる、または保有していることさえ認識されていない膨大なデータに着目し、これより新たな価値を見出す「データ抽出ソリューション」の販売を6月23日より開始した。
日常生活やビジネスにおいて、デジタルが欠かせない存在になっている今、ビッグデータの活用による事業、経営の変革は、DX(デジタルトランスフォーメーション)の実現に向け、あまねく経営者たちに共通する問題となっている。日々、社会や企業活動、事業運営により莫大なデータが生み出される中集積されていくビッグデータのうち、約50%が現時点で利活用されていないダークデータ、約30%がビジネス上利用価値のないROTデータ(Redundant(冗長な)、Obsolete(時代遅れの)、Trivial(無駄な))と言われている。ダークデータにはドキュメントやEメールなどのテキストタイプのものと、動画、画像、音声データのようなメディアタイプのものがあり、このうちメディアタイプのものとドキュメントデータのうちフォーマットが定型または準定型の帳票などは、近年、AIを活用した画像認識、画像解析技術やOCR技術(※1)の発達により、高精度な読み取り、情報抽出が可能となってきており従来手作業でやっていた伝票入力作業などの効率化が進んでいる。しかし、請求書、診療明細書や有価証券報告書など発行元により表記・様式が異なる非定型ドキュメントについては情報の読み取り、抽出、デジタル化の自動化が困難な状況が続いていた。
今回提供が開始した「データ抽出ソリューション」はこのような一般的なAI OCRでは解析が困難な非定型ドキュメントのデータ抽出作業を高度に自動化するものである。日立が2016年より参画しているスタンフォード大学工学系研究科の企業参画プログラムにおいて開発されたAIを中核とした分析エンジンを活用し、人間が通常文章の読解をする際ただ文字を読んでいくのではなく、段落など文章全体を眺めたり、重複する単語に注目するように、表、図、テキストの座標などドキュメント内の多様な視覚情報を特徴として捉え、文章の構造全体を解析する「情報表現構造解析技術」によって、これまで困難であった多種多様な非定型ドキュメントのデータ抽出が可能となった。例を挙げると、発行元によって意味は同じであるが用語が異なる場合(日付の表記「発行日」「診察日」など)でも文章の構造を解析することにより同じ意味をさす単語だと認識可能であり、また、抽出対象が複数ページにわたっている場合などでも、対象項目を抽出することが可能である。加えて、複雑な表などにおいても、1:Nの関係(※2)が認識可能であるため高精度なデータ抽出が可能となっている。また、モデル構築において、少ない教師データでAIモデルの生成が可能な「弱教師学習技術」により、通常人の手で行うデータラベリング作業(※3)を自動化できるため、導入時のモデル構築や精度の維持が容易になり、モデル改修(追加学習や再学習)にも臨機応変に対応することができる。このソリューションを活用することにより、人的リソースをより効率的に活用することができ、得たデータを用い経営課題の解決や業務改革、新たな価値の創出へ向け増進することにつながる。 なお、「データ抽出ソリューション」導入時には、日立の専門エンジニアが顧客の業務内容に応じたモデル構築等の導入、運用コンサルティングを行うとのことだ。
※1 OCR(Optical Character Reader)とは、手書きの帳票やpdf、画像データのテキスト部分を認識、抽出し、デジタルデータに変換する技術のことであり、光学的文字認識とも呼ばれ、生産性を高めるツールとして活用されている。
※2 1つの区分に対し、複数項目が所属、紐づいている関係のこと。
※3 データラベリングとはデータの指定作業であり、AIに学習させる際、学習させるデータに正解となる分類情報を付与することをいう。例えば画像中から「自動車」、「人間」、「道」などがそれぞれどれにあたるかの割り当ての付与や、人間の顔の画像データにその顔の表情はどの感情にあたるかを表記したりすることなどである。 データラベリングの解説記事はこちら
リリースはこちら