コロナ禍によりリモートワークや働き方改革が叫ばれ、業務プロセスのデジタル化が進められている。その影響もあり、AI-OCRへの需要が急激に拡大した。市場も急速に拡大し、2022年には通常のOCRの市場規模を超えるとも予想されている。ベンダーに関しては、日本市場だけでも20社程を数える。このようにAI-OCR市場が活況を呈しているが、ユーザーにとっては何を選んだらいいか非常に分かりづらい状況である。よって今回は様々なAI-OCRソフトを整理し、分かりやすく説明したいと思う。ただし、今回扱うのは名刺やレシートといった特定の文書のみに限り高精度で読み取ることができる専用のOCRではなく、汎用OCRについて紹介したいと思う。
OCRの歴史
初めにOCRについて説明したいと思う。OCR(光学文字認識)は約100年前に電信技術の拡張と視覚障害者が文字を読むために研究され始めた。最初に商用化されたのは1955年で、販売報告書の読み取りに使われた。日本では、1968年、郵便事業のオートメーション化を推進するために郵便番号が導入され、これを読み取るために使用されはじめた。
1970年代になるとアルファベットやカタカナも読み取れるようになった。1980年代にかけて研究が進み、低品質活字、様々なフォントの種類やそれが混合して使われている場合、等幅フォントでない場合でも読み取りが可能になっていった。1980年代になると一般ユーザーにも提供されるようになり、高品質活字であれば漢字の読み取りも可能になった。2000年代になるとディープラーニングの研究が活発に進み、それに伴いその技術のOCRへの応用が進んだ。2017年頃になるとディープラーニングを活用したOCRエンジンという意味合いで「AI-OCR」という言葉が使われ始めた。
AI-OCRとOCRの違い
「AI -OCR」は、OCRにAI技術を加えたものだ。機械学習においてスキャニングと認識を繰り返すことによって学習し、自動的に精度を高めていくことが可能である。また、書類の形式によらず、あらゆる書類から手書き文字を認識することができ、人の手による確認作業を減らすことができる。さらに、RPAとOCRの連携により申込書を顧客データベースに転記するような単純作業を人間がする必要がなくなる。
AI-OCR製品一覧
- 「LAQOOT®」 株式会社ユニメディア
紙の帳票のデータ化に特化したAI-OCRで、活字だけでなく、手書き文字でも理論上100%のデータ化精度を実現。ブラウザ対応のため、専用の環境やシステムエンジニアは不要。
https://laqoot.com/ - 「ディープシグマDPA」 株式会社シグマクシス
レイアウト認識、文字認識、項目補正の全てのステップを通じて、99%以上の精度を実現。数百枚の画像データで学習が可能なため、様々な書類形式に短期間で対応が可能。
https://www.sigmaxyz.com/business/deepsigmadpa/ - 「スマートOCR」 株式会社インフォディオ
スマートOCRは、アップロードするだけで非定型紙帳票を事前定義なしにデータ化。
https://www.smartocr.jp/ - 「活文 Intelligent Data Extractor」 株式会社日立ソリューションズ
AIが帳票のフォーマットを自動で学習するので、書類の形式を問わず、さまざまな帳票のデータ化が可能。AIにより、どの項目を読み取るかの抽出精度の向上を実現。
https://www.hitachi-solutions.co.jp/katsubun/sp/ide/ - 「AIRead」 アライズイノベーション株式会社
オンプレミス、クラウドなど、様々な形態での利用が可能。定型の書類はもちろん、請求書などフォーマットが異なる非定型書類の読み取ることができる。
https://airead.ai/ - 「SPA」 ウイングアーク1st株式会社
SPAは読み取る文書に合わせて4つのAI OCRエンジンの中から最適なものを選択することができるため、コストを低く抑えられる。非定型帳票のデータ化が可能。データコンペア機能を利用することで、確認・修正作業の完全自動化を実現。
https://www.wingarc.com/ - 「Tegaki」 株式会社Cogent Labs
手書き文字を高速かつ高精度に読み取り、様々な書類を素早くデータ化。その精度は99.2%に及ぶ。活字・手書き文字両方に加え チェックボックスなどを一つのサービスで読み取れるため、フォーム毎にOCRとの使い分けや選別をする手間が不要である。また、他言語や業界用語にも対応。さらにオンプレミス、クラウドなど、様々な形態での利用が可能。
https://www.tegaki.ai/
まとめ
ここまで多くの製品を見てきたが、現在のAI-OCRは通常のOCRに比べまだまだ高価である。研究・開発が進むにつれて価格が低下することが望まれる。また、今回紹介した製品はクラウド上で動くものが中心であったが、病院や官公庁などへ導入されていくことを考えるとエッジコンピューティング化は避けられないであろう。もう一つの動きとして、すべての文書で万能に使えるエンジンは存在しない。複数のOCRエンジンやレイアウト解析エンジンを搭載し、それらを使い分ける複合OCRソリューションが今後伸びていくだろう。このように社会の急激な変化の煽りを受け、AI-OCRはさらなる進化を遂げるだろう。